このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210504となっている論文です。

PDF登録状況(公開日: 20210504)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) NLPコースにおける条件付ランダムフィールド教育のためのフリップ教室モデル [全文訳有]

The Flipped Classroom model for teaching Conditional Random Fields in an NLP course ( http://arxiv.org/abs/2105.07850v1 )

ライセンス: CC BY-SA 4.0
Manex Agirrezabal(参考訳) 本稿では,自然言語処理科目における条件付ランダムフィールドの教育にフリップ型教室法を適用した経験について述べる。 我々は,認知的複雑性モデル(ブルームの分類学)との関係とともに発達した活動について述べる。 その後は、モデル自体に対する独自の反映と期待を提供します。 学生による評価から,その話題を学習し,一部の生徒に報奨を与えていると考えられる。 さらに,いくつかの欠点を議論し,その解決法を提案する。 私たちはその論文を将来的な研究で締めくくります。

In this article, we show and discuss our experience in applying the flipped classroom method for teaching Conditional Random Fields in a Natural Language Processing course. We present the activities that we developed together with their relationship to a cognitive complexity model (Bloom's taxonomy). After this, we provide our own reflections and expectations of the model itself. Based on the evaluation got from students, it seems that students learn about the topic and also that the method is rewarding for some students. Additionally, we discuss some shortcomings and we propose possible solutions to them. We conclude the paper with some possible future work.
翻訳日:2021-05-20 07:40:24 公開日:2021-05-04
# 人工知能のハード・チョイスとハード・リミット

Hard Choices and Hard Limits for Artificial Intelligence ( http://arxiv.org/abs/2105.07852v1 )

ライセンス: Link先を確認
Bryce Goodman(参考訳) 人工知能(AI)はより良い選択をするのに役立ちます。 これらの選択肢のいくつかは小さく、例えばどのルートで仕事をするか、どの音楽を聴くかなどです。 他にも、病気に対する治療方法や、犯罪に対する有罪判決の期間など、大きなものがある。 もしAIがこれらの大きな決定を手伝うことができれば、選択肢がより良くも悪くも、同等であっても、難しい選択にも役立ちます。 しかし、本稿の目的は、この見解が誤りであることを示すことである: パリティの事実は、AIができない、そして解決すべきでない決定と選択において、AIに厳しい制限があることを示している。

Artificial intelligence (AI) is supposed to help us make better choices. Some of these choices are small, like what route to take to work, or what music to listen to. Others are big, like what treatment to administer for a disease or how long to sentence someone for a crime. If AI can assist with these big decisions, we might think it can also help with hard choices, cases where alternatives are neither better, worse nor equal but on a par. The aim of this paper, however, is to show that this view is mistaken: the fact of parity shows that there are hard limits on AI in decision making and choices that AI cannot, and should not, resolve.
翻訳日:2021-05-18 17:21:38 公開日:2021-05-04
# クラス適応正規化による効率的な意味画像合成

Efficient Semantic Image Synthesis via Class-Adaptive Normalization ( http://arxiv.org/abs/2012.04644v2 )

ライセンス: Link先を確認
Zhentao Tan and Dongdong Chen and Qi Chu and Menglei Chai and Jing Liao and Mingming He and Lu Yuan and Gang Hua and Nenghai Yu(参考訳) 空間適応正規化(SPADE)は、最近、意味情報を洗い流すのを防ぐために、空間的に変化する変換で正規化活性化を調節する条件付き意味画像合成において、顕著に成功した。 その優れた性能にもかかわらず、箱の中の利点をより深く理解することは、この新しい構造によってもたらされる重要な計算とパラメータのオーバーヘッドを減らすのに役立っている。 本稿では,この空間適応正規化の有効性を深く分析し,その変調パラメータが,特に高分解能入力マスクにおいて,空間適応性よりも意味認識性により有益であることを示す。 この観察に触発されて,クラス適応正規化(clade,class-adaptiv e normalization)を提案する。 In order to further improve spatial-adaptiveness , we introduce intra-class positional map encoding calculated from semantic layouts to modulate the normalization parameters of CLADE and propose a truly spatially-adaptive variant of CLADE, namely CLADE-ICPE.Through extensive experiments on multiple challenging datasets, we demonstrate that the proposed CLADE can be generalized to different SPADE-based methods while achieving comparable generation quality compared to SPADE, but it is much more efficient with fewer extra parameters and lower computational cost. コードと事前訓練されたモデルは、 \url{https://github.com/t zt101/CLADE.git} で入手できる。

Spatially-adaptive normalization (SPADE) is remarkably successful recently in conditional semantic image synthesis \cite{park2019semantic}, which modulates the normalized activation with spatially-varying transformations learned from semantic layouts, to prevent the semantic information from being washed away. Despite its impressive performance, a more thorough understanding of the advantages inside the box is still highly demanded to help reduce the significant computation and parameter overhead introduced by this novel structure. In this paper, from a return-on-investment point of view, we conduct an in-depth analysis of the effectiveness of this spatially-adaptive normalization and observe that its modulation parameters benefit more from semantic-awareness rather than spatial-adaptiveness , especially for high-resolution input masks. Inspired by this observation, we propose class-adaptive normalization (CLADE), a lightweight but equally-effective variant that is only adaptive to semantic class. In order to further improve spatial-adaptiveness , we introduce intra-class positional map encoding calculated from semantic layouts to modulate the normalization parameters of CLADE and propose a truly spatially-adaptive variant of CLADE, namely CLADE-ICPE.Through extensive experiments on multiple challenging datasets, we demonstrate that the proposed CLADE can be generalized to different SPADE-based methods while achieving comparable generation quality compared to SPADE, but it is much more efficient with fewer extra parameters and lower computational cost. The code and pretrained models are available at \url{https://github.com/t zt101/CLADE.git}.
翻訳日:2021-05-16 20:58:15 公開日:2021-05-04
# ソフトブラウンオフセットサンプリングとオートエンコーダを用いた分散検出と生成

Out-of-distribution Detection and Generation using Soft Brownian Offset Sampling and Autoencoders ( http://arxiv.org/abs/2105.02965v1 )

ライセンス: Link先を確認
Felix M\"oller, Diego Botache, Denis Huseljic, Florian Heidecker, Maarten Bieshaar and Bernhard Sick(参考訳) ディープニューラルネットワークは、分散検出の改善によって部分的に修復される過信に苦しむことが多い。 そこで本研究では, 所定の分布内データセットに基づいて, 分布外データセットを生成できる新しい手法を提案する。 この新しいデータセットは、与えられたデータセットと機械学習タスクの配信外検出を改善するために使用できる。 このデータセットのサンプルは、分布内データセットに近い機能空間に関するものであり、したがって現実的で可視である。 したがって、このデータセットはニューラルネットワークの保護、すなわち一般化性能の検証にも使用することができる。 提案手法は,まずオートエンコーダを用いて分布内データセットの適切な表現を生成し,提案するソフトブラウンオフセット法を用いて変換する。 変換後、autoencoderのデコーダ部分は、これらの暗黙の分散サンプルを生成することができる。 この新たに生成されたデータセットは、他のデータセットと混在し、配布外分類器のトレーニングを改善し、パフォーマンスを向上させる。 実験により, 合成データを用いた時系列化が期待できることを示した。 また,本手法を用いることで,MNISTデータセットの分布外検出を改善することができることを示す。 最後に, 自動走行のための軌道予測アルゴリズムの検証に使用可能な, 分布外軌道の合成生成に関する別のケーススタディを提供する。

Deep neural networks often suffer from overconfidence which can be partly remedied by improved out-of-distribution detection. For this purpose, we propose a novel approach that allows for the generation of out-of-distribution datasets based on a given in-distribution dataset. This new dataset can then be used to improve out-of-distribution detection for the given dataset and machine learning task at hand. The samples in this dataset are with respect to the feature space close to the in-distribution dataset and therefore realistic and plausible. Hence, this dataset can also be used to safeguard neural networks, i.e., to validate the generalization performance. Our approach first generates suitable representations of an in-distribution dataset using an autoencoder and then transforms them using our novel proposed Soft Brownian Offset method. After transformation, the decoder part of the autoencoder allows for the generation of these implicit out-of-distribution samples. This newly generated dataset then allows for mixing with other datasets and thus improved training of an out-of-distribution classifier, increasing its performance. Experimentally, we show that our approach is promising for time series using synthetic data. Using our new method, we also show in a quantitative case study that we can improve the out-of-distribution detection for the MNIST dataset. Finally, we provide another case study on the synthetic generation of out-of-distribution trajectories, which can be used to validate trajectory prediction algorithms for automated driving.
翻訳日:2021-05-11 08:38:04 公開日:2021-05-04
# 産業用IoTにおける複合イベント処理とTiny Machine Learningの相乗効果

The Synergy of Complex Event Processing and Tiny Machine Learning in Industrial IoT ( http://arxiv.org/abs/2105.03371v1 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic, Thomas Runkler(参考訳) 包括的なネットワーク、ビッグデータ、人工知能に焦点を当てたIIoT(Industrial Internet-of-Things)は、工場運用における効率性と堅牢性を促進する。 様々なセンサーやフィールドデバイスが中心的な役割を担い、製造に関する洞察を提供する大量のリアルタイムデータを生成する。 複合イベント処理(CEP)と機械学習(ML)の相乗効果は、IIoTにおいて、異種データストリームのパターンを特定し、生データを具体的な事実に融合するために、ここ数年で活発に開発されている。 従来の計算中心のパラダイムでは、生のフィールドデータは継続的にクラウドに送られ、中央に処理される。 IIoTデバイスが普及し、ユビキタス化するにつれて、そのような量のデータを送信することはエネルギー集約的で、インターセプトされやすく、レイテンシが高いため、懸念が高まっている。 データ中心のパラダイムは、基本的にこれらの問題を解決するために、IIoTを使用してデバイス上のデバイス上でのMLとCEPを分散化し、データを主にエッジデバイスに保持し、通信を最小化する。 しかし、ほとんどのIIoTエッジデバイスは低消費電力で計算的に制約されるように設計されているため、これは必ずしも大きな成果ではない。 本稿では,分散センサネットワークのエッジにおけるMLとCEPのシナジーを利用するフレームワークを提案する。 小さなMLとマイクロCEPを活用することで、計算をクラウドから電力制約のあるIIoTデバイスに移行し、ユーザはプログラム全体を再アップロードすることなく、オンデバイスMLモデルとCEP推論ロジックを柔軟にオンザフライで適用することができる。 最後に, 機械安全モニタリングの産業利用事例を用いて, 提案手法を評価し, その有効性と実現可能性を示す。

Focusing on comprehensive networking, big data, and artificial intelligence, the Industrial Internet-of-Things (IIoT) facilitates efficiency and robustness in factory operations. Various sensors and field devices play a central role, as they generate a vast amount of real-time data that can provide insights into manufacturing. The synergy of complex event processing (CEP) and machine learning (ML) has been developed actively in the last years in IIoT to identify patterns in heterogeneous data streams and fuse raw data into tangible facts. In a traditional compute-centric paradigm, the raw field data are continuously sent to the cloud and processed centrally. As IIoT devices become increasingly pervasive and ubiquitous, concerns are raised since transmitting such amount of data is energy-intensive, vulnerable to be intercepted, and subjected to high latency. The data-centric paradigm can essentially solve these problems by empowering IIoT to perform decentralized on-device ML and CEP, keeping data primarily on edge devices and minimizing communications. However, this is no mean feat because most IIoT edge devices are designed to be computationally constrained with low power consumption. This paper proposes a framework that exploits ML and CEP's synergy at the edge in distributed sensor networks. By leveraging tiny ML and micro CEP, we shift the computation from the cloud to the power-constrained IIoT devices and allow users to adapt the on-device ML model and the CEP reasoning logic flexibly on the fly without requiring to reupload the whole program. Lastly, we evaluate the proposed solution and show its effectiveness and feasibility using an industrial use case of machine safety monitoring.
翻訳日:2021-05-11 08:37:41 公開日:2021-05-04
# 密度・畳み込みニューラルネットワークを用いたFitzHugh-Nagumo ODEへのパラメータ推定

Parameter Estimation with Dense and Convolutional Neural Networks Applied to the FitzHugh-Nagumo ODE ( http://arxiv.org/abs/2012.06691v3 )

ライセンス: Link先を確認
Johann Rudi, Julie Bessac, Amanda Lenzi(参考訳) 機械学習アルゴリズムは、地図の構造と性質に関する弱い仮定の下での非線形写像の近似に成功している。 そこで我々は,一般微分方程式(ODE)の非線形系からなるFitzHugh-Nagumoモデルのパラメータを推定するために,高密度層と畳み込み層を用いたディープニューラルネットワークを提案する。 本研究では, 生体ニューロンの動的スパイキング膜電位を表す時系列の形式を, ODEの解から得られたデータからモデルパラメータ推定のモデルパラメータ推定を近似するために, ニューラルネットワークを用いた。 この動的モデルは,非凸・非線形なデータ不適合項を持ち,パラメータに対する弱情報のみを許すという,推論環境で生じる計算上の問題のために,このモデルをターゲットにしている。 これらの課題により、従来の最適化は失敗し、代替アルゴリズムは大きな計算コストを示す。 ニューラルネットワークから得られたモデルパラメータの予測誤差を定量化し,観測データにおけるノイズの有無にかかわらず,ネットワークアーキテクチャの効果を検討する。 ニューラルネットワークに基づく再構成マップの枠組みを一般化し、自己相関観測ノイズのODEパラメータとパラメータを同時に推定する。 その結果,深層ニューラルネットワークは動的モデルや確率過程においてパラメータを推定する可能性があり,フィッツヒュー・ナグモモデルではパラメータを正確に予測できることがわかった。

Machine learning algorithms have been successfully used to approximate nonlinear maps under weak assumptions on the structure and properties of the maps. We present deep neural networks using dense and convolutional layers to solve an inverse problem, where we seek to estimate parameters of a FitzHugh-Nagumo model, which consists of a nonlinear system of ordinary differential equations (ODEs). We employ the neural networks to approximate reconstruction maps for model parameter estimation from observational data, where the data comes from the solution of the ODE and takes the form of a time series representing dynamically spiking membrane potential of a biological neuron. We target this dynamical model because of the computational challenges it poses in an inference setting, namely, having a highly nonlinear and nonconvex data misfit term and permitting only weakly informative priors on parameters. These challenges cause traditional optimization to fail and alternative algorithms to exhibit large computational costs. We quantify the prediction errors of model parameters obtained from the neural networks and investigate the effects of network architectures with and without the presence of noise in observational data. We generalize our framework for neural network-based reconstruction maps to simultaneously estimate ODE parameters and parameters of autocorrelated observational noise. Our results demonstrate that deep neural networks have the potential to estimate parameters in dynamical models and stochastic processes, and they are capable of predicting parameters accurately for the FitzHugh-Nagumo model.
翻訳日:2021-05-10 05:22:20 公開日:2021-05-04
# (参考訳) 不確かさを意識した乳がん診断の特徴選択 [全文訳有]

Uncertainty-aware INVASE: Enhanced Breast Cancer Diagnosis Feature Selection ( http://arxiv.org/abs/2105.02693v1 )

ライセンス: CC BY 4.0
Jia-Xing Zhong, Hongbo Zhang(参考訳) 本稿では,医療問題の予測信頼度を定量化する不確実性を考慮したINVASEを提案する。 学習可能なガウス分布を導入することで、不確かさの程度を測定するためにそれらの分散をレバーアージする。 バニラINVASEに基づいて、予測器における不確実な定量化モジュールとセレクタにおける報酬形成モジュールという2つの追加モジュールが提案されている。 UCI-WDBCデータセットに関する広範な実験を行った。 特に,提案手法は,約20%のクエリでほぼすべての予測バイアスを除去するが,不確実性には100%に近いクエリを必要とする。 詳細なチュートリアルを備えたオープンソース実装は、https://github.com/j x-zhong-for-academic -purpose/uncertainty -aware-invase/blob/m ain/tutorialinvase%2 b.ipynbで入手できる。

In this paper, we present an uncertainty-aware INVASE to quantify predictive confidence of healthcare problem. By introducing learnable Gaussian distributions, we lever-age their variances to measure the degree of uncertainty. Based on the vanilla INVASE, two additional modules are proposed, i.e., an uncertainty quantification module in the predictor, and a reward shaping module in the selector. We conduct extensive experiments on UCI-WDBC dataset. Notably, our method eliminates almost all predictive bias with only about 20% queries, while the uncertainty-agnostic counterpart requires nearly 100% queries. The open-source implementation with a detailed tutorial is available at https://github.com/j x-zhong-for-academic -purpose/Uncertainty -aware-INVASE/blob/m ain/tutorialinvase%2 B.ipynb.
翻訳日:2021-05-08 04:37:35 公開日:2021-05-04
# (参考訳) 深度画像を用いた5歳未満児の身長推定 [全文訳有]

Height Estimation of Children under Five Years using Depth Images ( http://arxiv.org/abs/2105.01688v1 )

ライセンス: CC BY 4.0
Anusua Trivedi, Mohit Jain, Nikhil Kumar Gupta, Markus Hinsche, Prashant Singh, Markus Matiaschek, Tristan Behrens, Mirco Militeri, Cameron Birge, Shivangi Kaushik, Archisman Mohapatra, Rita Chatterjee, Rahul Dodhia, Juan Lavista Ferres(参考訳) 栄養失調は世界的な健康危機であり、5歳未満の子供の間では主要な死因である。 栄養失調の検出には、体重、身長、中高年の腕周囲の計測が必要である。 しかし、特に世界南部では資源が限られているため、正確に測定することは困難である。 本研究では,スマートフォンを用いた深度画像から5歳未満の立位児の身長を推定するためのCNNに基づくアプローチを提案する。 SMART方法論マニュアル[5]によると、高さの許容精度は1.4cm未満である。 87131の深度画像でディープラーニングモデルをトレーニングした結果,57064のテスト画像では平均平均絶対誤差が1.64%に達した。 70.3%のテスト画像では、1.4cmの範囲で正確に身長を推定した。 そこで本提案手法は,5歳未満の健常児のスタント(低身長)を正確に検出できる。

Malnutrition is a global health crisis and is the leading cause of death among children under five. Detecting malnutrition requires anthropometric measurements of weight, height, and middle-upper arm circumference. However, measuring them accurately is a challenge, especially in the global south, due to limited resources. In this work, we propose a CNN-based approach to estimate the height of standing children under five years from depth images collected using a smart-phone. According to the SMART Methodology Manual [5], the acceptable accuracy for height is less than 1.4 cm. On training our deep learning model on 87131 depth images, our model achieved an average mean absolute error of 1.64% on 57064 test images. For 70.3% test images, we estimated height accurately within the acceptable 1.4 cm range. Thus, our proposed solution can accurately detect stunting (low height-for-age) in standing children below five years of age.
翻訳日:2021-05-07 01:11:28 公開日:2021-05-04
# (参考訳) インプリント重量法による胸部X線画像からのCOVID-19検出 [全文訳有]

COVID-19 Detection from Chest X-ray Images using Imprinted Weights Approach ( http://arxiv.org/abs/2105.01710v1 )

ライセンス: CC BY 4.0
Jianxing Zhang, Pengcheng Xi, Ashkan Ebadi, Hilda Azimi, Stephane Tremblay, Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の人口の豊かさに打撃を与えている。 このパンデミックは、ウイルスとその変異体の感染率の高さから、非常に顕著である。 感染を止める最も効果的な方法の1つは、迅速な診断である。 逆転写-ポリメラーゼ鎖反応 (RT-PCR) は, 経時的, 時間的, 手間, 短供給である。 胸部X線撮影は、新型コロナウイルス(COVID-19)の代替スクリーニング法であり、コンピュータ支援診断(CAD)は、低コストで高速で実現可能であることが証明されているが、CADモデルのトレーニングの課題の1つは、特にパンデミックの開始時に、訓練データの限られた数である。 感染曲線の平坦化に急速かつ安価に診断を行う必要がある場合、これは極めて顕著となる。 この課題に対処するために,肺炎などの既往の疾患からのサンプルを多量に活用して,インプリントウェイト(inprinted weights)という低ショット学習手法を提案する。

The COVID-19 pandemic has had devastating effects on the well-being of the global population. The pandemic has been so prominent partly due to the high infection rate of the virus and its variants. In response, one of the most effective ways to stop infection is rapid diagnosis. The main-stream screening method, reverse transcription-polyme rase chain reaction (RT-PCR), is time-consuming, laborious and in short supply. Chest radiography is an alternative screening method for the COVID-19 and computer-aided diagnosis (CAD) has proven to be a viable solution at low cost and with fast speed; however, one of the challenges in training the CAD models is the limited number of training data, especially at the onset of the pandemic. This becomes outstanding precisely when the quick and cheap type of diagnosis is critically needed for flattening the infection curve. To address this challenge, we propose the use of a low-shot learning approach named imprinted weights, taking advantage of the abundance of samples from known illnesses such as pneumonia to improve the detection performance on COVID-19.
翻訳日:2021-05-07 01:05:51 公開日:2021-05-04
# (参考訳) KNNとグローバル特徴データベースを用いた高速部分的ビデオコピー検出 [全文訳有]

A Fast Partial Video Copy Detection Using KNN and Global Feature Database ( http://arxiv.org/abs/2105.01713v1 )

ライセンス: CC BY 4.0
Weijun Tan, Hongwei Guo, Rushuai Liu(参考訳) 本稿では,高速な部分的ビデオコピー検出フレームワークを提案する。 このフレームワークでは、参照ビデオのフレーム機能はすべて、kn検索可能なデータベースにまとめられる。 すべての参照ビデオをスキャンする代わりに、クエリビデオセグメントはグローバル機能データベースで高速なKNN検索を行う。 返された結果は、候補ビデオの短いリストを生成するために使用される。 修正された時間ネットワークを使用して、候補ビデオのコピーセグメントをローカライズする。 我々はVCDBデータセット上で異なるCNN機能の選択を評価する。 われわれのベンチマークF1スコアは、アートの状態を大きなマージンで上回っている。

We propose a fast partial video copy detection framework in this paper. In this framework all frame features of the reference videos are organized in a KNN searchable database. Instead of scanning all reference videos, the query video segment does a fast KNN search in the global feature database. The returned results are used to generate a short list of candidate videos. A modified temporal network is then used to localize the copy segment in the candidate videos. We evaluate different choice of CNN features on the VCDB dataset. Our benchmark F1 score exceeds the state of the art by a big margin.
翻訳日:2021-05-07 01:00:32 公開日:2021-05-04
# (参考訳) ドリフト特徴:vvvにおける自動rrls同定の文脈における検出と評価

Drifting Features: Detection and evaluation in the context ofautomatic RRLs identification in VVV ( http://arxiv.org/abs/2105.01714v1 )

ライセンス: CC BY 4.0
J. B. Cabral, M. Lares, S. Gurovich, D. Minniti, P. M. Granitto(参考訳) 現代の天文学的スカイサーベイのほとんどは、人間が分析できるよりも速くデータを生成するため、機械学習(ML)は天文学の中心的なツールとなっている。 現代のML法は、いくつかの実験的誤りに対して高い耐性を持つと特徴付けられる。 しかし,統計学的手法では容易に検出できない長距離データや長時間データの変化は,これらの手法に悪影響を及ぼす可能性がある。 我々は、これらの潜在的有害な特徴を特定するために、革新的な方法でmlメソッドを使用して、この問題に対処するための新しい戦略を開発した。 本稿では,データ特徴量で測定した特性の小さな変化に関連したドリフト特徴の概念について紹介し,考察する。 先行研究に基づいてvvvにおけるrrlの同定を行い,ドリフト特徴の検出手法を提案する。 提案手法では,多種多様なソース(主に「点源」)の起源のタイルを分類器に学習させ,ドリフト特徴の候補を見つけるタスクに関係のある特徴を選択する。 本手法は,原産地のタイルに関する有用な情報を含む特徴の少ない集合を効率的に同定できることを示す。 VVVでRRLを検出する特別な例として、ドリフト特徴が主に色指数に関係していることが分かる。 一方, この問題に明確なドリフト特徴があるとしても, RRLの識別にはほとんど敏感であることを示す。 ドリフト特徴はML手法で効率的に識別できる。 しかし,本例では,ドリフト特徴の除去はrrlの識別を改善しない。

As most of the modern astronomical sky surveys produce data faster than humans can analyze it, Machine Learning (ML) has become a central tool in Astronomy. Modern ML methods can be characterized as highly resistant to some experimental errors. However, small changes on the data over long distances or long periods of time, which cannot be easily detected by statistical methods, can be harmful to these methods. We develop a new strategy to cope with this problem, also using ML methods in an innovative way, to identify these potentially harmful features. We introduce and discuss the notion of Drifting Features, related with small changes in the properties as measured in the data features. We use the identification of RRLs in VVV based on an earlier work and introduce a method for detecting Drifting Features. Our method forces a classifier to learn the tile of origin of diverse sources (mostly stellar 'point sources'), and select the features more relevant to the task of finding candidates to Drifting Features. We show that this method can efficiently identify a reduced set of features that contains useful information about the tile of origin of the sources. For our particular example of detecting RRLs in VVV, we find that Drifting Features are mostly related to color indices. On the other hand, we show that, even if we have a clear set of Drifting Features in our problem, they are mostly insensitive to the identification of RRLs. Drifting Features can be efficiently identified using ML methods. However, in our example, removing Drifting Features does not improve the identification of RRLs.
翻訳日:2021-05-07 00:51:49 公開日:2021-05-04
# (参考訳) 都市デザインのためのGAN [全文訳有]

GANs for Urban Design ( http://arxiv.org/abs/2105.01727v1 )

ライセンス: CC BY 4.0
Stanislava Fedorova(参考訳) 機械学習とビッグデータツールの開発と普及は、分析や設計の道具として使用できる、アーキテクトや都市計画者のための新しいツールを提供する。 本稿では, 都市ブロックの設計における生成型逆ネットワークの応用について検討した。 本研究は,都市の形態的特徴に適応可能な柔軟なモデルを提案する。 本手法は,都市に典型的な都市ブロックのパラメータを明示的に定義せず,既存の都市コンテキストから学習する。 このアプローチは、ミラノ、アムステルダム、タリン、トリノ、ベンガルルといった異なる形態の都市に適用され、モデルのパフォーマンスと異なる都市間のスタイル翻訳の可能性を確認する。 データは都市のOpen StreetmapとOpen Dataポータルから収集される。 本研究は,実験の結果と定量的・質的評価について述べる。

Development and diffusion of machine learning and big data tools provide a new tool for architects and urban planners that could be used as analytical or design instruments. The topic investigated in this paper is the application of Generative Adversarial Networks to the design of an urban block. The research presents a flexible model able to adapt to the morphological characteristics of a city. This method does not define explicitly any of the parameters of an urban block typical for a city, the algorithm learns them from the existing urban context. This approach has been applied to the cities with different morphology: Milan, Amsterdam, Tallinn, Turin, and Bengaluru in order to see the performance of the model and the possibility of style translation between different cities. The data are gathered from Openstreetmap and Open Data portals of the cities. This research presents the results of the experiments and their quantitative and qualitative evaluation.
翻訳日:2021-05-07 00:37:41 公開日:2021-05-04
# (参考訳) 確率的コックス回帰残差モデルと多重計算を用いた生命予後予測規則の校正 : クロスバリデーションアセスメントによる欠落予測データを考慮した検討

Calibration of prediction rules for life-time outcomes using prognostic Cox regression survival models and multiple imputations to account for missing predictor data with cross-validatory assessment ( http://arxiv.org/abs/2105.01733v1 )

ライセンス: CC BY 4.0
Bart J. A. Mertens(参考訳) 本稿では,Mertensなどの方法論を拡張した。 al (2020, biometrical journal) は、検閲の対象であり、インプテーションが欠落した値の考慮に使用される場合の、寿命(生存)の結果の研究である。 我々は、キャリブレーションデータと、新たに予測される-観測(検証)の両方において、欠落した値が発生する問題を考える。 私たちはcoxモデルに焦点を合わせます。 検閲対象の生存モデルにおけるインプテーションと予測キャリブレーションを組み合わせた手法について述べる。 クロスバリデーションへの応用について論じる。 結論は二項結果のみの研究に限定された最初の論文を広く裏付けるものである。 特に、予測平均化は、ルービンの規則を直接適用することとは対照的に、より優れた統計特性、特により小さな予測変動を持っているように見える。 ベースラインハザードを扱うための個別の手法は、Rubinのルールベースのアプローチを用いて論じる。

In this paper, we expand the methodology presented in Mertens et. al (2020, Biometrical Journal) to the study of life-time (survival) outcome which is subject to censoring and when imputation is used to account for missing values. We consider the problem where missing values can occur in both the calibration data as well as newly - to-be-predicted - observations (validation). We focus on the Cox model. Methods are described to combine imputation with predictive calibration in survival modeling subject to censoring. Application to cross-validation is discussed. We demonstrate how conclusions broadly confirm the first paper which restricted to the study of binary outcomes only. Specifically prediction-averaging appears to have superior statistical properties, especially smaller predictive variation, as opposed to a direct application of Rubin's rules. Distinct methods for dealing with the baseline hazards are discussed when using Rubin's rules-based approaches.
翻訳日:2021-05-07 00:27:26 公開日:2021-05-04
# (参考訳) 深部ニューラルネットワークを用いた定量的サセプティビリティマッピングにおける動きアーチファクトの低減 [全文訳有]

Motion Artifact Reduction in Quantitative Susceptibility Mapping using Deep Neural Network ( http://arxiv.org/abs/2105.01746v1 )

ライセンス: CC BY 4.0
Chao Li, Hang Zhang, Jinwei Zhang, Pascal Spincemaille, Thanh D.Nguyen, Yi Wang(参考訳) 深層学習を用いた定量的サセプティビリティマッピングにおける動きアーチファクトの削減手法を提案する。 ランダムに生成した動きプロファイルを持つアフィンモーションモデルを用いて、動作破損したQSM画像をシミュレートする。 シミュレーションQSM画像は、その動きのない参照と組み合わせて、教師あり学習を用いてニューラルネットワークを訓練する。 トレーニングされたネットワークは、健康なボランティアやパーキンソン病の患者で、目に見えない動きによるQSM画像でテストされる。 その結果, 鳴き声やゴースト音などの運動人工物が抑制された。

An approach to reduce motion artifacts in Quantitative Susceptibility Mapping using deep learning is proposed. We use an affine motion model with randomly created motion profiles to simulate motion-corrupted QSM images. The simulated QSM image is paired with its motion-free reference to train a neural network using supervised learning. The trained network is tested on unseen simulated motion-corrupted QSM images, in healthy volunteers and in Parkinson's disease patients. The results show that motion artifacts, such as ringing and ghosting, were successfully suppressed.
翻訳日:2021-05-07 00:25:55 公開日:2021-05-04
# (参考訳) 情報複雑性と一般化境界 [全文訳有]

Information Complexity and Generalization Bounds ( http://arxiv.org/abs/2105.01747v1 )

ライセンス: CC BY 4.0
Pradeep Kr. Banerjee, Guido Mont\'ufar(参考訳) ランダム化学習アルゴリズムの一般化誤差について,PAC-Bayesian と相互情報に基づく上限の統一画像を提案する。 このように、トン・チャンの情報指数的不等式(IEI)は、両方のフレーバーの境界を構成する一般的なレシピを提供する。 また,本論文におけるいくつかの重要な成果を,損失関数の異なる仮定下でのieiの単純な系譜として得ることができることを示した。 さらに,データ依存先行関数と非有界損失関数の新たな境界を求める。 境界を最適化することでgibbsアルゴリズムの変種が生まれ、ニューラルネットワークを用いた学習の2つの実用的な例、すなわちエントロピーとpac-bayes-sgdについて論じる。 さらに,学習損失の2次曲率情報を含むPAC-ベイジアン境界を示すために,オッカムの因子論を用いた。

We present a unifying picture of PAC-Bayesian and mutual information-based upper bounds on the generalization error of randomized learning algorithms. As we show, Tong Zhang's information exponential inequality (IEI) gives a general recipe for constructing bounds of both flavors. We show that several important results in the literature can be obtained as simple corollaries of the IEI under different assumptions on the loss function. Moreover, we obtain new bounds for data-dependent priors and unbounded loss functions. Optimizing the bounds gives rise to variants of the Gibbs algorithm, for which we discuss two practical examples for learning with neural networks, namely, Entropy- and PAC-Bayes- SGD. Further, we use an Occam's factor argument to show a PAC-Bayesian bound that incorporates second-order curvature information of the training loss.
翻訳日:2021-05-07 00:12:54 公開日:2021-05-04
# (参考訳) 次元化技術と遺伝的アルゴリズムを用いた卵巣癌検出 [全文訳有]

Ovarian Cancer Detection based on Dimensionality Reduction Techniques and Genetic Algorithm ( http://arxiv.org/abs/2105.01748v1 )

ライセンス: CC BY 4.0
Ahmed Farag Seddik, Hassan Mostafa Ahmed(参考訳) 本研究では, 血清seldi (surface-enhanced laser de absorption and ionization) mass spectrum (ms) データセットを用いて, 正常血清からプロテオミクス癌性血清を同定する機能を選択する。 特徴の選択技術が適用され、分類技術も適用されている。 特徴選択手法として,PCA (Principal Component Analysis ) とGA (Genetic Algorithm) の性能評価を選択し,分類手法としてLDA (Linear Discriminant Analysis) とニューラルネットを選択し,癌パターンの同定における特徴の評価を行った。 その結果,特徴選択法と分類法の組み合わせで,第1に特徴選択のためのPCA+(t-test)法,第1に精度追跡のためのLDAが93.0233 %,第2に遺伝的アルゴリズムとニューラルネットワークが100%の精度で得られた。 そこで我々は, GAが特徴選択に有効であり, PCA法よりも癌パターン検出に有用であることが結論された。

In this research, we have two serum SELDI (surface-enhanced laser desorption and ionization) mass spectra (MS) datasets to be used to select features amongst them to identify proteomic cancerous serums from normal serums. Features selection techniques have been applied and classification techniques have been applied as well. Amongst the features selection techniques we have chosen to evaluate the performance of PCA (Principal Component Analysis ) and GA (Genetic algorithm), and amongst the classification techniques we have chosen the LDA (Linear Discriminant Analysis) and Neural networks so as to evaluate the ability of the selected features in identifying the cancerous patterns. Results were obtained for two combinations of features selection techniques and classification techniques, the first one was PCA+(t-test) technique for features selection and LDA for accuracy tracking yielded an accuracy of 93.0233 % , the other one was genetic algorithm and neural network yielded an accuracy of 100%. So, we conclude that GA is more efficient for features selection and hence for cancerous patterns detection than PCA technique.
翻訳日:2021-05-06 23:46:52 公開日:2021-05-04
# (参考訳) 低域テンソルと深さ3多重線形回路の再構成アルゴリズム

Reconstruction Algorithms for Low-Rank Tensors and Depth-3 Multilinear Circuits ( http://arxiv.org/abs/2105.01751v1 )

ライセンス: CC BY 4.0
Vishwas Bhargava, Shubhangi Saraf, Ilya Volkovich(参考訳) 深さ3$の算術回路のクラスに対して,新しい効率的なブラックボックス再構成アルゴリズムを提案する。 その結果、入力が定数ランクテンソルである場合に、テンソルランクを計算し、最適テンソル分解をランク1テンソルの和として求めるための最初の効率的なアルゴリズムが得られる。 より具体的には、一般の場上でランダム化された多項式時間と実数および以下のクラスの複素数に対して決定論的多項式時間で実行される効率的な学習アルゴリズムを提供する: (1) 定数トップファンイン$\Sigma\Pi\Sigma\{\sqcup_j X_j\}(k)$回路のセット・マルチ線形深さ-$3$。 その結果、テンソル階数計算と定数ランクテンソルの最適テンソル分解のための第1多項式時間アルゴリズムが得られた。 この結果は任意の$d$に対して$d$ 次元テンソルを持つが、$d=3$でも興味深い。 2) 常に多くの線形形式(Sigma\wedge\Sigma$ circuits)のパワーの和。 その結果、テンソル階数計算と定数ランク対称テンソルの最適テンソル分解のための第1多項式時間アルゴリズムが得られた。 (3) 定数トップファンインのマルチリニア深さ3回路(マルチリニア$\Sigma\Pi\Sigma(k)$ 回路)。 我々のアルゴリズムは、標数 0 または十分な特性を持つすべてのフィールドに作用する。 我々の研究に先立ち、既知の効率的なアルゴリズムは多項式サイズの有限体上のみであった(参照)。 Karnin-Shpilka 09')。 我々の研究に先立ち、最大ファンイン$k$が最大$$(シンハ16'とシンハ20'参照)のとき、大/無限フィールド上でも動作する$\sigma\pi\sigma(k)$ のサブクラスの多項式時間または副指数時間アルゴリズム(決定的またはランダム化)が知られている。

We give new and efficient black-box reconstruction algorithms for some classes of depth-$3$ arithmetic circuits. As a consequence, we obtain the first efficient algorithm for computing the tensor rank and for finding the optimal tensor decomposition as a sum of rank-one tensors when then input is a constant-rank tensor. More specifically, we provide efficient learning algorithms that run in randomized polynomial time over general fields and in deterministic polynomial time over the reals and the complex numbers for the following classes: (1) Set-multilinear depth-$3$ circuits of constant top fan-in $\Sigma\Pi\Sigma\{\sqcup_j X_j\}(k)$ circuits). As a consequence of our algorithm, we obtain the first polynomial time algorithm for tensor rank computation and optimal tensor decomposition of constant-rank tensors. This result holds for $d$ dimensional tensors for any $d$, but is interesting even for $d=3$. (2) Sums of powers of constantly many linear forms ($\Sigma\wedge\Sigma $ circuits). As a consequence we obtain the first polynomial-time algorithm for tensor rank computation and optimal tensor decomposition of constant-rank symmetric tensors. (3) Multilinear depth-3 circuits of constant top fan-in (multilinear $\Sigma\Pi\Sigma(k)$ circuits). Our algorithm works over all fields of characteristic 0 or large enough characteristic. Prior to our work the only efficient algorithms known were over polynomially-sized finite fields (see. Karnin-Shpilka 09'). Prior to our work, the only polynomial-time or even subexponential-time algorithms known (deterministic or randomized) for subclasses of $\Sigma\Pi\Sigma(k)$ circuits that also work over large/infinite fields were for the setting when the top fan-in $k$ is at most $2$ (see Sinha 16' and Sinha 20').
翻訳日:2021-05-06 23:40:41 公開日:2021-05-04
# (参考訳) waveglove: 複数の慣性センサを用いたトランスフォーマーベースのハンドジェスチャー認識 [全文訳有]

WaveGlove: Transformer-based hand gesture recognition using multiple inertial sensors ( http://arxiv.org/abs/2105.01753v1 )

ライセンス: CC BY 4.0
Matej Kr\'alik, Marek \v{S}uppa(参考訳) 慣性データに基づくハンドジェスチャ認識(HGR)は近年,単一のハンドヘルドセンサと単純なジェスチャーからなる語彙を利用した最先端のアプローチによって大きく成長している。 本研究では,複数の慣性センサの利点について検討する。 WaveGloveは、5つの慣性センサーを備えたグローブ型のカスタムハードウェアプロトタイプで、1万1000ドル以上のサンプルからなる2つのデータセットを取得する。 それらを以前の作業と同等にするために、他の公開データセットとともに正規化され、その後、新しく提案されたトランスフォーマーベースのアーキテクチャを含むジェスチャー認識の機械学習アプローチを評価するために使用される。 その結果,指の異なる複雑なジェスチャーでも高い精度で認識できることがわかった。 取得したデータセットに対するアブレーション調査では、複数のセンサーの重要性が示され、最大3つのセンサーを使用する場合のパフォーマンスが向上し、それ以上の大幅な改善はない。

Hand Gesture Recognition (HGR) based on inertial data has grown considerably in recent years, with the state-of-the-art approaches utilizing a single handheld sensor and a vocabulary comprised of simple gestures. In this work we explore the benefits of using multiple inertial sensors. Using WaveGlove, a custom hardware prototype in the form of a glove with five inertial sensors, we acquire two datasets consisting of over $11000$ samples. To make them comparable with prior work, they are normalized along with $9$ other publicly available datasets, and subsequently used to evaluate a range of Machine Learning approaches for gesture recognition, including a newly proposed Transformer-based architecture. Our results show that even complex gestures involving different fingers can be recognized with high accuracy. An ablation study performed on the acquired datasets demonstrates the importance of multiple sensors, with an increase in performance when using up to three sensors and no significant improvements beyond that.
翻訳日:2021-05-06 23:39:17 公開日:2021-05-04
# (参考訳) 色彩のテクスチャ:可変ビット深度テクスチャを用いた自然表現 [全文訳有]

Texture for Colors: Natural Representations of Colors Using Variable Bit-Depth Textures ( http://arxiv.org/abs/2105.01768v1 )

ライセンス: CC BY 4.0
Shumeet Baluja(参考訳) 色とグレースケールの画像をピクセル単位の1ビットのバイナリに変換する多くの方法が提案されている。 一般的に、目標は元の画像の特定の属性を拡張して分析に適するようにすることだ。 しかし、2項化画像が人間の視認を意図している場合には、美学も考慮する必要がある。 ハーフトニング、スティップリング、ハッチなどのバイナリ化技術は、オリジナルの画像の強度プロファイルをモデル化するために広く用いられている。 そこで本研究では,画像の強度だけでなく,元の色も表わす2値テクスチャの組に画像が変換される自動手法を提案する。 本手法の基礎は情報保存であり,2値化表現のみから元の画像の色を再構成できるテクスチャ群を作成することにある。 生成したテクスチャが視覚的に注意をそらさず、画像の強度プロファイルを保ち、視覚的に類似したパターンに類似した色集合をマッピングすることが自然であることを示す技術を提案する。 このアプローチはディープ・ニューラル・ネットワークを使用し、完全に自己管理されている。 このシステムは、様々な画像ソースでテストすると、美的にバイナリイメージを満足させる。

Numerous methods have been proposed to transform color and grayscale images to their single bit-per-pixel binary counterparts. Commonly, the goal is to enhance specific attributes of the original image to make it more amenable for analysis. However, when the resulting binarized image is intended for human viewing, aesthetics must also be considered. Binarization techniques, such as half-toning, stippling, and hatching, have been widely used for modeling the original image's intensity profile. We present an automated method to transform an image to a set of binary textures that represent not only the intensities, but also the colors of the original. The foundation of our method is information preservation: creating a set of textures that allows for the reconstruction of the original image's colors solely from the binarized representation. We present techniques to ensure that the textures created are not visually distracting, preserve the intensity profile of the images, and are natural in that they map sets of colors that are perceptually similar to patterns that are similar. The approach uses deep-neural networks and is entirely self-supervised; no examples of good vs. bad binarizations are required. The system yields aesthetically pleasing binary images when tested on a variety of image sources.
翻訳日:2021-05-06 23:31:49 公開日:2021-05-04
# (参考訳) コミュニティを構想する: 社会的利益のためのaiへの参加的アプローチ [全文訳有]

Envisioning Communities: A Participatory Approach Towards AI for Social Good ( http://arxiv.org/abs/2105.01774v1 )

ライセンス: CC BY 4.0
Elizabeth Bondi, Lily Xu, Diana Acosta-Navas, and Jackson A. Killian(参考訳) 社会善のための人工知能(AI)の研究は、社会善の定義を前提としているが、潜在的な定義はほとんど提案されず、合意もされていない。 社会的善研究のためのAIとは何かという規範的な疑問は、熟考されておらず、また、歴史的に疎外された人々よりも多数派のニーズを優先し、不正と不平等の現実を脇に置いて、実用主義的な視点でしばしば扱われる。 社会的善のためのAIは、AIシステムが人間福祉の公平性を改善するための異なるポリシーの能力を測定するための枠組みである能力アプローチのガイドとして、コミュニティによって評価されるべきである。 さらに、我々は、AI研究が能力の拡大と平等化によって社会の進歩を触媒する可能性を持っていることを明らかにした。 このアプローチは、私たちが導入したpactと呼ばれるフレームワークにおいて、社会良い研究のためのaiの設計と実装のための参加的アプローチとどのように連携するかを示します。 結論として,このような参加型ai研究を行うための,コミュニティ自身の社会善の定義を明確化し尊重するような,不完全な質問のセットを提供することで結論づける。

Research in artificial intelligence (AI) for social good presupposes some definition of social good, but potential definitions have been seldom suggested and never agreed upon. The normative question of what AI for social good research should be "for" is not thoughtfully elaborated, or is frequently addressed with a utilitarian outlook that prioritizes the needs of the majority over those who have been historically marginalized, brushing aside realities of injustice and inequity. We argue that AI for social good ought to be assessed by the communities that the AI system will impact, using as a guide the capabilities approach, a framework to measure the ability of different policies to improve human welfare equity. Furthermore, we lay out how AI research has the potential to catalyze social progress by expanding and equalizing capabilities. We show how the capabilities approach aligns with a participatory approach for the design and implementation of AI for social good research in a framework we introduce called PACT, in which community members affected should be brought in as partners and their input prioritized throughout the project. We conclude by providing an incomplete set of guiding questions for carrying out such participatory AI research in a way that elicits and respects a community's own definition of social good.
翻訳日:2021-05-06 23:06:50 公開日:2021-05-04
# (参考訳) 航空機LiDARの高調波化 [全文訳有]

Intensity Harmonization for Airborne LiDAR ( http://arxiv.org/abs/2105.01793v1 )

ライセンス: CC BY 4.0
David Jones, Nathan Jacobs(参考訳) 州や国のような大きな地理的地域のためのポイントクラウドを構築するには、数年の努力が必要となる。 多くの場合、複数のベンダーがLiDARデータを取得するために使用され、単一のリージョンは複数のLiDARスキャンによってキャプチャされる。 重要な課題は、点密度、リターン数、強度を含むスキャン間の一貫性を維持することである。 特に強度は、重複している領域でもスキャンで大きく異なる可能性がある。 これらの不一致を取り除くためのスキャン間の強度の調和は高価で時間がかかります。 本稿では,深層ニューラルネットワークに基づく点雲調和のための新しい手法を提案する。 高品質な実世界のLiDARデータセットを用いて定量的に定性的に評価する。 本手法を標準補間法やヒストグラムマッチングなど,いくつかのベースラインと比較する。 同様の強度分布を持つ領域において,本手法は最良ベースラインと同等の性能を示し,強度分布の異なる領域において,すべてのベースラインを上回った。 ソースコードはhttps://github.com/m vrl/lidar-harmonizat ionで入手できる。

Constructing a point cloud for a large geographic region, such as a state or country, can require multiple years of effort. Often several vendors will be used to acquire LiDAR data, and a single region may be captured by multiple LiDAR scans. A key challenge is maintaining consistency between these scans, which includes point density, number of returns, and intensity. Intensity in particular can be very different between scans, even in areas that are overlapping. Harmonizing the intensity between scans to remove these discrepancies is expensive and time consuming. In this paper, we propose a novel method for point cloud harmonization based on deep neural networks. We evaluate our method quantitatively and qualitatively using a high quality real world LiDAR dataset. We compare our method to several baselines, including standard interpolation methods as well as histogram matching. We show that our method performs as well as the best baseline in areas with similar intensity distributions, and outperforms all baselines in areas with different intensity distributions. Source code is available at https://github.com/m vrl/lidar-harmonizat ion .
翻訳日:2021-05-06 22:45:37 公開日:2021-05-04
# (参考訳) リアルタイム深部動的キャラクタ [全文訳有]

Real-time Deep Dynamic Characters ( http://arxiv.org/abs/2105.01794v1 )

ライセンス: CC BY 4.0
Marc Habermann, Lingjie Liu, Weipeng Xu, Michael Zollhoefer, Gerard Pons-Moll, Christian Theobalt(参考訳) マルチビュー画像から,より弱い教師付きで学習した,非常にリアルな形状,動き,ダイナミックな外観を呈する深層ビデオリアリスティックな3次元人物モデルを提案する。 従来の作業とは対照的に、制御可能な3Dキャラクタは、複雑な物理シミュレーションを必要とせず、効率的なデータ駆動方式で骨格体の動きに依存する、例えばスカートの揺らぎなどのダイナミックスを表示する。 我々のキャラクタモデルは、写真リアルな動きに依存した外観の詳細や、ビュー依存の照明効果を考慮に入れた動的テクスチャモデルも備えています。 トレーニング中は、人間を動的にとらえる難易度の高い3Dキャプチャに頼る必要はなく、より弱い教師付きでマルチビュービデオから完全にモデルを訓練することができる。 本研究では,動きや視点に依存する高品質な動的テクスチャを付加した,明示的な時空コヒーレントメッシュ形状として,粗さや細かな動的変形をモデル化するパラメトリックで微分可能なキャラクタ表現を提案する。 モデルへの入力には、任意の3dスケルトンの動きのみが必要であり、確立された3dアニメーションパイプラインと直接互換性がある。 我々は新しいグラフ畳み込みネットワークアーキテクチャを用いて、ダイナミックスを含む運動依存的な身体・衣服の変形学習を可能にし、ニューラル生成動的テクスチャモデルが対応する動的テクスチャマップを作成する。 我々は,新しい骨格運動を提供することで,動作に依存した表面の変形,物理的に可塑性な動的衣服の変形,および映像のリアルな表面のテクスチャを,従来の芸術的アプローチよりもはるかに詳細かつリアルタイムに生成することを示した。

We propose a deep videorealistic 3D human character model displaying highly realistic shape, motion, and dynamic appearance learned in a new weakly supervised way from multi-view imagery. In contrast to previous work, our controllable 3D character displays dynamics, e.g., the swing of the skirt, dependent on skeletal body motion in an efficient data-driven way, without requiring complex physics simulation. Our character model also features a learned dynamic texture model that accounts for photo-realistic motion-dependent appearance details, as well as view-dependent lighting effects. During training, we do not need to resort to difficult dynamic 3D capture of the human; instead we can train our model entirely from multi-view video in a weakly supervised manner. To this end, we propose a parametric and differentiable character representation which allows us to model coarse and fine dynamic deformations, e.g., garment wrinkles, as explicit space-time coherent mesh geometry that is augmented with high-quality dynamic textures dependent on motion and view point. As input to the model, only an arbitrary 3D skeleton motion is required, making it directly compatible with the established 3D animation pipeline. We use a novel graph convolutional network architecture to enable motion-dependent deformation learning of body and clothing, including dynamics, and a neural generative dynamic texture model creates corresponding dynamic texture maps. We show that by merely providing new skeletal motions, our model creates motion-dependent surface deformations, physically plausible dynamic clothing deformations, as well as video-realistic surface textures at a much higher level of detail than previous state of the art approaches, and even in real-time.
翻訳日:2021-05-06 22:38:27 公開日:2021-05-04
# (参考訳) IoTアプリケーションのための幅広いAI:資源効率のよい分散人工知能

Pervasive AI for IoT Applications: Resource-efficient Distributed Artificial Intelligence ( http://arxiv.org/abs/2105.01798v1 )

ライセンス: CC BY 4.0
Emna Baccour, Naram Mhaisen, Alaa Awad Abdellatif, Aiman Erbad, Amr Mohamed, Mounir Hamdi, Mohsen Guizani(参考訳) 人工知能(AI)は、レコメンデーションシステムからロボティクス制御、軍事監視まで、さまざまなモノのインターネット(IoT)アプリケーションとサービスにおいて大きなブレークスルーを目の当たりにした。 これは、知覚データへのアクセスが簡単で、リアルタイムデータストリームのゼタバイト(ZB)を生成する巨大な広帯域/ユビキタスデバイスによって駆動される。 このようなデータストリームを使用して正確なモデルを設計し、将来の洞察を予測し、意思決定プロセスに革命をもたらすため、普及するシステムをより良い品質の生活にふさわしいパラダイムとして定めます。 普及型コンピューティングと人工知能の融合である普及型aiは、ユビキタスなiotシステムの役割を、主にデータ収集から分散計算まで、集中型学習に代わる有望な選択肢として拡大し、さまざまな課題を提示した。 この文脈では、賢明な協力とリソースのスケジューリングは、IoTデバイス(スマートフォン、スマート車など)とインフラストラクチャ(例えば、)の間で検討されるべきである。 通信や計算のオーバーヘッドを回避し、パフォーマンスを最大化するためのエッジノードとベースステーション。 本稿では,広汎なAIシステムにおけるこれらの資源課題を克服するために開発された,最近の技術に関する包括的調査を行う。 具体的には,まず,汎用コンピューティング,そのアーキテクチャ,人工知能との交点について概説する。 次に、ユビキタスシステムで動作するAI、特にディープラーニング(DL)とオンライン学習の背景、アプリケーション、パフォーマンスメトリクスについてレビューする。 次に,iotデバイス,エッジデバイス,クラウドサーバの組み合わせによる分散推論,トレーニング,オンライン学習タスクといった,アルゴリズム的,システム的な両面から,コミュニケーション効率の高い技術に関する深い文献レビューを行う。 最後に,今後のビジョンと研究課題について論じる。

Artificial intelligence (AI) has witnessed a substantial breakthrough in a variety of Internet of Things (IoT) applications and services, spanning from recommendation systems to robotics control and military surveillance. This is driven by the easier access to sensory data and the enormous scale of pervasive/ubiquitous devices that generate zettabytes (ZB) of real-time data streams. Designing accurate models using such data streams, to predict future insights and revolutionize the decision-taking process, inaugurates pervasive systems as a worthy paradigm for a better quality-of-life. The confluence of pervasive computing and artificial intelligence, Pervasive AI, expanded the role of ubiquitous IoT systems from mainly data collection to executing distributed computations with a promising alternative to centralized learning, presenting various challenges. In this context, a wise cooperation and resource scheduling should be envisaged among IoT devices (e.g., smartphones, smart vehicles) and infrastructure (e.g. edge nodes, and base stations) to avoid communication and computation overheads and ensure maximum performance. In this paper, we conduct a comprehensive survey of the recent techniques developed to overcome these resource challenges in pervasive AI systems. Specifically, we first present an overview of the pervasive computing, its architecture, and its intersection with artificial intelligence. We then review the background, applications and performance metrics of AI, particularly Deep Learning (DL) and online learning, running in a ubiquitous system. Next, we provide a deep literature review of communication-effici ent techniques, from both algorithmic and system perspectives, of distributed inference, training and online learning tasks across the combination of IoT devices, edge devices and cloud servers. Finally, we discuss our future vision and research challenges.
翻訳日:2021-05-06 22:06:45 公開日:2021-05-04
# AG-CUResNeSt: 大腸ポリープ分画の新しい方法

AG-CUResNeSt: A Novel Method for Colon Polyp Segmentation ( http://arxiv.org/abs/2105.00402v2 )

ライセンス: Link先を確認
Dinh Viet Sang, Tran Quang Chung, Phan Ngoc Lan, Dao Viet Hang, Dao Van Long, Nguyen Thi Thuy(参考訳) 大腸癌は最も一般的な悪性腫瘍であり、高リスク大腸ポリープから発生することがある。 大腸内視鏡検査はポリープの検出と除去に有効なスクリーニングツールである。 しかし, 臨床実践における欠如率は, さまざまな要因により比較的高い。 この手順は、大腸ポリープ検出を改善する貴重な洞察を提供する自動ポリープセグメンテーションにAIモデルを使用することで大きな恩恵を受けることができる。 しかし,ポリプのサイズ,形状,テクスチャ,色の違いから,正確なセグメンテーションはいまだに困難である。 本稿では、堅牢なResNeStバックボーンとアテンションゲートを用いて結合ユニセットを強化するAG-CUResNeStと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 ネットワークは多レベル特徴を効果的に組み合わせて正確なポリプセグメンテーションを得ることができる。 評価実験の結果,提案手法は既存手法と比較して精度が高いことがわかった。

Colorectal cancer is among the most common malignancies and can develop from high-risk colon polyps. Colonoscopy is an effective screening tool to detect and remove polyps, especially in the case of precancerous lesions. However, the missing rate in clinical practice is relatively high due to many factors. The procedure could benefit greatly from using AI models for automatic polyp segmentation, which provide valuable insights for improving colon polyp detection. However, precise segmentation is still challenging due to variations of polyps in size, shape, texture, and color. This paper proposes a novel neural network architecture called AG-CUResNeSt, which enhances Coupled UNets using the robust ResNeSt backbone and attention gates. The network is capable of effectively combining multi-level features to yield accurate polyp segmentation. Experimental results on five popular benchmark datasets show that our proposed method achieves state-of-the-art accuracy compared to existing methods.
翻訳日:2021-05-06 13:00:36 公開日:2021-05-04
# HerBERT: ポーランド語用トランスフォーマーベース言語モデル

HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish ( http://arxiv.org/abs/2105.01735v1 )

ライセンス: Link先を確認
Robert Mroczkowski, Piotr Rybak, Alina Wr\'oblewska, Ireneusz Gawlik(参考訳) BERTベースのモデルは現在、ほぼすべての自然言語処理(NLP)タスクの解決に使用されており、ほとんどの場合最先端の結果が得られている。 したがって、nlpコミュニティはこれらのモデルを理解するための広範な研究を行っているが、特に効果的で効率的なトレーニング手順の設計に重点を置いている。 BERTのようなモデルをトレーニングする方法に関するいくつかのアブレーション研究が実施されているが、その大半は英語のみに関するものである。 英語用に設計された訓練手順は普遍的ではなく、他のタイポロジー的に異なる言語に適用できる。 そこで本稿では,ポーランド語を中心とした最初のアブレーション研究について述べる。 我々は多言語から単言語BERTモデルへ知識を伝達する事前学習手順を設計し、徹底的に評価する。 多言語モデルの初期化に加えて、事前学習に影響を与える可能性のある他の要因も検討されている。 トレーニング目標、コーパスサイズ、bpeドロップアウト、プリトレーニング長さ。 提案した手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTがトレーニングされている。 このモデルは、複数の下流タスクで最先端の結果を達成する。

BERT-based models are currently used for solving nearly all Natural Language Processing (NLP) tasks and most often achieve state-of-the-art results. Therefore, the NLP community conducts extensive research on understanding these models, but above all on designing effective and efficient training procedures. Several ablation studies investigating how to train BERT-like models have been carried out, but the vast majority of them concerned only the English language. A training procedure designed for English does not have to be universal and applicable to other especially typologically different languages. Therefore, this paper presents the first ablation study focused on Polish, which, unlike the isolating English language, is a fusional language. We design and thoroughly evaluate a pretraining procedure of transferring knowledge from multilingual to monolingual BERT-based models. In addition to multilingual model initialization, other factors that possibly influence pretraining are also explored, i.e. training objective, corpus size, BPE-Dropout, and pretraining length. Based on the proposed procedure, a Polish BERT-based language model -- HerBERT -- is trained. This model achieves state-of-the-art results on multiple downstream tasks.
翻訳日:2021-05-06 12:57:12 公開日:2021-05-04
# 多角グラフ表現学習による複合表の検索

Retrieving Complex Tables with Multi-Granular Graph Representation Learning ( http://arxiv.org/abs/2105.01736v1 )

ライセンス: Link先を確認
Fei Wang, Kexuan Sun, Muhao Chen, Jay Pujara, Pedro Szekely(参考訳) 自然言語テーブル検索(NLTR)の課題は,自然言語クエリに基づく意味論的テーブルの検索である。 このタスクの既存の学習システムは、テーブルがデータフレームとして構造化されているという仮定に基づいて、テーブルをプレーンテキストとして扱うことが多い。 しかしテーブルには複雑なレイアウトがあり、ネストヘッダーのようなサブテーブル構造間の様々な依存関係を示す。 結果として、クエリは、これらの構造にまたがる様々な関連コンテンツのスパンを参照することができる。 さらに、そのようなシステムは、トレーニングセットで見られる以上の新しいシナリオに一般化することができない。 従来の手法は、複雑なテーブルレイアウトや複数の粒度のクエリを扱うのに不足するため、NLTR問題に対する一般化可能な解決策からまだ遠い。 本稿では,多面的グラフ表現学習を用いた汎用nltrフレームワークであるgraph-based table retrieval (gtr)を提案する。 私たちのフレームワークでは、まずテーブルを表グラフに変換し、セルノード、行ノード、列ノードを使って異なる粒度でコンテンツをキャプチャします。 次に、表グラフがGraph Transformerモデルに入力され、テーブルセルの内容とレイアウト構造の両方をキャプチャすることができる。 モデルのロバスト性と一般化性を高めるために,グラフコンテキストマッチングに基づく自己教師付き事前学習タスクも取り入れる。 2つのベンチマークによる実験結果から,本手法は最先端システムよりも大幅に改善することが示された。 さらに, クロスデータセットの一般化における提案手法の有望な性能を示すとともに, 複雑なテーブルの処理能力を高め, 多様なクエリインテントを実現する。 コードとデータはhttps://github.com/F eiWang96/GTRで公開されている。

The task of natural language table retrieval (NLTR) seeks to retrieve semantically relevant tables based on natural language queries. Existing learning systems for this task often treat tables as plain text based on the assumption that tables are structured as dataframes. However, tables can have complex layouts which indicate diverse dependencies between subtable structures, such as nested headers. As a result, queries may refer to different spans of relevant content that is distributed across these structures. Moreover, such systems fail to generalize to novel scenarios beyond those seen in the training set. Prior methods are still distant from a generalizable solution to the NLTR problem, as they fall short in handling complex table layouts or queries over multiple granularities. To address these issues, we propose Graph-based Table Retrieval (GTR), a generalizable NLTR framework with multi-granular graph representation learning. In our framework, a table is first converted into a tabular graph, with cell nodes, row nodes and column nodes to capture content at different granularities. Then the tabular graph is input to a Graph Transformer model that can capture both table cell content and the layout structures. To enhance the robustness and generalizability of the model, we further incorporate a self-supervised pre-training task based on graph-context matching. Experimental results on two benchmarks show that our method leads to significant improvements over the current state-of-the-art systems. Further experiments demonstrate promising performance of our method on cross-dataset generalization, and enhanced capability of handling complex tables and fulfilling diverse query intents. Code and data are available at https://github.com/F eiWang96/GTR.
翻訳日:2021-05-06 12:56:36 公開日:2021-05-04
# Wasserstein Barycenterからのサンプリング

Sampling From the Wasserstein Barycenter ( http://arxiv.org/abs/2105.01706v1 )

ライセンス: Link先を確認
Chiheb Daaloul (1), Thibaut Le Gouic (2), Jacques Liandrat (1), Magali Tournus (1) ((1) Aix-Marseille Univ., CNRS, I2M, UMR7373, Centrale Marseille, Marseille, France, (2) Massachusetts Institute of Technology, Department of Mathematics, USA)(参考訳) 本研究は絶対連続測度のwasserstein barycenterからサンプリングするアルゴリズムを提案する。 本手法は,ワッサーシュタイン・バリセンタのマルチマルジナル定式化の勾配流に基づいて,限界制約を考慮に入れた付加的なペナル化を行う。 我々は、このペナル化マルチマルジナル定式化の最小値が、ワッサーシュタインバリセンタに近いカップリングに対して達成されることを証明した。 アルゴリズムの性能はいくつかの設定で示される。

This work presents an algorithm to sample from the Wasserstein barycenter of absolutely continuous measures. Our method is based on the gradient flow of the multimarginal formulation of the Wasserstein barycenter, with an additive penalization to account for the marginal constraints. We prove that the minimum of this penalized multimarginal formulation is achieved for a coupling that is close to the Wasserstein barycenter. The performances of the algorithm are showcased in several settings.
翻訳日:2021-05-06 12:56:09 公開日:2021-05-04
# 注意に基づく画像彩色のためのアテンションベーススタイリゼーション

Attention-based Stylisation for Exemplar Image Colourisation ( http://arxiv.org/abs/2105.01705v1 )

ライセンス: Link先を確認
Marc Gorriz Blanch, Issa Khalifeh, Alan Smeaton, Noel O'Connor, Marta Mrak(参考訳) Exemplar-based Colorisationは、カラー参照画像のガイダンスを用いて、グレースケール画像に可塑性色を追加することを目的としている。 既存の手法の多くは、畳み込みニューラルネットワーク(CNN)を用いて、両方の入力の内容の深い表現を得るという、スタイル伝達問題としてタスクに取り組む。 次に、2つの特徴表現間の類似性を計算し、参照のスタイルを対象入力の内容に転送することでスタイリッシュ出力を得る。 しかし、異なる参照に対する堅牢性を得るためには、スタイリッシュな出力を第2のカラー化ネットワークで洗練する必要があるため、システム全体の複雑さが著しく増大する。 本研究は、新しいエンドツーエンドのカラー化ネットワークを導入し、色付けプロセスに適合する特徴を統一する既存の方法論を再構築する。 提案アーキテクチャは,現実的な色予測を復号化するための教師なしの方法でスタイル伝達タスクの実行方法を学ぶ,異なる解像度で注目モジュールを統合する。 さらに、注意操作を簡素化し、高速かつ堅牢なコスト効率アーキテクチャを実現するため、軸方向の注意を提案する。 提案手法の有効性を実験的に検証し,高品質で視覚に訴える色彩を呈する手法を提案する。 さらに,提案手法の複雑さを最先端手法と比較して低減する。

Exemplar-based colourisation aims to add plausible colours to a grayscale image using the guidance of a colour reference image. Most of the existing methods tackle the task as a style transfer problem, using a convolutional neural network (CNN) to obtain deep representations of the content of both inputs. Stylised outputs are then obtained by computing similarities between both feature representations in order to transfer the style of the reference to the content of the target input. However, in order to gain robustness towards dissimilar references, the stylised outputs need to be refined with a second colourisation network, which significantly increases the overall system complexity. This work reformulates the existing methodology introducing a novel end-to-end colourisation network that unifies the feature matching with the colourisation process. The proposed architecture integrates attention modules at different resolutions that learn how to perform the style transfer task in an unsupervised way towards decoding realistic colour predictions. Moreover, axial attention is proposed to simplify the attention operations and to obtain a fast but robust cost-effective architecture. Experimental validations demonstrate efficiency of the proposed methodology which generates high quality and visual appealing colourisation. Furthermore, the complexity of the proposed methodology is reduced compared to the state-of-the-art methods.
翻訳日:2021-05-06 12:52:44 公開日:2021-05-04
# 符号列表現による高次元の非パラメトリックトレース回帰

Nonparametric Trace Regression in High Dimensions via Sign Series Representation ( http://arxiv.org/abs/2105.01783v1 )

ライセンス: Link先を確認
Chanwoo Lee, Lexin Li, Hao Helen Zhang, and Miaoyan Wang(参考訳) 行列値データの学習は最近、科学とビジネスのさまざまな応用で急増している。 トレース回帰は行列予測器の効果をモデル化するために広く用いられている手法であり、行列学習において大きな成功を収めている。 しかし、既存のほとんど全てのトレース回帰解は、2つの仮定に依存している: (i) 条件付き平均の既知の機能形式、および (ii) 回帰関数の全範囲における大域的な低ランク構造であり、どちらも実際に違反する可能性がある。 本稿では,高次元関数の構造的符号列表現による非パラメトリックトレース回帰モデルのための汎用フレームワークの開発により,これらの仮定を緩和する。 新しいモデルは、線形および非線形トレース効果の両方を受け入れ、応答の順序保存変換に対するランク不変性を楽しむ。 行列完備化の文脈において、我々のフレームワークは、行列の「符号ランク」と呼ばれるものに基づいて、かなりリッチなモデルをもたらす。 記号列は, 重み付き分類タスクによって統計的に特徴付けられることを示す。 そこで本研究では,一連の分類器を用いて回帰モデルを学習するための学習削減手法を提案し,符号列アグリゲーションを実装する並列計算アルゴリズムを開発した。 過大なリスク境界,推定誤差率,サンプル複雑度を確立する。 提案手法は,行列回帰,行列補完,マルチタスク学習,圧縮センシングなど,多くの重要な行列学習問題に対して広く非パラメトリックなパラダイムを提供する。 本手法の利点をシミュレーションと2つの応用により実証し,1つは脳接続研究,もう1つは高次画像補完について述べる。

Learning of matrix-valued data has recently surged in a range of scientific and business applications. Trace regression is a widely used method to model effects of matrix predictors and has shown great success in matrix learning. However, nearly all existing trace regression solutions rely on two assumptions: (i) a known functional form of the conditional mean, and (ii) a global low-rank structure in the entire range of the regression function, both of which may be violated in practice. In this article, we relax these assumptions by developing a general framework for nonparametric trace regression models via structured sign series representations of high dimensional functions. The new model embraces both linear and nonlinear trace effects, and enjoys rank invariance to order-preserving transformations of the response. In the context of matrix completion, our framework leads to a substantially richer model based on what we coin as the "sign rank" of a matrix. We show that the sign series can be statistically characterized by weighted classification tasks. Based on this connection, we propose a learning reduction approach to learn the regression model via a series of classifiers, and develop a parallelable computation algorithm to implement sign series aggregations. We establish the excess risk bounds, estimation error rates, and sample complexities. Our proposal provides a broad nonparametric paradigm to many important matrix learning problems, including matrix regression, matrix completion, multi-task learning, and compressed sensing. We demonstrate the advantages of our method through simulations and two applications, one on brain connectivity study and the other on high-rank image completion.
翻訳日:2021-05-06 12:51:46 公開日:2021-05-04
# 低リソース翻訳のための連結化によるデータ拡張:謎と解法

Data Augmentation by Concatenation for Low-Resource Translation: A Mystery and a Solution ( http://arxiv.org/abs/2105.01691v1 )

ライセンス: Link先を確認
Toan Q. Nguyen, Kenton Murray, David Chiang(参考訳) 本稿では,低リソースニューラルマシン翻訳のための簡易かつ効果的なデータ拡張手法であるconcatenationの背後にある要因について検討する。 実験の結果, 4つの言語ペアで約+1 bleuが改善される原因は, 談話文脈にある可能性が示唆された。 その代わりに、この改善は、文脈の多様性、長さの多様性、(より少ない範囲に)位置シフトという、会話とは無関係な3つの要因から生じることを実証する。

In this paper, we investigate the driving factors behind concatenation, a simple but effective data augmentation method for low-resource neural machine translation. Our experiments suggest that discourse context is unlikely the cause for the improvement of about +1 BLEU across four language pairs. Instead, we demonstrate that the improvement comes from three other factors unrelated to discourse: context diversity, length diversity, and (to a lesser extent) position shifting.
翻訳日:2021-05-06 12:51:05 公開日:2021-05-04
# 視覚的類似性を効果的に活用する

Effectively Leveraging Attributes for Visual Similarity ( http://arxiv.org/abs/2105.01695v1 )

ライセンス: Link先を確認
Samarth Mishra, Zhongping Zhang, Yuan Shen, Ranjitha Kumar, Venkatesh Saligrama, Bryan Plummer(参考訳) 2つの画像の類似性を測定するには、しばしば異なる軸(色、テクスチャ、形状など)に沿って複雑な推論を行う必要がある。 類似度を測定するために重要なものに対する洞察はアノテート属性によって提供されるが、事前の作業ではこれらのアノテーションを完全なものとみなす傾向があり、結果として、類似度を測定するために使用される単一の画像上の属性を予測するという単純なアプローチが用いられる。 しかし、データセットが重要かもしれないすべての属性を完全にアノテートするのは現実的ではない。 したがって、これらの不完全なアノテーションに基づく画像のみを表現することは、キー情報から外れる可能性がある。 そこで,本稿では,類似度学習を破って類似度条件と関連度スコアを2つの画像の結合表現から取得するペアワイズ属性型類似度ネットワーク (pan) を提案する。 これにより、2つの画像が同一の属性を含むことを識別できるが、2つの画像の類似性を測定するために無視される(例えば、両者の微妙な違いのため)。 特に、属性アノテーションの以前の方法が先行技術より優れている場合が多いが、PANはPolyvore Outfits上の服品間の互換性の予測を4-9%改善し、Caltech-UCSD Birds (CUB) を使用した少数の画像の分類では5倍、In-Shop Clothes Retrievalでは1%以上向上している。

Measuring similarity between two images often requires performing complex reasoning along different axes (e.g., color, texture, or shape). Insights into what might be important for measuring similarity can can be provided by annotated attributes, but prior work tends to view these annotations as complete, resulting in them using a simplistic approach of predicting attributes on single images, which are, in turn, used to measure similarity. However, it is impractical for a dataset to fully annotate every attribute that may be important. Thus, only representing images based on these incomplete annotations may miss out on key information. To address this issue, we propose the Pairwise Attribute-informed similarity Network (PAN), which breaks similarity learning into capturing similarity conditions and relevance scores from a joint representation of two images. This enables our model to identify that two images contain the same attribute, but can have it deemed irrelevant (e.g., due to fine-grained differences between them) and ignored for measuring similarity between the two images. Notably, while prior methods of using attribute annotations are often unable to outperform prior art, PAN obtains a 4-9% improvement on compatibility prediction between clothing items on Polyvore Outfits, a 5\% gain on few shot classification of images using Caltech-UCSD Birds (CUB), and over 1% boost to Recall@1 on In-Shop Clothes Retrieval.
翻訳日:2021-05-06 12:49:56 公開日:2021-05-04
# グラフニューラルネットワークを用いたスケーラブル論理最適化のための強化学習

Reinforcement Learning for Scalable Logic Optimization with Graph Neural Networks ( http://arxiv.org/abs/2105.01755v1 )

ライセンス: Link先を確認
Xavier Timoneda, Lukas Cavigelli(参考訳) 論理最適化(英: logic optimization)は、手工学のヒューリスティックスによって一般的に解かれるnpハード問題である。 本稿では,グラフ畳み込みネットワークと強化学習を組み合わせて,論理グラフにどの局所変換を適用するべきかを学習するための,スケーラブルなノード埋め込み手法を提案する。 本手法はより小さな回路上でabcと同規模の縮小を達成し、より大きなランダムグラフでは1.5-1.75倍小さくなることを示す。

Logic optimization is an NP-hard problem commonly approached through hand-engineered heuristics. We propose to combine graph convolutional networks with reinforcement learning and a novel, scalable node embedding method to learn which local transforms should be applied to the logic graph. We show that this method achieves a similar size reduction as ABC on smaller circuits and outperforms it by 1.5-1.75x on larger random graphs.
翻訳日:2021-05-06 12:43:42 公開日:2021-05-04
# 自動運転車のエンドツーエンドディープラーニングに向けて:データ収集とステアリングとスロットル予測のための統一アーキテクチャ

Towards End-to-End Deep Learning for Autonomous Racing: On Data Collection and a Unified Architecture for Steering and Throttle Prediction ( http://arxiv.org/abs/2105.01799v1 )

ライセンス: Link先を確認
Shakti N. Wadekar, Benjamin J. Schwartz, Shyam S. Kannan, Manuel Mar, Rohan Kumar Manna, Vishnu Chellapandi, Daniel J. Gonzalez, Aly El Gamal(参考訳) エンドツーエンドでトレーニングされたディープニューラルネットワーク(DNN)は、過去数十年で解決できなかった複雑な問題を解決するために、うまく適用されています。 自動運転は、まだ完全に解決されていない最も複雑な問題の1つであり、自動運転は、この問題にさらに複雑さとエキサイティングな課題をもたらす。 本稿では,自律走行にエンド・ツー・エンドの学習を適用することの課題として,(1)訓練に使用する運転データと,dnnが操舵角度の予測に効果的に適用できる最大速度との関係を分析すること,(2)ニューラルネットワークアーキテクチャと,フィードバックや繰り返し接続なしで操舵とスロットルを学習するためのトレーニング方法論について述べる。

Deep Neural Networks (DNNs) which are trained end-to-end have been successfully applied to solve complex problems that we have not been able to solve in past decades. Autonomous driving is one of the most complex problems which is yet to be completely solved and autonomous racing adds more complexity and exciting challenges to this problem. Towards the challenge of applying end-to-end learning to autonomous racing, this paper shows results on two aspects: (1) Analyzing the relationship between the driving data used for training and the maximum speed at which the DNN can be successfully applied for predicting steering angle, (2) Neural network architecture and training methodology for learning steering and throttle without any feedback or recurrent connections.
翻訳日:2021-05-06 12:43:13 公開日:2021-05-04
# 音声変換に基づく音響ユニット発見のための話者正規化

Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery ( http://arxiv.org/abs/2105.01786v1 )

ライセンス: Link先を確認
Thomas Glarner, Janek Ebbers, Reinhold H\"ab-Umbach(参考訳) 音声入力から純粋に話者独立な音響単位を発見することは難しい問題である。 本研究では,単位発見前の教師なし話者正規化手法を提案する。 本手法は, 対向的コントラッシブ予測符号化手法を用いて, 音声信号における内容誘発変動から話者を分離する。 この手法は、書き起こされた音声や話者ラベルを必要とせず、さらに多言語で訓練することができるため、対象言語からわずかなラベルのないデータしか得られなくても、話者正規化が可能となる。 話者正規化は、すべての発話をデータベース全体の代表であるメドロイド形式にマッピングすることで行われる。 隠れマルコフモデル変分オートエンコーダを用いて音響ユニット発見を行うことによる手法の有効性を実証するが,提案した話者正規化は任意の単位発見システムのフロントエンドとして機能する。 英語,Yoruba,Mboshiの実験では,非正規化入力と比較して改善が見られた。

Discovering speaker independent acoustic units purely from spoken input is known to be a hard problem. In this work we propose an unsupervised speaker normalization technique prior to unit discovery. It is based on separating speaker related from content induced variations in a speech signal with an adversarial contrastive predictive coding approach. This technique does neither require transcribed speech nor speaker labels, and, furthermore, can be trained in a multilingual fashion, thus achieving speaker normalization even if only few unlabeled data is available from the target language. The speaker normalization is done by mapping all utterances to a medoid style which is representative for the whole database. We demonstrate the effectiveness of the approach by conducting acoustic unit discovery with a hidden Markov model variational autoencoder noting, however, that the proposed speaker normalization can serve as a front end to any unit discovery system. Experiments on English, Yoruba and Mboshi show improvements compared to using non-normalized input.
翻訳日:2021-05-06 12:42:48 公開日:2021-05-04
# 監視のサーベイリング:ストリートビューデータを用いた監視カメラの普及率の推定

Surveilling Surveillance: Estimating the Prevalence of Surveillance Cameras with Street View Data ( http://arxiv.org/abs/2105.01764v1 )

ライセンス: Link先を確認
Hao Sheng, Keniel Yao, Sharad Goel(参考訳) 公共空間におけるビデオ監視の利用は、特に顔認識技術の急速な進歩を背景に、近年、政府や民間の双方が注目している。 しかし、カメラの状況と配置を体系的に測定することは困難であり、プライバシーと公衆安全に対する監視の影響を評価する努力を妨げてきた。 本稿では,大規模なストリートビュー画像データにコンピュータビジョンアルゴリズムを適用し,監視カメラの空間分布を推定するための新しいアプローチを提案する。 具体的には、カメラ検出モデルを構築し、世界中の10大都市と6大都市から採取された160万のストリートビュー画像に適用し、人間の専門家による肯定的なモデル検出を検証します。 提案手法では, モデルの再コール推定とサンプル画像の空間的カバレッジを考慮に入れた上で, 道路から見える監視カメラの密度を推定できる。 私たちが考える16の都市で、リニアキロあたりの監視カメラの数は、シアトルの0.1からソウルの0.9まで様々です。 米国10都市の詳細な分析では、カメラは商業、工業、混合地帯に集中しており、非白人住民のシェアが高い地区では、土地利用の調整後も持続するパターンがあることが判明した。 これらの結果は、カラーコミュニティに対する潜在的に異なる影響を含む、監視技術の使用に関する継続的な議論に役立ちます。

The use of video surveillance in public spaces -- both by government agencies and by private citizens -- has attracted considerable attention in recent years, particularly in light of rapid advances in face-recognition technology. But it has been difficult to systematically measure the prevalence and placement of cameras, hampering efforts to assess the implications of surveillance on privacy and public safety. Here we present a novel approach for estimating the spatial distribution of surveillance cameras: applying computer vision algorithms to large-scale street view image data. Specifically, we build a camera detection model and apply it to 1.6 million street view images sampled from 10 large U.S. cities and 6 other major cities around the world, with positive model detections verified by human experts. After adjusting for the estimated recall of our model, and accounting for the spatial coverage of our sampled images, we are able to estimate the density of surveillance cameras visible from the road. Across the 16 cities we consider, the estimated number of surveillance cameras per linear kilometer ranges from 0.1 (in Seattle) to 0.9 (in Seoul). In a detailed analysis of the 10 U.S. cities, we find that cameras are concentrated in commercial, industrial, and mixed zones, and in neighborhoods with higher shares of non-white residents -- a pattern that persists even after adjusting for land use. These results help inform ongoing discussions on the use of surveillance technology, including its potential disparate impacts on communities of color.
翻訳日:2021-05-06 12:42:18 公開日:2021-05-04
# カメラと低解像度LiDARを用いた3次元車両検出

3D Vehicle Detection Using Camera and Low-Resolution LiDAR ( http://arxiv.org/abs/2105.01765v1 )

ライセンス: Link先を確認
Lin Bai, Yiming Zhao and Xinming Huang(参考訳) 今日では、LiDAR(Light Detection and Ranging)は、認識とローカライゼーションのために自動運転車で広く使われている。 しかし、高解像度のLiDARの価格はまだ高額だが、低解像度のLiDARの方がずっと安い。 したがって、高分解能LiDARの代わりに低分解能LiDARを自律運転認識タスクに利用することは経済的に実現可能な解決策である。 本稿では,低解像度LiDARと単眼カメラを用いたバードアイビュー(BEV)における3次元物体検出のための新しいフレームワークを提案する。 低解像度lidarポイントクラウドと単眼画像を入力として、深度完了ネットワークは密度の高いポイントクラウドを生成でき、その後voxelベースの3dオブジェクト検出ネットワークによって処理されます。 KITTIデータセットを用いて評価した結果、提案手法は16ラインのLiDAR点雲を直接オブジェクト検出に適用するよりも、はるかに優れた性能を示した。 容易かつ適度なケースでは、検出結果は64ライン高精細lidarと同等である。 ネットワークアーキテクチャと性能評価を詳細に分析する。

Nowadays, Light Detection And Ranging (LiDAR) has been widely used in autonomous vehicles for perception and localization. However, the cost of a high-resolution LiDAR is still prohibitively expensive, while its low-resolution counterpart is much more affordable. Therefore, using low-resolution LiDAR for autonomous driving perception tasks instead of high-resolution LiDAR is an economically feasible solution. In this paper, we propose a novel framework for 3D object detection in Bird-Eye View (BEV) using a low-resolution LiDAR and a monocular camera. Taking the low-resolution LiDAR point cloud and the monocular image as input, our depth completion network is able to produce dense point cloud that is subsequently processed by a voxel-based network for 3D object detection. Evaluated with KITTI dataset, the experimental results shows that the proposed approach performs significantly better than directly applying the 16-line LiDAR point cloud for object detection. For both easy and moderate cases, our detection results are comparable to those from 64-line high-resolution LiDAR. The network architecture and performance evaluations are analyzed in detail.
翻訳日:2021-05-06 12:41:57 公開日:2021-05-04
# GAN(Generative Adversarial Networks)による高速磁気共鳴イメージング -ミニレビュー, 比較と展望-

Generative Adversarial Networks (GAN) Powered Fast Magnetic Resonance Imaging -- Mini Review, Comparison and Perspectives ( http://arxiv.org/abs/2105.01800v1 )

ライセンス: Link先を確認
Guang Yang, Jun Lv, Yutong Chen, Jiahao Huang, Jin Zhu(参考訳) 磁気共鳴イメージング(MRI)は医療画像の重要な要素である。 他の画像モダリティと比較しても、放射線の欠如、優れた軟組織コントラスト、相補的な多重シーケンス情報などの利点がある。 しかし、MRIの欠点の1つは、他の画像モダリティと比較して比較的遅いスキャンと再構成であり、撮像時間が重要となるいくつかの臨床応用での使用を制限することである。 従来の圧縮センシングベースのMRI(CS-MRI)再構成は、MRIの取得を高速化するが、長い反復的なプロセスとノイズによるアーチファクトに悩まされる。 近年、DNN(Deep Neural Networks)は、かなりアンサンプされたk空間データから比較的高品質な画像を再現するために、MRI再構成モデルに使われている。 しかし、まだ取り組むべきハードルはいくつかある。 例えば、L1/L2の損失は全体像やパッチの類似性のみを強制することができ、解剖学的シャープネスのような局所的な情報を考慮しないため、目標とする全サンプル画像へのL1/L2距離に基づくDNNを直接トレーニングすることは、ぼやけた再構築をもたらす可能性がある。 また、自然の外観を維持しながら細かな画像の保存も困難である。 近年,画像の知覚品質を向上した高速MRIを実現するためにGAN(Generative Adversarial Networks)に基づく手法が提案されている。 エンコーダは、アンダーサンプ画像の潜伏空間を取得し、このGAN損失を用いてデコーダにより画像を再構成する。 本章では,GANを用いた高速MRI法について,様々な解剖学的データセットとの比較検討を行い,今後の展望を提供しつつ,この種の高速MRIの汎用性と堅牢性を示す。

Magnetic Resonance Imaging (MRI) is a vital component of medical imaging. When compared to other image modalities, it has advantages such as the absence of radiation, superior soft tissue contrast, and complementary multiple sequence information. However, one drawback of MRI is its comparatively slow scanning and reconstruction compared to other image modalities, limiting its usage in some clinical applications when imaging time is critical. Traditional compressive sensing based MRI (CS-MRI) reconstruction can speed up MRI acquisition, but suffers from a long iterative process and noise-induced artefacts. Recently, Deep Neural Networks (DNNs) have been used in sparse MRI reconstruction models to recreate relatively high-quality images from heavily undersampled k-space data, allowing for much faster MRI scanning. However, there are still some hurdles to tackle. For example, directly training DNNs based on L1/L2 distance to the target fully sampled images could result in blurry reconstruction because L1/L2 loss can only enforce overall image or patch similarity and does not take into account local information such as anatomical sharpness. It is also hard to preserve fine image details while maintaining a natural appearance. More recently, Generative Adversarial Networks (GAN) based methods are proposed to solve fast MRI with enhanced image perceptual quality. The encoder obtains a latent space for the undersampling image, and the image is reconstructed by the decoder using the GAN loss. In this chapter, we review the GAN powered fast MRI methods with a comparative study on various anatomical datasets to demonstrate the generalisability and robustness of this kind of fast MRI while providing future perspectives.
翻訳日:2021-05-06 12:41:40 公開日:2021-05-04
# pathbench: 古典的なパス計画アルゴリズムのためのベンチマークプラットフォーム

PathBench: A Benchmarking Platform for Classical and Learned Path Planning Algorithms ( http://arxiv.org/abs/2105.01777v1 )

ライセンス: Link先を確認
Alexandru-Iosif Toma, Hao-Ya Hsueh, Hussein Ali Jaafar, Riku Murai, Paul H.J. Kelly, Sajad Saeedi(参考訳) パスプランニングはモバイルロボティクスにおいて重要な要素である。 幅広い経路計画アルゴリズムが存在するが、アルゴリズムを全体的または統一的にベンチマークする試みはほとんど行われていない。 さらに、近年のディープニューラルネットワークの進歩により、このような学習ベースの計画アルゴリズムの開発とベンチマークを容易にする必要がある。 本稿では,ロボットオペレーティングシステム(ROS)をサポートしながら,従来の2Dおよび3Dパス計画アルゴリズムの開発,可視化,トレーニング,テスト,ベンチマークを行うプラットフォームであるPathBenchについて述べる。 多くの既存のパス計画アルゴリズムがサポートされている。 a*, wavefront, rapid-exploring random tree, value iteration network, gated path planning network, そして新しいアルゴリズムの統合は簡単で明確である。 PathBenchのベンチマーク能力は、パス長、成功率、計算時間、経路偏差といったメトリクスの古典的および学習的アルゴリズムとを比較して実証する。 これらの評価は、ゲームや現実世界のデータベースから構築されたpathbenchマップと外部経路計画環境上で行われる。 PathBenchはオープンソースである。

Path planning is a key component in mobile robotics. A wide range of path planning algorithms exist, but few attempts have been made to benchmark the algorithms holistically or unify their interface. Moreover, with the recent advances in deep neural networks, there is an urgent need to facilitate the development and benchmarking of such learning-based planning algorithms. This paper presents PathBench, a platform for developing, visualizing, training, testing, and benchmarking of existing and future, classical and learned 2D and 3D path planning algorithms, while offering support for Robot Oper-ating System (ROS). Many existing path planning algorithms are supported; e.g. A*, wavefront, rapidly-exploring random tree, value iteration networks, gated path planning networks; and integrating new algorithms is easy and clearly specified. We demonstrate the benchmarking capability of PathBench by comparing implemented classical and learned algorithms for metrics, such as path length, success rate, computational time and path deviation. These evaluations are done on built-in PathBench maps and external path planning environments from video games and real world databases. PathBench is open source.
翻訳日:2021-05-06 12:39:13 公開日:2021-05-04
# HL-LHCにおけるフロントエンドデータ圧縮のための再構成可能なニューラルネットワークASIC

A reconfigurable neural network ASIC for detector front-end data compression at the HL-LHC ( http://arxiv.org/abs/2105.01683v1 )

ライセンス: Link先を確認
Giuseppe Di Guglielmo, Farah Fahim, Christian Herwig, Manuel Blanco Valentin, Javier Duarte, Cristian Gingu, Philip Harris, James Hirschauer, Martin Kwok, Vladimir Loncar, Yingyi Luo, Llovizna Miranda, Jennifer Ngadiuba, Daniel Noonan, Seda Ogrenci-Memik, Maurizio Pierini, Sioni Summers, Nhan Tran(参考訳) 現代のトリガーシステムのプログラム可能な論理能力の進歩にもかかわらず、トリガー決定を行うオフ・ディテクター論理へ検出器から転送されるデータの量に大きなボトルネックが残っている。 本研究では、放射耐性ASICにニューラルネットワークオートエンコーダモデルを実装し、検出器エネルギープロファイルの臨界情報を保持しながら、データ伝送問題を緩和する損失データ圧縮を行うことを示した。 本稿では,CERN大型ハドロン衝突型加速器のCMS実験から高粒度カロリーを考察する。 機械学習アプローチの利点は、アルゴリズムの柔軟性と構成可能性にある。 ニューラルネットワークの重みを変更することで、センサー毎に異なる検出器領域にユニークなデータ圧縮アルゴリズムをデプロイし、検出器やコライダーの状態を変更することができる。 領域、性能、電力制約を満たすため、最適化されたニューラルネットワークハードウェア実装を作成するために量子化対応トレーニングを実行する。 この設計は高レベル合成ツールとhls4mlフレームワークを使用して実現され、lp cmos 65 nm技術ノードに基づく合成と物理レイアウトフローによって処理された。 この流れは200madの電離放射線を予測してゲートを選択し、総面積3.6mm^2を報告し95mwの電力を消費する。 推定当たりのエネルギー消費量は2.4 njである。 これは、粒子物理学の応用のために設計されたニューラルネットワークのオン・ディテクターASIC実装の最初の放射線耐性である。

Despite advances in the programmable logic capabilities of modern trigger systems, a significant bottleneck remains in the amount of data to be transported from the detector to off-detector logic where trigger decisions are made. We demonstrate that a neural network autoencoder model can be implemented in a radiation tolerant ASIC to perform lossy data compression alleviating the data transmission problem while preserving critical information of the detector energy profile. For our application, we consider the high-granularity calorimeter from the CMS experiment at the CERN Large Hadron Collider. The advantage of the machine learning approach is in the flexibility and configurability of the algorithm. By changing the neural network weights, a unique data compression algorithm can be deployed for each sensor in different detector regions, and changing detector or collider conditions. To meet area, performance, and power constraints, we perform a quantization-aware training to create an optimized neural network hardware implementation. The design is achieved through the use of high-level synthesis tools and the hls4ml framework, and was processed through synthesis and physical layout flows based on a LP CMOS 65 nm technology node. The flow anticipates 200 Mrad of ionizing radiation to select gates, and reports a total area of 3.6 mm^2 and consumes 95 mW of power. The simulated energy consumption per inference is 2.4 nJ. This is the first radiation tolerant on-detector ASIC implementation of a neural network that has been designed for particle physics applications.
翻訳日:2021-05-06 12:36:50 公開日:2021-05-04
# 不変リスクと因果表現によるロバスト再構成可能なインテリジェント曲面

Robust Reconfigurable Intelligent Surfaces via Invariant Risk and Causal Representations ( http://arxiv.org/abs/2105.01771v1 )

ライセンス: Link先を確認
Sumudu Samarakoon and Jihong Park and Mehdi Bennis(参考訳) 本稿では,データ分布の変化に伴うロバスト再構成可能なインテリジェントサーフェス(ris)システム設計の問題について検討する。 不変リスク最小化(IRM)の概念を用いて、複数の環境にまたがる不変因果表現を用いて、予測器が各環境に対して同時に最適となるようにする。 予測器を探すためにニューラルネットワークベースのソリューションを採用し、その性能は経験的リスク最小化に基づく設計に対するシミュレーションによって検証される。 その結果, 分散の活用により, 目に見えない, 分布外のテスト環境に対する堅牢性が向上した。

In this paper, the problem of robust reconfigurable intelligent surface (RIS) system design under changes in data distributions is investigated. Using the notion of invariant risk minimization (IRM), an invariant causal representation across multiple environments is used such that the predictor is simultaneously optimal for each environment. A neural network-based solution is adopted to seek the predictor and its performance is validated via simulations against an empirical risk minimization-based design. Results show that leveraging invariance yields more robustness against unseen and out-of-distribution testing environments.
翻訳日:2021-05-06 12:36:01 公開日:2021-05-04
# ボールの内部を考える:最大損失の最小最小化

Thinking Inside the Ball: Near-Optimal Minimization of the Maximal Loss ( http://arxiv.org/abs/2105.01778v1 )

ライセンス: Link先を確認
Yair Carmon, Arun Jambulapati, Yujia Jin, Aaron Sidford(参考訳) 我々は、凸に対して$\max_{i\in[n]} f_i(x)$を最小化する複雑さを特徴付ける。 非スムース関数に対しては、既存のメソッドは$o(n\epsilon^{-2})$クエリを1次オラクルに要求し、$f_i$が$o(1/\epsilon)$-smoo thであれば$\tilde{o}(n\epsilon^{-1})$クエリを計算する。 非滑らかな場合では$\tilde{O}(N\epsilon^{-2/3} + \epsilon^{-8/3})$と$\tilde{O}(N\epsilon^{-2/3} + \sqrt{N}\epsilon^{-1})$-smoothの場合では$O(1/\epsilon)$である。 本手法は,最近提案されたボール最適化オラクル加速アルゴリズム(精巧化)と,ソフトマックス関数に対するそのオラクルの慎重に実装とから構成される。 また、オラクルの複雑さが$\Omega(N\epsilon^{-2/3})$として低い境界スケーリングを証明し、N$への依存が多対数因子に最適であることを示す。

We characterize the complexity of minimizing $\max_{i\in[N]} f_i(x)$ for convex, Lipschitz functions $f_1,\ldots, f_N$. For non-smooth functions, existing methods require $O(N\epsilon^{-2})$ queries to a first-order oracle to compute an $\epsilon$-suboptima l point and $\tilde{O}(N\epsilon^{-1})$ queries if the $f_i$ are $O(1/\epsilon)$-smoo th. We develop methods with improved complexity bounds of $\tilde{O}(N\epsilon^{-2/3} + \epsilon^{-8/3})$ in the non-smooth case and $\tilde{O}(N\epsilon^{-2/3} + \sqrt{N}\epsilon^{-1})$ in the $O(1/\epsilon)$-smoo th case. Our methods consist of a recently proposed ball optimization oracle acceleration algorithm (which we refine) and a careful implementation of said oracle for the softmax function. We also prove an oracle complexity lower bound scaling as $\Omega(N\epsilon^{-2/3})$, showing that our dependence on $N$ is optimal up to polylogarithmic factors.
翻訳日:2021-05-06 12:35:52 公開日:2021-05-04
# (参考訳) AIOpsにおけるDRAM障害予測 - 経験的評価,課題,機会

DRAM Failure Prediction in AIOps: Empirical Evaluation, Challenges and Opportunities ( http://arxiv.org/abs/2104.15052v2 )

ライセンス: CC BY 4.0
Zhiyue Wu, Hongzuo Xu, Guansong Pang, Fengyuan Yu, Yijie Wang, Songlei Jian, Yongjun Wang(参考訳) DRAM障害予測は、大規模データセンターの信頼性と持続可能なサービスの維持に不可欠であるAIOpsにおいて重要なタスクである。 しかしながら、DRAMの障害予測には、公開データセットの欠如が主な原因となっている。 本稿では, Alibaba CloudがPAKDD 2021コンペティションを通じて提供した,300万以上のカーネル,アドレス,mcelogデータを含む大規模マルチソースデータセットを用いて, DRAM故障予測のための多様な機械学習手法の総合的評価を行う。 特に,まず問題をマルチクラス分類タスクとして定式化し,個々のデータソースと複数のデータソースの両方で7つの人気/最先端の分類器を徹底的に評価する。 この問題を教師なし異常検出タスクとして定式化し,3つの最先端異常検出器を評価した。 さらに,このコンペに参加した経験的結果と経験から,本課題における大きな課題と今後の研究機会について考察する。

DRAM failure prediction is a vital task in AIOps, which is crucial to maintain the reliability and sustainable service of large-scale data centers. However, limited work has been done on DRAM failure prediction mainly due to the lack of public available datasets. This paper presents a comprehensive empirical evaluation of diverse machine learning techniques for DRAM failure prediction using a large-scale multi-source dataset, including more than three millions of records of kernel, address, and mcelog data, provided by Alibaba Cloud through PAKDD 2021 competition. Particularly, we first formulate the problem as a multi-class classification task and exhaustively evaluate seven popular/state-of-the -art classifiers on both the individual and multiple data sources. We then formulate the problem as an unsupervised anomaly detection task and evaluate three state-of-the-art anomaly detectors. Further, based on the empirical results and our experience of attending this competition, we discuss major challenges and present future research opportunities in this task.
翻訳日:2021-05-06 06:19:08 公開日:2021-05-04
# (参考訳) 高次元schr\"odinger固有値問題を解くための2層ニューラルネットワークの事前一般化誤差解析 [全文訳有]

A Priori Generalization Error Analysis of Two-Layer Neural Networks for Solving High Dimensional Schr\"odinger Eigenvalue Problems ( http://arxiv.org/abs/2105.01228v1 )

ライセンス: CC BY 4.0
Jianfeng Lu and Yulong Lu(参考訳) 本稿では,2層ニューラルネットワークの一般化誤差を解析し,d$-dimensional hypercube上のschr\"odinger演算子の基底状態を計算する。 我々は、基底状態がスペクトルバロン空間にあるという前提条件の下で、一般化誤差の収束速度が次元$d$とは独立であることを証明する。 スペクトルバロン空間における基底状態の新たな正規性推定を証明し,その仮定を検証する。 後者はクライン=ルトマンの定理に基づく不動点引数によって達成される。

This paper analyzes the generalization error of two-layer neural networks for computing the ground state of the Schr\"odinger operator on a $d$-dimensional hypercube. We prove that the convergence rate of the generalization error is independent of the dimension $d$, under the a priori assumption that the ground state lies in a spectral Barron space. We verify such assumption by proving a new regularity estimate for the ground state in the spectral Barron space. The later is achieved by a fixed point argument based on the Krein-Rutman theorem.
翻訳日:2021-05-05 22:46:56 公開日:2021-05-04
# (参考訳) GT-STORM:分散非凸学習におけるサンプル,通信,メモリ複雑性のモデリング [全文訳有]

GT-STORM: Taming Sample, Communication, and Memory Complexities in Decentralized Non-Convex Learning ( http://arxiv.org/abs/2105.01231v1 )

ライセンス: CC BY 4.0
Xin Zhang, Jia Liu, Zhengyuan Zhu, and Elizabeth S. Bentley(参考訳) 分散非凸最適化は、システムの堅牢性、データプライバシ、実装の単純さに利点があるため、近年、機械学習において注目を集めている。 しかし、分散最適化アルゴリズムの設計における3つの根本的な課題は、サンプル、通信、メモリの複雑さを減らす方法である。 本稿では,非凸最適化問題を効率的に解くために,\underline{g}radient-\underline{t}racking-based \underline{sto}chastic \underline{r}ecursive \underline{m}omentum (gt-storm) アルゴリズムを提案する。 我々は,本アルゴリズムのサンプル評価の総数は$\tilde{O}(m^{1/2}\epsilon^{-3})$で,通信ラウンドの総数は$\tilde{O}(m^{-1/2}\epsilon^{-3})$で,O(\epsilon^{-4})$は既存の分散確率勾配アルゴリズムのサンプル評価と通信のコストを改善する。 我々は,非凸性ロジスティック回帰や畳み込みニューラルネットワークなど,様々な学習モデルを用いて広範な実験を行い,理論的知見の検証を行った。 本結果は,分散ネットワーク最適化のための理論とアルゴリズムの最先端に寄与する。

Decentralized nonconvex optimization has received increasing attention in recent years in machine learning due to its advantages in system robustness, data privacy, and implementation simplicity. However, three fundamental challenges in designing decentralized optimization algorithms are how to reduce their sample, communication, and memory complexities. In this paper, we propose a \underline{g}radient-\underline{t}racking-based \underline{sto}chastic \underline{r}ecursive \underline{m}omentum (GT-STORM) algorithm for efficiently solving nonconvex optimization problems. We show that to reach an $\epsilon^2$-stationary solution, the total number of sample evaluations of our algorithm is $\tilde{O}(m^{1/2}\epsilon^{-3})$ and the number of communication rounds is $\tilde{O}(m^{-1/2}\epsilon^{-3})$, which improve the $O(\epsilon^{-4})$ costs of sample evaluations and communications for the existing decentralized stochastic gradient algorithms. We conduct extensive experiments with a variety of learning models, including non-convex logistical regression and convolutional neural networks, to verify our theoretical findings. Collectively, our results contribute to the state of the art of theories and algorithms for decentralized network optimization.
翻訳日:2021-05-05 22:27:42 公開日:2021-05-04
# (参考訳) 大規模電子カルテデータを用いた教師付きマルチスペシャリストトピックモデル

Supervised multi-specialist topic model with applications on large-scale electronic health record data ( http://arxiv.org/abs/2105.01238v1 )

ライセンス: CC BY 4.0
Ziyang Song, Xavier Sumba Toral, Yixin Xu, Aihua Liu, Liming Guo, Guido Powell, Aman Verma, David Buckeridge, Ariane Marelli, Yue Li(参考訳) モチベーション: 電子健康記録(ehr)データは、精密医療のための疾患の複合性と潜在表現型を明らかにする新しい場所を提供する。 その可能性を完全に活用するには、EHRデータの現実的なデータ生成プロセスをモデル化する必要がある。 EHRデータから専門分野のトピックを共同で推測するためにMixEHR-Sを提案する。 本研究の重要な貢献として,新しい階層型階層型ベイズトピックモデルにおいて,患者の根底にある疾患トピックの混合に基づく専門課題とICD符号化診断を潜在トピックとしてモデル化する。 For efficient inference, we developed a closed-form collapsed variational inference algorithm to learn the model distributions of MixEHR-S. We applied MixEHR-S to two independent large-scale EHR databases in Quebec with three targeted applications: (1) Congenital Heart Disease (CHD) diagnostic prediction among 154,775 patients; (2) Chronic obstructive pulmonary disease (COPD) diagnostic prediction among 73,791 patients; (3) future insulin treatment prediction among 78,712 patients diagnosed with diabetes as a mean to assess the disease exacerbation. 3つのアプリケーションでmixehr-sは、最も予測された潜在トピックの中から臨床的に有意義な潜在トピックを付与し、既存の方法よりも優れた目標予測精度を達成し、リスクの高い患者を医療サービスに優先順位付けする機会を提供した。 MixEHR-Sのソースコードと実験のスクリプトはhttps://github.com/l i-lab-mcgill/mixehrS で無償公開されている。

Motivation: Electronic health record (EHR) data provides a new venue to elucidate disease comorbidities and latent phenotypes for precision medicine. To fully exploit its potential, a realistic data generative process of the EHR data needs to be modelled. We present MixEHR-S to jointly infer specialist-disease topics from the EHR data. As the key contribution, we model the specialist assignments and ICD-coded diagnoses as the latent topics based on patient's underlying disease topic mixture in a novel unified supervised hierarchical Bayesian topic model. For efficient inference, we developed a closed-form collapsed variational inference algorithm to learn the model distributions of MixEHR-S. We applied MixEHR-S to two independent large-scale EHR databases in Quebec with three targeted applications: (1) Congenital Heart Disease (CHD) diagnostic prediction among 154,775 patients; (2) Chronic obstructive pulmonary disease (COPD) diagnostic prediction among 73,791 patients; (3) future insulin treatment prediction among 78,712 patients diagnosed with diabetes as a mean to assess the disease exacerbation. In all three applications, MixEHR-S conferred clinically meaningful latent topics among the most predictive latent topics and achieved superior target prediction accuracy compared to the existing methods, providing opportunities for prioritizing high-risk patients for healthcare services. MixEHR-S source code and scripts of the experiments are freely available at https://github.com/l i-lab-mcgill/mixehrS
翻訳日:2021-05-05 21:10:09 公開日:2021-05-04
# (参考訳) エンドツーエンドのワンショットパーシング [全文訳有]

End-to-end One-shot Human Parsing ( http://arxiv.org/abs/2105.01241v1 )

ライセンス: CC BY 4.0
Haoyu He, Jing Zhang, Bohan Zhuang, Jianfei Cai, Dacheng Tao(参考訳) 従来の人間のパースモデルは、人間が定義済みのクラスにパースすることに限定されており、新しいクラスを扱うアプリケーションには柔軟性がない。 本稿では,テスト例によって定義されたオープンなクラスに人間を解析することを必要とする,新しいワンショットヒューマンパーシング(OSHP)タスクを定義する。 トレーニング中は、ベースクラスのみが公開され、テスト時間クラスの一部にのみ重複する。 oshpの3つの主な課題、すなわち小さなサイズ、テストバイアス、および類似部分に対処するために、我々は、新しいエンドツーエンドのワンショット人間解析ネットワーク(eop-net)を考案する。 まず、異なる粒度で意味情報を相互に共有し、小型のヒューマンクラスを認識するために、エンド・ツー・エンドのヒューマン・パーシング・フレームワークを提案する。 そして、2つの協調的なメトリック学習モジュールを考案し、ベースクラスの代表的なプロトタイプを学習し、未確認のクラスに迅速に適応し、テストバイアスを軽減する。 さらに,ロバストなプロトタイプは,新しい概念に高い転送性を持つ特徴表現を付与できることを実証的に見出し,トレーニング時間のプロトタイプを徐々に平滑化し,プロトタイプレベルでの対比損失を生かした運動量更新動的プロトタイプを採用することを提案する。 OSHP用に調整された3つの人気のあるベンチマークの実験では、EOP-Netは1ショットセグメンテーションモデルを大きなマージンで上回り、この新しいタスクのさらなる研究のための強力なベンチマークとなっている。 ソースコードは一般公開される予定だ。

Previous human parsing models are limited to parsing humans into pre-defined classes, which is inflexible for applications that need to handle new classes. In this paper, we define a new one-shot human parsing (OSHP) task that requires parsing humans into an open set of classes defined by any test example. During training, only base classes are exposed, which only overlap with part of test-time classes. To address three main challenges in OSHP, i.e., small sizes, testing bias, and similar parts, we devise a novel End-to-end One-shot human Parsing Network (EOP-Net). Firstly, an end-to-end human parsing framework is proposed to mutually share semantic information with different granularities and help recognize the small-size human classes. Then, we devise two collaborative metric learning modules to learn representative prototypes for base classes, which can quickly adapt to unseen classes and mitigate the testing bias. Moreover, we empirically find that robust prototypes empower feature representations with higher transferability to the novel concepts, hence, we propose to adopt momentum-updated dynamic prototypes generated by gradually smoothing the training time prototypes and employ contrastive loss at the prototype level. Experiments on three popular benchmarks tailored for OSHP demonstrate that EOP-Net outperforms representative one-shot segmentation models by large margins, which serves as a strong benchmark for further research on this new task. The source code will be made publicly available.
翻訳日:2021-05-05 21:07:49 公開日:2021-05-04
# (参考訳) 後悔の最適フルインフォメーション制御 [全文訳有]

Regret-Optimal Full-Information Control ( http://arxiv.org/abs/2105.01244v1 )

ライセンス: CC BY 4.0
Oron Sabag and Gautam Goel and Sahin Lale and Babak Hassibi(参考訳) 我々は無限ホリゾン離散時間全情報制御問題を考える。 学習理論によってモチベーションを得たコントローラ設計の基準として、私たちは後悔に焦点を当て、因果制御器のLQRコスト(過去と現在の乱れにしかアクセスできない)と透視器のLQRコスト(将来の乱れにもアクセスできる)の差として定義される。 全情報設定では、LQRコストが他のすべてのコントローラを支配しているユニークな最適非因果制御器が存在する。 後悔そのものが乱れの関数であるため、あらゆる有界エネルギーの乱れに対する最悪の後悔を考慮し、この最悪の後悔を最小限に抑える因果制御器を見つけることを提案する。 結果として生じるコントローラは、将来の混乱が何であれ、最高の非因果的コントローラと比較して最小限の後悔を保証できるという解釈を持つ。 我々は, 反因果作用素を作用素ノルムの因果作用素と近似するために, 後悔と最適制御問題をネハリ問題に還元できることを示した。 状態空間設定では、最適後悔と(因果的および厳密な因果的設定の両方において)後悔最適制御に対する明示的な公式が導出される。 後悔最適コントローラは古典的な$H_2$状態フィードバック法則とネハリ問題から得られる有限次元コントローラの和である。 コントローラーの構成は、単純に2つのリャプノフ方程式に加えて、標準的なLQR Riccati方程式の解を必要とする。 プラントのシミュレーションでは、後悔最適制御器が$H_2$と$H_\infty$最適制御器の間をうまく補間し、一般的には$H_2$と$H_\infty$のコストがそれらの最適値に同時に近いことを示す。 従って、後悔-最適化コントローラは、自身を制御システム設計の実行可能な選択肢として提示する。

We consider the infinite-horizon, discrete-time full-information control problem. Motivated by learning theory, as a criterion for controller design we focus on regret, defined as the difference between the LQR cost of a causal controller (that has only access to past and current disturbances) and the LQR cost of a clairvoyant one (that has also access to future disturbances). In the full-information setting, there is a unique optimal non-causal controller that in terms of LQR cost dominates all other controllers. Since the regret itself is a function of the disturbances, we consider the worst-case regret over all possible bounded energy disturbances, and propose to find a causal controller that minimizes this worst-case regret. The resulting controller has the interpretation of guaranteeing the smallest possible regret compared to the best non-causal controller, no matter what the future disturbances are. We show that the regret-optimal control problem can be reduced to a Nehari problem, i.e., to approximate an anticausal operator with a causal one in the operator norm. In the state-space setting, explicit formulas for the optimal regret and for the regret-optimal controller (in both the causal and the strictly causal settings) are derived. The regret-optimal controller is the sum of the classical $H_2$ state-feedback law and a finite-dimensional controller obtained from the Nehari problem. The controller construction simply requires the solution to the standard LQR Riccati equation, in addition to two Lyapunov equations. Simulations over a range of plants demonstrates that the regret-optimal controller interpolates nicely between the $H_2$ and the $H_\infty$ optimal controllers, and generally has $H_2$ and $H_\infty$ costs that are simultaneously close to their optimal values. The regret-optimal controller thus presents itself as a viable option for control system design.
翻訳日:2021-05-05 20:35:29 公開日:2021-05-04
# (参考訳) 協調学習型ニューラル特徴強調によるエンドツーエンド音声認識 [全文訳有]

Streaming end-to-end speech recognition with jointly trained neural feature enhancement ( http://arxiv.org/abs/2105.01254v1 )

ライセンス: CC BY 4.0
Chanwoo Kim, Abhinav Garg, Dhananjaya Gowda, Seongkyu Mun, and Changwoo Han(参考訳) 本稿では,モノトニック・チャンクワイズ・アテンション(mocha)に基づく,エンハンスメント層を併用したストリーミング音声認識モデルを提案する。 mocha attentionは、完全な注意に基づくアプローチに匹敵する認識精度を持つストリーミング音声認識を可能にするが、このモデルのトレーニングは、トレーニング例の難易度、ハイパーパラメータなど、さまざまな要因に敏感である。 これらの問題から,マルチ型学習手法を適用した場合,mochaに基づくクリーン音声モデルの音声認識精度は著しく低下する。 カリキュラム学習 [1] にインスパイアされた2つのトレーニング戦略として, GAEF (Gradual Application of Enhanced Features) とGREL (Gradual Reduction of Enhanced Loss) を導入する。 GAEFでは、モデルは最初クリーンな機能を使ってトレーニングされる。 その後、強化層からの出力部が徐々に増加する。 GRELでは、強化出力に対する平均正方形誤差(MSE)損失の一部は、トレーニングが進むにつれて徐々に減少する。 librispeechコーパスと騒がしい遠方フィールドテストセットを用いた実験結果から,gaef-grelトレーニング戦略を用いた提案モデルは,従来のマルチスタイルトレーニング手法よりも有意に優れた結果を示した。

In this paper, we present a streaming end-to-end speech recognition model based on Monotonic Chunkwise Attention (MoCha) jointly trained with enhancement layers. Even though the MoCha attention enables streaming speech recognition with recognition accuracy comparable to a full attention-based approach, training this model is sensitive to various factors such as the difficulty of training examples, hyper-parameters, and so on. Because of these issues, speech recognition accuracy of a MoCha-based model for clean speech drops significantly when a multi-style training approach is applied. Inspired by Curriculum Learning [1], we introduce two training strategies: Gradual Application of Enhanced Features (GAEF) and Gradual Reduction of Enhanced Loss (GREL). With GAEF, the model is initially trained using clean features. Subsequently, the portion of outputs from the enhancement layers gradually increases. With GREL, the portion of the Mean Squared Error (MSE) loss for the enhanced output gradually reduces as training proceeds. In experimental results on the LibriSpeech corpus and noisy far-field test sets, the proposed model with GAEF-GREL training strategies shows significantly better results than the conventional multi-style training approach.
翻訳日:2021-05-05 20:13:45 公開日:2021-05-04
# (参考訳) 顔の動きに基づく光学的流れに対する自己監督的アプローチ [全文訳有]

Self-Supervised Approach for Facial Movement Based Optical Flow ( http://arxiv.org/abs/2105.01256v1 )

ライセンス: CC BY 4.0
Muhannad Alkaddour, Usman Tariq, Abhinav Dhall(参考訳) 光フローの計算はコンピュータビジョンの基本的な問題である。 しかし、深層学習に基づく光学フロー技術は、顔に見られるような非剛性運動に対して、主に顔の動きを表す訓練データが欠如しているため、うまく機能しない。 顔の動きデータによるオプティカルフローの学習は、顔上の予測フローの質を向上させると仮定する。 本研究の目的は,(1)顔画像の光学的フローグラウンド真理を生成するための自己指導的手法の探索,(2)顔データによる光フロー予測のための畳み込みニューラルネットワーク(CNN)の訓練効果の計算基準,(3)マイクロ圧縮認識における学習された光学的フローの利用による効果の実証である。 BP4D-Spontaneous datasetにおける顔のキーポイントを用いて光フローグラウンド真理を生成する。 生成された光学フローは、FlowNetSアーキテクチャをトレーニングして、生成されたデータセットのパフォーマンスをテストするために使用される。 顔画像上でトレーニングされたFlowNetSの性能は、他の光フローCNNアーキテクチャよりも優れており、その有用性を示している。 本研究は,STSTNetマイクロ圧縮分類器を用いた他の手法と比較し,本手法を用いて得られた光学フローが表情解析に有望な応用であることを示す。

Computing optical flow is a fundamental problem in computer vision. However, deep learning-based optical flow techniques do not perform well for non-rigid movements such as those found in faces, primarily due to lack of the training data representing the fine facial motion. We hypothesize that learning optical flow on face motion data will improve the quality of predicted flow on faces. The aim of this work is threefold: (1) exploring self-supervised techniques to generate optical flow ground truth for face images; (2) computing baseline results on the effects of using face data to train Convolutional Neural Networks (CNN) for predicting optical flow; and (3) using the learned optical flow in micro-expression recognition to demonstrate its effectiveness. We generate optical flow ground truth using facial key-points in the BP4D-Spontaneous dataset. The generated optical flow is used to train the FlowNetS architecture to test its performance on the generated dataset. The performance of FlowNetS trained on face images surpassed that of other optical flow CNN architectures, demonstrating its usefulness. Our optical flow features are further compared with other methods using the STSTNet micro-expression classifier, and the results indicate that the optical flow obtained using this work has promising applications in facial expression analysis.
翻訳日:2021-05-05 20:02:16 公開日:2021-05-04
# (参考訳) 食品レコメンデーション説明のための意味モデリング [全文訳有]

Semantic Modeling for Food Recommendation Explanations ( http://arxiv.org/abs/2105.01269v1 )

ライセンス: CC BY 4.0
Ishita Padhiar, Oshani Seneviratne, Shruthi Chari, Daniel Gruen, Deborah L. McGuinness(参考訳) 健康、特に食生活のレコメンデーション分野におけるレコメンデーションを提供するAIメソッドの利用の増加に伴い、これらのレコメンデーションの説明性の必要性も高まっている。 このような説明は、システムの提案に従うことを正当化することで、レコメンデーションシステムのユーザに利益をもたらす。 本稿では,食品関連レコメンデーションのユーザへの説明をモデル化するための形式的手法として,食品説明オントロジー(feo)を提案する。 FEOは食品レコメンデーションをモデル化し、説明領域の概念を使用して、パーソナライズされた知識ベース質問応答システムのようなAIシステムから受け取った食品レコメンデーションに関するユーザーの質問に対する応答を生成する。 FEOはモジュラーで拡張可能な構造を使い、さまざまな説明に役立ちながら、重要なセマンティックな詳細を保存し、食品レコメンデーションの説明を正確に表現している。 そこで本研究では,本システムを評価するために,食品推薦に関する文献における説明型から導かれる能力質問の組を用いた。 FEOの使用に対する私たちの動機は、ユーザーの質問に関連してAIレコメンデータシステムの理解を完全に備えた、ユーザの健康に関する意思決定を、説明の形で推奨の背後にある推論を提供することです。

With the increased use of AI methods to provide recommendations in the health, specifically in the food dietary recommendation space, there is also an increased need for explainability of those recommendations. Such explanations would benefit users of recommendation systems by empowering them with justifications for following the system's suggestions. We present the Food Explanation Ontology (FEO) that provides a formalism for modeling explanations to users for food-related recommendations. FEO models food recommendations, using concepts from the explanation domain to create responses to user questions about food recommendations they receive from AI systems such as personalized knowledge base question answering systems. FEO uses a modular, extensible structure that lends itself to a variety of explanations while still preserving important semantic details to accurately represent explanations of food recommendations. In order to evaluate this system, we used a set of competency questions derived from explanation types present in literature that are relevant to food recommendations. Our motivation with the use of FEO is to empower users to make decisions about their health, fully equipped with an understanding of the AI recommender systems as they relate to user questions, by providing reasoning behind their recommendations in the form of explanations.
翻訳日:2021-05-05 19:31:53 公開日:2021-05-04
# (参考訳) ドイツにおける冬コムギ収量予測のための機械学習手法の比較 [全文訳有]

Comparison of Machine Learning Methods for Predicting Winter Wheat Yield in Germany ( http://arxiv.org/abs/2105.01282v1 )

ライセンス: CC BY 4.0
Amit Kumar Srivastava, Nima Safaei, Saeed Khaki, Gina Lopez, Wenzhi Zeng, Frank Ewert, Thomas Gaiser, Jaber Rahimi(参考訳) 本研究では,冬期コムギ収量予測のための各種機械学習手法の性能を気象,土壌,作物の表現学の広範なデータセットを用いて解析した。 季節に対処するため、土壌の湿潤条件や気象現象を考慮に入れた週間の特徴が用いられた。 その結果, 深層ニューラルネットワーク(DNN)やXGboostのような非線形モデルは, 線形モデルと比較して, 収穫量と入力データとの関数的関係を見出すのに有効であることが示唆された。 その結果、深層ニューラルネットワークはXGboostよりも予測精度が高いことが判明した。 機械学習モデルの主な制限の1つは、ブラックボックス特性である。 その結果,予測を超越して特徴選択を行い,収量予測(時間ごとの重要度)を説明する上で重要な結果を得た。 特徴選択法は, 気象成分, 土壌条件, 現象変数の個々の影響を推定し, それらの変数が重要になる時期を推定した。 そこで本研究では,冬期コムギ収量に最も大きな影響を及ぼす変数について検討した。

This study analyzed the performance of different machine learning methods for winter wheat yield prediction using extensive datasets of weather, soil, and crop phenology. To address the seasonality, weekly features were used that explicitly take soil moisture conditions and meteorological events into account. Our results indicated that nonlinear models such as deep neural networks (DNN) and XGboost are more effective in finding the functional relationship between the crop yield and input data compared to linear models. The results also revealed that the deep neural networks often had a higher prediction accuracy than XGboost. One of the main limitations of machine learning models is their black box property. As a result, we moved beyond prediction and performed feature selection, as it provides key results towards explaining yield prediction (variable importance by time). The feature selection method estimated the individual effect of weather components, soil conditions, and phenology variables as well as the time that these variables become important. As such, our study indicates which variables have the most significant effect on winter wheat yield.
翻訳日:2021-05-05 19:19:07 公開日:2021-05-04
# (参考訳) コンセンサス構築によるクラスタリングのための表現学習 [全文訳有]

Representation Learning for Clustering via Building Consensus ( http://arxiv.org/abs/2105.01289v1 )

ライセンス: CC BY 4.0
Aniket Anand Deshmukh, Jayanth Reddy Regatti, Eren Manavoglu, and Urun Dogan(参考訳) 本稿では,画像の深層クラスタリングと教師なし表現学習に着目した。 深層クラスタリングと教師なし表現学習の最近の進歩は、入力画像の異なるビュー(データ拡張技術によって生成される)が表現空間(例:一貫性)に近づき、/または類似の画像が類似のクラスタ割り当て(親和性)を持つという考え方に基づいている。 一貫性,コンセンサス一貫性という新たな概念を定義し,表現空間の変化,クラスタリングアルゴリズムの違い,クラスタリングアルゴリズムの異なる初期化に対して,表現が類似した分割を誘導することを保証する。 表現空間のバリエーションを施すことでクラスタリング損失を定義し,3つの構成要素(合意,模範,集団)をエンドツーエンドの学習フレームワークにシームレスに統合する。 提案アルゴリズムであるConsensus Clustering using Unsupervised Representation Learning (ConCURL)は,5つの画像データセットのうち4つに対して,最先端の手法によるクラスタリング性能を向上させる。 さらに,分散シフト時のクラスタリング性能など,実世界のクラスタリングタスクにおける課題を反映するために,クラスタリングの評価手順を拡張する。 また,アルゴリズムのより深い理解のために,詳細なアブレーション研究を行う。

In this paper, we focus on deep clustering and unsupervised representation learning for images. Recent advances in deep clustering and unsupervised representation learning are based on the idea that different views of an input image (generated through data augmentation techniques) must be closer in the representation space (exemplar consistency), and/or similar images have a similar cluster assignment (population consistency). We define an additional notion of consistency, consensus consistency, which ensures that representations are learnt to induce similar partitions for variations in the representation space, different clustering algorithms or different initializations of a clustering algorithm. We define a clustering loss by performing variations in the representation space and seamlessly integrate all three consistencies (consensus, exemplar and population) into an end-to-end learning framework. The proposed algorithm, Consensus Clustering using Unsupervised Representation Learning (ConCURL) improves the clustering performance over state-of-the art methods on four out of five image datasets. Further, we extend the evaluation procedure for clustering to reflect the challenges in real world clustering tasks, such as clustering performance in the case of distribution shift. We also perform a detailed ablation study for a deeper understanding of the algorithm.
翻訳日:2021-05-05 19:06:10 公開日:2021-05-04
# (参考訳) 対面防止のためのデュアルクロス中央差分ネットワーク [全文訳有]

Dual-Cross Central Difference Network for Face Anti-Spoofing ( http://arxiv.org/abs/2105.01290v1 )

ライセンス: CC BY-SA 4.0
Zitong Yu, Yunxiao Qin, Hengshuang Zhao, Xiaobai Li, Guoying Zhao(参考訳) 対面防止(FAS)は、顔認識システムを保護する上で重要な役割を担っている。 近年,集中差分畳み込み(CDC)は局所勾配特性を利用してFASタスクに優れた表現能力を示した。 しかし、すべての隣接/方向からの中央差分の手がかりを集約することで、訓練段階でcdcが冗長かつ副最適化される。 本稿では, 水平方向, 斜方向から中心の差と周辺部分の特徴をそれぞれ生かした2つの交叉中心差分畳み込み(c-cdc)を提案する。 C-CDCは、9つのパラメータしか持たず、計算コストも少なく、完全な方向CDCよりも優れています。 これら2つの分離c-cdcに基づいて、相互関係マイニングと局所的詳細表現拡張のためのクロスフィーチャー相互作用モジュール(cfim)により、強力なデュアルクロス中央差分ネットワーク(dc-cdn)が確立される。 さらに, 顔パッチと高密度ラベルをランダムサンプルから簡単に交換することで, FASのための新しいパッチ交換(PE)拡張戦略を提案する。 このように、拡張サンプルはよりリッチなライブ/スプーフパターンと多様なドメイン分布を含み、本質的で堅牢な特徴学習の恩恵を受ける。 4つのベンチマークデータセットと3つのテストプロトコルで総合的な実験を行い、最先端のパフォーマンスを実証する。

Face anti-spoofing (FAS) plays a vital role in securing face recognition systems. Recently, central difference convolution (CDC) has shown its excellent representation capacity for the FAS task via leveraging local gradient features. However, aggregating central difference clues from all neighbors/directions simultaneously makes the CDC redundant and sub-optimized in the training phase. In this paper, we propose two Cross Central Difference Convolutions (C-CDC), which exploit the difference of the center and surround sparse local features from the horizontal/vertical and diagonal directions, respectively. It is interesting to find that, with only five ninth parameters and less computational cost, C-CDC even outperforms the full directional CDC. Based on these two decoupled C-CDC, a powerful Dual-Cross Central Difference Network (DC-CDN) is established with Cross Feature Interaction Modules (CFIM) for mutual relation mining and local detailed representation enhancement. Furthermore, a novel Patch Exchange (PE) augmentation strategy for FAS is proposed via simply exchanging the face patches as well as their dense labels from random samples. Thus, the augmented samples contain richer live/spoof patterns and diverse domain distributions, which benefits the intrinsic and robust feature learning. Comprehensive experiments are performed on four benchmark datasets with three testing protocols to demonstrate our state-of-the-art performance.
翻訳日:2021-05-05 18:39:01 公開日:2021-05-04
# (参考訳) semantic extractor-paraphrase r based abstractive summarization [全文訳有]

Semantic Extractor-Paraphrase r based Abstractive Summarization ( http://arxiv.org/abs/2105.01296v1 )

ライセンス: CC BY 4.0
Anubhav Jangra, Raghav Jain, Vaibhav Mavi, Sriparna Saha, Pushpak Bhattacharyya(参考訳) 現在,音声言語のアンソロジーはテキスト情報に埋もれており,自動要約モデルの開発が必要である。 本稿では,構文情報重なりに重点を置く前任者に対して,意味的重なりを生かした抽出・パラフラザーに基づく抽象要約システムを提案する。 我々のモデルはROUGE, METEOR, Word mover similarity (WMS) で最先端のベースラインを上回り, 広範囲なアブレーション実験により提案手法の優位性を確立する。 我々はまた,アートポインタージェネレータネットワーク(PGN)の現状の要約機能に挑戦し,PGNは要約器の概念とは対照的にパラフレーズであり,複数の文にまたがる情報の蓄積が不可能であることを示した。

The anthology of spoken languages today is inundated with textual information, necessitating the development of automatic summarization models. In this manuscript, we propose an extractor-paraphrase r based abstractive summarization system that exploits semantic overlap as opposed to its predecessors that focus more on syntactic information overlap. Our model outperforms the state-of-the-art baselines in terms of ROUGE, METEOR and word mover similarity (WMS), establishing the superiority of the proposed system via extensive ablation experiments. We have also challenged the summarization capabilities of the state of the art Pointer Generator Network (PGN), and through thorough experimentation, shown that PGN is more of a paraphraser, contrary to the prevailing notion of a summarizer; illustrating it's incapability to accumulate information across multiple sentences.
翻訳日:2021-05-05 18:21:53 公開日:2021-05-04
# (参考訳) パーソナライズされたアルゴリズム生成:メタラーニングODEインテグレータの事例

Personalized Algorithm Generation: A Case Study in Meta-Learning ODE Integrators ( http://arxiv.org/abs/2105.01303v1 )

ライセンス: CC BY 4.0
Yue Guo, Felix Dietrich, Tom Bertalan, Danimir T. Doncevic, Manuel Dahmen, Ioannis G. Kevrekidis, Qianxiao Li(参考訳) 本研究では, 数値計算のメタラーニングについて検討し, 汎用アルゴリズムの構造を数学的に駆動した手作り設計と, タスクの特定のクラスへのデータ駆動適応を組み合わせた。 これは、古典的な数値解析のアプローチとは違い、通常はそのような学習に基づく適応を特徴としない。 本研究では,ランゲ・クッタ(RK)インテグレータアーキテクチャに基づいて,一般微分方程式(ODE)の形で初期値問題に対する効果的な解法を自動的に学習する機械学習手法を開発した。 ニューラルネットワーク近似とメタラーニングを組み合わせることで、微分方程式の族を対象とする高次積分器を手動で計算することなく得ることを示す。 さらに,古典的RK法よりも優れた性能が得られることを示す。 これは、アプローチによって特定され、利用されるODEファミリーの特定の特性に起因する可能性がある。 全体として、本研究は微分方程式の数値解のためのアルゴリズムの設計に効果的な学習に基づくアプローチを示し、他の数値タスクにも容易に拡張できる手法である。

We study the meta-learning of numerical algorithms for scientific computing, which combines the mathematically driven, handcrafted design of general algorithm structure with a data-driven adaptation to specific classes of tasks. This represents a departure from the classical approaches in numerical analysis, which typically do not feature such learning-based adaptations. As a case study, we develop a machine learning approach that automatically learns effective solvers for initial value problems in the form of ordinary differential equations (ODEs), based on the Runge-Kutta (RK) integrator architecture. By combining neural network approximations and meta-learning, we show that we can obtain high-order integrators for targeted families of differential equations without the need for computing integrator coefficients by hand. Moreover, we demonstrate that in certain cases we can obtain superior performance to classical RK methods. This can be attributed to certain properties of the ODE families being identified and exploited by the approach. Overall, this work demonstrates an effective, learning-based approach to the design of algorithms for the numerical solution of differential equations, an approach that can be readily extended to other numerical tasks.
翻訳日:2021-05-05 18:09:47 公開日:2021-05-04
# (参考訳) 談話関係埋め込み:ソーシャルメディアにおける談話セグメント間の関係を表現する [全文訳有]

Discourse Relation Embeddings: Representing the Relations between Discourse Segments in Social Media ( http://arxiv.org/abs/2105.01306v1 )

ライセンス: CC BY-SA 4.0
Youngseo Son, H Andrew Schwartz(参考訳) 談話関係は通常、テキストのセグメント間の関係(例)を特徴付ける離散クラスとしてモデル化される。 因果説明、拡張)。 しかし、そのような事前定義された離散クラスは、潜在的な関係とそれらのニュアンスの違いの宇宙を制限する。 文脈的単語埋め込みと同様に、高次元連続空間内の点として談話関係を表現することを提案する。 しかし、言葉とは違って、談話関係は表面的な形式を持たないことが多い(関係は2つの部分に分かれており、その隙間に単語やフレーズがないことが多い)。 本稿では,ソーシャルメディアにおける談話セグメント間の多様かつニュアンスな関係を学習するための,弱教師付きマルチタスクアプローチを通じて,談話関係埋め込み(DiscRE)の自動生成手法を提案する。 その結果,(1)twitterの談話関係分類タスク(macro f1=0.76)の最高の性能を得る,(2)ソーシャルメディアの因果関係予測(f1=.79から.81)における技術の向上,(3)従来の談話関係分類における現代文や文脈的単語の埋め込み,(4)新しいニュアンス関係の捉え方(例)が得られた。 因果説明と反事実の交点における関係)

Discourse relations are typically modeled as a discrete class that characterizes the relation between segments of text (e.g. causal explanations, expansions). However, such predefined discrete classes limits the universe of potential relationships and their nuanced differences. Analogous to contextual word embeddings, we propose representing discourse relations as points in high dimensional continuous space. However, unlike words, discourse relations often have no surface form (relations are between two segments, often with no word or phrase in that gap) which presents a challenge for existing embedding techniques. We present a novel method for automatically creating discourse relation embeddings (DiscRE), addressing the embedding challenge through a weakly supervised, multitask approach to learn diverse and nuanced relations between discourse segments in social media. Results show DiscRE can: (1) obtain the best performance on Twitter discourse relation classification task (macro F1=0.76) (2) improve the state of the art in social media causality prediction (from F1=.79 to .81), (3) perform beyond modern sentence and contextual word embeddings at traditional discourse relation classification, and (4) capture novel nuanced relations (e.g. relations semantically at the intersection of causal explanations and counterfactuals).
翻訳日:2021-05-05 18:08:45 公開日:2021-05-04
# (参考訳) BLM-17m: Twitter上のブラックライブトピック検出のための大規模データセット [全文訳有]

BLM-17m: A Large-Scale Dataset for Black Lives Matter Topic Detection on Twitter ( http://arxiv.org/abs/2105.01331v1 )

ライセンス: CC BY 4.0
Hasan Kemik, Nusret \"Ozate\c{s}, Meysam Asgari-Chenaghlu, Erik Cambria(参考訳) 人権の保護は、我々の世界で最も重要な問題の1つです。 本稿の目的は,ジョージ・フロイド事件(George Floyd incident)に影響を及ぼした近年の人権侵害の最も顕著な1つをカバーするデータセットを提供することである。 1700万ツイートを含むトピック検出のためのラベル付きデータセットを提案する。 これらのツイートは、2020年5月25日から8月21日までの89日間に収集される。 我々は、世界中の新聞や地方紙のトレンドニュースをモニタリングすることで、データセットをラベル付けした。 それとは別に、TF-IDF と LDA の2つのベースラインがある。 精度,リコール,f1スコアの3つの異なるk値を用いた2つの手法の結果を評価した。 収集されたデータセットはhttps://github.com/M eysamAsgariC/BLMTで入手できる。

Protection of human rights is one of the most important problems of our world. In this paper, our aim is to provide a dataset which covers one of the most significant human rights contradiction in recent months affected the whole world, George Floyd incident. We propose a labeled dataset for topic detection that contains 17 million tweets. These Tweets are collected from 25 May 2020 to 21 August 2020 that covers 89 days from start of this incident. We labeled the dataset by monitoring most trending news topics from global and local newspapers. Apart from that, we present two baselines, TF-IDF and LDA. We evaluated the results of these two methods with three different k values for metrics of precision, recall and f1-score. The collected dataset is available at https://github.com/M eysamAsgariC/BLMT.
翻訳日:2021-05-05 17:55:55 公開日:2021-05-04
# (参考訳) canonical saliency maps:デコードディープフェイスモデル [全文訳有]

Canonical Saliency Maps: Decoding Deep Face Models ( http://arxiv.org/abs/2105.01386v1 )

ライセンス: CC BY 4.0
Thrupthi Ann John, Vineeth N Balasubramanian, C V Jawahar(参考訳) 顔処理タスクのためのディープニューラルネットワークモデルが人間のようなパフォーマンスに近づくにつれ、法執行やアクセス制御といった重要なアプリケーションへのデプロイメントが増加し、失敗がはるかに大きな結果をもたらす可能性がある。 可能な限り透明にすることで、デプロイされたシステムに対する信頼を構築する方法が必要です。 既存の可視化アルゴリズムはオブジェクト認識のために設計されており、顔領域に適用しても洞察力のある結果を与えない。 本研究では,標準顔モデルにサリエンシマップを投影することにより,関連する顔領域をハイライトする新しい手法である「カノニカル・サリエンシマップ」を提案する。 画像レベルマップとモデルレベルマップの2種類のカノニカル・サリエンシマップを提示する。 画像レベルのマップは、与えられた画像上のディープフェイスモデルによる決定に責任がある顔の特徴を強調し、DNNが画像上でどのように予測したかを理解するのに役立つ。 モデルレベルのマップは、各タスクでDNNモデル全体が何を重視しているかを理解し、モデル内のバイアスを検出するために使用できる。 筆者らの定性的かつ定量的な結果は, アーキテクチャによらず, 任意の深層面モデルで使用可能な標準塩分マップの有用性を示している。

As Deep Neural Network models for face processing tasks approach human-like performance, their deployment in critical applications such as law enforcement and access control has seen an upswing, where any failure may have far-reaching consequences. We need methods to build trust in deployed systems by making their working as transparent as possible. Existing visualization algorithms are designed for object recognition and do not give insightful results when applied to the face domain. In this work, we present 'Canonical Saliency Maps', a new method that highlights relevant facial areas by projecting saliency maps onto a canonical face model. We present two kinds of Canonical Saliency Maps: image-level maps and model-level maps. Image-level maps highlight facial features responsible for the decision made by a deep face model on a given image, thus helping to understand how a DNN made a prediction on the image. Model-level maps provide an understanding of what the entire DNN model focuses on in each task and thus can be used to detect biases in the model. Our qualitative and quantitative results show the usefulness of the proposed canonical saliency maps, which can be used on any deep face model regardless of the architecture.
翻訳日:2021-05-05 17:52:38 公開日:2021-05-04
# (参考訳) TimeGym: Pythonの時系列モデリングのためのデバッグ [全文訳有]

TimeGym: Debugging for Time Series Modeling in Python ( http://arxiv.org/abs/2105.01404v1 )

ライセンス: CC BY 4.0
Diogo Seca(参考訳) 時系列予測パイプラインのテストとデバッグを行うpythonライブラリであるtimegym forecasting debugging toolkitを紹介する。 TimeGymは、最初からパイプラインを予測するための一般的なテストを提供することで、テスト予測パイプラインを単純化する。 これらのテストは時系列の一般的なモデリング課題に基づいている。 このライブラリにより、予測者は、特定のオラクルを使用してノイズを伴う人工データを生成する、予測モデリングにテスト駆動開発アプローチを適用することができる。

We introduce the TimeGym Forecasting Debugging Toolkit, a Python library for testing and debugging time series forecasting pipelines. TimeGym simplifies the testing forecasting pipeline by providing generic tests for forecasting pipelines fresh out of the box. These tests are based on common modeling challenges of time series. Our library enables forecasters to apply a Test-Driven Development approach to forecast modeling, using specified oracles to generate artificial data with noise.
翻訳日:2021-05-05 17:35:18 公開日:2021-05-04
# (参考訳) 機械学習におけるoracleの課題のレビュー [全文訳有]

A Review on Oracle Issues in Machine Learning ( http://arxiv.org/abs/2105.01407v1 )

ライセンス: CC BY 4.0
Diogo Seca(参考訳) 機械学習は、oracleがデータであり、データが機械学習がモデル化しようとする問題の正しい表現であるとは限らないという、従来のソフトウェア開発とは対照的である。 機械学習におけるオラクル問題と、これらの問題に対処するための最先端ソリューションについて調査する。 これには、ディファレンシャルテスト、メタモルフィックテスト、テストカバレッジに関する一連の研究が含まれる。 また、私たちは、オラクルの問題の影響を減らすモデリング中の堅牢性に対する最近の改善や、データセット固有の問題のテストや発見を支援するツールやフレームワークについてもレビューしています。

Machine learning contrasts with traditional software development in that the oracle is the data, and the data is not always a correct representation of the problem that machine learning tries to model. We present a survey of the oracle issues found in machine learning and state-of-the-art solutions for dealing with these issues. These include lines of research for differential testing, metamorphic testing, and test coverage. We also review some recent improvements to robustness during modeling that reduce the impact of oracle issues, as well as tools and frameworks for assisting in testing and discovering issues specific to the dataset.
翻訳日:2021-05-05 17:27:00 公開日:2021-05-04
# (参考訳) コンセプトドリフト検出のための自動学習 [全文訳有]

Automatic Learning to Detect Concept Drift ( http://arxiv.org/abs/2105.01419v1 )

ライセンス: CC0 1.0
Hang Yu, Tianyu Liu, Jie Lu and Guangquan Zhang(参考訳) 概念ドリフトを検出する多くの手法が提案されており、すなわち、概念ドリフトによるストリーミングデータの分布の変化は、アルゴリズムの予測精度を低下させる。 しかし、現在の検出手法の大部分は、データ分布の変化度の評価に基づいており、概念ドリフトのタイプを特定することはできない。 本稿では,誤り率の変化パターンを追跡して概念ドリフトを分類する新しいフレームワークであるmeta learning (meta-add) を用いたアクティブドリフト検出を提案する。 具体的には, 学習段階において, 様々な概念ドリフトの誤差率に基づいてメタ特徴を抽出し, その後, 様々な概念ドリフトクラスを対応するプロトタイプとして表現し, プロトタイプ型ニューラルネットワークを介してメタ検出器を開発する。 検出フェーズでは、学習したメタ検出器が微調整され、ストリームベースのアクティブラーニングを介して対応するデータストリームに適応する。 そこでMeta-ADDは機械学習を使って概念のドリフトを検出し、それらのタイプを自動的に識別する。 実験結果はメタ付加の有効性を検証する。

Many methods have been proposed to detect concept drift, i.e., the change in the distribution of streaming data, due to concept drift causes a decrease in the prediction accuracy of algorithms. However, the most of current detection methods are based on the assessment of the degree of change in the data distribution, cannot identify the type of concept drift. In this paper, we propose Active Drift Detection with Meta learning (Meta-ADD), a novel framework that learns to classify concept drift by tracking the changed pattern of error rates. Specifically, in the training phase, we extract meta-features based on the error rates of various concept drift, after which a meta-detector is developed via a prototypical neural network by representing various concept drift classes as corresponding prototypes. In the detection phase, the learned meta-detector is fine-tuned to adapt to the corresponding data stream via stream-based active learning. Hence, Meta-ADD uses machine learning to learn to detect concept drifts and identify their types automatically, which can directly support drift understand. The experiment results verify the effectiveness of Meta-ADD.
翻訳日:2021-05-05 17:15:58 公開日:2021-05-04
# (参考訳) 自然政策勾配アルゴリズムの線形収束について [全文訳有]

On the Linear convergence of Natural Policy Gradient Algorithm ( http://arxiv.org/abs/2105.01424v1 )

ライセンス: CC BY 4.0
Sajad Khodadadian, Prakirt Raj Jhunjhunwala, Sushil Mahavir Varma, Siva Theja Maguluri(参考訳) マルコフ決定プロセスは、価値反復とポリシー反復アルゴリズムを用いて古典的に解決される。 強化学習への近年の関心は、勾配上昇などの最適化にインスパイアされた手法の研究を動機付けている。 これらのうち、人気のあるアルゴリズムはNatural Policy Gradientであり、これはMDPのミラー降下変種である。 このアルゴリズムは,Natural actor-critic, TRPO, PPOなど,いくつかの一般的な強化学習アルゴリズムの基礎を成している。 一定のステップサイズを持つ自然政策勾配は、大域的最適にO(1/k)のサブ線形速度に収束することが示されている。 本稿では,改良された有限時間収束境界を示し,このアルゴリズムが幾何学的(線形)漸近収束率を持つことを示す。 我々は,適応的なステップサイズを持つ自然政策勾配の変種を導入することにより,この収束結果をさらに改善する。 最後に,政策勾配手法の異なるバリエーションを実験的に比較する。

Markov Decision Processes are classically solved using Value Iteration and Policy Iteration algorithms. Recent interest in Reinforcement Learning has motivated the study of methods inspired by optimization, such as gradient ascent. Among these, a popular algorithm is the Natural Policy Gradient, which is a mirror descent variant for MDPs. This algorithm forms the basis of several popular Reinforcement Learning algorithms such as Natural actor-critic, TRPO, PPO, etc, and so is being studied with growing interest. It has been shown that Natural Policy Gradient with constant step size converges with a sublinear rate of O(1/k) to the global optimal. In this paper, we present improved finite time convergence bounds, and show that this algorithm has geometric (also known as linear) asymptotic convergence rate. We further improve this convergence result by introducing a variant of Natural Policy Gradient with adaptive step sizes. Finally, we compare different variants of policy gradient methods experimentally.
翻訳日:2021-05-05 17:04:39 公開日:2021-05-04
# (参考訳) ビジネス分析が人工知能に到達:スイスの列車チケットに対する割引の需要効果を評価する

Business analytics meets artificial intelligence: Assessing the demand effects of discounts on Swiss train tickets ( http://arxiv.org/abs/2105.01426v1 )

ライセンス: CC BY 4.0
Martin Huber, Jonas Meier, Hannes Wallimann(参考訳) 我々は、人工知能のサブフィールドである機械学習に基づいて、スイス連邦鉄道(swiss federal railways)が発行する「スーパーセーバーチケット」の割引の需要効果を評価する。 スーパーセーバー券の購入者の調査に基づくサンプルを考慮し、スーパーセーバー券の提供時に、客または旅行関連特性(割引率を含む)が、電車で実現しない旅行の予約、二等切符よりも一等切符の購入、または旅行(ラッシュ時から遠ざかるなど)の予約など、購入行動を予測する。 予測機械学習は、顧客の年齢、特定の接続に対する需要関連情報(出発時刻や利用状況など)、ディスカウントレベルが購入行動の予測をある程度許していることを示している。 さらに,ラッシュ時のキャパシティ制約に関係していると思われる旅行のスケジュール変更に対する割引率の影響を,因果機械学習を用いて評価する。 i)割引率が当社の豊富な特質に準ランダムな条件であり、かつ(ii)割引率において購入決定が単調に増加すると仮定すると、ディスカウントのない旅でも行ったであろう「常に買い手」の間で割引率の効果を、割引のない顧客行動について質問する調査に基づいて特定する。 平均値引き率を1ポイント引き上げると、定期購入者のうち、再スケジュールされた旅行のシェアが0.16ポイント上昇することがわかった。 観測対象物間の不均一性を調べることは、レジャー旅行者や、他のいくつかの特性を制御する際のピーク時間における効果が高いことを示唆している。

We assess the demand effects of discounts on train tickets issued by the Swiss Federal Railways, the so-called `supersaver tickets', based on machine learning, a subfield of artificial intelligence. Considering a survey-based sample of buyers of supersaver tickets, we investigate which customer- or trip-related characteristics (including the discount rate) predict buying behavior, namely: booking a trip otherwise not realized by train, buying a first- rather than second-class ticket, or rescheduling a trip (e.g.\ away from rush hours) when being offered a supersaver ticket. Predictive machine learning suggests that customer's age, demand-related information for a specific connection (like departure time and utilization), and the discount level permit forecasting buying behavior to a certain extent. Furthermore, we use causal machine learning to assess the impact of the discount rate on rescheduling a trip, which seems relevant in the light of capacity constraints at rush hours. Assuming that (i) the discount rate is quasi-random conditional on our rich set of characteristics and (ii) the buying decision increases weakly monotonically in the discount rate, we identify the discount rate's effect among `always buyers', who would have traveled even without a discount, based on our survey that asks about customer behavior in the absence of discounts. We find that on average, increasing the discount rate by one percentage point increases the share of rescheduled trips by 0.16 percentage points among always buyers. Investigating effect heterogeneity across observables suggests that the effects are higher for leisure travelers and during peak hours when controlling several other characteristics.
翻訳日:2021-05-05 16:28:29 公開日:2021-05-04
# (参考訳) NeuralLog: ニューラルネットワーク言語 [全文訳有]

NeuralLog: a Neural Logic Language ( http://arxiv.org/abs/2105.01442v1 )

ライセンス: CC BY 4.0
Victor Guimar\~aes and V\'itor Santos Costa(参考訳) 実際の値を持つオブジェクト間の関係を考慮する必要があるアプリケーションドメインは、さらに重要になっています。 本稿ではニューラルネットワークにコンパイルされる一階述語論理言語であるNeuralLogを提案する。 NeuralLogの主な目標は、ロジックプログラミングとディープラーニングをブリッジすることであり、より優れた機械学習モデルを得るために、両方のフィールドの進歩を組み合わせられるようにする。 NeuralLogの主な利点は、ニューラルネットワークを論理プログラムとして定義し、数値属性と関数を処理できるようにすることである。 我々はニューラルネットワークを構築するために一階述語論理を使用する2つの異なるシステムと比較した。 また、neurallogでは、比較システムと同じ理論を用いてリンク予測と分類のタスクを学習でき、4つのデータセット(リンク予測にはcoraとwwcse、分類にはyelpとpakdd15、wordnetデータセットではリンク予測で同等の結果が得られることを示した。

Application domains that require considering relationships among objects which have real-valued attributes are becoming even more important. In this paper we propose NeuralLog, a first-order logic language that is compiled to a neural network. The main goal of NeuralLog is to bridge logic programming and deep learning, allowing advances in both fields to be combined in order to obtain better machine learning models. The main advantages of NeuralLog are: to allow neural networks to be defined as logic programs; and to be able to handle numeric attributes and functions. We compared NeuralLog with two distinct systems that use first-order logic to build neural networks. We have also shown that NeuralLog can learn link prediction and classification tasks, using the same theory as the compared systems, achieving better results for the area under the ROC curve in four datasets: Cora and UWCSE for link prediction; and Yelp and PAKDD15 for classification; and comparable results for link prediction in the WordNet dataset.
翻訳日:2021-05-05 16:24:25 公開日:2021-05-04
# (参考訳) 階層的画像分割と関係予測を用いた病院・医療施設における液体試料のコンピュータビジョン [全文訳有]

Computer vision for liquid samples in hospitals and medical labs using hierarchical image segmentation and relations prediction ( http://arxiv.org/abs/2105.01456v1 )

ライセンス: CC BY 4.0
Sagi Eppel, Haoping Xu, Alan Aspuru-Guzik(参考訳) 本研究は,透明容器(チューブ,注射器,注入袋など)における画像分割と医用流体試料の分類におけるコンピュータビジョンの利用を考察する。 輸液液、血液、尿サンプルなどの流体を扱うことは、医療機関や病院で行われている研究の重要な部分である。 画像から液体や容器を正確に識別・分別できる能力は、そのようなプロセスを自動化するのに役立ちます。 現代のコンピュータビジョンは通常、注釈付き画像の大きなデータセットでディープニューラルネットワークをトレーニングする。 本研究は,液体と固体物質を含む容器を含む医療サンプルの1,300点の注釈付き画像を含む新しいデータセットを提案する。 画像には、液体の種類(例えば、血液、尿)、材料の相(例えば、液体、固体、泡、懸濁液)、容器の種類(例えば、注射器、チューブ、カップ、注入ボトル/バッグ)、容器の特性(透明、不透明)が注記されている。 また、コルク、ラベル、スパイク、バルブなどの容器部が注釈付けされている。 船と材質の関係や階層は、どの船がどの材質を含んでいるか、あるいはどの船が相互に連結されているかなど、注釈付けされている。 3つのニューラルネットワークがデータセット上でトレーニングされている: 1つのネットワークが容器の検出を学習し、2つめのネットが各容器内の材料と部分を検出し、3番目は容器間の関係と接続を識別する。

This work explores the use of computer vision for image segmentation and classification of medical fluid samples in transparent containers (for example, tubes, syringes, infusion bags). Handling fluids such as infusion fluids, blood, and urine samples is a significant part of the work carried out in medical labs and hospitals. The ability to accurately identify and segment the liquids and the vessels that contain them from images can help in automating such processes. Modern computer vision typically involves training deep neural nets on large datasets of annotated images. This work presents a new dataset containing 1,300 annotated images of medical samples involving vessels containing liquids and solid material. The images are annotated with the type of liquid (e.g., blood, urine), the phase of the material (e.g., liquid, solid, foam, suspension), the type of vessel (e.g., syringe, tube, cup, infusion bottle/bag), and the properties of the vessel (transparent, opaque). In addition, vessel parts such as corks, labels, spikes, and valves are annotated. Relations and hierarchies between vessels and materials are also annotated, such as which vessel contains which material or which vessels are linked or contain each other. Three neural networks are trained on the dataset: One network learns to detect vessels, a second net detects the materials and parts inside each vessel, and a third net identifies relationships and connectivity between vessels.
翻訳日:2021-05-05 16:09:30 公開日:2021-05-04
# (参考訳) 対数比較によるランク回帰のサンプル複雑性について

On the Sample Complexity of Rank Regression from Pairwise Comparisons ( http://arxiv.org/abs/2105.01463v1 )

ライセンス: CC BY 4.0
Berkan Kadioglu, Peng Tian, Jennifer Dy, Deniz Erdogmus and Stratis Ioannidis(参考訳) ランク回帰設定では、$\mathbb{R}^d$の特徴を持つ$N$サンプルのデータセットを、$M$ペアワイズ比較によってオラクルによってランク付けする。 特に、サンプルの潜在総順序は存在し、一対のサンプルを提示すると、ノイズオラクルは、基礎となる全順序に関して上位に位置するものを特定する。 学習者は、そのような比較のデータセットを観察し、その特徴からサンプルランクを回帰したい。 モデルパラメータを$\epsilon > 0$精度で学習するには、$M \in \Omega(dN\log^3 N/\epsilon^2)$の比較をランダムに行うだけで十分である。

We consider a rank regression setting, in which a dataset of $N$ samples with features in $\mathbb{R}^d$ is ranked by an oracle via $M$ pairwise comparisons. Specifically, there exists a latent total ordering of the samples; when presented with a pair of samples, a noisy oracle identifies the one ranked higher with respect to the underlying total ordering. A learner observes a dataset of such comparisons and wishes to regress sample ranks from their features. We show that to learn the model parameters with $\epsilon > 0$ accuracy, it suffices to conduct $M \in \Omega(dN\log^3 N/\epsilon^2)$ comparisons uniformly at random when $N$ is $\Omega(d/\epsilon^2)$.
翻訳日:2021-05-05 15:55:36 公開日:2021-05-04
# (参考訳) ソーシャルメディアからのエピデミック関連バイリンガルデータの知覚と感情分類 [全文訳有]

Sentiment and Emotion Classification of Epidemic Related Bilingual data from Social Media ( http://arxiv.org/abs/2105.01468v1 )

ライセンス: CC BY 4.0
Muhammad Zain Ali, Kashif Javed, Ehsan ul Haq, Anoshka Tariq(参考訳) 近年、感情分析と感情分類は、自然言語処理(NLP)分野において最も多く使われている手法の1つである。 感情分析や感情分類は, 顧客レビューの分析, 選挙に立候補する候補者の人気, 各種スポーツイベントに対するコメントなど, 一般的に応用されているが, 本研究では, アウトブレイク検出への応用について検討した。 早期流行検出は、感染の効果的な対処の鍵であるが、従来の流行検出の方法は、各部門からの迅速な対応を阻害する時間を要する。 Twitter、Facebook、Instagramなどのソーシャルメディアプラットフォーム。 ユーザは、生活のさまざまな側面に関連する考えを表現できるので、そのような状況において、実質的な情報源となる。 本研究は,パキスタンのデング流行に関するtwitterおよびニュースサイトから得られたバイリンガル(ウルドゥー語と英語)データを利用して感情分析と感情分類を行い,流行流行に関連する公平なアイデアを得るためのデータセットから深い洞察を得る。 機械学習とディープラーニングアルゴリズムは、両方のタスクの実行モデルのトレーニングと実装に使用されている。 各モデルの比較性能は、精度、精度、リコール、およびf1測定を用いて評価されている。

In recent years, sentiment analysis and emotion classification are two of the most abundantly used techniques in the field of Natural Language Processing (NLP). Although sentiment analysis and emotion classification are used commonly in applications such as analyzing customer reviews, the popularity of candidates contesting in elections, and comments about various sporting events; however, in this study, we have examined their application for epidemic outbreak detection. Early outbreak detection is the key to deal with epidemics effectively, however, the traditional ways of outbreak detection are time-consuming which inhibits prompt response from the respective departments. Social media platforms such as Twitter, Facebook, Instagram, etc. allow the users to express their thoughts related to different aspects of life, and therefore, serve as a substantial source of information in such situations. The proposed study exploits the bilingual (Urdu and English) data from Twitter and NEWS websites related to the dengue epidemic in Pakistan, and sentiment analysis and emotion classification are performed to acquire deep insights from the data set for gaining a fair idea related to an epidemic outbreak. Machine learning and deep learning algorithms have been used to train and implement the models for the execution of both tasks. The comparative performance of each model has been evaluated using accuracy, precision, recall, and f1-measure.
翻訳日:2021-05-05 15:54:22 公開日:2021-05-04
# (参考訳) Neural Weighted A*: グラフコストと時間差A*によるヒューリスティックス学習 [全文訳有]

Neural Weighted A*: Learning Graph Costs and Heuristics with Differentiable Anytime A* ( http://arxiv.org/abs/2105.01480v1 )

ライセンス: CC BY 4.0
Alberto Archetti, Marco Cannici, Matteo Matteucci(参考訳) 近年、ニューラルネットワーク層とアルゴリズム層の融合は、グラフ上の最短パスのような組合せデータを扱うのに有用であるため、ディープラーニング研究において、微分可能なアルゴリズムをディープラーニングアーキテクチャに組み込む傾向が生まれている。 データ駆動計画に関する最近の研究は、コスト関数かヒューリスティック関数かを学ぶことを目的としているが、両方ではない。 本稿では,グラフコストとヒューリスティックスとして平面マップの表現を改良できる,微分可能な任意の時間プランナーであるNeural Weighted A*を提案する。 トレーニングは、アーキテクチャに統合された差別化可能なa*ソルバによって、計画例を直接監視しながら、rawイメージのエンドツーエンドで実行される。 さらに重要なことに、ユーザは単一の実数値パラメータを使用して、実行時の効率のために計画の正確さをトレードオフできる。 解準最適性は、トレードオフパラメータによって乗算される最適経路コストに等しい線形境界内で制約される。 我々は,複数のベースラインに対して神経重み付きa*をテストし,新たなタイルベースのナビゲーションデータセットを導入することで,クレームの妥当性を実験的に示す。 私たちは、精度と効率の計画において、同様のアーキテクチャを上回ります。

Recently, the trend of incorporating differentiable algorithms into deep learning architectures arose in machine learning research, as the fusion of neural layers and algorithmic layers has been beneficial for handling combinatorial data, such as shortest paths on graphs. Recent works related to data-driven planning aim at learning either cost functions or heuristic functions, but not both. We propose Neural Weighted A*, a differentiable anytime planner able to produce improved representations of planar maps as graph costs and heuristics. Training occurs end-to-end on raw images with direct supervision on planning examples, thanks to a differentiable A* solver integrated into the architecture. More importantly, the user can trade off planning accuracy for efficiency at run-time, using a single, real-valued parameter. The solution suboptimality is constrained within a linear bound equal to the optimal path cost multiplied by the tradeoff parameter. We experimentally show the validity of our claims by testing Neural Weighted A* against several baselines, introducing a novel, tile-based navigation dataset. We outperform similar architectures in planning accuracy and efficiency.
翻訳日:2021-05-05 15:42:51 公開日:2021-05-04
# (参考訳) マルチパスグラフ畳み込みニューラルネットワーク [全文訳有]

Multipath Graph Convolutional Neural Networks ( http://arxiv.org/abs/2105.01510v1 )

ライセンス: CC BY 4.0
Rangan Das, Bikram Boote, Saumik Bhattacharya, Ujjwal Maulik(参考訳) グラフ畳み込みネットワークは最近、非ユークリッド特徴空間での表現学習に多くの注目を集めている。 最近の研究は、グラフ畳み込みネットワークの表現力を高めるために畳み込みニューラルネットワークのような複数の層を積み重ねることに焦点を当てている。 しかし、複数のグラフ畳み込み層を積み重ねるだけで、勾配の消失、過剰フィッティング、過剰なスムーシングといった問題が発生する。 このような問題は、浅いネットワークが表現力が低いにもかかわらず、より浅いネットワークを使う場合よりはるかに少ない。 本研究では,複数の浅いネットワークの出力を集約する新しいマルチパスグラフ畳み込みニューラルネットワークを提案する。 ノード特性予測タスクのために,さまざまなベンチマークデータセット上でモデルをトレーニングし,テストする。 その結果, 提案手法は試験精度の向上だけでなく, 収束する訓練エポックの低減も要求されることがわかった。 完全な実装はhttps://github.com/r angan2510/multipathg cnで利用可能である。

Graph convolution networks have recently garnered a lot of attention for representation learning on non-Euclidean feature spaces. Recent research has focused on stacking multiple layers like in convolutional neural networks for the increased expressive power of graph convolution networks. However, simply stacking multiple graph convolution layers lead to issues like vanishing gradient, over-fitting and over-smoothing. Such problems are much less when using shallower networks, even though the shallow networks have lower expressive power. In this work, we propose a novel Multipath Graph convolutional neural network that aggregates the output of multiple different shallow networks. We train and test our model on various benchmarks datasets for the task of node property prediction. Results show that the proposed method not only attains increased test accuracy but also requires fewer training epochs to converge. The full implementation is available at https://github.com/r angan2510/MultiPathG CN
翻訳日:2021-05-05 15:29:01 公開日:2021-05-04
# (参考訳) 音声・視覚的説明のための空間的注意 [全文訳有]

Where and When: Space-Time Attention for Audio-Visual Explanations ( http://arxiv.org/abs/2105.01517v1 )

ライセンス: CC BY 4.0
Yanbei Chen, Thomas Hummel, A. Sophia Koepke, Zeynep Akata(参考訳) マルチモーダル意思決定者の決定を説明するには、両方のモダリティから証拠を決定する必要がある。 XAIの最近の進歩は、静止画像に基づいて訓練されたモデルの説明を提供する。 しかし、ダイナミックな世界で複数の感覚のモダリティをモデル化する場合、複雑なマルチモーダルモデルの謎めいたダイナミクスをいかに解き明かすかは未検討のままである。 そこで本研究では,音声視覚認識のための学習可能な説明法について検討する。 具体的には、空間と時間の両方にわたる音声と視覚データの相乗的ダイナミクスを明らかにする新しい時空間アテンションネットワークを提案する。 提案モデルでは,映像中の視覚的手がかりの出現位置と,映像中に予測された音がいつ出現するかを判断し,その決定を正当化する。 我々は3つの音声・視覚ビデオイベントデータセットをベンチマークし、近年の複数のマルチモーダル表現学習者や本質的な説明モデルと比較した。 実験結果から,既存の音声映像イベント認識法に比べて,モデルの性能が優れていることが示された。 さらに,摂動テストによるロバストネス解析と,人間のアノテーションを用いたポインティングゲームに基づいて,モデルの説明可能性の分析を行う。

Explaining the decision of a multi-modal decision-maker requires to determine the evidence from both modalities. Recent advances in XAI provide explanations for models trained on still images. However, when it comes to modeling multiple sensory modalities in a dynamic world, it remains underexplored how to demystify the mysterious dynamics of a complex multi-modal model. In this work, we take a crucial step forward and explore learnable explanations for audio-visual recognition. Specifically, we propose a novel space-time attention network that uncovers the synergistic dynamics of audio and visual data over both space and time. Our model is capable of predicting the audio-visual video events, while justifying its decision by localizing where the relevant visual cues appear, and when the predicted sounds occur in videos. We benchmark our model on three audio-visual video event datasets, comparing extensively to multiple recent multi-modal representation learners and intrinsic explanation models. Experimental results demonstrate the clear superior performance of our model over the existing methods on audio-visual video event recognition. Moreover, we conduct an in-depth study to analyze the explainability of our model based on robustness analysis via perturbation tests and pointing games using human annotations.
翻訳日:2021-05-05 15:26:15 公開日:2021-05-04
# (参考訳) VQCPC-GAN:ベクトル量子化コントラスト予測符号化を用いた可変長逆音声合成 [全文訳有]

VQCPC-GAN: Variable-length Adversarial Audio Synthesis using Vector-Quantized Contrastive Predictive Coding ( http://arxiv.org/abs/2105.01531v1 )

ライセンス: CC BY 4.0
Javier Nistal, Cyran Aouameur, Stefan Lattner, and Ga\"el Richard(参考訳) コンピュータビジョンの分野の影響を受け、GAN(Generative Adversarial Networks)は、固定サイズの2次元スペクトログラム表現を「画像データ」として、しばしばオーディオ領域に採用される。 しかし、(音楽的な)オーディオ領域では、可変期間の出力を生成することが望まれる。 本稿では,Vector-Quantized Contrastive Predictive Coding (VQCPC) を利用した可変長音声の合成フレームワークであるVQCPC-GANを提案する。 実オーディオデータから抽出されたvqcpcトークンのシーケンスはganアーキテクチャの条件入力となり、生成されたコンテンツのステップ毎の時間依存特性を提供する。 入力ノイズz(adversarial architecturesの特徴)は時間とともに固定され、グローバルな特徴の時間的一貫性が保証される。 提案手法は,様々な指標を各種の強い基準値と比較することにより評価する。 その結果,VQCPC-GANは可変長音声を生成しても同等の性能を発揮することがわかった。 付随するウェブサイトで多数の音響サンプルが提供され、再現性のためのコードをリリースする。

Influenced by the field of Computer Vision, Generative Adversarial Networks (GANs) are often adopted for the audio domain using fixed-size two-dimensional spectrogram representations as the "image data". However, in the (musical) audio domain, it is often desired to generate output of variable duration. This paper presents VQCPC-GAN, an adversarial framework for synthesizing variable-length audio by exploiting Vector-Quantized Contrastive Predictive Coding (VQCPC). A sequence of VQCPC tokens extracted from real audio data serves as conditional input to a GAN architecture, providing step-wise time-dependent features of the generated content. The input noise z (characteristic in adversarial architectures) remains fixed over time, ensuring temporal consistency of global features. We evaluate the proposed model by comparing a diverse set of metrics against various strong baselines. Results show that, even though the baselines score best, VQCPC-GAN achieves comparable performance even when generating variable-length audio. Numerous sound examples are provided in the accompanying website, and we release the code for reproducibility.
翻訳日:2021-05-05 15:04:34 公開日:2021-05-04
# (参考訳) 両側画像形状特徴に基づくアパレル推薦システム [全文訳有]

Apparel Recommender System based on Bilateral image shape features ( http://arxiv.org/abs/2105.01541v1 )

ライセンス: CC BY 4.0
Yichi Lu, Mingtian Gao, Ryosuke Saga(参考訳) 確率行列分解(PMF)は推薦システムのよく知られたモデルである。 画像認識技術の発展に伴い、画像を組み合わせたpmfレコメンダシステムも登場している。 これらのシステムの中には、従来のPMFよりも優れた結果を得るために推奨製品の画像形状の特徴を使用するものもある。 しかし、既存の手法では、これまで顧客が購入した製品のイメージ特徴と推奨製品のイメージ特徴を組み合わせることはできない。 そこで本研究では、二重畳み込みニューラルネットワーク(CNN)をPMFに統合する新しい確率モデルを提案する。 アパレルグッズでは、ユーザとアイテムの画像形状特徴から訓練されたcnnを2つ組み合わせ、ユーザとアイテムの潜在変数をcnnとレーティングのベクトル化特徴に基づいて最適化する。 大規模な実験により、我々のモデルは他の推奨モデルよりも正確な結果を予測する。

Probabilistic matrix factorization (PMF) is a well-known model of recommender systems. With the development of image recognition technology, some PMF recommender systems that combine images have emerged. Some of these systems use the image shape features of the recommended products to achieve better results compared to those of the traditional PMF. However, in the existing methods, no PMF recommender system can combine the image features of products previously purchased by customers and of recommended products. Thus, this study proposes a novel probabilistic model that integrates double convolutional neural networks (CNNs) into PMF. For apparel goods, two trained CNNs from the image shape features of users and items are combined, and the latent variables of users and items are optimized based on the vectorized features of CNNs and ratings. Extensive experiments show that our model predicts outcome more accurately than do other recommender models.
翻訳日:2021-05-05 14:51:40 公開日:2021-05-04
# (参考訳) 逆ロバスト性を考慮した高精度校正解析

A Finer Calibration Analysis for Adversarial Robustness ( http://arxiv.org/abs/2105.01550v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) 本稿では,逆ロバスト分類のための$h$-calibrationのより一般的な解析を行う。 キャリブレーションのより細かい定義を採用することで、以前の研究で研究された制限された仮説セット以上の設定をカバーできる。 特に、私たちの結果は機械学習で使われる一般的な仮説セットに当てはまる。 我々は、以前の校正結果(Bao et al., 2020)を修正し、他の結果を一般化する(Awasthi et al., 2021)。 さらに, キャリブレーションの結果と, Awasthiらによる従来の研究とを合わせて検討した。 (2021) は、一般的な仮説集合をカバーするより一般的な$H$一貫性の結果をもたらす。

We present a more general analysis of $H$-calibration for adversarially robust classification. By adopting a finer definition of calibration, we can cover settings beyond the restricted hypothesis sets studied in previous work. In particular, our results hold for most common hypothesis sets used in machine learning. We both fix some previous calibration results (Bao et al., 2020) and generalize others (Awasthi et al., 2021). Moreover, our calibration results, combined with the previous study of consistency by Awasthi et al. (2021), also lead to more general $H$-consistency results covering common hypothesis sets.
翻訳日:2021-05-05 14:44:49 公開日:2021-05-04
# (参考訳) 自動シトラスセグメンテーションのための教師なし学習と教師なし学習の組み合わせ [全文訳有]

Combining Supervised and Un-supervised Learning for Automatic Citrus Segmentation ( http://arxiv.org/abs/2105.01553v1 )

ライセンス: CC0 1.0
Heqing Huang, Tongbin Huang, Zhen Li, Zhiwei Wei, Shilei Lv(参考訳) シトラスセグメンテーションは、自動シトラスピクションの重要なステップである。 現在のイメージセグメンテーションのアプローチは、ピクセル単位のセグメンテーションによって良好なセグメンテーション結果を達成するが、これらの教師付き学習に基づく方法は、大量の注釈付きデータを必要とする。 本稿では,まず,少量のラベル付きシトラス画像を用いた単純なCNNを教師付きで訓練し,各フレームからシトラス位置を大まかに予測する。 そこで我々は,未ラベルのシトラスの動画からフレーム間の潜在的な動きを事前学習するために,最先端の教師なし学習手法を拡張する。 両ネットワークの利点を生かすために,マルチモーダルトランスフォーマーを用いて,教師なし静的情報と教師なし学習動作情報を組み合わせた。 実験の結果、両方のネットワークを結合することで、予測精度が88.3$\%$ IOUと93.6$\%$の精度で到達し、オリジナルの教師付きベースラインである1.2$\%$と2.4$\%$を上回った。 本手法は,既存のシトラス分割法と比較して,少数の教師付きデータと多数の教師なしデータを用いて,画素レベルの位置情報とクトラスの時間的情報を学び,セグメント化効果を高める。

Citrus segmentation is a key step of automatic citrus picking. While most current image segmentation approaches achieve good segmentation results by pixel-wise segmentation, these supervised learning-based methods require a large amount of annotated data, and do not consider the continuous temporal changes of citrus position in real-world applications. In this paper, we first train a simple CNN with a small number of labelled citrus images in a supervised manner, which can roughly predict the citrus location from each frame. Then, we extend a state-of-the-art unsupervised learning approach to pre-learn the citrus's potential movements between frames from unlabelled citrus's videos. To take advantages of both networks, we employ the multimodal transformer to combine supervised learned static information and unsupervised learned movement information. The experimental results show that combing both network allows the prediction accuracy reached at 88.3$\%$ IOU and 93.6$\%$ precision, outperforming the original supervised baseline 1.2$\%$ and 2.4$\%$. Compared with most of the existing citrus segmentation methods, our method uses a small amount of supervised data and a large number of unsupervised data, while learning the pixel level location information and the temporal information of citrus changes to enhance the segmentation effect.
翻訳日:2021-05-05 14:43:54 公開日:2021-05-04
# (参考訳) 広く適用可能なターゲットデータサンプル欠落攻撃 [全文訳有]

Broadly Applicable Targeted Data Sample Omission Attacks ( http://arxiv.org/abs/2105.01560v1 )

ライセンス: CC BY 4.0
Guy Barash, Eitan Farchi, Sarit Kraus, Onn Shehory(参考訳) 学習機構において,新規なクリーンラベル標的中毒攻撃を提案する。 古典的な中毒攻撃は、通常、追加、修正、削除によってデータを破損させるが、我々の攻撃はデータ消去のみに焦点を当てる。 我々の攻撃は、そのサンプルを操作することなく、ターゲットとする1つのテストサンプルを誤って分類する。 我々は,MNIST,IMDB,CIFARなどの複数のデータセットを用いて,ディープラーニング,SVM,決定木など多種多様な学習者に対する省略攻撃の有効性を示す。 データの欠落に対する私たちの攻撃の焦点は、実装と分析がより簡単であるため、単に有益である。 攻撃予算が低い場合、攻撃の成功率は80%以上であり、場合によってはホワイトボックス学習において100%であることを示す。 ブラックボックス学習の基準ベンチマークよりも体系的に上であり、多くの低い計算資源を使用する。 どちらの場合も、特定の学習者やデータセットに関わらず、モデルの精度の変化は無視できる。 また,提案手法は,データセットのサイズと分布を考慮し,単純化されたPAC学習者に対して高い確率で省略攻撃を成功させる,単純化されたPAC学習フレームワークにおいて理論的に証明する。

We introduce a novel clean-label targeted poisoning attack on learning mechanisms. While classical poisoning attacks typically corrupt data via addition, modification and omission, our attack focuses on data omission only. Our attack misclassifies a single, targeted test sample of choice, without manipulating that sample. We demonstrate the effectiveness of omission attacks against a large variety of learners including Deep learning, SVM and decision trees, using several datasets including MNIST, IMDB and CIFAR. The focus of our attack on data omission only is beneficial as well, as it is simpler to implement and analyze. We show that, with a low attack budget, our attack's success rate is above 80%, and in some cases 100%, for white-box learning. It is systematically above the reference benchmark for black-box learning, using many lower computational resources. For both cases, changes in model accuracy are negligible, regardless of the specific learner and dataset. We also prove theoretically in a simplified agnostic PAC learning framework that, subject to dataset size and distribution, our omission attack succeeds with high probability against any successful simplified agnostic PAC learner.
翻訳日:2021-05-05 14:32:34 公開日:2021-05-04
# (参考訳) PreSizE: トランスフォーマーによるeコマースの規模予測 [全文訳有]

PreSizE: Predicting Size in E-Commerce using Transformers ( http://arxiv.org/abs/2105.01564v1 )

ライセンス: CC BY 4.0
Yotam Eshel, Or Levi, Haggai Roitman, Alexander Nus(参考訳) 近年のeコマースファッション産業の進歩は、パーソナライゼーションの改善を通じて購入者エクスペリエンスを向上させる新しい方法の探求につながった。 推奨項目の適切なサイズを予測することは、パーソナライゼーションの重要な課題であり、本研究で研究されている。 この分野での初期の仕事は、明示的な買い手適合フィードバックのモデリングや、問題の単一側面(例えば、特定のカテゴリー、ブランドなど)のモデリングに重点を置いていた。 最近では、コンテンツベースまたはシーケンスベース、問題のコンテンツベースの側面のより良い説明、購入者のオンラインジャーニーのモデリングなど、よりリッチなモデルが提案されている。 しかしながら、どちらのアプローチも、目に見えないアイテム(シーケンスベースモデル)に遭遇する場合や、新しいユーザ(コンテンツベースモデル)に遭遇する場合、特定のシナリオで失敗する。 そこで本研究では,トランスフォーマーを用いて正確なサイズ予測を行う新しいディープラーニングフレームワークpresizeを提案する。 PreSizEは、ブランドやカテゴリなどのコンテンツベースの属性と、購入者の購入履歴が彼女のサイズ好みに与える影響をモデル化する。 大規模eコマースデータセット上での広範な実験を用いて,presizeが従来の最先端のベースラインよりも優れた予測性能を達成できることを実証する。 アイテム属性をエンコードすることで、presize betterは未発見のアイテムでコールドスタートケースを扱い、購入者が過去の購入データを持っていないケースを扱う。 概念実証として,PreSizEで作成したサイズ予測を,極めて効果的な特徴を持つ既存の生産レコメンデータシステムに効果的に統合し,リコメンデーションを大幅に改善できることを示す。

Recent advances in the e-commerce fashion industry have led to an exploration of novel ways to enhance buyer experience via improved personalization. Predicting a proper size for an item to recommend is an important personalization challenge, and is being studied in this work. Earlier works in this field either focused on modeling explicit buyer fitment feedback or modeling of only a single aspect of the problem (e.g., specific category, brand, etc.). More recent works proposed richer models, either content-based or sequence-based, better accounting for content-based aspects of the problem or better modeling the buyer's online journey. However, both these approaches fail in certain scenarios: either when encountering unseen items (sequence-based models) or when encountering new users (content-based models). To address the aforementioned gaps, we propose PreSizE - a novel deep learning framework which utilizes Transformers for accurate size prediction. PreSizE models the effect of both content-based attributes, such as brand and category, and the buyer's purchase history on her size preferences. Using an extensive set of experiments on a large-scale e-commerce dataset, we demonstrate that PreSizE is capable of achieving superior prediction performance compared to previous state-of-the-art baselines. By encoding item attributes, PreSizE better handles cold-start cases with unseen items, and cases where buyers have little past purchase data. As a proof of concept, we demonstrate that size predictions made by PreSizE can be effectively integrated into an existing production recommender system yielding very effective features and significantly improving recommendations.
翻訳日:2021-05-05 14:17:49 公開日:2021-05-04
# (参考訳) 学習者インダクティブバイアスが地中真実に影響を及ぼす誤り対策に向けて [全文訳有]

Towards Error Measures which Influence a Learners Inductive Bias to the Ground Truth ( http://arxiv.org/abs/2105.01567v1 )

ライセンス: CC BY 4.0
A. I. Parkes, A. J. Sobey and D. A. Hudson(参考訳) 人工知能は様々な分野に適用され、高いレベルの信頼を必要とする決定に依存している。 回帰法では、真の入出力関係を近似し、トレーニングデータの境界外で正確に実行すれば信頼度が向上する。 しかし、特にデータが不足している場合、テスト外のパフォーマンスは貧弱であることが多い。 これは、多くのシナリオにおいて「基底真理」のよい近似である条件平均が、データセットが制限的な仮定に従えば、従来のミンコフスキー-r誤差測度でのみモデル化され、多くの実データセットがこれらに違反するからである。 これに対抗するために、'根拠真理'を近似するために事前知識を使用するいくつかの方法がある。 しかし,事前知識が常に利用可能であるとは限らないため,これらのシナリオにおいて回帰法が'根拠真理'をモデル化する能力に誤差尺度がどのように影響するかを検討する。 現在の誤差尺度は役に立たないバイアスを生じさせ、この振る舞いを示さない新しい誤差尺度が導出される。 これは、異なる特徴を持つ36の代表的なデータセット上でテストされ、'接地真理'の決定と、トレーニングデータの範囲を超える領域での予測の改善により一貫性があることを示している。

Artificial intelligence is applied in a range of sectors, and is relied upon for decisions requiring a high level of trust. For regression methods, trust is increased if they approximate the true input-output relationships and perform accurately outside the bounds of the training data. But often performance off-test-set is poor, especially when data is sparse. This is because the conditional average, which in many scenarios is a good approximation of the `ground truth', is only modelled with conventional Minkowski-r error measures when the data set adheres to restrictive assumptions, with many real data sets violating these. To combat this there are several methods that use prior knowledge to approximate the `ground truth'. However, prior knowledge is not always available, and this paper investigates how error measures affect the ability for a regression method to model the `ground truth' in these scenarios. Current error measures are shown to create an unhelpful bias and a new error measure is derived which does not exhibit this behaviour. This is tested on 36 representative data sets with different characteristics, showing that it is more consistent in determining the `ground truth' and in giving improved predictions in regions beyond the range of the training data.
翻訳日:2021-05-05 13:59:57 公開日:2021-05-04
# (参考訳) マラリア管理のためのデータ効率の良い強化学習 [全文訳有]

Data-Efficient Reinforcement Learning for Malaria Control ( http://arxiv.org/abs/2105.01620v1 )

ライセンス: CC BY 4.0
Lixin Zou, Long Xia, Linfang Hou, Xiangyu Zhao, and Dawei Yin(参考訳) 特に、マラリア対策や治療勧告など、人々の日常生活に重大な影響を及ぼす問題に対して、コストに敏感なタスクの下での連続的な意思決定は困難である。 政策立案者が直面する主な課題は、いくつかの試行で複雑な環境と対話することで、スクラッチからポリシーを学ぶことである。 この研究は、Variance-Bonus Monte Carlo Tree Search~(VB-MCTS)と呼ばれる実用的でデータ効率のよいポリシー学習手法を導入し、ごくわずかなデータでコピーでき、ほんの数回の試行でスクラッチから学習しやすくする。 具体的には、モデルに基づく強化学習手法である。 モデルバイアスを避けるために、ガウス過程~(GP)回帰を適用し、遷移を明示的に推定する。 GP世界モデルを用いて、世界の不確実性を測定するために分散結合報酬を提案する。 MCTSで計画に報酬を加えることで、より効率的で効果的な探索が可能になる。 さらに、導出多項式のサンプル複雑性はvb-mctsがサンプル効率が高いことを示している。 最後に、競争力のある世界レベルのRL競技における卓越したパフォーマンスと広範な実験結果により、挑戦的なマラリア対策の最先端に対する優位性を検証する。

Sequential decision-making under cost-sensitive tasks is prohibitively daunting, especially for the problem that has a significant impact on people's daily lives, such as malaria control, treatment recommendation. The main challenge faced by policymakers is to learn a policy from scratch by interacting with a complex environment in a few trials. This work introduces a practical, data-efficient policy learning method, named Variance-Bonus Monte Carlo Tree Search~(VB-MCTS), which can copy with very little data and facilitate learning from scratch in only a few trials. Specifically, the solution is a model-based reinforcement learning method. To avoid model bias, we apply Gaussian Process~(GP) regression to estimate the transitions explicitly. With the GP world model, we propose a variance-bonus reward to measure the uncertainty about the world. Adding the reward to the planning with MCTS can result in more efficient and effective exploration. Furthermore, the derived polynomial sample complexity indicates that VB-MCTS is sample efficient. Finally, outstanding performance on a competitive world-level RL competition and extensive experimental results verify its advantage over the state-of-the-art on the challenging malaria control task.
翻訳日:2021-05-05 13:44:08 公開日:2021-05-04
# (参考訳) 深層強化学習における宝くじ券と最小タスク表現について [全文訳有]

On Lottery Tickets and Minimal Task Representations in Deep Reinforcement Learning ( http://arxiv.org/abs/2105.01648v1 )

ライセンス: CC BY 4.0
Marc Aurel Vischer, Robert Tjarko Lange, Henning Sprekeler(参考訳) 抽選券仮説は、教師付きディープラーニングにおける過度パラメータ化の役割を疑問視する。 しかし、強化学習問題に内在する分布変化は、宝くじの当選性能にどのように影響するのか。 本研究では,教師付き政策蒸留と強化学習によって訓練されたフィードフォワードネットワークを,同じレベルのスパース性に分離できることを示す。 さらに,視覚ナビゲーションと古典的な制御タスクにおいて,オン・オフ・ポリシー・メソッドの当選チケットの存在を確立する。 事前設計したベースライン条件を用いて,強化学習における抽選券効果の大部分がマスクによるものであることが分かった。 その結果、マスクされた観測空間は冗長な情報を排除し、最小のタスク関連表現が得られる。 反復等級プルーニングによって識別されるマスクは、解釈可能な帰納バイアスを与える。 そのコスト発生は、低次元入力で高密度エージェントを訓練することにより、計算コストを下げることができる。

The lottery ticket hypothesis questions the role of overparameterization in supervised deep learning. But how does the distributional shift inherent to the reinforcement learning problem affect the performance of winning lottery tickets? In this work, we show that feed-forward networks trained via supervised policy distillation and reinforcement learning can be pruned to the same level of sparsity. Furthermore, we establish the existence of winning tickets for both on- and off-policy methods in a visual navigation and classic control task. Using a set of carefully designed baseline conditions, we find that the majority of the lottery ticket effect in reinforcement learning can be attributed to the identified mask. The resulting masked observation space eliminates redundant information and yields minimal task-relevant representations. The mask identified by iterative magnitude pruning provides an interpretable inductive bias. Its costly generation can be amortized by training dense agents with low-dimensional input and thereby at lower computational cost.
翻訳日:2021-05-05 13:17:04 公開日:2021-05-04
# 深部腱因子化におけるインプシブ規則化

Implicit Regularization in Deep Tensor Factorization ( http://arxiv.org/abs/2105.01346v1 )

ライセンス: Link先を確認
Paolo Milanesi (QARMA), Hachem Kadri (LIS, QARMA, AMU SCI), St\'ephane Ayache (QARMA), Thierry Arti\`eres (QARMA)(参考訳) 勾配降下(GD)に関連する暗黙的正則化の研究の試みは、行列の完成を適切なテストベッドとして特定した。 近年の知見は、この現象を最小化ノルム問題とは言い表せないことを示唆しており、パラダイムシフトが必要であり、ダイナミクスを考慮する必要があることを示唆している。 本稿では,一般化した2つのテンソル因子分解(tucker and tensortrain (tt)) を活用することで,より一般的なテンソル完全化の設定に対処した。 我々は、テンソル核ノルム、有効ランク、一般化特異値などの関連量を追跡し、完了タスクに対処するために深いタッカーとTT非制約因子化を導入する。 合成データと実データの両方における実験は、勾配降下が低ランクの解を促進することを示し、この現象は力学的な観点から対処しなければならないという予想を検証する。

Attempts of studying implicit regularization associated to gradient descent (GD) have identified matrix completion as a suitable test-bed. Late findings suggest that this phenomenon cannot be phrased as a minimization-norm problem, implying that a paradigm shift is required and that dynamics has to be taken into account. In the present work we address the more general setup of tensor completion by leveraging two popularized tensor factorization, namely Tucker and TensorTrain (TT). We track relevant quantities such as tensor nuclear norm, effective rank, generalized singular values and we introduce deep Tucker and TT unconstrained factorization to deal with the completion task. Experiments on both synthetic and real data show that gradient descent promotes solution with low-rank, and validate the conjecture saying that the phenomenon has to be addressed from a dynamical perspective.
翻訳日:2021-05-05 13:07:46 公開日:2021-05-04
# MLP-Mixer: ビジョンのためのオールMLPアーキテクチャ

MLP-Mixer: An all-MLP Architecture for Vision ( http://arxiv.org/abs/2105.01601v1 )

ライセンス: Link先を確認
Ilya Tolstikhin and Neil Houlsby and Alexander Kolesnikov and Lucas Beyer and Xiaohua Zhai and Thomas Unterthiner and Jessica Yung and Daniel Keysers and Jakob Uszkoreit and Mario Lucic and Alexey Dosovitskiy(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンのモデルである。 近年、Vision Transformerのような注目型ネットワークも人気を博している。 本稿では,コンボリューションとアテンションが良いパフォーマンスに十分である一方で,どちらも必要ではないことを示す。 MLP-Mixerは多層パーセプトロン(MLP)のみをベースとしたアーキテクチャである。 MLP-Mixerには2つの層がある。 ロケーションごとの"mixing") と、パッチ(つまり、パッチ)に適用される MLP を持つもの。 混合」空間情報)。 大規模なデータセットや現代的な正規化スキームでトレーニングされた場合、MLP-Mixerは画像分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論コストは最先端のモデルに匹敵する。 これらの結果が、確立されたCNNとTransformersの領域を超えて、さらなる研究のきっかけになることを願っている。

Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-Mixer contains two types of layers: one with MLPs applied independently to image patches (i.e. "mixing" the per-location features), and one with MLPs applied across patches (i.e. "mixing" spatial information). When trained on large datasets, or with modern regularization schemes, MLP-Mixer attains competitive scores on image classification benchmarks, with pre-training and inference cost comparable to state-of-the-art models. We hope that these results spark further research beyond the realms of well established CNNs and Transformers.
翻訳日:2021-05-05 13:07:30 公開日:2021-05-04
# zen 2.0: n-gram拡張テキストエンコーダのトレーニングと適応

ZEN 2.0: Continue Training and Adaption for N-gram Enhanced Text Encoders ( http://arxiv.org/abs/2105.01279v1 )

ライセンス: Link先を確認
Yan Song, Tong Zhang, Yonggang Wang, Kai-Fu Lee(参考訳) 事前学習されたテキストエンコーダは自然言語処理(nlp)に引き続き注目され、異なるタスクで有望な結果を得る能力を示している。 近年の研究では、外部の自己教師的信号(あるいはn-gramのような教師なし学習によって抽出された知識)が、中国語などの言語を理解する上で有用な意味的証拠を提供することで、様々な下流タスクの性能を向上させることが示されている。 本稿では, エンコーダをさらに強化するため, 大量のデータと高度な訓練技術を備えたn-gramエンコーダの事前訓練を提案する。 さらに、異なる言語と異なるドメインにエンコーダを拡張し、同じアーキテクチャがこれらの様々な状況に適用可能であることを確認し、言語やドメインにまたがるNLPタスクの長いリストから新しい最先端のパフォーマンスを観察する。

Pre-trained text encoders have drawn sustaining attention in natural language processing (NLP) and shown their capability in obtaining promising results in different tasks. Recent studies illustrated that external self-supervised signals (or knowledge extracted by unsupervised learning, such as n-grams) are beneficial to provide useful semantic evidence for understanding languages such as Chinese, so as to improve the performance on various downstream tasks accordingly. To further enhance the encoders, in this paper, we propose to pre-train n-gram-enhanced encoders with a large volume of data and advanced techniques for training. Moreover, we try to extend the encoder to different languages as well as different domains, where it is confirmed that the same architecture is applicable to these varying circumstances and new state-of-the-art performance is observed from a long list of NLP tasks across languages and domains.
翻訳日:2021-05-05 13:07:17 公開日:2021-05-04
# エンティティと単語埋め込みを用いた大規模分類誘導

Large-scale Taxonomy Induction Using Entity and Word Embeddings ( http://arxiv.org/abs/2105.01305v1 )

ライセンス: Link先を確認
Petar Ristoski, Stefano Faralli, Simone Paolo Ponzetto and Heiko Paulheim(参考訳) 分類学は知識体系の重要な要素であり、形式オントロジーのような知的システムにおけるより洗練された知識表現のバックボーンとして機能する。 しかし、手動で分類学を構築することはコストのかかる取り組みであり、分類学自動誘導は大規模な分類学を構築するためのよい代替手段である。 本稿では,エンティティとテキスト埋め込みを用いた知識ベースからの教師なしクラス推定公理の自動抽出手法であるtiembを提案する。 本稿では,World Wide Web の大部分から抽出された仮定関係データベースである WebIsA データベースにアプローチを適用し,Person and Place ドメインのクラス階層を抽出する。

Taxonomies are an important ingredient of knowledge organization, and serve as a backbone for more sophisticated knowledge representations in intelligent systems, such as formal ontologies. However, building taxonomies manually is a costly endeavor, and hence, automatic methods for taxonomy induction are a good alternative to build large-scale taxonomies. In this paper, we propose TIEmb, an approach for automatic unsupervised class subsumption axiom extraction from knowledge bases using entity and text embeddings. We apply the approach on the WebIsA database, a database of subsumption relations extracted from the large portion of the World Wide Web, to extract class hierarchies in the Person and Place domain.
翻訳日:2021-05-05 13:07:00 公開日:2021-05-04
# 知識の探索:デュアルメモリを用いた新しいカテゴリの発見と位置決定

The Pursuit of Knowledge: Discovering and Localizing Novel Categories using Dual Memory ( http://arxiv.org/abs/2105.01652v1 )

ライセンス: Link先を確認
Sai Saketh Rambhatla and Rama Chellappa and Abhinav Shrivastava(参考訳) 我々は,未ラベルの大規模データセットにおける新しいオブジェクトの発見と位置決定の課題であるオブジェクトカテゴリ発見に取り組む。 既存の方法では、散らばったシーンが少なく、画像ごとのオブジェクトインスタンスが少ないデータセットで結果を示すが、我々は、挑戦的なCOCOデータセットで結果を示す。 さらに、ゼロから新しいカテゴリを発見するのではなく、発見アルゴリズムは、既に知られているものを特定し、未知に注意を向けることの恩恵を受けることができると論じる。 本稿では,作業記憶と意味記憶という2つのメモリモジュールを用いて,オブジェクトカテゴリに関する事前知識を用いて新たなカテゴリを探索する手法を提案する。 我々は,COCOミニバルデータセット上での検出器の性能を示す。

We tackle object category discovery, which is the problem of discovering and localizing novel objects in a large unlabeled dataset. While existing methods show results on datasets with less cluttered scenes and fewer object instances per image, we present our results on the challenging COCO dataset. Moreover, we argue that, rather than discovering new categories from scratch, discovery algorithms can benefit from identifying what is already known and focusing their attention on the unknown. We propose a method to use prior knowledge about certain object categories to discover new categories by leveraging two memory modules, namely Working and Semantic memory. We show the performance of our detector on the COCO minival dataset to demonstrate its in-the-wild capabilities.
翻訳日:2021-05-05 13:06:50 公開日:2021-05-04
# 粗いグラフ情報マックスによるグラフポーリング

Graph Pooling via Coarsened Graph Infomax ( http://arxiv.org/abs/2105.01275v1 )

ライセンス: Link先を確認
Yunsheng Pang, Yunxiang Zhao, Dongsheng Li(参考訳) 大きなグラフの情報をコンパクトな形式に要約するグラフプーリングは、階層的グラフ表現学習において不可欠である。 既存のグラフプーリング手法は高い計算複雑性に悩まされるか、あるいはプーリング前後のグラフ間のグローバルな依存関係をキャプチャできない。 既存のグラフプーリング手法の問題に対処するために,各プーリング層の入力と粗いグラフ間の相互情報を最大化し,グラフレベルの依存関係を保存する粗いグラフインフォマックスプーリング(cgipool)を提案する。 相互情報ニューラルネットワークの最大化を実現するために,コントラスト学習を適用し,正と負のサンプルを学習するための自己照査に基づくアルゴリズムを提案する。 7つのデータセットに対する大規模な実験結果は、最先端の手法と比較してCGIPoolの優位性を示している。

Graph pooling that summaries the information in a large graph into a compact form is essential in hierarchical graph representation learning. Existing graph pooling methods either suffer from high computational complexity or cannot capture the global dependencies between graphs before and after pooling. To address the problems of existing graph pooling methods, we propose Coarsened Graph Infomax Pooling (CGIPool) that maximizes the mutual information between the input and the coarsened graph of each pooling layer to preserve graph-level dependencies. To achieve mutual information neural maximization, we apply contrastive learning and propose a self-attention-based algorithm for learning positive and negative samples. Extensive experimental results on seven datasets illustrate the superiority of CGIPool comparing to the state-of-the-art methods.
翻訳日:2021-05-05 13:05:59 公開日:2021-05-04
# 非I.D.。 変分オートエンコーダを用いたマルチインスタンス学習によるインスタンスとバグラベルの予測

Non-I.I.D. Multi-Instance Learning for Predicting Instance and Bag Labels using Variational Auto-Encoder ( http://arxiv.org/abs/2105.01276v1 )

ライセンス: Link先を確認
Weijia Zhang(参考訳) マルチインスタンス学習は弱い教師付き学習の一種である。 データはバッグの集合であり、各バッグはインスタンスの集合であるタスクを扱う。 バッグラベルのみが観察されるが、インスタンスのラベルは未知である。 マルチインスタンス学習の重要な利点は、オブジェクトをインスタンスの袋として表現することで、オブジェクトの一部に固有の依存関係を保存できることだ。 残念なことに、既存のアルゴリズムのほとんどは、すべてのインスタンスが \textit{identically and independent distributed} であると仮定している。 本研究では,バッグラベルとインスタンスラベルの両方を予測するために,インスタンス間の依存関係を明示的にモデル化するマルチインスタンス変分自動エンコーダ(mivae)アルゴリズムを提案する。 複数のマルチインスタンスベンチマークとエンドツーエンドの医療画像データセットの実験結果は、MIVAEがインスタンスラベルとバッグラベルの予測タスクの最先端アルゴリズムよりも優れていることを示している。

Multi-instance learning is a type of weakly supervised learning. It deals with tasks where the data is a set of bags and each bag is a set of instances. Only the bag labels are observed whereas the labels for the instances are unknown. An important advantage of multi-instance learning is that by representing objects as a bag of instances, it is able to preserve the inherent dependencies among parts of the objects. Unfortunately, most existing algorithms assume all instances to be \textit{identically and independently distributed}, which violates real-world scenarios since the instances within a bag are rarely independent. In this work, we propose the Multi-Instance Variational Auto-Encoder (MIVAE) algorithm which explicitly models the dependencies among the instances for predicting both bag labels and instance labels. Experimental results on several multi-instance benchmarks and end-to-end medical imaging datasets demonstrate that MIVAE performs better than state-of-the-art algorithms for both instance label and bag label prediction tasks.
翻訳日:2021-05-05 13:05:46 公開日:2021-05-04
# 個人医療データ統合分析のためのフェデレーション多視点学習

Federated Multi-View Learning for Private Medical Data Integration and Analysis ( http://arxiv.org/abs/2105.01603v1 )

ライセンス: Link先を確認
Sicong Che, Hao Peng, Lichao Sun, Yong Chen, Lifang He(参考訳) 情報技術の急速な拡大と健康データのデジタル化とともに、医療分野の利益を育成しながらデータのプライバシーを維持することへの懸念が高まっている。 まず、医療データは複数のローカルサイトに自然に分散されているため、データ漏洩なしに機械学習モデルを集合的に訓練することは困難である。 第2に、医学的応用において、データは異なるソースやビューから収集されることが多く、不均一性や複雑化が生じ、和解が要求される。 本稿では,多視点データ漏洩防止のための汎用的フェデレーション・マルチビュー・ラーニング(fedmv)フレームワークを提供することを目的として,異なる種類のローカルデータ可用性に基づいて,垂直フェデレーション・マルチビュー・ラーニング(v-fedmv)と水平フェデレーション・マルチビュー・ラーニング(h-fedmv)の2つの問題に対応する。 BiAffect研究から収集した実世界のキーボードデータを用いて実験を行った。 その結果, 提案手法は, プライバシ保護方式でマルチビューデータの完全活用が可能であり, V-FedMV法とH-FedMV法は両手法とも, シングルビュー法とペアビュー法より優れていることがわかった。 さらに,提案手法は,フェデレーション環境でのマルチビューシーケンシャルデータに容易に適応することができる。 我々の知る限り、このフレームワークは、多視点設定における垂直および水平の多様化と、それらの逐次的フェデレーション学習の両方を考慮する最初のものである。

Along with the rapid expansion of information technology and digitalization of health data, there is an increasing concern on maintaining data privacy while garnering the benefits in medical field. Two critical challenges are identified: Firstly, medical data is naturally distributed across multiple local sites, making it difficult to collectively train machine learning models without data leakage. Secondly, in medical applications, data are often collected from different sources and views, resulting in heterogeneity and complexity that requires reconciliation. This paper aims to provide a generic Federated Multi-View Learning (FedMV) framework for multi-view data leakage prevention, which is based on different types of local data availability and enables to accommodate two types of problems: Vertical Federated Multi-View Learning (V-FedMV) and Horizontal Federated Multi-View Learning (H-FedMV). We experimented with real-world keyboard data collected from BiAffect study. The results demonstrated that the proposed FedMV approach can make full use of multi-view data in a privacy-preserving way, and both V-FedMV and H-FedMV methods perform better than their single-view and pairwise counterparts. Besides, the proposed model can be easily adapted to deal with multi-view sequential data in a federated environment, which has been modeled and experimentally studied. To the best of our knowledge, this framework is the first to consider both vertical and horizontal diversification in the multi-view setting, as well as their sequential federated learning.
翻訳日:2021-05-05 13:05:31 公開日:2021-05-04
# 半有限計画法による量子ニューラルネットワークのグローバル最適性学習

Training Quantized Neural Networks to Global Optimality via Semidefinite Programming ( http://arxiv.org/abs/2105.01420v1 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) ニューラルネットワーク(NN)は、機械学習において多くのタスクで非常に成功した。 NN重みの量子化は、そのエネルギー効率、推論時間、ハードウェアへの展開への影響から重要なトピックとなっている。 トレーニング後の量子化はよく研究されているが、最適量子化NNのトレーニングには、難解に見える組合せ非凸最適化の問題が含まれる。 本研究では,多項式アクティベーションを持つ量子化NNを訓練するための凸最適化手法を提案する。 本手法は,近年の2層ニューラルネットワークにおける隠れ凸性,半定値リフト,Grothendieckの同一性を利用する。 意外なことに、ある量子化NN問題は、半有限緩和により、すべての関連するパラメータの多項式時間における大域的最適性に解決できることが示される。 本手法の有効性を示す数値的な例を示す。

Neural networks (NNs) have been extremely successful across many tasks in machine learning. Quantization of NN weights has become an important topic due to its impact on their energy efficiency, inference time and deployment on hardware. Although post-training quantization is well-studied, training optimal quantized NNs involves combinatorial non-convex optimization problems which appear intractable. In this work, we introduce a convex optimization strategy to train quantized NNs with polynomial activations. Our method leverages hidden convexity in two-layer neural networks from the recent literature, semidefinite lifting, and Grothendieck's identity. Surprisingly, we show that certain quantized NN problems can be solved to global optimality in polynomial-time in all relevant parameters via semidefinite relaxations. We present numerical examples to illustrate the effectiveness of our method.
翻訳日:2021-05-05 13:05:04 公開日:2021-05-04
# 自動意思決定における分散的正義と公平さの指標: オーバーラップはどの程度あるか?

Distributive Justice and Fairness Metrics in Automated Decision-making: How Much Overlap Is There? ( http://arxiv.org/abs/2105.01441v1 )

ライセンス: Link先を確認
Matthias Kuppler, Christoph Kern, Ruben L. Bach, Frauke Kreuter(参考訳) 強力な予測アルゴリズムの出現は、政府支出や福祉支援などの不足資源の配分に関する高い意思決定の自動化につながった。 この自動化は、脆弱で歴史的に不利なグループに対する望ましくない差別を継続するリスクを負う。 計算機科学やその他の分野におけるアルゴリズムの識別に関する研究は、差別的アルゴリズムを検出・修正するための公平度メトリクスを多用した。 分散的正義に関する強固な社会学的・哲学的言説を考察し,著明な公平度指標の限界と問題点を明らかにする。 機会の平等を実践する指標は、資源割り当てが保存性に基づいている場合にのみ適用されるが、アロケーションが平等主義、十分性、優先順位に関する懸念を反映すべきときに失敗することを示す。 予測タスクと意思決定タスクをきれいに区別することで、公平な機械学習の研究は分散的正義に関する豊かな文献をよりうまく活用できると論じている。

The advent of powerful prediction algorithms led to increased automation of high-stake decisions regarding the allocation of scarce resources such as government spending and welfare support. This automation bears the risk of perpetuating unwanted discrimination against vulnerable and historically disadvantaged groups. Research on algorithmic discrimination in computer science and other disciplines developed a plethora of fairness metrics to detect and correct discriminatory algorithms. Drawing on robust sociological and philosophical discourse on distributive justice, we identify the limitations and problematic implications of prominent fairness metrics. We show that metrics implementing equality of opportunity only apply when resource allocations are based on deservingness, but fail when allocations should reflect concerns about egalitarianism, sufficiency, and priority. We argue that by cleanly distinguishing between prediction tasks and decision tasks, research on fair machine learning could take better advantage of the rich literature on distributive justice.
翻訳日:2021-05-05 13:04:54 公開日:2021-05-04
# 線形関数近似を用いた確率的最短経路問題に対する後悔境界

Regret Bounds for Stochastic Shortest Path Problems with Linear Function Approximation ( http://arxiv.org/abs/2105.01593v1 )

ライセンス: Link先を確認
Daniel Vial, Advait Parulekar, Sanjay Shakkottai, R. Srikant(参考訳) 線形関数近似を用いた確率的最短経路問題に対する2つのアルゴリズムを提案する。 1つは計算コストが高いが、確実に$\tilde{O} (\sqrt{B_\star^3 d^3 K/c_{min}} )$ regret, where $B_\star$ is a (known) upper bound on the optimal cost-to-go function, $d$ is the feature dimension, $K$ is the number of episodes, $c_{min}$ is the minimal cost of non-goal state-action pairs ( assumed as be positive)。 2つ目は実際は計算的に効率的であり、同じ後悔境界が得られると推測する。 どちらのアルゴリズムも、ジンらによる有限水平後方帰納法に類似した楽観的な値反復の最小二乗バージョンに基づいている。 2020. 我々の知る限りでは、これらは状態と作用空間の大きさに依存しない確率的最短経路に対する最初の後悔の限界である。

We propose two algorithms for episodic stochastic shortest path problems with linear function approximation. The first is computationally expensive but provably obtains $\tilde{O} (\sqrt{B_\star^3 d^3 K/c_{min}} )$ regret, where $B_\star$ is a (known) upper bound on the optimal cost-to-go function, $d$ is the feature dimension, $K$ is the number of episodes, and $c_{min}$ is the minimal cost of non-goal state-action pairs (assumed to be positive). The second is computationally efficient in practice, and we conjecture that it obtains the same regret bound. Both algorithms are based on an optimistic least-squares version of value iteration analogous to the finite-horizon backward induction approach from Jin et al. 2020. To the best of our knowledge, these are the first regret bounds for stochastic shortest path that are independent of the size of the state and action spaces.
翻訳日:2021-05-05 13:04:39 公開日:2021-05-04
# 3次元粒状流れシミュレーションの学習

Learning 3D Granular Flow Simulations ( http://arxiv.org/abs/2105.01636v1 )

ライセンス: Link先を確認
Andreas Mayr, Sebastian Lehner, Arno Mayrhofer, Christoph Kloss, Sepp Hochreiter, Johannes Brandstetter(参考訳) 近年、機械学習モデルの応用は自然科学や工学の分野で勢いを増しており、これらの分野ではデータの豊富さから自然に適合している。 しかしながら、第一原理解のないシミュレーションデータからの物理過程のモデリングは依然として困難である。 本稿では,離散要素法LIGGGHTSによる複雑な3次元粒状流シミュレーションプロセスの正確なモデリングと,回転ドラムやホッパーなどの実世界の物理システムのシミュレーションに焦点を当てたグラフニューラルネットワークを提案する。 本稿では,3次元物体,境界条件,粒子粒子,粒子間相互作用を扱うグラフニューラルネットワークの実装方法について検討する。 最後に, 粒子流と混合エントロピーの観点から, 機械学習に基づく軌道とliggghts軌道を比較した。

Recently, the application of machine learning models has gained momentum in natural sciences and engineering, which is a natural fit due to the abundance of data in these fields. However, the modeling of physical processes from simulation data without first principle solutions remains difficult. Here, we present a Graph Neural Networks approach towards accurate modeling of complex 3D granular flow simulation processes created by the discrete element method LIGGGHTS and concentrate on simulations of physical systems found in real world applications like rotating drums and hoppers. We discuss how to implement Graph Neural Networks that deal with 3D objects, boundary conditions, particle - particle, and particle - boundary interactions such that an accurate modeling of relevant physical quantities is made possible. Finally, we compare the machine learning based trajectories to LIGGGHTS trajectories in terms of particle flows and mixing entropies.
翻訳日:2021-05-05 13:04:16 公開日:2021-05-04
# VersaGNN: グラフニューラルネットワークのためのVersatileアクセラレータ

VersaGNN: a Versatile accelerator for Graph neural networks ( http://arxiv.org/abs/2105.01280v1 )

ライセンス: Link先を確認
Feng Shi, Ahren Yiqiao Jin, Song-Chun Zhu(参考訳) \textit{Graph Neural Network} (GNN)は、ノードレベルのメッセージパッシングを通じて依存関係情報を正確にキャプチャするグラフ構造化データを解析するための有望なアプローチである。 ノード分類、グラフマッチング、クラスタリング、グラフ生成など、多くのタスクで最先端のパフォーマンスを達成している。 GNNは非ユークリッドデータを扱うため、その不規則なデータアクセスパターンはGPUやCPUといった従来のアーキテクチャにかなりの計算コストとオーバーヘッドをもたらす。 分析の結果,GNNはハイブリッドコンピューティングモデルを採用している。 \textit{Aggregation} (または \textit{Message Passing}) フェーズはベクトルが不規則な進行でフェッチされるベクトル加算を実行する。 \textit{transformation} (または \textit{node embedded}) フェーズは、密度的あるいは疎結合な行列の乗算である。 本研究では,高密度かつスパースな行列乗算を統一する超効率,シストリックアレイベースの多用途ハードウェアアクセラレータである \textit{VersaGNN} を提案する。 この単一最適化シストリックアレイをアグリゲーションおよび変換相の両方に適用することにより、チップサイズとエネルギー消費を大幅に削減した。 次に、計算エンジンをブロックされたシストリック配列に分割し、密度行列乗算のための \textit{strassen} のアルゴリズムをサポートし、乗算回数を劇的に削減し、gnnの高スループット計算を可能にする。 スパース・デンス行列乗算の作業負荷のバランスをとるために,圧縮されたフォーマットのスパース部分行列を凝縮したものに組み合わせて計算サイクルを短縮するグリーディアルゴリズムも導入した。 現在の最先端のGNNソフトウェアフレームワークと比較して、 \textit{VersaGNN}は平均3712$\times$スピードアップで1301.25$\times$CPU、35.4$\times$スピードアップで17.66$\times$GPUで達成している。

\textit{Graph Neural Network} (GNN) is a promising approach for analyzing graph-structured data that tactfully captures their dependency information via node-level message passing. It has achieved state-of-the-art performances in many tasks, such as node classification, graph matching, clustering, and graph generation. As GNNs operate on non-Euclidean data, their irregular data access patterns cause considerable computational costs and overhead on conventional architectures, such as GPU and CPU. Our analysis shows that GNN adopts a hybrid computing model. The \textit{Aggregation} (or \textit{Message Passing}) phase performs vector additions where vectors are fetched with irregular strides. The \textit{Transformation} (or \textit{Node Embedding}) phase can be either dense or sparse-dense matrix multiplication. In this work, We propose \textit{VersaGNN}, an ultra-efficient, systolic-array-based versatile hardware accelerator that unifies dense and sparse matrix multiplication. By applying this single optimized systolic array to both aggregation and transformation phases, we have significantly reduced chip sizes and energy consumption. We then divide the computing engine into blocked systolic arrays to support the \textit{Strassen}'s algorithm for dense matrix multiplication, dramatically scaling down the number of multiplications and enabling high-throughput computation of GNNs. To balance the workload of sparse-dense matrix multiplication, we also introduced a greedy algorithm to combine sparse sub-matrices of compressed format into condensed ones to reduce computational cycles. Compared with current state-of-the-art GNN software frameworks, \textit{VersaGNN} achieves on average 3712$\times$ speedup with 1301.25$\times$ energy reduction on CPU, and 35.4$\times$ speedup with 17.66$\times$ energy reduction on GPU.
翻訳日:2021-05-05 13:04:05 公開日:2021-05-04
# 非平滑凸学習における高速ハイパーパラメータ選択のための暗黙差分法

Implicit differentiation for fast hyperparameter selection in non-smooth convex learning ( http://arxiv.org/abs/2105.01637v1 )

ライセンス: Link先を確認
Quentin Bertrand, Quentin Klopfenstein, Mathurin Massias, Mathieu Blondel, Samuel Vaiter, Alexandre Gramfort, Joseph Salmon(参考訳) モデルの最適ハイパーパラメータを見つけることは二段階最適化問題であり、典型的にはゼロオーダー法を用いて解決される。 本研究では,内部最適化問題が凸だがスムースでない場合の一階法について検討する。 本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。 暗黙的な微分を用いることで,内部問題の非スムースネスを利用して計算を高速化できることを示す。 最後に,インナー最適化問題を概ね解いた場合,ハイパーグラディエントに生じる誤差のバウンドを与える。 回帰と分類問題の結果は、特に複数のハイパーパラメータを必要とする場合、ハイパーパラメータ最適化の計算上の利点を示す。

Finding the optimal hyperparameters of a model can be cast as a bilevel optimization problem, typically solved using zero-order techniques. In this work we study first-order methods when the inner optimization problem is convex but non-smooth. We show that the forward-mode differentiation of proximal gradient descent and proximal coordinate descent yield sequences of Jacobians converging toward the exact Jacobian. Using implicit differentiation, we show it is possible to leverage the non-smoothness of the inner problem to speed up the computation. Finally, we provide a bound on the error made on the hypergradient when the inner optimization problem is solved approximately. Results on regression and classification problems reveal computational benefits for hyperparameter optimization, especially when multiple hyperparameters are required.
翻訳日:2021-05-05 13:03:19 公開日:2021-05-04
# 機械学習型雑音を伴う確率的勾配降下 第1部:離散時間分析

Stochastic gradient descent with noise of machine learning type. Part I: Discrete time analysis ( http://arxiv.org/abs/2105.01650v1 )

ライセンス: Link先を確認
Stephan Wojtowytsch(参考訳) 確率勾配降下(SGD)は、現代の機械学習において最も一般的なアルゴリズムの1つである。 これらの応用で発生するノイズは、確率的勾配アルゴリズムの多くの理論解析と異なる。 本稿では,機械学習問題に遭遇するエネルギー環境と確率ノイズの共通特性と,sgdに基づく最適化にどのように影響するかについて述べる。 特に,sgdと機械学習ノイズの学習率は小さいが,エネルギー環境が過パラメータの深層学習問題に類似している場合,常に均一に正であることが示された。 目的関数がロジャシエヴィチの不等式を満たすなら、SGD は指数関数的に大域最小値に収束し、局所最小値を持つ関数に対しても、任意の有限エネルギー初期化から指数速度で大域最小値にほぼ確実に収束する。 この結果から, 対象関数が小さいか大きいか, 勾配雑音の性質が関係するが, 対象関数が中間状態の値を取る領域では, エネルギーランドスケープは比較的制約されない。

Stochastic gradient descent (SGD) is one of the most popular algorithms in modern machine learning. The noise encountered in these applications is different from that in many theoretical analyses of stochastic gradient algorithms. In this article, we discuss some of the common properties of energy landscapes and stochastic noise encountered in machine learning problems, and how they affect SGD-based optimization. In particular, we show that the learning rate in SGD with machine learning noise can be chosen to be small, but uniformly positive for all times if the energy landscape resembles that of overparametrized deep learning problems. If the objective function satisfies a Lojasiewicz inequality, SGD converges to the global minimum exponentially fast, and even for functions which may have local minima, we establish almost sure convergence to the global minimum at an exponential rate from any finite energy initialization. The assumptions that we make in this result concern the behavior where the objective function is either small or large and the nature of the gradient noise, but the energy landscape is fairly unconstrained on the domain where the objective function takes values in an intermediate regime.
翻訳日:2021-05-05 13:03:07 公開日:2021-05-04
# 双極子伝搬による点雲の配向

Orienting Point Clouds with Dipole Propagation ( http://arxiv.org/abs/2105.01604v1 )

ライセンス: Link先を確認
Gal Metzer, Rana Hanocka, Denis Zorin, Raja Giryes, Daniele Panozzo, Daniel Cohen-Or(参考訳) 点雲に対して一貫した正規配向を確立することは、幾何学処理において非常に難しい問題であり、局所的および大域的形状特性の両方に注意を要する。 点の通常の方向は局所表面近傍の関数であるが、点雲は基礎となる表面構造を完全に開示していない。 既知の測地線近接を仮定しても、一貫した正規方向の計算は大域的な文脈を必要とする。 本稿では,ポイントクラウドに対してグローバルに一貫した正規方向を確立するための新しい手法を提案する。 我々の解は局所成分と大域成分を2つのサブプロブレムに分離する。 局所的なフェーズでは、ニューラルネットワークをトレーニングして、パッチ毎のコヒーレントな正規方向(すなわち、単一パッチ内の一貫した正規化)を学ぶ。 グローバルフェーズでは,ダイポール伝搬を用いて全コヒーレントパッチの向きを伝搬する。 我々の双極子伝播は、以前のすべての配向パッチで定義された電場を用いて各パッチを配向する。 これは、近くの表面、穴、鋭い特徴、ノイズに対して堅牢であるとともに、安定なグローバルな伝播を引き起こす。

Establishing a consistent normal orientation for point clouds is a notoriously difficult problem in geometry processing, requiring attention to both local and global shape characteristics. The normal direction of a point is a function of the local surface neighborhood; yet, point clouds do not disclose the full underlying surface structure. Even assuming known geodesic proximity, calculating a consistent normal orientation requires the global context. In this work, we introduce a novel approach for establishing a globally consistent normal orientation for point clouds. Our solution separates the local and global components into two different sub-problems. In the local phase, we train a neural network to learn a coherent normal direction per patch (i.e., consistently oriented normals within a single patch). In the global phase, we propagate the orientation across all coherent patches using a dipole propagation. Our dipole propagation decides to orient each patch using the electric field defined by all previously orientated patches. This gives rise to a global propagation that is stable, as well as being robust to nearby surfaces, holes, sharp features and noise.
翻訳日:2021-05-05 13:02:22 公開日:2021-05-04
# 半監督学習のラベルなしデータセットの収集

Poisoning the Unlabeled Dataset of Semi-Supervised Learning ( http://arxiv.org/abs/2105.01622v1 )

ライセンス: Link先を確認
Nicholas Carlini(参考訳) 半教師付き機械学習モデルは、ラベル付きトレーニング例の(小さな)セットとラベル付きトレーニング例の(大きな)セットから学習する。 最先端のモデルは、完全な教師付きトレーニングで数ポイント以内に到達できるが、ラベル付きデータの100倍は必要だ。 我々は、ラベルなしデータセットを変更する中毒攻撃という、新しいタイプの脆弱性を研究している。 有効にするために、ラベル付きデータセットはラベル付きデータセットよりも厳密にレビューが少なくなるため、敵は簡単にそれらを汚染することができる。 この有毒なデータセットでトレーニングされたモデルを操作すれば、テスト時に(望まれるラベルとして)任意のサンプルを誤って分類することができます。 我々の攻撃はデータセットや半教師付き学習手法で非常に効果的です。 より正確な方法(使用される可能性が高くなる)は、毒性攻撃に対して著しく脆弱であり、このようなより良い訓練方法がこの攻撃を予防する可能性は低い。 これに対抗するために防衛の空間を探索し、攻撃を緩和する2つの方法を提案する。

Semi-supervised machine learning models learn from a (small) set of labeled training examples, and a (large) set of unlabeled training examples. State-of-the-art models can reach within a few percentage points of fully-supervised training, while requiring 100x less labeled data. We study a new class of vulnerabilities: poisoning attacks that modify the unlabeled dataset. In order to be useful, unlabeled datasets are given strictly less review than labeled datasets, and adversaries can therefore poison them easily. By inserting maliciously-crafted unlabeled examples totaling just 0.1% of the dataset size, we can manipulate a model trained on this poisoned dataset to misclassify arbitrary examples at test time (as any desired label). Our attacks are highly effective across datasets and semi-supervised learning methods. We find that more accurate methods (thus more likely to be used) are significantly more vulnerable to poisoning attacks, and as such better training methods are unlikely to prevent this attack. To counter this we explore the space of defenses, and propose two methods that mitigate our attack.
翻訳日:2021-05-05 13:02:03 公開日:2021-05-04
# 読者の推測:Commonsense Reasoningによる自動ストーリー生成の指導

Inferring the Reader: Guiding Automated Story Generation with Commonsense Reasoning ( http://arxiv.org/abs/2105.01311v1 )

ライセンス: Link先を確認
Xiangyu Peng, Siyan Li, Sarah Wiegreffe, Mark Riedl(参考訳) トランスフォーマティブな言語モデルによる自動ストーリー生成アプローチは現在、最先端の結果を提供している。 しかし、物語を時間とともに生み出す際にもプロットの不整合に悩まされ、基本的な常識的推論が欠如している。 さらに、既存のメソッドは一般的にシングルキャラクタストーリーにのみフォーカスするか、文字の追跡に失敗する。 生成した物語のコヒーレンスを向上し、キャラクタ中心の物語生成の範囲を広げるために、複数のキャラクタ間の相互作用をモデル化しながら、生成プロセスにコモンセンス推論を導入するフレームワークであるCommonsense-inferenc e Augmented Neural StoryTelling(CAST)を導入する。 提案手法は,プロットの妥当性やトピックの継続といった次元において,よりコヒーレントでオントピー的な2文字のストーリーを生成する。 また,よりコヒーレントなストーリを生成し,計算コストを低減させる言語モデルの学習にもcast法が利用できることを示す。

Transformer-based language model approaches to automated story generation currently provide state-of-the-art results. However, they still suffer from plot incoherence when generating narratives over time, and critically lack basic commonsense reasoning. Furthermore, existing methods generally focus only on single-character stories, or fail to track characters at all. To improve the coherence of generated narratives and to expand the scope of character-centric narrative generation, we introduce Commonsense-inferenc e Augmented neural StoryTelling (CAST), a framework for introducing commonsense reasoning into the generation process while modeling the interaction between multiple characters. We find that our CAST method produces significantly more coherent and on-topic two-character stories, outperforming baselines in dimensions including plot plausibility and staying on topic. We also show how the CAST method can be used to further train language models that generate more coherent stories and reduce computation cost.
翻訳日:2021-05-05 13:01:15 公開日:2021-05-04
# ベトナムの医療用テキストの会話機械読解

Conversational Machine Reading Comprehension for Vietnamese Healthcare Texts ( http://arxiv.org/abs/2105.01542v1 )

ライセンス: Link先を確認
Son T. Luu, Mao Nguyen Bui, Loi Duc Nguyen, Khiem Vinh Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) machine reading comprehension (mrc) は自然言語処理や計算言語学におけるサブフィールドである。 MRCはコンピュータが構造化されていないテキストを理解し、それに関連する質問に答えることを目的としている。 本稿では,2000件以上の健康ニュース記事に関する回答を含む1万質問からなる,対話型機械読解のための新しいベトナム語コーパス(vicoqa)を提案する。 言語的側面の異なるViCoQAを詳細に分析する。 そこで我々は,ViCoQAコーパス上で対話と読解に関するベースラインモデルを評価した。 最良のモデルではF1スコアが45.27%であり、これは人間のパフォーマンス(76.18%)に30.91ポイント遅れている。

Machine reading comprehension (MRC) is a sub-field in natural language processing or computational linguistics. MRC aims to help computers understand unstructured texts and then answer questions related to them. In this paper, we present a new Vietnamese corpus for conversational machine reading comprehension (ViCoQA), consisting of 10,000 questions with answers over 2,000 conversations about health news articles. We analyze ViCoQA in depth with different linguistic aspects. Then, we evaluate several baseline models about dialogue and reading comprehension on the ViCoQA corpus. The best model obtains an F1 score of 45.27%, which is 30.91 points behind human performance (76.18%), indicating that there is ample room for improvement.
翻訳日:2021-05-05 13:00:56 公開日:2021-05-04
# 中国の建設事故事例から見つかる因果要因

Causal factors discovering from Chinese construction accident cases ( http://arxiv.org/abs/2105.01227v1 )

ライセンス: Link先を確認
Zi-jian Ni, Wei Liu(参考訳) 中国では2012年以来、建設事故で他のどの産業よりも多くの人が死亡している。 事故の原因となる要因は複雑な相互作用である。 事故に関する実際のデータが、これらの要因のメカニズムを明らかにする鍵となる。 しかし、アンケートとインタビューのデータには固有の欠陥がある。 安全に影響を与える多くの行動は違法である。 中国では、ほとんどのケースは事故調査報告によるものです。 事故の原因の発見と責任確認は、インシデント調査レポートの中核である。 ですから、回答者の回答の真実は疑わしいものです。 本稿では,一連のNLP技術を用いて,中国の事例文から建設事故の因果要因を抽出し,整理する。 最後に、データ分析後に3種類の無視因果因子が検出される。

In China, construction accidents have killed more people than any other industry since 2012. The factors which led to the accident have complex interaction. Real data about accidents is the key to reveal the mechanism among these factors. But the data from the questionnaire and interview has inherent defects. Many behaviors that impact safety are illegal. In China, most of the cases are from accident investigation reports. Finding out the cause of the accident and liability affirmation are the core of incident investigation reports. So the truth of some answers from the respondents is doubtful. With a series of NLP technologies, in this paper, causal factors of construction accidents are extracted and organized from Chinese incident case texts. Finally, three kinds of neglected causal factors are discovered after data analysis.
翻訳日:2021-05-05 13:00:29 公開日:2021-05-04
# 時間とデータの役割: 製造領域におけるオンライン適合性検査

The Role of Time and Data: Online Conformance Checking in the Manufacturing Domain ( http://arxiv.org/abs/2105.01454v1 )

ライセンス: Link先を確認
Florian Stertz and Juergen Mangler and Stefanie Rinderle-Ma(参考訳) 近年,プロセス指向データの解析手段としてプロセスマイニングが成熟している。 製造業は、デジタル化の課題に対処するためにプロセス指向技術に挑戦する分野です。 プロセスマイニングには高い期待が寄せられているが,プロセススーパーバイザーやshopfloor workerといった製造業の専門家による実施と利用は,ある程度不明なままである。 理由 (1) 製造業は十分に構造化されたプロセスを可能にするが、実際のワークフローがプロセスモデルでキャプチャされることは滅多にない。 モデルが利用可能であっても、実行のオーケストレーションとロギングのためのソフトウェアは欠落することが多い。 Reason (2)は製造における仕事の現実を指す: プロセスインスタンスは、ショップフロアの労働者によって始められ、その後他の作業に取り掛かる。 したがって、プロセスインスタンスの継続的な監視は起こらない。つまり、プロセス監視は単なる二次的なタスクであり、shopfloor workerは、すでに発生した問題/エラーにのみ対応できる。 1)および(2)技術行動研究(tar)が推進する本研究の目標を動機づける。 軽量なプロセス実行およびマイニングフレームワークであるtidateの実験的な成果物に基づいて、プロセスインスタンスの正しい実行を保証する方法と、実際の環境での実行時にプロセスマイニングに適したデータセットを生成する方法を検討した。 第2に,プロセスモニタリングにおいてプロセスマイニングがドメインエキスパートをどのようにサポートしているかについて検討した。 本研究は, 製造におけるオンライン適合性チェックの重要性を強調し, 適切なデータセットの同定と生成方法を示す。

Process mining has matured as analysis instrument for process-oriented data in recent years. Manufacturing is a challenging domain that craves for process-oriented technologies to address digitalization challenges. We found that process mining creates high expectations, but its implementation and usage by manufacturing experts such as process supervisors and shopfloor workers remain unclear to a certain extent. Reason (1) is that even though manufacturing allows for well-structured processes, the actual workflow is rarely captured in a process model. Even if a model is available, a software for orchestrating and logging the execution is often missing. Reason (2) refers to the work reality in manufacturing: a process instance is started by a shopfloor worker who then turns to work on other things. Hence continuous monitoring of the process instances does not happen, i.e., process monitoring is merely a secondary task, and the shopfloor worker can only react to problems/errors that have already occurred. (1) and (2) motivate the goals of this study that is driven by Technical Action Research (TAR). Based on the experimental artifact TIDATE -- a lightweight process execution and mining framework -- it is studied how the correct execution of process instances can be ensured and how a data set suitable for process mining can be generated at run time in a real-world setting. Secondly, it is investigated whether and how process mining supports domain experts during process monitoring as a secondary task. The findings emphasize the importance of online conformance checking in manufacturing and show how appropriate data sets can be identified and generated.
翻訳日:2021-05-05 13:00:23 公開日:2021-05-04
# comisr: 圧縮インフォームドビデオスーパーレゾリューション

COMISR: Compression-Informed Video Super-Resolution ( http://arxiv.org/abs/2105.01237v1 )

ライセンス: Link先を確認
Yinxiao Li, Pengchong Jin, Feng Yang, Ce Liu, Ming-Hsuan Yang, Peyman Milanfar(参考訳) ほとんどのビデオスーパーレゾリューションは、圧縮を考慮せずに低解像度ビデオから高解像度ビデオフレームを復元することに焦点を当てている。 しかし、webまたはモバイルデバイス上のほとんどのビデオは圧縮され、帯域幅が制限された場合、圧縮は厳しい。 本稿では,圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。 提案手法は,双方向再帰的ワーピング,詳細保存フロー推定,ラプラシアン拡張の3つのモジュールからなる。 これら3つのモジュールはすべて、入力中のフレーム内の位置や出力フレームの滑らかさといった圧縮特性を処理するために使用される。 性能評価を徹底するために,様々な圧縮率の標準データセットを広範囲に実験し,実映像のユースケースについて検討した。 本手法は,広く使用されているベンチマークデータセットから非圧縮フレーム上の高分解能コンテンツを復元するだけでなく,多数の定量的指標に基づく圧縮ビデオの高分解能化における最先端の性能を実現する。 また,提案手法の有効性とロバスト性を示すために,YouTubeからのストリーミングをシミュレートして評価した。

Most video super-resolution methods focus on restoring high-resolution video frames from low-resolution videos without taking into account compression. However, most videos on the web or mobile devices are compressed, and the compression can be severe when the bandwidth is limited. In this paper, we propose a new compression-informed video super-resolution model to restore high-resolution content without introducing artifacts caused by compression. The proposed model consists of three modules for video super-resolution: bi-directional recurrent warping, detail-preserving flow estimation, and Laplacian enhancement. All these three modules are used to deal with compression properties such as the location of the intra-frames in the input and smoothness in the output frames. For thorough performance evaluation, we conducted extensive experiments on standard datasets with a wide range of compression rates, covering many real video use cases. We showed that our method not only recovers high-resolution content on uncompressed frames from the widely-used benchmark datasets, but also achieves state-of-the-art performance in super-resolving compressed videos based on numerous quantitative metrics. We also evaluated the proposed method by simulating streaming from YouTube to demonstrate its effectiveness and robustness.
翻訳日:2021-05-05 12:59:09 公開日:2021-05-04
# walk in the cloud - ポイントクラウド形状解析のための学習曲線

Walk in the Cloud: Learning Curves for Point Clouds Shape Analysis ( http://arxiv.org/abs/2105.01288v1 )

ライセンス: Link先を確認
Tiange Xiang, Chaoyi Zhang, Yang Song, Jianhui Yu, Weidong Cai(参考訳) 離散点クラウドオブジェクトは、3dジオメトリの十分な形状記述子を欠いている。 本稿では,点雲中の仮説曲線を集約する新しい手法を提案する。 連結点(曲線)の列は最初、点雲の中を案内されたウォークでグループ化され、その後に集約されてポイントワイズ機能が強化される。 本稿では,新しい曲線群演算子,次いで曲線集合演算子を含む集約戦略を効果的に実装する。 本手法は,いくつかのポイントクラウド解析タスクでベンチマークを行い,modelnet40の分類タスクでは94.2%,shapenetpartのセグメンテーションタスクでは86.8,modelnet40の正規推定タスクでは0.11のコサイン誤差を達成した。

Discrete point cloud objects lack sufficient shape descriptors of 3D geometries. In this paper, we present a novel method for aggregating hypothetical curves in point clouds. Sequences of connected points (curves) are initially grouped by taking guided walks in the point clouds, and then subsequently aggregated back to augment their point-wise features. We provide an effective implementation of the proposed aggregation strategy including a novel curve grouping operator followed by a curve aggregation operator. Our method was benchmarked on several point cloud analysis tasks where we achieved the state-of-the-art classification accuracy of 94.2% on the ModelNet40 classification task, instance IoU of 86.8 on the ShapeNetPart segmentation task and cosine error of 0.11 on the ModelNet40 normal estimation task
翻訳日:2021-05-05 12:58:47 公開日:2021-05-04
# 幻覚によるFew-Shotオブジェクト検出の改善

Hallucination Improves Few-Shot Object Detection ( http://arxiv.org/abs/2105.01294v1 )

ライセンス: Link先を確認
Weilin Zhang, Yu-Xiong Wang(参考訳) 注釈のない例から新しい物体を検出することは、非常に実践的な重要性がある。 極めて限られた例(3つ未満)がある場合、特に難しいが一般的な状態が発生する。 少数ショット検出を改善する上で重要な要因のひとつは、トレーニングデータのばらつきの欠如に対処することだ。 基本クラスから共有クラス内変分を転送することで,新しいクラスの変分モデルを構築することを提案する。 そこで本研究では,関心領域(roi)の特徴空間に付加的かつ有用なトレーニング例を生成し,それを現代の物体検出モデルに組み込む幻覚剤ネットワークを提案する。 提案手法は,提案手法が異なる2つの最先端の少数ショット検出器の性能向上をもたらす。 特に,挑戦的なcocoベンチマークを用いて,超fewショット方式で新たな最先端技術を実現する。

Learning to detect novel objects from few annotated examples is of great practical importance. A particularly challenging yet common regime occurs when there are extremely limited examples (less than three). One critical factor in improving few-shot detection is to address the lack of variation in training data. We propose to build a better model of variation for novel classes by transferring the shared within-class variation from base classes. To this end, we introduce a hallucinator network that learns to generate additional, useful training examples in the region of interest (RoI) feature space, and incorporate it into a modern object detection model. Our approach yields significant performance improvements on two state-of-the-art few-shot detectors with different proposal generation procedures. In particular, we achieve new state of the art in the extremely-few-shot regime on the challenging COCO benchmark.
翻訳日:2021-05-05 12:58:33 公開日:2021-05-04
# LAFFNet:水中画像強調のための軽量適応型特徴融合ネットワーク

LAFFNet: A Lightweight Adaptive Feature Fusion Network for Underwater Image Enhancement ( http://arxiv.org/abs/2105.01299v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Kuan-Chih Huang and Wei-Ting Chen(参考訳) 水中画像の強化は、自律型水中車両および遠隔操作車両が水中環境を探索し理解するための重要な低レベルコンピュータビジョンタスクである。 近年,多くのコンピュータビジョン問題において深層畳み込みニューラルネットワーク(CNN)が成功しており,水中画像の強化も行われている。 水中画像強調に優れた性能を持つ深層学習手法は数多く存在するが、そのメモリとモデルパラメータのコストは実用上の障害となっている。 この問題に対処するために,軽量適応機能融合ネットワーク (LAFFNet) を提案する。 モデルは、複数の適応的特徴融合(AAF)モジュールを持つエンコーダ・デコーダモデルである。 AAFは、異なるカーネルサイズで複数のブランチを仮定し、マルチスケールの特徴マップを生成する。 さらに、チャネルアテンションはこれらの特徴マップを適応的にマージするために使用される。 提案手法はパラメータ数を2.5Mから0.15M(約94%削減)に削減するが,実験により最先端のアルゴリズムよりも優れる。 さらに,laffnetは,サリアンス物体検出や単一画像深度推定などの高レベル視覚タスクを効果的に改善することを示す。

Underwater image enhancement is an important low-level computer vision task for autonomous underwater vehicles and remotely operated vehicles to explore and understand the underwater environments. Recently, deep convolutional neural networks (CNNs) have been successfully used in many computer vision problems, and so does underwater image enhancement. There are many deep-learning-based methods with impressive performance for underwater image enhancement, but their memory and model parameter costs are hindrances in practical application. To address this issue, we propose a lightweight adaptive feature fusion network (LAFFNet). The model is the encoder-decoder model with multiple adaptive feature fusion (AAF) modules. AAF subsumes multiple branches with different kernel sizes to generate multi-scale feature maps. Furthermore, channel attention is used to merge these feature maps adaptively. Our method reduces the number of parameters from 2.5M to 0.15M (around 94% reduction) but outperforms state-of-the-art algorithms by extensive experiments. Furthermore, we demonstrate our LAFFNet effectively improves high-level vision tasks like salience object detection and single image depth estimation.
翻訳日:2021-05-05 12:58:20 公開日:2021-05-04
# 変化検出のためのディープラーニングフレームワークの実証レビュー:モデル設計、実験フレームワーク、挑戦、研究ニーズ

An Empirical Review of Deep Learning Frameworks for Change Detection: Model Design, Experimental Frameworks, Challenges and Research Needs ( http://arxiv.org/abs/2105.01342v1 )

ライセンス: Link先を確認
Murari Mandal, Santosh Kumar Vipparthi(参考訳) ビデオフレームを前景と背景領域に分割することを目的とした視覚変化検出は、コンピュータビジョンとビデオ分析における基本的なタスクの1つである。 変更検出の応用としては、異常検出、オブジェクト追跡、トラフィック監視、人間のマシンインタラクション、行動分析、行動認識、視覚監視などがある。 変化検出の課題には、背景のゆらぎ、照明の変化、天候の変化、間欠的な物体の動き、シャドー、高速/スロー物体の動き、カメラの動き、異種物体の形状、リアルタイム処理などがある。 伝統的に、この問題は手作りの特徴と背景モデリング技術を用いて解決されてきた。 近年、堅牢な変化検出にディープラーニングフレームワークがうまく採用されている。 本稿では,変化検出のための最先端のディープラーニング手法を実証的に検証することを目的とする。 より具体的には、異なるモデル設計と実験フレームワークの技術特性の詳細な分析を行う。 2D-CNN, 3D-CNN, ConvLSTM, マルチスケール機能, 残差接続, オートエンコーダ, GAN ベースの手法など, 既存のアプローチをモデル設計ベースで分類する。 さらに,既存のディープラーニング手法による評価設定の実証分析を行った。 私たちの知る限りでは、これは既存のDeep Change Detectionメソッドで使われているさまざまな評価フレームワークを比較分析する最初の試みです。 最後に、研究ニーズ、今後の方向性を指摘し、独自の結論を導きます。

Visual change detection, aiming at segmentation of video frames into foreground and background regions, is one of the elementary tasks in computer vision and video analytics. The applications of change detection include anomaly detection, object tracking, traffic monitoring, human machine interaction, behavior analysis, action recognition, and visual surveillance. Some of the challenges in change detection include background fluctuations, illumination variation, weather changes, intermittent object motion, shadow, fast/slow object motion, camera motion, heterogeneous object shapes and real-time processing. Traditionally, this problem has been solved using hand-crafted features and background modelling techniques. In recent years, deep learning frameworks have been successfully adopted for robust change detection. This article aims to provide an empirical review of the state-of-the-art deep learning methods for change detection. More specifically, we present a detailed analysis of the technical characteristics of different model designs and experimental frameworks. We provide model design based categorization of the existing approaches, including the 2D-CNN, 3D-CNN, ConvLSTM, multi-scale features, residual connections, autoencoders and GAN based methods. Moreover, an empirical analysis of the evaluation settings adopted by the existing deep learning methods is presented. To the best of our knowledge, this is a first attempt to comparatively analyze the different evaluation frameworks used in the existing deep change detection methods. Finally, we point out the research needs, future directions and draw our own conclusions.
翻訳日:2021-05-05 12:58:01 公開日:2021-05-04
# 全量子化の一モデル:ホットスワップビット幅調整をサポートする量子化ネットワーク

One Model for All Quantization: A Quantized Network Supporting Hot-Swap Bit-Width Adjustment ( http://arxiv.org/abs/2105.01353v1 )

ライセンス: Link先を確認
Qigong Sun, Xiufang Li, Yan Ren, Zhongjian Huang, Xu Liu, Licheng Jiao, Fang Liu(参考訳) エッジデバイスにおけるディープニューラルネットワークの実装を実現するための効果的な手法として、モデル量子化は多くの実用化に成功している。 量子化対応トレーニング (QAT) やポストトレーニング量子化 (PTQ) の方法はともかく、いずれも対象ビット幅に依存している。 量子化の精度が調整されると、量子化モデルを微調整するか、量子化ノイズを最小限に抑える必要がある。 本研究では、オンライン量子化ビット幅調整を満たすために、様々なビット幅(例えば8ビットから1ビット)をサポートする全量子化モデルを訓練する手法を提案する。 マルチスケールの量子化によって、異なる候補に対して特定の量子化戦略を提供できる。 ウェーブレットの分解と再構成により重みの多様性が向上し,特に超低ビット幅(3ビット,2ビット,1ビット)における各量子化候補の性能が大幅に向上する。 ImageNetとCOCOの実験結果から,本手法は同一精度で訓練した専用モデルに匹敵する精度が得られた。

As an effective technique to achieve the implementation of deep neural networks in edge devices, model quantization has been successfully applied in many practical applications. No matter the methods of quantization aware training (QAT) or post-training quantization (PTQ), they all depend on the target bit-widths. When the precision of quantization is adjusted, it is necessary to fine-tune the quantized model or minimize the quantization noise, which brings inconvenience in practical applications. In this work, we propose a method to train a model for all quantization that supports diverse bit-widths (e.g., form 8-bit to 1-bit) to satisfy the online quantization bit-width adjustment. It is hot-swappable that can provide specific quantization strategies for different candidates through multiscale quantization. We use wavelet decomposition and reconstruction to increase the diversity of weights, thus significantly improving the performance of each quantization candidate, especially at ultra-low bit-widths (e.g., 3-bit, 2-bit, and 1-bit). Experimental results on ImageNet and COCO show that our method can achieve accuracy comparable performance to dedicated models trained at the same precision.
翻訳日:2021-05-05 12:57:37 公開日:2021-05-04
# 表面マッピング推定のための弱マルチビュー・スーパービジョン

Weak Multi-View Supervision for Surface Mapping Estimation ( http://arxiv.org/abs/2105.01388v1 )

ライセンス: Link先を確認
Nishant Rai, Aidas Liaudanskas, Srinivas Rao, Rodrigo Ortiz Cayon, Matteo Munaro, Stefan Holzer(参考訳) 本稿では,密接なアノテーションを使わずにカテゴリ固有の表面マッピングを学ぶための,弱教師付き多視点学習手法を提案する。 人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。 従来のアプローチでは,画素レベルのアノテーションという形で広範囲の監視によってこの問題を解決しているが,画素レベルのUVとメッシュ予測を3次元再計画と組み合わせて一貫性のサイクルを形成することが可能である。 これらのサイクルを活用することにより、画像画素とメッシュが自己超越信号として機能する密接な対応マッピングを構築でき、その結果、全体の推定値を改善するのに役立ちます。 このアプローチでは、オブジェクトの複数のビューからの情報を活用して、追加の一貫性サイクルを確立し、明示的なアノテーションを必要とせずに表面マッピングの理解を改善します。 また,インスタンス特定メッシュの予測のための変形場の利用を提案する。 異なる視点から類似したオブジェクトインスタンスの複数のイメージを提供するデータセットが欠如していることを踏まえ、メッシュ周囲の360度カメラ軌跡を使用してShapeNetメッシュをレンダリングした多視点のShapeNet CarとAirplanesデータセットを生成し、リリースする。 human facesカテゴリでは、既存のデータセットをマルチビューのセットアップに処理し、適応させます。 実験結果から,本手法は平均形状から外れた正確な変動を生成でき,マルチビューに一貫性があり,完全な教師付きアプローチと相性が良いことを示す。

We propose a weakly-supervised multi-view learning approach to learn category-specific surface mapping without dense annotations. We learn the underlying surface geometry of common categories, such as human faces, cars, and airplanes, given instances from those categories. While traditional approaches solve this problem using extensive supervision in the form of pixel-level annotations, we take advantage of the fact that pixel-level UV and mesh predictions can be combined with 3D reprojections to form consistency cycles. As a result of exploiting these cycles, we can establish a dense correspondence mapping between image pixels and the mesh acting as a self-supervisory signal, which in turn helps improve our overall estimates. Our approach leverages information from multiple views of the object to establish additional consistency cycles, thus improving surface mapping understanding without the need for explicit annotations. We also propose the use of deformation fields for predictions of an instance specific mesh. Given the lack of datasets providing multiple images of similar object instances from different viewpoints, we generate and release a multi-view ShapeNet Cars and Airplanes dataset created by rendering ShapeNet meshes using a 360 degree camera trajectory around the mesh. For the human faces category, we process and adapt an existing dataset to a multi-view setup. Through experimental evaluations, we show that, at test time, our method can generate accurate variations away from the mean shape, is multi-view consistent, and performs comparably to fully supervised approaches.
翻訳日:2021-05-05 12:57:16 公開日:2021-05-04
# センターへ進む: 再識別のための注意と記憶を伴う再分類

Moving Towards Centers: Re-ranking with Attention and Memory for Re-identification ( http://arxiv.org/abs/2105.01447v1 )

ライセンス: Link先を確認
Yunhao Zhou, Yi Wang and Lap-Pui Chau(参考訳) リグレードは、コンテキスト情報を利用して、人または車の再識別(re-ID)の最初のランキングリストを最適化する。 本稿では,プローブと上位近傍サンプルの相関関係を予測するために,再ランクネットワークを提案する。 具体的には、クエリー画像とギャラリー画像のすべての特徴埋め込みを隣人の線形結合によって拡張・拡張し、相関予測は識別的組合せ重みとして機能する。 組み合わせプロセスは、独立した埋め込みをアイデンティティセンターへ移動させることと等価であり、クラスタのコンパクト性を改善する。 相関予測のために、まずTransformerエンコーダを介してプローブのk-アレスト近傍のコンテキスト情報を集約する。 次に,注意機構を介してプローブ関連機能をコンテキストメモリセルに蒸留精錬する。 プローブ画像だけでなく、検索された画像を記憶して画像を取得する人間と同様に、コンテキストメモリは各インスタンスに対してマルチビュー記述を生成する。 最後に、隣人はContextual Memoryから取得した機能で再構築され、バイナリ分類器がプローブとの相関を予測する。 広範に利用されている6人の人物と車両のre-IDベンチマーク実験により,提案手法の有効性が示された。 特に,veri-wild,msmt17,および vehicleid データセットにおける平均 3.08% cmc@1 と 7.46% のマップ改善により,大規模データセットに対する最先端の再ランク付けアプローチをかなりのマージンで超えている。

Re-ranking utilizes contextual information to optimize the initial ranking list of person or vehicle re-identification (re-ID), which boosts the retrieval performance at post-processing steps. This paper proposes a re-ranking network to predict the correlations between the probe and top-ranked neighbor samples. Specifically, all the feature embeddings of query and gallery images are expanded and enhanced by a linear combination of their neighbors, with the correlation prediction serves as discriminative combination weights. The combination process is equivalent to moving independent embeddings toward the identity centers, improving cluster compactness. For correlation prediction, we first aggregate the contextual information for probe's k-nearest neighbors via the Transformer encoder. Then, we distill and refine the probe-related features into the Contextual Memory cell via attention mechanism. Like humans that retrieve images by not only considering probe images but also memorizing the retrieved ones, the Contextual Memory produces multi-view descriptions for each instance. Finally, the neighbors are reconstructed with features fetched from the Contextual Memory, and a binary classifier predicts their correlations with the probe. Experiments on six widely-used person and vehicle re-ID benchmarks demonstrate the effectiveness of the proposed method. Especially, our method surpasses the state-of-the-art re-ranking approaches on large-scale datasets by a significant margin, i.e., with an average 3.08% CMC@1 and 7.46% mAP improvements on VERI-Wild, MSMT17, and VehicleID datasets.
翻訳日:2021-05-05 12:56:50 公開日:2021-05-04
# Affwild2データセットの妥当性評価に関する技術報告

Technical Report for Valence-Arousal Estimation on Affwild2 Dataset ( http://arxiv.org/abs/2105.01502v1 )

ライセンス: Link先を確認
I-Hsuan Li(参考訳) 本稿では,abaw fg-2020 コンペティションにおけるvalence-arousal estimation challenge に取り組む手法について述べる。 コンペティションオーガナイザーは、参加者が実生活で情緒行動を分析するために、wild内のaf-wild2データセットを提供する。 我々は、MIMAMO Net \cite{deng2020mimamo} モデルを用いて、ビデオの感情認識を改善するためのマイクロモーションとマクロモーションに関する情報を得るとともに、再選択された検証セット上での精度と刺激に対する0.415と0.511の一致相関係数(CCC)を達成する。

In this work, we describe our method for tackling the valence-arousal estimation challenge from ABAW FG-2020 Competition. The competition organizers provide an in-the-wild Aff-Wild2 dataset for participants to analyze affective behavior in real-life settings. We use MIMAMO Net \cite{deng2020mimamo} model to achieve information about micro-motion and macro-motion for improving video emotion recognition and achieve Concordance Correlation Coefficient (CCC) of 0.415 and 0.511 for valence and arousal on the reselected validation set.
翻訳日:2021-05-05 12:56:25 公開日:2021-05-04
# スケルトンに基づく行動認識における3次特徴の活用

Leveraging Third-Order Features in Skeleton-Based Action Recognition ( http://arxiv.org/abs/2105.01563v1 )

ライセンス: Link先を確認
Zhenyue Qin and Yang Liu and Pan Ji and Dongwoo Kim and Lei Wang and RI (Bob) McKay and Saeed Anwar and Tom Gedeon(参考訳) スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。 最近のスケルトンに基づく行動認識法では, 3次元関節座標から特徴を空間-時間的手がかりとして抽出し, 特徴融合のためのグラフニューラルネットワークで表現し, 認識性能を向上させる。 一階と二階の特徴、すなわち関節と骨の表現は高い精度をもたらすが、多くのモデルはまだ類似の運動軌跡を持つ作用によって混乱している。 これらの課題に対処するため,現代建築におけるアングルの形での3次特徴の融合を提案し,関節と身体部分の関係をしっかりと把握する。 一般的な時空間グラフニューラルネットワークとのこの単純な融合は、NTU60とNTU120を含む2つの大きなベンチマークにおいて、パラメータが少なく、実行時間を短縮しながら、新しい最先端の精度を実現する。 私たちのソースコードは、https://github.com/Z henyueQin/Angular-Sk eleton-Encodingで公開されています。

Skeleton sequences are light-weight and compact, and thus ideal candidates for action recognition on edge devices. Recent skeleton-based action recognition methods extract features from 3D joint coordinates as spatial-temporal cues, using these representations in a graph neural network for feature fusion, to boost recognition performance. The use of first- and second-order features, i.e., joint and bone representations has led to high accuracy, but many models are still confused by actions that have similar motion trajectories. To address these issues, we propose fusing third-order features in the form of angles into modern architectures, to robustly capture the relationships between joints and body parts. This simple fusion with popular spatial-temporal graph neural networks achieves new state-of-the-art accuracy in two large benchmarks, including NTU60 and NTU120, while employing fewer parameters and reduced run time. Our sourcecode is publicly available at: https://github.com/Z henyueQin/Angular-Sk eleton-Encoding.
翻訳日:2021-05-05 12:56:11 公開日:2021-05-04
# 高度運転支援システム(ADAS)における物体検出のロバスト性向上

Robustness Enhancement of Object Detection in Advanced Driver Assistance Systems (ADAS) ( http://arxiv.org/abs/2105.01580v1 )

ライセンス: Link先を確認
Le-Anh Tran, Truong-Dong Do, Dong-Chul Park, My-Ha Le(参考訳) 本稿では, 高速運転支援システム(ADAS)における物体検出手法の堅牢性を高めるため, コンパクト物体検出器と環境条件分類器を統合した統合システムを提案する。 ADASは、物体検出が極めて重要な役割を果たす自律運転システムにおいて、交通安全と有効性を改善するために発明されている。 しかし、adasに統合された現代の物体検出器は、高いレイテンシと展開段階における環境条件の変化のため、依然として不安定である。 我々のシステムは上記の問題に対処するために提案されている。 提案するシステムは,(1)最先端の物体検出器と同等の精度で動作可能な小型の1段物体検出器,(2)自動運転車が状況の重大さから人為的な行動を必要とする場合に,クラウドに警告信号を送信するのに役立つ環境条件検出器の2つの主成分を含む。 実験結果から,提案するシステムの信頼性とスケーラビリティを現実的なシナリオに適用できた。

A unified system integrating a compact object detector and a surrounding environmental condition classifier for enhancing the robustness of object detection scheme in advanced driver assistance systems (ADAS) is proposed in this paper. ADAS are invented to improve traffic safety and effectiveness in autonomous driving systems where object detection plays an extremely important role. However, modern object detectors integrated in ADAS are still unstable due to high latency and the variation of the environmental contexts in the deployment phase. Our system is proposed to address the aforementioned problems. The proposed system includes two main components: (1) a compact one-stage object detector which is expected to be able to perform at a comparable accuracy compared to state-of-the-art object detectors, and (2) an environmental condition detector that helps to send a warning signal to the cloud in case the self-driving car needs human actions due to the significance of the situation. The empirical results prove the reliability and the scalability of the proposed system to realistic scenarios.
翻訳日:2021-05-05 12:55:57 公開日:2021-05-04
# 遠隔病的歩行分類システム

Remote Pathological Gait Classification System ( http://arxiv.org/abs/2105.01634v1 )

ライセンス: Link先を確認
Pedro Albuquerque, Joao Machado, Tanmay Tulsidas Verlekar, Luis Ducla Soares, Paulo Lobato Correia(参考訳) いくつかの病理は、人々の歩き方を変えることができる。 彼らの歩み したがって、歩行分析は障害を検出し、病気を診断し、患者の回復を評価するのに役立つ。 視覚ベースのシステムを使用すると、診断は自宅や診療所で行われ、必要な計算は遠隔で行える。 最先端のビジョンベースの歩行分析システムはディープラーニングを使用し、トレーニングに大規模なデータセットを必要とする。 しかし,我々の知る限り,最も広く公開されている病理歩行データセットには,4つの歩行病理をシミュレートした10項目しか含まれていない。 本稿では,4つの歩行病理をシミュレートした21の被験者から得られたGAIT-ITと呼ばれる新しいデータセットについて述べる。 さらに、プロのスタジオで録音され、セグメンテーションエラーのないほぼ完璧なシルエットを入手することができた。 本稿では, 遠隔医療の重要性を認識し, 歩行者の動画をアップロードするウェブアプリケーションのプロトタイプを提案し, スマートフォンのカメラを用いて取得し, 歩行を正常に, または異なる病理にまたがって分類する web サービスを実行する。 webアプリケーションはユーザフレンドリーなインターフェースを備えており、医療専門家や他のエンドユーザが利用できる。 また, 自動歩行解析システムを開発し, 病理分類のためのWebアプリケーションと統合した。 最先端のソリューションと比較して、モデルパラメータの数が大幅に削減され、メモリ要件が大幅に削減され、トレーニングや実行時間が短縮される。 分類精度は最先端技術と同程度である。

Several pathologies can alter the way people walk, i.e. their gait. Gait analysis can therefore be used to detect impairments and help diagnose illnesses and assess patient recovery. Using vision-based systems, diagnoses could be done at home or in a clinic, with the needed computation being done remotely. State-of-the-art vision-based gait analysis systems use deep learning, requiring large datasets for training. However, to our best knowledge, the biggest publicly available pathological gait dataset contains only 10 subjects, simulating 4 gait pathologies. This paper presents a new dataset called GAIT-IT, captured from 21 subjects simulating 4 gait pathologies, with 2 severity levels, besides normal gait, being considerably larger than publicly available gait pathology datasets, allowing to train a deep learning model for gait pathology classification. Moreover, it was recorded in a professional studio, making it possible to obtain nearly perfect silhouettes, free of segmentation errors. Recognizing the importance of remote healthcare, this paper proposes a prototype of a web application allowing to upload a walking person's video, possibly acquired using a smartphone camera, and execute a web service that classifies the person's gait as normal or across different pathologies. The web application has a user friendly interface and could be used by healthcare professionals or other end users. An automatic gait analysis system is also developed and integrated with the web application for pathology classification. Compared to state-of-the-art solutions, it achieves a drastic reduction in the number of model parameters, which means significantly lower memory requirements, as well as lower training and execution times. Classification accuracy is on par with the state-of-the-art.
翻訳日:2021-05-05 12:55:40 公開日:2021-05-04
# 小型映像認識のための運動強調自己訓練

Motion-Augmented Self-Training for Video Recognition at Smaller Scale ( http://arxiv.org/abs/2105.01646v1 )

ライセンス: Link先を確認
Kirill Gavrilyuk, Mihir Jain, Ilia Karmanov, Cees G. M. Snoek(参考訳) 本論文の目的は,3次元畳み込みニューラルネットワークをラベルなしのビデオコレクションに自己学習し,小規模ビデオコレクションに展開することである。 より小さなビデオデータセットは外観よりも動きの恩恵を受けるため、私たちは光フローを使ってネットワークをトレーニングするが、推論時の計算は避ける。 我々は,モーションフィットと呼ばれる最初の自己学習方式を提案する。 まず、小さなラベル付きビデオコレクション上でのモーションモデルの教師付きトレーニングから始める。 モーションモデルでは,大規模な非ラベルビデオコレクションに対して擬似ラベルを生成し,学習により知識を伝達し,これらの擬似ラベルを出現モデルで予測する。 さらに,補助的なタスクを伴わずとも,擬似ラベルの質を向上させるための簡易かつ効率的な方法としてマルチクリップロスを導入する。 また,過去の作品では欠落していた外観モデルの自己学習中の映像の時間的粒度を考慮に入れた。 その結果、アクション認識やクリップ検索などのビデオ下流タスクに適した、強いモーション提示表現モデルが得られる。 小規模のビデオデータセットでは、motionfitは知識転送の選択肢を5%-8%、ビデオのみの自己スーパービジョンを1%-7%、半教師付き学習を9%-18%上回る。

The goal of this paper is to self-train a 3D convolutional neural network on an unlabeled video collection for deployment on small-scale video collections. As smaller video datasets benefit more from motion than appearance, we strive to train our network using optical flow, but avoid its computation during inference. We propose the first motion-augmented self-training regime, we call MotionFit. We start with supervised training of a motion model on a small, and labeled, video collection. With the motion model we generate pseudo-labels for a large unlabeled video collection, which enables us to transfer knowledge by learning to predict these pseudo-labels with an appearance model. Moreover, we introduce a multi-clip loss as a simple yet efficient way to improve the quality of the pseudo-labeling, even without additional auxiliary tasks. We also take into consideration the temporal granularity of videos during self-training of the appearance model, which was missed in previous works. As a result we obtain a strong motion-augmented representation model suited for video downstream tasks like action recognition and clip retrieval. On small-scale video datasets, MotionFit outperforms alternatives for knowledge transfer by 5%-8%, video-only self-supervision by 1%-7% and semi-supervised learning by 9%-18% using the same amount of class labels.
翻訳日:2021-05-05 12:55:17 公開日:2021-05-04
# ビデオ記録からの教師なしグラフに基づくトピックモデリング

Unsupervised Graph-based Topic Modeling from Video Transcriptions ( http://arxiv.org/abs/2105.01466v1 )

ライセンス: Link先を確認
Lukas Stappen, Gerhard Hagerer, Bj\"orn W. Schuller, Georg Groh(参考訳) ソーシャルメディアプラットフォームに毎日アップロードされる膨大な量のオーディオビジュアルデータを広めるためには、効果的なトピックモデリング技術が必要である。 既存の作業はテキストデータセットにトピックモデルの変種を適用する傾向がある。 本稿では,映像の書き起こしにおける話題抽出器の開発を目標とする。 このモデルは、グラフベースのクラスタリング手法により、ニューラルネットワークの埋め込みを利用してコヒーレンスを改善する。 典型的なトピックモデルとは異なり、このアプローチは真のトピックの数を知ることなく機能する。 実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と有意義なトピックを抽出し,ベースライン法よりも優れた性能を示すことが示された。 さらに,純粋なテキストレビューデータセットに対するアプローチの汎用性を実証することに成功した。

To unfold the tremendous amount of audiovisual data uploaded daily to social media platforms, effective topic modelling techniques are needed. Existing work tends to apply variants of topic models on text data sets. In this paper, we aim at developing a topic extractor on video transcriptions. The model improves coherence by exploiting neural word embeddings through a graph-based clustering method. Unlike typical topic models, this approach works without knowing the true number of topics. Experimental results on the real-life multimodal data set MuSe-CaR demonstrates that our approach extracts coherent and meaningful topics, outperforming baseline methods. Furthermore, we successfully demonstrate the generalisability of our approach on a pure text review data set.
翻訳日:2021-05-05 12:54:15 公開日:2021-05-04
# 連続感情の特徴によるオンラインビデオユーザのエンゲージメントの推定

An Estimation of Online Video User Engagement from Features of Continuous Emotions ( http://arxiv.org/abs/2105.01633v1 )

ライセンス: Link先を確認
Lukas Stappen, Alice Baird, Michelle Lienhart, Annalena B\"atz, Bj\"orn Schuller(参考訳) ポートレイティングの感情と信頼性は、ビデオコンテンツの魅力を高めることが知られている。 しかし、これらの信号とオンラインユーザエンゲージメントの因果関係はよく理解されていない。 この限定的な理解は、感情的な注釈付きデータの不足と、オンラインでのユーザエンゲージメントを表現するさまざまなモダリティが原因である。 このコントリビューションでは,caを含むYouTubeレビュービデオの大規模なデータセットを活用する。 600時間分の次元覚醒 原子価 信頼力のアノテーション 我々は,これらの信号から抽出した特徴を,コメントの感情だけでなく,ビュー,類似/非類似比率などの様々なユーザエンゲージメント指標に対して検討する。 そこで我々は,単一機能の持つ肯定的および否定的な影響と,ユーザのエンゲージメントに関連する各次元の解釈可能なパターンを識別する。 その結果,ユーザエンゲージメントの増大につながる境界範囲やゆらぎが小さいことが示唆された。 さらに,抽出された時系列の特徴は,信号平均(覚醒)以下,ピーク数(価),絶対エネルギー(信頼度)など,各次元において有意な相関(p<0.05)を示す。 そこから、複数のユーザエンゲージメント指標を自動的に予測することを目的とした、効果的な機能の組み合わせを概説する。 ユーザエンゲージメント予測パラダイムでは、すべての機能をセミオートマチック(クロスタスク)と自動(タスク固有の)機能選択方法と比較する。 これらの選択された特徴セットは、すべての特徴(例えば、すべての特徴を使用すると、1日あたり1.55の類似(Lp/d)は、原子価から絶対誤差を意味する)を達成し、それぞれ半自動選択と自動選択により1.33Lp/dに改善する(平均は9.72Lp/d)。 28.75 Lp/d)。

Portraying emotion and trustworthiness is known to increase the appeal of video content. However, the causal relationship between these signals and online user engagement is not well understood. This limited understanding is partly due to a scarcity in emotionally annotated data and the varied modalities which express user engagement online. In this contribution, we utilise a large dataset of YouTube review videos which includes ca. 600 hours of dimensional arousal, valence and trustworthiness annotations. We investigate features extracted from these signals against various user engagement indicators including views, like/dislike ratio, as well as the sentiment of comments. In doing so, we identify the positive and negative influences which single features have, as well as interpretable patterns in each dimension which relate to user engagement. Our results demonstrate that smaller boundary ranges and fluctuations for arousal lead to an increase in user engagement. Furthermore, the extracted time-series features reveal significant (p<0.05) correlations for each dimension, such as, count below signal mean (arousal), number of peaks (valence), and absolute energy (trustworthiness). From this, an effective combination of features is outlined for approaches aiming to automatically predict several user engagement indicators. In a user engagement prediction paradigm we compare all features against semi-automatic (cross-task), and automatic (task-specific) feature selection methods. These selected feature sets appear to outperform the usage of all features, e.g., using all features achieves 1.55 likes per day (Lp/d) mean absolute error from valence; this improves through semi-automatic and automatic selection to 1.33 and 1.23 Lp/d, respectively (data mean 9.72 Lp/d with a std. 28.75 Lp/d).
翻訳日:2021-05-05 12:54:05 公開日:2021-05-04
# 都市移動度解析のためのwifi指紋クラスタリング

WiFi Fingerprint Clustering for Urban Mobility Analysis ( http://arxiv.org/abs/2105.01274v1 )

ライセンス: Link先を確認
Sumudu HasalaMarakkalage, Billy Pik Lik Lau, Yuren Zhou, Ran Liu, Chau Yuen, Wei Quin Yow, Keng Hua Chong(参考訳) 本稿では,スマートフォンアプリケーションデータからのWiFi計測を利用して,ユーザポイント(POI)を識別するための教師なし学習手法を提案する。 屋内・シェルター・高層建築環境におけるGPS位置決め精度の欠如により,現在都市部で広く利用されている WiFi アクセスポイント (AP) に頼ってPOI とモビリティのパターンを正確に同定し,WiFi 測定の類似性を比較する。 本研究では,周辺wi-fi apをスキャンし,教師なし学習を行い,建物内の室内poi,近隣活動,利用者のマイクロモビリティという3つの主要な知見を識別できることを実証するシステムアーキテクチャを提案する。 その結果,gpsだけでは識別できないwi-fiとgpsの融合により,前述の知見を識別することが可能であることが判明した。

In this paper, we present an unsupervised learning approach to identify the user points of interest (POI) by exploiting WiFi measurements from smartphone application data. Due to the lack of GPS positioning accuracy in indoor, sheltered, and high rise building environments, we rely on widely available WiFi access points (AP) in contemporary urban areas to accurately identify POI and mobility patterns, by comparing the similarity in the WiFi measurements. We propose a system architecture to scan the surrounding WiFi AP, and perform unsupervised learning to demonstrate that it is possible to identify three major insights, namely the indoor POI within a building, neighbourhood activity, and micro-mobility of the users. Our results show that it is possible to identify the aforementioned insights, with the fusion of WiFi and GPS, which are not possible to identify by only using GPS.
翻訳日:2021-05-05 12:53:19 公開日:2021-05-04
# 深層学習に基づくCO$2$シークエンスのためのフロー-ジオメカニクスシュロゲートモデル

Deep-learning-based coupled flow-geomechanics surrogate model for CO$_2$ sequestration ( http://arxiv.org/abs/2105.01334v1 )

ライセンス: Link先を確認
Meng Tang, Xin Ju, Louis J. Durlofsky(参考訳) 深層学習に基づくCO2貯蔵操作における流れとジオメカニカル応答を予測可能な代理モデルを提案し,適用した。 3次元リカレントr-u-netモデルは、深い畳み込みとリカレントニューラルネットワークを組み合わせて、飽和、圧力、表面変位場の空間分布と時間変化を捉える。 マルチゲージポロシティとlog-permeabilityフィールドを特徴とする2000年保存帯水層実現のための高忠実度シミュレーション結果を用いて学習する。 これらの数値解は、結合問題に考慮しなければならない領域は、貯水池だけでなく、周辺地域、オーバーバーデン、岩盤を含むため、高価である。 代理モデルは、貯留帯における3次元CO2飽和度と圧力場、および地球表面における2次元変位マップを予測するために訓練される。 新しい(テストケース)ストレージクエリ実現のためのサロゲートモデルとフルオーダーシミュレーション結果の詳細な比較を行った。 代理モデルによって提供される飽和、圧力および表面の変位場は、個別のテストケース実現とアンサンブル統計の両方に高い精度を示す。 最後に、リカレントR-U-Netサロゲートモデルにデータ同化の拒否サンプリング手順を適用する。 観測はごく少数の表面変位測定から成っているが, 貯水池上部の圧力上昇の顕著な不確実性低下が達成されている。

A deep-learning-based surrogate model capable of predicting flow and geomechanical responses in CO2 storage operations is presented and applied. The 3D recurrent R-U-Net model combines deep convolutional and recurrent neural networks to capture the spatial distribution and temporal evolution of saturation, pressure and surface displacement fields. The method is trained using high-fidelity simulation results for 2000 storage-aquifer realizations characterized by multi-Gaussian porosity and log-permeability fields. These numerical solutions are expensive because the domain that must be considered for the coupled problem includes not only the storage aquifer but also a surrounding region, overburden and bedrock. The surrogate model is trained to predict the 3D CO2 saturation and pressure fields in the storage aquifer, and 2D displacement maps at the Earth's surface. Detailed comparisons between surrogate model and full-order simulation results for new (test-case) storage-aquifer realizations are presented. The saturation, pressure and surface displacement fields provided by the surrogate model display a high degree of accuracy, both for individual test-case realizations and for ensemble statistics. Finally, the the recurrent R-U-Net surrogate model is applied with a rejection sampling procedure for data assimilation. Although the observations consist of only a small number of surface displacement measurements, significant uncertainty reduction in pressure buildup at the top of the storage aquifer (caprock) is achieved.
翻訳日:2021-05-05 12:53:06 公開日:2021-05-04
# Twitterの属性情報を使って株価を予測

Using Twitter Attribute Information to Predict Stock Prices ( http://arxiv.org/abs/2105.01402v1 )

ライセンス: Link先を確認
Roderick Karlemstrand, Ebba Leckstr\"om(参考訳) 株価を予測できることは、株式投資家の無口な願望かもしれない。 株価は予測が難しいが、金利やニュース、ソーシャルメディアなど、その動きにどのような影響を及ぼすのかについては様々な理論がある。 機械学習の助けを借りて、データの複雑なパターンは人間の知性を超えて識別することができる。 この論文では、時系列予測のための機械学習モデルを作成し、株価を予測するためにテストする。 このモデルは、LSTMと完全に接続されたレイヤが複数あるニューラルネットワークに基づいている。 ソーシャルメディアプラットフォームTwitterの投稿から検索、抽出、計算された、歴史的な株価、技術的指標、およびTwitter属性情報で訓練されている。 これらの属性は、感情スコア、お気に入り、フォロワー、リツイート、そしてアカウントが検証された場合である。 Twitterからデータ収集には、TwitterのAPIが使用されている。 VADERを用いて感性分析を行う。 その結果、より多くのtwitter属性を追加することで、予測価格と実際の価格の間のmseが3%向上した。 技術的分析により、MSEは0.1617から0.1437に減少し、約11%の改善となった。 この調査の制限には、選択された株式を株式市場に上場し、twitterや個人投資家の間で人気を博すことが含まれる。 さらに、株式市場の営業時間はtwitterと異なり、常に利用可能だ。 したがって、モデルにノイズをもたらす可能性がある。

Being able to predict stock prices might be the unspoken wish of stock investors. Although stock prices are complicated to predict, there are many theories about what affects their movements, including interest rates, news and social media. With the help of Machine Learning, complex patterns in data can be identified beyond the human intellect. In this thesis, a Machine Learning model for time series forecasting is created and tested to predict stock prices. The model is based on a neural network with several layers of LSTM and fully connected layers. It is trained with historical stock values, technical indicators and Twitter attribute information retrieved, extracted and calculated from posts on the social media platform Twitter. These attributes are sentiment score, favourites, followers, retweets and if an account is verified. To collect data from Twitter, Twitter's API is used. Sentiment analysis is conducted with VADER. The results show that by adding more Twitter attributes, the MSE between the predicted prices and the actual prices improved by 3%. With technical analysis taken into account, MSE decreases from 0.1617 to 0.1437, which is an improvement of around 11%. The restrictions of this study include that the selected stock has to be publicly listed on the stock market and popular on Twitter and among individual investors. Besides, the stock markets' opening hours differ from Twitter, which constantly available. It may therefore introduce noises in the model.
翻訳日:2021-05-05 12:52:45 公開日:2021-05-04
# 可視化による交通速度ダイナミクスの学習

Learning Traffic Speed Dynamics from Visualizations ( http://arxiv.org/abs/2105.01423v1 )

ライセンス: Link先を確認
Bilal Thonnam Thodi, Zaid Saeed Khan, Saif Eddin Jabari and Monica Menendez(参考訳) マクロな交通変数や微視的な交通変数の時空間可視化は、交通工学者が道路交通力学の様々な側面を理解し解析するために用いる定性的ツールである。 本稿では,これらの時空可視化からマクロトラヒック速度ダイナミクスを学ぶための深層学習手法を提案し,トラヒック状態推定の枠組みにおける適用例を示す。 既存の推定手法と比較して,より詳細な推定を可能とし,初期条件への依存をなくし,交通需要,道路不均一性,運転行動などの外部要因に依存しない手法である。 我々のモデルは交通力学の因果関係を尊重し、推定の堅牢性を改善する。 次世代シミュレーションプログラム(NGSIM)とドイツ高速道路(HighD)のデータセットから得られたデータを用いて,高速道路区間の高分解能交通速度場を推定した。 さらに,推定速度場から車両軌跡を推定することにより,推定の質と有用性を示し,交通動態を近似するディープニューラルネットワークモデルの利点について考察する。

Space-time visualizations of macroscopic or microscopic traffic variables is a qualitative tool used by traffic engineers to understand and analyze different aspects of road traffic dynamics. We present a deep learning method to learn the macroscopic traffic speed dynamics from these space-time visualizations, and demonstrate its application in the framework of traffic state estimation. Compared to existing estimation approaches, our approach allows a finer estimation resolution, eliminates the dependence on the initial conditions, and is agnostic to external factors such as traffic demand, road inhomogeneities and driving behaviors. Our model respects causality in traffic dynamics, which improves the robustness of estimation. We present the high-resolution traffic speed fields estimated for several freeway sections using the data obtained from the Next Generation Simulation Program (NGSIM) and German Highway (HighD) datasets. We further demonstrate the quality and utility of the estimation by inferring vehicle trajectories from the estimated speed fields, and discuss the benefits of deep neural network models in approximating the traffic dynamics.
翻訳日:2021-05-05 12:52:28 公開日:2021-05-04
# データと物理の相乗による予測モデルの一般化性向上

Enhancing Generalizability of Predictive Models with Synergy of Data and Physics ( http://arxiv.org/abs/2105.01429v1 )

ライセンス: Link先を確認
Yingjun Shen, Zhe Song and Andrew Kusiak(参考訳) 風力発電所は予測メンテナンスのための予測モデルを必要とする。 利用可能なデータに反映される範囲を超えて、観測不能なパラメータの値を予測する必要がある。 あるマシンで開発された予測モデルは、他の類似マシンではうまく動作しない。 これは通常、データ駆動モデルの一般化性の欠如によるものである。 予測モデルの一般化性を高めるため、本研究は第一原理知識とデータマイニングを統合する。 物理ベースの原則は、機能エンジニアリング、強力なルール、分割とクエリによる機械学習アルゴリズムと組み合わせられる。 提案するシナジーの概念は風力タービンブレードのアイシング予測で示され、異なるタービン間で有意な予測精度を達成している。 提案手法は, 簡易性と効率性から, 風力エネルギー予測保守実践者に広く受け入れられている。 さらに,本論文は,機械学習プロセスに物理原理を組み込むことの重要性を示すとともに,産業用ビッグデータマイニングにおいて,より複雑な機械学習アルゴリズムの必要性が,他のアプリケーションよりもはるかに少なく,物理を組み込んでLess is Moreの哲学に従うことが不可欠であることを示す。

Wind farm needs prediction models for predictive maintenance. There is a need to predict values of non-observable parameters beyond ranges reflected in available data. A prediction model developed for one machine many not perform well in another similar machine. This is usually due to lack of generalizability of data-driven models. To increase generalizability of predictive models, this research integrates the data mining with first-principle knowledge. Physics-based principles are combined with machine learning algorithms through feature engineering, strong rules and divide-and-conquer. The proposed synergy concept is illustrated with the wind turbine blade icing prediction and achieves significant prediction accuracy across different turbines. The proposed process is widely accepted by wind energy predictive maintenance practitioners because of its simplicity and efficiency. Furthermore, this paper demonstrates the importance of embedding physical principles within the machine learning process, and also highlight an important point that the need for more complex machine learning algorithms in industrial big data mining is often much less than it is in other applications, making it essential to incorporate physics and follow Less is More philosophy.
翻訳日:2021-05-05 12:52:10 公開日:2021-05-04
# ミルベンチマーク:深層多インスタンス学習技術の標準化評価

mil-benchmarks: Standardized Evaluation of Deep Multiple-Instance Learning Techniques ( http://arxiv.org/abs/2105.01443v1 )

ライセンス: Link先を確認
Daniel Grahn(参考訳) マルチインスタンス学習は、ラベルがインスタンス自体ではなくインスタンスの集合に適用される弱い教師付き学習のサブセットである。 標準仮定では、集合が正であることは、集合の少なくとも1つのインスタンスが正であることのみである。 本稿では,MNIST,Fashion-MNIST ,CIFAR10から生成されるマルチインスタンス学習ベンチマークを紹介する。 これらのベンチマークは標準、存在、不在、複雑な仮定をテストし、将来のベンチマークを分散するためのフレームワークを提供する。 ベンチマークに対して複数のマルチインスタンス学習手法を実装し,評価する。 さらに,ラベルノイズを用いたNoisy-And法を評価し,異なるデータセットによる混合結果を求める。 モデルはtensorflow 2.4.1で実装され、githubで入手できる。 ベンチマークはpypiからmil-benchmarksとgithubで入手できる。

Multiple-instance learning is a subset of weakly supervised learning where labels are applied to sets of instances rather than the instances themselves. Under the standard assumption, a set is positive only there is if at least one instance in the set which is positive. This paper introduces a series of multiple-instance learning benchmarks generated from MNIST, Fashion-MNIST, and CIFAR10. These benchmarks test the standard, presence, absence, and complex assumptions and provide a framework for future benchmarks to be distributed. I implement and evaluate several multiple-instance learning techniques against the benchmarks. Further, I evaluate the Noisy-And method with label noise and find mixed results with different datasets. The models are implemented in TensorFlow 2.4.1 and are available on GitHub. The benchmarks are available from PyPi as mil-benchmarks and on GitHub.
翻訳日:2021-05-05 12:51:52 公開日:2021-05-04
# 未知環境の適応探索のための深層強化学習

Deep Reinforcement Learning for Adaptive Exploration of Unknown Environments ( http://arxiv.org/abs/2105.01606v1 )

ライセンス: Link先を確認
Ashley Peake, Joe McCalmon, Yixin Zhang, Daniel Myers, Sarra Alqahtani, Paul Pauca(参考訳) 無人航空機(uav)の無人探査は未知の環境での運用には不可欠である。 多くの場合、これらのミッションは純粋な探検を通じて環境の地図を作り、その後(すなわち)使うことから始まります。 エクスプロイト) 下流のナビゲーションタスクのために生成されたマップ。 これらのナビゲーションタスクを2つの別々のステップで実行することは、屋外および動的に変化する環境に展開するUAVにとって必ずしも可能あるいは不利であるとは限らない。 現在の探査アプローチでは、先駆的な人間生成地図を使うか、フロンティアに基づく探索のようなヒューリスティックスを使うかのどちらかである。 他のアプローチでは、学習を使用するが、サンプル非効率なランダム探索や、フルマップの可用性に関する非現実的な仮定を行うことによって、特定のタスクの学習ポリシーのみに焦点を当てる。 本稿では, 深層強化学習(DRL)を用いて, 未知の環境における関心領域(AoIs)を探索するUAVに対して, 探索と搾取のトレードオフを行うための適応探索手法を開発する。 提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。 そして、簡単な情報ゲイン関数を繰り返し計算して、プロセスの各イテレーション中に検索する最適な対象領域を決定する。 DDQNとA2CのアルゴリズムはLSTMレイヤのスタックで拡張され、探索とエクスプロイトのための最適なポリシーを生成するように訓練される。 このアプローチを3つの異なるタスクで4つのベースラインに対してテストしました。 その結果,提案手法はランダムに生成された環境をナビゲートし,ベースラインよりも少ない時間ステップでより多くのaoiをカバーできることがわかった。

Performing autonomous exploration is essential for unmanned aerial vehicles (UAVs) operating in unknown environments. Often, these missions start with building a map for the environment via pure exploration and subsequently using (i.e. exploiting) the generated map for downstream navigation tasks. Accomplishing these navigation tasks in two separate steps is not always possible or even disadvantageous for UAVs deployed in outdoor and dynamically changing environments. Current exploration approaches either use a priori human-generated maps or use heuristics such as frontier-based exploration. Other approaches use learning but focus only on learning policies for specific tasks by either using sample inefficient random exploration or by making impractical assumptions about full map availability. In this paper, we develop an adaptive exploration approach to trade off between exploration and exploitation in one single step for UAVs searching for areas of interest (AoIs) in unknown environments using Deep Reinforcement Learning (DRL). The proposed approach uses a map segmentation technique to decompose the environment map into smaller, tractable maps. Then, a simple information gain function is repeatedly computed to determine the best target region to search during each iteration of the process. DDQN and A2C algorithms are extended with a stack of LSTM layers and trained to generate optimal policies for the exploration and exploitation, respectively. We tested our approach in 3 different tasks against 4 baselines. The results demonstrate that our proposed approach is capable of navigating through randomly generated environments and covering more AoI in less time steps compared to the baselines.
翻訳日:2021-05-05 12:51:41 公開日:2021-05-04
# 組み込みニューラルネットワークモデルに対する機密性脅威のレビュー

A Review of Confidentiality Threats Against Embedded Neural Network Models ( http://arxiv.org/abs/2105.01401v1 )

ライセンス: Link先を確認
Rapha\"el Joud, Pierre-Alain Moellic, R\'emi Bernhard, Jean-Baptiste Rigaud(参考訳) 機械学習(ML)アルゴリズム、特にディープニューラルネットワーク(DNN)モデルの利用は、多くのドメインにおいて、特にIoTベースのシステムにおいて広く受け入れられている標準となっている。 dnnモデルは、医療診断、スマートトランスポート、セキュリティ脅威検出など、いくつかのセンシティブな分野で印象的なパフォーマンスを達成し、貴重な知的財産を表現しています。 ここ数年で大きなトレンドは、多種多様なデバイスにモデルが大規模にデプロイされることだ。 しかし、この組み込みシステムへの移行は、組み込みモデルの完全性、機密性、可用性を脅かす幅広い攻撃のため、遅くなっている。 このレビューでは、重要なIoTシステムに大きな影響を与える可能性がある組み込みDNNモデルの機密性をターゲットとした攻撃の状況について取り上げ、特にモデル抽出とデータ漏洩に焦点を当てる。 私たちは、Side-Channel Analysis(SCA)が、モデルの機密性を侵害できる比較的未解決のバイアスであるという事実を強調します。 入力データ、モデルのアーキテクチャ、パラメータは、電力または電磁観測から抽出することができ、セキュリティの観点から真のニーズを検証できる。

Utilization of Machine Learning (ML) algorithms, especially Deep Neural Network (DNN) models, becomes a widely accepted standard in many domains more particularly IoT-based systems. DNN models reach impressive performances in several sensitive fields such as medical diagnosis, smart transport or security threat detection, and represent a valuable piece of Intellectual Property. Over the last few years, a major trend is the large-scale deployment of models in a wide variety of devices. However, this migration to embedded systems is slowed down because of the broad spectrum of attacks threatening the integrity, confidentiality and availability of embedded models. In this review, we cover the landscape of attacks targeting the confidentiality of embedded DNN models that may have a major impact on critical IoT systems, with a particular focus on model extraction and data leakage. We highlight the fact that Side-Channel Analysis (SCA) is a relatively unexplored bias by which model's confidentiality can be compromised. Input data, architecture or parameters of a model can be extracted from power or electromagnetic observations, testifying a real need from a security point of view.
翻訳日:2021-05-05 12:50:30 公開日:2021-05-04
# 組み込みニューラルネットワークモデルに対するレーザー注入の概要

An Overview of Laser Injection against Embedded Neural Network Models ( http://arxiv.org/abs/2105.01403v1 )

ライセンス: Link先を確認
Mathieu Dumont, Pierre-Alain Moellic, Raphael Viera, Jean-Max Dutertre, R\'emi Bernhard(参考訳) 多くのIoTドメインにおいて、マシンラーニング、特にDeep Learningは、複雑なデータを処理するための非常に効率的なソリューションを提供する。 しかし、さまざまなデバイスへのモデルのデプロイは、信頼とセキュリティに関するいくつかの障害に直面しています。 ニューラルネットワークモデルの完全性、機密性、アクセシビリティに影響を与える重大な欠陥のデモンストレーションは、特に重要なものだ。 しかし、そのような組み込みシステムの攻撃面は抽象的な欠陥に還元することはできないが、ハードウェアプラットフォーム(例えば32ビットマイクロコントローラ)におけるこれらのモデルの実装に関連する物理的脅威を包含する必要がある。 物理的攻撃の中で、障害注入分析(FIA)は攻撃ベクトルの広い範囲で非常に強力であることが知られている。 最も重要なことは、レーザービーム注入のような高度に集中したFIA技術は、組み込みシステムの堅牢性だけでなく、脆弱性の極めて正確な評価を可能にすることである。 本稿では、最先端の機器によるレーザー注入と、Adversarial Machine Learningの理論的証拠を組み合わせることで、ディープラーニング推論の完全性に対する脅威を浮き彫りにし、理論AIと物理セキュリティのコミュニティからの協力が急務であると主張する。

For many IoT domains, Machine Learning and more particularly Deep Learning brings very efficient solutions to handle complex data and perform challenging and mostly critical tasks. However, the deployment of models in a large variety of devices faces several obstacles related to trust and security. The latest is particularly critical since the demonstrations of severe flaws impacting the integrity, confidentiality and accessibility of neural network models. However, the attack surface of such embedded systems cannot be reduced to abstract flaws but must encompass the physical threats related to the implementation of these models within hardware platforms (e.g., 32-bit microcontrollers). Among physical attacks, Fault Injection Analysis (FIA) are known to be very powerful with a large spectrum of attack vectors. Most importantly, highly focused FIA techniques such as laser beam injection enable very accurate evaluation of the vulnerabilities as well as the robustness of embedded systems. Here, we propose to discuss how laser injection with state-of-the-art equipment, combined with theoretical evidences from Adversarial Machine Learning, highlights worrying threats against the integrity of deep learning inference and claims that join efforts from the theoretical AI and Physical Security communities are a urgent need.
翻訳日:2021-05-05 12:50:14 公開日:2021-05-04
# 戦略的顧客と施設を有する二段階施設配置ゲーム

Two-Stage Facility Location Games with Strategic Clients and Facilities ( http://arxiv.org/abs/2105.01425v1 )

ライセンス: Link先を確認
Simon Krogmann, Pascal Lenzner, Louise Molitor, Alexander Skopalik(参考訳) 我々は,施設と顧客の両方が戦略的かつ大きな影響を与える非協力的な施設位置ゲームを考える。 これは、ゲーム理論的な施設配置モデルと、最も近いオープン施設を選択する非ストラテジッククライアントとは対照的である。 当社のモデルでは,各施設の場所は,顧客を引き寄せる集合体を持ち,各クライアントは,その消費能力に応じた一組のショッピングロケーションと重みを有する。 施設のエージェントは自発的に施設の開設場所を選択して総支出量を最大化し、一方、顧客はショッピングエリアのオープン施設間での支出能力の分配を戦略的に決定する。 私たちは、従来のロードバランシングと同じような自然なクライアントの振る舞いに注目しています。 当社の利己的なクライアントは、サービスを受けるための最大待ち時間を最小にするディストリビューションを目標としています。 サブゲーム完全平衡が存在し、任意のクライアント動作を持つより広いクラスのゲームにさえ耐えうる、アナーキーの価格と安定の価格にほぼ一定の境界を与えることを示す。 施設とクライアントは相互に影響しあうため,立地選択時の利己的なクライアントの行動を予測することが重要である。 このために,平衡の効率的なチェックを示唆する効率的なアルゴリズムを提案する。 最後に、社会的に最適な施設配置の計算はNPハードであり、この結果が全てのクライアント重量分布に成り立つことを示す。

We consider non-cooperative facility location games where both facilities and clients act strategically and heavily influence each other. This contrasts established game-theoretic facility location models with non-strategic clients that simply select the closest opened facility. In our model, every facility location has a set of attracted clients and each client has a set of shopping locations and a weight that corresponds to her spending capacity. Facility agents selfishly select a location for opening their facility to maximize the attracted total spending capacity, whereas clients strategically decide how to distribute their spending capacity among the opened facilities in their shopping range. We focus on a natural client behavior similar to classical load balancing: our selfish clients aim for a distribution that minimizes their maximum waiting times for getting serviced, where a facility's waiting time corresponds to its total attracted client weight. We show that subgame perfect equilibria exist and give almost tight constant bounds on the Price of Anarchy and the Price of Stability, which even hold for a broader class of games with arbitrary client behavior. Since facilities and clients influence each other, it is crucial for the facilities to anticipate the selfish clients' behavior when selecting their location. For this, we provide an efficient algorithm that also implies an efficient check for equilibrium. Finally, we show that computing a socially optimal facility placement is NP-hard and that this result holds for all feasible client weight distributions.
翻訳日:2021-05-05 12:49:56 公開日:2021-05-04
# 行政における人工知能利用のアカウンタビリティに向けて

Towards Accountability in the Use of Artificial Intelligence for Public Administrations ( http://arxiv.org/abs/2105.01434v1 )

ライセンス: Link先を確認
Michele Loi and Matthias Spielkamp(参考訳) 我々は、タスクが計算駆動システムに委譲されるとき、分散責任、受入、無知による受入という現象は不完全なデリゲーションの例であると主張する。 不完全な代表団は人的説明責任に挑戦する。 公的な透明性を通じた直接的説明責任と、公的な組織における監査人への透明性による間接的説明責任の両方が、民主的な自治の原則によるデオントロジーの問題として、倫理的にも倫理的にも必要である。 We analyze the regulatory content of 16 guideline documents about the use of AI in the public sector, by mapping their requirements to those of our philosophical account of accountability, and conclude that while some guidelines refer to processes that amount to auditing, it seems that the debate would benefit from more clarity about the nature of the entitlement of auditors and the goals of auditing, also in order to develop ethically meaningful standards with respect to which different forms of auditing can be evaluated and compared.

We argue that the phenomena of distributed responsibility, induced acceptance, and acceptance through ignorance constitute instances of imperfect delegation when tasks are delegated to computationally-driv en systems. Imperfect delegation challenges human accountability. We hold that both direct public accountability via public transparency and indirect public accountability via transparency to auditors in public organizations can be both instrumentally ethically valuable and required as a matter of deontology from the principle of democratic self-government. We analyze the regulatory content of 16 guideline documents about the use of AI in the public sector, by mapping their requirements to those of our philosophical account of accountability, and conclude that while some guidelines refer to processes that amount to auditing, it seems that the debate would benefit from more clarity about the nature of the entitlement of auditors and the goals of auditing, also in order to develop ethically meaningful standards with respect to which different forms of auditing can be evaluated and compared.
翻訳日:2021-05-05 12:49:32 公開日:2021-05-04
# HASCO:テンソル計算のためのアジャイルハードウェアとソフトウェア共設計を目指して

HASCO: Towards Agile HArdware and Software CO-design for Tensor Computation ( http://arxiv.org/abs/2105.01585v1 )

ライセンス: Link先を確認
Qingcheng Xiao, Size Zheng, Bingzhe Wu, Pengcheng Xu, Xuehai Qian, Yun Liang(参考訳) テンソル計算は、大量のデータと計算の操作のために、従来の汎用コンピューティングデバイスを圧倒する。 彼らはハードウェアアクセラレーションとソフトウェアマッピングの両方からなる総合的なソリューションを求めている。 ハードウェア/ソフトウェア(HW/SW)の共同設計は、ハードウェアとソフトウェアを協調的に最適化し、高品質なソリューションを生成する。 共同設計フローには2つの大きな課題がある。 まず、テンソル計算を分割し、性能とエネルギー効率に異なる影響を与える複数の方法が存在する。 さらに、ハードウェア部分は空間加速器の固有の機能によって実装されなければならない。 プログラマが分割メソッドを手動で特定し、分析するのは困難です。 第2に、HW/SWパーティショニング、ハードウェア最適化、ソフトウェア最適化からなる全体的な設計空間は巨大である。 設計空間を効率的に探索する必要がある。 そこで本研究では,高密度テンソル計算に効率的なHW/SWソリューションを提供するアジャイル共同設計手法HASCOを提案する。 我々はテンソル構文木を統一IRとして使用し、分割法を識別するための2段階のアプローチを開発した。 各手法について、HASCOはハードウェアとソフトウェアの設計空間を探索する。 目的と評価コストが異なるため,探索のための異なるアルゴリズムを提案する。 具体的には,ハードウェア最適化のための多目的ベイズ最適化アルゴリズムを提案する。 ソフトウェア最適化にはヒューリスティックアルゴリズムとQ-ラーニングアルゴリズムを用いる。 実験により、HASCOはハードウェアとソフトウェアを別々に開発するよりも、HW/SW共同設計により1.25倍から1.44倍のレイテンシ低減を実現している。

Tensor computations overwhelm traditional general-purpose computing devices due to the large amounts of data and operations of the computations. They call for a holistic solution composed of both hardware acceleration and software mapping. Hardware/software (HW/SW) co-design optimizes the hardware and software in concert and produces high-quality solutions. There are two main challenges in the co-design flow. First, multiple methods exist to partition tensor computation and have different impacts on performance and energy efficiency. Besides, the hardware part must be implemented by the intrinsic functions of spatial accelerators. It is hard for programmers to identify and analyze the partitioning methods manually. Second, the overall design space composed of HW/SW partitioning, hardware optimization, and software optimization is huge. The design space needs to be efficiently explored. To this end, we propose an agile co-design approach HASCO that provides an efficient HW/SW solution to dense tensor computation. We use tensor syntax trees as the unified IR, based on which we develop a two-step approach to identify partitioning methods. For each method, HASCO explores the hardware and software design spaces. We propose different algorithms for the explorations, as they have distinct objectives and evaluation costs. Concretely, we develop a multi-objective Bayesian optimization algorithm to explore hardware optimization. For software optimization, we use heuristic and Q-learning algorithms. Experiments demonstrate that HASCO achieves a 1.25X to 1.44X latency reduction through HW/SW co-design compared with developing the hardware and software separately.
翻訳日:2021-05-05 12:49:17 公開日:2021-05-04
# 多エージェント最小容量計画のための多項式時間アルゴリズム

Polynomial-Time Algorithms for Multi-Agent Minimal-Capacity Planning ( http://arxiv.org/abs/2105.01225v1 )

ライセンス: Link先を確認
Murat Cubuktepe, Franti\v{s}ek Blahoudek, and Ufuk Topcu(参考訳) 共有タスクを実現するために協力する自律エージェントの資源容量を最小化する問題について検討する。 より具体的には、確率的な環境でリソース制約の下で動作し、共通の目標を共有する、均質なエージェントのチームのためのハイレベルな計画を考える。 エージェントの動力学を消費マルコフ決定プロセスによって定式化する。 消費マルコフ決定過程において、エージェントは限られた容量の資源を有する。 エージェントの各アクションは、リソースの一部を消費することができる。 疲労を避けるため、エージェントは指定されたリロード状態においてリソースをフル容量に補充することができる。 リソース容量はエージェントの能力を制限する。 目的は、ターゲットロケーションをエージェントに割り当てることであり、各エージェントは、割り当てられたターゲットロケーションのサブセットを何度も訪問する責任のみを負う。 さらに、割り当ては、エージェントが最小限のリソース容量でタスクを実行できるようにする必要があります。 我々は、最小の能力を持つエージェントのチームの目標割り当てを見つける問題を、同等のグラフ理論的問題に還元する。 我々は,このグラフ問題をエージェント数,目標位置,消費マルコフ決定過程のサイズにおいて,emph{polynomial} である時間内に解くアルゴリズムを開発した。 無人水中車両数百台が確率的海流のある環境中数百箇所をモニタリングするシナリオにおいて、アルゴリズムの適用性とスケーラビリティを実証する。

We study the problem of minimizing the resource capacity of autonomous agents cooperating to achieve a shared task. More specifically, we consider high-level planning for a team of homogeneous agents that operate under resource constraints in stochastic environments and share a common goal: given a set of target locations, ensure that each location will be visited infinitely often by some agent almost surely. We formalize the dynamics of agents by consumption Markov decision processes. In a consumption Markov decision process, the agent has a resource of limited capacity. Each action of the agent may consume some amount of the resource. To avoid exhaustion, the agent can replenish its resource to full capacity in designated reload states. The resource capacity restricts the capabilities of the agent. The objective is to assign target locations to agents, and each agent is only responsible for visiting the assigned subset of target locations repeatedly. Moreover, the assignment must ensure that the agents can carry out their tasks with minimal resource capacity. We reduce the problem of finding target assignments for a team of agents with the lowest possible capacity to an equivalent graph-theoretical problem. We develop an algorithm that solves this graph problem in time that is \emph{polynomial} in the number of agents, target locations, and size of the consumption Markov decision process. We demonstrate the applicability and scalability of the algorithm in a scenario where hundreds of unmanned underwater vehicles monitor hundreds of locations in environments with stochastic ocean currents.
翻訳日:2021-05-05 12:48:59 公開日:2021-05-04
# COVID-Net CT-S:胸部CT画像を用いた3次元畳み込みニューラルネットワークによる重症度評価

COVID-Net CT-S: 3D Convolutional Neural Network Architectures for COVID-19 Severity Assessment using Chest CT Images ( http://arxiv.org/abs/2105.01284v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Saad Abbasi, Mohammad Javad Shafiee, Alexander Wong(参考訳) 新型コロナウイルスのパンデミックによって引き起こされる健康と社会経済的困難は、世界中で大きな緊張を引き起こし続けている。 特に、この異常な数の増加は、世界中の医療システムに大きな負担をかけている。 新型コロナウイルス陽性患者の治療と管理における重要なステップは重症度評価であり、肺疾患の重症度の異なる段階において微妙さが評価される専門家にとっても難しい。 この課題に触発され、COVID-19感染による肺疾患の重症度を予測するための深層畳み込みニューラルネットワークであるCOVID-Net CT-Sを導入する。 より具体的には、3D残像設計を利用して、新型コロナウイルスの肺疾患の重症度を特徴付ける容積的な視覚指標を学習する。 中国国立バイオ情報センター (cncb) が収集した患者コホートを用いた実験の結果, 提案するcovid-19-net ct-sネットワークは, 容積的特徴を活用することで, 従来の2次元視覚特徴を学習・活用した重症度評価ネットワークと比較して, 重症度評価性能が著しく向上することが示された。

The health and socioeconomic difficulties caused by the COVID-19 pandemic continues to cause enormous tensions around the world. In particular, this extraordinary surge in the number of cases has put considerable strain on health care systems around the world. A critical step in the treatment and management of COVID-19 positive patients is severity assessment, which is challenging even for expert radiologists given the subtleties at different stages of lung disease severity. Motivated by this challenge, we introduce COVID-Net CT-S, a suite of deep convolutional neural networks for predicting lung disease severity due to COVID-19 infection. More specifically, a 3D residual architecture design is leveraged to learn volumetric visual indicators characterizing the degree of COVID-19 lung disease severity. Experimental results using the patient cohort collected by the China National Center for Bioinformation (CNCB) showed that the proposed COVID-Net CT-S networks, by leveraging volumetric features, can achieve significantly improved severity assessment performance when compared to traditional severity assessment networks that learn and leverage 2D visual features to characterize COVID-19 severity.
翻訳日:2021-05-05 12:47:57 公開日:2021-05-04
# 建設ロボットにおける自己改善セマンティック知覚

Self-Improving Semantic Perception on a Construction Robot ( http://arxiv.org/abs/2105.01595v1 )

ライセンス: Link先を確認
Hermann Blum, Francesco Milano, Ren\'e Zurbr\"ugg, Roland Siegward, Cesar Cadena, Abel Gawel(参考訳) 本稿では,展開中の意味認識を改善するロボットシステムを提案する。 大規模データセットからセマンティクスを学習し,固定モデルをデプロイするという確立したアプローチとは対照的に,セマンティクスモデルがロボット上で継続的に更新され,展開環境に適応するフレームワークを提案する。 そこで本システムは,マルチセンサ知覚と局所化を密結合し,自己教師付き擬似ラベルから継続的に学習する。 本システムは,建物モデルに対する乱雑な環境のLiDARスキャンを登録する建設ロボットの文脈で検討する。 我々の実験は、ロボットのセマンティックな知覚が展開中にどのように改善され、それがLiDARスキャンの散乱をフィルターすることで3Dローカライゼーションにどのように変換されるかを示している。 さらに,このような連続学習環境が成立することを忘れてしまうリスクについても検討する。 メモリリプレイは、忘れることを減らす効果的な手段であり、異なる環境を切り替えてもロボットシステムがいかに改善できるかを示す。 本システムでは, 固定モデルの展開に比べて, セグメンテーションの60%, ローカライゼーションの10%が向上し, さらなる環境に適応しつつ, この改善を維持できる。

We propose a novel robotic system that can improve its semantic perception during deployment. Contrary to the established approach of learning semantics from large datasets and deploying fixed models, we propose a framework in which semantic models are continuously updated on the robot to adapt to the deployment environments. Our system therefore tightly couples multi-sensor perception and localisation to continuously learn from self-supervised pseudo labels. We study this system in the context of a construction robot registering LiDAR scans of cluttered environments against building models. Our experiments show how the robot's semantic perception improves during deployment and how this translates into improved 3D localisation by filtering the clutter out of the LiDAR scan, even across drastically different environments. We further study the risk of catastrophic forgetting that such a continuous learning setting poses. We find memory replay an effective measure to reduce forgetting and show how the robotic system can improve even when switching between different environments. On average, our system improves by 60% in segmentation and 10% in localisation compared to deployment of a fixed model, and it keeps this improvement up while adapting to further environments.
翻訳日:2021-05-05 12:47:34 公開日:2021-05-04
# 高次元リスク予測のためのサロゲート支援半教師付き推論

Surrogate Assisted Semi-supervised Inference for High Dimensional Risk Prediction ( http://arxiv.org/abs/2105.01264v1 )

ライセンス: Link先を確認
Jue Hou, Zijian Guo and Tianxi Cai(参考訳) EHRデータを用いたリスクモデリングは、疾患結果の直接的観察の欠如と、候補予測器の高次元性のために困難である。 本稿では,高次元予測器を用いたリスクモデリングのためのサロゲート支援半教師付き学習(SAS)アプローチを開発し,候補予測器の非ラベルデータと結果のサロゲートデータと,アノテートされた結果を持つ小さなラベル付きデータを利用する。 SASプロシージャは、サロゲートと候補予測器から情報を借りて、モーメント条件のスパース作業計算モデルを介して未観測結果をインプットし、インプットモデルにおける誤特定に対する堅牢性及び1ステップの偏差補正を実現し、予測リスクの間隔推定を可能にする。 本手法は,リスク予測モデルが密集し,リスクモデルが不特定化されている場合でも,高次元作業モデルから得られる予測リスクの正当な推論を提供する。 本稿では,既存の教師付き手法と比較してSSLアプローチの優位性を示すため,広範囲なシミュレーション研究を行う。 EHRバイオバンクコホートを用いた2型糖尿病の遺伝的リスク予測に本手法を適用した。

Risk modeling with EHR data is challenging due to a lack of direct observations on the disease outcome, and the high dimensionality of the candidate predictors. In this paper, we develop a surrogate assisted semi-supervised-lear ning (SAS) approach to risk modeling with high dimensional predictors, leveraging a large unlabeled data on candidate predictors and surrogates of outcome, as well as a small labeled data with annotated outcomes. The SAS procedure borrows information from surrogates along with candidate predictors to impute the unobserved outcomes via a sparse working imputation model with moment conditions to achieve robustness against mis-specification in the imputation model and a one-step bias correction to enable interval estimation for the predicted risk. We demonstrate that the SAS procedure provides valid inference for the predicted risk derived from a high dimensional working model, even when the underlying risk prediction model is dense and the risk model is mis-specified. We present an extensive simulation study to demonstrate the superiority of our SSL approach compared to existing supervised methods. We apply the method to derive genetic risk prediction of type-2 diabetes mellitus using a EHR biobank cohort.
翻訳日:2021-05-05 12:47:15 公開日:2021-05-04
# レコメンデーションシステムの効率的なトレーニングのための代替モデル成長とプルーニング

Alternate Model Growth and Pruning for Efficient Training of Recommendation Systems ( http://arxiv.org/abs/2105.01064v1 )

ライセンス: Link先を確認
Xiaocong Du, Bhargav Bhushanam, Jiecao Yu, Dhruv Choudhary, Tianxiang Gao, Sherman Wong, Louis Feng, Jongsoo Park, Yu Cao, Arun Kejariwal(参考訳) 大規模なディープラーニングレコメンデーションシステムは、モデルキャパシティ(すなわちモデルキャパシティ)を増大させることで、顕著な利益をもたらしている。 より広く、より深いニューラルネットワーク) しかし、大きなトレーニングコストとインフラコストが伴う。 モデルプルーニングは、冗長なパラメータを取り除いてディープニューラルネットワークの計算オーバーヘッドを削減する効果的な手法である。 しかし、最近のレコメンデーションシステムは、ビッグデータの処理が要求されるため、モデルキャパシティに渇いている。 したがって、推奨モデルを大規模にプルーニングすると、モデルのキャパシティが小さくなり、精度が低下する。 モデル容量を犠牲にすることなく計算コストを削減するため,学習過程でモデル成長と刈り取りを交互に行う動的訓練方式を提案する。 本手法は,オフライントレーニングの終了時にモデル容量を損なうことなく計算コストを削減するために構造化スパーシフィケーションを利用する。 私たちの知る限りでは、トレーニングコストを削減すべく、構造力学を大規模にレコメンデーションシステムに適用するための詳細な実験と議論を、これが初めて提供する。 提案手法は,オープンソースのディープラーニングレコメンデーションモデル(DLRM)と最先端の産業規模生産モデルを用いて検証する。

Deep learning recommendation systems at scale have provided remarkable gains through increasing model capacity (i.e. wider and deeper neural networks), but it comes at significant training cost and infrastructure cost. Model pruning is an effective technique to reduce computation overhead for deep neural networks by removing redundant parameters. However, modern recommendation systems are still thirsty for model capacity due to the demand for handling big data. Thus, pruning a recommendation model at scale results in a smaller model capacity and consequently lower accuracy. To reduce computation cost without sacrificing model capacity, we propose a dynamic training scheme, namely alternate model growth and pruning, to alternatively construct and prune weights in the course of training. Our method leverages structured sparsification to reduce computational cost without hurting the model capacity at the end of offline training so that a full-size model is available in the recurring training stage to learn new data in real-time. To the best of our knowledge, this is the first work to provide in-depth experiments and discussion of applying structural dynamics to recommendation systems at scale to reduce training cost. The proposed method is validated with an open-source deep-learning recommendation model (DLRM) and state-of-the-art industrial-scale production models.
翻訳日:2021-05-05 12:46:16 公開日:2021-05-04
# MU-SIMOジョイントトランスミッタのエンドツーエンド学習とフェードチャネルにおける非コヒーレントレシーバ設計

End-to-End Learning for Uplink MU-SIMO Joint Transmitter and Non-Coherent Receiver Design in Fading Channels ( http://arxiv.org/abs/2105.01260v1 )

ライセンス: Link先を確認
Songyan Xue, Yi Ma, Na Yi(参考訳) 本稿では,マルチユーザ・シングルインプット・マルチインプット・マルチアウトプット(MU-SIMO)と非コヒーレント・レシーバ設計(JTRD)のための新しいエンドツーエンド学習手法であるJTRD-Netを提案する。 基本的な考え方は、送信側と受信側の両方で従来の通信モジュールを置き換えるために、ニューラルネットワーク(anns)を使用することにある。 より具体的には、送信側は、マルチユーザ波形設計に責任を持つ並列線形層のグループとしてモデル化され、非コヒーレント受信機は、マルチユーザ検出(MUD)機能を提供するために、ディープフィードフォワードニューラルネットワーク(DFNN)によって形成される。 JTRD-Net全体は、ディープラーニングを通じてチャネル統計に適応するように、エンドツーエンドでトレーニングすることができる。 トレーニング後、JTRD-Netは、チャネル状態情報(CSI)のレベルを必要とせずに、非コヒーレントな方法で効率的に動作することができる。 ネットワークアーキテクチャに加えて、JTRD-Netに対して新しい重み初期化手法、すなわち対称区間初期化を提案する。 対称区間初期化は従来の方法(例えば)よりも優れていた。 Xavier の初期化) ユーザ間のバランスの取れた収束率。 シミュレーションの結果,提案したJTRD-Netアプローチは,ベースライン方式の信頼性とスケーラビリティの両面において大きな利点があることがわかった。 複雑なガウスチャネルと空間的関連チャネル。

In this paper, a novel end-to-end learning approach, namely JTRD-Net, is proposed for uplink multiuser single-input multiple-output (MU-SIMO) joint transmitter and non-coherent receiver design (JTRD) in fading channels. The basic idea lies in the use of artificial neural networks (ANNs) to replace traditional communication modules at both transmitter and receiver sides. More specifically, the transmitter side is modeled as a group of parallel linear layers, which are responsible for multiuser waveform design; and the non-coherent receiver is formed by a deep feed-forward neural network (DFNN) so as to provide multiuser detection (MUD) capabilities. The entire JTRD-Net can be trained from end to end to adapt to channel statistics through deep learning. After training, JTRD-Net can work efficiently in a non-coherent manner without requiring any levels of channel state information (CSI). In addition to the network architecture, a novel weight-initializatio n method, namely symmetrical-interval initialization, is proposed for JTRD-Net. It is shown that the symmetrical-interval initialization outperforms the conventional method (e.g. Xavier initialization) in terms of well-balanced convergence-rate among users. Simulation results show that the proposed JTRD-Net approach takes significant advantages in terms of reliability and scalability over baseline schemes on both i.i.d. complex Gaussian channels and spatially-correlated channels.
翻訳日:2021-05-05 12:45:41 公開日:2021-05-04
# 信号オートマトンと隠れマルコフモデル

Signal automata and hidden Markov models ( http://arxiv.org/abs/2105.01341v1 )

ライセンス: Link先を確認
Teodor Knapik (ISEA)(参考訳) 時系列から動的隠れマルコフモデルを推定するための一般的な手法を提案する。 合理的な仮説では、モデルは新しい測定が到着するたびに一定時間更新される。

A generic method for inferring a dynamical hidden Markov model from a time series is proposed. Under reasonable hypothesis, the model is updated in constant time whenever a new measurement arrives.
翻訳日:2021-05-05 12:45:13 公開日:2021-05-04
# マルチアーマッド帯域幅探索のための最適アルゴリズム

Optimal Algorithms for Range Searching over Multi-Armed Bandits ( http://arxiv.org/abs/2105.01390v1 )

ライセンス: Link先を確認
Siddharth Barman, Ramakrishnan Krishnamurthy, Saladi Rahul(参考訳) 本稿では,マルチアームバンディット(MAB)のレンジ探索問題について検討する。 基本形において、範囲探索は(実数直線上の)点の集合と(実数)区間の集まりを入力として考える。 ここで、各特定の点について、関連する重みを持ち、問題の目的は、与えられた間隔ごとに最大重み点を見つけることである。 現在の作業は、確率的な重みで範囲探索に対処している: 各ポイントは(サンプルアクセスを認める)アームに対応し、ポイントの重みは基礎となる分布の(未知の)平均である。 このmab設定では、与えられた間隔内で高い確率で最適に近いアーム、すなわちpac保証(おそらくほぼ正しい)を求めるサンプル効率のよいアルゴリズムを開発する。 また,各点の重みが多次元ベクトルである一般化のためのアルゴリズムも提供する。 アルゴリズムのサンプルの複雑さは、特に与えられた区間の最適打撃集合のサイズに依存する。 最後に、得られたサンプルの複雑さが本質的に密であることを示す下界を確立する。 私たちの結果は、MAB設定における幾何学的構成、特に打撃集合の重要性を強調します。

This paper studies a multi-armed bandit (MAB) version of the range-searching problem. In its basic form, range searching considers as input a set of points (on the real line) and a collection of (real) intervals. Here, with each specified point, we have an associated weight, and the problem objective is to find a maximum-weight point within every given interval. The current work addresses range searching with stochastic weights: each point corresponds to an arm (that admits sample access) and the point's weight is the (unknown) mean of the underlying distribution. In this MAB setup, we develop sample-efficient algorithms that find, with high probability, near-optimal arms within the given intervals, i.e., we obtain PAC (probably approximately correct) guarantees. We also provide an algorithm for a generalization wherein the weight of each point is a multi-dimensional vector. The sample complexities of our algorithms depend, in particular, on the size of the optimal hitting set of the given intervals. Finally, we establish lower bounds proving that the obtained sample complexities are essentially tight. Our results highlight the significance of geometric constructs -- specifically, hitting sets -- in our MAB setting.
翻訳日:2021-05-05 12:45:10 公開日:2021-05-04
# 5g/6g戦術ネットワークのためのインテリジェントゼロ信頼アーキテクチャ--原則,課題,機械学習の役割

Intelligent Zero Trust Architecture for 5G/6G Tactical Networks: Principles, Challenges, and the Role of Machine Learning ( http://arxiv.org/abs/2105.01478v1 )

ライセンス: Link先を確認
Keyvan Ramezanpour and Jithin Jagannath(参考訳) 本稿では,戦術的・商業的両方の用途において,次世代通信ネットワーク(5g/6g)にゼロ信頼(zt)原則を統合する必要性について論じる。 課題を強調し,信頼できないコンポーネントを持つ5G/6Gネットワークのセキュリティフレームワークとして,インテリジェントゼロ信頼アーキテクチャ(i-ZTA)の概念を導入する。 ネットワーク仮想化、SDN(Software-Defined Network)、SBA(Service-based Architecture)は5Gネットワークの重要な実現要因であるが、信頼できない環境での運用もネットワークの重要な特徴となっている。 さらに、マルチラジオアクセス技術(RAT)における大量のデバイスへのシームレスな接続により、情報基盤の攻撃面が拡大した。 動的に信頼できない環境でのネットワーク保証は、既存の静的セキュリティフレームワーク以上の革命的アーキテクチャを要求する。 本稿では、信頼できないネットワークにおいて情報セキュリティを提供するため、現代の人工知能(AI)アルゴリズムを開発できるi-ZTAのアーキテクチャ設計について述べる。 本稿では,ネットワークアセットのセキュリティ状態のリアルタイムモニタリング,個々のアクセス要求のリスク評価,MEDコンポーネントと呼ばれる動的信頼アルゴリズムを用いたアクセス認可の決定など,ZTのキーとなる原則を紹介する。 想定されたアーキテクチャは、5gネットワークの3gpp仕様に似たsbaベースの設計を採用し、open radio access network (o-ran)アーキテクチャを適切なリアルタイムエンジンとネットワークインターフェースで活用し、必要な機械学習データを収集する。 i-ZTAはまた、5Gのマルチアクセスエッジコンピューティング(MEC)技術をリソース制約デバイスのためのインテリジェントなMEDコンポーネントのキーイネーラとして活用することが期待されている。

In this position paper, we discuss the critical need for integrating zero trust (ZT) principles into next-generation communication networks (5G/6G) for both tactical and commercial applications. We highlight the challenges and introduce the concept of an intelligent zero trust architecture (i-ZTA) as a security framework in 5G/6G networks with untrusted components. While network virtualization, software-defined networking (SDN), and service-based architectures (SBA) are key enablers of 5G networks, operating in an untrusted environment has also become a key feature of the networks. Further, seamless connectivity to a high volume of devices in multi-radio access technology (RAT) has broadened the attack surface on information infrastructure. Network assurance in a dynamic untrusted environment calls for revolutionary architectures beyond existing static security frameworks. This paper presents the architectural design of an i-ZTA upon which modern artificial intelligence (AI) algorithms can be developed to provide information security in untrusted networks. We introduce key ZT principles as real-time Monitoring of the security state of network assets, Evaluating the risk of individual access requests, and Deciding on access authorization using a dynamic trust algorithm, called MED components. The envisioned architecture adopts an SBA-based design, similar to the 3GPP specification of 5G networks, by leveraging the open radio access network (O-RAN) architecture with appropriate real-time engines and network interfaces for collecting necessary machine learning data. The i-ZTA is also expected to exploit the multi-access edge computing (MEC) technology of 5G as a key enabler of intelligent MED components for resource-constraint devices.
翻訳日:2021-05-05 12:44:53 公開日:2021-05-04
# citadel: sgxによる協調学習のためのデータプライバシ保護とモデル機密性

Citadel: Protecting Data Privacy and Model Confidentiality for Collaborative Learning with SGX ( http://arxiv.org/abs/2105.01281v1 )

ライセンス: Link先を確認
Chengliang Zhang, Junzhe Xia, Baichen Yang, Huancheng Puyang, Wei Wang, Ruichuan Chen, Istemi Ekin Akkus, Paarijaat Aditya, Feng Yan(参考訳) 機械学習(ML)の進歩とその認識の高まりにより、データを所有しているがMLの専門知識(データ所有者)を持たない多くの組織は、データをプールし、専門知識を持っているが、真に一般化可能なモデル(モデル所有者)をトレーニングするために、さまざまなソースのデータを必要としている人々と協力したいと考えている。 このようなコラボレーティブMLでは、データ所有者はトレーニングデータのプライバシ保護を希望し、モデル所有者はモデルの機密性と知的財産を含む可能性のあるトレーニング方法を望む。 しかし、フェデレーション付き学習や分割学習のような既存のプライベートMLソリューションは、データとモデル所有者の両方のプライバシ要件を同時に満たすことはできない。 本稿では,Intel SGXの助けを借りて,信頼できないインフラストラクチャにおいてデータ所有者とモデル所有者の両方のプライバシを保護する,スケーラブルな協調型MLシステムであるCitadelを提案する。 Citadelは、データオーナに代わって実行される複数のトレーニングエンクレーブと、モデルオーナのためにアグリゲータエンクレーブに分散トレーニングを実行する。 Citadelはさらに、ゼロサムマスキングと階層的なアグリゲーションによって、これらのエンクレーブ間の強力な情報バリアを確立し、協調トレーニング中のデータ/モデル漏洩を防止する。 既存のSGX保護トレーニングシステムと比較して、Citadelはより優れたスケーラビリティとより強力なプライバシ保証を実現する。 さまざまなMLモデルによるクラウドデプロイメントは、SGXによる1.73倍のスローダウンで、Citadelを多数のエンクレーブにスケールすることを示している。

With the advancement of machine learning (ML) and its growing awareness, many organizations who own data but not ML expertise (data owner) would like to pool their data and collaborate with those who have expertise but need data from diverse sources to train truly generalizable models (model owner). In such collaborative ML, the data owner wants to protect the privacy of its training data, while the model owner desires the confidentiality of the model and the training method which may contain intellectual properties. However, existing private ML solutions, such as federated learning and split learning, cannot meet the privacy requirements of both data and model owners at the same time. This paper presents Citadel, a scalable collaborative ML system that protects the privacy of both data owner and model owner in untrusted infrastructures with the help of Intel SGX. Citadel performs distributed training across multiple training enclaves running on behalf of data owners and an aggregator enclave on behalf of the model owner. Citadel further establishes a strong information barrier between these enclaves by means of zero-sum masking and hierarchical aggregation to prevent data/model leakage during collaborative training. Compared with the existing SGX-protected training systems, Citadel enables better scalability and stronger privacy guarantees for collaborative ML. Cloud deployment with various ML models shows that Citadel scales to a large number of enclaves with less than 1.73X slowdown caused by SGX.
翻訳日:2021-05-05 12:43:56 公開日:2021-05-04
# 深い拡張されたフィードバックコード

Deep Extended Feedback Codes ( http://arxiv.org/abs/2105.01365v1 )

ライセンス: Link先を確認
Anahid Robert Safavi, Alberto G. Perotti, Branislav M. Popovic, Mahdi Boloursaz Mashhadi, Deniz Gunduz(参考訳) 本稿では,dnn(deep-neural-net work)ベースのフィードバック付きチャネル用誤り訂正エンコーダアーキテクチャであるdeep extended feedback(def)について述べる。 defアーキテクチャのエンコーダは、メッセージに基づいて生成されたパリティシンボルのシーケンスに続いて情報メッセージを送信するとともに、フィードバックチャネルを介して送信者に送信された過去のフォワードチャネル出力の観察を行う。 DEF符号はいくつかの方法でDeepcode [1]を一般化する: 誤り訂正能力を向上させるために、より長い時間間隔で前方チャネル出力観測に基づいてパリティシンボルを生成し、スペクトル効率を高めるために高次変調フォーマットをエンコーダに配置する。 性能評価では、DEF符号はフィードバックのあるチャンネルの他のDNN符号よりも優れた性能を示す。

A new deep-neural-network (DNN) based error correction encoder architecture for channels with feedback, called Deep Extended Feedback (DEF), is presented in this paper. The encoder in the DEF architecture transmits an information message followed by a sequence of parity symbols which are generated based on the message as well as the observations of the past forward channel outputs sent to the transmitter through a feedback channel. DEF codes generalize Deepcode [1] in several ways: parity symbols are generated based on forward-channel output observations over longer time intervals in order to provide better error correction capability; and high-order modulation formats are deployed in the encoder so as to achieve increased spectral efficiency. Performance evaluations show that DEF codes have better performance compared to other DNN-based codes for channels with feedback.
翻訳日:2021-05-05 12:43:29 公開日:2021-05-04
# オンライン転校学習 : 負の転校と事前知識の効果

Online Transfer Learning: Negative Transfer and Effect of Prior Knowledge ( http://arxiv.org/abs/2105.01445v1 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) 転送学習は、関連するタスクの問題を解決するために、1つのタスクからの知識を利用する機械学習パラダイムである。 一方、あるタスクからの知識が関連する問題を解決するのに有用であると考えられる。 一方、もし適切に実行されていなければ、転送学習アルゴリズムは、それを改善するのではなく、実際に学習性能を損なう可能性があることも認識されている。 本稿では,対象サンプルが順次到着する間,ソースサンプルがオフラインで提供されるオンライン転送学習問題について検討する。 我々は,オンライン転送学習問題の期待後悔を定義し,情報理論量を用いて後悔の上限を与える。 また,サンプルサイズが大きくなると,境界の正確な表現が得られる。 例えば、導出境界は小さなサンプルサイズであっても正確である。 さらに、得られた境界は、我々の定式化における転校学習に対する事前知識の効果についての貴重な洞察を与える。 特に、負の移動が起こる条件を形式的に特徴付ける。

Transfer learning is a machine learning paradigm where the knowledge from one task is utilized to resolve the problem in a related task. On the one hand, it is conceivable that knowledge from one task could be useful for solving a related problem. On the other hand, it is also recognized that if not executed properly, transfer learning algorithms could in fact impair the learning performance instead of improving it - commonly known as "negative transfer". In this paper, we study the online transfer learning problems where the source samples are given in an offline way while the target samples arrive sequentially. We define the expected regret of the online transfer learning problem and provide upper bounds on the regret using information-theoreti c quantities. We also obtain exact expressions for the bounds when the sample size becomes large. Examples show that the derived bounds are accurate even for small sample sizes. Furthermore, the obtained bounds give valuable insight on the effect of prior knowledge for transfer learning in our formulation. In particular, we formally characterize the conditions under which negative transfer occurs.
翻訳日:2021-05-05 12:43:16 公開日:2021-05-04
# 微分可能な周囲空間と計量作用素を持つリーマン幾何学

Riemannian Geometry with differentiable ambient space and metric operator ( http://arxiv.org/abs/2105.01583v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) リーマン幾何学はリーマン多様体の接バンドル $\mathcal{M}$ を自明なバンドル $\mathcal{M} \times \mathcal{E}$ の部分バンドルと同一視することにより研究できることを示し、ユークリッド空間 $\mathcal{E}$ に微分的に $\mathcal{M}$ を埋め込むことで得られる。 そのような埋め込みを考えると、$\mathcal{m}$ の計量テンソルを$\mathcal{e}$ に作用する(正定値)作用素値関数に拡張でき、埋め込みのアンビエント構造を与えることができる。 局所座標におけるクリストッフェル記号とリーマン曲率の公式は、この設定に単純な一般化をもたらす。 リーマンの沈み込み $\mathfrak{q}:\mathcal{m}\to \mathcal{b}$ に対して、埋め込み多様体 $\mathcal{m}\subset \mathcal{e}$ からすると、沈み込みしたアンビエント構造を定義し、水平バンドル $\mathcal{h}\mathcal{m}$ への射影として表されるオニールテンソルとともに同様の公式を得る。 このフレームワークを用いて、二重接束 $\mathcal{T}\mathcal{T}\mathcal{M}$ と水平バンドル $\mathcal{T}\mathcal{H}\mathcal{M}$ の接点に対して、埋め込みおよび水中の環境構造を提供し、基底多様体の接束上の水平バンドルのファイバーを記述するとともに、正準フリップの概念を沈み込みケースに拡張する。 我々は、ヤコビ場の水平昇降の公式と、自然簡約同次空間のヤコビ場の新しい閉形式式を得る。 これらの二重接束上の自然測度、特に佐々木およびその他の自然測度を沈み込みの場合へ拡張する。 いくつかの多様体に対して明示的な計算を提供することで説明する。

We show Riemannian geometry could be studied by identifying the tangent bundle of a Riemannian manifold $\mathcal{M}$ with a subbundle of the trivial bundle $\mathcal{M} \times \mathcal{E}$, obtained by embedding $\mathcal{M}$ differentiably in a Euclidean space $\mathcal{E}$. Given such an embedding, we can extend the metric tensor on $\mathcal{M}$ to a (positive-definite) operator-valued function acting on $\mathcal{E}$, giving us an embedded ambient structure. The formulas for the Christoffel symbols and Riemannian curvature in local coordinates have simple generalizations to this setup. For a Riemannian submersion $\mathfrak{q}:\mathcal{M}\to \mathcal{B}$ from an embedded manifold $\mathcal{M}\subset \mathcal{E}$, we define a submersed ambient structure and obtain similar formulas, with the O'Neil tensor expressed in terms of the projection to the horizontal bundle $\mathcal{H}\mathcal{M}$. Using this framework, we provide the embedded and submersed ambient structures for the double tangent bundle $\mathcal{T}\mathcal{T}\mathcal{M}$ and the tangent of the horizontal bundle $\mathcal{T}\mathcal{H}\mathcal{M}$, describe the fibration of a horizontal bundle over the tangent bundle of the base manifold and extend the notion of a canonical flip to the submersion case. We obtain a formula for horizontal lifts of Jacobi fields, and a new closed-form formula for Jacobi fields of naturally reductive homogeneous spaces. We construct natural metrics on these double tangent bundles, in particular, extending Sasaki and other natural metrics to the submersion case. We illustrate by providing explicit calculations for several manifolds.
翻訳日:2021-05-05 12:43:03 公開日:2021-05-04
# (参考訳) 雑音スケール空間による生成逆ネットワークの安定化 [全文訳有]

Stabilization of generative adversarial networks via noisy scale-space ( http://arxiv.org/abs/2105.00220v2 )

ライセンス: CC BY 4.0
Kensuke Nakamura and Simon Korman and Byung-Woo Hong(参考訳) generative adversarial networks (gan) は、与えられた実数に基づく偽データを生成するフレームワークであるが、最適化では不安定である。 GANを安定させるために、ノイズは実と偽の分布の重なりを、大きなばらつきを犠牲にして拡大する。 データの平滑化はデータの次元性を低下させるが、GANが高周波情報を学ぶ能力を抑制する。 そこで本研究では,gansの周波数変動をランダムなデータに置き換えつつデータ分散を保ちながら,データにノイズの平滑化を再帰的に適用し,gansの粗大から細かなトレーニングを実現する,ノイズスケール空間と呼ばれるgansのデータ表現を提案する。 また,データの真の分布を可視化するアダマールベースを用いた合成データセットも提示する。 我々は,NSS-GANが画像の内容に依存しない場合の最先端の処理を行う主要なデータセットを用いて,ノイズスケール空間(NSS-GAN)を持つDCGANを実験した。

Generative adversarial networks (GAN) is a framework for generating fake data based on given reals but is unstable in the optimization. In order to stabilize GANs, the noise enlarges the overlap of the real and fake distributions at the cost of significant variance. The data smoothing may reduce the dimensionality of data but suppresses the capability of GANs to learn high-frequency information. Based on these observations, we propose a data representation for GANs, called noisy scale-space, that recursively applies the smoothing with noise to data in order to preserve the data variance while replacing high-frequency information by random data, leading to a coarse-to-fine training of GANs. We also present a synthetic data-set using the Hadamard bases that enables us to visualize the true distribution of data. We experiment with a DCGAN with the noise scale-space (NSS-GAN) using major data-sets in which NSS-GAN overtook state-of-the-arts in most cases independent of the image content.
翻訳日:2021-05-05 11:47:53 公開日:2021-05-04
# (参考訳) optorch: リソース制限環境に最適化されたディープラーニングアーキテクチャ [全文訳有]

OpTorch: Optimized deep learning architectures for resource limited environments ( http://arxiv.org/abs/2105.00619v2 )

ライセンス: CC BY 4.0
Salman Ahmed, Hammad Naveed(参考訳) ディープラーニングアルゴリズムは多くのブレークスルーを行い、実生活に様々な応用がある。 ディープラーニングパイプラインのデータと複雑性が増加するにつれて、計算リソースはボトルネックになる。 本稿では,時間と記憶を含む学習の複数の側面において,最適化されたディープラーニングパイプラインを提案する。 OpTorchは、ニューラルネットワークトレーニングの既存の実装の弱点を克服するために設計された機械学習ライブラリである。 OpTorchは、限られた計算リソースで複雑なニューラルネットワークをトレーニングする機能を提供する。 OpTorchは、Cifar-10とCifar-100データセットの既存のライブラリと同じ精度で、メモリ使用量を約50%削減した。 ディープラーニングパイプラインにおけるメモリ使用量に対する重みの影響についても検討する。 実験では、並列符号化復号とシーケンシャルチェックポイントは、既存のパイプラインと同様の精度を維持しながら、メモリと時間使用量を大幅に改善する。 OpTorch pythonパッケージはhttps://github.com/c brl-nuces/optorchで入手できる。

Deep learning algorithms have made many breakthroughs and have various applications in real life. Computational resources become a bottleneck as the data and complexity of the deep learning pipeline increases. In this paper, we propose optimized deep learning pipelines in multiple aspects of training including time and memory. OpTorch is a machine learning library designed to overcome weaknesses in existing implementations of neural network training. OpTorch provides features to train complex neural networks with limited computational resources. OpTorch achieved the same accuracy as existing libraries on Cifar-10 and Cifar-100 datasets while reducing memory usage to approximately 50%. We also explore the effect of weights on total memory usage in deep learning pipelines. In our experiments, parallel encoding-decoding along with sequential checkpoints results in much improved memory and time usage while keeping the accuracy similar to existing pipelines. OpTorch python package is available at available at https://github.com/c brl-nuces/optorch
翻訳日:2021-05-05 11:38:10 公開日:2021-05-04
# (参考訳) 深層学習モデルを用いたOracleの骨碑文の認識 [全文訳有]

Recognition of Oracle Bone Inscriptions by using Two Deep Learning Models ( http://arxiv.org/abs/2105.00777v2 )

ライセンス: CC BY 4.0
Yoshiyuki Fujikawa, Hengyi Li, Xuebin Yue, Aravinda C V, Amar Prabhu G, Lin Meng(参考訳) オラクルの骨碑文(OBI)には、約3000年前に中国で使われた世界最古の文字が含まれている。 古代の文学として、OBIは世界の歴史やキャラクターの評価などを理解するのに役立つ情報をたくさん保存しています。 しかし、OBIが発見されてから約120年が経ち、研究がほとんど行われておらず、老朽化によって碑文の信頼性が低下している。 そのため,文字の自動検出と認識が重要な課題となっている。 本稿では,文化遺産の保存・整理を支援するオンラインOBI認識システムを設計することを目的とする。 OBI認識のための2つのディープラーニングモデルを評価し、OBI認識のためにオンラインでアクセス可能なAPIを設計した。 最初の段階では、OBIの検出と認識に一度(YOLO)しか適用されない。 しかし、全OBIをYOLOで正確に検出できるわけではないため、画像中の未検出OBIを手動でトリミングすることで、次にMobileNetを用いて未検出OBIを認識する。 MobileNetはこの第2段階の認識に利用されており、精度、損失、時間消費の点で優れた性能でOBI認識に適したネットワークであることを示す10種類の最先端モデルの評価を行った。 アプリケーションプログラミングインタフェース(API)にシステムを設置し,OBI検出と認識のために開放した。

Oracle bone inscriptions (OBIs) contain some of the oldest characters in the world and were used in China about 3000 years ago. As an ancient form of literature, OBIs store a lot of information that can help us understand the world history, character evaluations, and more. However, as OBIs were found only discovered about 120 years ago, few studies have described them, and the aging process has made the inscriptions less legible. Hence, automatic character detection and recognition has become an important issue. This paper aims to design a online OBI recognition system for helping preservation and organization the cultural heritage. We evaluated two deep learning models for OBI recognition, and have designed an API that can be accessed online for OBI recognition. In the first stage, you only look once (YOLO) is applied for detecting and recognizing OBIs. However, not all of the OBIs can be detected correctly by YOLO, so we next utilize MobileNet to recognize the undetected OBIs by manually cropping the undetected OBI in the image. MobileNet is used for this second stage of recognition as our evaluation of ten state-of-the-art models showed that it is the best network for OBI recognition due to its superior performance in terms of accuracy, loss and time consumption. We installed our system on an application programming interface (API) and opened it for OBI detection and recognition.
翻訳日:2021-05-05 11:29:28 公開日:2021-05-04
# (参考訳) 意味の旅:2012-2018年の絵文字の意味の変化を定量化する [全文訳有]

Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 ( http://arxiv.org/abs/2105.00846v2 )

ライセンス: CC BY 4.0
Alexander Robertson, Farhana Ferdousi Liza, Dong Nguyen, Barbara McGillivray, Scott A. Hale(参考訳) 絵文字のセマンティクスは、これまで静的な観点から検討されてきた。 絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。 絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。 さらに,絵文字のセマンティクスに対する季節性や世界イベントの影響について,より詳細な分析を行った。 絵文字とセマンティクスに関する今後の研究を支援するため、私たちは私たちのデータを、誰でも絵文字のセマンティクス変更を探求できるWebベースのインターフェースとともに公開します。

The semantics of emoji has, to date, been considered from a static perspective. We offer the first longitudinal study of how emoji semantics changes over time, applying techniques from computational linguistics to six years of Twitter data. We identify five patterns in emoji semantic development and find evidence that the less abstract an emoji is, the more likely it is to undergo semantic change. In addition, we analyse select emoji in more detail, examining the effect of seasonality and world events on emoji semantics. To aid future work on emoji and semantics, we make our data publicly available along with a web-based interface that anyone can use to explore semantic change in emoji.
翻訳日:2021-05-05 11:19:43 公開日:2021-05-04
# (参考訳) 外因性雑音を考慮したリカレントニューラルネットワークのロバスト学習 [全文訳有]

Robust Learning of Recurrent Neural Networks in Presence of Exogenous Noise ( http://arxiv.org/abs/2105.00996v2 )

ライセンス: CC BY 4.0
Arash Amini, Guangyi Liu, Nader Motee(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータの動的学習に有望な可能性を示している。 しかし、RNNの逐次アーキテクチャが問題を悪化させるような入力ノイズの存在下では、ニューラルネットワークの堅牢性が低いことが知られている。 本稿では,制御理論と推定理論のアイデアを用いて,入力雑音を受けるRNNモデルに対するトラクタブルロバストネス解析を提案する。 雑音が学習に与える影響を定量化するための頑健度尺度として,雑音システムの出力のばらつきを採用する。 線形化手法を用いてロバストネス測度を効率的に推定できることを示した。 これらの結果を用いて,RNNの強靭性を高める学習手法を提案する。 ベンチマーク問題に関する広範なシミュレーションにより,提案手法が再帰的ニューラルネットワークのロバスト性を大幅に改善することが明らかとなった。

Recurrent Neural networks (RNN) have shown promising potential for learning dynamics of sequential data. However, artificial neural networks are known to exhibit poor robustness in presence of input noise, where the sequential architecture of RNNs exacerbates the problem. In this paper, we will use ideas from control and estimation theories to propose a tractable robustness analysis for RNN models that are subject to input noise. The variance of the output of the noisy system is adopted as a robustness measure to quantify the impact of noise on learning. It is shown that the robustness measure can be estimated efficiently using linearization techniques. Using these results, we proposed a learning method to enhance robustness of a RNN with respect to exogenous Gaussian noise with known statistics. Our extensive simulations on benchmark problems reveal that our proposed methodology significantly improves robustness of recurrent neural networks.
翻訳日:2021-05-05 11:04:58 公開日:2021-05-04
# 交絡によるグラフのバラブ・アシ・アルベルトパラメータの復元

Recovering Barab\'asi-Albert Parameters of Graphs through Disentanglement ( http://arxiv.org/abs/2105.00997v2 )

ライセンス: Link先を確認
Cristina Guzman, Daphna Keidar, Tristan Meynier, Andreas Opedal, Niklas Stoehr(参考訳) Erd\H{o}s R\'{e}nyi (ER) ランダムグラフやBarab\'asi-Albert (BA) グラフのような古典的なグラフモデリングアプローチは、スタイリングされたモデルと呼ばれ、解釈可能な方法で現実世界のグラフの性質を再現することを目的としている。 有用なのですが、スタイリッシュなモデルによるグラフ生成にはドメイン知識と反復試行とエラーシミュレーションが必要です。 Stoehrらによる以前の作品。 (2019) はグラフデータから生成過程を学習し、より具体的には$\beta$-Variational Autoencoder($\beta$- VAE)というディスタングルにフォーカスしたディープオートエンコーディングフレームワークを用いて、これらの問題に対処する。 彼らはモデルの潜伏変数を通してERグラフの生成パラメータを復元することに成功したが、そのモデルは過度に単純化されたデコーダのためにBAグラフのような逐次的に生成されたグラフで著しく機能する。 我々は、$\beta$-vaeデコーダをシーケンシャルに置き換えることで、baグラフの生成パラメータの回復にフォーカスする。 まず,グラフニューラルネットワーク (GNN) とランダムフォレスト回帰器 (Random Forest Regressor) を用いて生成BAパラメータを教師付きで学習し,真の生成パラメータと潜伏変数の2乗損失を最小化する。 次に、最初の段階からgnnエンコーダとlstmベースのデコーダとを組み合わせることで、$\beta$-vaeモデルをトレーニングします。

Classical graph modeling approaches such as Erd\H{o}s R\'{e}nyi (ER) random graphs or Barab\'asi-Albert (BA) graphs, here referred to as stylized models, aim to reproduce properties of real-world graphs in an interpretable way. While useful, graph generation with stylized models requires domain knowledge and iterative trial and error simulation. Previous work by Stoehr et al. (2019) addresses these issues by learning the generation process from graph data, using a disentanglement-focu sed deep autoencoding framework, more specifically, a $\beta$-Variational Autoencoder ($\beta$-VAE). While they successfully recover the generative parameters of ER graphs through the model's latent variables, their model performs badly on sequentially generated graphs such as BA graphs, due to their oversimplified decoder. We focus on recovering the generative parameters of BA graphs by replacing their $\beta$-VAE decoder with a sequential one. We first learn the generative BA parameters in a supervised fashion using a Graph Neural Network (GNN) and a Random Forest Regressor, by minimizing the squared loss between the true generative parameters and the latent variables. Next, we train a $\beta$-VAE model, combining the GNN encoder from the first stage with an LSTM-based decoder with a customized loss.
翻訳日:2021-05-05 10:48:24 公開日:2021-05-04
# 言語モデルにおける性別偏差単語埋め込みの効果

Impact of Gender Debiased Word Embeddings in Language Modeling ( http://arxiv.org/abs/2105.00908v2 )

ライセンス: Link先を確認
Christine R. Basta and Marta R. Costa-juss\`a(参考訳) ジェンダー、人種、社会バイアスは、近年、自然言語処理の応用における不公平さの顕著な例として検出されている。 公平への鍵となる道は、データとアルゴリズムを理解し、分析し、解釈することです。 近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。 さらに、現在のアルゴリズムはデータからのバイアスを増幅することが証明されている。 これらの懸念にさらに対処するため,本論文では,既訓練の標準と偏りのある単語埋め込みを用いて,女性を下書きするデータに基づいて,最先端のリカレントニューラルネットワークモデルがどのように振る舞うかを考察する。 その結果、事前学習された組込みを使用する場合、言語モデルは、タスク内でトレーニングされた組込みを使用する場合と比較して、不均衡なデータでトレーニングされた場合、高いバイアスを継承することが示された。 さらに, 言語モデルでは, 標準の事前学習エンデディングに比べて, 偏りのあるプレトレーニングエンデディングを用いることで, バイアスの低減が図られている。

Gender, race and social biases have recently been detected as evident examples of unfairness in applications of Natural Language Processing. A key path towards fairness is to understand, analyse and interpret our data and algorithms. Recent studies have shown that the human-generated data used in training is an apparent factor of getting biases. In addition, current algorithms have also been proven to amplify biases from data. To further address these concerns, in this paper, we study how an state-of-the-art recurrent neural language model behaves when trained on data, which under-represents females, using pre-trained standard and debiased word embeddings. Results show that language models inherit higher bias when trained on unbalanced data when using pre-trained embeddings, in comparison with using embeddings trained within the task. Moreover, results show that, on the same data, language models inherit lower bias when using debiased pre-trained emdeddings, compared to using standard pre-trained embeddings.
翻訳日:2021-05-05 10:47:54 公開日:2021-05-04
# ビジュアルトラッキングにおける相関フィルタと畳み込みフィルタの等価性

Equivalence of Correlation Filter and Convolution Filter in Visual Tracking ( http://arxiv.org/abs/2105.00158v2 )

ライセンス: Link先を確認
Shuiwang Li, Qijun Zhao, Ziliang Feng, Li Lu(参考訳) (判別)相関フィルタは視覚追跡にうまく適用され、近年はこの分野を著しく進歩させている。 相関フィルタベースのトラッカーは、ビジュアルトラッキングを、相関フィルタが類似度を計算する手段を提供する検出サンプルのオブジェクトと候補領域の特徴テンプレートをマッチングする問題として捉えている。 対照的に畳み込みフィルタは通常、画像処理においてぼやけ、シャープ化、エンボス、エッジ検出などに使用される。 表面では、相関フィルタと畳み込みフィルタは、通常異なる目的のために使用される。 しかし本稿では, 相関フィルタと畳み込みフィルタが, 最適解が存在し, 理想フィルタ応答がガウス的かつ遠心対称である条件下で, 視覚追跡における最小平均二乗誤差 (mmses) が等しくなるという意味で, 初めて等価であることを示す。 この結果、研究者はトラッカーを定式化する際に相関や畳み込みを自由に選択できる。 また、類似性の観点からの理想的な反応の説明は必須ではないことを示唆する。

(Discriminative) Correlation Filter has been successfully applied to visual tracking and has advanced the field significantly in recent years. Correlation filter-based trackers consider visual tracking as a problem of matching the feature template of the object and candidate regions in the detection sample, in which correlation filter provides the means to calculate the similarities. In contrast, convolution filter is usually used for blurring, sharpening, embossing, edge detection, etc in image processing. On the surface, correlation filter and convolution filter are usually used for different purposes. In this paper, however, we proves, for the first time, that correlation filter and convolution filter are equivalent in the sense that their minimum mean-square errors (MMSEs) in visual tracking are equal, under the condition that the optimal solutions exist and the ideal filter response is Gaussian and centrosymmetric. This result gives researchers the freedom to choose correlation or convolution in formulating their trackers. It also suggests that the explanation of the ideal response in terms of similarities is not essential.
翻訳日:2021-05-05 10:47:34 公開日:2021-05-04
# ニューラルビジュアル文法とデュアルエンコーダを用いた生成芸術

Generative Art Using Neural Visual Grammars and Dual Encoders ( http://arxiv.org/abs/2105.00162v2 )

ライセンス: Link先を確認
Chrisantha Fernando, S. M. Ali Eslami, Jean-Baptiste Alayrac, Piotr Mirowski, Dylan Banarse, Simon Osindero(参考訳) 科学的な手法は少なからず存在するが、芸術的手法は芸術家とほぼ同程度である。 芸術的過程は、最も高い開放性を持つ。 アートのプロセスの一部を理解し始めるには、それを部分的に自動化しようとしても役立ちます。 本稿では,ユーザがテキスト文字列を入力し,その文字列に対する創造的応答の中でその文字列を解釈する画像を出力する,生成的アートを生成する新しいアルゴリズムについて述べる。 階層型ニューラルリンデンメイヤーシステムを用いて画像を進化させ、何十億もの画像とそれに関連するインターネットからのテキストに基づいて訓練された画像テキストデュアルエンコーダを用いて、これらの画像を評価する。 それによって、アートプロセスのどの側面がアルゴリズムのタスクとなり、どの要素がアーティストの責任のままなのかを分析することができる。

Whilst there are perhaps only a few scientific methods, there seem to be almost as many artistic methods as there are artists. Artistic processes appear to inhabit the highest order of open-endedness. To begin to understand some of the processes of art making it is helpful to try to automate them even partially. In this paper, a novel algorithm for producing generative art is described which allows a user to input a text string, and which in a creative response to this string, outputs an image which interprets that string. It does so by evolving images using a hierarchical neural Lindenmeyer system, and evaluating these images along the way using an image text dual encoder trained on billions of images and their associated text from the internet. In doing so we have access to and control over an instance of an artistic process, allowing analysis of which aspects of the artistic process become the task of the algorithm, and which elements remain the responsibility of the artist.
翻訳日:2021-05-05 10:47:15 公開日:2021-05-04
# 次数不均質下におけるスペクトルクラスタリング:ランダムウォークラプラシアンの場合

Spectral clustering under degree heterogeneity: a case for the random walk Laplacian ( http://arxiv.org/abs/2105.00987v2 )

ライセンス: Link先を確認
Alexander Modell and Patrick Rubin-Delanchy(参考訳) 本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みがノード次数に対して完全に補正されたベクトル表現を生成することを示す。 一般化されたランダムドット積グラフの下では、埋め込みは漸近的にガウス誤差のある次数補正された潜在位置の均一に一貫した推定を与える。 次数補正確率ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。 これらは、隣接性や正規化された対称なラプラシアン行列に基づくアルゴリズムによって一般的に要求されるように、球面投影なしで、後続のクラスタリングステップを通じて、漸近的に完全に回復することができる。 estimandは次数に依存しないが、その推定の漸近的ばらつきは、より低い次数ノードよりも高い次数ノードに埋め込まれている。 したがって、我々の中心極限定理は、重み付けされたガウス混合モデルをその後のクラスタリングステップに当てはめ、期待最大化アルゴリズムを提供する。

This paper shows that graph spectral embedding using the random walk Laplacian produces vector representations which are completely corrected for node degree. Under a generalised random dot product graph, the embedding provides uniformly consistent estimates of degree-corrected latent positions, with asymptotically Gaussian error. In the special case of a degree-corrected stochastic block model, the embedding concentrates about K distinct points, representing communities. These can be recovered perfectly, asymptotically, through a subsequent clustering step, without spherical projection, as commonly required by algorithms based on the adjacency or normalised, symmetric Laplacian matrices. While the estimand does not depend on degree, the asymptotic variance of its estimate does -- higher degree nodes are embedded more accurately than lower degree nodes. Our central limit theorem therefore suggests fitting a weighted Gaussian mixture model as the subsequent clustering step, for which we provide an expectation-maximisa tion algorithm.
翻訳日:2021-05-05 10:47:01 公開日:2021-05-04
# マルチモーダル3次元組織再構成における複数染色とMRIのロバストな関節登録:アレンヒト脳アトラスへの応用

Robust joint registration of multiple stains and MRI for multimodal 3D histology reconstruction: Application to the Allen human brain atlas ( http://arxiv.org/abs/2104.14873v2 )

ライセンス: Link先を確認
Adri\`a Casamitjana, Marco Lorenzi, Sebastiano Ferraris, Loc Peter, Marc Modat, Allison Stevens, Bruce Fischl, Tom Vercauteren, Juan Eugenio Iglesias(参考訳) 3D構造を復元するための2D組織学的区画の二重登録(3D組織学的再構成)は、アトラス構築や生体内イメージングの検証などの分野で応用される。 隣り合う部分の直線的登録はスムーズな再構築をもたらすが、バナナ効果(曲線構造の直線化)やzシフト(ドリフト)といったよく知られた問題がある。 これらの問題は、外部で線形に整列した基準(例えば、磁気共鳴画像)で緩和できるが、コントラスト差や、折りたたみや涙などの人工物を含む組織の強い非線形歪みにより、しばしば登録は不正確である。 そこで,本稿では,複数の組織学的染色の再現性を示す空間的変形の確率論的モデルを提案する。 このモデルは、すべてのセクションとスライスを繋ぐ潜性変換のスパンディングツリーに依存しており、任意の一対のイメージ間の登録は、2つのイメージを繋ぐ(おそらく反転)潜性変換の構成のノイズバージョンとして見ることができると仮定している。 ベイズ推論は、モダリティ内およびモダリティ間の画像ペア間のペア登録セットが与えられた最も可能性の高い潜在変換を計算するために用いられる。 また,複数のMRモードの合成変形の結果から,複数のコントラストを精度よく,かつ頑健に登録できることが示唆された。 アレンヒト脳房からの2つの染色(Nisslとparvalbumin)の3D組織学的再構成は、深刻な歪みを伴う実際のデータにその利点を示す。 また, 組織学とMRIにおいて最も多く用いられている2つのアトラスのギャップを埋めるMNI空間の対応も提供する。 データはhttps://openneuro.or g/datasets/ds003590、コードはhttps://github.com/a casamitjana/3dhirest 。

Joint registration of a stack of 2D histological sections to recover 3D structure (3D histology reconstruction) finds application in areas such as atlas building and validation of in vivo imaging. Straighforward pairwise registration of neighbouring sections yields smooth reconstructions but has well-known problems such as banana effect (straightening of curved structures) and z-shift (drift). While these problems can be alleviated with an external, linearly aligned reference (e.g., Magnetic Resonance images), registration is often inaccurate due to contrast differences and the strong nonlinear distortion of the tissue, including artefacts such as folds and tears. In this paper, we present a probabilistic model of spatial deformation that yields reconstructions for multiple histological stains that that are jointly smooth, robust to outliers, and follow the reference shape. The model relies on a spanning tree of latent transforms connecting all the sections and slices, and assumes that the registration between any pair of images can be see as a noisy version of the composition of (possibly inverted) latent transforms connecting the two images. Bayesian inference is used to compute the most likely latent transforms given a set of pairwise registrations between image pairs within and across modalities. Results on synthetic deformations on multiple MR modalities, show that our method can accurately and robustly register multiple contrasts even in the presence of outliers. The 3D histology reconstruction of two stains (Nissl and parvalbumin) from the Allen human brain atlas, show its benefits on real data with severe distortions. We also provide the correspondence to MNI space, bridging the gap between two of the most used atlases in histology and MRI. Data is available at https://openneuro.or g/datasets/ds003590 and code at https://github.com/a casamitjana/3dhirest .
翻訳日:2021-05-05 10:46:42 公開日:2021-05-04
# positnn:低精度ポジットを混合したディープニューラルネットワークのトレーニング

PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit ( http://arxiv.org/abs/2105.00053v2 )

ライセンス: Link先を確認
Gon\c{c}alo Raposo and Pedro Tom\'as and Nuno Roma(参考訳) 低精度フォーマットは、メモリフットプリントだけでなく、ハードウェアリソースやディープラーニング計算の消費電力を削減する効率的な方法であることが証明されている。 この前提の下では、ポジットの数値形式はIEEE浮動小数点の代用として非常に有効なようだが、ニューラルネットワークトレーニングへの応用にはさらなる研究が必要である。 予備的な結果は、モデル精度を維持しながら、8ビット(さらに小さい)ポジットを推論と16ビットのトレーニングに使用できることを示している。 本研究の目的は, ポジットを用いた深部畳み込みニューラルネットワークの訓練の可能性を評価することである。 このような目的のために、ソフトウェアフレームワークは、エンドツーエンドのトレーニングと推論において、シミュレーションされたポジトリとクイアを使用するように開発された。 この実装では、様々な段階における異なる精度要件に適したビットサイズ、構成、および混合精度が利用可能である。 その結果, 8ビットポジットはトレーニング中に32ビットフロートを置換でき, 損失や精度に悪影響を及ぼさないことが示唆された。

Low-precision formats have proven to be an efficient way to reduce not only the memory footprint but also the hardware resources and power consumption of deep learning computations. Under this premise, the posit numerical format appears to be a highly viable substitute for the IEEE floating-point, but its application to neural networks training still requires further research. Some preliminary results have shown that 8-bit (and even smaller) posits may be used for inference and 16-bit for training, while maintaining the model accuracy. The presented research aims to evaluate the feasibility to train deep convolutional neural networks using posits. For such purpose, a software framework was developed to use simulated posits and quires in end-to-end training and inference. This implementation allows using any bit size, configuration, and even mixed precision, suitable for different precision requirements in various stages. The obtained results suggest that 8-bit posits can substitute 32-bit floats during training with no negative impact on the resulting loss and accuracy.
翻訳日:2021-05-05 10:46:08 公開日:2021-05-04