このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201207となっている論文です。

PDF登録状況(公開日: 20201207)

TitleAuthorsAbstract論文公表日・翻訳日
# ビデオ質問応答のためのオープンエンドマルチモーダルリレーショナル理由

Open-Ended Multi-Modal Relational Reason for Video Question Answering ( http://arxiv.org/abs/2012.00822v2 )

ライセンス: Link先を確認
Haozheng Luo, Ruiyang Qin(参考訳) 視覚障害のある人は、オブジェクトの誘導や検索といった基本的なタスクだけでなく、新しい環境を撮影するといった高度なタスクにも助けを必要とします。 ガイド犬というよりは、言語的な相互作用を提供するデバイスを欲しがるかもしれません。 さまざまな研究文献に基づいて,ロボットエージェントと視覚障害者のインタラクションに関する研究を行う。 VQA技術を適用したロボットエージェントは、環境を分析し、発音された質問を処理し、理解し、人間のユーザにフィードバックを提供することができる。 本稿では,この種のインタラクション,本研究で使用する技術,研究の実施方法について,関連する質問について考察する。

People with visual impairments urgently need helps, not only on the basic tasks such as guiding and retrieving objects , but on the advanced tasks like picturing the new environments. More than a guiding dog, they might want some devices which are able to provide linguistic interaction. Building on various research literature, we aim to conduct a research on the interaction between the robot agent and visual impaired people. The robot agent, applied VQA techniques, is able to analyze the environment, process and understand the pronouncing questions, and provide feedback to the human user. In this paper, we are going to discuss the related questions about this kind of interaction, the techniques we used in this work, and how we conduct our research.
翻訳日:2021-05-30 19:37:11 公開日:2020-12-07
# (参考訳) 新型コロナウイルスのパンデミックでワクチンの感情が低下する機械学習のコンセプトドリフト [全文訳有]

Addressing machine learning concept drift reveals declining vaccine sentiment during the COVID-19 pandemic ( http://arxiv.org/abs/2012.02197v2 )

ライセンス: CC BY 4.0
Martin M\"uller, Marcel Salath\'e(参考訳) ソーシャルメディア分析は、健康に関するトピックを含む様々なトピックに関する世論をほぼリアルタイムで評価するための一般的なアプローチとなっている。 ソーシャルメディアの投稿数の増加は、自然言語処理における現代の機械学習手法の利用の増加につながった。 ソーシャルメディアの急速なダイナミクスは、基盤となるトレンドを素早く捉えることができるが、同時に技術的な問題も生じている。 概念ドリフトとして知られるこの現象は、関心事自体の話題や話題の議論の仕方で急激な変化が起こる場合、特に問題となることがある。 ここでは、特にCOVID-19パンデミックにおいて重要な話題であるTwitter上で表現されたワクチンの感情に焦点をあてて、機械学習の概念が漂流する影響について検討する。 2020年の新型コロナウイルス(COVID-19)パンデミック(COVID-19)パンデミック(パンデミック)のパンデミック(パンデミック)前のデータで訓練されたアルゴリズムは、コンセプトの漂流のためにこの減少をほとんど見逃していただろう。 以上の結果から, ソーシャルメディア分析システムでは, データの体系的誤分類のリスクを回避するために, 概念の漂流を連続的に解決しなければならないことが示唆された。

Social media analysis has become a common approach to assess public opinion on various topics, including those about health, in near real-time. The growing volume of social media posts has led to an increased usage of modern machine learning methods in natural language processing. While the rapid dynamics of social media can capture underlying trends quickly, it also poses a technical problem: algorithms trained on annotated data in the past may underperform when applied to contemporary data. This phenomenon, known as concept drift, can be particularly problematic when rapid shifts occur either in the topic of interest itself, or in the way the topic is discussed. Here, we explore the effect of machine learning concept drift by focussing on vaccine sentiments expressed on Twitter, a topic of central importance especially during the COVID-19 pandemic. We show that while vaccine sentiment has declined considerably during the COVID-19 pandemic in 2020, algorithms trained on pre-pandemic data would have largely missed this decline due to concept drift. Our results suggest that social media analysis systems must address concept drift in a continuous fashion in order to avoid the risk of systematic misclassification of data, which is particularly likely during a crisis when the underlying data can change suddenly and rapidly.
翻訳日:2021-05-23 18:59:25 公開日:2020-12-07
# 能動学習によるスパース半監督行動認識

Sparse Semi-Supervised Action Recognition with Active Learning ( http://arxiv.org/abs/2012.01740v2 )

ライセンス: Link先を確認
Jingyuan Li and Eli Shlizerman(参考訳) スケルトンに基づく行動認識のための最先端の手法は監督され、ラベルに依存している。 アノテーションやラベルのつかないデータに関わる問題により、依存度はパフォーマンスを制限しています。 教師なしの手法が導入されたが、クラスタにシーケンスを整理し、クラスタとアクションを関連付けるためにラベルを必要とする。 本稿では,これらのアプローチをつなぐスケルトンベース行動認識のための新しいアプローチであるsesarを提案する。 SESARはラベルなしデータとラベル付けのためにアクティブに選択された少数のシーケンスの両方からの情報を活用する。 SESARは2つの主要コンポーネントから構成されており、第1のコンポーネントは、シーケンスを再構成するエンコーダ・デコーダRNNを介してラベルなしのアクションシーケンスの潜在表現を学習し、第2のコンポーネントはクラスタと分類の不確実性に基づいてラベル付けされるシーケンスを選択するアクティブ学習を行う。 2つのコンポーネントが骨格に基づくアクションシーケンスで同時にトレーニングされると、少数のラベル付きサンプルでのみ動作認識を行う堅牢なシステムに対応する。 我々は,NW UCLA,NTU RGB+D 60,UWA3Dなど,複数のシーケンスと動作を持つ共通データセット上で評価を行った。 その結果,スケルトンに基づく教師付き,クラスタ同定による教師なし,およびスパルトラベル標本に適用した場合の行動認識のためのアクティブラーニング手法を1%以下で上回った。

Current state-of-the-art methods for skeleton-based action recognition are supervised and rely on labels. The reliance is limiting the performance due to the challenges involved in annotation and mislabeled data. Unsupervised methods have been introduced, however, they organize sequences into clusters and still require labels to associate clusters with actions. In this paper, we propose a novel approach for skeleton-based action recognition, called SESAR, that connects these approaches. SESAR leverages the information from both unlabeled data and a handful of sequences actively selected for labeling, combining unsupervised training with sparsely supervised guidance. SESAR is composed of two main components, where the first component learns a latent representation for unlabeled action sequences through an Encoder-Decoder RNN which reconstructs the sequences, and the second component performs active learning to select sequences to be labeled based on cluster and classification uncertainty. When the two components are simultaneously trained on skeleton-based action sequences, they correspond to a robust system for action recognition with only a handful of labeled samples. We evaluate our system on common datasets with multiple sequences and actions, such as NW UCLA, NTU RGB+D 60, and UWA3D. Our results outperform standalone skeleton-based supervised, unsupervised with cluster identification, and active-learning methods for action recognition when applied to sparse labeled samples, as low as 1% of the data.
翻訳日:2021-05-23 15:07:32 公開日:2020-12-07
# (参考訳) trollhunter [evader]:covid-19パンデミックにおけるtwitterのトロルの自動検出 [エベイション] [全文訳有]

TrollHunter [Evader]: Automated Detection [Evasion] of Twitter Trolls During the COVID-19 Pandemic ( http://arxiv.org/abs/2012.02586v2 )

ライセンス: CC BY 4.0
Peter Jachim and Filipo Sharevski and Paige Treebridge(参考訳) 本稿では、2020年の新型コロナウイルス(COVID-19)パンデミックでTwitterでトロルを探すために使った自動推論メカニズムであるTrollHunterを紹介する。 オンラインの会話を混乱させ、偽情報を広めるために準備されたトロルは、すぐにcovid-19に対する信頼できる対応の欠如を捉え、twitterで疑わしいコンテンツを公布することで、covid-19インフォデミックを生み出した。 新型コロナウイルス(COVID-19)のインフォデミックに対抗するために、TrollHunterは、Twitterの多次元コンテンツ機能のユニークな言語分析を利用して、ツイートがトロールを意図したかどうかを検出する。 TrollHunterは98.5%の精度、75.4%の精度、69.8%のリコールを達成した。 パンデミックの最終的な解決が見えなければ、トロールが脱落する可能性は低いが、自動狩猟を回避せざるを得ない可能性がある。 この戦略の可能性を探るため,我々は対人学習機構であるtrollhunter-evaderを開発した。 TrollHunter-Evaderは、オリジナルのトロルツイートをリサイクルするMarkovチェーンベースのメカニズムと組み合わせて、テストタイムエクスベイジョン(TTE)アプローチを採用している。 リサイクルされたツイートは、トロルハンガーのトロルツイートを正しく識別する能力において、顕著な40%の減少を達成することができた。 新型コロナウイルス(COVID-19)のインフォデミックが新型コロナウイルス(COVID-19)のパンデミックに悪影響を及ぼす可能性があるため、Twitterのトロルハントを避けるために、敵対的機械学習を採用することの意味について、精巧に議論する。

This paper presents TrollHunter, an automated reasoning mechanism we used to hunt for trolls on Twitter during the COVID-19 pandemic in 2020. Trolls, poised to disrupt the online discourse and spread disinformation, quickly seized the absence of a credible response to COVID-19 and created a COVID-19 infodemic by promulgating dubious content on Twitter. To counter the COVID-19 infodemic, the TrollHunter leverages a unique linguistic analysis of a multi-dimensional set of Twitter content features to detect whether or not a tweet was meant to troll. TrollHunter achieved 98.5% accuracy, 75.4% precision and 69.8% recall over a dataset of 1.3 million tweets. Without a final resolution of the pandemic in sight, it is unlikely that the trolls will go away, although they might be forced to evade automated hunting. To explore the plausibility of this strategy, we developed and tested an adversarial machine learning mechanism called TrollHunter-Evader. TrollHunter-Evader employs a Test Time Evasion (TTE) approach in a combination with a Markov chain-based mechanism to recycle originally trolling tweets. The recycled tweets were able to achieve a remarkable 40% decrease in the TrollHunter's ability to correctly identify trolling tweets. Because the COVID-19 infodemic could have a harmful impact on the COVID-19 pandemic, we provide an elaborate discussion about the implications of employing adversarial machine learning to evade Twitter troll hunts.
翻訳日:2021-05-23 05:06:42 公開日:2020-12-07
# (参考訳) TrollHunter2020:2020 年の米国大統領選挙でTwitter上でのトロール記事のリアルタイム検出 [全文訳有]

TrollHunter2020: Real-Time Detection of Trolling Narratives on Twitter During the 2020 US Elections ( http://arxiv.org/abs/2012.02606v2 )

ライセンス: CC BY 4.0
Peter Jachim and Filipo Sharevski and Emma Pieroni(参考訳) 本稿は、2020年の米国大統領選挙でTwitter上でのトロール物語をリアルタイムに検出するメカニズムであるTrollHunter2020を提示する。 トロール的な物語は、2020年のアメリカ合衆国大統領選挙のような二極化イベントの代替説明としてtwitterで形成され、情報操作や感情的な反応を誘発することを目的としている。 したがって、トロリングの物語を検知することは、Twitter上の建設的な会話を保存し、誤情報の流入を取り除くための必須ステップである。 既存の技術を利用することで、時間と豊富なデータが必要となり、急速に変化する選挙サイクルでは、高い利害が得られない可能性がある。 この制限を克服するため、我々はTrollHunter2020を開発し、候補者の討論、選挙の夜、選挙の余波に対応する数十のトレンドTwitterトピックやハッシュタグをリアルタイムで探しました。 trollhunter2020はトレンドデータを収集し、twitter上に現れるトロール物語の構築に使用されるトップ名詞と動詞の有意義な関係を検出するために対応分析を利用する。 以上の結果から,トロルフンター2020は,未解決の偏光現象のごく初期の段階において,現生のトロール物語を捉えていることが示唆された。 本稿では,情報操作やトロールの早期検出におけるtrollhunter2020の有用性と,その利用が,分極化トピックに関するプラットフォーム上の制約的談話を支援する上での意義について考察する。

This paper presents TrollHunter2020, a real-time detection mechanism we used to hunt for trolling narratives on Twitter during the 2020 U.S. elections. Trolling narratives form on Twitter as alternative explanations of polarizing events like the 2020 U.S. elections with the goal to conduct information operations or provoke emotional response. Detecting trolling narratives thus is an imperative step to preserve constructive discourse on Twitter and remove an influx of misinformation. Using existing techniques, this takes time and a wealth of data, which, in a rapidly changing election cycle with high stakes, might not be available. To overcome this limitation, we developed TrollHunter2020 to hunt for trolls in real-time with several dozens of trending Twitter topics and hashtags corresponding to the candidates' debates, the election night, and the election aftermath. TrollHunter2020 collects trending data and utilizes a correspondence analysis to detect meaningful relationships between the top nouns and verbs used in constructing trolling narratives while they emerge on Twitter. Our results suggest that the TrollHunter2020 indeed captures the emerging trolling narratives in a very early stage of an unfolding polarizing event. We discuss the utility of TrollHunter2020 for early detection of information operations or trolling and the implications of its use in supporting a constrictive discourse on the platform around polarizing topics.
翻訳日:2021-05-23 04:27:57 公開日:2020-12-07
# 超自己性:pytorchによる画像の自己教師付き学習

Super-Selfish: Self-Supervised Learning on Images with PyTorch ( http://arxiv.org/abs/2012.02706v2 )

ライセンス: Link先を確認
Nicolas Wagner, Anirban Mukhopadhyay(参考訳) Super-Selfishは、イメージベースの自己教師型学習にPyTorchフレームワークを使用するのが簡単である。 シンプルな分類から、theartのコントラストプリテキストタスクのより複雑な状態まで、13のアルゴリズムで機能を学ぶことができる。 このフレームワークは使いやすく、2行のコードだけで任意のPyTorchニューラルネットワークを事前トレーニングすることができる。 同時に、完全な柔軟性はモジュール設計の選択によって維持される。 コードはhttps://github.com/M ECLabTUDA/Super_Self ishで参照でき、pip install super-selfishを使ってインストールできる。

Super-Selfish is an easy to use PyTorch framework for image-based self-supervised learning. Features can be learned with 13 algorithms that span from simple classification to more complex state of theart contrastive pretext tasks. The framework is easy to use and allows for pretraining any PyTorch neural network with only two lines of code. Simultaneously, full flexibility is maintained through modular design choices. The code can be found at https://github.com/M ECLabTUDA/Super_Self ish and installed using pip install super-selfish.
翻訳日:2021-05-22 20:39:31 公開日:2020-12-07
# (参考訳) John Simplex with Positive Dilation について [全文訳有]

A Note on John Simplex with Positive Dilation ( http://arxiv.org/abs/2012.03427v1 )

ライセンス: CC BY 4.0
Zhou Lu(参考訳) 我々は、前述した$d^2$の上界を改善する正の拡張係数 $d+2$ を持つ$R^d$ の単純化に対するジョンズ定理を証明する。 このバウンドは$d$下限の観点からは厳密である。 さらに、$d$が$d=2$のときの最適下限ではないという例を示す。 以上の結果から, 正の拡張を伴う単純化に対するジョンズ定理に関する2つの疑問に答えることができた。

We prove a Johns theorem for simplices in $R^d$ with positive dilation factor $d+2$, which improves the previously known $d^2$ upper bound. This bound is tight in view of the $d$ lower bound. Furthermore, we give an example that $d$ isn't the optimal lower bound when $d=2$. Our results answered both questions regarding Johns theorem for simplices with positive dilation raised by \cite{leme2020costly}.
翻訳日:2021-05-21 09:15:33 公開日:2020-12-07
# (参考訳) 近似勾配降下によるグラフニューラルネットワークの学習 [全文訳有]

Learning Graph Neural Networks with Approximate Gradient Descent ( http://arxiv.org/abs/2012.03429v1 )

ライセンス: CC BY 4.0
Qunwei Li and Shaofeng Zou and Wenliang Zhong(参考訳) 本稿では,ノード情報畳み込みのための隠れ層を持つグラフニューラルネットワーク(GNN)を学習するアルゴリズムについて述べる。 ラベルがノードやグラフにアタッチされているかどうかによって、2種類のGNNが調査される。 gnnトレーニングアルゴリズムの設計と解析のための包括的なフレームワークを開発した。 提案アルゴリズムは,ReLU,Leaky ReLU,Sigmod,Softplus ,Swishなど,幅広い活性化関数に適用可能である。 提案アルゴリズムは,GNNの根底にある真のパラメータに対する線形収束率を保証する。 いずれのタイプのgnnにおいても、ノード数やグラフ数の観点からのサンプル複雑性が特徴である。 特徴量とGNN構造が収束率に及ぼす影響も理論的に評価されている。 理論解析を検証するために, 数値実験も行われている。

The first provably efficient algorithm for learning graph neural networks (GNNs) with one hidden layer for node information convolution is provided in this paper. Two types of GNNs are investigated, depending on whether labels are attached to nodes or graphs. A comprehensive framework for designing and analyzing convergence of GNN training algorithms is developed. The algorithm proposed is applicable to a wide range of activation functions including ReLU, Leaky ReLU, Sigmod, Softplus and Swish. It is shown that the proposed algorithm guarantees a linear convergence rate to the underlying true parameters of GNNs. For both types of GNNs, sample complexity in terms of the number of nodes or the number of graphs is characterized. The impact of feature dimension and GNN structure on the convergence rate is also theoretically characterized. Numerical experiments are further provided to validate our theoretical analysis.
翻訳日:2021-05-21 09:10:29 公開日:2020-12-07
# (参考訳) mfst:カスタムセミリングとjupyterノートブックをサポートするpythonのopenfstラッパー [全文訳有]

MFST: A Python OpenFST Wrapper With Support for Custom Semirings and Jupyter Notebooks ( http://arxiv.org/abs/2012.03437v1 )

ライセンス: CC BY 4.0
Matthew Francis-Landau(参考訳) 本稿では,OpenFSTに基づくFinite-State Machinesで動作する新しいPythonライブラリであるmFSTを紹介する。 mFSTはOpenFSTの薄いラッパーであり、FSTを操作するOpenFSTのすべてのメソッドを公開する。 さらに、mFSTはOpenFST用の唯一のPythonラッパーであり、OpenFSTのカスタムセミリングを定義する能力を公開する。 これによりmFSTは、FSTの重みを学習したり、ニューラルネットワークFSTを作成するモデルを開発するのに理想的になる。 mFSTは簡単に始められるように設計されており、以前はNLPクラスの宿題や、FSTとニューラルネットワークを統合するプロジェクトで使われてきた。 本稿では,mFST APIとmFSTを用いてPyTorchを用いた単純なニューラルネットワークFSTを構築する方法について述べる。

This paper introduces mFST, a new Python library for working with Finite-State Machines based on OpenFST. mFST is a thin wrapper for OpenFST and exposes all of OpenFST's methods for manipulating FSTs. Additionally, mFST is the only Python wrapper for OpenFST that exposes OpenFST's ability to define a custom semirings. This makes mFST ideal for developing models that involve learning the weights on a FST or creating neuralized FSTs. mFST has been designed to be easy to get started with and has been previously used in homework assignments for a NLP class as well in projects for integrating FSTs and neural networks. In this paper, we exhibit mFST API and how to use mFST to build a simple neuralized FST with PyTorch.
翻訳日:2021-05-21 07:29:26 公開日:2020-12-07
# (参考訳) 伝達学習を用いた軽量3次元CNNに基づくハイパースペクトル分類 [全文訳有]

Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer Learning ( http://arxiv.org/abs/2012.03439v1 )

ライセンス: CC BY 4.0
Haokui Zhang, Ying Li, Yenan Jiang, Peng Wang, Qiang Shen, and Chunhua Shen(参考訳) 近年,ディープラーニング(DL)モデルに基づくハイパースペクトル画像(HSI)分類手法が提案され,有望な性能を示した。 しかし、非常に限られたトレーニングサンプルと膨大なモデルパラメータのため、DLメソッドは過度な適合に悩まされる可能性がある。 本稿では,サンプルベースhsi分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(cnn,3d-lwnet)を提案する。 従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低く,分類性能が向上した。 1) ラベル付きサンプルを多く含むソースhsiデータセットで3次元モデルをプリトレーニングし、その後ターゲットhsiデータセットに転送するクロスセンサ戦略、2) 多数のサンプルを含む2次元rgb画像データセットで3次元モデルをプリトレーニングし、ターゲットhsiデータセットに転送するクロスモーダル戦略、という2つのトランスファー学習戦略を提案する。 従来のアプローチとは対照的に、対象とするデータセットと同じセンサで収集する必要のない、ソースデータセットに対する制限は課しません。 異なるセンサで取得した3つのhsiデータセットを用いた実験により,本モデルがhsi分類の競合性能を達成することを実証した。

Recently, hyperspectral image (HSI) classification approaches based on deep learning (DL) models have been proposed and shown promising performance. However, because of very limited available training samples and massive model parameters, DL methods may suffer from overfitting. In this paper, we propose an end-to-end 3-D lightweight convolutional neural network (CNN) (abbreviated as 3-D-LWNet) for limited samples-based HSI classification. Compared with conventional 3-D-CNN models, the proposed 3-D-LWNet has a deeper network structure, less parameters, and lower computation cost, resulting in better classification performance. To further alleviate the small sample problem, we also propose two transfer learning strategies: 1) cross-sensor strategy, in which we pretrain a 3-D model in the source HSI data sets containing a greater number of labeled samples and then transfer it to the target HSI data sets and 2) cross-modal strategy, in which we pretrain a 3-D model in the 2-D RGB image data sets containing a large number of samples and then transfer it to the target HSI data sets. In contrast to previous approaches, we do not impose restrictions over the source data sets, in which they do not have to be collected by the same sensors as the target data sets. Experiments on three public HSI data sets captured by different sensors demonstrate that our model achieves competitive performance for HSI classification compared to several state-of-the-art methods
翻訳日:2021-05-21 07:21:34 公開日:2020-12-07
# (参考訳) リカレント生成モデルを用いたロボット経路計画のための効率的なヒューリスティック生成 [全文訳有]

Efficient Heuristic Generation for Robot Path Planning with Recurrent Generative Model ( http://arxiv.org/abs/2012.03449v1 )

ライセンス: CC BY 4.0
Zhaoting Li, Jiankun Wang and Max Q.-H. Meng(参考訳) 2次元環境においても、結果の最適性とアルゴリズムの複雑さの矛盾のため、ロボットパスの計画は困難である。 最適な経路を見つけるには、アルゴリズムは全ての状態空間を探索する必要がある。 本稿では,経路計画アルゴリズムの探索労力を削減するために,効率的なヒューリスティックを生成するrgm(recurrent generative model)を提案する。 このRGMモデルは、出力をリフレッシュすることでヒューリスティックを生成する新しいジェネレータと、ヒューリスティックの接続性や安全性をチェックする2つの識別器で構成されるGAN(General Generative Adversarial Network)の枠組みを採用する。 提案するRGMモジュールは, 各種2次元環境において実効性と効率性を示す。 その結果, RGM は, 目視と新しい目視マップの両方において, 高い精度で適切なヒューリスティックなヒューリスティックを生成できることが示され, このモデルの優れた一般化能力が示された。 また、高速探索ランダムツリースター(RRT*)と4つの異なるマップにおける従来のRT*とを比較した結果、生成したヒューリスティックは、より高速で効率的な方法で初期解と最適解の両方を見つけることができることがわかった。

Robot path planning is difficult to solve due to the contradiction between optimality of results and complexity of algorithms, even in 2D environments. To find an optimal path, the algorithm needs to search all the state space, which costs a lot of computation resource. To address this issue, we present a novel recurrent generative model (RGM) which generates efficient heuristic to reduce the search efforts of path planning algorithm. This RGM model adopts the framework of general generative adversarial networks (GAN), which consists of a novel generator that can generate heuristic by refining the outputs recurrently and two discriminators that check the connectivity and safety properties of heuristic. We test the proposed RGM module in various 2D environments to demonstrate its effectiveness and efficiency. The results show that the RGM successfully generates appropriate heuristic in both seen and new unseen maps with a high accuracy, demonstrating the good generalization ability of this model. We also compare the rapidly-exploring random tree star (RRT*) with generated heuristic and the conventional RRT* in four different maps, showing that the generated heuristic can guide the algorithm to find both initial and optimal solution in a faster and more efficient way.
翻訳日:2021-05-21 06:58:04 公開日:2020-12-07
# (参考訳) CX DB8: クエリ可能な抽出要約とセマンティック検索エンジン [全文訳有]

CX DB8: A queryable extractive summarizer and semantic search engine ( http://arxiv.org/abs/2012.03942v1 )

ライセンス: CC BY 4.0
Allen Roush(参考訳) 競争力のあるDebateの技術的性質は、エビデンス生産を加速するツールを競争相手に求めている。 競争的討論者による一意的な抽出要約と特定の目的に対するバイアスは、教師なし事前学習テキストベクトル化モデルにおける最新の革新を用いて行うことができる。 本稿では,arbitarily size textの迅速かつ偏りのある要約を可能にする,クエリ可能な単語レベルの要約および証拠作成フレームワークであるcx_db8を紹介する。 CX_DB8は組み込みフレームワークであるFrairを使用するため、基盤となるモデルが改善されるにつれて、CX_DB8も改善される。 cx_db8はセマンティック検索エンジンとしても機能し、プログラムやウェブページの従来の「検索」機能の補足としてアプリケーションを備えている。 CX_DB8は現在競争相手によって使用されており、https://github.com/H ellisotherPeople/CX_ DB8で公開されている。

Competitive Debate's increasingly technical nature has left competitors looking for tools to accelerate evidence production. We find that the unique type of extractive summarization performed by competitive debaters - summarization with a bias towards a particular target meaning - can be performed using the latest innovations in unsupervised pre-trained text vectorization models. We introduce CX_DB8, a queryable word-level extractive summarizer and evidence creation framework, which allows for rapid, biasable summarization of arbitarily sized texts. CX_DB8s usage of the embedding framework Flair means that as the underlying models improve, CX_DB8 will also improve. We observe that CX_DB8 also functions as a semantic search engine, and has application as a supplement to traditional "find" functionality in programs and webpages. CX_DB8 is currently used by competitive debaters and is made available to the public at https://github.com/H ellisotherpeople/CX_ DB8
翻訳日:2021-05-21 06:45:43 公開日:2020-12-07
# (参考訳) 眼科画像検索のための注意に基づくサリエンシハッシュ [全文訳有]

Attention-based Saliency Hashing for Ophthalmic Image Retrieval ( http://arxiv.org/abs/2012.03466v1 )

ライセンス: CC BY 4.0
Jiansheng Fang, Yanwu Xu, Xiaoqing Zhang, Yan Hu, Jiang Liu(参考訳) 深部ハッシュ法は臨床医の参照ベース診断を支援する大規模医用画像検索に有効であることが証明されている。 しかし,眼底画像において有意な領域が最大の識別的役割を担っている場合,既存の深層ハッシュ法では,有意な領域の特徴を捉えるための深部ネットワークの学習能力を十分に活用できない。 眼科画像の異なるグレードやクラスは、全体的な性能は似ているが、突出した領域を採掘することで区別できる微妙な違いがある。 この問題に対処するため,我々は,眼科画像を表現するためのコンパクトなハッシュコードを学習するための,ASH (Attention-based Saliency Hashing) という新しいエンドツーエンドネットワークを提案する。 ASHは空間的注意モジュールを組み込んで、正常な領域の表現をより重視し、眼球画像の識別において重要な役割を強調している。 空間的アテンションモジュールから恩恵を受けることにより、局所領域の情報をハッシュコードにマッピングして類似性計算を行うことができる。 トレーニング段階では,ネットワークの重みを共有するためにイメージペアを入力し,ハッシュコードの識別性を最大化するためのペアワイズロスを設計する。 検索段階では、ASHは、画像をエンドツーエンドに入力してハッシュコードを取得し、ハッシュコードを類似性計算に使用して最も類似した画像を返却する。 眼画像データセットの2つの異なるモダリティに関する広範囲な実験により,提案するアッシュは,空間アテンションモジュールの多大な寄与により,最先端のディープハッシュ法に比べて検索性能がさらに向上することが示された。

Deep hashing methods have been proved to be effective for the large-scale medical image search assisting reference-based diagnosis for clinicians. However, when the salient region plays a maximal discriminative role in ophthalmic image, existing deep hashing methods do not fully exploit the learning ability of the deep network to capture the features of salient regions pointedly. The different grades or classes of ophthalmic images may be share similar overall performance but have subtle differences that can be differentiated by mining salient regions. To address this issue, we propose a novel end-to-end network, named Attention-based Saliency Hashing (ASH), for learning compact hash-code to represent ophthalmic images. ASH embeds a spatial-attention module to focus more on the representation of salient regions and highlights their essential role in differentiating ophthalmic images. Benefiting from the spatial-attention module, the information of salient regions can be mapped into the hash-code for similarity calculation. In the training stage, we input the image pairs to share the weights of the network, and a pairwise loss is designed to maximize the discriminability of the hash-code. In the retrieval stage, ASH obtains the hash-code by inputting an image with an end-to-end manner, then the hash-code is used to similarity calculation to return the most similar images. Extensive experiments on two different modalities of ophthalmic image datasets demonstrate that the proposed ASH can further improve the retrieval performance compared to the state-of-the-art deep hashing methods due to the huge contributions of the spatial-attention module.
翻訳日:2021-05-21 06:32:57 公開日:2020-12-07
# (参考訳) 肺結節を伴わない学習のためのメタ順序回帰フォレスト [全文訳有]

Meta Ordinal Regression Forest For Learning with Unsure Lung Nodules ( http://arxiv.org/abs/2012.03480v1 )

ライセンス: CC BY 4.0
Yiming Lei, Haiping Zhu, Junping Zhang, Hongming Shan(参考訳) 深層学習に基づく手法は,肺結節の早期検出と分類において有望な性能を発揮している。 近年,この問題を正規回帰として定式化し,従来の二項分類よりも優れた性能を示す不確かさデータモデル (UDM) が提案されている。 肺結節分類の順序関係をさらに探究するため,本論文では,最先端の順序回帰法であるdeep ordinal regression forest (dorf) を3つの主要な方法で改良したmeta ordinal regression forest (morf)を提案する。 まず、MORFは深い特徴をフル活用することで予測のバイアスを軽減する一方、DORFはトレーニング前に決定木の構成を修正する必要がある。 第二に、morfは決定木の分割ノードを再サンプリングする新しいグループ化特徴選択(gfs)モジュールを持っている。 最後に、MORFはGFSと組み合わせて、GFSが選択した特徴をツリーワイドにマッピングするメタ学習ベースの重み付けスキームを備えており、DORFはすべての木に等しい重みを割り当てている。 LIDC-IDRIデータセットの実験結果は、最先端のDORFを含む既存の手法よりも優れた性能を示した。

Deep learning-based methods have achieved promising performance in early detection and classification of lung nodules, most of which discard unsure nodules and simply deal with a binary classification -- malignant vs benign. Recently, an unsure data model (UDM) was proposed to incorporate those unsure nodules by formulating this problem as an ordinal regression, showing better performance over traditional binary classification. To further explore the ordinal relationship for lung nodule classification, this paper proposes a meta ordinal regression forest (MORF), which improves upon the state-of-the-art ordinal regression method, deep ordinal regression forest (DORF), in three major ways. First, MORF can alleviate the biases of the predictions by making full use of deep features while DORF needs to fix the composition of decision trees before training. Second, MORF has a novel grouped feature selection (GFS) module to re-sample the split nodes of decision trees. Last, combined with GFS, MORF is equipped with a meta learning-based weighting scheme to map the features selected by GFS to tree-wise weights while DORF assigns equal weights for all trees. Experimental results on the LIDC-IDRI dataset demonstrate superior performance over existing methods, including the state-of-the-art DORF.
翻訳日:2021-05-21 06:17:44 公開日:2020-12-07
# (参考訳) ロバストな対向検出のための対向表現のクラスタを分離する学習 [全文訳有]

Learning to Separate Clusters of Adversarial Representations for Robust Adversarial Detection ( http://arxiv.org/abs/2012.03483v1 )

ライセンス: CC BY 4.0
Byunggill Joe, Jihun Hamm, Sung Ju Hwang, Sooel Son, Insik Shin(参考訳) ディープニューラルネットワークは様々なタスクで有望な性能を示すが、入力の小さな摂動によって引き起こされる誤った予測に影響を受けやすい。 敵の攻撃を検出するために多くの先行研究が提案された。 しかし、そのほとんどは、敵がモデルや防御方法の知識を持っている場合、適応的ホワイトボックス攻撃に対して効果的に検出することはできない。 本稿では,最近導入された非破壊的特徴を動機とする新しい確率的対角検出器を提案する。 我々は、非ロバスト特徴を逆例の共通性と考え、その性質に対応する表現空間におけるクラスタを見つけることができると推定する。 このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。

Although deep neural networks have shown promising performances on various tasks, they are susceptible to incorrect predictions induced by imperceptibly small perturbations in inputs. A large number of previous works proposed to detect adversarial attacks. Yet, most of them cannot effectively detect them against adaptive whitebox attacks where an adversary has the knowledge of the model and the defense method. In this paper, we propose a new probabilistic adversarial detector motivated by a recently introduced non-robust feature. We consider the non-robust features as a common property of adversarial examples, and we deduce it is possible to find a cluster in representation space corresponding to the property. This idea leads us to probability estimate distribution of adversarial representations in a separate cluster, and leverage the distribution for a likelihood based adversarial detector.
翻訳日:2021-05-21 06:10:27 公開日:2020-12-07
# (参考訳) スパイクニューラルネットワークを訓練するマルチエージェント進化型ロボットフレームワーク [全文訳有]

A multi-agent evolutionary robotics framework to train spiking neural networks ( http://arxiv.org/abs/2012.03485v1 )

ライセンス: CC BY 4.0
Souvik Das, Anirudh Shankar, Vaneet Aggarwal(参考訳) 新しい多エージェント進化ロボット(ER)ベースのフレームワークは、自然界の競争的な進化環境に触発され、スパイキングニューラルネットワーク(SNN)のトレーニングのために実証されている。 ER環境下で制御するボットの形態的パラメータとともに、SNNの集団の重みが表現型として扱われる。 フレームワークのルールは、特定のボットとそのSNNを選択して、競争環境において食物を捕獲する効果に基づいて、その除去を行う。 ボットとそのSNNは、損失関数を介して生存または再生する明確な報酬を与えられていないが、これらのドライブは、食べ物を狩るために進化し、これらのルールの中で生き残るために暗黙的に現れる。 食品を世代関数として捕獲する効率は、時間的平衡の進化的特徴を示す。 表現型に関する2つの進化的遺伝アルゴリズムであるMutationとCrossover with Mutationが示されている。 これらのアルゴリズムの性能は、アルゴリズムごとに100の実験のアンサンブルを用いて比較される。 We found that Crossover with Mutation promotes 40% faster learning in the SNN than mere Mutation with a statistically significant margin。

A novel multi-agent evolutionary robotics (ER) based framework, inspired by competitive evolutionary environments in nature, is demonstrated for training Spiking Neural Networks (SNN). The weights of a population of SNNs along with morphological parameters of bots they control in the ER environment are treated as phenotypes. Rules of the framework select certain bots and their SNNs for reproduction and others for elimination based on their efficacy in capturing food in a competitive environment. While the bots and their SNNs are given no explicit reward to survive or reproduce via any loss function, these drives emerge implicitly as they evolve to hunt food and survive within these rules. Their efficiency in capturing food as a function of generations exhibit the evolutionary signature of punctuated equilibria. Two evolutionary inheritance algorithms on the phenotypes, Mutation and Crossover with Mutation, are demonstrated. Performances of these algorithms are compared using ensembles of 100 experiments for each algorithm. We find that Crossover with Mutation promotes 40% faster learning in the SNN than mere Mutation with a statistically significant margin.
翻訳日:2021-05-21 05:34:35 公開日:2020-12-07
# (参考訳) インテリジェント肺炎検出と統合へのアプローチ [全文訳有]

An Approach to Intelligent Pneumonia Detection and Integration ( http://arxiv.org/abs/2012.03487v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou, Alena Iureva, Sayali R. Rajhans, Vamsi S. Pidikiti(参考訳) 毎年、250万人以上の人々が、そのほとんどが先進国で肺炎で死亡している([1])。 多くの研究が、タイムリーかつ正しく診断されたときに肺炎が治療可能であることを証明しているので、多くの診断補助薬が開発されている。 しかし、現在、肺炎検出におけるAIの使用は、特に局所的に達成された結果を一般化する上での課題のために制限されている。 本稿では,この課題を解決しようとするシステムの構築と統合のためのロードマップを提案する。 また、様々な技術的、法的、倫理的、物流的な問題にも対処し、可能な解決策の青写真を作成しています。

Each year, over 2.5 million people, most of them in developed countries, die from pneumonia [1]. Since many studies have proved pneumonia is successfully treatable when timely and correctly diagnosed, many of diagnosis aids have been developed, with AI-based methods achieving high accuracies [2]. However, currently, the usage of AI in pneumonia detection is limited, in particular, due to challenges in generalizing a locally achieved result. In this report, we propose a roadmap for creating and integrating a system that attempts to solve this challenge. We also address various technical, legal, ethical, and logistical issues, with a blueprint of possible solutions.
翻訳日:2021-05-21 05:25:25 公開日:2020-12-07
# (参考訳) 適応的ネットワークに基づくサンプリング型経路計画のためのヒューリスティックス [全文訳有]

Generative Adversarial Network based Heuristics for Sampling-based Path Planning ( http://arxiv.org/abs/2012.03490v1 )

ライセンス: CC BY 4.0
Tianyi Zhang, Jiankun Wang and Max Q.-H. Meng(参考訳) サンプリングベースの経路計画は、ロボットパス計画の一般的な方法論である。 状態空間を探索するための均一なサンプリング戦略により、構成空間の複雑な幾何学的モデリングなしで実現可能な経路を見つけることができる。 しかし,初期解の質は保証されず,最適解への収束速度は遅い。 本稿では,これらの制約を克服する新しい画像ベース経路計画アルゴリズムを提案する。 具体的には、GAN(Generative Adversarial Network)は、環境マップ(RGBイメージ)を、他の前処理作業なしに入力として扱うように設計されている。 出力はRGBイメージでもあり、将来性のある領域(おそらく可能なパスが存在する)がセグメント化される。 この有望な領域をヒューリスティックとして利用し、パスプランナの非一様サンプリングを実現する。 提案手法の有効性を検証するため,多くのシミュレーション実験を行い,本手法が最適解に対する初期解の品質と収束速度において,より優れた性能を発揮することを示した。 さらに,本手法は,トレーニングセットに類似した環境とは別に,トレーニングセットと非常に異なる環境でも有効である。

Sampling-based path planning is a popular methodology for robot path planning. With a uniform sampling strategy to explore the state space, a feasible path can be found without the complex geometric modeling of the configuration space. However, the quality of initial solution is not guaranteed and the convergence speed to the optimal solution is slow. In this paper, we present a novel image-based path planning algorithm to overcome these limitations. Specifically, a generative adversarial network (GAN) is designed to take the environment map (denoted as RGB image) as the input without other preprocessing works. The output is also an RGB image where the promising region (where a feasible path probably exists) is segmented. This promising region is utilized as a heuristic to achieve nonuniform sampling for the path planner. We conduct a number of simulation experiments to validate the effectiveness of the proposed method, and the results demonstrate that our method performs much better in terms of the quality of initial solution and the convergence speed to the optimal solution. Furthermore, apart from the environments similar to the training set, our method also works well on the environments which are very different from the training set.
翻訳日:2021-05-21 05:05:02 公開日:2020-12-07
# (参考訳) グラフニューラルネットワークによる半教師付き土壌水分予測 [全文訳有]

Semi-supervised Soil Moisture Prediction through Graph Neural Networks ( http://arxiv.org/abs/2012.03506v1 )

ライセンス: CC BY 4.0
Anoushka Vyas, Sambaran Bandyopadhyay(参考訳) リモート衛星とIoTデータの最近の改良と可用性は、精密農業における人工知能の興味深い多様な応用を提供する。 土壌水分は農業と食料のサプライチェーンにおいて重要な要素である。 土壌のさまざまな深さに蓄積される水量を測定する。 土壌水分予測のための既存のデータ駆動アプローチは、時間とともに近傍の土壌水分値の動的依存性を捉えない従来のモデルを用いる。 本研究では,土壌水分予測の問題を時間グラフに基づく半教師付き学習として変換することを提案する。 本研究では,地域間の関連位置の依存性を利用して土壌水分を予測できる動的グラフニューラルネットワークを提案する。 しかし、社会や情報ネットワークとは異なり、土壌水分予測にはグラフ構造が明確に与えられていない。 そこで我々は,グラフ構造学習の問題を動的GNNの枠組みに取り入れた。 dglrと呼ばれるこのアルゴリズムは、地域内の複数の場所にわたって土壌水分を予測し、その間のグラフ構造を更新できるエンドツーエンド学習を提供する。 我々のソリューションは、既存の機械学習手法と比較して、現実世界の土壌水分データセットの最先端結果を達成する。

Recent improvement and availability of remote satellite and IoT data offers interesting and diverse applications of artificial intelligence in precision agriculture. Soil moisture is an important component of multiple agricultural and food supply chain practices. It measures the amount of water stored in various depth of soil. Existing data driven approaches for soil moisture prediction use conventional models which fail to capture the dynamic dependency of soil moisture values in near-by locations over time. In this work, we propose to convert the problem of soil moisture prediction as a semi-supervised learning on temporal graphs. We propose a dynamic graph neural network which can use the dependency of related locations over a region to predict soil moisture. However, unlike social or information networks, graph structure is not explicitly given for soil moisture prediction. Hence, we incorporate the problem of graph structure learning in the framework of dynamic GNN. Our algorithm, referred as DGLR, provides an end-to-end learning which can predict soil moisture over multiple locations in a region over time and also update the graph structure in between. Our solution achieves state-of-the-art results on real-world soil moisture datasets compared to existing machine learning approaches.
翻訳日:2021-05-21 04:27:37 公開日:2020-12-07
# (参考訳) モデルロバスト性に関する特異値視点 [全文訳有]

A Singular Value Perspective on Model Robustness ( http://arxiv.org/abs/2012.03516v1 )

ライセンス: CC BY 4.0
Malhar Jere, Maghav Kumar, Farinaz Koushanfar(参考訳) 畳み込みニューラルネットワーク(cnns)は、いくつかのコンピュータビジョンベンチマークで大きな進歩を遂げているが、悪意のあるサンプルに対する脆弱性など、多くの非人間バイアスに苦しめられている。 それらの説明可能性の欠如は、これらのバイアスの識別と修正を困難にし、それらの一般化行動を理解することは、依然として未解決の問題である。 本研究では,CNNの一般化行動と画像の特異値分解(SVD)との関係について検討する。 我々は、自然に訓練され、逆向きに堅牢なCNNが、同じデータセットに対して非常に異なる特徴を利用することを示す。 我々は,これらの特徴をImageNetとCIFAR-10訓練ネットワークのSVDで切り離すことを実証した。 最後に,画像のランクに対するcnnの依存性を理解する最初のランクベース特徴帰属法であるランク統合勾配(rig)を提案する。

Convolutional Neural Networks (CNNs) have made significant progress on several computer vision benchmarks, but are fraught with numerous non-human biases such as vulnerability to adversarial samples. Their lack of explainability makes identification and rectification of these biases difficult, and understanding their generalization behavior remains an open problem. In this work we explore the relationship between the generalization behavior of CNNs and the Singular Value Decomposition (SVD) of images. We show that naturally trained and adversarially robust CNNs exploit highly different features for the same dataset. We demonstrate that these features can be disentangled by SVD for ImageNet and CIFAR-10 trained networks. Finally, we propose Rank Integrated Gradients (RIG), the first rank-based feature attribution method to understand the dependence of CNNs on image rank.
翻訳日:2021-05-21 04:13:11 公開日:2020-12-07
# (参考訳) 遺伝的アルゴリズムを用いたCODLAG推進システムのガスタービン軸トルクと燃料流量の推定 [全文訳有]

Estimation of Gas Turbine Shaft Torque and Fuel Flow of a CODLAG Propulsion System Using Genetic Programming Algorithm ( http://arxiv.org/abs/2012.03527v1 )

ライセンス: CC BY 4.0
Nikola An{\dj}eli\'c, Sandi Baressi \v{S}egota, Ivan Lorencin and Zlatan Car(参考訳) 本稿では, 船舶用複合ディーゼル電気・ガス推進システム(CODLAG)の条件ベースメンテナンスデータセットを用いて, 遺伝的プログラミング(GP)アルゴリズムを用いて, ガスタービン軸トルクと燃料流量を推定できる記号式を得た。 データセット全体は、11934のサンプルで構成され、データセットのトレーニングとテストの一部を80:20の割合で分割した。 gpアルゴリズムのトレーニングデータセットは、ガスタービン軸トルクと燃料流量推定の象徴表現を得るために、9548のサンプルからなる。 ガスタービン軸トルクと燃料流量推定のための最適な記号式は, 上記の記号式に対するデータセットのテスト部分の適用により得られたR^2$スコアに基づいて得られた。 データセットのテスト部分は2386のサンプルから成っている。 ガスタービン軸トルク推定で得られた3つの最適記号式はそれぞれ0.999201, 0.999296, 0.999374のr^2$スコアを示した。 燃料流量推定で得られた3つの最良の記号式は,それぞれ0.995495,0.996465,0. 996487のR^2$スコアを得た。

In this paper, the publicly available dataset of condition based maintenance of combined diesel-electric and gas (CODLAG) propulsion system for ships has been utilized to obtain symbolic expressions which could estimate gas turbine shaft torque and fuel flow using genetic programming (GP) algorithm. The entire dataset consists of 11934 samples that was divided into training and testing portions of dataset in an 80:20 ratio. The training dataset used to train the GP algorithm to obtain symbolic expressions for gas turbine shaft torque and fuel flow estimation consisted of 9548 samples. The best symbolic expressions obtained for gas turbine shaft torque and fuel flow estimation were obtained based on their $R^2$ score generated as a result of the application of the testing portion of the dataset on the aforementioned symbolic expressions. The testing portion of the dataset consisted of 2386 samples. The three best symbolic expressions obtained for gas turbine shaft torque estimation generated $R^2$ scores of 0.999201, 0.999296, and 0.999374, respectively. The three best symbolic expressions obtained for fuel flow estimation generated $R^2$ scores of 0.995495, 0.996465, and 0.996487, respectively.
翻訳日:2021-05-21 03:54:57 公開日:2020-12-07
# (参考訳) 教師なしのディープネットワークが一般化する理由 [全文訳有]

Why Unsupervised Deep Networks Generalize ( http://arxiv.org/abs/2012.03531v1 )

ライセンス: CC BY 4.0
Anita de Mello Koch, Ellen de Mello Koch, Robert de Mello Koch(参考訳) 一般化パズルの解法を仮定すると、深いネットワーク内のパラメータの実際の数は、単純な推定よりもはるかに小さい。 再正規化群(renormalization group)は、ナイーブな推定がそうではないことを示唆しているにもかかわらず、パラメータが極めて少ない問題の説得力のある例である。 我々の中心的な仮説は、再正規化群の背後にあるメカニズムも深層学習に取り組んでおり、これが一般化パズルの解決につながるということである。 トレーニングされたRBMが高運動量モードを捨てていることを示すことによって、RBMの仮説を証明する詳細な定量的証拠を示す。 本稿では,主にオートエンコーダに注目し,学習データセットから直接ネットワークのパラメータを決定するアルゴリズムを提案する。 その結果得られたオートエンコーダは,ディープラーニングによるトレーニングとほぼ同等の性能を持ち,トレーニング初期条件が良好であり,検討した実験では4~100倍のトレーニング時間を短縮できる。 さらに,特定の問題をディープネットワークで解決できるのか,あるいは解決できないのかを判断するための簡単な基準を提案することができる。

Promising resolutions of the generalization puzzle observe that the actual number of parameters in a deep network is much smaller than naive estimates suggest. The renormalization group is a compelling example of a problem which has very few parameters, despite the fact that naive estimates suggest otherwise. Our central hypothesis is that the mechanisms behind the renormalization group are also at work in deep learning, and that this leads to a resolution of the generalization puzzle. We show detailed quantitative evidence that proves the hypothesis for an RBM, by showing that the trained RBM is discarding high momentum modes. Specializing attention mainly to autoencoders, we give an algorithm to determine the network's parameters directly from the learning data set. The resulting autoencoder almost performs as well as one trained by deep learning, and it provides an excellent initial condition for training, reducing training times by a factor between 4 and 100 for the experiments we considered. Further, we are able to suggest a simple criterion to decide if a given problem can or can not be solved using a deep network.
翻訳日:2021-05-21 03:36:10 公開日:2020-12-07
# (参考訳) ベイズネットワークのための効率的かつスケーラブルな構造学習:アルゴリズムと応用 [全文訳有]

Efficient and Scalable Structure Learning for Bayesian Networks: Algorithms and Applications ( http://arxiv.org/abs/2012.03540v1 )

ライセンス: CC BY 4.0
Rong Zhu, Andreas Pfadler, Ziniu Wu, Yuxing Han, Xiaoke Yang, Feng Ye, Zhenping Qian, Jingren Zhou, Bin Cui(参考訳) ベイジアンネットワーク(BN)の構造学習は広範な研究において重要な問題である。 Alibaba Groupのさまざまなアプリケーションにおいて中心的な役割を果たす。 しかし、既存の構造学習アルゴリズムは、低効率でスケーラビリティが低いために、現実世界のアプリケーションにかなりの制限がある。 そこで本研究では,高い正確性,効率性,スケーラビリティを同時に達成し,ビジネス要件を包括的に満たす構造学習アルゴリズムを提案する。 LEASTの中核となる考え方は、構造学習を連続的な制約付き最適化問題に定式化することであり、結果として得られるグラフの非巡回性を測定する新しい微分可能制約関数である。 既存の研究とは異なり、我々の制約関数はグラフのスペクトル半径上に構築されており、ほぼ線形時間 w.r.t で評価することができる。 グラフノードのサイズ。 これに基づいて、LEASTは低ストレージオーバーヘッドで効率的に実装できる。 我々のベンチマーク評価によると、LEASTは同等の精度で最先端の手法よりも1~2桁高速に動作し、最大数十万の変数を持つBN上でスケールすることができる。 私たちの運用環境では、LEASTはデプロイされ、1日に何千もの実行を伴う20以上のアプリケーションに役立ちます。 本稿では,アリババのチケット予約サービスにおける具体的なシナリオについて述べる。LEASTを適用して,ほぼリアルタイムで自動異常検出とルートエラー原因解析システムを構築する。 また,大規模遺伝子発現データ解析や説明可能なレコメンデーションシステムなど,新しい領域におけるbn構造学習の適用可能性の最小化についても明らかにした。

Structure Learning for Bayesian network (BN) is an important problem with extensive research. It plays central roles in a wide variety of applications in Alibaba Group. However, existing structure learning algorithms suffer from considerable limitations in real world applications due to their low efficiency and poor scalability. To resolve this, we propose a new structure learning algorithm LEAST, which comprehensively fulfills our business requirements as it attains high accuracy, efficiency and scalability at the same time. The core idea of LEAST is to formulate the structure learning into a continuous constrained optimization problem, with a novel differentiable constraint function measuring the acyclicity of the resulting graph. Unlike with existing work, our constraint function is built on the spectral radius of the graph and could be evaluated in near linear time w.r.t. the graph node size. Based on it, LEAST can be efficiently implemented with low storage overhead. According to our benchmark evaluation, LEAST runs 1 to 2 orders of magnitude faster than state of the art method with comparable accuracy, and it is able to scale on BNs with up to hundreds of thousands of variables. In our production environment, LEAST is deployed and serves for more than 20 applications with thousands of executions per day. We describe a concrete scenario in a ticket booking service in Alibaba, where LEAST is applied to build a near real-time automatic anomaly detection and root error cause analysis system. We also show that LEAST unlocks the possibility of applying BN structure learning in new areas, such as large-scale gene expression data analysis and explainable recommendation system.
翻訳日:2021-05-21 03:14:05 公開日:2020-12-07
# (参考訳) SpotTune: パブリッククラウドにおけるコスト効率の高いハイパーパラメータチューニングのためのトランジェントリソースを活用する [全文訳有]

SpotTune: Leveraging Transient Resources for Cost-efficient Hyper-parameter Tuning in the Public Cloud ( http://arxiv.org/abs/2012.03576v1 )

ライセンス: CC BY 4.0
Yan Li, Bo An, Junming Ma, Donggang Cao, Yasha Wang, Hong Mei(参考訳) ハイパーパラメータチューニング(HPT)は多くの機械学習(ML)アルゴリズムにおいて重要である。 しかし、大規模な検索スペースのため、HPTは通常時間とリソースを消費する。 現在、多くの研究者がパブリッククラウドリソースを使用して機械学習モデルをトレーニングしている。 hptプロセスをスピードアップすると同時にコストを削減することは、クラウドmlユーザにとって非常に重要だ。 本稿では,hptを並列かつコスト効率のよい方法で実現するための戦略として,パブリッククラウドにおける過渡的再利用可能なリソースを活用する手法であるspottuneを提案する。 一時的なサーバ上でHPTプロセスをオーケストレーションするSpotTuneは、HPTプロセスの金銭的コストと実行時間を削減するために、きめ細かなコスト対応リソースプロビジョニングとMLトレーニングトレンド予測という、2つの主要なテクニックを使用している。 評価の結果,SpotTuneは最大90%のコスト削減と16.61倍の性能向上を実現している。

Hyper-parameter tuning (HPT) is crucial for many machine learning (ML) algorithms. But due to the large searching space, HPT is usually time-consuming and resource-intensive. Nowadays, many researchers use public cloud resources to train machine learning models, convenient yet expensive. How to speed up the HPT process while at the same time reduce cost is very important for cloud ML users. In this paper, we propose SpotTune, an approach that exploits transient revocable resources in the public cloud with some tailored strategies to do HPT in a parallel and cost-efficient manner. Orchestrating the HPT process upon transient servers, SpotTune uses two main techniques, fine-grained cost-aware resource provisioning, and ML training trend predicting, to reduce the monetary cost and runtime of HPT processes. Our evaluations show that SpotTune can reduce the cost by up to 90% and achieve a 16.61x performance-cost rate improvement.
翻訳日:2021-05-21 02:01:23 公開日:2020-12-07
# (参考訳) リアルタイム線量最適化のためのディープラーニングct再構成のロバスト性の検討 [全文訳有]

Robustness Investigation on Deep Learning CT Reconstruction for Real-Time Dose Optimization ( http://arxiv.org/abs/2012.03579v1 )

ライセンス: CC BY-SA 4.0
Chang Liu, Yixing Huang, Joscha Maier, Laura Klein, Marc Kachelrie{\ss}, Andreas Maier(参考訳) CTでは、患者への放射線照射を減らすために自動被曝制御(AEC)が頻繁に用いられる。 臓器特異的aecでは,線量最適化のための臓器形状の推定には予備的ct再構成が必要である。 本研究では,多様体近似(AUTOMAP)による自動変換の性能について検討する。 概念実証のために、まずMNISTデータセットの性能を検証し、10桁を含むデータセットをランダムにトレーニングセットとテストセットに分割する。 2つのプロジェクションまたは4つのプロジェクションから直接画像再構成するために、AUTOMAPモデルを訓練する。 テストの結果、AUTOMAPは、それぞれ1.6%と6.8%の偽率で、ほとんどの桁をよく再構築できることを示した。 続く実験では、MNISTデータセットは、例えば「2」のように、テストセットが除外された桁のみを含む間のみ、トレーニングセットが9桁を含むように分割される。 試験結果では、再建に2つの投影を用いた場合、桁「2」を「3」または「5」と誤予測し、虚偽率94.4%に達する。 医用画像に応用するために、AUTOMAPは患者のCT画像でも訓練されている。 テスト画像は平均根平均二乗誤差290huに達する。 粗い体の輪郭はよく再建されているが、一部の臓器は誤造されている。

In computed tomography (CT), automatic exposure control (AEC) is frequently used to reduce radiation dose exposure to patients. For organ-specific AEC, a preliminary CT reconstruction is necessary to estimate organ shapes for dose optimization, where only a few projections are allowed for real-time reconstruction. In this work, we investigate the performance of automated transform by manifold approximation (AUTOMAP) in such applications. For proof of concept, we investigate its performance on the MNIST dataset first, where the dataset containing all the 10 digits are randomly split into a training set and a test set. We train the AUTOMAP model for image reconstruction from 2 projections or 4 projections directly. The test results demonstrate that AUTOMAP is able to reconstruct most digits well with a false rate of 1.6% and 6.8% respectively. In our subsequent experiment, the MNIST dataset is split in a way that the training set contains 9 digits only while the test set contains the excluded digit only, for instance "2". In the test results, the digit "2"s are falsely predicted as "3" or "5" when using 2 projections for reconstruction, reaching a false rate of 94.4%. For the application in medical images, AUTOMAP is also trained on patients' CT images. The test images reach an average root-mean-square error of 290 HU. Although the coarse body outlines are well reconstructed, some organs are misshaped.
翻訳日:2021-05-21 01:38:46 公開日:2020-12-07
# (参考訳) PSCNet: 群衆カウントのためのピラミッドスケールとグローバルコンテキストガイドネットワーク [全文訳有]

PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd Counting ( http://arxiv.org/abs/2012.03597v1 )

ライセンス: CC BY 4.0
Guangshuai Gao, Qingjie Liu, Qi Wen, Yunhong Wang(参考訳) 画像中のオブジェクトの数を正確にカウントするクラウドカウントが、近年ますます注目を集めている。 しかし, 厳密な閉塞, 大規模変動, 複雑な背景干渉, 非一様密度分布による課題は, 群集数推定精度を制限している。 本稿では, ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) をベースとした, PSCNet と呼ばれる新しい群集カウント手法を提案する。 さらに、ベイジアンとカウントロス(BCL)を組み合わせた信頼性の高い監視手法を用いて、密度確率を学習し、各アノテーションポイントでカウント例外を算出する。 特にpsmは、画像スケールの異なる群衆の細かい境界を識別できるマルチスケール情報を適応的にキャプチャするために使用される。 GCMは、低複雑さで軽量な方法で設計され、特徴マップのチャネルをまたいだインタラクティブな情報をより効率的にし、一方、PSMからより適切なスケールを選択するようモデルに誘導する。 さらに、BLを利用して信頼性の高い密度寄与確率の監視方法を構築し、群衆の非一様密度分布をある程度緩和する。 4つの群集カウントデータセットの大規模な実験により,提案モデルの有効性と優位性を示した。 さらに、リモートセンシングオブジェクトカウント(RSOC)データセット上に拡張されたいくつかの実験は、モデルの一般化能力をさらに検証した。 当社のリソースコードは、この作業が受け入れられ次第、リリースされます。

Crowd counting, which towards to accurately count the number of the objects in images, has been attracted more and more attention by researchers recently. However, challenges from severely occlusion, large scale variation, complex background interference and non-uniform density distribution, limit the crowd number estimation accuracy. To mitigate above issues, this paper proposes a novel crowd counting approach based on pyramidal scale module (PSM) and global context module (GCM), dubbed PSCNet. Moreover, a reliable supervision manner combined Bayesian and counting loss (BCL) is utilized to learn the density probability and then computes the count exception at each annotation point. Specifically, PSM is used to adaptively capture multi-scale information, which can identify a fine boundary of crowds with different image scales. GCM is devised with low-complexity and lightweight manner, to make the interactive information across the channels of the feature maps more efficient, meanwhile guide the model to select more suitable scales generated from PSM. Furthermore, BL is leveraged to construct a credible density contribution probability supervision manner, which relieves non-uniform density distribution in crowds to a certain extent. Extensive experiments on four crowd counting datasets show the effectiveness and superiority of the proposed model. Additionally, some experiments extended on a remote sensing object counting (RSOC) dataset further validate the generalization ability of the model. Our resource code will be released upon the acceptance of this work.
翻訳日:2021-05-20 11:25:05 公開日:2020-12-07
# (参考訳) 大規模宇宙における原始物理学の位相エコー [全文訳有]

Topological Echoes of Primordial Physics in the Universe at Large Scales ( http://arxiv.org/abs/2012.03616v1 )

ライセンス: CC BY 4.0
Alex Cole, Matteo Biagetti, Gary Shiu(参考訳) 本稿では,宇宙論における初期条件を永続ホモロジーを通じて特徴付け,制約するパイプラインを提案する。 興味を持つ宇宙学的な観測は、大規模構造の宇宙網であり、問題の初期条件は原始密度摂動の非ガウス性(NG)である。 我々は、ガウス初期条件と非ガウス初期条件による暗黒物質ハロのシミュレーションのための永続図と導出統計を計算する。 計算上の理由と実験的な観測に接触するために,本パイプラインは全シミュレーションのサブボックス内の永続性を計算し,シミュレーションを一様ハロー数にサブサンプリングする。 私たちは大きなng(f_{\rm nl}^{\rm loc}=250$)のシミュレーションを、マイルドなng(f_{\rm nl}^{\rm loc}=10$)のデータを識別するためのテンプレートとして使用し、パイプラインを40~(\textrm{gpc/h})^{3}$で実行し、$f_{\rm nl}^{\rm loc}=10$ at $97.5\%$ $\sim 85\%$で検出します。 統計的推論の入力としてのトポロジカル特徴の解釈可能性から,従来の第一原理計算と接触し,新たな予測を行うことができる。

We present a pipeline for characterizing and constraining initial conditions in cosmology via persistent homology. The cosmological observable of interest is the cosmic web of large scale structure, and the initial conditions in question are non-Gaussianities (NG) of primordial density perturbations. We compute persistence diagrams and derived statistics for simulations of dark matter halos with Gaussian and non-Gaussian initial conditions. For computational reasons and to make contact with experimental observations, our pipeline computes persistence in sub-boxes of full simulations and simulations are subsampled to uniform halo number. We use simulations with large NG ($f_{\rm NL}^{\rm loc}=250$) as templates for identifying data with mild NG ($f_{\rm NL}^{\rm loc}=10$), and running the pipeline on several cubic volumes of size $40~(\textrm{Gpc/h})^{3}$, we detect $f_{\rm NL}^{\rm loc}=10$ at $97.5\%$ confidence on $\sim 85\%$ of the volumes for our best single statistic. Throughout we benefit from the interpretability of topological features as input for statistical inference, which allows us to make contact with previous first-principles calculations and make new predictions.
翻訳日:2021-05-20 10:57:47 公開日:2020-12-07
# (参考訳) 長い列の埋め込みによる文書の局所的変化検出 [全文訳有]

Topical Change Detection in Documents via Embeddings of Long Sequences ( http://arxiv.org/abs/2012.03619v1 )

ライセンス: CC BY 4.0
Dennis Aumiller, Satya Almasian, Sebastian Lackner and Michael Gertz(参考訳) 長い文書では、トピックは、通常、意味的にコヒーレントなセグメントで示されるような、ある章から次の節へとわずかに変化することが多い。 この潜在構造を文書で発見することで読みやすさが向上し,文節検索や要約作業に不可欠である。 テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化し,トランスフォーマティブに基づく言語モデルの学習に適している。 類似セクションの段落を微調整することで、学習した特徴がトピック情報を符号化し、セクション境界を見つけ、テキストを一貫性のあるセグメントに分割することができることを示すことができる。 文レベルで運用される従来のアプローチとは異なり、段落全体のより広い文脈を一貫して使い、受理と継承の主題的独立を前提としています。 最後に、オンラインターム・オブ・サービス文書から構築した、新しい大規模データセットを紹介し、様々な従来のベースラインとディープラーニングベースラインを比較し、トランスフォーマーベースの方法のパフォーマンスを大幅に向上させる。

In a longer document, the topic often slightly shifts from one passage to the next, where topic boundaries are usually indicated by semantically coherent segments. Discovering this latent structure in a document improves the readability and is essential for passage retrieval and summarization tasks. We formulate the task of text segmentation as an independent supervised prediction task, making it suitable to train on Transformer-based language models. By fine-tuning on paragraphs of similar sections, we are able to show that learned features encode topic information, which can be used to find the section boundaries and divide the text into coherent segments. Unlike previous approaches, which mostly operate on sentence-level, we consistently use a broader context of an entire paragraph and assume topical independence of preceeding and succeeding text. We lastly introduce a novel large-scale dataset constructed from online Terms-of-Service documents, on which we compare against various traditional and deep learning baselines, showing significantly better performance of Transformer-based methods.
翻訳日:2021-05-20 10:48:07 公開日:2020-12-07
# (参考訳) 連合学習におけるプライバシと堅牢性:攻撃と防御 [全文訳有]

Privacy and Robustness in Federated Learning: Attacks and Defenses ( http://arxiv.org/abs/2012.06337v1 )

ライセンス: CC BY 4.0
Lingjuan Lyu, Han Yu, Xingjun Ma, Lichao Sun, Jun Zhao, Qiang Yang, Philip S. Yu(参考訳) データがさまざまなサイロに格納され、社会がデータプライバシの問題をより意識するようになるにつれ、従来の人工知能(AI)モデルの集中トレーニングは、効率性とプライバシの課題に直面している。 近年,フェデレーテッド・ラーニング (FL) が代替ソリューションとして登場し,新たな現実に発展し続けている。 既存のFLプロトコルの設計は、システム内外の敵に対して脆弱であり、データのプライバシとシステムの堅牢性を損なうことが示されている。 強力なグローバルモデルのトレーニングに加えて、プライバシー保証を持ち、さまざまな種類の敵に耐性を持つFLシステムを設計することが最重要となる。 本稿では,本トピックに関する初の総合的な調査を行う。 1)脅威モデル,2)ロバスト性に対する毒殺攻撃と防御,3)プライバシに対する推論攻撃と防御などを通じて、我々はこの重要なトピックについて、アクセス可能なレビューを提供する。 我々は、様々な攻撃や防御によって採用される基本的な前提だけでなく、直感や鍵となる技術も強調する。 最後に,堅牢でプライバシーを保った連合学習に向けた今後の研究の方向性について述べる。

As data are increasingly being stored in different silos and societies becoming more aware of data privacy issues, the traditional centralized training of artificial intelligence (AI) models is facing efficiency and privacy challenges. Recently, federated learning (FL) has emerged as an alternative solution and continue to thrive in this new reality. Existing FL protocol design has been shown to be vulnerable to adversaries within or outside of the system, compromising data privacy and system robustness. Besides training powerful global models, it is of paramount importance to design FL systems that have privacy guarantees and are resistant to different types of adversaries. In this paper, we conduct the first comprehensive survey on this topic. Through a concise introduction to the concept of FL, and a unique taxonomy covering: 1) threat models; 2) poisoning attacks and defenses against robustness; 3) inference attacks and defenses against privacy, we provide an accessible review of this important topic. We highlight the intuitions, key techniques as well as fundamental assumptions adopted by various attacks and defenses. Finally, we discuss promising future research directions towards robust and privacy-preserving federated learning.
翻訳日:2021-05-20 10:32:40 公開日:2020-12-07
# (参考訳) ストリーミングデータにおけるK平均問題に対するパッシブアプローチ [全文訳有]

Passive Approach for the K-means Problem on Streaming Data ( http://arxiv.org/abs/2012.03628v1 )

ライセンス: CC BY 4.0
Arkaitz Bidaurrazaga, Aritz P\'erez and Marco Cap\'o(参考訳) 現在、世界中で生成されるデータ量は測定値を超えているため、教師なしデータの大量処理は継続して行わなければならない。 主要な教師なしデータ分析の1つはクラスタリングである。 ストリーミングデータシナリオでは、データは、概念ドリフト現象が起こる可能性のあるサンプルのバッチのシーケンスによって構成される。 本稿では,概念ドリフトが発生した場合のエラー関数の再起動を意味するStreaming $K$-means(S$K$M)問題を正式に定義する。 本稿では,概念ドリフト検出に依存しない代理誤差関数を提案する。 我々は、サロゲートがS$K$M誤差のよい近似であることを証明する。 したがって、新しいバッチが到着するたびに、この代替エラーを最小化するアルゴリズムを提案する。 ストリーミングデータシナリオの初期化手法についても紹介する。 理論的な結果を提供するだけでなく、実験は非自明な初期化法に対する収束誤差の改善を示す。

Currently the amount of data produced worldwide is increasing beyond measure, thus a high volume of unsupervised data must be processed continuously. One of the main unsupervised data analysis is clustering. In streaming data scenarios, the data is composed by an increasing sequence of batches of samples where the concept drift phenomenon may happen. In this paper, we formally define the Streaming $K$-means(S$K$M) problem, which implies a restart of the error function when a concept drift occurs. We propose a surrogate error function that does not rely on concept drift detection. We proof that the surrogate is a good approximation of the S$K$M error. Hence, we suggest an algorithm which minimizes this alternative error each time a new batch arrives. We present some initialization techniques for streaming data scenarios as well. Besides providing theoretical results, experiments demonstrate an improvement of the converged error for the non-trivial initialization methods.
翻訳日:2021-05-20 09:51:59 公開日:2020-12-07
# (参考訳) toeplitzペナルティによる非負行列因子分解 [全文訳有]

Nonnegative Matrix Factorization with Toeplitz Penalty ( http://arxiv.org/abs/2012.03694v1 )

ライセンス: CC BY 4.0
Matthew Corsetti and Ernest Fokou\'e(参考訳) 非負行列分解(Non negative Matrix Factorization、NMF)は、データ行列の線形部分に基づく近似を生成する教師なし学習アルゴリズムである。 NMFは、重みの非負の低ランク基底行列と非負の低ランク行列を構成する。 NMFアルゴリズムは、タスク固有の罰則や行列分解のコスト関数の制限を課す補助的制約を含むように修正することができる。 本稿では,基礎行列と重み行列の乗算更新にToeplitz行列を組み込んだ非データ依存型補助制約を用いた新しいNMFアルゴリズムを提案する。 我々は,新しいToeplitz Non negative Matrix Factorization (TNMF)アルゴリズムの顔認識性能と,データ依存的制約を用いたZellner Non negative Matrix Factorization (ZNMF)アルゴリズムの性能を比較した。 また、前述の2つのアルゴリズムの顔認識性能と、データに依存しない複数の制約付きNMFアルゴリズムの性能を比較する。 顔認識性能はCambridge ORL Database of FacesとYale Database of Facesを用いて評価する。

Nonnegative Matrix Factorization (NMF) is an unsupervised learning algorithm that produces a linear, parts-based approximation of a data matrix. NMF constructs a nonnegative low rank basis matrix and a nonnegative low rank matrix of weights which, when multiplied together, approximate the data matrix of interest using some cost function. The NMF algorithm can be modified to include auxiliary constraints which impose task-specific penalties or restrictions on the cost function of the matrix factorization. In this paper we propose a new NMF algorithm that makes use of non-data dependent auxiliary constraints which incorporate a Toeplitz matrix into the multiplicative updating of the basis and weight matrices. We compare the facial recognition performance of our new Toeplitz Nonnegative Matrix Factorization (TNMF) algorithm to the performance of the Zellner Nonnegative Matrix Factorization (ZNMF) algorithm which makes use of data-dependent auxiliary constraints. We also compare the facial recognition performance of the two aforementioned algorithms with the performance of several preexisting constrained NMF algorithms that have non-data-dependent penalties. The facial recognition performances are evaluated using the Cambridge ORL Database of Faces and the Yale Database of Faces.
翻訳日:2021-05-20 09:03:04 公開日:2020-12-07
# (参考訳) ローカルカーマニキュアの高速発電における経験から学ぶ [全文訳有]

Learning from Experience for Rapid Generation of Local Car Maneuvers ( http://arxiv.org/abs/2012.03707v1 )

ライセンス: CC BY 4.0
Piotr Kicki, Tomasz Gawron, Krzysztof \'Cwian, Mete Ozay, Piotr Skrzypczy\'nski(参考訳) 変化する状況や交通状況に素早く対応できることは、自動車の自律性にとって重要な意味を持つ。 本稿では,車体に拘束された車両を一定時間で実現可能なほぼ最適経路を計画するために,ディープニューラルネットワーク(DNN)を訓練することを提案する。 我々のDNNモデルは、新しい弱教師付きアプローチと勾配に基づくポリシー探索を用いて訓練されている。 実演・模擬シーンと多数のローカルプランニング問題において,本手法が完了したタスク数に対して,既存のプランナーよりも優れていることを示す。 経路生成時間はおよそ40ミリ秒であるが、生成された経路はスムーズで、従来の経路プランナーと同等である。

Being able to rapidly respond to the changing scenes and traffic situations by generating feasible local paths is of pivotal importance for car autonomy. We propose to train a deep neural network (DNN) to plan feasible and nearly-optimal paths for kinematically constrained vehicles in small constant time. Our DNN model is trained using a novel weakly supervised approach and a gradient-based policy search. On real and simulated scenes and a large set of local planning problems, we demonstrate that our approach outperforms the existing planners with respect to the number of successfully completed tasks. While the path generation time is about 40 ms, the generated paths are smooth and comparable to those obtained from conventional path planners.
翻訳日:2021-05-20 08:51:50 公開日:2020-12-07
# (参考訳) クレジットカード不正検出のための深層学習法 [全文訳有]

Deep Learning Methods for Credit Card Fraud Detection ( http://arxiv.org/abs/2012.03754v1 )

ライセンス: CC BY 4.0
Thanh Thi Nguyen, Hammad Tahir, Mohamed Abdelrazek, Ali Babar(参考訳) クレジットカード詐欺は引き続き増加傾向にあり、金融業界では大きな問題となっている。 これらの詐欺により、カード利用者は購入をためらうことになり、商店も金融機関も大きな損失を被る。 クレジットカード詐欺におけるいくつかの大きな課題は、公開データの可用性、データの高レベルの不均衡、詐欺の性質の変化、誤報の多さである。 機械学習技術はクレジットカード詐欺を検出するのに使われてきたが、不正検出システムはこれまで大きな効率性を提供できなかった。 近年,様々な分野の複雑な問題解決に深層学習が応用されている。 本稿では,クレジットカード不正検出問題の深層学習手法を徹底的に検討し,その性能を3種類の金融データセットにおける各種機械学習アルゴリズムと比較する。 実験結果は,従来の機械学習モデルに対する深層学習手法の優れた性能を示すとともに,実世界のクレジットカード不正検出システムに対して,提案手法を効果的に実装できることを示唆する。

Credit card frauds are at an ever-increasing rate and have become a major problem in the financial sector. Because of these frauds, card users are hesitant in making purchases and both the merchants and financial institutions bear heavy losses. Some major challenges in credit card frauds involve the availability of public data, high class imbalance in data, changing nature of frauds and the high number of false alarms. Machine learning techniques have been used to detect credit card frauds but no fraud detection systems have been able to offer great efficiency to date. Recent development of deep learning has been applied to solve complex problems in various areas. This paper presents a thorough study of deep learning methods for the credit card fraud detection problem and compare their performance with various machine learning algorithms on three different financial datasets. Experimental results show great performance of the proposed deep learning methods against traditional machine learning models and imply that the proposed approaches can be implemented effectively for real-world credit card fraud detection systems.
翻訳日:2021-05-20 08:29:32 公開日:2020-12-07
# (参考訳) 適応逐次saaによる2段階確率線形プログラムの解法

Adaptive Sequential SAA for Solving Two-stage Stochastic Linear Programs ( http://arxiv.org/abs/2012.03761v1 )

ライセンス: CC BY 4.0
Raghu Pasupathy and Yongjia Song(参考訳) 大規模2段階確率線形プログラムを解くために,適応型逐次SAAアルゴリズムを提案する。 私たちが提案する反復アルゴリズムフレームワークは、以下のように \emph{outer} と \emph{inner} の反復にまとめられている: 各外部イテレーションの間、サンプルパス問題は観察または `scenarios" のサンプルを使って暗黙的に生成され、推定された統計エラーと解エラーのバランスをとることにより、 \emph{adaptively} を選択する許容範囲内でのみ解かれる。 先行イテレーションからの解は、(一方向線形凸)サンプルパス最適化問題の効率的な解を支援するために 'emph{warm start} として機能する。 生成したシナリオは、ラテンハイデルキューブサンプリング、アンチセティックバリアレート、ランダム化された準モンテカルロを用いたモンテカルロ生成のように、独立して(iid)、あるいは依存することができる。 まず,最適性ギャップの近似収束(平均収束)と生成した確率的イテレートの真の解集合への距離を特徴付ける。 次に、対応する反復複雑性と作業複雑性率をサンプルサイズスケジュールの関数として特徴付け、最も達成可能な作業複雑性率がモンテカルロ標準であり、非滑らか凸最適化のための最適複雑性$$\mathcal{O}(\epsilon^{-2})に類似していることを証明する。 最適なサンプルサイズスケジュールを持つシーケンシャルフレームワークの使用とウォームスタートの使用が主な原因で,良好な性能を示す広範な数値テストを行った。 提案アルゴリズムは,品質の確率論的保証が与えられた解を返すために,有限時間で停止することができる。

We present adaptive sequential SAA (sample average approximation) algorithms to solve large-scale two-stage stochastic linear programs. The iterative algorithm framework we propose is organized into \emph{outer} and \emph{inner} iterations as follows: during each outer iteration, a sample-path problem is implicitly generated using a sample of observations or ``scenarios," and solved only \emph{imprecisely}, to within a tolerance that is chosen \emph{adaptively}, by balancing the estimated statistical error against solution error. The solutions from prior iterations serve as \emph{warm starts} to aid efficient solution of the (piecewise linear convex) sample-path optimization problems generated on subsequent iterations. The generated scenarios can be independent and identically distributed (iid), or dependent, as in Monte Carlo generation using Latin-hypercube sampling, antithetic variates, or randomized quasi-Monte Carlo. We first characterize the almost-sure convergence (and convergence in mean) of the optimality gap and the distance of the generated stochastic iterates to the true solution set. We then characterize the corresponding iteration complexity and work complexity rates as a function of the sample size schedule, demonstrating that the best achievable work complexity rate is Monte Carlo canonical and analogous to the generic $\mathcal{O}(\epsilon^{-2})$ optimal complexity for non-smooth convex optimization. We report extensive numerical tests that indicate favorable performance, due primarily to the use of a sequential framework with an optimal sample size schedule, and the use of warm starts. The proposed algorithm can be stopped in finite-time to return a solution endowed with a probabilistic guarantee on quality.
翻訳日:2021-05-20 08:16:48 公開日:2020-12-07
# (参考訳) シーン・コンプリートからの文脈形状の学習によるSparse Single Sweep LiDAR Point Cloud Segmentation [全文訳有]

Sparse Single Sweep LiDAR Point Cloud Segmentation via Learning Contextual Shape Priors from Scene Completion ( http://arxiv.org/abs/2012.03762v1 )

ライセンス: CC BY 4.0
Xu Yan, Jiantao Gao, Jie Li, Ruimao Zhang, Zhen Li, Rui Huang, Shuguang Cui(参考訳) LiDARポイントクラウド分析は、3Dコンピュータビジョン、特に自動運転のコアタスクである。 しかし、単一スイープlidar点雲の厳しいスパーシティとノイズ干渉のため、正確な意味セグメンテーションを達成することは容易ではない。 本稿では,学習した文脈形状の先行処理を支援する,新しい疎いLiDARポイントクラウドセマンティックセマンティックセグメンテーションフレームワークを提案する。 実際には、単一のスイープポイントクラウドの最初のセマンティックセグメンテーション(SS)は、魅力的なネットワークによって達成され、入力としてセマンティックシーン補完(SSC)モジュールに流れ込む。 最適化されたSSCモジュールは、LiDARシーケンス内の複数のフレームを監視としてマージすることにより、シーケンシャルなLiDARデータからコンテキスト形状を学習し、スパースな単一スイープポイントクラウドを高密度なものに仕上げる。 したがって、完全にエンドツーエンドのトレーニングによってSS最適化を本質的に改善する。 また,ポイント・ボクセル相互作用(pvi)モジュールは,ssタスクとsscタスクの知識融合,すなわち,ポイント・クラウドの不完全局所幾何と完全なボクセル・ワイズ・グローバル構造との相互作用を促進するために提案されている。 さらに、SSを余分に負担することなく、推論中に補助SSCおよびPVIモジュールを破棄することができる。 JS3C-NetはSemanticKITTIベンチマークとSemanticPOSSベンチマークの両方で優れたパフォーマンス、すなわち4%と3%の改善を実現しています。

LiDAR point cloud analysis is a core task for 3D computer vision, especially for autonomous driving. However, due to the severe sparsity and noise interference in the single sweep LiDAR point cloud, the accurate semantic segmentation is non-trivial to achieve. In this paper, we propose a novel sparse LiDAR point cloud semantic segmentation framework assisted by learned contextual shape priors. In practice, an initial semantic segmentation (SS) of a single sweep point cloud can be achieved by any appealing network and then flows into the semantic scene completion (SSC) module as the input. By merging multiple frames in the LiDAR sequence as supervision, the optimized SSC module has learned the contextual shape priors from sequential LiDAR data, completing the sparse single sweep point cloud to the dense one. Thus, it inherently improves SS optimization through fully end-to-end training. Besides, a Point-Voxel Interaction (PVI) module is proposed to further enhance the knowledge fusion between SS and SSC tasks, i.e., promoting the interaction of incomplete local geometry of point cloud and complete voxel-wise global structure. Furthermore, the auxiliary SSC and PVI modules can be discarded during inference without extra burden for SS. Extensive experiments confirm that our JS3C-Net achieves superior performance on both SemanticKITTI and SemanticPOSS benchmarks, i.e., 4% and 3% improvement correspondingly.
翻訳日:2021-05-18 14:14:54 公開日:2020-12-07
# (参考訳) テキストから不適切な質問を検出する:伝達学習アプローチ [全文訳有]

Detecting Insincere Questions from Text: A Transfer Learning Approach ( http://arxiv.org/abs/2012.07587v1 )

ライセンス: CC BY 4.0
Ashwin Rachha and Gaurav Vanmane(参考訳) 今日インターネットは、quora、reddit、stackoverflow、twitterなどのコンテンツベースのウェブサイトで、疑わしい質問をしたり、知識を世界中と共有したりする、未解決の情報ソースになっている。 このようなウェブサイトで生じる大きな問題は、有害なコメントの拡散や、ユーザーが誠実なモチベーションを保ちながら、有害で異質なコンテンツを広めることである。 この状況に直面する直接的な行動は、そのようなコンテンツを事前に検出し、オンラインに登録するのを防ぐことである。 近年、自然言語処理におけるトランスファー学習は前例のない成長を遂げている。 今日、変圧器の存在と様々な技術革新の状況により、様々なNLPドメインで大きな成長を遂げている。 BERTの導入は、NLPコミュニティに大きな刺激を与えました。 前述のように、BERTはパフォーマンスベンチマークを支配し、他の多くの著者に同様のモデルの実験と公開を刺激した。 これによりBERTファミリー全体が開発され、各メンバーは別のタスクに特化していた。 本稿では, 切削年齢モデルviz BERT, RoBERTa, DistilBERT, ALBERT を微調整することで, インシンセア質問分類問題を解決する。

The internet today has become an unrivalled source of information where people converse on content based websites such as Quora, Reddit, StackOverflow and Twitter asking doubts and sharing knowledge with the world. A major arising problem with such websites is the proliferation of toxic comments or instances of insincerity wherein the users instead of maintaining a sincere motive indulge in spreading toxic and divisive content. The straightforward course of action in confronting this situation is detecting such content beforehand and preventing it from subsisting online. In recent times Transfer Learning in Natural Language Processing has seen an unprecedented growth. Today with the existence of transformers and various state of the art innovations, a tremendous growth has been made in various NLP domains. The introduction of BERT has caused quite a stir in the NLP community. As mentioned, when published, BERT dominated performance benchmarks and thereby inspired many other authors to experiment with it and publish similar models. This led to the development of a whole BERT-family, each member being specialized on a different task. In this paper we solve the Insincere Questions Classification problem by fine tuning four cutting age models viz BERT, RoBERTa, DistilBERT and ALBERT.
翻訳日:2021-05-18 13:55:42 公開日:2020-12-07
# (参考訳) 機械学習を用いた腎移植の生存予測モデル [全文訳有]

A predictive model for kidney transplant graft survival using machine learning ( http://arxiv.org/abs/2012.03787v1 )

ライセンス: CC BY 4.0
Eric S. Pahl, W. Nick Street, Hans J. Johnson, Alan I. Reed(参考訳) 腎臓移植は末期腎不全患者に最適な治療法である。 腎臓品質評価に用いられる主な方法は、Cox回帰に基づく腎臓ドナーリスク指標である。 機械学習は、移植結果の予測を改善し、意思決定を支援する。 木をベースとした機械学習手法であるランダムフォレスト(ランダムフォレスト)を,1995-2005年の70,242件のリスク指標の開発に使用した同じデータを用いて訓練し,評価した。 ランダム・フォレストは、リスク指標よりも2,148回の移植を行い、II型エラー率は10%と予測した。 kaplan-meier 法による移植後240カ月までの生存率で予測結果を解析し,ランダム林はリスク指数 (p<0.05) よりも有意に良好であったことを確認した。 ランダムフォレストはリスク指数よりも成功し、長期生存できる移植を予測した。 ランダムフォレストやその他の機械学習モデルは移植決定を改善する可能性がある。

Kidney transplantation is the best treatment for end-stage renal failure patients. The predominant method used for kidney quality assessment is the Cox regression-based, kidney donor risk index. A machine learning method may provide improved prediction of transplant outcomes and help decision-making. A popular tree-based machine learning method, random forest, was trained and evaluated with the same data originally used to develop the risk index (70,242 observations from 1995-2005). The random forest successfully predicted an additional 2,148 transplants than the risk index with equal type II error rates of 10%. Predicted results were analyzed with follow-up survival outcomes up to 240 months after transplant using Kaplan-Meier analysis and confirmed that the random forest performed significantly better than the risk index (p<0.05). The random forest predicted significantly more successful and longer-surviving transplants than the risk index. Random forests and other machine learning models may improve transplant decisions.
翻訳日:2021-05-18 13:13:08 公開日:2020-12-07
# (参考訳) 連合学習における動的クラスタリング [全文訳有]

Dynamic Clustering in Federated Learning ( http://arxiv.org/abs/2012.03788v1 )

ライセンス: CC BY-SA 4.0
Yeongwoo Kim, Ezeddin Al Hakim, Johan Haraldson, Henrik Eriksson, Jos\'e Mairton B. da Silva Jr., Carlo Fischione(参考訳) 無線ネットワークのリソース管理では、フェデレーション学習がハンドオーバの予測に使われている。 しかし、非独立で同一に分布するデータは、これらの予測の精度を低下させる。 この問題を解決するために、フェデレーション学習はデータクラスタリングアルゴリズムを活用し、各クラスタに機械学習モデルを構築することができる。 しかし、ハンドオーバ予測に適用された従来のデータクラスタリングアルゴリズムは、データのプライバシ侵害のリスク、クラスタの固定形、クラスタの非適応数という3つの大きな制限を示している。 本稿では,これらの制約を克服するために,3段階のデータクラスタリングアルゴリズム,すなわち,生成的対向的ネットワークベースのクラスタリング,クラスタキャリブレーション,クラスタ分割を提案する。 ネットワークベースのクラスタリングがプライバシを保護していることを示す。 クラスタキャリブレーションは、クラスタを変更することで動的環境を扱う。 さらに、分割クラスタリングは、クラスタを複数のクラスタに繰り返し選択して分割することで、異なるクラスタ数を探索する。 時系列予測タスクにおいて,ベースラインアルゴリズムと本アルゴリズムを検証した。 提案アルゴリズムは,セルラーネットワークハンドオーバを含む予測モデルの性能を43%向上させる。

In the resource management of wireless networks, Federated Learning has been used to predict handovers. However, non-independent and identically distributed data degrade the accuracy performance of such predictions. To overcome the problem, Federated Learning can leverage data clustering algorithms and build a machine learning model for each cluster. However, traditional data clustering algorithms, when applied to the handover prediction, exhibit three main limitations: the risk of data privacy breach, the fixed shape of clusters, and the non-adaptive number of clusters. To overcome these limitations, in this paper, we propose a three-phased data clustering algorithm, namely: generative adversarial network-based clustering, cluster calibration, and cluster division. We show that the generative adversarial network-based clustering preserves privacy. The cluster calibration deals with dynamic environments by modifying clusters. Moreover, the divisive clustering explores the different number of clusters by repeatedly selecting and dividing a cluster into multiple clusters. A baseline algorithm and our algorithm are tested on a time series forecasting task. We show that our algorithm improves the performance of forecasting models, including cellular network handover, by 43%.
翻訳日:2021-05-18 13:04:36 公開日:2020-12-07
# (参考訳) 心不整脈分類における心電図信号の超解像 [全文訳有]

ECG Signal Super-resolution by Considering Reconstruction and Cardiac Arrhythmias Classification Loss ( http://arxiv.org/abs/2012.03803v1 )

ライセンス: CC BY-SA 4.0
Tsai-Min Chen (1 and 2), Yuan-Hong Tsai (3 and 4), Huan-Hsin Tseng (2), Jhih-Yu Chen (5), Chih-Han Huang (6), Guo-Yuan Li (3 and 4), Chun-Yen Shen (1 and 7) and Yu Tsao (1 and 2) ((1) Graduate Program of Data Science, National Taiwan University and Academia Sinica, Taipei, Taiwan, (2) Research Center for Information Technology Innovation, Academia Sinica, Taipei, Taiwan, (3) Taiwan AI Academy, Science and Technology Ecosystem Development Foundation, Taipei, Taiwan, (4) Artificial Intelligence Foundation, Taipei, Taiwan, (5) Graduate Institute of Biomedical Electronics and Bioinformatics, National Taiwan University, Taipei, Taiwan, (6) Institute of Biomedical Sciences, Academia Sinica, Taipei, Taiwan, (7) Department of Mathematics, National Taiwan University, Taipei, Taiwan)(参考訳) 近年のディープラーニングアルゴリズムの進歩により、特にモバイルデバイスと組み合わせた場合、コンピュータ支援医療サービスが急速に成長している。 このような組み合わせは、連続測定のためのウェアラブルサービスとポータブルサービスを可能にし、心電図(ECG)からの心不整脈(CA)などの生理学的信号に基づいてリアルタイムの病気警報を促進する。 しかし、長期かつ継続的な監視は、バッテリーの制限やデバイスの伝送帯域から生じる課題に直面している。 そのため、ECGデータ伝送とストレージ効率を改善する効果的な方法の特定が課題となっている。 本研究では,深層学習に基づくECG信号超解像フレームワーク(ESRNet)を提案し,信号再構成とCA分類精度の併用効果を考慮した圧縮ECG信号を復元する。 実験では,CPSC 2018データセットからECG信号をサンプリングし,再構成誤差と分類精度の両方で超解像性能を評価した。 実験の結果,提案するESRNetフレームワークは10回圧縮されたデータからECG信号を十分に再構成できることがわかった。 さらに、ESRNetにより回収されたECG信号には、約半数のCA認識精度が維持された。 提案するESRNetフレームワークは,実世界のCA認識シナリオにおいて圧縮ECG信号を再構成するフロントエンドプロセスとして好適に利用できることを確認した。

With recent advances in deep learning algorithms, computer-assisted healthcare services have rapidly grown, especially for those that combine with mobile devices. Such a combination enables wearable and portable services for continuous measurements and facilitates real-time disease alarm based on physiological signals, e.g., cardiac arrhythmias (CAs) from electrocardiography (ECG). However, long-term and continuous monitoring confronts challenges arising from limitations of batteries, and the transmission bandwidth of devices. Therefore, identifying an effective way to improve ECG data transmission and storage efficiency has become an emerging topic. In this study, we proposed a deep-learning-based ECG signal super-resolution framework (termed ESRNet) to recover compressed ECG signals by considering the joint effect of signal reconstruction and CA classification accuracies. In our experiments, we downsampled the ECG signals from the CPSC 2018 dataset and subsequently evaluated the super-resolution performance by both reconstruction errors and classification accuracies. Experimental results showed that the proposed ESRNet framework can well reconstruct ECG signals from the 10-times compressed ones. Moreover, approximately half of the CA recognition accuracies were maintained within the ECG signals recovered by the ESRNet. The promising results confirm that the proposed ESRNet framework can be suitably used as a front-end process to reconstruct compressed ECG signals in real-world CA recognition scenarios.
翻訳日:2021-05-18 12:36:46 公開日:2020-12-07
# (参考訳) 選択問題における公平性とプライバシーの改善 [全文訳有]

Improving Fairness and Privacy in Selection Problems ( http://arxiv.org/abs/2012.03812v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Khalili, Xueru Zhang, Mahed Abroshan, Somayeh Sojoudi(参考訳) 教師付き学習モデルは、雇用、貸付、大学入学などのアプリケーションにおける個人に関する意思決定にますます使われてきた。 これらのモデルは、トレーニングデータセットから既存のバイアスを継承し、保護された属性(例えば、人種や性別)を識別する。 不公平さに加えて、モデルの使用が機密性の高い個人情報を明らかにすると、プライバシーの懸念が生じる。 さまざまなプライバシー概念の中で、ディファレンシャルプライバシは近年普及している。 本研究では,教師付き学習モデルの公平性とプライバシの両方を改善するための後処理ステップとして,微分的にプライベートな指数関数的メカニズムを用いる可能性について検討する。 既存の多くの作品と異なり、利用可能なポジションの数が限られているため、教師付きモデルを用いて限られた数の応募者を選定するシナリオを考える。 この仮定は、就職申請や大学入学など、様々なシナリオに適している。 我々は「平等の機会」を公平性の概念として使用し、指数関数的メカニズムによって意思決定プロセスが完全に公平になることを示す。 さらに,実世界のデータセットに関する実験では,指数関数的メカニズムがプライバシと公平性の両方を改善し,後処理を伴わないモデルと比較して精度をわずかに低下させることが示されている。

Supervised learning models have been increasingly used for making decisions about individuals in applications such as hiring, lending, and college admission. These models may inherit pre-existing biases from training datasets and discriminate against protected attributes (e.g., race or gender). In addition to unfairness, privacy concerns also arise when the use of models reveals sensitive personal information. Among various privacy notions, differential privacy has become popular in recent years. In this work, we study the possibility of using a differentially private exponential mechanism as a post-processing step to improve both fairness and privacy of supervised learning models. Unlike many existing works, we consider a scenario where a supervised model is used to select a limited number of applicants as the number of available positions is limited. This assumption is well-suited for various scenarios, such as job application and college admission. We use ``equal opportunity'' as the fairness notion and show that the exponential mechanisms can make the decision-making process perfectly fair. Moreover, the experiments on real-world datasets show that the exponential mechanism can improve both privacy and fairness, with a slight decrease in accuracy compared to the model without post-processing.
翻訳日:2021-05-18 11:48:58 公開日:2020-12-07
# (参考訳) 脆弱性予測:理論と実践 [全文訳有]

Vulnerability Forecasting: In theory and practice ( http://arxiv.org/abs/2012.03814v1 )

ライセンス: CC BY 4.0
\'Eireann Leverett, Matilda Rhode, Adam Wedgbury(参考訳) 事前に予測できたら、なぜゼロデイを待つのか? NVDで放出されるCVEの体積を1年前まで予測することが可能である。 これは実際の値の3%以内に行うことができ、異なる予測アルゴリズムは異なるルックアヘッド値でうまく機能する。 また、特定のベンダー、ソフトウェア、CVSSスコア、または脆弱性タイプに属する合計Volumnの割合を推定することもできる。 この不確実性を減らすことで、戦略的パッチ管理がより簡単になるはずだ。

Why wait for zero-days when you could predict them in advance? It is possible to predict the volume of CVEs released in the NVD as much as a year in advance. This can be done within 3 percent of the actual value, and different predictive algorithms perform well at different lookahead values. It is also possible to estimate the proportions of that total volumn belonging to specific vendors, software, CVSS scores, or vulnerability types. Strategic patch management should become much easier, with this uncertainty reduction.
翻訳日:2021-05-18 10:48:02 公開日:2020-12-07
# (参考訳) 差分プライバシーのための有界雑音機構 [全文訳有]

A bounded-noise mechanism for differential privacy ( http://arxiv.org/abs/2012.03817v1 )

ライセンス: CC BY 4.0
Yuval Dagan, Gil Kur(参考訳) 複数のカウントクエリを答えることが、差分プライバシーの最もよく研究されている問題のひとつだ。 その目標は、平均$\frac{1}{n}\sum_{i=1}^n \vec{x}^{(i)}$ of vectors $\vec{x}^{(i)} \in [0,1]^k$ の近似を出力し、任意の$\vec{x}^{(i)}$に対してプライバシを保存することである。 我々は、$\delta$のほとんどの値に対して最適な$\ell_\infty$エラーを持つ$(\epsilon,\delta)$- privateメカニズムを示す。 この結果は、これら$\delta$ の値に対するsteinke と ullman [2020] の予想を解消する。 このアルゴリズムは、k$座標のそれぞれに有界大小の独立なノイズを付加するが、以前の解はラプラスやガウス機構のような非有界なノイズに依存する。

Answering multiple counting queries is one of the best-studied problems in differential privacy. Its goal is to output an approximation of the average $\frac{1}{n}\sum_{i=1}^n \vec{x}^{(i)}$ of vectors $\vec{x}^{(i)} \in [0,1]^k$, while preserving the privacy with respect to any $\vec{x}^{(i)}$. We present an $(\epsilon,\delta)$- private mechanism with optimal $\ell_\infty$ error for most values of $\delta$. This result settles the conjecture of Steinke and Ullman [2020] for the these values of $\delta$. Our algorithm adds independent noise of bounded magnitude to each of the $k$ coordinates, while prior solutions relied on unbounded noise such as the Laplace and Gaussian mechanisms.
翻訳日:2021-05-18 10:30:57 公開日:2020-12-07
# (参考訳) 意味と形態の相関関係は何か [全文訳有]

What Meaning-Form Correlation Has to Compose With ( http://arxiv.org/abs/2012.03833v1 )

ライセンス: CC BY-SA 4.0
Timothee Mickus, Timoth\'ee Bernard, Denis Paperno(参考訳) 構成性は自然言語の性質として広く議論されているが、その正確な定義は解明されている。 構成性は意味-形態の相関を測ることで評価できるという提案に焦点をあてる。 i) 合成に適した人工玩具言語, (ii) 英辞書定義のセット, (iii) 文学から引き出された英文のセットの3つの言語について, 意味と形態の相関を解析した。 MFC測定では,同義語や非接地語などの言語現象が重なり,その効果を緩和するための簡単な手法が適用されるデータセットによって大きく異なる結果をもたらすことがわかった。 データとコードは公開されています。

Compositionality is a widely discussed property of natural languages, although its exact definition has been elusive. We focus on the proposal that compositionality can be assessed by measuring meaning-form correlation. We analyze meaning-form correlation on three sets of languages: (i) artificial toy languages tailored to be compositional, (ii) a set of English dictionary definitions, and (iii) a set of English sentences drawn from literature. We find that linguistic phenomena such as synonymy and ungrounded stop-words weigh on MFC measurements, and that straightforward methods to mitigate their effects have widely varying results depending on the dataset they are applied to. Data and code are made publicly available.
翻訳日:2021-05-18 10:13:02 公開日:2020-12-07
# (参考訳) ローカル更新によるディープネットワークの並列トレーニング [全文訳有]

Parallel Training of Deep Networks with Local Updates ( http://arxiv.org/abs/2012.03837v1 )

ライセンス: CC BY 4.0
Michael Laskin, Luke Metz, Seth Nabarrao, Mark Saroufim, Badreddine Noune, Carlo Luschi, Jascha Sohl-Dickstein, Pieter Abbeel(参考訳) 大規模データセットでトレーニングされたディープラーニングモデルは、ビジョンと言語ドメインの両方で広く成功している。 最先端のディープラーニングアーキテクチャはパラメータ数の増加を続けており、トレーニングに必要な計算予算と時間を確保でき、訓練を並列化する計算効率の高い方法の必要性が高まっている。 ディープネットワークのトレーニングを並列化する一般的なアプローチは、データとモデル並列化である。 有用ではあるが、データとモデルの並列処理は大規模なバッチサイズに対する計算効率の点でリターンの低下に悩まされる。 本稿では,グローバルバックプロパゲーションを廃止層毎バックプロパゲーションに置き換えることで,ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークであるlocal parallelismを通じて,大規模バッチのリターンを減少させる点を超えて,計算を効率的にスケーリングする方法について検討する。 ローカル並列化は、メモリフットプリントの少ない完全に非同期なレイヤワイド並列化を可能にし、モデル並列化と比較して通信オーバーヘッドが少ない。 我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。

Deep learning models trained on large data sets have been widely successful in both vision and language domains. As state-of-the-art deep learning architectures have continued to grow in parameter count so have the compute budgets and times required to train them, increasing the need for compute-efficient methods that parallelize training. Two common approaches to parallelize the training of deep networks have been data and model parallelism. While useful, data and model parallelism suffer from diminishing returns in terms of compute efficiency for large batch sizes. In this paper, we investigate how to continue scaling compute efficiently beyond the point of diminishing returns for large batches through local parallelism, a framework which parallelizes training of individual layers in deep networks by replacing global backpropagation with truncated layer-wise backpropagation. Local parallelism enables fully asynchronous layer-wise parallelism with a low memory footprint, and requires little communication overhead compared with model parallelism. We show results in both vision and language domains across a diverse set of architectures, and find that local parallelism is particularly effective in the high-compute regime.
翻訳日:2021-05-18 09:57:40 公開日:2020-12-07
# (参考訳) CycleQSM:物理インフォームドサイクロンを用いた教師なしQSMディープラーニング [全文訳有]

CycleQSM: Unsupervised QSM Deep Learning using Physics-Informed CycleGAN ( http://arxiv.org/abs/2012.03842v1 )

ライセンス: CC BY 4.0
Gyutaek Oh, Hyokyoung Bae, Hyun-Seo Ahn, Sung-Hong Park, and Jong Chul Ye(参考訳) 定量的感受性マッピング(QSM)は、組織の磁気感受性値の空間分布を提供する有用な磁気共鳴イメージング(MRI)技術である。 QSMは、位相像から双極子核を分離することで得るが、双極子核のスペクトルヌルは逆転を不正にする。 近年のディープラーニング手法は、高速な再構築時間にもかかわらず、古典的なアプローチと同等のQSM再構成性能を示している。 しかし,既存の深層学習手法の多くは教師付き学習に基づいているため,入力位相画像と接地トラスマップのマッチングが必要である。 さらに,教師付き学習がQSM値の過小評価につながることが報告された。 そこで本稿では,最適移動度の観点から導出される物理式サイクガンを用いた教師なしqsm深層学習法を提案する。 従来のサイクルGANとは対照的に、新しいサイクルGANは既知の双極子カーネルのおかげで1つのジェネレータと1つの識別器しか持たない。 実験の結果,本手法は既存の深層学習法に比べて高精度なqsmマップを提供し,超高速復元にもかかわらず最良な古典的手法に競争力をもたらすことがわかった。

Quantitative susceptibility mapping (QSM) is a useful magnetic resonance imaging (MRI) technique which provides spatial distribution of magnetic susceptibility values of tissues. QSMs can be obtained by deconvolving the dipole kernel from phase images, but the spectral nulls in the dipole kernel make the inversion ill-posed. In recent times, deep learning approaches have shown a comparable QSM reconstruction performance as the classic approaches, despite the fast reconstruction time. Most of the existing deep learning methods are, however, based on supervised learning, so matched pairs of input phase images and the ground-truth maps are needed. Moreover, it was reported that the supervised learning often leads to underestimated QSM values. To address this, here we propose a novel unsupervised QSM deep learning method using physics-informed cycleGAN, which is derived from optimal transport perspective. In contrast to the conventional cycleGAN, our novel cycleGAN has only one generator and one discriminator thanks to the known dipole kernel. Experimental results confirm that the proposed method provides more accurate QSM maps compared to the existing deep learning approaches, and provide competitive performance to the best classical approaches despite the ultra-fast reconstruction.
翻訳日:2021-05-18 09:32:17 公開日:2020-12-07
# (参考訳) 多言語会話エージェントモデルにおける言語間伝達学習手法の評価 [全文訳有]

Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual Conversational Agent Models ( http://arxiv.org/abs/2012.03864v1 )

ライセンス: CC BY 4.0
Lizhen Tan and Olga Golovneva(参考訳) 近年、ボイスアシスタントデバイスの人気が高まっており、他の国や言語のユーザー層に利用できるようにすることへの関心が高まっている。 しかし、特定のユーザに対して最高の精度と最高のパフォーマンスを提供するため、既存の音声アシスタントモデルは各地域や言語ごとに個別に開発されており、これには線形投資が必要である。 本稿では,自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。 異なるディープラーニングアーキテクチャが多言語nluモデルのパフォーマンスに与える影響について検討する。 実験結果から,これらの多言語モデルは,言語固有のテストデータ間での単言語モデルと同等あるいはそれ以上の性能が得られるが,機能作成やモデルメンテナンスの労力は少なくなることが示された。

With the recent explosion in popularity of voice assistant devices, there is a growing interest in making them available to user populations in additional countries and languages. However, to provide the highest accuracy and best performance for specific user populations, most existing voice assistant models are developed individually for each region or language, which requires linear investment of effort. In this paper, we propose a general multilingual model framework for Natural Language Understanding (NLU) models, which can help bootstrap new language models faster and reduce the amount of effort required to develop each language separately. We explore how different deep learning architectures affect multilingual NLU model performance. Our experimental results show that these multilingual models can reach same or better performance compared to monolingual models across language-specific test data while require less effort in creating features and model maintenance.
翻訳日:2021-05-18 09:12:09 公開日:2020-12-07
# (参考訳) ツェルナーペナルティによる非負行列因子分解 [全文訳有]

Nonnegative Matrix Factorization with Zellner Penalty ( http://arxiv.org/abs/2012.03889v1 )

ライセンス: CC BY 4.0
Matthew Corsetti and Ernest Fokou\'e(参考訳) 非負行列分解(Non negative matrix factorization, NMF)は、非負行列を部分ベースで低次元の線形表現に分解する比較的新しい非教師付き学習アルゴリズムである。 NMFは画像処理、テキストマイニング、レコメンデーションシステムなど様々な分野で応用されている。 当初から、NMFアルゴリズムは多くの著者によって修正され、探索されてきた。 そのような修正の1つは、因子化の目的関数に補助的制約を加えることである。 これらの補助的制約の目的は、目的関数にタスク固有の罰則や制限を課すことである。 多くの補助的制約が研究されているが、データに依存した罰則は使われていない。 本稿では,データ依存的制約を用いたZellner non negative matrix factorization (ZNMF)を提案する。 ケンブリッジ ORL データベースを用いて,ZNMF アルゴリズムと他のよく知られた制約付きNMF アルゴリズムの顔認識性能を評価する。

Nonnegative matrix factorization (NMF) is a relatively new unsupervised learning algorithm that decomposes a nonnegative data matrix into a parts-based, lower dimensional, linear representation of the data. NMF has applications in image processing, text mining, recommendation systems and a variety of other fields. Since its inception, the NMF algorithm has been modified and explored by numerous authors. One such modification involves the addition of auxiliary constraints to the objective function of the factorization. The purpose of these auxiliary constraints is to impose task-specific penalties or restrictions on the objective function. Though many auxiliary constraints have been studied, none have made use of data-dependent penalties. In this paper, we propose Zellner nonnegative matrix factorization (ZNMF), which uses data-dependent auxiliary constraints. We assess the facial recognition performance of the ZNMF algorithm and several other well-known constrained NMF algorithms using the Cambridge ORL database.
翻訳日:2021-05-18 09:04:16 公開日:2020-12-07
# (参考訳) ロスシー単一サーバ情報検索におけるユーザプライバシ生成 [全文訳有]

Generative Adversarial User Privacy in Lossy Single-Server Information Retrieval ( http://arxiv.org/abs/2012.03902v1 )

ライセンス: CC0 1.0
Chung-Wei Weng, Yauhen Yakimenka, Hsuan-Yin Lin, Eirik Rosnes, Joerg Kliewer(参考訳) 本稿では,ユーザゆがみとユーザのプライバシー制約の両方の下で,単一のサーバに格納されたファイルのデータセットからの情報検索の問題を考える。 具体的には、データセットからファイルを要求するユーザは、所定の歪みで要求されたファイルを再構築することができ、さらに、要求されたファイルの同一性を所定のプライバシーレベルでサーバからプライベートにしておく必要がある。 提案モデルは,検索過程の歪みを許容し,完全なプライバシー要件を緩和することにより,情報検索の周知概念の拡張と見なすことができる。 ダウンロード率,歪み,ユーザプライバシリークのトレードオフについて検討し,最適なレート・歪み・遅延トレードオフが凸であり,ファイルサイズが大きければ,相互情報の観点から簡潔な情報理論の定式化が可能になることを示す。 さらに,新しいデータ駆動型フレームワークを提案する。データ自体からのダウンロード率という観点で,ユーザが効率的なスキームを学習できるジェネレーティブ・アドバーサリーモデルの最近の進歩を活用している。 このスキームの学習は、要求されたファイルのアイデンティティをプライベートに保つことを希望するユーザと、歪んだ制約の下でユーザが興味を持つファイルを推測しようとする敵との間の制約付きミニマックスゲームとして定式化されている。 一般的に、特定のプライバシレベルの保証は、高いレート歪みのトレードオフ曲線につながるため、ダウンロード率または歪みの犠牲になる。 我々は、合成ガウスデータセットおよびmnistおよびcifar-$10$データセットにおけるスキームの性能を評価する。 MNISTデータセットでは、データ駆動型アプローチは、ソースコードと複数のファイルのダウンロードを組み合わせた一般的な達成可能なスキームを著しく上回り、CIFAR-$10$のパフォーマンスは同等である。

We consider the problem of information retrieval from a dataset of files stored on a single server under both a user distortion and a user privacy constraint. Specifically, a user requesting a file from the dataset should be able to reconstruct the requested file with a prescribed distortion, and in addition, the identity of the requested file should be kept private from the server with a prescribed privacy level. The proposed model can be seen as an extension of the well-known concept of private information retrieval by allowing for distortion in the retrieval process and relaxing the perfect privacy requirement. We initiate the study of the tradeoff between download rate, distortion, and user privacy leakage, and show that the optimal rate-distortion-leak age tradeoff is convex and that in the limit of large file sizes this allows for a concise information-theoreti cal formulation in terms of mutual information. Moreover, we propose a new data-driven framework by leveraging recent advancements in generative adversarial models which allows a user to learn efficient schemes in terms of download rate from the data itself. Learning the scheme is formulated as a constrained minimax game between a user which desires to keep the identity of the requested file private and an adversary that tries to infer which file the user is interested in under a distortion constraint. In general, guaranteeing a certain privacy level leads to a higher rate-distortion tradeoff curve, and hence a sacrifice in either download rate or distortion. We evaluate the performance of the scheme on a synthetic Gaussian dataset as well as on the MNIST and CIFAR-$10$ datasets. For the MNIST dataset, the data-driven approach significantly outperforms a proposed general achievable scheme combining source coding with the download of multiple files, while for CIFAR-$10$ the performances are comparable.
翻訳日:2021-05-18 08:55:00 公開日:2020-12-07
# (参考訳) MultiON:マルチオブジェクトナビゲーションを用いた意味マップメモリのベンチマーク [全文訳有]

MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation ( http://arxiv.org/abs/2012.03912v1 )

ライセンス: CC BY 4.0
Saim Wani, Shivansh Patel, Unnat Jain, Angel X. Chang, Manolis Savva(参考訳) フォトリアリスティックな3d環境におけるナビゲーションタスクは、部分的可観測性の下で知覚と効果的な計画を必要とするため、困難である。 最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。 しかし、地図が様々な複雑さのナビゲーションタスクに与える影響についての研究はまだ行われていない。 本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。 MultiONはObjectGoalナビゲーションタスクを一般化し、ナビゲーションエージェントが以前に観測されたゴールオブジェクトを見つける能力を明示的にテストする。 マルチオン実験を行い,様々なエージェントモデルがナビゲーションタスクの複雑度を横断してどのように振る舞うかを検証した。 実験の結果, ナビゲーション性能は, タスクの複雑さを増大させるとともに劇的に低下することがわかった。i) 単純な意味地図エージェントは, より複雑なニューラルイメージ特徴マップエージェントと比較して驚くほどよく機能し, iii) オラクルマップエージェントでさえ比較的低い性能を達成し, 地図を用いた具体化ナビゲーションエージェントの訓練における今後の作業の可能性を示している。 ビデオ要約: https://youtu.be/yqT lHNIcgnY

Navigation tasks in photorealistic 3D environments are challenging because they require perception and effective planning under partial observability. Recent work shows that map-like memory is useful for long-horizon navigation tasks. However, a focused investigation of the impact of maps on navigation tasks of varying complexity has not yet been performed. We propose the multiON task, which requires navigation to an episode-specific sequence of objects in a realistic environment. MultiON generalizes the ObjectGoal navigation task and explicitly tests the ability of navigation agents to locate previously observed goal objects. We perform a set of multiON experiments to examine how a variety of agent models perform across a spectrum of navigation task complexities. Our experiments show that: i) navigation performance degrades dramatically with escalating task complexity; ii) a simple semantic map agent performs surprisingly well relative to more complex neural image feature map agents; and iii) even oracle map agents achieve relatively low performance, indicating the potential for future work in training embodied navigation agents using maps. Video summary: https://youtu.be/yqT lHNIcgnY
翻訳日:2021-05-18 08:25:37 公開日:2020-12-07
# (参考訳) VC次元と分布自由サンプルベーステスト

VC Dimension and Distribution-Free Sample-Based Testing ( http://arxiv.org/abs/2012.03923v1 )

ライセンス: CC BY 4.0
Eric Blais, Renato Ferreira Pinto Jr., Nathaniel Harms(参考訳) 標準的なPAC学習環境に対応する分布自由サンプルベースモデルにおいて,どの関数のクラスを学習よりも効率的にテストできるかを決定する問題を考える。 我々の主な結果は、VC次元自体が、このモデルで関数のクラスをテストするのに必要なサンプル数に厳密な境界を与えるわけではないが、このモデルでは「より低いVC」(またはLVC)次元と呼ばれる近縁な不変量と組み合わせて、この複雑さの強い下界を得ることができることを示している。 この結果は強く、多くの場合、間隔、ハーフ空間、ハーフ空間の交叉、多項式しきい値関数、決定木の結合をテストするためのサンプル複雑性のほとんど最適な下界を得る。 逆に,PAC学習に必要なサンプル数よりも多項式的に小さい多くのサンプルを用いて,2種類の自然クラスであるユンタスとモノトン関数を検証可能であることを示す。 最後に、VC次元とプロパティテストの関連性を利用して、線形制約システムのクラスター性テストとテスト可能性をテストするための新しい下位境界を確立する。

We consider the problem of determining which classes of functions can be tested more efficiently than they can be learned, in the distribution-free sample-based model that corresponds to the standard PAC learning setting. Our main result shows that while VC dimension by itself does not always provide tight bounds on the number of samples required to test a class of functions in this model, it can be combined with a closely-related variant that we call "lower VC" (or LVC) dimension to obtain strong lower bounds on this sample complexity. We use this result to obtain strong and in many cases nearly optimal lower bounds on the sample complexity for testing unions of intervals, halfspaces, intersections of halfspaces, polynomial threshold functions, and decision trees. Conversely, we show that two natural classes of functions, juntas and monotone functions, can be tested with a number of samples that is polynomially smaller than the number of samples required for PAC learning. Finally, we also use the connection between VC dimension and property testing to establish new lower bounds for testing radius clusterability and testing feasibility of linear constraint systems.
翻訳日:2021-05-18 07:58:26 公開日:2020-12-07
# (参考訳) Spark NLPによるCOVID-19研究の文書化 [全文訳有]

Improving Clinical Document Understanding on COVID-19 Research with Spark NLP ( http://arxiv.org/abs/2012.04005v1 )

ライセンス: CC BY 4.0
Veysel Kocaman, David Talby(参考訳) 新型コロナウイルス(COVID-19)の世界的な感染拡大を受け、研究する科学論文の数が大幅に増加し、自動リテラトレビューへの関心が高まった。 これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを提案する。 第一に、健康、解剖学、リスクファクター、有害事象などの社会的決定因子を含む100以上の異なる実体を認識でき、また、他の一般的な臨床および生医学的な実体も認識できる。 第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。 第3に、使用したディープラーニングモデルは、従来よりも正確で、最先端の事前訓練されたエンティティ認識モデルの統合パイプラインを活用し、アサーションステータス検出のための以前の最高のパフォーマンスベンチマークを改善している。 抽出傾向や洞察について説明する。 最も頻繁な障害や症状、最も一般的なバイタルサインやEKGの発見は、COVID-19 Open Research Dataset(CORD-19)である。 このシステムはSpark NLPライブラリを使用して構築されている。これは、分散クラスタを使用するスケーリングをネイティブにサポートし、GPUを活用し、構成可能で再利用可能なNLPパイプライン、ヘルスケア固有の埋め込み、コード変更なしで新しいエンティティタイプやヒューマン言語をサポートするようにモデルをトレーニングする機能を備えている。

Following the global COVID-19 pandemic, the number of scientific papers studying the virus has grown massively, leading to increased interest in automated literate review. We present a clinical text mining system that improves on previous efforts in three ways. First, it can recognize over 100 different entity types including social determinants of health, anatomy, risk factors, and adverse events in addition to other commonly used clinical and biomedical entities. Second, the text processing pipeline includes assertion status detection, to distinguish between clinical facts that are present, absent, conditional, or about someone other than the patient. Third, the deep learning models used are more accurate than previously available, leveraging an integrated pipeline of state-of-the-art pretrained named entity recognition models, and improving on the previous best performing benchmarks for assertion status detection. We illustrate extracting trends and insights, e.g. most frequent disorders and symptoms, and most common vital signs and EKG findings, from the COVID-19 Open Research Dataset (CORD-19). The system is built using the Spark NLP library which natively supports scaling to use distributed clusters, leveraging GPUs, configurable and reusable NLP pipelines, healthcare specific embeddings, and the ability to train models to support new entity types or human languages with no code changes.
翻訳日:2021-05-18 07:56:25 公開日:2020-12-07
# (参考訳) 深層強化学習によるバッテリモデル校正 [全文訳有]

Battery Model Calibration with Deep Reinforcement Learning ( http://arxiv.org/abs/2012.04010v1 )

ライセンス: CC BY 4.0
Ajaykumar Unagar, Yuan Tian, Manuel Arias-Chao, Olga Fink(参考訳) リチウムイオン(Li-I)電池は最近普及し、多くの物理的資産で使われている。 電池の放電終了を予測するため, 詳細な電気化学的Li-I電池モデルが開発されている。 それらのパラメータは通常、操作を開始する前に校正され、操作中に再校正されない。 しかし,バッテリ性能は老化の影響を受けやすいため,計算バッテリモデルと実際の物理システムとの現実的ギャップは不正確な予測につながる。 教師付き機械学習アルゴリズムは、観測結果を地上の真理キャリブレーションパラメータにマッピングする広範な代表訓練データセットを必要とする。 これは多くの実用的な応用では実現不可能である。 本稿では,バッテリモデルの校正パラメータを確実かつ効率的に推定するための強化学習に基づくフレームワークを提案する。 このフレームワークは、観測から現実ギャップを補うために、計算モデルパラメータのリアルタイム推論を可能にする。 最も重要なことは、提案手法はラベル付きデータサンプルを一切必要としないことである(観測のサンプルと地上の真理キャリブレーションパラメータ)。 さらに、フレームワークは基盤となる物理モデルに関する情報を一切必要としない。 実験により,提案手法はモデルパラメータを高精度かつ高ロバスト性で推定できることを示した。 得られた結果は、教師付き機械学習で得られたものと同等であるが、訓練中は基礎的な真理情報に依存しない。

Lithium-Ion (Li-I) batteries have recently become pervasive and are used in many physical assets. To enable a good prediction of the end of discharge of batteries, detailed electrochemical Li-I battery models have been developed. Their parameters are typically calibrated before they are taken into operation and are typically not re-calibrated during operation. However, since battery performance is affected by aging, the reality gap between the computational battery models and the real physical systems leads to inaccurate predictions. A supervised machine learning algorithm would require an extensive representative training dataset mapping the observation to the ground truth calibration parameters. This may be infeasible for many practical applications. In this paper, we implement a Reinforcement Learning-based framework for reliably and efficiently inferring calibration parameters of battery models. The framework enables real-time inference of the computational model parameters in order to compensate the reality-gap from the observations. Most importantly, the proposed methodology does not need any labeled data samples, (samples of observations and the ground truth calibration parameters). Furthermore, the framework does not require any information on the underlying physical model. The experimental results demonstrate that the proposed methodology is capable of inferring the model parameters with high accuracy and high robustness. While the achieved results are comparable to those obtained with supervised machine learning, they do not rely on the ground truth information during training.
翻訳日:2021-05-18 07:45:08 公開日:2020-12-07
# (参考訳) ATOM3D: 3次元の分子のタスク [全文訳有]

ATOM3D: Tasks On Molecules in Three Dimensions ( http://arxiv.org/abs/2012.04035v1 )

ライセンス: CC BY 4.0
Raphael J.L. Townshend, Martin V\"ogele, Patricia Suriana, Alexander Derry, Alexander Powers, Yianni Laloudakis, Sidhika Balachandar, Brandon Anderson, Stephan Eismann, Risi Kondor, Russ B. Altman, Ron O. Dror(参考訳) 三次元分子構造に直接作用する計算手法は、生物学や化学における重要な問題を解く大きな可能性を秘めている。 特にディープニューラルネットワークは最近大きな注目を集めている。 本稿では,生物分子のいくつかの重要なクラスにまたがる新しいデータセットと既存のデータセットのコレクションであるATOM3Dを紹介し,そのような学習方法を体系的に評価する。 これらの課題ごとに3次元分子学習ネットワークを構築し、1次元と2次元の手法と比較して連続的に性能を向上させることを発見した。 アーキテクチャの特定の選択は、複雑なジオメトリを含むタスクに優れた3次元畳み込みネットワークと、詳細な位置情報を必要とするシステムでグラフネットワークがうまく機能することを証明している。 さらに、同変ネットワークは大きな期待を示す。 以上の結果から,3次元の分子学習から得られる多くの分子問題が示唆された。 すべてのコードとデータセットは https://www.atom3d.a i を通じてアクセスすることができる。

Computational methods that operate directly on three-dimensional molecular structure hold large potential to solve important questions in biology and chemistry. In particular deep neural networks have recently gained significant attention. In this work we present ATOM3D, a collection of both novel and existing datasets spanning several key classes of biomolecules, to systematically assess such learning methods. We develop three-dimensional molecular learning networks for each of these tasks, finding that they consistently improve performance relative to one- and two-dimensional methods. The specific choice of architecture proves to be critical for performance, with three-dimensional convolutional networks excelling at tasks involving complex geometries, while graph networks perform well on systems requiring detailed positional information. Furthermore, equivariant networks show significant promise. Our results indicate many molecular problems stand to gain from three-dimensional molecular learning. All code and datasets can be accessed via https://www.atom3d.a i .
翻訳日:2021-05-18 07:26:02 公開日:2020-12-07
# (参考訳) 機械読解における理解度評価のための意味論的変化 [全文訳有]

Semantics Altering Modifications for Evaluating Comprehension in Machine Reading ( http://arxiv.org/abs/2012.04056v1 )

ライセンス: CC BY 4.0
Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro(参考訳) NLPの進歩は、機械読解(MRC)の課題に対して印象的な結果をもたらし、人間に匹敵する性能を達成するためのアプローチが報告されている。 本稿では,現在最先端のmrcモデルが,文の意味的変化 (sam) を正しく処理できるかどうかについて検討する。 本稿では,原例と修正例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。 さらに, ドメインシフトによって引き起こされる効果を割引することで, 最適化したデータによらず, これらの事例を処理できるmrcシステムの能力を正確に評価する新しい評価手法を提案する。 大規模実験研究において,サムエンリッチデータを正しく処理する能力について,抽出型mrcモデルを評価するために本手法を適用した。 我々は12の異なる最先端のニューラルネットワークの構成と4つのトレーニングデータセットを包括的にカバーし、よく知られたパフォーマンスにもかかわらず、最適化されたモデルは、意味的に変化するデータを正しく処理するのに常に苦労していることを見出します。

Advances in NLP have yielded impressive results for the task of machine reading comprehension (MRC), with approaches having been reported to achieve performance comparable to that of humans. In this paper, we investigate whether state-of-the-art MRC models are able to correctly process Semantics Altering Modifications (SAM): linguistically-motiv ated phenomena that alter the semantics of a sentence while preserving most of its lexical surface form. We present a method to automatically generate and align challenge sets featuring original and altered examples. We further propose a novel evaluation methodology to correctly assess the capability of MRC systems to process these examples independent of the data they were optimised on, by discounting for effects introduced by domain shift. In a large-scale empirical study, we apply the methodology in order to evaluate extractive MRC models with regard to their capability to correctly process SAM-enriched data. We comprehensively cover 12 different state-of-the-art neural architecture configurations and four training datasets and find that -- despite their well-known remarkable performance -- optimised models consistently struggle to correctly process semantically altered data.
翻訳日:2021-05-18 06:40:08 公開日:2020-12-07
# (参考訳) 階層的機械探索のための3次元シーングラフにおけるニューラルメッセージパッシングを用いた意味的・幾何学的モデリング [全文訳有]

Semantic and Geometric Modeling with Neural Message Passing in 3D Scene Graphs for Hierarchical Mechanical Search ( http://arxiv.org/abs/2012.04060v1 )

ライセンス: CC BY 4.0
Andrey Kurenkov, Roberto Mart\'in-Mart\'in, Jeff Ichnowski, Ken Goldberg, Silvio Savarese(参考訳) 家庭やオフィスなどの屋内組織環境における物体の探索は日常的な活動の一環である。 対象物を探す場合、対象物が入っている可能性のある部屋や容器について、共同で推論します。同じタイプの容器は、対象物が入っている部屋によって異なる確率を持つでしょう。 また、幾何学的および意味的な情報を組み合わせることで、対象オブジェクトがビューから隠れている場合、どのコンテナが検索に最適なのか、他のオブジェクトが移動に最適なのかを推測します。 本稿では,この問題の階層的,意味的,幾何学的側面を捉えるために3次元シーングラフ表現を提案する。 この表現を探索プロセスで活用するために,自然言語記述で指定された対象物を見つけるためのエージェントの行動を導く手法である階層機械探索(HMS)を導入する。 HMSは、視覚的、幾何学的、言語的な情報を備えたベクトルのニューラルメッセージパッシングを使用して、意味論的および幾何学的手がかりを組み合わせながら、HMSがグラフの層をまたいで推論できるようにする、新しいニューラルネットワークアーキテクチャに基づいている。 記憶領域に意味的関連オブジェクトを密配置した500の3Dシーングラフからなる新しいデータセットで評価され、必要なアクションの中央値に関して、オブジェクトの発見とオラクルポリシーに近いいくつかのベースラインよりもはるかに優れていることが示されている。 さらに質的な結果がhttps://ai.stanford. edu/mech-search/hmsにある。

Searching for objects in indoor organized environments such as homes or offices is part of our everyday activities. When looking for a target object, we jointly reason about the rooms and containers the object is likely to be in; the same type of container will have a different probability of having the target depending on the room it is in. We also combine geometric and semantic information to infer what container is best to search, or what other objects are best to move, if the target object is hidden from view. We propose to use a 3D scene graph representation to capture the hierarchical, semantic, and geometric aspects of this problem. To exploit this representation in a search process, we introduce Hierarchical Mechanical Search (HMS), a method that guides an agent's actions towards finding a target object specified with a natural language description. HMS is based on a novel neural network architecture that uses neural message passing of vectors with visual, geometric, and linguistic information to allow HMS to reason across layers of the graph while combining semantic and geometric cues. HMS is evaluated on a novel dataset of 500 3D scene graphs with dense placements of semantically related objects in storage locations, and is shown to be significantly better than several baselines at finding objects and close to the oracle policy in terms of the median number of actions required. Additional qualitative results can be found at https://ai.stanford. edu/mech-search/hms.
翻訳日:2021-05-18 06:15:27 公開日:2020-12-07
# (参考訳) 社会的会話における共感的反応意図の分類法 [全文訳有]

A Taxonomy of Empathetic Response Intents in Human Social Conversations ( http://arxiv.org/abs/2012.04080v1 )

ライセンス: CC BY 4.0
Anuradha Welivita and Pearl Pu(参考訳) オープンドメインの会話エージェントやチャットボットは、自然言語処理コミュニティでますます人気が高まっている。 課題のひとつは、共感的な方法で会話できるようにすることです。 現在のニューラルレスポンス生成手法は、大規模な会話データからエンドツーエンドの学習のみに頼って対話を生成する。 このアプローチは、神経モデルのトレーニングに使用される大規模な品質データがないために、社会的に受け入れられない応答を生み出すことができる。 しかし,近年の研究では,対話行動/インテントモデリングとニューラルレスポンス生成の両立が期待されている。 このハイブリッド手法は、チャットボットの応答品質を改善し、より制御しやすく解釈できるようにする。 ダイアログインテントモデリングの重要な要素は、分類法の開発である。 このアイデアに触発されて、我々は、大きな共感対話データセット(25k対話)のサブセットを使用して、500のレスポンスインテントを手動でラベル付けしました。 私たちの目標は、共感的反応意図のための大規模な分類法を作ることです。 さらに、語彙と機械学習の手法を用いて、データセット全体の話者とリスナーの発話を、識別された応答意図と32の感情カテゴリで自動分析した。 最後に,情報可視化手法を用いて感情対話のパターンとその時間進行を要約する。 これらの結果から,人間と人間のオープンドメイン会話における新規かつ重要な共感パターンが明らかにされ,ハイブリッドアプローチのヒューリスティックスとして機能する。

Open-domain conversational agents or chatbots are becoming increasingly popular in the natural language processing community. One of the challenges is enabling them to converse in an empathetic manner. Current neural response generation methods rely solely on end-to-end learning from large scale conversation data to generate dialogues. This approach can produce socially unacceptable responses due to the lack of large-scale quality data used to train the neural models. However, recent work has shown the promise of combining dialogue act/intent modelling and neural response generation. This hybrid method improves the response quality of chatbots and makes them more controllable and interpretable. A key element in dialog intent modelling is the development of a taxonomy. Inspired by this idea, we have manually labeled 500 response intents using a subset of a sizeable empathetic dialogue dataset (25K dialogues). Our goal is to produce a large-scale taxonomy for empathetic response intents. Furthermore, using lexical and machine learning methods, we automatically analysed both speaker and listener utterances of the entire dataset with identified response intents and 32 emotion categories. Finally, we use information visualization methods to summarize emotional dialogue exchange patterns and their temporal progression. These results reveal novel and important empathy patterns in human-human open-domain conversations and can serve as heuristics for hybrid approaches.
翻訳日:2021-05-18 05:40:51 公開日:2020-12-07
# (参考訳) CEL-Net:極低照度イメージングのための連続露光 [全文訳有]

CEL-Net: Continuous Exposure for Extreme Low-Light Imaging ( http://arxiv.org/abs/2012.04112v1 )

ライセンス: CC BY 4.0
Michael Klyuchka, Evgeny Hershkovitch Neiterman, Gil Ben-Artzi(参考訳) 暗黒画像の強化のための深層学習方法は、予め決定された離散露光レベルの入力画像から出力画像へのマッピングを学ぶ。 しばしば、推論時において、与えられた画像の入力および最適出力露光レベルは、トレーニング中に見たものと異なる。 その結果、強調画像は低コントラストや暗い領域などの視覚歪みに悩まされる可能性がある。 本稿では,モデルの再トレーニングを必要とせずに,推論時に連続的に露出レベルに一般化できるディープラーニングモデルを導入することで,この問題に対処する。 そこで本研究では,5種類の露光レベルと各種カメラパラメータを用いて,屋外と屋内の両方で撮影された1500枚のraw画像のデータセットを紹介する。 このデータセットを用いて、画像の入出力レベルを目に見えないものに連続的に調整できる極低照度画像のモデルを開発する。 本モデルの特性を調査し,その性能を検証し,有望な結果を得た。

Deep learning methods for enhancing dark images learn a mapping from input images to output images with pre-determined discrete exposure levels. Often, at inference time the input and optimal output exposure levels of the given image are different from the seen ones during training. As a result the enhanced image might suffer from visual distortions, such as low contrast or dark areas. We address this issue by introducing a deep learning model that can continuously generalize at inference time to unseen exposure levels without the need to retrain the model. To this end, we introduce a dataset of 1500 raw images captured in both outdoor and indoor scenes, with five different exposure levels and various camera parameters. Using the dataset, we develop a model for extreme low-light imaging that can continuously tune the input or output exposure level of the image to an unseen one. We investigate the properties of our model and validate its performance, showing promising results.
翻訳日:2021-05-18 05:13:49 公開日:2020-12-07
# 清潔な特徴の除去は, 正確さと影響群を不均等に抑制する

Removing Spurious Features can Hurt Accuracy and Affect Groups Disproportionately ( http://arxiv.org/abs/2012.04104v1 )

ライセンス: Link先を確認
Fereshte Khani, Percy Liang(参考訳) 散発的な特徴の存在は、人口の多くのグループでうまく機能するロバストなモデルを得ることを妨げている。 自然な修正は、モデルからスプリアスな特徴を取り除くことである。 しかし,本研究では,多パラメータモデルの帰納バイアスにより,スプリアス特徴の除去により精度が低下することを示す。 雑音のない過パラメータ化線形回帰において、突発的特徴の除去が異なる群(一般にテスト分布)の精度にどのように影響するかを完全に特徴づける。 さらに、スプリアス機能の削除は、バランスのとれたデータセット -- それぞれのターゲットがそれぞれのスプリアス機能と等しく共起する -- においても精度を低下させ、他のスプリアス機能に対して不注意にモデルがより敏感になることを示す。 最後に,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示す。 毒性コンメンテーション検出器とセロバデータセットの実験により, 結果は非線形モデルに保持されていることが示された。

The presence of spurious features interferes with the goal of obtaining robust models that perform well across many groups within the population. A natural remedy is to remove spurious features from the model. However, in this work we show that removal of spurious features can decrease accuracy due to the inductive biases of overparameterized models. We completely characterize how the removal of spurious features affects accuracy across different groups (more generally, test distributions) in noiseless overparameterized linear regression. In addition, we show that removal of spurious feature can decrease the accuracy even in balanced datasets -- each target co-occurs equally with each spurious feature; and it can inadvertently make the model more susceptible to other spurious features. Finally, we show that robust self-training can remove spurious features without affecting the overall accuracy. Experiments on the Toxic-Comment-Detect oin and CelebA datasets show that our results hold in non-linear models.
翻訳日:2021-05-16 21:56:09 公開日:2020-12-07
# 最長共通部分列距離空間におけるwasserstein距離に基づくlcsグラフカーネル

LCS Graph Kernel Based on Wasserstein Distance in Longest Common Subsequence Metric Space ( http://arxiv.org/abs/2012.03612v1 )

ライセンス: Link先を確認
Jianming Huang, Zhongxi Fang, Hiroyuki Kasai(参考訳) グラフ分類タスクでは、多くの手法が共通戦略を用いて頂点近傍の情報を集約する。 この戦略は、グラフトポロジ的特徴を抽出する効率的な手段を提供するが、大規模な地区を扱う際の精度を大幅に低下させる可能性のある過剰な情報をもたらす。 パスやウォークを用いたグラフの学習は、この困難に悩まされることはないが、多くの人は、情報損失と高い計算コストを伴って、各パスやウォークの利用率が低い。 そこで本研究では,最も長い共通部分列(LCSカーネル)を用いて,パスとウォーク間のより包括的な類似性を求めるグラフカーネルを提案する。 また、グラフのより深い特徴を抽出するために、最適輸送理論と組み合わせる。 さらに, LCS距離空間を提案し, 隣接点マージ演算を適用して計算コストを削減する。 最後に,提案手法が最先端グラフカーネル手法よりも優れていることを示す。

For graph classification tasks, many methods use a common strategy to aggregate information of vertex neighbors. Although this strategy provides an efficient means of extracting graph topological features, it brings excessive amounts of information that might greatly reduce its accuracy when dealing with large-scale neighborhoods. Learning graphs using paths or walks will not suffer from this difficulty, but many have low utilization of each path or walk, which might engender information loss and high computational costs. To solve this, we propose a graph kernel using a longest common subsequence (LCS kernel) to compute more comprehensive similarity between paths and walks, which resolves substructure isomorphism difficulties. We also combine it with optimal transport theory to extract more in-depth features of graphs. Furthermore, we propose an LCS metric space and apply an adjacent point merge operation to reduce its computational costs. Finally, we demonstrate that our proposed method outperforms many state-of-the-art graph kernel methods.
翻訳日:2021-05-16 21:55:51 公開日:2020-12-07
# 画像認識と3dビルディングデータを組み合わせた高機能自動pvレジストリ

An Enriched Automated PV Registry: Combining Image Recognition and 3D Building Data ( http://arxiv.org/abs/2012.03690v1 )

ライセンス: Link先を確認
Benjamin Rausch, Kevin Mayer, Marie-Louise Arlt, Gunther Gust, Philipp Staudt, Christof Weinhardt, Dirk Neumann, Ram Rajagopal(参考訳) 太陽光発電(pv)システムは前例のない速度で設置されているが、インストールレベルの信頼できる情報はまだ少ない。 その結果、自動生成されたPVレジストリは、グリッド計画と運用を最適化するためのタイムリーな貢献である。 本稿では,航空画像と3次元建物データを組み合わせることで,位置レベルのpvレジストリを作成し,面積,傾き,向きの角度を指定する方法を示す。 PVキャパシティ推定におけるこのアプローチの利点を実証する。 さらに、この研究は、初めて、自動化されたPVレジストリと公式に作成されたPVレジストリの比較を示す。 以上の結果から,当社の豊富な自動レジストリは,公式レジストリの検証,更新,補完に有用であることが示唆された。

While photovoltaic (PV) systems are installed at an unprecedented rate, reliable information on an installation level remains scarce. As a result, automatically created PV registries are a timely contribution to optimize grid planning and operations. This paper demonstrates how aerial imagery and three-dimensional building data can be combined to create an address-level PV registry, specifying area, tilt, and orientation angles. We demonstrate the benefits of this approach for PV capacity estimation. In addition, this work presents, for the first time, a comparison between automated and officially-created PV registries. Our results indicate that our enriched automated registry proves to be useful to validate, update, and complement official registries.
翻訳日:2021-05-16 21:55:35 公開日:2020-12-07
# Sim2Real Transfer for Robotics: A Summary of the R:SS 2020 Workshop

Perspectives on Sim2Real Transfer for Robotics: A Summary of the R:SS 2020 Workshop ( http://arxiv.org/abs/2012.03806v1 )

ライセンス: Link先を確認
Sebastian H\"ofer, Kostas Bekris, Ankur Handa, Juan Camilo Gamboa, Florian Golemo, Melissa Mozifian, Chris Atkeson, Dieter Fox, Ken Goldberg, John Leonard, C. Karen Liu, Jan Peters, Shuran Song, Peter Welinder, Martha White(参考訳) 本報告では,2020年の「ロボティクス:サイエンス・アンド・システム」会議と共同で開催されるSim2Realワークショップの議論,ポスター,議論を紹介する。 この分野の12人のリーダーは、ロボット工学の問題の文脈において、シミュレーションから現実世界にスキルを移すことの定義、生存可能性、重要性に関する議論の的となった。 討論者はまた大きなパネルディスカッションに参加し、聴衆の質問に答え、ロボティクスにおけるSim2Realの将来について概説した。 さらに,本報告で要約した,拡張抽象化を本ワークショップに招待した。 本報告は,本技術を活用した実践者や研究者がこの分野のオープンな問題をさらに探究する上での方向性について述べる。

This report presents the debates, posters, and discussions of the Sim2Real workshop held in conjunction with the 2020 edition of the "Robotics: Science and System" conference. Twelve leaders of the field took competing debate positions on the definition, viability, and importance of transferring skills from simulation to the real world in the context of robotics problems. The debaters also joined a large panel discussion, answering audience questions and outlining the future of Sim2Real in robotics. Furthermore, we invited extended abstracts to this workshop which are summarized in this report. Based on the workshop, this report concludes with directions for practitioners exploiting this technology and for researchers further exploring open problems in this area.
翻訳日:2021-05-16 21:55:23 公開日:2020-12-07
# 独立楕円分布は、同じ密度生成子を持つ独立楕円分布から {\mathcal{w}_2$ wasserstein 距離を最小化する

Independent Elliptical Distributions Minimize Their $\mathcal{W}_2$ Wasserstein Distance from Independent Elliptical Distributions with the Same Density Generator ( http://arxiv.org/abs/2012.03809v1 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) この短い注記は、$\mathcal{w}_2$ wasserstein距離の性質に関するもので、独立楕円分布は、同じ密度生成子を持つ任意の独立楕円分布から、その$\mathcal{w}_2$ wasserstein距離を最小化することを示している。 さらに, 分布が必ずしも楕円的ではない場合, ゲルブリッチ境界におけるこの性質の意義について検討する。 一方、分布が独立でない場合にも結果を一般化する。 このノートの主な目的は、この性質またはその意味を利用する必要がある論文を参照することである。

This short note is on a property of the $\mathcal{W}_2$ Wasserstein distance which indicates that independent elliptical distributions minimize their $\mathcal{W}_2$ Wasserstein distance from given independent elliptical distributions with the same density generators. Furthermore, we examine the implications of this property in the Gelbrich bound when the distributions are not necessarily elliptical. Meanwhile, we also generalize the results to the cases when the distributions are not independent. The primary purpose of this note is for the referencing of papers that need to make use of this property or its implications.
翻訳日:2021-05-16 21:54:54 公開日:2020-12-07
# 構文構造から意味関係へ : 音声情報を利用した再帰的ニューラルネットワークによる定義からのハイパーnym抽出

From syntactic structure to semantic relationship: hypernym extraction from definitions by recurrent neural networks using the part of speech information ( http://arxiv.org/abs/2012.03418v1 )

ライセンス: Link先を確認
Yixin Tan, Xiaomeng Wang, Tao Jia(参考訳) hyponym-hypernym関係は意味ネットワークにおいて不可欠な要素である。 定義からハイパーネムを識別することは、自然言語処理と意味解析において重要なタスクである。 WordNetのような公開辞書は一般的な単語に対して機能するが、ドメイン固有のシナリオでの応用は限られている。 ハイパーnym抽出のための既存のツールは、特定の意味パターンに依存するか、単語表現に焦点を当てている。

The hyponym-hypernym relation is an essential element in the semantic network. Identifying the hypernym from a definition is an important task in natural language processing and semantic analysis. While a public dictionary such as WordNet works for common words, its application in domain-specific scenarios is limited. Existing tools for hypernym extraction either rely on specific semantic patterns or focus on the word representation, which all demonstrate certain limitations.
翻訳日:2021-05-16 21:54:44 公開日:2020-12-07
# kgplm: 生成的および判別的学習による知識誘導型言語モデル

KgPLM: Knowledge-guided Language Model Pre-training via Generative and Discriminative Learning ( http://arxiv.org/abs/2012.03551v1 )

ライセンス: Link先を確認
Bin He, Xin Jiang, Jinghui Xiao, Qun Liu(参考訳) 事前学習された言語モデルに関する最近の研究は、知識認識下流タスクにおける事実的知識と応用を捉える能力を示している。 本稿では,実知識の完成と検証を指導した言語モデル事前学習フレームワークを提案し,生成的および判別的アプローチを用いてモデル学習を行う。 特に,2-towerスキームとパイプラインスキームという2つの学習スキームについて,共通パラメータを用いたジェネレータと識別器の訓練を行った。 ゼロショットクローゼスタイルの質問応答タスクであるlamaの実験結果は、従来の事前学習された言語モデルよりも豊かな事実知識を含んでいることを示している。 さらに,複数の機械読解データセットからなるMRQA共有タスクの微調整と評価を行うと,我々のモデルは最先端の性能を実現し,RoBERTaよりもNewsQA(+1.26 F1)とTriviaQA(+1.56 F1)を大幅に改善する。

Recent studies on pre-trained language models have demonstrated their ability to capture factual knowledge and applications in knowledge-aware downstream tasks. In this work, we present a language model pre-training framework guided by factual knowledge completion and verification, and use the generative and discriminative approaches cooperatively to learn the model. Particularly, we investigate two learning schemes, named two-tower scheme and pipeline scheme, in training the generator and discriminator with shared parameter. Experimental results on LAMA, a set of zero-shot cloze-style question answering tasks, show that our model contains richer factual knowledge than the conventional pre-trained language models. Furthermore, when fine-tuned and evaluated on the MRQA shared tasks which consists of several machine reading comprehension datasets, our model achieves the state-of-the-art performance, and gains large improvements on NewsQA (+1.26 F1) and TriviaQA (+1.56 F1) over RoBERTa.
翻訳日:2021-05-16 21:54:36 公開日:2020-12-07
# PPKE:パスに基づく事前学習による知識表現学習

PPKE: Knowledge Representation Learning by Path-based Pre-training ( http://arxiv.org/abs/2012.03573v1 )

ライセンス: Link先を確認
Bin He, Di Zhou, Jing Xie, Jinghui Xiao, Xin Jiang, Qun Liu(参考訳) エンティティは知識グラフ(kg)内で複雑な相互作用を持ち、例えば多段階関係(multi-step relations)は、エンティティのグラフコンテキスト情報と見なすことができる。 従来の知識表現学習(KRL)法は、通常、訓練単位として1つの三重項を扱い、KGの位相構造にグラフの文脈情報の大半を無視する。 本研究では,知識埋め込み学習のためのパスベース事前学習モデルであるppkeを提案する。 実験により,本モデルがリンク予測および関係予測タスクのためのベンチマークデータセットの最先端結果を達成することを示すとともに,本モデルがKGにおけるグラフコンテキスト情報を活用するための有効な方法であることを示す。

Entities may have complex interactions in a knowledge graph (KG), such as multi-step relationships, which can be viewed as graph contextual information of the entities. Traditional knowledge representation learning (KRL) methods usually treat a single triple as a training unit, and neglect most of the graph contextual information exists in the topological structure of KGs. In this study, we propose a Path-based Pre-training model to learn Knowledge Embeddings, called PPKE, which aims to integrate more graph contextual information between entities into the KRL model. Experiments demonstrate that our model achieves state-of-the-art results on several benchmark datasets for link prediction and relation prediction tasks, indicating that our model provides a feasible way to take advantage of graph contextual information in KGs.
翻訳日:2021-05-16 21:54:16 公開日:2020-12-07
# 機械読解のための参照知識ネットワーク

Reference Knowledgeable Network for Machine Reading Comprehension ( http://arxiv.org/abs/2012.03709v1 )

ライセンス: Link先を確認
Yilin Zhao, Zhuosheng Zhang, Hai Zhao(参考訳) MRC(Multi-choice Machine Reading Comprehension)は、MRCタスクの重要かつ困難な形式であり、与えられたパスと質問の候補から最も適切な回答を選択する必要がある。 既存の研究のほとんどは、外部のきめ細かなコモンセンスソースを明示的に参照せずにタスクデータセットのモデリングに焦点を当てている。 そこで本研究では,人間による読解戦略をシミュレートした,スパン抽出に基づく新たな参照ベース知識強化モデルであるreknetを提案する。 詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。 RACE と DREAM の 2 つのマルチ選択型 MRC ベンチマークを用いて,観測可能な統計量レベルをベースラインより高い精度で評価した。

Multi-choice Machine Reading Comprehension (MRC) is a major and challenging form of MRC tasks that requires model to select the most appropriate answer from a set of candidates given passage and question. Most of the existing researches focus on the modeling of the task datasets without explicitly referring to external fine-grained commonsense sources, which is a well-known challenge in multi-choice tasks. Thus we propose a novel reference-based knowledge enhancement model based on span extraction called Reference Knowledgeable Network (RekNet), which simulates human reading strategy to refine critical information from the passage and quote external knowledge in necessity. In detail, RekNet refines fine-grained critical information and defines it as Reference Span, then quotes external knowledge quadruples by the co-occurrence information of Reference Span and answer options. Our proposed method is evaluated on two multi-choice MRC benchmarks: RACE and DREAM, which shows remarkable performance improvement with observable statistical significance level over strong baselines.
翻訳日:2021-05-16 21:53:42 公開日:2020-12-07
# ジェネリック特徴変換のための学習可能な木フィルタの再考

Rethinking Learnable Tree Filter for Generic Feature Transform ( http://arxiv.org/abs/2012.03482v1 )

ライセンス: Link先を確認
Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Xiangyu Zhang, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) Learnable Tree Filterはセマンティックセグメンテーションのためのモデル構造保存関係に対する顕著なアプローチを示す。 それでも、本質的な幾何学的制約は、空間距離の近い領域に集中させ、効果的な長距離相互作用を妨げる。 幾何学的制約を緩和するために,マルコフ確率場として再構成して解析を行い,学習可能な不定項を導入する。 さらに, 元の非微分可能木を置き換える学習可能なスパンディングツリーアルゴリズムを提案し, 柔軟性と頑健性をさらに向上させる。 上記の改良により、より汎用的な特徴変換のために複数の視覚タスクに拡張された、長距離依存関係の取得と線形複雑度による構造的詳細の保存がより容易になる。 オブジェクト検出/インスタンスセグメンテーションに関する大規模な実験は、オリジナルのバージョンよりも一貫した改善を示している。 セマンティックセグメンテーションのために、我々はCityscapesベンチマークにおいてベル・アンド・ウィストルなしでリードパフォーマンス(82.1% mIoU)を達成する。 コードはhttps://github.com/S tevenGrove/Learnable TreeFilterV2で公開されている。

The Learnable Tree Filter presents a remarkable approach to model structure-preserving relations for semantic segmentation. Nevertheless, the intrinsic geometric constraint forces it to focus on the regions with close spatial distance, hindering the effective long-range interactions. To relax the geometric constraint, we give the analysis by reformulating it as a Markov Random Field and introduce a learnable unary term. Besides, we propose a learnable spanning tree algorithm to replace the original non-differentiable one, which further improves the flexibility and robustness. With the above improvements, our method can better capture long-range dependencies and preserve structural details with linear complexity, which is extended to several vision tasks for more generic feature transform. Extensive experiments on object detection/instance segmentation demonstrate the consistent improvements over the original version. For semantic segmentation, we achieve leading performance (82.1% mIoU) on the Cityscapes benchmark without bells-and-whistles. Code is available at https://github.com/S tevenGrove/Learnable TreeFilterV2.
翻訳日:2021-05-16 21:52:42 公開日:2020-12-07
# 物体検出のための細粒度動的ヘッド

Fine-Grained Dynamic Head for Object Detection ( http://arxiv.org/abs/2012.03519v1 )

ライセンス: Link先を確認
Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) The Feature Pyramid Network (FPN) は、インスタンスレベルの割り当てを行うことでオブジェクト表現のスケールのばらつきを緩和する顕著なアプローチを示す。 それでもこの戦略は、インスタンス内の異なるサブリージョンの異なる特性を無視している。 そこで本研究では,FPN特徴量の画素レベルの組み合わせを各インスタンスの異なるスケールから条件付きで選択する,微細な動的ヘッドを提案する。 さらに,新しい活性化関数を持つ空間ゲートを設計し,空間的に疎い畳み込みによって計算複雑性を劇的に低減する。 大規模実験により,提案手法の有効性と有効性が実証された。 コードはhttps://github.com/S tevenGrove/DynamicHe adで入手できる。

The Feature Pyramid Network (FPN) presents a remarkable approach to alleviate the scale variance in object representation by performing instance-level assignments. Nevertheless, this strategy ignores the distinct characteristics of different sub-regions in an instance. To this end, we propose a fine-grained dynamic head to conditionally select a pixel-level combination of FPN features from different scales for each instance, which further releases the ability of multi-scale feature representation. Moreover, we design a spatial gate with the new activation function to reduce computational complexity dramatically through spatially sparse convolutions. Extensive experiments demonstrate the effectiveness and efficiency of the proposed method on several state-of-the-art detection benchmarks. Code is available at https://github.com/S tevenGrove/DynamicHe ad.
翻訳日:2021-05-16 21:52:25 公開日:2020-12-07
# ihashnet:効率的なマルチインデックスハッシュに基づくirisハッシュネットワーク

IHashNet: Iris Hashing Network based on efficient multi-index hashing ( http://arxiv.org/abs/2012.03881v1 )

ライセンス: Link先を確認
Avantika Singh, Chirag Vashist, Pratyush Gaurav, Aditya Nigam, Rameshwar Pratap(参考訳) バイオメトリックの大規模展開は今日の世界に広まっている。 しかし、バイオメトリックシステムの精度は高いものの、その計算効率はデータベースサイズの増加とともに劇的に低下する。 したがって、それらをインデクシングすることが不可欠である。 理想的なインデクシングスキームは、サブジェクト内相似性とサブジェクト間相似性を保持するコードを生成する必要がある。 本稿では,実数値の深いアイリス特徴を用いたアイリス索引化手法を提案し,その索引化構造に適合するアイリスバー符号(IBC)をバイナライズする。 まず,ロバストな虹彩特徴を抽出するために,順序フィルタリングのドメイン知識を活用し,それらの非線形組み合わせを学習するネットワークを設計した。 その後、これらの実数値機能は二元化される。 最後に、irisデータセットをインデックス化するために、バイナリ機能をマルチインデックスハッシュスキームと互換性のある改良された機能に変換するロスを提案しました。 この損失関数は、全ての連続した部分弦の間に均等にハミング距離を分散させる。 我々の知る限りでは、これは、エンドツーエンドのアイリスインデックス構造を示すアイリスインデックス領域における最初の研究である。 提案手法の有効性を示すために, 4つのデータセットの実験結果を示した。

Massive biometric deployments are pervasive in today's world. But despite the high accuracy of biometric systems, their computational efficiency degrades drastically with an increase in the database size. Thus, it is essential to index them. An ideal indexing scheme needs to generate codes that preserve the intra-subject similarity as well as inter-subject dissimilarity. Here, in this paper, we propose an iris indexing scheme using real-valued deep iris features binarized to iris bar codes (IBC) compatible with the indexing structure. Firstly, for extracting robust iris features, we have designed a network utilizing the domain knowledge of ordinal filtering and learning their nonlinear combinations. Later these real-valued features are binarized. Finally, for indexing the iris dataset, we have proposed a loss that can transform the binary feature into an improved feature compatible with the Multi-Index Hashing scheme. This loss function ensures the hamming distance equally distributed among all the contiguous disjoint sub-strings. To the best of our knowledge, this is the first work in the iris indexing domain that presents an end-to-end iris indexing structure. Experimental results on four datasets are presented to depict the efficacy of the proposed approach.
翻訳日:2021-05-16 21:52:13 公開日:2020-12-07
# 目に見えない複雑なシーンを作り出す:まだそこにいるのか?

Generating unseen complex scenes: are we there yet? ( http://arxiv.org/abs/2012.04027v1 )

ライセンス: Link先を確認
Arantxa Casanova, Michal Drozdzal, Adriana Romero-Soriano(参考訳) 最近の複雑なシーン条件生成モデルは、ますます魅力的なシーンを生み出すが、どのモデルがよりよく機能するか、なぜかを評価するのは非常に困難である。 これはしばしば、異なるデータ分割に適合するように訓練されたモデルと、独自の実験的なセットアップを定義するためである。 本稿では,複雑なシーン条件生成モデルを比較する手法を提案し,(1)トレーニング分布に適合する各モデルの能力を評価して,(2)見えないオブジェクトの組み合わせからなる未知の条件付けを一般化し,(3)見えないオブジェクトの組み合わせからなる未知の条件付けを一般化する手法を提案する。 その結果,近年の手法では視認可能なシーンを,視認可能なコンディショニングを生成でき,コンフィグナリティを利用して,視認できないコンディショニングに一般化できることがわかった。 しかし,全ての手法は,未知の物体の組み合わせからなる条件付けから画像を生成するよう依頼された際に,画像の品質劣化に悩まされる。 Moreover, through our analysis, we identify the advantages of different pipeline components, and find that (1) encouraging compositionality through instance-wise spatial conditioning normalizations increases robustness to both types of unseen conditionings, (2) using semantically aware losses such as the scene-graph perceptual similarity helps improve some dimensions of the generation process, and (3) enhancing the quality of generated masks and the quality of the individual objects are crucial steps to improve robustness to both types of unseen conditionings.

Although recent complex scene conditional generation models generate increasingly appealing scenes, it is very hard to assess which models perform better and why. This is often due to models being trained to fit different data splits, and defining their own experimental setups. In this paper, we propose a methodology to compare complex scene conditional generation models, and provide an in-depth analysis that assesses the ability of each model to (1) fit the training distribution and hence perform well on seen conditionings, (2) to generalize to unseen conditionings composed of seen object combinations, and (3) generalize to unseen conditionings composed of unseen object combinations. As a result, we observe that recent methods are able to generate recognizable scenes given seen conditionings, and exploit compositionality to generalize to unseen conditionings with seen object combinations. However, all methods suffer from noticeable image quality degradation when asked to generate images from conditionings composed of unseen object combinations. Moreover, through our analysis, we identify the advantages of different pipeline components, and find that (1) encouraging compositionality through instance-wise spatial conditioning normalizations increases robustness to both types of unseen conditionings, (2) using semantically aware losses such as the scene-graph perceptual similarity helps improve some dimensions of the generation process, and (3) enhancing the quality of generated masks and the quality of the individual objects are crucial steps to improve robustness to both types of unseen conditionings.
翻訳日:2021-05-16 21:51:56 公開日:2020-12-07
# twitterデータにおける教師なしテキスト表現手法に関する実証的研究

An Empirical Survey of Unsupervised Text Representation Methods on Twitter Data ( http://arxiv.org/abs/2012.03468v1 )

ライセンス: Link先を確認
Lili Wang, Chongyang Gao, Jason Wei, Weicheng Ma, Ruibo Liu, Soroush Vosoughi(参考訳) NLPの分野は近年、前例のない成果を出している。 特に、BERTのような大規模なトレーニング済みのTransformerベースの言語モデルが出現し、テキスト表現に顕著な改善が加えられた。 しかし、これらの改善がツイートのような騒がしいユーザー生成テキストに繋がるかどうかは不明だ。 本稿では,ノイズの多いTwitterデータ上でテキストクラスタリングを行うタスクに対して,広く知られたテキスト表現手法の実験的検討を行う。 以上の結果から,より高度なモデルは必ずしもツイート上ではうまく機能せず,この分野のさらなる調査が必要であることが示唆された。

The field of NLP has seen unprecedented achievements in recent years. Most notably, with the advent of large-scale pre-trained Transformer-based language models, such as BERT, there has been a noticeable improvement in text representation. It is, however, unclear whether these improvements translate to noisy user-generated text, such as tweets. In this paper, we present an experimental survey of a wide range of well-known text representation techniques for the task of text clustering on noisy Twitter data. Our results indicate that the more advanced models do not necessarily work best on tweets and that more exploration in this area is needed.
翻訳日:2021-05-16 21:51:09 公開日:2020-12-07
# Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet Classification using BERT

Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet Classification Using BERT ( http://arxiv.org/abs/2012.04539v1 )

ライセンス: Link先を確認
Dylan Whang and Soroush Vosoughi(参考訳) 本稿では,wnut-2020 共有タスク2 のために開発されたシステムについて述べる。 BERTは自然言語処理タスクの高性能モデルである。 我々は,BERTを微調整し,その埋め込みをつぶやき特有の特徴と結合し,分類のためのSVM(Support Vector Machine)を訓練することにより,この分類タスクにおけるBERTの性能を高めた。 その性能を一連の機械学習モデルと比較した。 twitter固有のデータクリーニングパイプラインと単語レベルのtf-idfを使用して、非bertモデルの機能を抽出した。 BERT+はF1スコア0.8713の最高パフォーマンスモデルであった。

We describe the systems developed for the WNUT-2020 shared task 2, identification of informative COVID-19 English Tweets. BERT is a highly performant model for Natural Language Processing tasks. We increased BERT's performance in this classification task by fine-tuning BERT and concatenating its embeddings with Tweet-specific features and training a Support Vector Machine (SVM) for classification (henceforth called BERT+). We compared its performance to a suite of machine learning models. We used a Twitter specific data cleaning pipeline and word-level TF-IDF to extract features for the non-BERT models. BERT+ was the top performing model with an F1-score of 0.8713.
翻訳日:2021-05-16 21:51:01 公開日:2020-12-07
# メタファー検出の改善と拡張

Improvements and Extensions on Metaphor Detection ( http://arxiv.org/abs/2012.04540v1 )

ライセンス: Link先を確認
Weicheng Ma, Ruibo Liu, Lili Wang, Soroush Vosoughi(参考訳) メタファーは人間の言語でユビキタスである。 メタファ検出タスク(MD)は,自然言語理解(NLU)研究において重要な,書き言葉からのメタファの検出と解釈を目的とする。 本稿では,事前学習したTransformerベースのモデルをMDに導入する。 f-1のスコアは5.33%から28.39%に相対的に改善した。 第二に、MDをテキスト全体の比喩性に関する分類タスクに拡張し、より一般的なNLUシーンに適用できるようにします。 最後に、MDベンチマークのデータセットの1つで不適切なあるいは時代遅れのアノテーションを掃除し、Transformerベースのモデルで再ベンチマークします。 これらのベンチマークデータセットのメタファ性アノテーションは時代遅れになる可能性があるため、このアプローチは他の既存のMDデータセットにも適用することができる。 今後の研究は、より長く複雑なテキストからなる、最新でよく注釈されたデータセットを構築するためにも必要となる。

Metaphors are ubiquitous in human language. The metaphor detection task (MD) aims at detecting and interpreting metaphors from written language, which is crucial in natural language understanding (NLU) research. In this paper, we introduce a pre-trained Transformer-based model into MD. Our model outperforms the previous state-of-the-art models by large margins in our evaluations, with relative improvements on the F-1 score from 5.33% to 28.39%. Second, we extend MD to a classification task about the metaphoricity of an entire piece of text to make MD applicable in more general NLU scenes. Finally, we clean up the improper or outdated annotations in one of the MD benchmark datasets and re-benchmark it with our Transformer-based model. This approach could be applied to other existing MD datasets as well, since the metaphoricity annotations in these benchmark datasets may be outdated. Future research efforts are also necessary to build an up-to-date and well-annotated dataset consisting of longer and more complex texts.
翻訳日:2021-05-16 21:50:48 公開日:2020-12-07
# rogue様ゲームにおける設計パラメータの変更に対応するnpc行動のためのディープポリシーネットワーク

Deep Policy Networks for NPC Behaviors that Adapt to Changing Design Parameters in Roguelike Games ( http://arxiv.org/abs/2012.03532v1 )

ライセンス: Link先を確認
Alessandro Sestini, Alexander Kuhnle and Andrew D. Bagdanov(参考訳) 深層強化学習(drl)の最近の進歩は、既知の、よく定義された環境で人間を置き換えることを目的として、エージェントのパフォーマンス向上に重点を置いている。 ビデオゲーム制作におけるゲームデザインツールとしてのこれらの技術の利用は、その代わりにNon-Player Character (NPC) 行動を作成することを目的としており、近年まであまり注目されていない。 例えば、Roguelikesのようなターンベースの戦略ゲームは、DRLに固有の課題を提示する。 特に、それらの複雑なゲーム状態のカテゴリー的性質は、異なる属性を持つ多くのエンティティで構成されており、エージェントはこれらのエンティティの比較と優先順位付けの方法を学べる必要がある。 さらに、この複雑さはトレーニング中に見られる状態に過度に適合し、開発中の設計変更に直面して一般化できないエージェントに繋がることが多い。 本稿では,2つのネットワークアーキテクチャを提案する。2つのネットワークアーキテクチャを,\emph{procedural loot generation}システムと組み合わせることで,複雑な分類的状態空間をよりうまく処理し,設計決定によって強制される再訓練の必要性を軽減する。 ひとつは、離散観測モデルを抽象化し、訓練されたエージェントをより一般化するカテゴリリーな入力空間の密な埋め込みに基づいている。 第2のアーキテクチャはより汎用的で、入力属性と入力属性の関係を推論できるトランスフォーマネットワークに基づいている。 実験により,新しいエージェントはベースラインアーキテクチャに対する適応能力が向上し,このフレームワークが開発中に動的ゲームプレイの変化に対してより堅牢であることを示す。 本論文では,DRLをゲーム業界でより利用しやすいものにするためのステップとして,これらのソリューションが提案されている。

Recent advances in Deep Reinforcement Learning (DRL) have largely focused on improving the performance of agents with the aim of replacing humans in known and well-defined environments. The use of these techniques as a game design tool for video game production, where the aim is instead to create Non-Player Character (NPC) behaviors, has received relatively little attention until recently. Turn-based strategy games like Roguelikes, for example, present unique challenges to DRL. In particular, the categorical nature of their complex game state, composed of many entities with different attributes, requires agents able to learn how to compare and prioritize these entities. Moreover, this complexity often leads to agents that overfit to states seen during training and that are unable to generalize in the face of design changes made during development. In this paper we propose two network architectures which, when combined with a \emph{procedural loot generation} system, are able to better handle complex categorical state spaces and to mitigate the need for retraining forced by design decisions. The first is based on a dense embedding of the categorical input space that abstracts the discrete observation model and renders trained agents more able to generalize. The second proposed architecture is more general and is based on a Transformer network able to reason relationally about input and input attributes. Our experimental evaluation demonstrates that new agents have better adaptation capacity with respect to a baseline architecture, making this framework more robust to dynamic gameplay changes during development. Based on the results shown in this paper, we believe that these solutions represent a step forward towards making DRL more accessible to the gaming industry.
翻訳日:2021-05-16 21:49:39 公開日:2020-12-07
# 階層型ディープリカレントニューラルネットワークによる故障検出と診断

Hierarchical Deep Recurrent Neural Network based Method for Fault Detection and Diagnosis ( http://arxiv.org/abs/2012.03861v1 )

ライセンス: Link先を確認
Piyush Agarwal, Jorge Ivan Mireles Gonzalez, Ali Elkamel, Hector Budman(参考訳) 産業プラントの故障の検出と分類には,ディープニューラルネットワーク(dnn)に基づくアルゴリズムが提案されている。 提案するアルゴリズムは,従来のしきい値に基づく統計手法や従来のニューラルネットワーク(anns)では検出・診断が困難な障害,特に初期障害を分類する能力を有する。 このアルゴリズムは、時間軸に沿ったプロセスの動的情報を利用するSupervised Deep Recurrent Autoencoder Neural Network (Supervised DRAE-NN)に基づいている。 このネットワークに基づいて、階層構造は、類似性に基づいて断層のサブセットに分類し、検出と診断を行う。 さらに、外部擬似ランダムバイナリ信号(PRBS)をシステムに設計、注入し、初期故障を特定する。 階層構造に基づく戦略は初期故障と非初期故障の両方において検出と分類の精度を大幅に向上させる。 提案手法は,多変量線形モデルに基づくストラテジーと非階層非線形モデルに基づくストラテジーと比較して,テネシー・イーストマン法を指標として検証した。

A Deep Neural Network (DNN) based algorithm is proposed for the detection and classification of faults in industrial plants. The proposed algorithm has the ability to classify faults, especially incipient faults that are difficult to detect and diagnose with traditional threshold based statistical methods or by conventional Artificial Neural Networks (ANNs). The algorithm is based on a Supervised Deep Recurrent Autoencoder Neural Network (Supervised DRAE-NN) that uses dynamic information of the process along the time horizon. Based on this network a hierarchical structure is formulated by grouping faults based on their similarity into subsets of faults for detection and diagnosis. Further, an external pseudo-random binary signal (PRBS) is designed and injected into the system to identify incipient faults. The hierarchical structure based strategy improves the detection and classification accuracy significantly for both incipient and non-incipient faults. The proposed approach is tested on the benchmark Tennessee Eastman Process resulting in significant improvements in classification as compared to both multivariate linear model-based strategies and non-hierarchical nonlinear model-based strategies.
翻訳日:2021-05-16 21:49:13 公開日:2020-12-07
# 複数の離散変数に対する適応局所ベイズ最適化

Adaptive Local Bayesian Optimization Over Multiple Discrete Variables ( http://arxiv.org/abs/2012.03501v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jaeyeon Ahn, Nakyil Kim, Seyoung Yun(参考訳) 機械学習アルゴリズムでは、ハイパーパラメータの選択は科学以上の芸術であり、専門的な経験を持つ労働集約的な検索を必要とする。 したがって、人的介入を除外するハイパーパラメータ最適化の自動化は、特にブラックボックス機能にとって大きな魅力である。 近年,タスク依存の問題を解くことは容易ではないが,そのような隠蔽タスクをより一般化するために解決するという要求が高まっている。 Black-Box Optimization チャレンジ (NeurIPS 2020) では、競合他社が標準機械学習問題のさまざまな領域にまたがる堅牢なブラックボックスオプティマイザを構築する必要があった。 本稿では,チームKAIST OSIのアプローチをステップワイズで記述し,ベースラインアルゴリズムを最大20.39%向上させる。 まず,地域信頼性という概念の下で,地域ベイズ探索を強化する。 そこで我々はガウスプロセスカーネルのための組合せカーネルを設計する。 同様の方法で、bayesian と multi-armed bandit (mab) の方法論を組み合わせて、変数型を考慮した値の選択を行い、実変数と整数変数は bayesian と、boolean とカテゴリ変数は mab とを組み合わせる。 経験的評価により,提案手法は既存の手法を異なるタスクにまたがる性能を示す。

In the machine learning algorithms, the choice of the hyperparameter is often an art more than a science, requiring labor-intensive search with expert experience. Therefore, automation on hyperparameter optimization to exclude human intervention is a great appeal, especially for the black-box functions. Recently, there have been increasing demands of solving such concealed tasks for better generalization, though the task-dependent issue is not easy to solve. The Black-Box Optimization challenge (NeurIPS 2020) required competitors to build a robust black-box optimizer across different domains of standard machine learning problems. This paper describes the approach of team KAIST OSI in a step-wise manner, which outperforms the baseline algorithms by up to +20.39%. We first strengthen the local Bayesian search under the concept of region reliability. Then, we design a combinatorial kernel for a Gaussian process kernel. In a similar vein, we combine the methodology of Bayesian and multi-armed bandit,(MAB) approach to select the values with the consideration of the variable types; the real and integer variables are with Bayesian, while the boolean and categorical variables are with MAB. Empirical evaluations demonstrate that our method outperforms the existing methods across different tasks.
翻訳日:2021-05-16 21:48:05 公開日:2020-12-07
# オンラインモデル選択: rested banditの定式化

Online Model Selection: a Rested Bandit Formulation ( http://arxiv.org/abs/2012.03522v1 )

ライセンス: Link先を確認
Leonardo Cella and Claudio Gentile and Massimiliano Pontil(参考訳) バンディット情報を用いたオンラインモデル選択における自然問題に触発され,残バンドディット設定における最適な腕識別問題を導入,解析し,腕の再生回数に応じて腕の期待損失が減少する。 期待される損失関数の形状は腕間で似ており、ハエで学ばなければならない未知のパラメータまで利用できると推定されている。 我々はこの問題に対する後悔という新しい概念を定義し、ゲーム終了時に最も期待される損失の少ないアームを常にプレイするポリシーと比較する。 時間軸の増加に伴って後悔が失われるアーム除去アルゴリズムを解析する。 実際の収束速度は、期待される損失の仮定された機能形式に依存する。 最近のバンディット文学における既知のモデル選択の取り組みとは異なり、本アルゴリズムは問題の特定の構造を利用して期待損失関数の未知のパラメータを学習し、最良のアームをできるだけ早く識別する。 我々は,提案手法の強みと限界を示し,より低い境界で解析を補完する。

Motivated by a natural problem in online model selection with bandit information, we introduce and analyze a best arm identification problem in the rested bandit setting, wherein arm expected losses decrease with the number of times the arm has been played. The shape of the expected loss functions is similar across arms, and is assumed to be available up to unknown parameters that have to be learned on the fly. We define a novel notion of regret for this problem, where we compare to the policy that always plays the arm having the smallest expected loss at the end of the game. We analyze an arm elimination algorithm whose regret vanishes as the time horizon increases. The actual rate of convergence depends in a detailed way on the postulated functional form of the expected losses. Unlike known model selection efforts in the recent bandit literature, our algorithm exploits the specific structure of the problem to learn the unknown parameters of the expected loss function so as to identify the best arm as quickly as possible. We complement our analysis with a lower bound, indicating strengths and limitations of the proposed solution.
翻訳日:2021-05-16 21:47:46 公開日:2020-12-07
# 説明可能な人工知能:トレーニングデータのサブセットが予測にどのように影響するか

Explainable Artificial Intelligence: How Subsets of the Training Data Affect a Prediction ( http://arxiv.org/abs/2012.03625v1 )

ライセンス: Link先を確認
Andreas Brands{\ae}ter, Ingrid K. Glad(参考訳) 様々な応用分野において、機械学習モデルと予測の解釈と説明に対する関心と需要が高まっている。 本稿では,すでに開発,実装,訓練されているデータ駆動モデルについて考察する。 私たちのゴールはモデルを解釈し、予測を説明し、理解することです。 データ駆動モデルによる予測はトレーニングに使用されるデータに大きく依存するので、トレーニングデータが予測にどのように影響するかを説明すべきである。 そこで本研究では,データサブセット重要度をトレーニングするためにshapley値と呼ぶ新しい手法を提案する。 シェープリーの価値の概念は、協力的なプレイヤーのセット間で報酬を公平に分配するために開発された連立ゲーム理論に由来する。 我々はこれをサブセットの重要性にまで拡張し、トレーニングデータのサブセットを、その予測がペイアウトであるゲーム内のプレイヤーとして扱うことによって、予測を説明する。 本稿では,提案手法がいかに有用かを説明し,その能力をいくつかの例で示す。 提案手法を用いて,モデルの偏りや誤ったトレーニングデータを明らかにする方法を示す。 さらに、既知の状況下で予測が正確に説明される場合、単純なモデルによる予測の説明は直感的な説明と一致することを示す。 この説明により、アルゴリズムの内部動作をより知覚し、類似の予測を生成するモデルが、トレーニングデータの非常に異なる部分に基づいてどのようにできるのかを説明することができる。 最後に、Shapley値をサブセットの重要度に利用して、トレーニングデータ取得を強化し、この予測誤差を減らす方法を示す。

There is an increasing interest in and demand for interpretations and explanations of machine learning models and predictions in various application areas. In this paper, we consider data-driven models which are already developed, implemented and trained. Our goal is to interpret the models and explain and understand their predictions. Since the predictions made by data-driven models rely heavily on the data used for training, we believe explanations should convey information about how the training data affects the predictions. To do this, we propose a novel methodology which we call Shapley values for training data subset importance. The Shapley value concept originates from coalitional game theory, developed to fairly distribute the payout among a set of cooperating players. We extend this to subset importance, where a prediction is explained by treating the subsets of the training data as players in a game where the predictions are the payouts. We describe and illustrate how the proposed method can be useful and demonstrate its capabilities on several examples. We show how the proposed explanations can be used to reveal biasedness in models and erroneous training data. Furthermore, we demonstrate that when predictions are accurately explained in a known situation, then explanations of predictions by simple models correspond to the intuitive explanations. We argue that the explanations enable us to perceive more of the inner workings of the algorithms, and illustrate how models producing similar predictions can be based on very different parts of the training data. Finally, we show how we can use Shapley values for subset importance to enhance our training data acquisition, and by this reducing prediction error.
翻訳日:2021-05-16 21:47:29 公開日:2020-12-07
# 変分オートエンコーダの自動エンコード

Autoencoding Variational Autoencoder ( http://arxiv.org/abs/2012.03715v1 )

ライセンス: Link先を確認
A. Taylan Cemgil, Sumedh Ghaisas, Krishnamurthy Dvijotham, Sven Gowal, Pushmeet Kohli(参考訳) 変分オートエンコーダ(VAE)は、デコーダから生成された典型的なサンプルを一貫してエンコードするのか? 本稿では、この疑問に対するおそらく意外な答えが「No」であることを示し、VAEが生成可能な典型的なサンプルに対する推論を必ずしも記憶しないことを示す。 我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。 このアプローチは、エンコーダとデコーダの間で交互にマルコフ連鎖を持つ拡張vaeモデルの真の後方への変分近似分布の代替構成にかかっている。 この方法は、VAEモデルをスクラッチからトレーニングしたり、すでに訓練済みのVAEを与えられたら、オリジナルのトレーニングデータにアクセスすることなく、完全に自己管理された方法でポスト処理ステップとして実行することができる。 実験により, 自己整合性アプローチで訓練したエンコーダは, 敵攻撃による入力の摂動に対して頑健な(無感な)表現につながることが明らかとなった。 学習した表現の特性を定量化し,所望のプロパティに対して特別に訓練されたベースラインと比較する,ColorMnist と CelebA ベンチマークデータセットの実験結果を提供する。

Does a Variational AutoEncoder (VAE) consistently encode typical samples generated from its decoder? This paper shows that the perhaps surprising answer to this question is `No'; a (nominally trained) VAE does not necessarily amortize inference for typical samples that it is capable of generating. We study the implications of this behaviour on the learned representations and also the consequences of fixing it by introducing a notion of self consistency. Our approach hinges on an alternative construction of the variational approximation distribution to the true posterior of an extended VAE model with a Markov chain alternating between the encoder and the decoder. The method can be used to train a VAE model from scratch or given an already trained VAE, it can be run as a post processing step in an entirely self supervised way without access to the original training data. Our experimental analysis reveals that encoders trained with our self-consistency approach lead to representations that are robust (insensitive) to perturbations in the input introduced by adversarial attacks. We provide experimental results on the ColorMnist and CelebA benchmark datasets that quantify the properties of the learned representations and compare the approach with a baseline that is specifically trained for the desired property.
翻訳日:2021-05-16 21:46:50 公開日:2020-12-07
# 最適輸送を用いたモデル圧縮

Model Compression Using Optimal Transport ( http://arxiv.org/abs/2012.03907v1 )

ライセンス: Link先を確認
Suhas Lohit, Michael Jones(参考訳) モデル圧縮手法は、携帯電話のような計算、メモリ、エネルギー制約のある環境でのディープラーニングモデルの展開を容易にするために重要である。 知識蒸留はモデル圧縮アルゴリズムの一種であり、大きな教師ネットワークからの知識がより小さな学生ネットワークに転送され、生徒のパフォーマンスが向上する。 本稿では,学生のネットワークパラメータの学習を促す学習者ネットワークのトレーニングにおいて,学生の特徴の分布を教師の機能に近づけるための最適な移動型損失関数をいかに活用できるかを示す。 CIFAR-100, SVHN, ImageNetに画像分類結果を示し, 提案した最適輸送損失関数が他の損失関数と同等かそれ以上に機能することを示す。

Model compression methods are important to allow for easier deployment of deep learning models in compute, memory and energy-constrained environments such as mobile phones. Knowledge distillation is a class of model compression algorithm where knowledge from a large teacher network is transferred to a smaller student network thereby improving the student's performance. In this paper, we show how optimal transport-based loss functions can be used for training a student network which encourages learning student network parameters that help bring the distribution of student features closer to that of the teacher features. We present image classification results on CIFAR-100, SVHN and ImageNet and show that the proposed optimal transport loss functions perform comparably to or better than other loss functions.
翻訳日:2021-05-16 21:43:55 公開日:2020-12-07
# 地球観測における機械学習情報融合:方法、応用、データソースの包括的レビュー

Machine Learning Information Fusion in Earth Observation: A Comprehensive Review of Methods, Applications and Data Sources ( http://arxiv.org/abs/2012.05795v1 )

ライセンス: Link先を確認
S. Salcedo-Sanz, P. Ghamisi, M. Piles, M. Werner, L. Cuadra, A. Moreno-Mart\'inez, E. Izquierdo-Verdiguier , J. Mu\~noz-Mar\'i, Amirhosein Mosavi, G. Camps-Valls(参考訳) 本稿では、地球観測における問題に対する機械学習(ML)技術に基づく、最も重要な情報融合データ駆動アルゴリズムについてレビューする。 今日では、さまざまなセンサー、状態、フラックス、プロセス、変数を計測し、前例のない空間分解能と時間分解能で地球を観測し、モデル化しています。 地球観測には、衛星や空中プラットフォームに搭載されたリモートセンシングシステムを備えていますが、そこには、その場での観測、数値モデル、ソーシャルメディアデータストリームなどが含まれています。 データ駆動アプローチ、特にML技術は、このデータルージュから重要な情報を抽出する自然な選択である。 本稿は,地球観測における情報融合に関する最近の研究の概観を,現場における最も関係の深い先行研究を説明することだけでなく,ML情報融合が重要な成果を得た地球観測アプリケーションにも焦点をあてて,実践的な意図で概観する。 我々はまた、地球観測問題に最も使われているデータセット、モデル、およびソースについて、その重要性と必要なときにどのようにデータを取得するかを説明する。 最後に,代表的なケーススタディセットを用いたmlデータ融合の応用について述べるとともに,この分野の近い将来について検討・展望する。

This paper reviews the most important information fusion data-driven algorithms based on Machine Learning (ML) techniques for problems in Earth observation. Nowadays we observe and model the Earth with a wealth of observations, from a plethora of different sensors, measuring states, fluxes, processes and variables, at unprecedented spatial and temporal resolutions. Earth observation is well equipped with remote sensing systems, mounted on satellites and airborne platforms, but it also involves in-situ observations, numerical models and social media data streams, among other data sources. Data-driven approaches, and ML techniques in particular, are the natural choice to extract significant information from this data deluge. This paper produces a thorough review of the latest work on information fusion for Earth observation, with a practical intention, not only focusing on describing the most relevant previous works in the field, but also the most important Earth observation applications where ML information fusion has obtained significant results. We also review some of the most currently used data sets, models and sources for Earth observation problems, describing their importance and how to obtain the data when needed. Finally, we illustrate the application of ML data fusion with a representative set of case studies, as well as we discuss and outlook the near future of the field.
翻訳日:2021-05-16 21:42:20 公開日:2020-12-07
# 異種センサのデータを用いたAIによるeスポーツ選手のパフォーマンス予測

AI-enabled Prediction of eSports Player Performance Using the Data from Heterogeneous Sensors ( http://arxiv.org/abs/2012.03491v1 )

ライセンス: Link先を確認
Anton Smerdov, Evgeny Burnaev, Andrey Somov(参考訳) eSportsの進歩には、ProおよびアマチュアeSportsチームにおける高品質な分析とトレーニングを保証するツールが欠けている。 我々は,センサのデータのみを用いて,eSportsプレーヤーのゲーム内パフォーマンスを予測する人工知能(AI)ソリューションについて報告する。 このため,プロやアマチュア選手から生理学,環境学,ゲームチェアのデータを収集した。 リカレントニューラルネットワークを用いて、マルチプレイヤーゲームにおけるゲームログから、各モーメント毎のプレイヤー性能を評価する。 我々は,注意機構によってネットワークの一般化が改善され,機能の重要性も高まることを検証した。 最良のモデルはROC AUCスコア0.73を達成する。 トレーニングセットではデータを使用しなくても、特定のプレーヤのパフォーマンスの予測が実現される。 提案するソリューションはプロのeスポーツチームやアマチュア選手のための学習ツールに多くの有望な応用がある。

The emerging progress of eSports lacks the tools for ensuring high-quality analytics and training in Pro and amateur eSports teams. We report on an Artificial Intelligence (AI) enabled solution for predicting the eSports player in-game performance using exclusively the data from sensors. For this reason, we collected the physiological, environmental, and the game chair data from Pro and amateur players. The player performance is assessed from the game logs in a multiplayer game for each moment of time using a recurrent neural network. We have investigated that attention mechanism improves the generalization of the network and provides the straightforward feature importance as well. The best model achieves ROC AUC score 0.73. The prediction of the performance of particular player is realized although his data are not utilized in the training set. The proposed solution has a number of promising applications for Pro eSports teams as well as a learning tool for amateur players.
翻訳日:2021-05-16 21:40:57 公開日:2020-12-07
# CEEMDANと深部時間畳み込みニューラルネットワークを用いたPM2.5濃度予測のための新しいハイブリッドフレームワーク

A Novel Hybrid Framework for Hourly PM2.5 Concentration Forecasting Using CEEMDAN and Deep Temporal Convolutional Neural Network ( http://arxiv.org/abs/2012.03781v1 )

ライセンス: Link先を確認
Fuxin Jiang, Chengyuan Zhang, Shaolong Sun, Jingyun Sun(参考訳) PM2.5濃度予測では,PM2.5濃度変化に影響を与える外部因子のデータパターンを正確に把握し,予測モデルの構築を効率よく行うことで予測精度を向上させる。 本研究では, 過去の汚染物質濃度データ, 気象データ, 離散時間変数のデータパターンをモデル化することにより, PM2.5濃度を予測するために, 適応雑音を用いた完全アンサンブル経験モード分解(CEEMDAN)と深部時間畳み込みニューラルネットワーク(DeepTCN)を用いたハイブリッド予測モデルを開発した。 北京のPM2.5濃度を試料として,提案したCEEMDAN-DeepTCNモデルの予測精度が,時系列モデル,人工ニューラルネットワーク,一般的なディープラーニングモデルと比較した場合,最高であることが実証された。 新しいモデルではPM2.5関連因子データパターンをモデル化し,PM2.5濃度を予測するための有望なツールとして利用できる。

For hourly PM2.5 concentration prediction, accurately capturing the data patterns of external factors that affect PM2.5 concentration changes, and constructing a forecasting model is one of efficient means to improve forecasting accuracy. In this study, a novel hybrid forecasting model based on complete ensemble empirical mode decomposition with adaptive noise (CEEMDAN) and deep temporal convolutional neural network (DeepTCN) is developed to predict PM2.5 concentration, by modelling the data patterns of historical pollutant concentrations data, meteorological data, and discrete time variables' data. Taking PM2.5 concentration of Beijing as the sample, experimental results showed that the forecasting accuracy of the proposed CEEMDAN-DeepTCN model is verified to be the highest when compared with the time series model, artificial neural network, and the popular deep learning models. The new model has improved the capability to model the PM2.5-related factor data patterns, and can be used as a promising tool for forecasting PM2.5 concentrations.
翻訳日:2021-05-16 21:40:22 公開日:2020-12-07
# 深部ニューラルネットワークの層間情報相似性評価 : トポロジカル類似性とデータ近傍ダイナミクスの永続解析

Inter-layer Information Similarity Assessment of Deep Neural Networks Via Topological Similarity and Persistence Analysis of Data Neighbour Dynamics ( http://arxiv.org/abs/2012.03793v1 )

ライセンス: Link先を確認
Andrew Hryniowski and Alexander Wong(参考訳) ディープニューラルネットワーク(DNN)による情報構造の定量的解析により、DNNアーキテクチャの理論的性能に関する新たな知見が明らかにされる。 定量的情報構造解析に向けた2つの非常に有望な研究は、1)層間特徴類似性に着目した層類似性(ls)戦略、2)層間情報を用いた層間データ次元性に着目した固有次元性(id)戦略である。 定量的情報構造解析のためのLSとIDの戦略に着想を得て,DNNを経由するデータサンプルの近傍のダイナミクスを研究する興味深いアイデアに基づく,層間情報類似性評価のための2つの新しい補完手法を提案する。 具体的には、DNNの層間の情報トポロジ的類似性を定量化するためのNearest Neighbour Topological similarity(NNTS)の概念を紹介する。 さらに、DNN全体のデータ近傍関係の層間永続性を定量化するためのNearest Neighbour Topological Persistence(NNTP)の概念を導入する。 提案手法は,局所的なトポロジカル情報のみを活用し,効率的な層間情報類似度評価を促進するとともに,画像データ上の深層畳み込みニューラルネットワークアーキテクチャの解析を行い,dnnの理論的性能に関する洞察を得ることにより,その効果を実証する。

The quantitative analysis of information structure through a deep neural network (DNN) can unveil new insights into the theoretical performance of DNN architectures. Two very promising avenues of research towards quantitative information structure analysis are: 1) layer similarity (LS) strategies focused on the inter-layer feature similarity, and 2) intrinsic dimensionality (ID) strategies focused on layer-wise data dimensionality using pairwise information. Inspired by both LS and ID strategies for quantitative information structure analysis, we introduce two novel complimentary methods for inter-layer information similarity assessment premised on the interesting idea of studying a data sample's neighbourhood dynamics as it traverses through a DNN. More specifically, we introduce the concept of Nearest Neighbour Topological Similarity (NNTS) for quantifying the information topology similarity between layers of a DNN. Furthermore, we introduce the concept of Nearest Neighbour Topological Persistence (NNTP) for quantifying the inter-layer persistence of data neighbourhood relationships throughout a DNN. The proposed strategies facilitate the efficient inter-layer information similarity assessment by leveraging only local topological information, and we demonstrate their efficacy in this study by performing analysis on a deep convolutional neural network architecture on image data to study the insights that can be gained with respect to the theoretical performance of a DNN.
翻訳日:2021-05-16 21:40:04 公開日:2020-12-07
# 医学生と大学院薬学者のための再現性研究の指導

Teaching reproducible research for medical students and postgraduate pharmaceutical scientists ( http://arxiv.org/abs/2012.03554v1 )

ライセンス: Link先を確認
Andreas D. Meid(参考訳) 多くの学術分野において、医学生は研究中に既に科学研究を開始している。 我々の機関と同様に、彼らは多かれ少なかれ経験豊富な(大学院)薬学、一般の自然科学、あるいは生統計学の研究者と学際的なチームで働いていることが多い。 それらはすべて、特に統計分析の観点から、教育の不可欠な部分として優れた研究実践を教えるべきである。 これは現代研究の中心的側面としての再現性を含んでいる。 完全に再現可能なワークフローの必要な側面に慣れていない教育者でさえも,臨床研究のいくつかの分野に関わる医学生や大学院生を対象に,再現可能な研究(RR)に関する講義シリーズを開催することに同意した。 そこで私は、RRの定義、RRの理由、RRのメリットの可能性、そしてそれに従って作業する方法を明らかにするためのパイロット講義シリーズを設計した。 実際に分析を再現しようとすると、いくつかの現実的な障害に遭遇しました。 本稿では、RRの多様体面を強調し、可能な説明と解決策を提供し、(定量的な)臨床研究者のための調和されたカリキュラムにはRR原理を含めるべきであると主張する。 したがって、これらの経験が教育者や学生の意識を高めるのに役立つことを願っています。 RRの労働習慣は、私たち自身や学生にとってだけでなく、機関内の他の研究者にとっても、科学的パートナーにとっても、科学コミュニティにとっても、そして最終的には研究結果から公衆の利益のためにも有益である。

In many academic settings, medical students start their scientific work already during their studies. Like at our institution, they often work in interdisciplinary teams with more or less experienced (postgraduate) researchers of pharmaceutical sciences, natural sciences in general, or biostatistics. All of them should be taught good research practices as an integral part of their education, especially in terms of statistical analysis. This includes reproducibility as a central aspect of modern research. Acknowledging that even educators might be unfamiliar with necessary aspects of a perfectly reproducible workflow, I agreed to give a lecture series on reproducible research (RR) for medical students and postgraduate pharmacists involved in several areas of clinical research. Thus, I designed a piloting lecture series to highlight definitions of RR, reasons for RR, potential merits of RR, and ways to work accordingly. In trying to actually reproduce a published analysis, I encountered several practical obstacles. In this article, I focus on this working example to emphasize the manifold facets of RR, to provide possible explanations and solutions, and argue that harmonized curricula for (quantitative) clinical researchers should include RR principles. I therefore hope these experiences are helpful to raise awareness among educators and students. RR working habits are not only beneficial for ourselves or our students, but also for other researchers within an institution, for scientific partners, for the scientific community, and eventually for the public profiting from research findings.
翻訳日:2021-05-16 21:38:20 公開日:2020-12-07
# バックプロパゲーティングは、逆行例の転送性を改善する

Backpropagating Linearly Improves Transferability of Adversarial Examples ( http://arxiv.org/abs/2012.03528v1 )

ライセンス: Link先を確認
Yiwen Guo, Qizhang Li, Hao Chen(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性は、コミュニティから大きな注目を集めている。 本稿では,dnnに対する多数のブラックボックス攻撃の基盤となるこのような事例の転送可能性について検討する。 我々はGoodfellowらの、それほど新しいものではなく、確実に注目すべき仮説を再考する。 DNNの線形性を適切に改善することで、転送可能性を高めることができる。 線形バックプロパゲーション(LinBP)は,勾配を利用するオフザシェルフ攻撃を用いて,より線形にバックプロパゲーションを行う手法である。 より具体的には、フォワードは正常に計算するが、フォワードパスで非線形なアクティベーションが発生していないかのように損失を逆伝搬する。 実験の結果,この手法はcifar-10とimagenet上での移動可能な攻撃例の作成において,現在の最先端を明らかに上回っており,様々なdnnに対する攻撃がより効果的であることが判明した。

The vulnerability of deep neural networks (DNNs) to adversarial examples has drawn great attention from the community. In this paper, we study the transferability of such examples, which lays the foundation of many black-box attacks on DNNs. We revisit a not so new but definitely noteworthy hypothesis of Goodfellow et al.'s and disclose that the transferability can be enhanced by improving the linearity of DNNs in an appropriate manner. We introduce linear backpropagation (LinBP), a method that performs backpropagation in a more linear fashion using off-the-shelf attacks that exploit gradients. More specifically, it calculates forward as normal but backpropagates loss as if some nonlinear activations are not encountered in the forward pass. Experimental results demonstrate that this simple yet effective method obviously outperforms current state-of-the-arts in crafting transferable adversarial examples on CIFAR-10 and ImageNet, leading to more effective attacks on a variety of DNNs.
翻訳日:2021-05-16 21:36:36 公開日:2020-12-07
# 重み付けとノードプルーニング依存性とダイナミクスにおける正則化の役割

The Role of Regularization in Shaping Weight and Node Pruning Dependency and Dynamics ( http://arxiv.org/abs/2012.03827v1 )

ライセンス: Link先を確認
Yael Ben-Guigui, Jacob Goldberger, Tammy Riklin-Raviv(参考訳) 深層ニューラルネットワークの容量を減らすための圧力がネットワーク希釈法の発展を刺激し、その解析を行った。 スパーシリティを促進するための$L_1$と$L_0$正規化の能力はしばしば言及されるが、$L_2$正規化はこの文脈ではほとんど議論されない。 より小さな重みのゼロ化を好む確率関数からのサンプリングにより、ウェイトプルーニングのための新しい枠組みを提案する。 さらに,l_1$ と $l_2$ のレギュライゼーションが,重み付きプルーニングを最適化しながらノードプルーニングのダイナミクスに寄与することを検討する。 次に,MNIST分類用MLPのノードの50%,CIFAR10分類用VGG-16のフィルタの60%,U-Netのチャネルの60%,CNNモデルのチャネルの50%を新型コロナウイルス検出用として除去する医療画像モデルにおいて,重崩壊正規化器と併用した場合の確率的枠組みの有効性を示した。 これらのノードを切断したネットワークに対しては、元の高密度ネットワークよりもわずかに精度の低い競合重み付け結果も提示する。

The pressing need to reduce the capacity of deep neural networks has stimulated the development of network dilution methods and their analysis. While the ability of $L_1$ and $L_0$ regularization to encourage sparsity is often mentioned, $L_2$ regularization is seldom discussed in this context. We present a novel framework for weight pruning by sampling from a probability function that favors the zeroing of smaller weights. In addition, we examine the contribution of $L_1$ and $L_2$ regularization to the dynamics of node pruning while optimizing for weight pruning. We then demonstrate the effectiveness of the proposed stochastic framework when used together with a weight decay regularizer on popular classification models in removing 50% of the nodes in an MLP for MNIST classification, 60% of the filters in VGG-16 for CIFAR10 classification, and on medical image models in removing 60% of the channels in a U-Net for instance segmentation and 50% of the channels in CNN model for COVID-19 detection. For these node-pruned networks, we also present competitive weight pruning results that are only slightly less accurate than the original, dense networks.
翻訳日:2021-05-16 21:35:53 公開日:2020-12-07
# 効率的な非線形RX異常検出器

Efficient Nonlinear RX Anomaly Detectors ( http://arxiv.org/abs/2012.05799v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on Hidalgo, Adri\'an P\'erez-Suay, Fatih Nar, and Gustau Camps-Valls(参考訳) 現在の異常検出アルゴリズムは、通常、精度か効率のどちらかによって挑戦される。 より正確な非線形検出器は一般的に遅く、拡張性がない。 本稿では、Nystr\omアプローチを用いてカーネル関数をランダムなフーリエ特徴で近似し、異常検出のための標準カーネルReed-Xiaoli(RX)法の効率を改善するための2種類の手法を提案する。 実際のマルチスペクトル画像とハイパースペクトル画像の比較を行う。 その結果,提案手法は計算コストが低く,暗黙的正規化効果により標準カーネル rx アルゴリズムに類似する(あるいは上回る)ことが判明した。 最後に重要なこととして、Nystr\"omアプローチは検出の能力が改善されている。

Current anomaly detection algorithms are typically challenged by either accuracy or efficiency. More accurate nonlinear detectors are typically slow and not scalable. In this letter, we propose two families of techniques to improve the efficiency of the standard kernel Reed-Xiaoli (RX) method for anomaly detection by approximating the kernel function with either {\em data-independent} random Fourier features or {\em data-dependent} basis with the Nystr\"om approach. We compare all methods for both real multi- and hyperspectral images. We show that the proposed efficient methods have a lower computational cost and they perform similar (or outperform) the standard kernel RX algorithm thanks to their implicit regularization effect. Last but not least, the Nystr\"om approach has an improved power of detection.
翻訳日:2021-05-16 21:33:45 公開日:2020-12-07
# 多層ネットワークのための適応層アグリゲーションによるスペクトルクラスタリング

Spectral clustering via adaptive layer aggregation for multi-layer networks ( http://arxiv.org/abs/2012.04646v1 )

ライセンス: Link先を確認
Sihan Huang, Haolei Weng, Yang Feng(参考訳) ネットワーク分析における根本的な問題の一つは、各層がノード間の1種類のエッジ情報を表すマルチレイヤネットワークのコミュニティ構造を検出することである。 有効凸層アグリゲーションに基づく積分スペクトルクラスタリング手法を提案する。 本手法は,コミュニティ検出の一貫性が不可能である難解なシステムにおいて,重み付き隣接行列のスペクトル埋め込みと下流の$k$-meansクラスタリングの微妙な漸近解析に強く動機づけられている。 実際、いくつかの特殊な多層ネットワークモデルの下での誤クラスタ化エラーを最小限に抑える最適凸凝集を推定する手法が示されている。 さらに,ガウス混合モデルを用いたクラスタリングは,スペクトルクラスタリングにおける一般的な$k$-meansよりも優れていることが示唆された。 広範な数値研究により,我々の適応集計手法とガウス混合モデルクラスタリングの併用により,新しいスペクトルクラスタリングは,いくつかの一般的な手法と比較して著しく競合することが示された。

One of the fundamental problems in network analysis is detecting community structure in multi-layer networks, of which each layer represents one type of edge information among the nodes. We propose integrative spectral clustering approaches based on effective convex layer aggregations. Our aggregation methods are strongly motivated by a delicate asymptotic analysis of the spectral embedding of weighted adjacency matrices and the downstream $k$-means clustering, in a challenging regime where community detection consistency is impossible. In fact, the methods are shown to estimate the optimal convex aggregation, which minimizes the mis-clustering error under some specialized multi-layer network models. Our analysis further suggests that clustering using Gaussian mixture models is generally superior to the commonly used $k$-means in spectral clustering. Extensive numerical studies demonstrate that our adaptive aggregation techniques, together with Gaussian mixture model clustering, make the new spectral clustering remarkably competitive compared to several popularly used methods.
翻訳日:2021-05-16 21:32:22 公開日:2020-12-07
# 対話談話認識グラフ畳み込みネットワークによる抽象会議要約

Dialogue Discourse-Aware Graph Convolutional Networks for Abstractive Meeting Summarization ( http://arxiv.org/abs/2012.03502v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin, Xinwei Geng, Ting Liu(参考訳) sequence-to-sequence メソッドは、テキスト抽象ミーティングの要約に有望な結果をもたらしました。 ニュースや科学論文のような文書とは異なり、会議は当然対話特有の構造情報でいっぱいです。 しかし、以前の作業は、リッチな構造情報を無視しながら、連続的にミーティングをモデル化した。 本稿では,各発話間の事前定義された意味関係を提示できる対話特化構造である対話談話を用いて,要約会議のための対話談話認識グラフ畳み込みネットワーク(dda-gcn)を開発した。 まず,対話談話関係を用いた会議テキスト全体を談話グラフに変換し,それからDDA-GCNを用いてそのグラフの意味表現を符号化する。 最後に,再帰的ニューラルネットワークを用いて要約を生成する。 さらに,質問応答関係を利用して擬似要約コーパスを構築し,モデルの事前学習に利用することができる。 AMIデータセットの実験結果から,我々のモデルは様々なベースラインを上回る性能を示し,最先端の性能を実現することができる。

Sequence-to-sequence methods have achieved promising results for textual abstractive meeting summarization. Different from documents like news and scientific papers, a meeting is naturally full of dialogue-specific structural information. However, previous works model a meeting in a sequential manner, while ignoring the rich structural information. In this paper, we develop a Dialogue Discourse-Aware Graph Convolutional Networks (DDA-GCN) for meeting summarization by utilizing dialogue discourse, which is a dialogue-specific structure that can provide pre-defined semantic relationships between each utterance. We first transform the entire meeting text with dialogue discourse relations into a discourse graph and then use DDA-GCN to encode the semantic representation of the graph. Finally, we employ a Recurrent Neural Network to generate the summary. In addition, we utilize the question-answer discourse relation to construct a pseudo-summarization corpus, which can be used to pre-train our model. Experimental results on the AMI dataset show that our model outperforms various baselines and can achieve state-of-the-art performance.
翻訳日:2021-05-16 21:31:48 公開日:2020-12-07
# 先行音響コンテキストを用いた音声合成の改善

Using previous acoustic context to improve Text-to-Speech synthesis ( http://arxiv.org/abs/2012.03763v1 )

ライセンス: Link先を確認
Pilar Oplustil-Gallegos and Simon King(参考訳) 多くの音声合成データセット、特にオーディオブックから派生したものは、自然に発話のシーケンスを構成する。 それでもこれらのデータは、モデルトレーニングと推論時間の両方において、個別の無秩序な発話として扱われる。 これは発話レベル以上の重要な韻律現象を捨てる。 本稿では,先行する発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データの逐次的性質を活用する。 これはタコトロン2モデルのデコーダに入力される。 埋め込みは二次的なタスクにも使用され、さらなる監視を提供する。 2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。 その結果,連続発話間の関係は有益であり,提案モデルはタコトロン2のベースライン上での自然性を大幅に向上させる。

Many speech synthesis datasets, especially those derived from audiobooks, naturally comprise sequences of utterances. Nevertheless, such data are commonly treated as individual, unordered utterances both when training a model and at inference time. This discards important prosodic phenomena above the utterance level. In this paper, we leverage the sequential nature of the data using an acoustic context encoder that produces an embedding of the previous utterance audio. This is input to the decoder in a Tacotron 2 model. The embedding is also used for a secondary task, providing additional supervision. We compare two secondary tasks: predicting the ordering of utterance pairs, and predicting the embedding of the current utterance audio. Results show that the relation between consecutive utterances is informative: our proposed model significantly improves naturalness over a Tacotron 2 baseline.
翻訳日:2021-05-16 21:30:43 公開日:2020-12-07
# 騒々しい中世データのためのスティロメトリ:Paul Meyerのハジノグラフィー仮説の評価

Stylometry for Noisy Medieval Data: Evaluating Paul Meyer's Hagiographic Hypothesis ( http://arxiv.org/abs/2012.03845v1 )

ライセンス: Link先を確認
Jean-Baptiste Camps, Thibault Cl\'erice, Ariane Pinche(参考訳) 中世の語彙テキストのスティロメトリクス分析は、スペルやより実質的なスクラベ変化の重要性に加えて、伝統に導入された変種や誤りが、スケロメトリストの仕事を複雑にするなど、依然として重要な課題である。 いくつかのテキストの1つの手からコピーを解析することにより、これらの問題を部分的に軽減することができる(Camps and Cafiero, 2013)。 本稿では,ms bnf, frに含まれるハギグラフ作品に対して,手書き文字認識とスタイロメトリ解析を組み合わせたワークフローを提案する。 412. 我々は、ポール・マイヤーの著作群の構成に関する仮説を評価し、非常に匿名なコーパスにおける潜在的権威的グループ化を検討する。

Stylometric analysis of medieval vernacular texts is still a significant challenge: the importance of scribal variation, be it spelling or more substantial, as well as the variants and errors introduced in the tradition, complicate the task of the would-be stylometrist. Basing the analysis on the study of the copy from a single hand of several texts can partially mitigate these issues (Camps and Cafiero, 2013), but the limited availability of complete diplomatic transcriptions might make this difficult. In this paper, we use a workflow combining handwritten text recognition and stylometric analysis, applied to the case of the hagiographic works contained in MS BnF, fr. 412. We seek to evaluate Paul Meyer's hypothesis about the constitution of groups of hagiographic works, as well as to examine potential authorial groupings in a vastly anonymous corpus.
翻訳日:2021-05-16 21:30:33 公開日:2020-12-07
# the lab vs the crowd: a investigation on data quality for neural dialogue models (英語)

The Lab vs The Crowd: An Investigation into Data Quality for Neural Dialogue Models ( http://arxiv.org/abs/2012.03855v1 )

ライセンス: Link先を確認
Jos\'e Lopes, Francisco J. Chiyah Garcia and Helen Hastie(参考訳) 品質データの収集と処理に関する課題は、データ駆動対話モデルの進歩を妨げている。 これまでのアプローチは、収集が遅いがデータが高品質と見なされるような、リソース集約的なラボの設定から遠ざかっている。 Amazon Mechanical Turkのようなクラウドソーシングプラットフォームの出現は、研究者にデータ収集のコスト効率と迅速な方法を提供してきた。 しかし、流体、自然言語、テキストによる対話の収集は、特に2人のクラウドソースの労働者の間で難しい場合があります。 本研究では,同じインタラクションタスクにおける対話モデルの性能を比較するが,実験室とクラウドソースの2つの異なる設定で収集する。 実験室での対話は、クラウドソースデータの半分未満の精度で行う必要があることがわかりました。 各データ収集手法の利点と欠点について論じる。

Challenges around collecting and processing quality data have hampered progress in data-driven dialogue models. Previous approaches are moving away from costly, resource-intensive lab settings, where collection is slow but where the data is deemed of high quality. The advent of crowd-sourcing platforms, such as Amazon Mechanical Turk, has provided researchers with an alternative cost-effective and rapid way to collect data. However, the collection of fluid, natural spoken or textual interaction can be challenging, particularly between two crowd-sourced workers. In this study, we compare the performance of dialogue models for the same interaction task but collected in two different settings: in the lab vs. crowd-sourced. We find that fewer lab dialogues are needed to reach similar accuracy, less than half the amount of lab data as crowd-sourced data. We discuss the advantages and disadvantages of each data collection method.
翻訳日:2021-05-16 21:30:16 公開日:2020-12-07
# タスク指向対話システムのベンチマークインテント検出

Benchmarking Intent Detection for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2012.03929v1 )

ライセンス: Link先を確認
Haode Qi, Lin Pan, Atin Sood, Abhishek Shah, Ladislav Kunc, Saloni Potdar(参考訳) Intent Detectionは、ユーザのテキスト入力の意図を予測してユーザタスクを達成する、現代の目標指向対話システムのキーコンポーネントである。 堅牢で正確な意図検出モデルの設計には3つの大きな課題がある。 第一に、典型的な意図検出モデルは高い精度を達成するために大量のラベル付きデータを必要とする。 残念ながら、現実的なシナリオでは、小さく、不均衡でノイズの多いデータセットを見つけることが一般的である。 第二に、大規模なトレーニングデータであっても、インテント検出モデルは、実世界へのデプロイ時に異なるテストデータの分布を見ることができるため、精度が低下する。 最後に、実用的な意図検出モデルは、トレーニングと単一クエリ推論の両方において計算効率が高くなければならない。 様々なデータセット上でインテント検出手法をベンチマークする。 その結果、Watson Assistantの意図検出モデルは、他の商用ソリューションよりも優れており、計算資源とトレーニングデータのみを必要としながら、大規模な事前学習言語モデルに匹敵することがわかった。 Watson Assistantは、トレーニングとテストの分布が異なる場合、より高度な堅牢性を示す。

Intent detection is a key component of modern goal-oriented dialog systems that accomplish a user task by predicting the intent of users' text input. There are three primary challenges in designing robust and accurate intent detection models. First, typical intent detection models require a large amount of labeled data to achieve high accuracy. Unfortunately, in practical scenarios it is more common to find small, unbalanced, and noisy datasets. Secondly, even with large training data, the intent detection models can see a different distribution of test data when being deployed in the real world, leading to poor accuracy. Finally, a practical intent detection model must be computationally efficient in both training and single query inference so that it can be used continuously and re-trained frequently. We benchmark intent detection methods on a variety of datasets. Our results show that Watson Assistant's intent detection model outperforms other commercial solutions and is comparable to large pretrained language models while requiring only a fraction of computational resources and training data. Watson Assistant demonstrates a higher degree of robustness when the training and test distributions differ.
翻訳日:2021-05-16 21:30:03 公開日:2020-12-07
# big green at wnut 2020 shared task-1: relationship extraction as contextized sequence classification

Big Green at WNUT 2020 Shared Task-1: Relation Extraction as Contextualized Sequence Classification ( http://arxiv.org/abs/2012.04538v1 )

ライセンス: Link先を確認
Chris Miller and Soroush Vosoughi(参考訳) 関連とイベント抽出は自然言語処理において重要なタスクである。 本稿では,コンテキスト化された知識グラフ補完を用いて,雑音の多いテキスト環境における既知のエンティティ間の関係とイベントを分類するシステムを提案する。 本システムでは,ウェットラボプロトコルのデータセットから関係やイベントを効果的に抽出できることを示す。

Relation and event extraction is an important task in natural language processing. We introduce a system which uses contextualized knowledge graph completion to classify relations and events between known entities in a noisy text environment. We report results which show that our system is able to effectively extract relations and events from a dataset of wet lab protocols.
翻訳日:2021-05-16 21:28:26 公開日:2020-12-07
# CompFeat: ビデオインスタンスセグメンテーションのための包括的な機能集約

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation ( http://arxiv.org/abs/2012.03400v1 )

ライセンス: Link先を確認
Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi(参考訳) ビデオインスタンスのセグメンテーションは、任意のビデオに対して各オブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクである。 これまでのアプローチでは、オブジェクトの検出、セグメンテーション、トラッキングにのみシングルフレーム機能を使用しており、動画シナリオでは、動きのぼやけや劇的な外観変化など、いくつかの異なる課題によって苦しめられている。 単一フレームの特徴のみを用いて導入されたあいまいさを解消するため,時間的・空間的文脈情報を用いて,フレームレベルとオブジェクトレベルの特徴を洗練するための包括的特徴集約手法(CompFeat)を提案する。 集約プロセスは、学習した特徴の識別力を著しく向上させる新しい注意機構で慎重に設計される。 特徴的類似点と空間的類似点の両方を組み込むことで,シアム設計によるモデル追跡能力をさらに向上する。 YouTube-VISデータセットで実施された実験は、提案したCompFeatの有効性を検証する。 私たちのコードはhttps://github.com/S HI-Labs/CompFeat-for -Video-Instance-Segm entationで公開されます。

Video instance segmentation is a complex task in which we need to detect, segment, and track each object for any given video. Previous approaches only utilize single-frame features for the detection, segmentation, and tracking of objects and they suffer in the video scenario due to several distinct challenges such as motion blur and drastic appearance change. To eliminate ambiguities introduced by only using single-frame features, we propose a novel comprehensive feature aggregation approach (CompFeat) to refine features at both frame-level and object-level with temporal and spatial context information. The aggregation process is carefully designed with a new attention mechanism which significantly increases the discriminative power of the learned features. We further improve the tracking capability of our model through a siamese design by incorporating both feature similarities and spatial similarities. Experiments conducted on the YouTube-VIS dataset validate the effectiveness of proposed CompFeat. Our code will be available at https://github.com/S HI-Labs/CompFeat-for -Video-Instance-Segm entation.
翻訳日:2021-05-16 21:26:28 公開日:2020-12-07
# マルチモーダルセンサによる補足情報融合画像の高分解能化

Boosting Image Super-Resolution Via Fusion of Complementary Information Captured by Multi-Modal Sensors ( http://arxiv.org/abs/2012.03417v1 )

ライセンス: Link先を確認
Fan Wang, Jiangxin Yang, Yanlong Cao, Yanpeng Cao, and Michael Ying Yang(参考訳) Image Super-Resolution (SR)は、低解像度光学センサの画質を向上させるための有望な技術を提供し、幅広いロボティクスアプリケーションにおいて、より優れた目標検出と自律ナビゲーションを容易にする。 最先端のSR手法は一般に単一チャネル入力を用いて訓練・テストされており、異なるスペクトル領域における高解像度画像のキャプチャコストが著しく異なるという事実を無視している。 本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。 そこで我々はまず,様々な視点で捉えたマルチモーダルデータのリアルタイムな3次元再構成に基づいて,画素単位での可視・熱画像の仮想的生成方法を提案する。 そして,マルチスペクトル画像に現れる共起特性を適応的に統合することにより,熱画像の高精度SRを実現するための特徴レベルの多重スペクトル融合残差ネットワークモデルを設計する。 実験により,新たな手法により,新たな低コストチャネルからの補完情報を考慮し,精度と効率の両面で最先端のSRアプローチを著しく向上させることにより,画像SRの逆問題を軽減することができることが示された。

Image Super-Resolution (SR) provides a promising technique to enhance the image quality of low-resolution optical sensors, facilitating better-performing target detection and autonomous navigation in a wide range of robotics applications. It is noted that the state-of-the-art SR methods are typically trained and tested using single-channel inputs, neglecting the fact that the cost of capturing high-resolution images in different spectral domains varies significantly. In this paper, we attempt to leverage complementary information from a low-cost channel (visible/depth) to boost image quality of an expensive channel (thermal) using fewer parameters. To this end, we first present an effective method to virtually generate pixel-wise aligned visible and thermal images based on real-time 3D reconstruction of multi-modal data captured at various viewpoints. Then, we design a feature-level multispectral fusion residual network model to perform high-accuracy SR of thermal images by adaptively integrating co-occurrence features presented in multispectral images. Experimental results demonstrate that this new approach can effectively alleviate the ill-posed inverse problem of image SR by taking into account complementary information from an additional low-cost channel, significantly outperforming state-of-the-art SR approaches in terms of both accuracy and efficiency.
翻訳日:2021-05-16 21:25:49 公開日:2020-12-07
# 半教師付きドメイン適応のための強化学習を用いた選択的擬似ラベル

Selective Pseudo-Labeling with Reinforcement Learning for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2012.03438v1 )

ライセンス: Link先を確認
Bingyu Liu, Yuhong Guo, Jieping Ye, Weihong Deng(参考訳) 最近の領域適応法は、教師なし領域適応問題において顕著に改善されている。 しかし、ターゲットドメインがいくつかのラベル付きインスタンスを利用できる半教師付きドメイン適応(SSDA)環境では、これらのメソッドは性能を向上できない可能性がある。 ドメイン適応における擬似ラベルの有効性に着想を得て,半教師付きドメイン適応のための強化学習に基づく選択的擬似ラベル法を提案する。 従来の擬似ラベル方式では,疑似ラベルデータの正しさと代表性のバランスをとることが困難である。 この制限に対処するため,我々は疑似ラベル付きインスタンスを正確に選択する深層Q-ラーニングモデルを開発した。 さらに,データの少ない識別的特徴の学習における大きなマージン損失の能力に動機付けられ,その識別性を向上させるために,ベースモデルトレーニングのための新たなターゲットマージン損失を提案する。 提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。

Recent domain adaptation methods have demonstrated impressive improvement on unsupervised domain adaptation problems. However, in the semi-supervised domain adaptation (SSDA) setting where the target domain has a few labeled instances available, these methods can fail to improve performance. Inspired by the effectiveness of pseudo-labels in domain adaptation, we propose a reinforcement learning based selective pseudo-labeling method for semi-supervised domain adaptation. It is difficult for conventional pseudo-labeling methods to balance the correctness and representativeness of pseudo-labeled data. To address this limitation, we develop a deep Q-learning model to select both accurate and representative pseudo-labeled instances. Moreover, motivated by large margin loss's capacity on learning discriminative features with little data, we further propose a novel target margin loss for our base model training to improve its discriminability. Our proposed method is evaluated on several benchmark datasets for SSDA, and demonstrates superior performance to all the comparison methods.
翻訳日:2021-05-16 21:25:02 公開日:2020-12-07
# videomix: ビデオ分類のためのデータ拡張再考

VideoMix: Rethinking Data Augmentation for Video Classification ( http://arxiv.org/abs/2012.03457v1 )

ライセンス: Link先を確認
Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Jinhyung Kim(参考訳) 最先端のビデオアクション分類器は、しばしば過剰フィッティングに苦しむ。 それらは前景のアクション内容よりも、特定のオブジェクトやシーンキューに偏りがちで、準最適一般化性能をもたらす。 近年,静的画像分類器の過適合問題に対処するためのデータ拡張戦略が報告されている。 静的画像分類器の有効性にもかかわらず、ビデオでデータ拡張が研究されることは滅多にない。 そこで本研究では,映像分類タスクにおける各種データ拡張戦略の有効性を体系的に解析した。 次に,強力な拡張戦略であるVideoMixを提案する。 VideoMixは、ビデオキューブを別のビデオに挿入することで、新しいトレーニングビデオを作成する。 基底真理ラベルは、各ビデオのボクセル数に比例して混合される。 VideoMixは、モデルがオブジェクトやシーンバイアスを超えて学習し、アクション認識のためのより堅牢な手がかりを抽出できることを示す。 VideoMixは、 Kineticsと挑戦的なSomething-V2ベンチマークの他の拡張ベースラインを一貫して上回っている。 また、THUMOS'14の弱い教師付きアクションローカライゼーション性能も改善した。 VideoMix事前訓練されたモデルは、ビデオ検出タスク(AVA)に改善された精度を示す。

State-of-the-art video action classifiers often suffer from overfitting. They tend to be biased towards specific objects and scene cues, rather than the foreground action content, leading to sub-optimal generalization performances. Recent data augmentation strategies have been reported to address the overfitting problems in static image classifiers. Despite the effectiveness on the static image classifiers, data augmentation has rarely been studied for videos. For the first time in the field, we systematically analyze the efficacy of various data augmentation strategies on the video classification task. We then propose a powerful augmentation strategy VideoMix. VideoMix creates a new training video by inserting a video cuboid into another video. The ground truth labels are mixed proportionally to the number of voxels from each video. We show that VideoMix lets a model learn beyond the object and scene biases and extract more robust cues for action recognition. VideoMix consistently outperforms other augmentation baselines on Kinetics and the challenging Something-Something- V2 benchmarks. It also improves the weakly-supervised action localization performance on THUMOS'14. VideoMix pretrained models exhibit improved accuracies on the video detection task (AVA).
翻訳日:2021-05-16 21:24:45 公開日:2020-12-07
# pfa-gan: 生成的adversarial networkを用いたプログレッシブフェイスエイジング

PFA-GAN: Progressive Face Aging with Generative Adversarial Network ( http://arxiv.org/abs/2012.03459v1 )

ライセンス: Link先を確認
Zhizhong Huang, Shouzhen Chen, Junping Zhang, Hongming Shan(参考訳) フェイスエイジング(英: face aging)とは、顔の外観が年齢によって異なるため、情報法医学やセキュリティ分野において重要な役割を果たす顔の出現を予測することである。 条件付き生成対向ネットワーク(cGANs)で顕著な結果が得られたが、既存のcGANsベースの手法は、通常、1つのネットワークを使用して、2つの異なる年齢グループ間の様々な加齢効果を学習する。 しかし、画像の品質、老化精度、アイデンティティ保存の3つの必須要件を同時に満たすことができず、年齢差が大きいと強いゴーストアーティファクトを持つ老化顔を生成するのが普通である。 本稿では, 顔の経時的変化に触発されて, 創発的adversarial network (pfa-gan) を基盤とした新しいプログレッシブ・フェイスエイジング・フレームワークを提案する。 既存のcGANの手法とは異なり、提案フレームワークには、顔の老化過程を若者から高齢者まで模倣するサブネットワークがいくつか含まれており、それぞれが隣接する2つの年齢グループ間で特定の老化効果を学習するのみである。 提案するフレームワークは,累積アーティファクトや曖昧さを排除するために,エンドツーエンドでトレーニングすることができる。 さらに,老化精度向上のための年齢分布を考慮した年齢推定損失について述べるとともに,ピアソン相関係数を顔の老化平滑度評価指標として用いることを提案する。 大規模な実験の結果は、2つのベンチマークデータセット上で既存の(c)GANベースの手法よりも優れた性能を示す。 ソースコードは~\url{https://github.com/H zzone/PFA-GAN}で入手できる。

Face aging is to render a given face to predict its future appearance, which plays an important role in the information forensics and security field as the appearance of the face typically varies with age. Although impressive results have been achieved with conditional generative adversarial networks (cGANs), the existing cGANs-based methods typically use a single network to learn various aging effects between any two different age groups. However, they cannot simultaneously meet three essential requirements of face aging -- including image quality, aging accuracy, and identity preservation -- and usually generate aged faces with strong ghost artifacts when the age gap becomes large. Inspired by the fact that faces gradually age over time, this paper proposes a novel progressive face aging framework based on generative adversarial network (PFA-GAN) to mitigate these issues. Unlike the existing cGANs-based methods, the proposed framework contains several sub-networks to mimic the face aging process from young to old, each of which only learns some specific aging effects between two adjacent age groups. The proposed framework can be trained in an end-to-end manner to eliminate accumulative artifacts and blurriness. Moreover, this paper introduces an age estimation loss to take into account the age distribution for an improved aging accuracy, and proposes to use the Pearson correlation coefficient as an evaluation metric measuring the aging smoothness for face aging methods. Extensively experimental results demonstrate superior performance over existing (c)GANs-based methods, including the state-of-the-art one, on two benchmarked datasets. The source code is available at~\url{https://github.com/H zzone/PFA-GAN}.
翻訳日:2021-05-16 21:24:32 公開日:2020-12-07
# 粗いラベルを用いた細粒度角コントラスト学習

Fine-grained Angular Contrastive Learning with Coarse Labels ( http://arxiv.org/abs/2012.03515v1 )

ライセンス: Link先を確認
Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky(参考訳) 数少ない学習方法は、1つまたは数つの例を使って、モデルが新しいクラス(トレーニング中は無視される)に後から適応しやすいように最適化された事前学習技術を提供する。 このunseenクラスへの適応性は、事前訓練されたラベル空間が効果的に使用するために固定されず、モデルがオンザフライで新しいカテゴリをサポートするために「特別化」されなければならない多くの実用的なアプリケーションにとって特に重要である。 特に興味深いシナリオは、基本的に少数の文献で見落とされ、訓練クラス(例:C2FS)である。 動物)は、ターゲット(テスト)クラス(例)よりもはるかに粗い粒度である。 品種)。 C2FSの非常に実用的な例は、ターゲットクラスがトレーニングクラスのサブクラスである場合である。 直感的には、教師付きプレトレーニングは、サブクラスの分離に不可欠なクラス内変動を無視する傾向にあるため、特に困難である。 本稿では,教師付きおよび自己教師型コントラスト型プレトレーニングを効果的に組み合わせて提案したC2FSタスクにアプローチ可能な,新しいAngular正規化モジュールを提案する。 この研究が、c2fs分類の新しい、挑戦的で、非常に実用的なトピックに関する今後の研究の道を開くのに役立つことを願っている。

Few-shot learning methods offer pre-training techniques optimized for easier later adaptation of the model to new classes (unseen during training) using one or a few examples. This adaptivity to unseen classes is especially important for many practical applications where the pre-trained label space cannot remain fixed for effective use and the model needs to be "specialized" to support new categories on the fly. One particularly interesting scenario, essentially overlooked by the few-shot literature, is Coarse-to-Fine Few-Shot (C2FS), where the training classes (e.g. animals) are of much `coarser granularity' than the target (test) classes (e.g. breeds). A very practical example of C2FS is when the target classes are sub-classes of the training classes. Intuitively, it is especially challenging as (both regular and few-shot) supervised pre-training tends to learn to ignore intra-class variability which is essential for separating sub-classes. In this paper, we introduce a novel 'Angular normalization' module that allows to effectively combine supervised and self-supervised contrastive pre-training to approach the proposed C2FS task, demonstrating significant gains in a broad study over multiple baselines and datasets. We hope that this work will help to pave the way for future research on this new, challenging, and very practical topic of C2FS classification.
翻訳日:2021-05-16 21:24:00 公開日:2020-12-07
# Ada-Segment: パノプティカルセグメンテーションのための自動マルチロス適応

Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation ( http://arxiv.org/abs/2012.03603v1 )

ライセンス: Link先を確認
Gengwei Zhang, Yiming Gao, Hang Xu, Hao Zhang, Zhenguo Li, Xiaodan Liang(参考訳) インスタンスのセグメンテーションとセマンティックセグメンテーションを統合するpanoptic segmentationが最近注目を集めている。 学習のダイナミクスをキャプチャするためにトレーニングされたコントローラを使用して、トレーニング期間中に複数のトレーニング損失を柔軟に調整するために、ada-segmentと呼ばれる自動マルチロス適応(automated multi-loss adaptation)をオンザフライで実行します。 これは、センシティブな損失の組み合わせの手動チューニングを回避し、パンオプティカルセグメンテーションの決定的な要因である;学習ダイナミクスを明示的にモデル化し、複数の目的の学習(私たちの実験では最大10まで)を調整可能にする;エンドツーエンドアーキテクチャでは、ハイパーパラメータを再チューニングしたり、トレーニングプロセスを再調整することなく、さまざまなデータセットに一般化する。 当社のAda-Segmentは、COCOvalをバニラベースラインから分離した上で、2.7%のパノライト品質(PQ)の改善を実現し、COCOテストデブ分割の最先端の48.5%、ADE20Kデータセットの32.9%のPQを実現しました。 広範なアブレーション研究は,本論文で提示したような自動適応学習戦略の導入を必要とせず,トレーニングプロセス全体で変化の激しいダイナミクスを明らかにしている。

Panoptic segmentation that unifies instance segmentation and semantic segmentation has recently attracted increasing attention. While most existing methods focus on designing novel architectures, we steer toward a different perspective: performing automated multi-loss adaptation (named Ada-Segment) on the fly to flexibly adjust multiple training losses over the course of training using a controller trained to capture the learning dynamics. This offers a few advantages: it bypasses manual tuning of the sensitive loss combination, a decisive factor for panoptic segmentation; it allows to explicitly model the learning dynamics, and reconcile the learning of multiple objectives (up to ten in our experiments); with an end-to-end architecture, it generalizes to different datasets without the need of re-tuning hyperparameters or re-adjusting the training process laboriously. Our Ada-Segment brings 2.7% panoptic quality (PQ) improvement on COCO val split from the vanilla baseline, achieving the state-of-the-art 48.5% PQ on COCO test-dev split and 32.9% PQ on ADE20K dataset. The extensive ablation studies reveal the ever-changing dynamics throughout the training process, necessitating the incorporation of an automated and adaptive learning strategy as presented in this paper.
翻訳日:2021-05-16 21:23:35 公開日:2020-12-07
# 野生の単一画像からのポスガイドによる人間アニメーション

Pose-Guided Human Animation from a Single Image in the Wild ( http://arxiv.org/abs/2012.03796v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Lingjie Liu, Vladislav Golyanik, Kripasindhu Sarkar, Hyun Soo Park, Christian Theobalt(参考訳) 身体のポーズの順序によって制御される人の1つの画像から人間のアニメーションを合成する新しいポーズ伝達法を提案する。 既存のポーズ転送法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示し、その人のアイデンティティとテクスチャを保存するのに時間的不一貫性と失敗をもたらす。 これらの制限に対処するために、シルエット、衣料ラベル、テクスチャを予測する合成ニューラルネットワークを設計する。 各モジュールネットワークは、合成データから学べるサブタスクに明示的に割り当てられている。 推定時に、トレーニングされたネットワークを用いて、ポーズ間で一定である紫外線座標における外観とそのラベルの統一表現を生成する。 統一表現は、ポーズの変化に応じて外観を生成するための不完全だが強力なガイダンスを提供する。 トレーニングされたネットワークを使って外観を完了し、背景でレンダリングします。 これらの戦略により、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。 実験の結果,本手法は合成品質,時間的コヒーレンス,一般化能力において最先端の手法よりも優れていることがわかった。

We present a new pose transfer method for synthesizing a human animation from a single image of a person controlled by a sequence of body poses. Existing pose transfer methods exhibit significant visual artifacts when applying to a novel scene, resulting in temporal inconsistency and failures in preserving the identity and textures of the person. To address these limitations, we design a compositional neural network that predicts the silhouette, garment labels, and textures. Each modular network is explicitly dedicated to a subtask that can be learned from the synthetic data. At the inference time, we utilize the trained network to produce a unified representation of appearance and its labels in UV coordinates, which remains constant across poses. The unified representation provides an incomplete yet strong guidance to generating the appearance in response to the pose change. We use the trained network to complete the appearance and render it with the background. With these strategies, we are able to synthesize human animations that can preserve the identity and appearance of the person in a temporally coherent way without any fine-tuning of the network on the testing scene. Experiments show that our method outperforms the state-of-the-arts in terms of synthesis quality, temporal coherence, and generalization ability.
翻訳日:2021-05-16 21:22:44 公開日:2020-12-07
# sparse fooling images: 認識不能な画像による機械の知覚を騙す

Sparse Fooling Images: Fooling Machine Perception through Unrecognizable Images ( http://arxiv.org/abs/2012.03843v1 )

ライセンス: Link先を確認
Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki(参考訳) 近年、ディープニューラルネットワーク(DNN)は、人間よりも様々な認識タスクにおいて同等またはそれ以上の精度を達成した。 しかし、DNNが完全に間違った決定を下すような画像は存在するが、人間はこの画像に失敗することはない。 犬や猫のような自然の物体として認識できないが、DNNはこれらの画像を高い信頼度を持つクラスに分類する。 本稿では,少ない画素数で単一のカラー画像であるスパルス画像(SFI)を新たに提案する。 自然物の特徴をある程度保持している既存の愚かな画像とは異なり、SFIは人間に認識可能な局所的・グローバル的特徴を持たないが、機械認識(DNN分類器)では、SFIは自然物として認識され、高い信頼スコアを持つ特定のクラスに分類される。 異なる設定でsfisを生成する2つの方法を提案する(セミブラックボックスとホワイトボックス)。 また,分布外検出によるDNNの脆弱性を実験的に実証し,SFIに対する堅牢性の観点から3つのアーキテクチャを比較した。 本研究は,CNNの構造と堅牢性に関する疑問を提起し,人間と機械の知覚の違いについて考察する。

In recent years, deep neural networks (DNNs) have achieved equivalent or even higher accuracy in various recognition tasks than humans. However, some images exist that lead DNNs to a completely wrong decision, whereas humans never fail with these images. Among others, fooling images are those that are not recognizable as natural objects such as dogs and cats, but DNNs classify these images into classes with high confidence scores. In this paper, we propose a new class of fooling images, sparse fooling images (SFIs), which are single color images with a small number of altered pixels. Unlike existing fooling images, which retain some characteristic features of natural objects, SFIs do not have any local or global features that can be recognizable to humans; however, in machine perception (i.e., by DNN classifiers), SFIs are recognizable as natural objects and classified to certain classes with high confidence scores. We propose two methods to generate SFIs for different settings~(semiblack- box and white-box). We also experimentally demonstrate the vulnerability of DNNs through out-of-distribution detection and compare three architectures in terms of the robustness against SFIs. This study gives rise to questions on the structure and robustness of CNNs and discusses the differences between human and machine perception.
翻訳日:2021-05-16 21:22:04 公開日:2020-12-07
# 縦型注意ネットワークを用いたエンドツーエンド手書き文認識

End-to-end Handwritten Paragraph Text Recognition Using a Vertical Attention Network ( http://arxiv.org/abs/2012.03868v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) コンピュータビジョンシステムでは、制約のない手書き文字認識が依然として難しい。 パラグラフテキスト認識は伝統的に2つのモデルによって達成される: ラインセグメンテーションのための第1モデルと、テキストライン認識のための第2モデルである。 この課題に対処するために,ハイブリッドアテンションを用いた統一エンド・ツー・エンドモデルを提案する。 RIMESは1.90%、IAMは4.32%、READ 2016は3.63%である。 提案するモデルは,標準手法に反するセグメンテーションラベルを使わずに,ゼロからトレーニングすることができる。 私たちのコードとトレーニングされたモデルウェイトは、https://github.com/f actodeeplearning/ver ticalattentionocrで利用可能です。

Unconstrained handwritten text recognition remains challenging for computer vision systems. Paragraph text recognition is traditionally achieved by two models: the first one for line segmentation and the second one for text line recognition. We propose a unified end-to-end model using hybrid attention to tackle this task. We achieve state-of-the-art character error rate at line and paragraph levels on three popular datasets: 1.90% for RIMES, 4.32% for IAM and 3.63% for READ 2016. The proposed model can be trained from scratch, without using any segmentation label contrary to the standard approach. Our code and trained model weights are available at https://github.com/F actoDeepLearning/Ver ticalAttentionOCR.
翻訳日:2021-05-16 21:21:43 公開日:2020-12-07
# リカレントグラフニューラルネットワークによるビデオインスタンスセグメンテーションの学習

Learning Video Instance Segmentation with Recurrent Graph Neural Networks ( http://arxiv.org/abs/2012.03911v1 )

ライセンス: Link先を確認
Joakim Johnander, Emil Brissman, Martin Danelljan, Michael Felsberg(参考訳) 既存のビデオインスタンスセグメンテーションのアプローチのほとんどは、最終的な出力を生成するためにヒューリスティックに結合された複数のモジュールで構成されている。 代わりに、ビデオインスタンスのセグメンテーションタスクを解決するのに必要な時間的側面と一般的なトラック管理の両方をモデル化する純粋に学習ベースの方法を作成することは、非常に難しい問題である。 本研究では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。 私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。 過去の情報はリカレント接続により考慮および処理される。 総合実験において提案手法の有効性を実証する。 われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。 さらに,我々のアプローチの異なる側面を検証する詳細なアブレーション実験を行う。

Most existing approaches to video instance segmentation comprise multiple modules that are heuristically combined to produce the final output. Formulating a purely learning-based method instead, which models both the temporal aspect as well as a generic track management required to solve the video instance segmentation task, is a highly challenging problem. In this work, we propose a novel learning formulation, where the entire video instance segmentation problem is modelled jointly. We fit a flexible model to our formulation that, with the help of a graph neural network, processes all available new information in each frame. Past information is considered and processed via a recurrent connection. We demonstrate the effectiveness of the proposed approach in comprehensive experiments. Our approach, operating at over 25 FPS, outperforms previous video real-time methods. We further conduct detailed ablative experiments that validate the different aspects of our approach.
翻訳日:2021-05-16 21:21:14 公開日:2020-12-07
# アイデンティティ駆動型ディープフェイク検出

Identity-Driven DeepFake Detection ( http://arxiv.org/abs/2012.03930v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Weiming Zhang and Nenghai Yu and Dong Chen and Fang Wen and Baining Guo(参考訳) DeepFake検出はこれまでのところ‘artifact-driven’メソッドで支配されており、画像アーティファクトの種類が不明であるか、アーティファクトを見つけるのが難しい場合、検出性能は著しく低下する。 本研究では,アイデンティティ駆動型DeepFake Detectionという別の手法を提案する。 提案手法は,被疑者画像/映像の入力と,対象人物情報(参照画像またはビデオ)の入力を行う。 被疑者画像・映像の同一性は対象人物と同一かという判断を出力する。 私たちのモチベーションは、ターゲットの人の偽情報を拡散する最も一般的で有害なDeepFakeを防ぐことです。 アイデンティティベースのアプローチは、画像アーティファクトの検出を試みないという点で、根本的に異なる。 代わりに、容疑者の画像/ビデオの身元が正しいかどうかに焦点が当てられている。 同一性に基づく検出の研究を容易にするために,対象のアイデンティティの動画から収集した複数の参照画像に疑似コンテンツが関連付けられている大規模データセット ``Vox-DeepFake" を提案する。 また、さらに研究のベースラインとして機能する、OuterFaceと呼ばれる単純なIDベースの検出アルゴリズムも提案する。 偽ビデオなしで訓練されたとしても、OuterFaceアルゴリズムは優れた検出精度を達成し、異なるDeepFakeメソッドによく対応し、ビデオ劣化技術(既存の検出アルゴリズムでは達成できないパフォーマンス)に対して堅牢である。

DeepFake detection has so far been dominated by ``artifact-driven' ;' methods and the detection performance significantly degrades when either the type of image artifacts is unknown or the artifacts are simply too hard to find. In this work, we present an alternative approach: Identity-Driven DeepFake Detection. Our approach takes as input the suspect image/video as well as the target identity information (a reference image or video). We output a decision on whether the identity in the suspect image/video is the same as the target identity. Our motivation is to prevent the most common and harmful DeepFakes that spread false information of a targeted person. The identity-based approach is fundamentally different in that it does not attempt to detect image artifacts. Instead, it focuses on whether the identity in the suspect image/video is true. To facilitate research on identity-based detection, we present a new large scale dataset ``Vox-DeepFake", in which each suspect content is associated with multiple reference images collected from videos of a target identity. We also present a simple identity-based detection algorithm called the OuterFace, which may serve as a baseline for further research. Even trained without fake videos, the OuterFace algorithm achieves superior detection accuracy and generalizes well to different DeepFake methods, and is robust with respect to video degradation techniques -- a performance not achievable with existing detection algorithms.
翻訳日:2021-05-16 21:21:01 公開日:2020-12-07
# GenScan: パラメトリック3Dスキャンデータセットの収集方法

GenScan: A Generative Method for Populating Parametric 3D Scan Datasets ( http://arxiv.org/abs/2012.03998v1 )

ライセンス: Link先を確認
Mohammad Keshavarzi, Oladapo Afolabi, Luisa Caldas, Allen Y. Yang, Avideh Zakhor(参考訳) 構築された環境の幾何学的複雑さに対応するリッチな3Dデータセットの可用性は、3Dディープラーニング方法論の継続的な課題であると考えられている。 この課題に対処するために, 合成3Dスキャンデータセットをパラメトリックな方法で生成するGenScanを導入する。 このシステムは既存の3Dスキャンを入力として、壁やドア、家具など、建築レイアウトの代替的なバリエーションを出力する。 GenScanは、完全に自動化されたシステムで、割り当てられたユーザーインターフェイスを通じて、ユーザーが手動で制御することもできる。 提案システムでは,ハイブリッド深層ニューラルネットワークとパラメトリザーモジュールを組み合わせて,与えられた3dスキャンの要素を抽出・変換する。 GenScanはスタイル転送技術を利用して、生成されたシーンの新しいテクスチャを生成する。 我々は,3次元コンピュータビジョン,生成設計,一般的な3次元深層学習タスクで一般的に使用されている,現在限られた3次元幾何データセットを拡張するために,データ拡張を促進できると考えている。

The availability of rich 3D datasets corresponding to the geometrical complexity of the built environments is considered an ongoing challenge for 3D deep learning methodologies. To address this challenge, we introduce GenScan, a generative system that populates synthetic 3D scan datasets in a parametric fashion. The system takes an existing captured 3D scan as an input and outputs alternative variations of the building layout including walls, doors, and furniture with corresponding textures. GenScan is a fully automated system that can also be manually controlled by a user through an assigned user interface. Our proposed system utilizes a combination of a hybrid deep neural network and a parametrizer module to extract and transform elements of a given 3D scan. GenScan takes advantage of style transfer techniques to generate new textures for the generated scenes. We believe our system would facilitate data augmentation to expand the currently limited 3D geometry datasets commonly used in 3D computer vision, generative design, and general 3D deep learning tasks.
翻訳日:2021-05-16 21:20:37 公開日:2020-12-07
# In-The-Wild画像からアニメーション可能な詳細3次元顔モデルの学習

Learning an Animatable Detailed 3D Face Model from In-The-Wild Images ( http://arxiv.org/abs/2012.04012v1 )

ライセンス: Link先を確認
Yao Feng and Haiwen Feng and Michael J. Black and Timo Bolkart(参考訳) 現在のモノキュラー3d顔再構成法は微細な幾何学的詳細を復元できるが、いくつかの制限がある。 一部の方法は、表現によってしわがどう変化するかをモデル化しないため、現実的にアニメーションできない顔を作る。 その他の方法は高品質な顔スキャンで訓練されており、Wild画像によく当てはまらない。 本研究は,画像の形状や表情との関係を再現した画像から,アニマタブルなディテールを持つモデルと詳細な3次元顔回帰器を共同で学習する試みである。 deca(detailed expression capture and animation)モデルは、人物固有のディテールパラメータとジェネリック表現パラメータからなる低次元の潜在表現からロバストにuv変位マップを生成するように訓練され、レグレッサーは、ディテール、形状、アルベド、表現、ポーズ、照明パラメータを単一の画像から予測するように訓練される。 本稿では,人固有の細部と表情依存のしわを区別する新しい細部一貫性損失を提案する。 この絡み合いにより、表現パラメータを制御しつつ、人固有の詳細を変更せずに、現実的な人特有のしわを合成できる。 DECAは2つのベンチマークで最先端の形状復元精度を達成する。 フィールド内データの質的な結果は、DECAの頑健さと、再構成された顔のアニメーションを可能にするアイデンティティと表現依存の詳細を分離する能力を示している。 モデルとコードはhttps://github.com/Y adiraF/DECAで公開されている。

While current monocular 3D face reconstruction methods can recover fine geometric details, they suffer several limitations. Some methods produce faces that cannot be realistically animated because they do not model how wrinkles vary with expression. Other methods are trained on high-quality face scans and do not generalize well to in-the-wild images. We present the first approach to jointly learn a model with animatable detail and a detailed 3D face regressor from in-the-wild images that recovers shape details as well as their relationship to facial expressions. Our DECA (Detailed Expression Capture and Animation) model is trained to robustly produce a UV displacement map from a low-dimensional latent representation that consists of person-specific detail parameters and generic expression parameters, while a regressor is trained to predict detail, shape, albedo, expression, pose and illumination parameters from a single image. We introduce a novel detail-consistency loss to disentangle person-specific details and expression-dependent wrinkles. This disentanglement allows us to synthesize realistic person-specific wrinkles by controlling expression parameters while keeping person-specific details unchanged. DECA achieves state-of-the-art shape reconstruction accuracy on two benchmarks. Qualitative results on in-the-wild data demonstrate DECA's robustness and its ability to disentangle identity and expression dependent details enabling animation of reconstructed faces. The model and code are publicly available at https://github.com/Y adiraF/DECA.
翻訳日:2021-05-16 21:20:20 公開日:2020-12-07
# 多重同変アライメントによる回転不変点畳み込み

Rotation-Invariant Point Convolution With Multiple Equivariant Alignments ( http://arxiv.org/abs/2012.04048v1 )

ライセンス: Link先を確認
Hugues Thomas(参考訳) 近年の3次元深層学習手法における回転不変性や等分散性の導入の試みは有望な成果を上げているが,これらの手法は標準的な3次元ニューラルネットワークの性能に到達するのに苦慮している。 本研究では,3次元点畳み込みにおける等分散と不変性の関係について検討する。 回転同変アライメントを用いることで、任意の畳み込み層を回転不変にすることができることを示す。 さらに,アライメント自体を畳み込みの特徴として利用し,複数のアライメントを組み合わせることにより,この簡単なアライメント手順を改善する。 このコア層を用いて、オブジェクト分類とセマンティックセグメンテーションの両方において、最先端の成果を改善する回転不変アーキテクチャを設計し、回転不変と標準3次元ディープラーニングのギャップを小さくする。

Recent attempts at introducing rotation invariance or equivariance in 3D deep learning approaches have shown promising results, but these methods still struggle to reach the performances of standard 3D neural networks. In this work we study the relation between equivariance and invariance in 3D point convolutions. We show that using rotation-equivariant alignments, it is possible to make any convolutional layer rotation-invariant. Furthermore, we improve this simple alignment procedure by using the alignment themselves as features in the convolution, and by combining multiple alignments together. With this core layer, we design rotation-invariant architectures which improve state-of-the-art results in both object classification and semantic segmentation and reduces the gap between rotation-invariant and standard 3D deep learning approaches.
翻訳日:2021-05-16 21:19:55 公開日:2020-12-07
# 生体画像分類のための変形可能なgabor特徴ネットワーク

Deformable Gabor Feature Networks for Biomedical Image Classification ( http://arxiv.org/abs/2012.04109v1 )

ライセンス: Link先を確認
Xuan Gong, Xin Xia, Wentao Zhu, Baochang Zhang, David Doermann, Lian Zhuo(参考訳) 近年,医学画像解析の分野では,ディープラーニングが進歩している。 しかし,多くの医用画像の複雑な幾何学的構造を表現するための現在のディープラーニング手法は不十分であることがわかった。 ひとつの制限は、ディープラーニングモデルには膨大な量のデータが必要であり、必要な詳細情報で十分な量を取得するのは非常に困難である。 第2の制限は、これらの医用画像の根底にある特徴が十分に確立されていることだが、既存の畳み込みニューラルネットワーク(CNN)のブラックボックスの性質は、それらを利用できない。 本稿では,Gaborフィルタを再検討し,Deformable Gabor Convolution (DGConv)を導入し,ディープネットワークの解釈性を高め,複雑な空間変動を実現する。 これらの特徴は、複雑な対象に対する代表性と堅牢性を改善するために、適応的なガボル畳み込みを持つ変形可能なサンプリング位置で学習される。 DGConvは標準の畳み込みレイヤを置き換え、エンドツーエンドで簡単にトレーニングできるため、変形可能なGabor機能ネットワーク(DGFN)が追加パラメータが少なく、トレーニングコストも最小限に抑えられる。 マンモグラムのINbreastデータセットと肺X線画像のChestX-ray14データセットのDGFNを導入した。

In recent years, deep learning has dominated progress in the field of medical image analysis. We find however, that the ability of current deep learning approaches to represent the complex geometric structures of many medical images is insufficient. One limitation is that deep learning models require a tremendous amount of data, and it is very difficult to obtain a sufficient amount with the necessary detail. A second limitation is that there are underlying features of these medical images that are well established, but the black-box nature of existing convolutional neural networks (CNNs) do not allow us to exploit them. In this paper, we revisit Gabor filters and introduce a deformable Gabor convolution (DGConv) to expand deep networks interpretability and enable complex spatial variations. The features are learned at deformable sampling locations with adaptive Gabor convolutions to improve representativeness and robustness to complex objects. The DGConv replaces standard convolutional layers and is easily trained end-to-end, resulting in deformable Gabor feature network (DGFN) with few additional parameters and minimal additional training cost. We introduce DGFN for addressing deep multi-instance multi-label classification on the INbreast dataset for mammograms and on the ChestX-ray14 dataset for pulmonary x-ray images.
翻訳日:2021-05-16 21:19:41 公開日:2020-12-07
# superfront: 低解像度から高分解能の顔合成まで

SuperFront: From Low-resolution to High-resolution Frontal Face Synthesis ( http://arxiv.org/abs/2012.04111v1 )

ライセンス: Link先を確認
Yu Yin, Joseph P. Robinson, Songyao Jiang, Yue Bai, Can Qin, Yun Fu(参考訳) 顔の回転の進歩は他の顔ベースの生成タスクとともに、深層学習のトピックでさらに前進するにつれて頻繁に行われる。 顔の合成において印象的なマイルストーンを達成したとしても、アイデンティティを保つことの重要性は実際に必要であり、見過ごされてはならない。 また、不明瞭な顔、重いポーズ、そして品質の低いデータにとって、難しさはそれ以上ではない。 既存の手法では、ポーズのばらつきのあるサンプルに焦点を当てる傾向があるが、仮定データでは品質が高い。 本稿では,1つまたは複数の低解像度(LR)面を極端なポーズで保存する,高品質でアイデンティティを保ったGAN(Generative Adversarial Network)モデルを提案する。 具体的には,高分解能 (HR) の面を1対多のLR面から様々なポーズで合成し,その特徴を保存するスーパーフラントGAN (SF-GAN) を提案する。 我々は超高解像度(SR)サイドビューモジュールをSF-GANに統合し、HR空間の側面ビューの識別情報と詳細を保存し、顔の高周波情報(外眼、鼻、口の領域など)のモデル再構成を支援する。 さらに、SF-GANは複数のLR面を入力として受け入れ、各追加サンプルを改善する。 我々は、冗長な潜在表現をペナライズするためにジェネレータの直交制約により、パフォーマンスのさらなる向上を絞って、学習された特徴空間を多様化する。 SF-GANの定量的および定性的な結果は、他のものよりも優れていることを示している。

Advances in face rotation, along with other face-based generative tasks, are more frequent as we advance further in topics of deep learning. Even as impressive milestones are achieved in synthesizing faces, the importance of preserving identity is needed in practice and should not be overlooked. Also, the difficulty should not be more for data with obscured faces, heavier poses, and lower quality. Existing methods tend to focus on samples with variation in pose, but with the assumption data is high in quality. We propose a generative adversarial network (GAN) -based model to generate high-quality, identity preserving frontal faces from one or multiple low-resolution (LR) faces with extreme poses. Specifically, we propose SuperFront-GAN (SF-GAN) to synthesize a high-resolution (HR), frontal face from one-to-many LR faces with various poses and with the identity-preserved. We integrate a super-resolution (SR) side-view module into SF-GAN to preserve identity information and fine details of the side-views in HR space, which helps model reconstruct high-frequency information of faces (i.e., periocular, nose, and mouth regions). Moreover, SF-GAN accepts multiple LR faces as input, and improves each added sample. We squeeze additional gain in performance with an orthogonal constraint in the generator to penalize redundant latent representations and, hence, diversify the learned features space. Quantitative and qualitative results demonstrate the superiority of SF-GAN over others.
翻訳日:2021-05-16 21:19:18 公開日:2020-12-07
# MERANet: 3次元残差注意ネットワークを用いた顔のマイクロ圧縮認識

MERANet: Facial Micro-Expression Recognition using 3D Residual Attention Network ( http://arxiv.org/abs/2012.04581v1 )

ライセンス: Link先を確認
Viswanatha Reddy Gajjala, Sai Prasanna Teja Reddy, Snehasis Mukherjee, Shiv Ram Dubey(参考訳) 本研究では,meranetと呼ばれる3次元残留注意ネットワークを用いた顔のマイクロ表現認識モデルを提案する。 提案モデルは,空間的-時間的注意とチャネル的注意を併用して,感情の分類においてより詳細な微妙な特徴を学習する。 提案モデルは,3次元カーネルと残差接続を用いた時空間情報と時間情報の両方を同時に包含する。 さらに,各残余モジュールにおいて,チャネル特徴と時空間特徴をそれぞれチャネルと時空間注意を用いて再校正する。 実験はベンチマーク顔面マイクロ表現データセットを用いて行われた。 顔のマイクロ圧縮認識の最先端技術と比較して優れた性能が観察される。

We propose a facial micro-expression recognition model using 3D residual attention network called MERANet. The proposed model takes advantage of spatial-temporal attention and channel attention together, to learn deeper fine-grained subtle features for classification of emotions. The proposed model also encompasses both spatial and temporal information simultaneously using the 3D kernels and residual connections. Moreover, the channel features and spatio-temporal features are re-calibrated using the channel and spatio-temporal attentions, respectively in each residual module. The experiments are conducted on benchmark facial micro-expression datasets. A superior performance is observed as compared to the state-of-the-art for facial micro-expression recognition.
翻訳日:2021-05-16 21:13:51 公開日:2020-12-07
# CARAFE++:Featureの統一コンテンツ対応再アセンブリ

CARAFE++: Unified Content-Aware ReAssembly of FEatures ( http://arxiv.org/abs/2012.04733v1 )

ライセンス: Link先を確認
Jiaqi Wang, Kai Chen, Rui Xu, Ziwei Liu, Chen Change Loy, Dahua Lin(参考訳) 機能を再組み立てする。 機能ダウンサンプリングとアップサンプリングは、残差ネットワークや機能ピラミッドなど、現代の多くの畳み込みネットワークアーキテクチャにおいて重要な操作である。 その設計は、オブジェクト検出やセマンティック/インスタンスセグメンテーションのような密集した予測タスクに不可欠である。 本研究では,この目標を達成するために,汎用的で軽量で高効率な演算子であるContent-Aware ReAssembly of FEatures (CARAFE++)を提案する。 1) サブピクセル近傍のみを利用するプーリングや補間のような従来の方法とは異なり、CARAFE++は大きな受容領域内でコンテキスト情報を集約する。 2) すべてのサンプル(例)に対して固定カーネルを使用する代わりに。 Convolution and Deconvolution) CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするために、オンザフライで適応カーネルを生成する。 (3) CARAFE++は計算オーバーヘッドが少なく、現代的なネットワークアーキテクチャに容易に統合できる。 我々は,オブジェクト検出,インスタンス/意味セグメンテーション,画像インパインティングにおける標準ベンチマークを総合的に評価する。 CARAFE++は、全てのタスク(2.5%のAPbox、2.1%のAPmask、1.94%のmIoU、1.35dB)において、無視できる計算オーバーヘッドを伴う一貫性と実質的な増加を示している。 現代のディープネットワークの強力なビルディングブロックとして機能する大きな可能性を示している。

Feature reassembly, i.e. feature downsampling and upsampling, is a key operation in a number of modern convolutional network architectures, e.g., residual networks and feature pyramids. Its design is critical for dense prediction tasks such as object detection and semantic/instance segmentation. In this work, we propose unified Content-Aware ReAssembly of FEatures (CARAFE++), a universal, lightweight and highly effective operator to fulfill this goal. CARAFE++ has several appealing properties: (1) Unlike conventional methods such as pooling and interpolation that only exploit sub-pixel neighborhood, CARAFE++ aggregates contextual information within a large receptive field. (2) Instead of using a fixed kernel for all samples (e.g. convolution and deconvolution), CARAFE++ generates adaptive kernels on-the-fly to enable instance-specific content-aware handling. (3) CARAFE++ introduces little computational overhead and can be readily integrated into modern network architectures. We conduct comprehensive evaluations on standard benchmarks in object detection, instance/semantic segmentation and image inpainting. CARAFE++ shows consistent and substantial gains across all the tasks (2.5% APbox, 2.1% APmask, 1.94% mIoU, 1.35 dB respectively) with negligible computational overhead. It shows great potential to serve as a strong building block for modern deep networks.
翻訳日:2021-05-16 21:12:31 公開日:2020-12-07
# 空間駆動型デジタル地形モデル抽出

Sparsity-driven Digital Terrain Model Extraction ( http://arxiv.org/abs/2012.08639v1 )

ライセンス: Link先を確認
Fatih Nar, Erdal Yilmaz, Gustau Camps-Valls(参考訳) 本稿では,DTM(Digital Terrain Model)の自動抽出手法を提案する。 提案する空間駆動型DTM抽出器 (SD-DTM) は,高分解能DSMを入力として,高分解能DTMを構築する。 正確なdtmを得るために, 目標変動コスト関数の最小化のための反復的手法を提案する。 SD-DTMの精度を実世界のDSMデータセットに示す。 提案手法の有効性と有効性は,図形地形の残留プロットを通して視覚的かつ定量的に示す。

We here introduce an automatic Digital Terrain Model (DTM) extraction method. The proposed sparsity-driven DTM extractor (SD-DTM) takes a high-resolution Digital Surface Model (DSM) as an input and constructs a high-resolution DTM using the variational framework. To obtain an accurate DTM, an iterative approach is proposed for the minimization of the target variational cost function. Accuracy of the SD-DTM is shown in a real-world DSM data set. We show the efficiency and effectiveness of the approach both visually and quantitatively via residual plots in illustrative terrain types.
翻訳日:2021-05-16 21:11:43 公開日:2020-12-07
# 放射伝達シミュレーションによる機械学習手法によるセンチネル2とランドサット8による作物の一次生産性の推定

Estimating Crop Primary Productivity with Sentinel-2 and Landsat 8 using Machine Learning Methods Trained with Radiative Transfer Simulations ( http://arxiv.org/abs/2012.12101v1 )

ライセンス: Link先を確認
Aleksandra Wolanin, Gustau Camps-Valls, Luis G\'omez-Chova, Gonzalo Mateo-Garc\'ia, Christiaan van der Tol, Yongguang Zhang, Luis Guanter(参考訳) 衛星リモートセンシングは、過去数十年間、植生状態の評価とその後の収量予測のために、農業用途に広く利用されてきた。 作物の光合成機能やストレスを示す重要な変数であるgpp(gross primary productivity)を推定するための既存のリモートセンシングベースの手法は、通常経験的あるいは半経験的アプローチに依存しており、光合成機構を単純化する傾向がある。 本研究では,機械式光合成モデリングと衛星データ利用の並列化を活用し,作物生産性の高度モニタリングを行う。 特に,プロセスベースモデリングと土壌-キャノピーエネルギー収支放射伝達モデル(scope)とセンチネル-2 {and landsat 8}光学リモートセンシングデータと機械学習手法を組み合わせて作物gppを推定する。 本モデルでは, 地域情報を使用しなくても, 様々なC3作物の種類や環境条件でGPPを推定することに成功した。 これは、現在の地球観測クラウドコンピューティングプラットフォームの助けを借りて、新しい衛星センサーからの作物の生産性を世界規模でマッピングする可能性を強調している。

Satellite remote sensing has been widely used in the last decades for agricultural applications, {both for assessing vegetation condition and for subsequent yield prediction.} Existing remote sensing-based methods to estimate gross primary productivity (GPP), which is an important variable to indicate crop photosynthetic function and stress, typically rely on empirical or semi-empirical approaches, which tend to over-simplify photosynthetic mechanisms. In this work, we take advantage of all parallel developments in mechanistic photosynthesis modeling and satellite data availability for advanced monitoring of crop productivity. In particular, we combine process-based modeling with the soil-canopy energy balance radiative transfer model (SCOPE) with Sentinel-2 {and Landsat 8} optical remote sensing data and machine learning methods in order to estimate crop GPP. Our model successfully estimates GPP across a variety of C3 crop types and environmental conditions even though it does not use any local information from the corresponding sites. This highlights its potential to map crop productivity from new satellite sensors at a global scale with the help of current Earth observation cloud computing platforms.
翻訳日:2021-05-16 21:11:33 公開日:2020-12-07
# 短期量子自然言語処理の基礎

Foundations for Near-Term Quantum Natural Language Processing ( http://arxiv.org/abs/2012.03755v1 )

ライセンス: Link先を確認
Bob Coecke, Giovanni de Felice, Konstantinos Meichanetzidis, Alexis Toumi(参考訳) 我々は、量子自然言語処理(QNLP)の概念的および数学的基盤を提供し、量子コンピュータ科学者フレンドリーな用語でそれを行う。 我々は,露出表現形式を選択し,経験的証拠と数学的一般性に関する形式的記述を支持するための参考文献を提供した。 自然言語のための量子モデルは、言語的意味と豊かな言語構造、特に文法を標準的に組み合わせていることを思い出す。 特に、意味と構造を組み合わせるために量子的なモデルを取るという事実は、量子システムのシミュレーションと同等に、qnlpを量子ネイティブとして確立する。 さらに、現在主要なノイズの多い中間スケール量子(nisq)パラダイムは、量子ハードウェア上で古典データをエンコードするための変分量子回路であり、nisqをqnlpに優しくしている: 言語構造は、明らかに指数関数的に高価な文法の古典的エンコーディングとは対照的に、フリーランチとしてエンコードすることができる。 QNLPタスクの量子スピードアップは、Will Zengによる以前の研究ですでに確立されている。 ここでは、全員が同じ利点を享受する幅広いタスクを提供します。 文法的推論はQNLPの中心にある。 まず、量子モデルは言語を圏量子力学の図式的形式論を通して量子過程として解釈する。 第二に、これらの図はzx計算を通じて量子回路に変換される。 意味のパラメータ化は、学習すべき回路変数となる。 量子回路内での言語構造の符号化はまた、ウィトゲンシュタインの意味と文脈の中心に言語構造を置くことによって、主流AIの現在の標準を超えた単語意味を確立するための新しいアプローチを具現化した。

We provide conceptual and mathematical foundations for near-term quantum natural language processing (QNLP), and do so in quantum computer scientist friendly terms. We opted for an expository presentation style, and provide references for supporting empirical evidence and formal statements concerning mathematical generality. We recall how the quantum model for natural language that we employ canonically combines linguistic meanings with rich linguistic structure, most notably grammar. In particular, the fact that it takes a quantum-like model to combine meaning and structure, establishes QNLP as quantum-native, on par with simulation of quantum systems. Moreover, the now leading Noisy Intermediate-Scale Quantum (NISQ) paradigm for encoding classical data on quantum hardware, variational quantum circuits, makes NISQ exceptionally QNLP-friendly: linguistic structure can be encoded as a free lunch, in contrast to the apparently exponentially expensive classical encoding of grammar. Quantum speed-up for QNLP tasks has already been established in previous work with Will Zeng. Here we provide a broader range of tasks which all enjoy the same advantage. Diagrammatic reasoning is at the heart of QNLP. Firstly, the quantum model interprets language as quantum processes via the diagrammatic formalism of categorical quantum mechanics. Secondly, these diagrams are via ZX-calculus translated into quantum circuits. Parameterisations of meanings then become the circuit variables to be learned. Our encoding of linguistic structure within quantum circuits also embodies a novel approach for establishing word-meanings that goes beyond the current standards in mainstream AI, by placing linguistic structure at the heart of Wittgenstein's meaning-is-context.
翻訳日:2021-05-16 21:10:54 公開日:2020-12-07
# 文法を意識した量子コンピュータの質問応答

Grammar-Aware Question-Answering on Quantum Computers ( http://arxiv.org/abs/2012.03756v1 )

ライセンス: Link先を確認
Konstantinos Meichanetzidis, Alexis Toumi, Giovanni de Felice, Bob Coecke(参考訳) 自然言語処理(NLP)は、現代AIにおける大きな進歩の最前線にあり、間違いなくこの分野における最も困難な分野の1つである。 同時に、量子ハードウェアの安定した成長と量子アルゴリズムの実装への顕著な改善により、量子コンピュータが適切な量のリソースを持つ古典的コンピュータでは実行できないタスクを実行する時代が近づいている。 これにより、AI、特にNLPに新たな機会が提供される。 i) nlp内でもっとも支配的なタスクである検索関連タスクや分類タスクのアルゴリズムによる高速化(ii) 指数関数的に大きな量子状態空間(英語版) 複雑な言語構造への適応を可能にする(iii) 密度行列を用いる意味の新しいモデル 自然に低調や言語曖昧性などの言語現象をモデル化する。 本研究では,ノイズの多い中間規模量子(NISQ)ハードウェア上でNLPタスクを最初に実装する。 文はパラメータ化された量子回路としてインスタンス化される。 量子状態においてワード平均を符号化し、主流nlpでも一般的ではない文法構造を忠実に絡み合う演算としてハードワイリングすることで明示的に説明する。 これにより、量子自然言語処理(QNLP)、特にNISQに親しむことができる。 新しいqnlpモデルでは,量子ハードウェアの品質が近い将来向上するにつれて,スケーラビリティへの具体的な期待を示す。

Natural language processing (NLP) is at the forefront of great advances in contemporary AI, and it is arguably one of the most challenging areas of the field. At the same time, with the steady growth of quantum hardware and notable improvements towards implementations of quantum algorithms, we are approaching an era when quantum computers perform tasks that cannot be done on classical computers with a reasonable amount of resources. This provides a new range of opportunities for AI, and for NLP specifically. Earlier work has already demonstrated a potential quantum advantage for NLP in a number of manners: (i) algorithmic speedups for search-related or classification tasks, which are the most dominant tasks within NLP, (ii) exponentially large quantum state spaces allow for accommodating complex linguistic structures, (iii) novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others. In this work, we perform the first implementation of an NLP task on noisy intermediate-scale quantum (NISQ) hardware. Sentences are instantiated as parameterised quantum circuits. We encode word-meanings in quantum states and we explicitly account for grammatical structure, which even in mainstream NLP is not commonplace, by faithfully hard-wiring it as entangling operations. This makes our approach to quantum natural language processing (QNLP) particularly NISQ-friendly. Our novel QNLP model shows concrete promise for scalability as the quality of the quantum hardware improves in the near future.
翻訳日:2021-05-16 21:10:27 公開日:2020-12-07
# アクションブランチとフェデレーション強化学習によるVehicular Cooperative Perception

Vehicular Cooperative Perception Through Action Branching and Federated Reinforcement Learning ( http://arxiv.org/abs/2012.03414v1 )

ライセンス: Link先を確認
Mohamed K. Abdel-Aziz, Cristina Perfecto, Sumudu Samarakoon, Mehdi Bennis, Walid Saad(参考訳) 協調的な知覚は、車両の感知範囲を視線を超えて拡張する上で重要な役割を果たす。 しかし、限られた通信資源で生の感覚データを交換することは不可能である。 効率的な協調認識の実現に向けて、車両は以下の根本的な問題に対処する必要がある: どんな感覚データを共有する必要があるか、どの解像度で、どの車両と共有する必要があるか? 本稿では, クアッドツリーに基づく点雲圧縮機構を利用して, 強化学習(RL)に基づく車両関連, リソースブロック(RB)割り当て, 協調知覚メッセージ(CPM)の内容選択を可能にする新しい枠組みを提案する。 さらに、車両間のトレーニングプロセスを高速化するために、連合RLアプローチを導入している。 シミュレーションの結果,rlエージェントが車両の関連,rb割り当て,メッセージ内容選択を効率的に学習し,受信した感覚情報を用いて車両の満足度を最大化できることがわかった。 その結果,フェデレートされたRLはトレーニングプロセスを改善し,非フェデレーションアプローチと比較して,同じ時間内により良いポリシーを達成できることがわかった。

Cooperative perception plays a vital role in extending a vehicle's sensing range beyond its line-of-sight. However, exchanging raw sensory data under limited communication resources is infeasible. Towards enabling an efficient cooperative perception, vehicles need to address the following fundamental question: What sensory data needs to be shared?, at which resolution?, and with which vehicles? To answer this question, in this paper, a novel framework is proposed to allow reinforcement learning (RL)-based vehicular association, resource block (RB) allocation, and content selection of cooperative perception messages (CPMs) by utilizing a quadtree-based point cloud compression mechanism. Furthermore, a federated RL approach is introduced in order to speed up the training process across vehicles. Simulation results show the ability of the RL agents to efficiently learn the vehicles' association, RB allocation, and message content selection while maximizing vehicles' satisfaction in terms of the received sensory information. The results also show that federated RL improves the training process, where better policies can be achieved within the same amount of time compared to the non-federated approach.
翻訳日:2021-05-16 21:09:14 公開日:2020-12-07
# 重複のないディープニューラルネットワークトレーニング

Deep Neural Network Training without Multiplications ( http://arxiv.org/abs/2012.03458v1 )

ライセンス: Link先を確認
Tsuguo Mogami(参考訳) ディープニューラルネットワークには乗算が本当に必要か? 本稿では,浮動小数点乗算命令の代わりに整数加算命令付きIEEE754浮動小数点数を追加する。 ResNetはこの操作を競合する分類精度で訓練できることを示す。 提案手法は,低精度トレーニングにおいて一般的である不安定性の解消と精度低下の方法を必要としない。 いくつかの設定では、ベースラインFP32結果と同等の精度が得られる。 この方法は、ディープニューラルネットワークトレーニングと推論における乗算の排除を可能にする。

Is multiplication really necessary for deep neural networks? Here we propose just adding two IEEE754 floating-point numbers with an integer-add instruction in place of a floating-point multiplication instruction. We show that ResNet can be trained using this operation with competitive classification accuracy. Our proposal did not require any methods to solve instability and decrease in accuracy, which is common in low-precision training. In some settings, we may obtain equal accuracy to the baseline FP32 result. This method will enable eliminating the multiplications in deep neural-network training and inference.
翻訳日:2021-05-16 21:08:56 公開日:2020-12-07
# NCGNN:ノードレベルのカプセルグラフニューラルネットワーク

NCGNN: Node-level Capsule Graph Neural Network ( http://arxiv.org/abs/2012.03476v1 )

ライセンス: Link先を確認
Rui Yang, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) メッセージパッシングは、グラフニューラルネットワーク(GNN)を設計するための効果的なツールとして進化してきた。 しかし、既存のほとんどの研究は、ノード表現を更新するために隣り合う全ての機能を鼻でまとめたり平均したりしており、これは(1)GNNの予測にとって重要なノード特徴を特定するための解釈性の欠如、(2)繰り返し平均化が過度なノイズを集約し、異なるクラスのノードの特徴を過度に混合し、区別できない問題である。 本稿では,これらの問題に対して,改良されたメッセージパッシング方式を用いて,ノードレベルのカプセルグラフニューラルネットワーク(NCGNN)を提案する。 具体的には、NCGNNは、各カプセルが対応するノードの特徴を抽出するカプセルのグループとしてノードを表現している。 各ノードレベルカプセルに対して,設計したグラフフィルタで識別されたサブグラフからアグリゲーションに適したカプセルを適応的に選択する新しい動的ルーティング手法を開発した。 したがって、有利なカプセルのみを集約し、有害なノイズを抑えるため、異なるクラスの相互作用ノードの過剰混合特性は回避され、過密問題を緩和する傾向にある。 さらに、グラフフィルタと動的ルーティングは、モデル予測に最も影響を及ぼす部分グラフとノード特徴のサブセットを識別するため、NAGNNは本質的に解釈可能であり、複雑なポストホックな説明を除外する。 6つのノード分類ベンチマークの大規模な実験により、NCGNNは過度にスムースな問題に対処でき、分類のためのより良いノード埋め込みを生成することにより、芸術の状態を上回ります。

Message passing has evolved as an effective tool for designing Graph Neural Networks (GNNs). However, most existing works naively sum or average all the neighboring features to update node representations, which suffers from the following limitations: (1) lack of interpretability to identify crucial node features for GNN's prediction; (2) over-smoothing issue where repeated averaging aggregates excessive noise, making features of nodes in different classes over-mixed and thus indistinguishable. In this paper, we propose the Node-level Capsule Graph Neural Network (NCGNN) to address these issues with an improved message passing scheme. Specifically, NCGNN represents nodes as groups of capsules, in which each capsule extracts distinctive features of its corresponding node. For each node-level capsule, a novel dynamic routing procedure is developed to adaptively select appropriate capsules for aggregation from a subgraph identified by the designed graph filter. Consequently, as only the advantageous capsules are aggregated and harmful noise is restrained, over-mixing features of interacting nodes in different classes tends to be avoided to relieve the over-smoothing issue. Furthermore, since the graph filter and the dynamic routing identify a subgraph and a subset of node features that are most influential for the prediction of the model, NCGNN is inherently interpretable and exempt from complex post-hoc explanations. Extensive experiments on six node classification benchmarks demonstrate that NCGNN can well address the over-smoothing issue and outperforms the state of the arts by producing better node embeddings for classification.
翻訳日:2021-05-16 21:08:49 公開日:2020-12-07
# テキスト分類のための自動機械学習の活用:AutoMLツールの評価と人的性能の比較

Leveraging Automated Machine Learning for Text Classification: Evaluation of AutoML Tools and Comparison with Human Performance ( http://arxiv.org/abs/2012.03575v1 )

ライセンス: Link先を確認
Matthias Blohm, Marc Hanussek and Maximilien Kintz(参考訳) 最近、自動機械学習(automl)は、表データに関する成功の増加を登録している。 しかし、その疑問は、AutoMLがテキスト分類タスクにも効果的に適用できるかどうかである。 この研究は、Kaggleコンペティションを含む13の人気のあるデータセット上の4つのAutoMLツールを比較し、人間のパフォーマンスに反対する。 その結果,AutoMLツールは,13タスク中4タスクにおいて,機械学習コミュニティよりも優れたパフォーマンスを示し,その2つが目立った。

Recently, Automated Machine Learning (AutoML) has registered increasing success with respect to tabular data. However, the question arises whether AutoML can also be applied effectively to text classification tasks. This work compares four AutoML tools on 13 different popular datasets, including Kaggle competitions, and opposes human performance. The results show that the AutoML tools perform better than the machine learning community in 4 out of 13 tasks and that two stand out.
翻訳日:2021-05-16 21:08:20 公開日:2020-12-07
# 大規模地球観測のためのランダム化カーネル

Randomized kernels for large scale Earth observation applications ( http://arxiv.org/abs/2012.03630v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Julia Amor\'os-L\'opez, Luis G\'omez-Chova, Valero Laparra, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls(参考訳) 新たな画像ソースの土地被覆分類による処理も、大量のメモリと処理時間を必要とする複雑な問題となっている。 これらの問題に対処するために、統計学習は過去数年間で大量の地球観測データを取り込みうる統計検索と分類モデルの開発に大いに役立っている。 カーネル手法は、リモートセンシングや地球科学で広く使われている強力な機械学習アルゴリズムのファミリーを構成する。 しかし、放射伝達モデルの反転や高空間スペクトル・時間分解能データの分類といった大規模問題を扱う場合の計算コストが高いため、カーネル法はまだ広く採用されていない。 本稿では,生物物理パラメータと画像分類問題の高速統計検索のための効率的なカーネル手法を提案する。 この方法では、フーリエ領域からサンプリングされたランダム基底上の一連の射影を持つカーネル行列を近似することができる。 この手法は単純で、メモリと処理コストの両方において計算効率が良く、容易に並列化できる。 数百万の例と高次元を持つデータセットでは,カーネル回帰と分類が可能になった。 IASI/Metopのような高スペクトル赤外音源からの大気パラメータ抽出,Sentinel-2データ上での使い慣れたProSAIL放射移動モデルの大規模エミュレーションとインバージョン,MSG/Seviri画像の時系列におけるランドマーク上の雲の同定などの例は,提案手法の有効性と有効性を示している。

Dealing with land cover classification of the new image sources has also turned to be a complex problem requiring large amount of memory and processing time. In order to cope with these problems, statistical learning has greatly helped in the last years to develop statistical retrieval and classification models that can ingest large amounts of Earth observation data. Kernel methods constitute a family of powerful machine learning algorithms, which have found wide use in remote sensing and geosciences. However, kernel methods are still not widely adopted because of the high computational cost when dealing with large scale problems, such as the inversion of radiative transfer models or the classification of high spatial-spectral-tem poral resolution data. This paper introduces an efficient kernel method for fast statistical retrieval of bio-geo-physical parameters and image classification problems. The method allows to approximate a kernel matrix with a set of projections on random bases sampled from the Fourier domain. The method is simple, computationally very efficient in both memory and processing costs, and easily parallelizable. We show that kernel regression and classification is now possible for datasets with millions of examples and high dimensionality. Examples on atmospheric parameter retrieval from hyperspectral infrared sounders like IASI/Metop; large scale emulation and inversion of the familiar PROSAIL radiative transfer model on Sentinel-2 data; and the identification of clouds over landmarks in time series of MSG/Seviri images show the efficiency and effectiveness of the proposed technique.
翻訳日:2021-05-16 21:08:12 公開日:2020-12-07
# チャネルラーニングによる5gブラインドビーム指標検出の促進

Exploitation of Channel-Learning for Enhancing 5G Blind Beam Index Detection ( http://arxiv.org/abs/2012.03631v1 )

ライセンス: Link先を確認
Ji Yoon Han, Ohyun Jo and Juyeop Kim(参考訳) 5gデバイスとサービスの急増により、データレート、信頼性、互換性など幅広い拡張の需要が高まり、通信業界はますます成長を続けている。 本研究では,機械学習技術が5gセルとビームインデックス検索の性能を実際に向上させる方法について検討する。 セルサーチは、ユーザ機器(UE)が最初に基地局に接続する上で不可欠な機能であり、無線接続をさらに維持することが重要である。 旧世代の細胞システムとは異なり、5G UEは、細胞探索手順における適切なビームと細胞同一性を検出するための追加の課題に直面している。 本稿では,5Gビームインデックス検出の性能向上を目的としたチャネル学習手法を提案する。 注目すべき点は、システムレベルでの実践的実装のために、機械学習モデルとソフトウォーリゼーションを使用することにある。 本稿では,効率的なビームインデックス検出のためのアルゴリズム手順と相関システム構造を含むチャネル学習手法を提案する。 また,市販のsoftware defined radio (sdr) プラットフォームに基づく実時間5gテストベッドを実装し,商用5g基地局で集中的な実験を行った。 実験の結果,提案手法は実5gチャネル環境において従来の相関方式よりも優れていた。

Proliferation of 5G devices and services has driven the demand for wide-scale enhancements ranging from data rate, reliability, and compatibility to sustain the ever increasing growth of the telecommunication industry. In this regard, this work investigates how machine learning technology can improve the performance of 5G cell and beam index search in practice. The cell search is an essential function for a User Equipment (UE) to be initially associated with a base station, and is also important to further maintain the wireless connection. Unlike the former generation cellular systems, the 5G UE faces with an additional challenge to detect suitable beams as well as the cell identities in the cell search procedures. Herein, we propose and implement new channel-learning schemes to enhance the performance of 5G beam index detection. The salient point lies in the use of machine learning models and softwarization for practical implementations in a system level. We develop the proposed channel-learning scheme including algorithmic procedures and corroborative system structure for efficient beam index detection. We also implement a real-time operating 5G testbed based on the off-the-shelf Software Defined Radio (SDR) platform and conduct intensive experiments with commercial 5G base stations. The experimental results indicate that the proposed channel-learning schemes outperform the conventional correlation-based scheme in real 5G channel environments.
翻訳日:2021-05-16 21:07:48 公開日:2020-12-07
# twitterを用いた洪水確率計算:ハーベイ時のヒューストン都市圏への適用

Computing flood probabilities using Twitter: application to the Houston urban area during Harvey ( http://arxiv.org/abs/2012.03731v1 )

ライセンス: Link先を確認
Etienne Brangbour, Pierrick Bruneau, St\'ephane Marchand-Maillet, Renaud Hostache, Marco Chini, Patrick Matgen, Thomas Tamisier(参考訳) 本稿では,twitterコーパスを地理的参照ラスター細胞に変換し,関連する地理的領域が浸水する確率について検討する。 本稿では,密度比関数,時空間gaussian kernel関数を用いたアグリゲーション,tfidfテキストの特徴を組み合わせたベースラインアプローチについて述べる。 特徴はロジスティック回帰モデルを用いて確率に変換される。 この手法は,2017年8月から9月にかけてヒューストンのハリケーン・ハーベイに続き,洪水後に収集したコーパスを用いて評価した。 ベースラインはF1得点の68%に達した。 これらの初期結果を改善するための研究の方向性を強調する。

In this paper, we investigate the conversion of a Twitter corpus into geo-referenced raster cells holding the probability of the associated geographical areas of being flooded. We describe a baseline approach that combines a density ratio function, aggregation using a spatio-temporal Gaussian kernel function, and TFIDF textual features. The features are transformed to probabilities using a logistic regression model. The described method is evaluated on a corpus collected after the floods that followed Hurricane Harvey in the Houston urban area in August-September 2017. The baseline reaches a F1 score of 68%. We highlight research directions likely to improve these initial results.
翻訳日:2021-05-16 21:07:27 公開日:2020-12-07
# 製品ランキングにおける収益最大化と学習

Revenue Maximization and Learning in Products Ranking ( http://arxiv.org/abs/2012.03800v1 )

ライセンス: Link先を確認
Ningyuan Chen, Anran Li, Shuoguang Yang(参考訳) 価格や品質の異なる商品群を表示し、それらを順にランク付けするオンライン小売業者の収益最大化問題を考える。 消費者はランダムな注意範囲を持ち、'満足'製品を購入する前に製品を順次見るか、注意範囲が枯渇したときにプラットフォームを空っぽにしておく。 当社のフレームワークはカスケードモデルを2方向に拡張している。消費者は固定ではなくランダムな注意範囲を持ち、企業は確率をクリックせずに収益を最大化する。 注意範囲が固定されたときの注意範囲の関数として最適製品ランキングのネスト構造を示し、ランダムな注意範囲に応じて1/e$-近似アルゴリズムを設計する。 条件付き購入確率が分かっておらず,消費者や製品機能に依存する可能性がある場合,情報を検閲しているにもかかわらず,近似アルゴリズムに対して$\tilde{\mathcal{O}}(\sqrt{T})$後悔するオンライン学習アルゴリズムを考案する。 数値実験により近似およびオンライン学習アルゴリズムの優れた性能を示す。

We consider the revenue maximization problem for an online retailer who plans to display a set of products differing in their prices and qualities and rank them in order. The consumers have random attention spans and view the products sequentially before purchasing a ``satisficing'' product or leaving the platform empty-handed when the attention span gets exhausted. Our framework extends the cascade model in two directions: the consumers have random attention spans instead of fixed ones and the firm maximizes revenues instead of clicking probabilities. We show a nested structure of the optimal product ranking as a function of the attention span when the attention span is fixed and design a $1/e$-approximation algorithm accordingly for the random attention spans. When the conditional purchase probabilities are not known and may depend on consumer and product features, we devise an online learning algorithm that achieves $\tilde{\mathcal{O}}(\sqrt{T})$ regret relative to the approximation algorithm, despite of the censoring of information: the attention span of a customer who purchases an item is not observable. Numerical experiments demonstrate the outstanding performance of the approximation and online learning algorithms.
翻訳日:2021-05-16 21:07:19 公開日:2020-12-07
# 深層強化学習による高効率貯留層管理

Efficient Reservoir Management through Deep Reinforcement Learning ( http://arxiv.org/abs/2012.03822v1 )

ライセンス: Link先を確認
Xinrun Wang, Tarun Nair, Haoyang Li, Yuh Sheng Reuben Wong, Nachiket Kelkar, Srinivas Vaidyanathan, Rajat Nayak, Bo An, Jagdish Krishnaswamy, Milind Tambe(参考訳) ダムは上流・下流連関の規制と破壊を通じて下流河川の動態に影響を及ぼす。 しかし,上流・下流系の複雑で不確定なダイナミクスや貯水池の各種利用に応答できないため,現在のダム運転は満足できない。 さらに、不満足なダムが下流部の洪水を引き起こすことがある。 そこで本研究では,RL法を利用してダムの効率的な運転ガイドラインを算出した。 具体的には,実データと上流流れの異なる数理モデル,すなわち一般化最小平方形(gls)と動的線形モデル(dlm)を用いたオフラインシミュレータを構築し,ddpg,td3,sacを含む最先端rlアルゴリズムをシミュレータを用いてトレーニングする。 実験の結果,DLM を用いたシミュレータは上流での流入動態を効率的にモデル化し,RL アルゴリズムで訓練されたダム運転ポリシーは人為的な政策よりも優れていた。

Dams impact downstream river dynamics through flow regulation and disruption of upstream-downstream linkages. However, current dam operation is far from satisfactory due to the inability to respond the complicated and uncertain dynamics of the upstream-downstream system and various usages of the reservoir. Even further, the unsatisfactory dam operation can cause floods in downstream areas. Therefore, we leverage reinforcement learning (RL) methods to compute efficient dam operation guidelines in this work. Specifically, we build offline simulators with real data and different mathematical models for the upstream inflow, i.e., generalized least square (GLS) and dynamic linear model (DLM), then use the simulator to train the state-of-the-art RL algorithms, including DDPG, TD3 and SAC. Experiments show that the simulator with DLM can efficiently model the inflow dynamics in the upstream and the dam operation policies trained by RL algorithms significantly outperform the human-generated policy.
翻訳日:2021-05-16 21:06:59 公開日:2020-12-07
# スーパーコーダ:状態の重ね合わせから雑音下におけるプログラム学習

SuperCoder: Program Learning Under Noisy Conditions From Superposition of States ( http://arxiv.org/abs/2012.03925v1 )

ライセンス: Link先を確認
Ali Davody, Mahmoud Safari, R\u{a}zvan V. Florian(参考訳) 直接探索を行わない勾配降下に基づくドメイン固有言語(DSL)における新しいプログラム学習法を提案する。 本手法の第一の構成要素は,DSL変数の確率的表現である。 プログラムシーケンスの各時間ステップにおいて、異なるDSL関数が特定の確率でDSL変数に適用され、異なる結果が得られます。 これらすべての出力を別々に扱うのではなく、各タイムステップで指数関数的に増加し、それらを変数の重ね合わせに集め、単一のファジィ状態で情報をキャプチャする。 この状態は、損失関数を介して、最後のタイミングで接地トラス出力と対比される。 本手法の2番目の構成要素は注意に基づく繰り返しニューラルネットワークであり,確率的表現を最適化する勾配降下の適切な初期化点を提供する。 提案手法は, 長いプログラムを合成する最先端技術を超え, 雑音下でプログラムを学習できる。

We propose a new method of program learning in a Domain Specific Language (DSL) which is based on gradient descent with no direct search. The first component of our method is a probabilistic representation of the DSL variables. At each timestep in the program sequence, different DSL functions are applied on the DSL variables with a certain probability, leading to different possible outcomes. Rather than handling all these outputs separately, whose number grows exponentially with each timestep, we collect them into a superposition of variables which captures the information in a single, but fuzzy, state. This state is to be contrasted at the final timestep with the ground-truth output, through a loss function. The second component of our method is an attention-based recurrent neural network, which provides an appropriate initialization point for the gradient descent that optimizes the probabilistic representation. The method we have developed surpasses the state-of-the-art for synthesising long programs and is able to learn programs under noise.
翻訳日:2021-05-16 21:06:42 公開日:2020-12-07
# 多段階植物成長予測のための注意機構を備えた自動エンコーダウェーブレット型ディープニューラルネットワーク

An autoencoder wavelet based deep neural network with attention mechanism for multistep prediction of plant growth ( http://arxiv.org/abs/2012.04041v1 )

ライセンス: Link先を確認
Bashar Alhnaity, Stefanos Kollias, Georgios Leontidis, Shouyong Jiang, Bert Schamp, Simon Pearson(参考訳) 多段階予測は,多くの実生活問題において時系列解析において重要な意味を持つと考えられる。 既存の手法は主に1ステップの予測に重点を置いているが、これは複数のステップの予測は予測エラーの蓄積によって一般的に失敗するためである。 本稿では,植物茎径変動(sdv)の予測に着目し,農業における植物成長予測手法を提案する。 提案手法は3つの主要なステップからなる。 まず、ウェーブレット分解を元のデータに適用し、モデルの嵌合を容易にし、ノイズを低減する。 次に,Long Short Term Memory (LSTM) を用いてエンコーダ・デコーダ・フレームワークを開発し,データから適切な特徴抽出を行う。 最後に、時系列データにおける長期依存をモデル化するためのLSTMとアテンション機構を含む繰り返しニューラルネットワークを提案する。 提案手法の優れた性能を示し,RMSE,MAE,MAPEなどの誤差基準で既存モデルよりも大幅に優れていることを示す実験結果が得られた。

Multi-step prediction is considered of major significance for time series analysis in many real life problems. Existing methods mainly focus on one-step-ahead forecasting, since multiple step forecasting generally fails due to accumulation of prediction errors. This paper presents a novel approach for predicting plant growth in agriculture, focusing on prediction of plant Stem Diameter Variations (SDV). The proposed approach consists of three main steps. At first, wavelet decomposition is applied to the original data, as to facilitate model fitting and reduce noise in them. Then an encoder-decoder framework is developed using Long Short Term Memory (LSTM) and used for appropriate feature extraction from the data. Finally, a recurrent neural network including LSTM and an attention mechanism is proposed for modelling long-term dependencies in the time series data. Experimental results are presented which illustrate the good performance of the proposed approach and that it significantly outperforms the existing models, in terms of error criteria such as RMSE, MAE and MAPE.
翻訳日:2021-05-16 21:06:28 公開日:2020-12-07
# 相互情報最大化による中国語歌詞からの異種メロディ生成

Diverse Melody Generation from Chinese Lyrics via Mutual Information Maximization ( http://arxiv.org/abs/2012.03805v1 )

ライセンス: Link先を確認
Ruibin Yuan, Ge Zhang, Anqiao Yang, Xinyue Zhang(参考訳) 本稿では,中国語の歌詞条件付きメロディ生成タスクに相互情報の最大化手法を適用し,生成品質と多様性を向上させることを提案する。 歌詞とメロディのアライメントを改善するために,スケジュールされたサンプリングと強制復号技術を用いた。 提案手法はDiverse Melody Generation (DMG) と呼ばれ,入力スタイルのIDに大きく依存する多様なメロディの生成を学習し,調性を維持し,アライメントを改善する。 主観評価実験の結果, DMG はベースライン法よりも心地よい, 一貫性のある調律を生成できることがわかった。

In this paper, we propose to adapt the method of mutual information maximization into the task of Chinese lyrics conditioned melody generation to improve the generation quality and diversity. We employ scheduled sampling and force decoding techniques to improve the alignment between lyrics and melodies. With our method, which we called Diverse Melody Generation (DMG), a sequence-to-sequence model learns to generate diverse melodies heavily depending on the input style ids, while keeping the tonality and improving the alignment. The experimental results of subjective tests show that DMG can generate more pleasing and coherent tunes than baseline methods.
翻訳日:2021-05-16 21:02:31 公開日:2020-12-07
# ハイブリッドASRシステムにおける深部畳み込みニューラルネットワークのフレームレベル仕様化

Frame-level SpecAugment for Deep Convolutional Neural Networks in Hybrid ASR Systems ( http://arxiv.org/abs/2012.04094v1 )

ライセンス: Link先を確認
Xinwei Li, Yuanyuan Zhang, Xiaodan Zhuang, Daben Liu(参考訳) エンドツーエンドのASRシステムのためのデータ拡張手法であるSpecAugmentに着想を得て、ハイブリッドHMMベースのASRシステムのための深層畳み込みニューラルネットワーク(CNN)の性能を改善するためのフレームレベルSpecAugment法(f-SpecAugment)を提案する。 f-specaugmentは発話レベルの仕様と同様に、タイムワーピング、周波数マスキング、タイムマスキングの3つの変換を行う。 発話レベルで変換を適用する代わりに、f-specaugmentは各畳み込みウィンドウにそれらをトレーニング中に独立に適用する。 深層CNNに基づくハイブリッドモデルにおいて,f-SpecAugmentは発話レベルSpecAugmentよりも有効であることを示す。 最大25000時間トレーニングデータを用いて訓練した50層自己Nmalizing Deep CNN(SNDCNN)音響モデルに対するf-SpecAugmentの評価を行った。 We observed f-SpecAugment reduces WER by 0.5-4.5% relative across different ASR task for four languages。 強化技術の利点は,データサイズが大きくなるにつれて減少する傾向にあり,f-種別の有効性を理解する上で,大規模訓練が重要である。 実験では,25kのトレーニングデータでもf-specaugmentが有効であることを実証した。 また、f-SpecAugmentは深層CNNのトレーニングデータの量が2倍になるという利点も示しています。

Inspired by SpecAugment -- a data augmentation method for end-to-end ASR systems, we propose a frame-level SpecAugment method (f-SpecAugment) to improve the performance of deep convolutional neural networks (CNN) for hybrid HMM based ASR systems. Similar to the utterance level SpecAugment, f-SpecAugment performs three transformations: time warping, frequency masking, and time masking. Instead of applying the transformations at the utterance level, f-SpecAugment applies them to each convolution window independently during training. We demonstrate that f-SpecAugment is more effective than the utterance level SpecAugment for deep CNN based hybrid models. We evaluate the proposed f-SpecAugment on 50-layer Self-Normalizing Deep CNN (SNDCNN) acoustic models trained with up to 25000 hours of training data. We observe f-SpecAugment reduces WER by 0.5-4.5% relatively across different ASR tasks for four languages. As the benefits of augmentation techniques tend to diminish as training data size increases, the large scale training reported is important in understanding the effectiveness of f-SpecAugment. Our experiments demonstrate that even with 25k training data, f-SpecAugment is still effective. We also demonstrate that f-SpecAugment has benefits approximately equivalent to doubling the amount of training data for deep CNNs.
翻訳日:2021-05-16 21:02:19 公開日:2020-12-07
# 混合会員コミュニティ検出のための混合SCORE+

Mixed-SCORE+ for mixed membership community detection ( http://arxiv.org/abs/2012.03725v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) Mixed-SCOREは、Jinらによって提案された混合会員コミュニティ検出のための最近のアプローチである。 (2017)はSCOREの拡張(Jin, 2015)である。 注記はJin et al。 (2018) 著者らは SCORE+ を SCORE の改良として提案した。 本論文では,Mixed-SCOREとSCORE+をベースとして設計したMixed-SCORE+を提案する。 提案手法では,弱い信号ネットワークを検出するKコミュニティが存在する場合,K+1固有ベクトルを考える。 また,混合メンバシップコミュニティ検出の問題を解決するために,頂点狩りとメンバーリコンストラクションのステップも構築する。 いくつかのベンチマーク手法と比較すると、Mixed-SCORE+はPolblogsネットワークとSimmonsとCaltechでそれぞれ54/1222、125/1137、94/590のエラー率で大幅に改善されている。 さらに、Mixed-SCORE+はSNAPのego-networksで優れたパフォーマンスを享受している。

Mixed-SCORE is a recent approach for mixed membership community detection proposed by Jin et al. (2017) which is an extension of SCORE (Jin, 2015). In the note Jin et al. (2018), the authors propose SCORE+ as an improvement of SCORE to handle with weak signal networks. In this paper, we propose a method called Mixed-SCORE+ designed based on the Mixed-SCORE and SCORE+, therefore Mixed-SCORE+ inherits nice properties of both Mixed-SCORE and SCORE+. In the proposed method, we consider K+1 eigenvectors when there are K communities to detect weak signal networks. And we also construct vertices hunting and membership reconstruction steps to solve the problem of mixed membership community detection. Compared with several benchmark methods, numerical results show that Mixed-SCORE+ provides a significant improvement on the Polblogs network and two weak signal networks Simmons and Caltech, with error rates 54/1222, 125/1137 and 94/590, respectively. Furthermore, Mixed-SCORE+ enjoys excellent performances on the SNAP ego-networks.
翻訳日:2021-05-16 21:01:59 公開日:2020-12-07
# webブラウジングアクセシビリティに認知的拡張をもたらす

Bringing Cognitive Augmentation to Web Browsing Accessibility ( http://arxiv.org/abs/2012.03743v1 )

ライセンス: Link先を確認
Alessandro Pina, Marcos Baez, Florian Daniel(参考訳) 本稿では、より自然でアクセス可能なwebブラウジング体験を提供するための認知的拡張によってもたらされる機会について考察する。 視覚障害者(bvip)と一般ユーザーが会話エージェントを通じてwebサイトの内容や機能にアクセスできるようにする、webのための新たなインタラクションパラダイムである \textit{conversational web browsing} を通じて、これらの機会を探る。 本稿では,BVIPの対話型Webブラウジングニーズをサポートするための概念的枠組みを考案し,このサポートを自動で提供する上での課題に注目し,構造的・コンテンツ的特徴のみを考慮したヒューリスティックスを活用した初期の作業とプロトタイプについて述べる。

In this paper we explore the opportunities brought by cognitive augmentation to provide a more natural and accessible web browsing experience. We explore these opportunities through \textit{conversational web browsing}, an emerging interaction paradigm for the Web that enables blind and visually impaired users (BVIP), as well as regular users, to access the contents and features of websites through conversational agents. Informed by the literature, our previous work and prototyping exercises, we derive a conceptual framework for supporting BVIP conversational web browsing needs, to then focus on the challenges of automatically providing this support, describing our early work and prototype that leverage heuristics that consider structural and content features only.
翻訳日:2021-05-16 21:01:40 公開日:2020-12-07
# dippas:prnuの匿名化計画の深部画像

DIPPAS: A Deep Image Prior PRNU Anonymization Scheme ( http://arxiv.org/abs/2012.03581v1 )

ライセンス: Link先を確認
Francesco Picetti, Sara Mandelli, Paolo Bestagini, Vincenzo Lipari and Stefano Tubaro(参考訳) ソースデバイス識別は、画像の原点を追跡することができるため、画像検査において重要なトピックである。 鑑識のカウンターパートは、ソースデバイス匿名化(source device anonymization)、すなわち、ソースデバイスを特定するのに有用な画像の痕跡を隠ぺいする。 ソースデバイス識別に利用される典型的なトレースは、取得した画像上にデバイスが残したノイズパターンである写真応答不均一(PRNU)である。 本稿では,自然画像からのそのような痕跡を抑制する手法を,画質に大きな影響を与えずに考案する。 具体的には、PRNU匿名化をDeep Image Prior(DIP)フレームワークの最適化問題に変換する。 簡単に言うと、畳み込みニューラルネットワーク(convolutional neural network, cnn)がジェネレータとして動作し、ソースprnuに対して匿名化されたイメージを返す。 広く採用されているディープラーニングパラダイムに関して、提案するcnnは、入力対象のイメージペアのトレーニングを受けていない。 代わりに、原画像からPRNUを含まない画像を解析自体から再構成するように最適化されている。 この手法は、大規模な異種データベースを解析し、一般化の欠如による問題を回避するシナリオに特に適している。 公開データセットの数値例を通じて,最先端技術と比較し,提案手法の有効性を実証する。

Source device identification is an important topic in image forensics since it allows to trace back the origin of an image. Its forensics counter-part is source device anonymization, that is, to mask any trace on the image that can be useful for identifying the source device. A typical trace exploited for source device identification is the Photo Response Non-Uniformity (PRNU), a noise pattern left by the device on the acquired images. In this paper, we devise a methodology for suppressing such a trace from natural images without significant impact on image quality. Specifically, we turn PRNU anonymization into an optimization problem in a Deep Image Prior (DIP) framework. In a nutshell, a Convolutional Neural Network (CNN) acts as generator and returns an image that is anonymized with respect to the source PRNU, still maintaining high visual quality. With respect to widely-adopted deep learning paradigms, our proposed CNN is not trained on a set of input-target pairs of images. Instead, it is optimized to reconstruct the PRNU-free image from the original image under analysis itself. This makes the approach particularly suitable in scenarios where large heterogeneous databases are analyzed and prevents any problem due to lack of generalization. Through numerical examples on publicly available datasets, we prove our methodology to be effective compared to state-of-the-art techniques.
翻訳日:2021-05-16 21:00:49 公開日:2020-12-07
# 自己監督が弱体化と強体化のギャップを埋める-歴史学

Self-Supervision Closes the Gap Between Weak and Strong Supervision in Histology ( http://arxiv.org/abs/2012.03583v1 )

ライセンス: Link先を確認
Olivier Dehaene, Axel Camara, Olivier Moindrot, Axel de Lavergne, Pierre Courtiol(参考訳) 機械学習を病理学に適用する上で最大の課題のひとつは、監督の弱さだ。 したがって、最先端技術は、ドメインの専門家による追加のローカルアノテーションを使用した、強力な教師付きモデルトレーニングに依存している。 しかし、詳細なアノテーションがないため、最も弱い教師付きアプローチはImageNetで事前訓練された凍結した特徴抽出器に依存する。 本稿では,近年の自己教師付き学習アルゴリズムであるmoco v2を用いて,組織像に対してドメイン内特徴抽出器を訓練することを提案する。 Camelyon16 と TCGA の実験結果から,提案した抽出器は ImageNet よりも大幅に優れていた。 特に,本研究では,カメリヨン16の弱監督状態が91.4%から98.7%に向上し,99.3%のaucに達する強監督モデルとのギャップを解消した。 これらの実験を通じて,自己教師付き学習によって訓練された特徴抽出器が,組織学における既存の機械学習技術を大幅に改善するためのドロップイン代替として機能することを示す。 最後に, 組織構造の生物学的に有意な分離が認められた。

One of the biggest challenges for applying machine learning to histopathology is weak supervision: whole-slide images have billions of pixels yet often only one global label. The state of the art therefore relies on strongly-supervised model training using additional local annotations from domain experts. However, in the absence of detailed annotations, most weakly-supervised approaches depend on a frozen feature extractor pre-trained on ImageNet. We identify this as a key weakness and propose to train an in-domain feature extractor on histology images using MoCo v2, a recent self-supervised learning algorithm. Experimental results on Camelyon16 and TCGA show that the proposed extractor greatly outperforms its ImageNet counterpart. In particular, our results improve the weakly-supervised state of the art on Camelyon16 from 91.4% to 98.7% AUC, thereby closing the gap with strongly-supervised models that reach 99.3% AUC. Through these experiments, we demonstrate that feature extractors trained via self-supervised learning can act as drop-in replacements to significantly improve existing machine learning techniques in histology. Lastly, we show that the learned embedding space exhibits biologically meaningful separation of tissue structures.
翻訳日:2021-05-16 21:00:27 公開日:2020-12-07
# 効率的なカーネルベースマッチングフィルタによる網膜血管の分節化

Efficient Kernel based Matched Filter Approach for Segmentation of Retinal Blood Vessels ( http://arxiv.org/abs/2012.03601v1 )

ライセンス: Link先を確認
Sushil Kumar Saroj, Vikas Ratna, Rakesh Kumar, Nagendra Pratap Singh(参考訳) 網膜血管構造は肥満、糖尿病、高血圧、緑内障などの疾患に関する情報を含んでいる。 この情報は、これらの致命的な病気の特定と治療に非常に有用である。 この情報を得るためには、これらの網膜血管を分節する必要がある。 網膜血管のセグメンテーションに多くのカーネルベースの手法が与えられたが、そのカーネルは血管プロファイルに適さないため、性能は低下した。 これを解決するために、カーネルベースのマッチングフィルタ手法が提案されている。 新しい一致フィルタは、一致フィルタ応答(mfr)画像を生成するために使用される。 得られたMFR画像に大津しきい値法を適用し, 血管抽出を行った。 提案するマッチングフィルタカーネルのパラメータの最適値を選択するための広範囲な実験を行った。 提案手法は2つのオンラインドライブとstareデータセットで検証と検証を行っている。 提案手法は98.50%,98.23%,精度95.77%,ドライブとスターデータセットそれぞれ95.13%の特異性を有する。 得られた結果は,提案手法が他の方法よりも優れた性能を示した。 パフォーマンス向上の理由は、網膜血管のプロファイルをより正確にマッチする適切なカーネルが提案されているためである。

Retinal blood vessels structure contains information about diseases like obesity, diabetes, hypertension and glaucoma. This information is very useful in identification and treatment of these fatal diseases. To obtain this information, there is need to segment these retinal vessels. Many kernel based methods have been given for segmentation of retinal vessels but their kernels are not appropriate to vessel profile cause poor performance. To overcome this, a new and efficient kernel based matched filter approach has been proposed. The new matched filter is used to generate the matched filter response (MFR) image. We have applied Otsu thresholding method on obtained MFR image to extract the vessels. We have conducted extensive experiments to choose best value of parameters for the proposed matched filter kernel. The proposed approach has examined and validated on two online available DRIVE and STARE datasets. The proposed approach has specificity 98.50%, 98.23% and accuracy 95.77 %, 95.13% for DRIVE and STARE dataset respectively. Obtained results confirm that the proposed method has better performance than others. The reason behind increased performance is due to appropriate proposed kernel which matches retinal blood vessel profile more accurately.
翻訳日:2021-05-16 21:00:08 公開日:2020-12-07
# Noise2Kernel: 拡張畳み込みカーネルアーキテクチャを用いた適応的自己監督型ブラインドデノイング

Noise2Kernel: Adaptive Self-Supervised Blind Denoising using a Dilated Convolutional Kernel Architecture ( http://arxiv.org/abs/2012.03623v1 )

ライセンス: Link先を確認
Kanggeun Lee and Won-Ki Jeong(参考訳) 近年,教師なし学習の進展に伴い,ノイズやクリーンな画像のペアを伴わないディープ・ネットワークの効率的な学習が可能になった。 しかし, 信号独立条件下でのゼロ平均雑音を仮定して, 教師なしの復調法がほとんどである。 この仮定は、塩・ペッパーノイズのような極端なノイズによって著しく劣化する画像の明るさシフト問題に盲目発声技術が苦しむ原因となる。 さらに、ほとんどのブラインド・デノジング法では、デノジングプロセスのばらつきを確実にするためにトレーニングのためのランダム・マスキング・スキームが必要となる。 本稿では,不変性を満たす拡張畳み込みネットワークを提案する。 また,ゼロ平均制約の要件を回避するために適応的な自己超越損失を提案する。これは,ノイズ統計の事前知識が得られないような,塩とペッパーまたはハイブリッドノイズの除去に特に有効である。 提案手法は, 様々な例を用いて, 最先端のデノイジング法と比較し, 有効性を示す。

With the advent of recent advances in unsupervised learning, efficient training of a deep network for image denoising without pairs of noisy and clean images has become feasible. However, most current unsupervised denoising methods are built on the assumption of zero-mean noise under the signal-independent condition. This assumption causes blind denoising techniques to suffer brightness shifting problems on images that are greatly corrupted by extreme noise such as salt-and-pepper noise. Moreover, most blind denoising methods require a random masking scheme for training to ensure the invariance of the denoising process. In this paper, we propose a dilated convolutional network that satisfies an invariant property, allowing efficient kernel-based training without random masking. We also propose an adaptive self-supervision loss to circumvent the requirement of zero-mean constraint, which is specifically effective in removing salt-and-pepper or hybrid noise where a prior knowledge of noise statistics is not readily available. We demonstrate the efficacy of the proposed method by comparing it with state-of-the-art denoising methods using various examples.
翻訳日:2021-05-16 20:59:53 公開日:2020-12-07
# NeRV:リライティングとビュー合成のためのニューラルリフレクタンスと可視界

NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis ( http://arxiv.org/abs/2012.03927v1 )

ライセンス: Link先を確認
Pratul P. Srinivasan and Boyang Deng and Xiuming Zhang and Matthew Tancik and Ben Mildenhall and Jonathan T. Barron(参考訳) 本稿では、制約のない未知の照明で照らされたシーンの画像の集合を入力として取り、任意の照明条件下で新しい視点から描画可能な3D表現を出力する手法を提案する。 本手法は,入力が3次元位置であり,出力が入力位置の次のシーン特性であるmlpとしてパラメータ化された連続ボリューム関数として,任意の方向における体積密度,表面正規値,材料パラメータ,第1面交差点までの距離,任意の方向における外部環境の可視性を表す。 これらを組み合わせることで、間接照明効果を含む任意の照明下でオブジェクトの新たなビューを描画することができる。 予測された視界と表面の交叉場は、トレーニング中に直接的および間接的な照明をシミュレートするモデルの能力にとって重要である。 提案手法は,再現可能な3dシーン表現を復元するための代替手法よりも優れており,先行作業において大きな課題となった複雑な照明環境では良好に機能する。

We present a method that takes as input a set of images of a scene illuminated by unconstrained known lighting, and produces as output a 3D representation that can be rendered from novel viewpoints under arbitrary lighting conditions. Our method represents the scene as a continuous volumetric function parameterized as MLPs whose inputs are a 3D location and whose outputs are the following scene properties at that input location: volume density, surface normal, material parameters, distance to the first surface intersection in any direction, and visibility of the external environment in any direction. Together, these allow us to render novel views of the object under arbitrary lighting, including indirect illumination effects. The predicted visibility and surface intersection fields are critical to our model's ability to simulate direct and indirect illumination during training, because the brute-force techniques used by prior work are intractable for lighting conditions outside of controlled setups with a single light. Our method outperforms alternative approaches for recovering relightable 3D scene representations, and performs well in complex lighting settings that have posed a significant challenge to prior work.
翻訳日:2021-05-16 20:59:36 公開日:2020-12-07
# 機械学習算術曲線

Machine-Learning Arithmetic Curves ( http://arxiv.org/abs/2012.04084v1 )

ライセンス: Link先を確認
Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver(参考訳) 標準機械学習アルゴリズムは、低種数算術曲線のある種の不変量を予測するように訓練することができる。 約10万のサイズのデータセットを用いて、楕円曲線のBSD不変量(階数とねじれ部分群を含む)と属2曲線の類似不変量に関連する分類問題における機械学習の有用性を実証する。 その結果、訓練された機械は、これらの不変量に応じて曲線を高い精度で分類できる(>0.97)。 ねじれ順序の区別や積分点の認識といった問題に対して、精度は0.998に達する。

We show that standard machine-learning algorithms may be trained to predict certain invariants of low genus arithmetic curves. Using datasets of size around one hundred thousand, we demonstrate the utility of machine-learning in classification problems pertaining to the BSD invariants of an elliptic curve (including its rank and torsion subgroup), and the analogous invariants of a genus 2 curve. Our results show that a trained machine can efficiently classify curves according to these invariants with high accuracies (>0.97). For problems such as distinguishing between torsion orders, and the recognition of integral points, the accuracies can reach 0.998.
翻訳日:2021-05-16 20:56:03 公開日:2020-12-07
# 分類モデルに対するブラックボックスモデル反転属性推論攻撃

Black-box Model Inversion Attribute Inference Attacks on Classification Models ( http://arxiv.org/abs/2012.03404v1 )

ライセンス: Link先を確認
Shagufta Mehnaz, Ninghui Li, Elisa Bertino(参考訳) 医療診断、ライフスタイル予測、ビジネス上の決定など、プライバシに敏感なドメインにおけるMLテクノロジの利用の増加は、これらのMLテクノロジが機密でプロプライエタリなトレーニングデータの漏洩を導入しているかどうかをよりよく理解する必要性を強調している。 本稿では,対象とする分類モデルへのoracleアクセスを用いて,学習データ中のインスタンスに対する非敏感な属性を敵が知っており,敵に未知の機密属性の値を推測することを目的とした,モデル反転攻撃の一手法に焦点を当てる。 我々は、信頼モデリングに基づく攻撃と信頼スコアに基づく攻撃という、2つの新しいモデル逆属性推論攻撃を考案し、また、他の(非感受性)属性が敵に未知な場合まで攻撃を拡張した。 さらに,従来の研究では,属性推定攻撃の有効性を評価する指標として精度を用いたが,感度特性分布が不均衡な場合,精度は報知されないことがわかった。 属性推論攻撃の評価に優れた指標であるg-meanとmatthews correlation coefficient(mcc)の2つを同定した。 2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。 実験の結果,新たに提案する攻撃は最先端の攻撃を大きく上回ることがわかった。 さらに、トレーニングデータセットの特定のグループ(例えば、性別、人種など)が、逆攻撃のモデルに対してより脆弱であることを実証的に示す。 また、他の(非感受性の)属性も敵に知られていない場合、攻撃のパフォーマンスに大きな影響を与えないことを示す。

Increasing use of ML technologies in privacy-sensitive domains such as medical diagnoses, lifestyle predictions, and business decisions highlights the need to better understand if these ML technologies are introducing leakages of sensitive and proprietary training data. In this paper, we focus on one kind of model inversion attacks, where the adversary knows non-sensitive attributes about instances in the training data and aims to infer the value of a sensitive attribute unknown to the adversary, using oracle access to the target classification model. We devise two novel model inversion attribute inference attacks -- confidence modeling-based attack and confidence score-based attack, and also extend our attack to the case where some of the other (non-sensitive) attributes are unknown to the adversary. Furthermore, while previous work uses accuracy as the metric to evaluate the effectiveness of attribute inference attacks, we find that accuracy is not informative when the sensitive attribute distribution is unbalanced. We identify two metrics that are better for evaluating attribute inference attacks, namely G-mean and Matthews correlation coefficient (MCC). We evaluate our attacks on two types of machine learning models, decision tree and deep neural network, trained with two real datasets. Experimental results show that our newly proposed attacks significantly outperform the state-of-the-art attacks. Moreover, we empirically show that specific groups in the training dataset (grouped by attributes, e.g., gender, race) could be more vulnerable to model inversion attacks. We also demonstrate that our attacks' performances are not impacted significantly when some of the other (non-sensitive) attributes are also unknown to the adversary.
翻訳日:2021-05-16 20:55:51 公開日:2020-12-07
# 転倒検知用低分解能加速度計の深層学習に基づく信号強調

Deep Learning Based Signal Enhancement of Low-Resolution Accelerometer for Fall Detection Systems ( http://arxiv.org/abs/2012.03426v1 )

ライセンス: Link先を確認
Kai-Chun Liu, Kuo-Hsuan Hung, Chia-Yeh Hsieh, Hsiang-Yun Huang, Chia-Tai Chan and Yu Tsao(参考訳) 過去20年間、フォール検出(FD)システムは一般的な補助技術として開発されてきた。 このようなシステムは、重要な転倒イベントを自動的に検出し、直ちに医療専門家や介護者に警告する。 長期FDサービスを支援するため、様々な省電力戦略が実施されている。 その中でも、サンプリングレートの低減は、実世界のエネルギー効率の高いシステムに共通するアプローチである。 しかし、低分解能(LR)加速度センサ信号により、FDシステムの性能は低下する。 lr加速度計信号による検出精度を向上させるためには,不一致,有効特徴のミスマッチ,劣化効果など,いくつかの技術的課題を考慮する必要がある。 本研究では, LR-FDシステムの検出性能を向上させるために, 深層学習に基づくAccelerometer signal enhancement (ASE)モデルを提案する。 提案モデルは、LR信号とHR信号の関係を学習することにより、LR信号から高分解能(HR)信号を再構成する。 その結果、サポートベクターマシンを用いたfdシステムと、極めて低いサンプリング率(サンプリングレート<2hz)で提案されたaseモデルは、それぞれ97.34%、sisfallとfallalldデータセットでは90.52%、sisfallとfallalldデータセットでは、aseモデルがないものは95.92%、87.47%であった。 本研究では、ASEモデルがLR信号の技術的課題に対処し、より優れた検出性能を実現するのに役立つことを示す。

In the last two decades, fall detection (FD) systems have been developed as a popular assistive technology. Such systems automatically detect critical fall events and immediately alert medical professionals or caregivers. To support long-term FD services, various power-saving strategies have been implemented. Among them, a reduced sampling rate is a common approach for an energy-efficient system in the real-world. However, the performance of FD systems is diminished owing to low-resolution (LR) accelerometer signals. To improve the detection accuracy with LR accelerometer signals, several technical challenges must be considered, including misalignment, mismatch of effective features, and the degradation effects. In this work, a deep-learning-based accelerometer signal enhancement (ASE) model is proposed to improve the detection performance of LR-FD systems. This proposed model reconstructs high-resolution (HR) signals from the LR signals by learning the relationship between the LR and HR signals. The results show that the FD system using support vector machine and the proposed ASE model at an extremely low sampling rate (sampling rate < 2 Hz) achieved 97.34% and 90.52% accuracies in the SisFall and FallAllD datasets, respectively, while those without ASE models only achieved 95.92% and 87.47% accuracies in the SisFall and FallAllD datasets, respectively. This study demonstrates that the ASE model helps the FD systems tackle the technical challenges of LR signals and achieve better detection performance.
翻訳日:2021-05-16 20:55:25 公開日:2020-12-07
# 物理を知らない:産業用制御システムにおけるプロセスベースモデルフリー異常検出のレジリエンス

No Need to Know Physics: Resilience of Process-based Model-free Anomaly Detection for Industrial Control Systems ( http://arxiv.org/abs/2012.03586v1 )

ライセンス: Link先を確認
Alessandro Erba, Nils Ole Tippenhauer(参考訳) 近年,産業用制御システムのプロセスに基づく異常検出手法が多数提案されている。 本研究では,このようなスキームを初めて体系的に解析し,それらの検出システムによって検証された特性の分類を導入する。 次に,システムの物理的特性に反する逆スプーフ信号を生成するための新しい一般的なフレームワークを提案し,このフレームワークを用いて,トップセキュリティカンファレンスで公開された4つの異常検出を解析する。 これらの検出器のうち3つは、私たちが合成センサースプーフィングと呼ぶ多くの敵の操作(例えば、事前計算されたパターンによるスプーフィング)に影響を受けやすく、1つは攻撃に対して弾力性がある。 レジリエンスの根源を調査し,それが導入した特性に由来することを実証する。 我々の攻撃は攻撃されたスキームのリコール(True Positive Rate)を減らし、異常を正しく検出することができない。 したがって、異常検知器で発見された脆弱性は(元の優れた検出性能にもかかわらず)システムの物理的特性を確実に学習できないことを示している。 以前の作業が(認証されたプロパティに基づく)レジリエントであることが期待される攻撃でさえも成功した。 我々の研究結果は、データセットにおけるより完全な攻撃の必要性と、プロセスベースの異常検知器のより批判的な分析の両方を示している。 フレームワークが生成した一連のSynthetic Sensor Spoofing攻撃による2つの公開データセットの拡張とともに、オープンソースとして実装をリリースする予定です。

In recent years, a number of process-based anomaly detection schemes for Industrial Control Systems were proposed. In this work, we provide the first systematic analysis of such schemes, and introduce a taxonomy of properties that are verified by those detection systems. We then present a novel general framework to generate adversarial spoofing signals that violate physical properties of the system, and use the framework to analyze four anomaly detectors published at top security conferences. We find that three of those detectors are susceptible to a number of adversarial manipulations (e.g., spoofing with precomputed patterns), which we call Synthetic Sensor Spoofing and one is resilient against our attacks. We investigate the root of its resilience and demonstrate that it comes from the properties that we introduced. Our attacks reduce the Recall (True Positive Rate) of the attacked schemes making them not able to correctly detect anomalies. Thus, the vulnerabilities we discovered in the anomaly detectors show that (despite an original good detection performance), those detectors are not able to reliably learn physical properties of the system. Even attacks that prior work was expected to be resilient against (based on verified properties) were found to be successful. We argue that our findings demonstrate the need for both more complete attacks in datasets, and more critical analysis of process-based anomaly detectors. We plan to release our implementation as open-source, together with an extension of two public datasets with a set of Synthetic Sensor Spoofing attacks as generated by our framework.
翻訳日:2021-05-16 20:54:59 公開日:2020-12-07
# 一般化パーセプトロン学習

Generalised Perceptron Learning ( http://arxiv.org/abs/2012.03642v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Martin Benning(参考訳) ローゼンブラットの従来のパーセプトロン学習アルゴリズムを近位活性化関数のクラスに一般化し、この一般化を新しいエネルギー関数に適用した漸進勾配法として解釈する方法を実証する。 この新しいエネルギー関数は一般化されたブレグマン距離に基づいており、重みやバイアスに対する勾配は活性化関数の微分を必要としない。 エネルギー最小化アルゴリズムとしての解釈は、スパースパーセプトロンの学習のための反復型ソフトスレッディングアルゴリズムの新しい変種を探索する多くの新しいアルゴリズムの道を開く。

We present a generalisation of Rosenblatt's traditional perceptron learning algorithm to the class of proximal activation functions and demonstrate how this generalisation can be interpreted as an incremental gradient method applied to a novel energy function. This novel energy function is based on a generalised Bregman distance, for which the gradient with respect to the weights and biases does not require the differentiation of the activation function. The interpretation as an energy minimisation algorithm paves the way for many new algorithms, of which we explore a novel variant of the iterative soft-thresholding algorithm for the learning of sparse perceptrons.
翻訳日:2021-05-16 20:54:34 公開日:2020-12-07
# covidscholar:covid-1 9研究の集約と分析の自動化プラットフォーム

COVIDScholar: An automated COVID-19 research aggregation and analysis platform ( http://arxiv.org/abs/2012.03891v1 )

ライセンス: Link先を確認
Amalie Trewartha, John Dagdelen, Haoyan Huo, Kevin Cruse, Zheren Wang, Tanjin He, Akshay Subramanian, Yuxing Fei, Benjamin Justus, Kristin Persson, Gerbrand Ceder(参考訳) 新型コロナウイルス(covid-19)のパンデミックは社会全体に広がり、科学も例外ではない。 新型コロナウイルス(covid-19)への対応の規模、速さ、広さは、目覚ましい規模で新たな研究文献の出現に繋がる。2020年10月現在、covid-19関連科学論文8万1000点以上が1日250点以上で公表されている。 これは、従来の研究文献との関わりの方法に対する挑戦を生み出した;新しい研究のボリュームは、人間が読む能力を超えたものであり、応答の緊急性は、プレプリントサーバーにおいてますます顕著な役割と、ソース間で関連する研究の拡散をもたらしている。 これらの要因は、科学文献の普及方法を変える新しいツールの必要性を生み出した。 COVIDScholarは、新型コロナウイルス研究コミュニティのユニークなニーズを念頭に設計された知識ポータルであり、NLPを利用して、何千もの創発的な研究論文、特許、臨床試験に広がる情報を、アクション可能な洞察と新しい知識に合成するのに役立つ。 このコーパスの検索インターフェイス https://covidscholar .org は現在、2000以上のユニークユーザーを毎週提供している。 また、2020年におけるcovid-19研究の動向について分析する。

The ongoing COVID-19 pandemic has had far-reaching effects throughout society, and science is no exception. The scale, speed, and breadth of the scientific community's COVID-19 response has lead to the emergence of new research literature on a remarkable scale -- as of October 2020, over 81,000 COVID-19 related scientific papers have been released, at a rate of over 250 per day. This has created a challenge to traditional methods of engagement with the research literature; the volume of new research is far beyond the ability of any human to read, and the urgency of response has lead to an increasingly prominent role for pre-print servers and a diffusion of relevant research across sources. These factors have created a need for new tools to change the way scientific literature is disseminated. COVIDScholar is a knowledge portal designed with the unique needs of the COVID-19 research community in mind, utilizing NLP to aid researchers in synthesizing the information spread across thousands of emergent research articles, patents, and clinical trials into actionable insights and new knowledge. The search interface for this corpus, https://covidscholar .org, now serves over 2000 unique users weekly. We present also an analysis of trends in COVID-19 research over the course of 2020.
翻訳日:2021-05-16 20:54:24 公開日:2020-12-07
# 近似差分プライバシーを用いたサンプル効率の適切なPAC学習

Sample-efficient proper PAC learning with approximate differential privacy ( http://arxiv.org/abs/2012.03893v1 )

ライセンス: Link先を確認
Badih Ghazi, Noah Golowich, Ravi Kumar, Pasin Manurangsi(参考訳) 本稿では,Littlestone 次元のクラス $d$ を近似微分プライバシーで適切に学習する際のサンプルの複雑さが$\tilde O(d^6)$であり,プライバシと精度のパラメータを無視していることを示す。 この結果はbun et alの疑問に答える。 (FOCS 2020) は, 試料の複雑さに対して 2^{O(d)}$ の上限を改良した。 我々の研究以前には、有限のリトルストーン次元のクラスをプライベートに学習するサンプルの複雑さの有限性は、不適切な個人学習者にのみ知られており、我々の学習者が適切なものであるという事実は、Bousquetらからも質問されたBun et al.の別の疑問に答えている。 (2020年)。 Bousquetらが開発した機械を用いて、二項仮説クラスを衛生化する際のサンプルの複雑さは、そのリトルストーン次元と双対リトルストーン次元のほとんどの多項式であることを示す。 これは、あるクラスがサニタブルであることと、それが有限小石次元を持つことが同値であることを意味する。 我々の証明の重要な要素は、非還元可能性(irreducibility)と呼ばれる二項仮説クラスの新しい性質である。

In this paper we prove that the sample complexity of properly learning a class of Littlestone dimension $d$ with approximate differential privacy is $\tilde O(d^6)$, ignoring privacy and accuracy parameters. This result answers a question of Bun et al. (FOCS 2020) by improving upon their upper bound of $2^{O(d)}$ on the sample complexity. Prior to our work, finiteness of the sample complexity for privately learning a class of finite Littlestone dimension was only known for improper private learners, and the fact that our learner is proper answers another question of Bun et al., which was also asked by Bousquet et al. (NeurIPS 2020). Using machinery developed by Bousquet et al., we then show that the sample complexity of sanitizing a binary hypothesis class is at most polynomial in its Littlestone dimension and dual Littlestone dimension. This implies that a class is sanitizable if and only if it has finite Littlestone dimension. An important ingredient of our proofs is a new property of binary hypothesis classes that we call irreducibility, which may be of independent interest.
翻訳日:2021-05-16 20:54:01 公開日:2020-12-07
# ディープリニアニューラルネットワークの統計力学:バック伝播再正規化群

Statistical Mechanics of Deep Linear Neural Networks: The Back-Propagating Renormalization Group ( http://arxiv.org/abs/2012.04030v1 )

ライセンス: Link先を確認
Qianyi Li, Haim Sompolinsky(参考訳) 多くの現実世界のタスクにおけるディープラーニングの成功は、トレーニングと複雑なタスクの一般化におけるディープラーニングの能力と限界を理論的に理解する試みのきっかけとなった。 本研究では,個々の単位の入力出力関数が線形である深層線形ニューラルネットワーク(DLNN)における学習の統計力学について検討する。 ユニットの線形性にもかかわらず、DLNNでの学習は非常に非線形であるため、その特性の研究は非線形ディープニューラルネットワーク(DNN)の本質的な特徴を明らかにしている。 重み空間における平衡ギブス分布を用いて教師付き学習後のネットワーク特性を正確に解く。 これを実現するために,バックプロパゲーション再正規化グループ(bprg)を導入し,ネットワーク出力層からレイヤ単位のネットワーク重み付け層を段階的に統合し,後向きに進める。 本手法により、一般化誤差、ネットワーク幅と深さの役割、トレーニングセットのサイズの影響、および重み正規化と学習確率の影響などの重要なネットワーク特性を評価することができる。 さらに、BPRGは層の部分的な統合を行うことで、異なる隠された層にまたがる神経表現の創発的特性を計算することができる。 我々は,線形整列ユニット(ReLU)を持つ非線形DNNに対するBPRGのヒューリスティック拡張を提案した。 驚くべきことに、我々の数値シミュレーションは、非線形性にもかかわらず、我々の理論の予測は、かなり深いReLUネットワークによって、幅広いパラメータで共有されていることを示している。 我々の研究は、ディープニューラルネットワークの一群における学習の正確な統計力学的研究であり、これらのシステムの重み空間に対する再正規化グループアプローチの最初の開発である。

The success of deep learning in many real-world tasks has triggered an effort to theoretically understand the power and limitations of deep learning in training and generalization of complex tasks, so far with limited progress. In this work, we study the statistical mechanics of learning in Deep Linear Neural Networks (DLNNs) in which the input-output function of an individual unit is linear. Despite the linearity of the units, learning in DLNNs is highly nonlinear, hence studying its properties reveals some of the essential features of nonlinear Deep Neural Networks (DNNs). We solve exactly the network properties following supervised learning using an equilibrium Gibbs distribution in the weight space. To do this, we introduce the Back-Propagating Renormalization Group (BPRG) which allows for the incremental integration of the network weights layer by layer from the network output layer and progressing backward. This procedure allows us to evaluate important network properties such as its generalization error, the role of network width and depth, the impact of the size of the training set, and the effects of weight regularization and learning stochasticity. Furthermore, by performing partial integration of layers, BPRG allows us to compute the emergent properties of the neural representations across the different hidden layers. We have proposed a heuristic extension of the BPRG to nonlinear DNNs with rectified linear units (ReLU). Surprisingly, our numerical simulations reveal that despite the nonlinearity, the predictions of our theory are largely shared by ReLU networks with modest depth, in a wide regime of parameters. Our work is the first exact statistical mechanical study of learning in a family of Deep Neural Networks, and the first development of the Renormalization Group approach to the weight space of these systems.
翻訳日:2021-05-16 20:53:40 公開日:2020-12-07
# ローレンツ透過電子顕微鏡と微分可能プログラムによる高分解能機能イメージング

High resolution functional imaging through Lorentz transmission electron microscopy and differentiable programming ( http://arxiv.org/abs/2012.04037v1 )

ライセンス: Link先を確認
Tao Zhou, Mathew Cherukara and Charudatta Phatak(参考訳) ローレンツ透過電子顕微鏡(英語版)は、高空間分解能で材料の微細構造と機能特性を同時に撮像できるユニークな特性解析技術である。 磁化や電位などの定量的情報は、電子波の位相によって運ばれ、撮像中に失われる。 局所的な相互作用を理解し、構造-優位関係を発達させるためには、電子の位相シフトの解決を必要とする電子波の完全な波動関数を復元する必要がある(位相探索)。 本研究では, 位相探索の逆問題を解くための微分可能計画法を, 一連のデフォーカス顕微鏡画像を用いて開発した。 提案手法は強靭であり,同じ電子線量条件下で得られた位相の空間分解能および精度において, 広く用いられる「強度方程式の変換」よりも優れることを示す。 さらに,本手法は高度な機械学習アルゴリズムと同じ基本構造を持ち,電子顕微鏡における様々な位相検索に容易に適応できる。

Lorentz transmission electron microscopy is a unique characterization technique that enables the simultaneous imaging of both the microstructure and functional properties of materials at high spatial resolution. The quantitative information such as magnetization and electric potentials is carried by the phase of the electron wave, and is lost during imaging. In order to understand the local interactions and develop structure-property relationships, it is necessary to retrieve the complete wavefunction of the electron wave, which requires solving for the phase shift of the electrons (phase retrieval). Here we have developed a method based on differentiable programming to solve the inverse problem of phase retrieval, using a series of defocused microscope images. We show that our method is robust and can outperform widely used \textit{transport of intensity equation} in terms of spatial resolution and accuracy of the retrieved phase under same electron dose conditions. Furthermore, our method shares the same basic structure as advanced machine learning algorithms, and is easily adaptable to various other forms of phase retrieval in electron microscopy.
翻訳日:2021-05-16 20:53:09 公開日:2020-12-07
# 機械学習のトライブとコンピュータアーキテクチャの領域

The Tribes of Machine Learning and the Realm of Computer Architecture ( http://arxiv.org/abs/2012.04105v1 )

ライセンス: Link先を確認
Ayaz Akram and Jason Lowe-Power(参考訳) 機械学習技術は他の多くの分野と同様にコンピュータアーキテクチャの分野に影響を与えた。 本稿では,コンピュータアーキテクチャ問題に基本的機械学習技術を適用する方法について検討する。 また,異なる機械学習手法を用いたコンピュータアーキテクチャ研究の詳細な調査を行った。 最後に、コンピュータアーキテクチャにおける機械学習の潜在能力を最大限に活用するために克服する必要がある、将来的な機会と課題を紹介する。

Machine learning techniques have influenced the field of computer architecture like many other fields. This paper studies how the fundamental machine learning techniques can be applied towards computer architecture problems. We also provide a detailed survey of computer architecture research that employs different machine learning methods. Finally, we present some future opportunities and the outstanding challenges that need to be overcome to exploit full potential of machine learning for computer architecture.
翻訳日:2021-05-16 20:52:54 公開日:2020-12-07
# ハイブリッド機械学習による地上作物窒素含有量の検索

Retrieval of aboveground crop nitrogen content with a hybrid machine learning method ( http://arxiv.org/abs/2012.05043v1 )

ライセンス: Link先を確認
Katja Berger, Jochem Verrelst, Jean-Baptiste F\'eret, Tobias Hank, Matthias Wocher, Wolfram Mauser, Gustau Camps-Valls(参考訳) ハイパースペクトル取得は、植物の成長と農業生産の主要な制限栄養源である窒素(n)含量の推定に最も有益な地球観測データであることが証明されている。 過去には、この生化学植物成分に関する情報をキャノピー反射から得るために、経験的アルゴリズムが広く用いられてきた。 しかし、これらの手法は物理法則に基づく因果関係を求めるものではない。 さらに、ほとんどの研究はクロロフィル含有量と窒素の相関にのみ依存しており、ほとんどのNがタンパク質に結合しているという事実を無視した。 本研究は,機械学習回帰法を組み合わせた物理的手法を用いて,作物n量を推定するハイブリッド検索手法を提案する。 ワークフロー内では,新規に校正されたタンパク質の特異的吸収係数 (SAC) を含む葉の光学特性モデル ProSPECT-PRO とキャノピー反射率モデル 4SAIL と ProSAIL-PRO を結合した。 後者は、高度確率論的機械学習手法に使用されるトレーニングデータベースを生成するために使用される: 標準ホモスセダスティックガウス過程(GP)と、信号と雑音の関係を考慮に入れたヘテロスセダスティックGP回帰である。 両方のgpモデルは、見積もりに信頼区間を提供する特性を持ち、他の機械学習者とは区別される。 GPに基づく帯域分析により、主に短波長赤外スペクトル領域に位置する10個の帯域で最適なスペクトル設定が同定された。 文献でよく知られたタンパク質吸収バンドを用いた結果と比較検討した。 最後に, 非定常GPモデルを航空機搭載ハイパースペクトルデータに適用し, N マッピングを行った。 今後の画像分光データから地上Nのグローバルな農業モニタリングのために,GPアルゴリズム,特にヘテロセダスティックGPを実装すべきである,と結論付けた。

Hyperspectral acquisitions have proven to be the most informative Earth observation data source for the estimation of nitrogen (N) content, which is the main limiting nutrient for plant growth and thus agricultural production. In the past, empirical algorithms have been widely employed to retrieve information on this biochemical plant component from canopy reflectance. However, these approaches do not seek for a cause-effect relationship based on physical laws. Moreover, most studies solely relied on the correlation of chlorophyll content with nitrogen, and thus neglected the fact that most N is bound in proteins. Our study presents a hybrid retrieval method using a physically-based approach combined with machine learning regression to estimate crop N content. Within the workflow, the leaf optical properties model PROSPECT-PRO including the newly calibrated specific absorption coefficients (SAC) of proteins, was coupled with the canopy reflectance model 4SAIL to PROSAIL-PRO. The latter was then employed to generate a training database to be used for advanced probabilistic machine learning methods: a standard homoscedastic Gaussian process (GP) and a heteroscedastic GP regression that accounts for signal-to-noise relations. Both GP models have the property of providing confidence intervals for the estimates, which sets them apart from other machine learners. GP-based band analysis identified optimal spectral settings with ten bands mainly situated in the shortwave infrared (SWIR) spectral region. Use of well-known protein absorption bands from the literature showed comparative results. Finally, the heteroscedastic GP model was successfully applied on airborne hyperspectral data for N mapping. We conclude that GP algorithms, and in particular the heteroscedastic GP, should be implemented for global agricultural monitoring of aboveground N from future imaging spectroscopy data.
翻訳日:2021-05-16 20:50:05 公開日:2020-12-07
# リモートセンシングのための非線形分布回帰

Nonlinear Distribution Regression for Remote Sensing Applications ( http://arxiv.org/abs/2012.06377v1 )

ライセンス: Link先を確認
Jose E. Adsuara, Adri\'an P\'erez-Suay, Jordi Mu\~noz-Mar\'i, Anna Mateo-Sanchis, Maria Piles, Gustau Camps-Valls(参考訳) 多くのリモートセンシングアプリケーションでは、観測から変数やパラメータを推定したい。 対象変数がリモートセンシング観測と一致する解像度で利用できる場合、ニューラルネットワークやランダムフォレスト、ガウス過程といった標準的なアルゴリズムは、この2つを関連付けるために容易に利用できる。 しかし、ターゲット変数がグループレベルでのみ利用可能である場合、すなわち、しばしば発生する。 多数のリモートセンシングされた観測と関連している。 この問題は統計学や機械学習において「複数インスタンス学習」あるいは「分散回帰」として知られている。 本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。 この定式化は、再生成核ヒルベルト空間における分布埋め込みを考慮し、経験的手段を用いて標準最小二乗回帰を行う。 異なる次元とサンプルサイズを持つマルチソースデータを扱う柔軟なバージョンも提示し、評価した。 これにより、各センサーのネイティブな空間分解能を処理でき、マッチング手順の必要性を回避できる。 このアプローチの計算コストが大きいことから,無作為なフーリエ機能を用いて,数百万の点とグループに対処する効率的なバージョンを導入する。

In many remote sensing applications one wants to estimate variables or parameters of interest from observations. When the target variable is available at a resolution that matches the remote sensing observations, standard algorithms such as neural networks, random forests or Gaussian processes are readily available to relate the two. However, we often encounter situations where the target variable is only available at the group level, i.e. collectively associated to a number of remotely sensed observations. This problem setting is known in statistics and machine learning as {\em multiple instance learning} or {\em distribution regression}. This paper introduces a nonlinear (kernel-based) method for distribution regression that solves the previous problems without making any assumption on the statistics of the grouped data. The presented formulation considers distribution embeddings in reproducing kernel Hilbert spaces, and performs standard least squares regression with the empirical means therein. A flexible version to deal with multisource data of different dimensionality and sample sizes is also presented and evaluated. It allows working with the native spatial resolution of each sensor, avoiding the need of match-up procedures. Noting the large computational cost of the approach, we introduce an efficient version via random Fourier features to cope with millions of points and groups.
翻訳日:2021-05-16 20:49:26 公開日:2020-12-07
# ゲーマーのプライベートネットワークの機械学習予測

Machine Learning Prediction of Gamer's Private Networks ( http://arxiv.org/abs/2012.06480v1 )

ライセンス: Link先を確認
Chris Mazur, Jesse Ayers, Gaetan Hains, and Youry Khmelevsky(参考訳) Gamer's Private Network (GPN) は、WTFastが開発したクライアント/サーバ技術で、オンラインゲームのネットワーク性能をより速く、より信頼性の高いものにする。 gpn sは、ミドルマイルサーバとプロプライエタリなアルゴリズムを使用して、オンラインビデオゲームプレーヤーを広域ネットワーク上のゲームのサーバに接続する。 オンラインゲームは巨大なエンターテイメント市場であり、ネットワーク遅延はプレイヤーの競争力の重要な側面である。 この市場は、ネットワークアーキテクチャに対する多くの異なるアプローチが、異なる競合企業によって実装され、それらのアーキテクチャが常に進化していることを意味する。 WTFastのクライアントと彼らがプレイしたいオンラインゲームとの間の最適な接続を確保することは、自動化するのが信じられないほど難しい問題です。 機械学習を用いて、GPN接続からの履歴ネットワークデータを解析し、最適化の鍵となるネットワーク遅延予測の可能性を探る。 次のステップは、gpn minecraftサーバとボットからライブデータ(クライアント/サーバのロード、パケットおよびポート情報および特定のゲーム状態情報を含む)を収集することです。 この情報を強化学習モデルに活用し、遅延に関する予測を行い、最適なネットワーク性能のためにクライアントとサーバの設定を変更する。 これらの調査と実験により,GPNシステムの品質と信頼性が向上する。

The Gamer's Private Network (GPN) is a client/server technology created by WTFast for making the network performance of online games faster and more reliable. GPN s use middle-mile servers and proprietary algorithms to better connect online video-game players to their game's servers across a wide-area network. Online games are a massive entertainment market and network latency is a key aspect of a player's competitive edge. This market means many different approaches to network architecture are implemented by different competing companies and that those architectures are constantly evolving. Ensuring the optimal connection between a client of WTFast and the online game they wish to play is thus an incredibly difficult problem to automate. Using machine learning, we analyzed historical network data from GPN connections to explore the feasibility of network latency prediction which is a key part of optimization. Our next step will be to collect live data (including client/server load, packet and port information and specific game state information) from GPN Minecraft servers and bots. We will use this information in a Reinforcement Learning model along with predictions about latency to alter the clients' and servers' configurations for optimal network performance. These investigations and experiments will improve the quality of service and reliability of GPN systems.
翻訳日:2021-05-16 20:49:06 公開日:2020-12-07
# multi-instrumentalis t net:unsupervised generation of music from body movement

Multi-Instrumentalis t Net: Unsupervised Generation of Music from Body Movements ( http://arxiv.org/abs/2012.03478v1 )

ライセンス: Link先を確認
Kun Su, Xiulong Liu, Eli Shlizerman(参考訳) 本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。 楽器をラベル付けせずにビデオから多声楽曲を生成する学習は難しい課題である。 トランスフォーメーションを実現するために、"multi-instrumentalis tnet"(minet)というパイプラインを構築しました。 パイプラインは、マルチバンド残差ブロックを持つベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、ログ・スペクトログラムから様々な楽器の離散潜在表現を学習する。 その後、パイプラインは、リカレントニューラルネットワークによって符号化されたミュージシャンのボディキーポイントの動きに、自己回帰的な事前条件でトレーニングされる。 前者の身体運動エンコーダとの共同訓練は、音楽の構成要素と楽器の特徴を示す潜在的な特徴に音楽が絡み合うことに成功している。 潜在空間は、新しい音楽が生成される異なる楽器にクラスタリングされた分布をもたらす。 さらに、VQ-VAEアーキテクチャは、追加の条件付き詳細な音楽生成をサポートする。 また,midiは,映像中の楽器が演奏する楽曲の正確な内容をパイプラインが生成するように,潜在空間をさらに条件付けることができることを示す。 13台の楽器のビデオを含む2つのデータセット上でmi netを評価し、適切な音質の生成された音楽を得るとともに、対応する楽器と容易に関連付けられ、音楽オーディオコンテンツと整合する。

We propose a novel system that takes as an input body movements of a musician playing a musical instrument and generates music in an unsupervised setting. Learning to generate multi-instrumental music from videos without labeling the instruments is a challenging problem. To achieve the transformation, we built a pipeline named 'Multi-instrumentalis tNet' (MI Net). At its base, the pipeline learns a discrete latent representation of various instruments music from log-spectrogram using a Vector Quantized Variational Autoencoder (VQ-VAE) with multi-band residual blocks. The pipeline is then trained along with an autoregressive prior conditioned on the musician's body keypoints movements encoded by a recurrent neural network. Joint training of the prior with the body movements encoder succeeds in the disentanglement of the music into latent features indicating the musical components and the instrumental features. The latent space results in distributions that are clustered into distinct instruments from which new music can be generated. Furthermore, the VQ-VAE architecture supports detailed music generation with additional conditioning. We show that a Midi can further condition the latent space such that the pipeline will generate the exact content of the music being played by the instrument in the video. We evaluate MI Net on two datasets containing videos of 13 instruments and obtain generated music of reasonable audio quality, easily associated with the corresponding instrument, and consistent with the music audio content.
翻訳日:2021-05-16 20:48:33 公開日:2020-12-07
# ハイブリッド生物物理変数検索のための能動学習法

Active Learning Methods for Efficient Hybrid Biophysical Variable Retrieval ( http://arxiv.org/abs/2012.04468v1 )

ライセンス: Link先を確認
ochem Verrelst, Sara Dethier, Juan Pablo Rivera, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls, Jos\'e Moreno(参考訳) カーネルベースの機械学習回帰アルゴリズム(MLRA)は、生体物理変数検索方式に実装するための潜在的に強力な手法である。 しかし、大規模なトレーニングデータセットを扱うのに苦労している。 分析のために利用可能な光リモートセンシングデータの量の増加と、放射移動モデル(RTM)から大量のシミュレーションデータを用いてカーネルMLRAを訓練する可能性により、効率的なデータ削減技術が実装される必要がある。 アクティブラーニング(al)メソッドは、データセット内の最も有益なサンプルを選択することができる。 本稿では,管理可能なトレーニングデータセットを用いて生物物理学的変数推定を最適化するための6つのAL手法と,半自動使用のためのMatlabベースのMLRAツールボックスへの実装を紹介する。 AL法は, 葉面積指数とクロロフィル含量の推定精度を ProSAIL シミュレーションにより向上させる効果について分析した。 実装した各手法はランダムサンプリングを上回り,低サンプリング率で検索精度が向上した。 実際、AL手法は、高度なMLRAをRTM生成トレーニングデータで供給し、運用検索モデルを開発する機会を開放する。

Kernel-based machine learning regression algorithms (MLRAs) are potentially powerful methods for being implemented into operational biophysical variable retrieval schemes. However, they face difficulties in coping with large training datasets. With the increasing amount of optical remote sensing data made available for analysis and the possibility of using a large amount of simulated data from radiative transfer models (RTMs) to train kernel MLRAs, efficient data reduction techniques will need to be implemented. Active learning (AL) methods enable to select the most informative samples in a dataset. This letter introduces six AL methods for achieving optimized biophysical variable estimation with a manageable training dataset, and their implementation into a Matlab-based MLRA toolbox for semi-automatic use. The AL methods were analyzed on their efficiency of improving the estimation accuracy of leaf area index and chlorophyll content based on PROSAIL simulations. Each of the implemented methods outperformed random sampling, improving retrieval accuracy with lower sampling rates. Practically, AL methods open opportunities to feed advanced MLRAs with RTM-generated training data for development of operational retrieval models.
翻訳日:2021-05-16 20:47:52 公開日:2020-12-07
# 非線形相対正規化によるマルチ時間・マルチソースリモートセンシング画像分類

Multi-temporal and multi-source remote sensing image classification by nonlinear relative normalization ( http://arxiv.org/abs/2012.04469v1 )

ライセンス: Link先を確認
Devis Tuia, Diego Marcos, Gustau Camps-Valls(参考訳) 複数のセンサーを利用するリモートセンシング画像分類は非常に難しい問題であり、様々なモダリティのデータは、あらゆる種類のスペクトル歪みや誤配の影響を受けており、このハマーは、1つの画像が他のシーンでうまく使われるように構築されたモデルを再利用する。 画像取得にまたがるモデルの適用と転送のためには、異なる照明や大気条件下で、異なるセンサーによって取得され、少ない地上参照で、共登録されていないデータセットに対応できなければならない。 伝統的にヒストグラムマッチングに基づく手法が用いられている。 しかし、密度が非常に異なる場合や、画像間に対応するバンドが存在しない場合に失敗する。 代替案は \emph{manifold alignment} に基づいている。 多様体アライメントは、生成前にデータの多次元相対正規化を行い、異なる次元のデータに対応できる(例えば、)。 バンドの数が異なる) あるいはおそらく無傷の例です データ分散の調整は、変換されたデータのその後の使用にかかわらず、互いに類似したデータ空間を提供することができるため、魅力的な戦略である。 本稿では, 異なる領域からのデータを, {\emカーネル化を通じて非線形に整列させる手法について検討する。 本稿では,Kernel Manifold Alignment (KEMA)法を紹介し,フレキシブルかつ識別可能なプロジェクションマップを提供し,各領域のラベル付きサンプル(あるいはセマンティックな結びつき)のみを利用して,一般化固有値問題を解く。 我々は,超スペクトルイメージングのためのシャドウイングに不変なモデルを作成する作業に加えて,多時間的および多元的超高分解能分類タスクにおいてkemaのテストに成功した。

Remote sensing image classification exploiting multiple sensors is a very challenging problem: data from different modalities are affected by spectral distortions and mis-alignments of all kinds, and this hampers re-using models built for one image to be used successfully in other scenes. In order to adapt and transfer models across image acquisitions, one must be able to cope with datasets that are not co-registered, acquired under different illumination and atmospheric conditions, by different sensors, and with scarce ground references. Traditionally, methods based on histogram matching have been used. However, they fail when densities have very different shapes or when there is no corresponding band to be matched between the images. An alternative builds upon \emph{manifold alignment}. Manifold alignment performs a multidimensional relative normalization of the data prior to product generation that can cope with data of different dimensionality (e.g. different number of bands) and possibly unpaired examples. Aligning data distributions is an appealing strategy, since it allows to provide data spaces that are more similar to each other, regardless of the subsequent use of the transformed data. In this paper, we study a methodology that aligns data from different domains in a nonlinear way through {\em kernelization}. We introduce the Kernel Manifold Alignment (KEMA) method, which provides a flexible and discriminative projection map, exploits only a few labeled samples (or semantic ties) in each domain, and reduces to solving a generalized eigenvalue problem. We successfully test KEMA in multi-temporal and multi-source very high resolution classification tasks, as well as on the task of making a model invariant to shadowing for hyperspectral imaging.
翻訳日:2021-05-16 20:47:33 公開日:2020-12-07
# ガウス過程回帰を用いた植生特性検索のためのスペクトル帯域選択

Spectral band selection for vegetation properties retrieval using Gaussian processes regression ( http://arxiv.org/abs/2012.08640v1 )

ライセンス: Link先を確認
Jochem Verrelst, Juan Pablo Rivera, Anatoly Gitelson, Jesus Delegido, Jos\'e Moreno, Gustau Camps-Valls(参考訳) 現在および近日発売のイメージングスペクトロメーターでは、スペクトルデータの最適な処理を生物物理変数の推定に容易に行うために、ほとんどの有益帯域の効率的な識別を可能にするために、バンド分析の自動化技術が必要である。 本稿では,植生特性のスペクトル解析のためのガウス過程回帰(GPR)に基づく自動スペクトルバンド解析ツール(BAT)を提案する。 GPR-BAT手順は、1つのバンドのみが保持されるまで、所定の変数の回帰モデルにおける最小の寄与帯域を順次後退させる。 GPR-BATは、光学リモートセンシング画像の生体物理製品への変換に特化した、ARTMOのMLRA(機械学習回帰アルゴリズム)ツールボックスのフレームワークで実装されている。 GPR-BATは、(1)スペクトルデータを生物物理学変数に関連付ける際に最も有用な帯域を識別し、(2)最適化された正確な予測を保存する最小のバンドを見つけることを可能にする。 本研究は,植生特性の最適マッピングには,超スペクトルデータのワイズバンド選択が厳密に求められていることを結論づける。

With current and upcoming imaging spectrometers, automated band analysis techniques are needed to enable efficient identification of most informative bands to facilitate optimized processing of spectral data into estimates of biophysical variables. This paper introduces an automated spectral band analysis tool (BAT) based on Gaussian processes regression (GPR) for the spectral analysis of vegetation properties. The GPR-BAT procedure sequentially backwards removes the least contributing band in the regression model for a given variable until only one band is kept. GPR-BAT is implemented within the framework of the free ARTMO's MLRA (machine learning regression algorithms) toolbox, which is dedicated to the transforming of optical remote sensing images into biophysical products. GPR-BAT allows (1) to identify the most informative bands in relating spectral data to a biophysical variable, and (2) to find the least number of bands that preserve optimized accurate predictions. This study concludes that a wise band selection of hyperspectral data is strictly required for optimal vegetation properties mapping.
翻訳日:2021-05-16 20:47:06 公開日:2020-12-07
# 腫瘍病理画像の位相的特徴を用いた予後予測

Predicting survival outcomes using topological features of tumor pathology images ( http://arxiv.org/abs/2012.12102v1 )

ライセンス: Link先を確認
Chul Moon, Qiwei Li, Guanghua Xiao(参考訳) 腫瘍の形状と大きさは、がんの診断と治療の重要なマーカーとして使われてきた。 医用画像技術の最近の進歩は、高解像度の腫瘍領域のより詳細なセグメンテーションを可能にする。 本稿では,デジタル病理画像から腫瘍進展を特徴付けるトポロジ的特徴と時間-時間データへの影響について検討する。 我々は,病理画像の距離変換を開発し,持続的ホモロジーによって計算されたトポロジ的要約統計が腫瘍の形状,大きさ,分布,接続性を定量化することを示す。 位相的特徴は関数空間で表現され、関数cox回帰モデルの関数予測器として用いられる。 非小細胞肺癌画像を用いた症例的検討を行った。 その結果, 腫瘍の年齢, 性別, 喫煙状況, 病期, 大きさを調整し, 予後を予測できた。 また、非ゼロ効果のトポロジカルな特徴は、腫瘍の進行に関連することが知られている形状に対応する。 本研究は腫瘍の形状と予後を理解するための新しい視点を提供する。

Tumor shape and size have been used as important markers for cancer diagnosis and treatment. Recent developments in medical imaging technology enable more detailed segmentation of tumor regions in high resolution. This paper proposes a topological feature to characterize tumor progression from digital pathology images and examine its effect on the time-to-event data. We develop distance transform for pathology images and show that a topological summary statistic computed by persistent homology quantifies tumor shape, size, distribution, and connectivity. The topological features are represented in functional space and used as functional predictors in a functional Cox regression model. A case study is conducted using non-small cell lung cancer pathology images. The results show that the topological features predict survival prognosis after adjusting for age, sex, smoking status, stage, and size of tumors. Also, the topological features with non-zero effects correspond to the shapes that are known to be related to tumor progression. Our study provides a new perspective for understanding tumor shape and patient prognosis.
翻訳日:2021-05-16 20:46:50 公開日:2020-12-07
# エッジにおける推論のための低遅延非同期論理設計

Low-Latency Asynchronous Logic Design for Inference at the Edge ( http://arxiv.org/abs/2012.03402v1 )

ライセンス: Link先を確認
Adrian Wheeldon, Alex Yakovlev, Rishad Shafik, Jordan Morris(参考訳) 現代のモノのインターネット(IoT)デバイスは、クラウドにオフロードするのではなく、デバイス上の知覚されたデータを使用して機械学習の推論を利用する。 一般的にInference at theedgeとして知られており、パーソナライゼーションやセキュリティなど、多くのメリットをユーザに提供する。 しかし、そのような応用は高いエネルギー効率と堅牢性を必要とする。 本稿では,オートマトン学習の原則を用いて設計した自己時間型早期伝播型非同期推論回路の面積と電力オーバーヘッドを低減する手法を提案する。 タイミングに対する自然な回復力と論理基盤により、回路は環境や供給電圧の変動に耐性があり、最小のレイテンシが可能となる。 提案手法は低消費電力機械学習アプリケーションのための推論データパスを用いて実演する。 この回路は、Tsetlinマシンアルゴリズムに基づいて、そのエネルギー効率をさらに高める。 提案回路の平均レイテンシは、類似領域を維持しながら同期実装と比較して10倍低減される。 提案回路のロバスト性は、0.25Vから1.2Vの合成後シミュレーションによって証明される。 機能的補正は維持され、電圧が低下するにつれてゲート遅延を伴うレイテンシがスケールする。

Modern internet of things (IoT) devices leverage machine learning inference using sensed data on-device rather than offloading them to the cloud. Commonly known as inference at-the-edge, this gives many benefits to the users, including personalization and security. However, such applications demand high energy efficiency and robustness. In this paper we propose a method for reduced area and power overhead of self-timed early-propagative asynchronous inference circuits, designed using the principles of learning automata. Due to natural resilience to timing as well as logic underpinning, the circuits are tolerant to variations in environment and supply voltage whilst enabling the lowest possible latency. Our method is exemplified through an inference datapath for a low power machine learning application. The circuit builds on the Tsetlin machine algorithm further enhancing its energy efficiency. Average latency of the proposed circuit is reduced by 10x compared with the synchronous implementation whilst maintaining similar area. Robustness of the proposed circuit is proven through post-synthesis simulation with 0.25 V to 1.2 V supply. Functional correctness is maintained and latency scales with gate delay as voltage is decreased.
翻訳日:2021-05-16 20:46:13 公開日:2020-12-07
# 電池モデルのための空間充足サブセット選択

Space-Filling Subset Selection for an Electric Battery Model ( http://arxiv.org/abs/2012.03541v1 )

ライセンス: Link先を確認
Philipp Gesner, Christian Gletter, Florian Landenberger, Frank Kirschbaum, Lutz Morawietz, Bernard B\"aker(参考訳) バッテリー性能の動的モデルは、自動車駆動列車の開発過程において不可欠なツールである。 本研究では,電気インピーダンスのモデル化に適した大規模データセットを作成する手法を提案する。 データ駆動モデルを得るとき、通常、より多くの観察がより良いモデルを生み出すと仮定する。 しかし、バッテリの動作に関する実際の駆動データは、システムの非一様励起を強く表し、モデリングに悪影響を及ぼす。 そのため、利用可能なデータのサブセット選択が開発された。 高精度な非線形自己回帰外因性モデル(narx)の構築を目指している。 アルゴリズムは、非線形モデルの入力空間をより均質に満たした動的データポイントを選択する。 このトレーニングデータの削減は、ランダムなサブセットと比較してモデル品質の向上と、すべてのデータポイントを用いたモデリングよりも高速なトレーニングにつながることが示されている。

Dynamic models of the battery performance are an essential tool throughout the development process of automotive drive trains. The present study introduces a method making a large data set suitable for modeling the electrical impedance. When obtaining data-driven models, a usual assumption is that more observations produce better models. However, real driving data on the battery's behavior represent a strongly non-uniform excitation of the system, which negatively affects the modeling. For that reason, a subset selection of the available data was developed. It aims at building accurate nonlinear autoregressive exogenous (NARX) models more efficiently. The algorithm selects those dynamic data points that fill the input space of the nonlinear model more homogeneously. It is shown, that this reduction of the training data leads to a higher model quality in comparison to a random subset and a faster training compared to modeling using all data points.
翻訳日:2021-05-16 20:45:58 公開日:2020-12-07
# 希少事象の高次サンプリングのための集合変数のマルチタスク機械学習

Multitask machine learning of collective variables for enhanced sampling of rare events ( http://arxiv.org/abs/2012.03909v1 )

ライセンス: Link先を確認
Lixin Sun, Jonathan Vandermause, Simon Batzner, Yu Xie, David Clark, Wei Chen, Boris Kozinsky(参考訳) 計算正確な反応速度は、不偏の分子動力学による自由エネルギー推定のコストが高いため、計算化学と生物学において中心的な課題である。 この研究において、データ駆動機械学習アルゴリズムは、マルチタスクニューラルネットワークを用いて集合変数を学習するために考案され、共通の上流部は原子配置の高次元を低次元の潜在空間に還元し、下流部は潜在空間を盆地のラベルとポテンシャルエネルギーの予測にマッピングする。 得られた潜在空間は有効な低次元表現であり、反応の進行を捉え、効果的な傘サンプリングを導いて正確な自由エネルギー景観を得る。 このアプローチは5d m\"uller brownモデル、5d three-wellモデル、および真空中のアラニンジペプチドを含むモデルシステムにうまく適用できる。 このアプローチは、複雑なシステムにおけるエネルギー制御反応の自動次元化を可能にし、限られたデータでトレーニングできる統一フレームワークを提供し、オートエンコーダを含むシングルタスク学習アプローチよりも優れています。

Computing accurate reaction rates is a central challenge in computational chemistry and biology because of the high cost of free energy estimation with unbiased molecular dynamics. In this work, a data-driven machine learning algorithm is devised to learn collective variables with a multitask neural network, where a common upstream part reduces the high dimensionality of atomic configurations to a low dimensional latent space, and separate downstream parts map the latent space to predictions of basin class labels and potential energies. The resulting latent space is shown to be an effective low-dimensional representation, capturing the reaction progress and guiding effective umbrella sampling to obtain accurate free energy landscapes. This approach is successfully applied to model systems including a 5D M\"uller Brown model, a 5D three-well model, and alanine dipeptide in vacuum. This approach enables automated dimensionality reduction for energy controlled reactions in complex systems, offers a unified framework that can be trained with limited data, and outperforms single-task learning approaches, including autoencoders.
翻訳日:2021-05-16 20:45:48 公開日:2020-12-07
# 深層学習ボリュームフォーミュラの遠近化

Disentangling a Deep Learned Volume Formula ( http://arxiv.org/abs/2012.03955v1 )

ライセンス: Link先を確認
Jessica Craven, Vishnu Jejjala, Arjun Kar(参考訳) 単元根におけるジョーンズ多項式の単一の評価のみを用いて結び目の双曲体積を近似する単純な現象論的公式を提案する。 最初の170万ノットの平均誤差は2.86%であり、これはこの種の以前の公式よりも大きな改善である。 近似式を見つけるために,ブラックボックスニューラルネットワークのリバースエンジニアリングに階層的関連性伝搬を用い,全データセットの10%でトレーニングした場合に,同じ近似タスクに対して同様の平均誤差を発生させる。 解析で現れるユニティの特定の根は、整数$k$で$e^{2\pi i / (k+2)}$と書けないので、関連するジョーンズ多項式評価は、通常の$SU(2)$チャーン・サイモンズ理論においてウィルソンループ作用素の非正規化期待値によって与えられるものではない。 代わりに、これらの期待値の分数レベルへの解析的継続に対応する。 我々は,解析的に連続するチャーン・シモンズ積分サイクルにおいて,継続手順を簡潔にレビューし,近似式が敏感なレフシェッツのチムルの存在についてコメントする。

We present a simple phenomenological formula which approximates the hyperbolic volume of a knot using only a single evaluation of its Jones polynomial at a root of unity. The average error is just 2.86% on the first 1.7 million knots, which represents a large improvement over previous formulas of this kind. To find the approximation formula, we use layer-wise relevance propagation to reverse engineer a black box neural network which achieves a similar average error for the same approximation task when trained on 10% of the total dataset. The particular roots of unity which appear in our analysis cannot be written as $e^{2\pi i / (k+2)}$ with integer $k$; therefore, the relevant Jones polynomial evaluations are not given by unknot-normalized expectation values of Wilson loop operators in conventional $SU(2)$ Chern-Simons theory with level $k$. Instead, they correspond to an analytic continuation of such expectation values to fractional level. We briefly review the continuation procedure and comment on the presence of certain Lefschetz thimbles, to which our approximation formula is sensitive, in the analytically continued Chern-Simons integration cycle.
翻訳日:2021-05-16 20:45:31 公開日:2020-12-07
# フェデレーション学習のためのアップリンク・ダウンリンク通信の設計と解析

Design and Analysis of Uplink and Downlink Communications for Federated Learning ( http://arxiv.org/abs/2012.04057v1 )

ライセンス: Link先を確認
Sihui Zheng, Cong Shen, Xiang Chen(参考訳) コミュニケーションは連合学習(federated learning, fl)の主要なボトルネックの1つとして知られているが、既存の研究は効率的な通信設計には対処していない。 本稿では,無線FLの物理層量子化と伝送方式の設計と解析に焦点をあてる。 本稿では、クライアントとパラメータサーバ間の通信方法と方法に関する質問に答え、更新モデルの様々な量子化と伝達オプションが学習性能に与える影響を評価する。 非i.d.の下でよく知られたFedAvgの新しい収束解析を提供する。 アップリンクおよびダウンリンク通信におけるデータセット分布、部分クライアント参加、有限精度量子化。 これらの分析により, 量子化を伴うo(1/t)収束率を達成するためには, 重みの伝達は対数率で量子化レベルを増加させる必要があるが, 重み微分の伝達は一定の量子化レベルを維持することができることが明らかとなった。 様々な実世界のデータセットに関する総合的な数値評価により、flで調整されたアップリンクとダウンリンクの通信設計の利点は膨大であることが判明した。注意深く設計された量子化と伝送は、ベースライン帯域の10%未満で浮動小数点ベースライン精度の98%以上を達成する。 および非i.d. データセット。 特に、1ビット量子化(浮動小数点ベースライン帯域幅の3.1%)は、mnistのほぼ同じ収束率で浮動小数点ベースライン精度の99.8%を達成する。

Communication has been known to be one of the primary bottlenecks of federated learning (FL), and yet existing studies have not addressed the efficient communication design, particularly in wireless FL where both uplink and downlink communications have to be considered. In this paper, we focus on the design and analysis of physical layer quantization and transmission methods for wireless FL. We answer the question of what and how to communicate between clients and the parameter server and evaluate the impact of the various quantization and transmission options of the updated model on the learning performance. We provide new convergence analysis of the well-known FedAvg under non-i.i.d. dataset distributions, partial clients participation, and finite-precision quantization in uplink and downlink communications. These analyses reveal that, in order to achieve an O(1/T) convergence rate with quantization, transmitting the weight requires increasing the quantization level at a logarithmic rate, while transmitting the weight differential can keep a constant quantization level. Comprehensive numerical evaluation on various real-world datasets reveals that the benefit of a FL-tailored uplink and downlink communication design is enormous - a carefully designed quantization and transmission achieves more than 98% of the floating-point baseline accuracy with fewer than 10% of the baseline bandwidth, for majority of the experiments on both i.i.d. and non-i.i.d. datasets. In particular, 1-bit quantization (3.1% of the floating-point baseline bandwidth) achieves 99.8% of the floating-point baseline accuracy at almost the same convergence rate on MNIST, representing the best known bandwidth-accuracy tradeoff to the best of the authors' knowledge.
翻訳日:2021-05-16 20:45:09 公開日:2020-12-07
# エッジコンピューティングのためのコスト効率の良い機械学習推論負荷

Cost-effective Machine Learning Inference Offload for Edge Computing ( http://arxiv.org/abs/2012.04063v1 )

ライセンス: Link先を確認
Christian Makaya, Amalendu Iyer, Jonathan Salfity, Madhu Athreya, M Anthony Lewis(参考訳) 大量のデータが生成されるため、エッジでのコンピューティングはますます重要になっている。 このことは、すべてのデータをリモートデータセンタやクラウドに転送する上で、処理と分析が可能な課題を引き起こします。 一方で、デバイスの能力、接続性、異種性といった課題を軽減できるのであれば、データ駆動および機械学習ベースのアプリケーションを提供するには、エッジデータを活用することが不可欠である。 機械学習アプリケーションは計算集約的で、大量のデータの処理を必要とする。 しかし、エッジデバイスは、計算資源、電力、ストレージ、ネットワーク接続の観点から、リソース制約が強いことが多い。 したがって、より大きく複雑になりつつある最先端のディープニューラルネットワーク(DNN)モデルを効率的かつ正確に動作させる可能性を制限することができる。 本稿では,インストール・ベース・オンプレミス(edge)計算資源を活用した新しいオフロード機構を提案する。 提案するメカニズムにより、エッジデバイスは、リモートクラウドを使用する代わりに、重い計算集約的なワークロードをエッジノードにオフロードすることができる。 我々のオフロード機構は,移動ロボットやビデオ監視アプリケーションのための最先端の人物と物体検出DNNモデルを用いてプロトタイプ化およびテストされている。 パフォーマンスは、正確性とレイテンシの観点から、クラウドベースのオフロード戦略に比べて大幅に向上している。

Computing at the edge is increasingly important since a massive amount of data is generated. This poses challenges in transporting all that data to the remote data centers and cloud, where they can be processed and analyzed. On the other hand, harnessing the edge data is essential for offering data-driven and machine learning-based applications, if the challenges, such as device capabilities, connectivity, and heterogeneity can be mitigated. Machine learning applications are very compute-intensive and require processing of large amount of data. However, edge devices are often resources-constraine d, in terms of compute resources, power, storage, and network connectivity. Hence, limiting their potential to run efficiently and accurately state-of-the art deep neural network (DNN) models, which are becoming larger and more complex. This paper proposes a novel offloading mechanism by leveraging installed-base on-premises (edge) computational resources. The proposed mechanism allows the edge devices to offload heavy and compute-intensive workloads to edge nodes instead of using remote cloud. Our offloading mechanism has been prototyped and tested with state-of-the art person and object detection DNN models for mobile robots and video surveillance applications. The performance shows a significant gain compared to cloud-based offloading strategies in terms of accuracy and latency.
翻訳日:2021-05-16 20:44:36 公開日:2020-12-07
# 地学における因果推論と観測データからのリモートセンシング

Causal Inference in Geoscience and Remote Sensing from Observational Data ( http://arxiv.org/abs/2012.05150v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Gustau Camps-Valls(参考訳) 観測データからランダム変数間の因果関係を確立することは、今日の \blue{science} においておそらく最も重要な課題である。 リモートセンシングと地球科学において、これは地球のシステムと統治プロセスの間の複雑な相互作用をよりよく理解するための特別な関連性である。 本稿では,観察的因果推論に着目し,有限個の実験データを用いて因果関係の正しい方向を推定する。 さらに,条件付き独立性テストが使用できないような,より複雑な二変量シナリオにも注目する。 特に,原因と生成機構の独立性の原理に依存する(非決定論的)付加雑音モデルの枠組みを考察する。 このような原理の実用的なアルゴリズム的インスタンス化には、1) 前向きと後向きの2つの回帰モデルと、2)得られた残差と観測値の間の統計独立性の推定が必要である。 より独立した残差につながる方向が原因であると決定される。 我々は,依存度推定器の「em感度」(導出的)を用いた基準を提案する。感度基準は依存度測定に最も影響を及ぼすサンプルを識別することを可能にし,従ってこの基準はスプリアス検出に頑健である。 本研究では,28の地球科学因果推論問題の集合において,182の課題を含む植生パラメータモデリングにおける放射移動モデルシミュレーションと機械学習エミュレータのデータベースを用いて,炭素サイクル問題における異なる回帰モデルの影響を評価する。 この基準はあらゆるケースで最先端の検出率を達成するが、一般的にノイズ源や歪みに対して堅牢である。

Establishing causal relations between random variables from observational data is perhaps the most important challenge in today's \blue{science}. In remote sensing and geosciences this is of special relevance to better understand the Earth's system and the complex interactions between the governing processes. In this paper, we focus on observational causal inference, thus we try to estimate the correct direction of causation using a finite set of empirical data. In addition, we focus on the more complex bivariate scenario that requires strong assumptions and no conditional independence tests can be used. In particular, we explore the framework of (non-deterministic) additive noise models, which relies on the principle of independence between the cause and the generating mechanism. A practical algorithmic instantiation of such principle only requires 1) two regression models in the forward and backward directions, and 2) the estimation of {\em statistical independence} between the obtained residuals and the observations. The direction leading to more independent residuals is decided to be the cause. We instead propose a criterion that uses the {\em sensitivity} (derivative) of the dependence estimator, the sensitivity criterion allows to identify samples most affecting the dependence measure, and hence the criterion is robust to spurious detections. We illustrate performance in a collection of 28 geoscience causal inference problems, in a database of radiative transfer models simulations and machine learning emulators in vegetation parameter modeling involving 182 problems, and in assessing the impact of different regression models in a carbon cycle problem. The criterion achieves state-of-the-art detection rates in all cases, it is generally robust to noise sources and distortions.
翻訳日:2021-05-16 20:42:02 公開日:2020-12-07
# フレキシブルな統計的モデリングのための微分プログラミング

Using Differentiable Programming for Flexible Statistical Modeling ( http://arxiv.org/abs/2012.05722v1 )

ライセンス: Link先を確認
Maren Hackenberg, Marlon Grodd, Clemens Kreutz, Martina Fischer, Janina Esins, Linus Grabenhenrich, Christian Karagiannidis, Harald Binder(参考訳) 微分可能プログラミングは近年、コンピュータプログラムの勾配を取るためのパラダイムとして多くの関心を集めている。 これまでの柔軟な勾配に基づく最適化アプローチは、主にディープラーニングやモデリングコンポーネントの強化に使われてきたが、古典的な最大極大アプローチが困難である場合や実現不可能である場合、高速なプロトタイピングのために、各分野の統計モデリングにも有用であることを示したい。 COVID-19設定のアプリケーションでは、差別化可能なプログラミングを使用して、手前のデータ品質の課題に適応した柔軟な予測モデルを迅速に構築し、最適化します。 具体的には、遅れ微分方程式にインスパイアされた回帰モデルを構築し、ドイツの中央医療機関における観察の時間的ギャップを埋め、将来の需要を予測する。 この模範的モデリングの課題では、微分可能プログラミングがモデルの自動微分による単純な勾配に基づく最適化をいかに実現できるかを説明する。 これにより、より単純なベンチマークモデルを上回る時間的プレッシャー下でモデルをすばやくプロトタイプすることができます。 したがって、ディープラーニングアプリケーション以外でも微分可能プログラミングの可能性を例示し、柔軟な応用統計モデリングの選択肢を提供する。

Differentiable programming has recently received much interest as a paradigm that facilitates taking gradients of computer programs. While the corresponding flexible gradient-based optimization approaches so far have been used predominantly for deep learning or enriching the latter with modeling components, we want to demonstrate that they can also be useful for statistical modeling per se, e.g., for quick prototyping when classical maximum likelihood approaches are challenging or not feasible. In an application from a COVID-19 setting, we utilize differentiable programming to quickly build and optimize a flexible prediction model adapted to the data quality challenges at hand. Specifically, we develop a regression model, inspired by delay differential equations, that can bridge temporal gaps of observations in the central German registry of COVID-19 intensive care cases for predicting future demand. With this exemplary modeling challenge, we illustrate how differentiable programming can enable simple gradient-based optimization of the model by automatic differentiation. This allowed us to quickly prototype a model under time pressure that outperforms simpler benchmark models. We thus exemplify the potential of differentiable programming also outside deep learning applications, to provide more options for flexible applied statistical modeling.
翻訳日:2021-05-16 20:41:36 公開日:2020-12-07
# 放射移動符号サンプリングにおける補間の正確な代替としてのエミュレーション

Emulation as an Accurate Alternative to Interpolation in Sampling Radiative Transfer Codes ( http://arxiv.org/abs/2012.10392v1 )

ライセンス: Link先を確認
Jorge Vicent, Jochem Verrelst, Juan Pablo Rivera-Caicedo, Neus Sabater, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls, Jos\'e Moreno(参考訳) 計算に高価な放射移動モデル(RTM)は、地球表面と大気との光相互作用を現実的に再現するために広く用いられている。 これらのモデルは長い処理時間を要するため、まずスパースルックアップテーブル(LUT)を生成し、多次元LUT入力変数空間をサンプリングするために補間法を利用するのが一般的である。 しかし、一般的な補間法が最も正確かどうかが問題となる。 補間に代わるものとして、この研究はエミュレーション、すなわち統計的学習を用いてRTM出力を近似することを提案する。 補間とエミュレーションを用いたスペクトル出力の精度を評価するために,(1)プロセイルを用いたキャノピーレベル,(2)modtranを用いた大気圏上層での2つの実験を行った。 様々な補間法(neighbour,inverse distance weighting, piece-wice linear)とエミュレーション法(gaussian process regression (gpr), kernel ridge regression, neural networks)を,密集した基準lutに対して評価した。 あらゆる実験において、エミュレーション法は古典補間法よりも正確な出力スペクトルを明らかに生成した。 gprエミュレーションは、最良の補間法よりも最大10倍精度で実行され、これはより高速な補間法と競合する速度である。 その結果、エミュレーションはrtmスペクトルデータの再構成によく用いられる補間法に代わる、高速で正確な代替として機能することがわかった。

Computationally expensive Radiative Transfer Models (RTMs) are widely used} to realistically reproduce the light interaction with the Earth surface and atmosphere. Because these models take long processing time, the common practice is to first generate a sparse look-up table (LUT) and then make use of interpolation methods to sample the multi-dimensional LUT input variable space. However, the question arise whether common interpolation methods perform most accurate. As an alternative to interpolation, this work proposes to use emulation, i.e., approximating the RTM output by means of statistical learning. Two experiments were conducted to assess the accuracy in delivering spectral outputs using interpolation and emulation: (1) at canopy level, using PROSAIL; and (2) at top-of-atmosphere level, using MODTRAN. Various interpolation (nearest-neighbour, inverse distance weighting, piece-wice linear) and emulation (Gaussian process regression (GPR), kernel ridge regression, neural networks) methods were evaluated against a dense reference LUT. In all experiments, the emulation methods clearly produced more accurate output spectra than classical interpolation methods. GPR emulation performed up to ten times more accurately than the best performing interpolation method, and this with a speed that is competitive with the faster interpolation methods. It is concluded that emulation can function as a fast and more accurate alternative to commonly used interpolation methods for reconstructing RTM spectral data.
翻訳日:2021-05-16 20:40:50 公開日:2020-12-07
# ユニバーサル計測としての観測

Observement as Universal Measurement ( http://arxiv.org/abs/2012.12095v1 )

ライセンス: Link先を確認
David G. Green, Kerri Morgan and Marc Cheong(参考訳) 測定理論は科学の基盤であるが、現在生成されている大量の非数値データを支える等価な理論は存在しない。 本研究では,文字列やグラフなどの代用数学的モデルに代えて,厳密で形式的なシステム(オブザーブメント)を提供することにより,非数値データの記録と解釈を行う。 さらに,これらの表現は既に広く使われており,文字列やグラフ(ネットワーク)に基づく表現において暗黙的な解釈方法論の一般クラスを同定している。 これは、測定の一般化された概念は、異なる研究分野間の深いつながりと同様に、新しい洞察を明らかにする可能性を秘めていることを意味する。

Measurement theory is the cornerstone of science, but no equivalent theory underpins the huge volumes of non-numerical data now being generated. In this study, we show that replacing numbers with alternative mathematical models, such as strings and graphs, generalises traditional measurement to provide rigorous, formal systems (`observement') for recording and interpreting non-numerical data. Moreover, we show that these representations are already widely used and identify general classes of interpretive methodologies implicit in representations based on character strings and graphs (networks). This implies that a generalised concept of measurement has the potential to reveal new insights as well as deep connections between different fields of research.
翻訳日:2021-05-16 20:40:26 公開日:2020-12-07
# 物理パラメータ検索のための深いガウス過程

Deep Gaussian Processes for geophysical parameter retrieval ( http://arxiv.org/abs/2012.12099v1 )

ライセンス: Link先を確認
Daniel Heestermans Svendsen, Pablo Morales-\'Alvarez, Rafael Molina, Gustau Camps-Valls(参考訳) 本稿では物理パラメータ探索のための深部ガウス過程(DGP)を紹介する。 標準のフルGPモデルとは異なり、DGPは複雑な(モジュラーで階層的な)プロセスを説明し、大きなデータセットによく対応し、標準のフルGPモデルとスパースGPモデルの予測精度を向上させる効率的なソリューションを提供する。 我々は,赤外音源データから表面露点温度を推定する実験的な性能を示す。

This paper introduces deep Gaussian processes (DGPs) for geophysical parameter retrieval. Unlike the standard full GP model, the DGP accounts for complicated (modular, hierarchical) processes, provides an efficient solution that scales well to large datasets, and improves prediction accuracy over standard full and sparse GP models. We give empirical evidence of performance for estimation of surface dew point temperature from infrared sounding data.
翻訳日:2021-05-16 20:40:13 公開日:2020-12-07
# カーネル感度マップを用いた地球科学における因果推論

Causal Inference in Geosciences with Kernel Sensitivity Maps ( http://arxiv.org/abs/2012.14303v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay and Gustau Camps-Valls(参考訳) 観測データからランダム変数間の因果関係を確立することは、おそらく今日の科学において最も重要な課題である。 リモートセンシングと地球科学において、これは地球のシステムとプロセス間の複雑で解明的な相互作用をよりよく理解するための特別な関連性である。 本稿では,回帰と依存推定を通じて変数のペアから因果関係を導出する枠組みを検討する。 近似残差の前方および逆密度の非対称性を考慮した依存推定器の感度(曲率)に着目することを提案する。 28の地学因果推論問題の大規模なコレクションにおいて,この手法の有効性が示された。

Establishing causal relations between random variables from observational data is perhaps the most important challenge in today's Science. In remote sensing and geosciences this is of special relevance to better understand the Earth's system and the complex and elusive interactions between processes. In this paper we explore a framework to derive cause-effect relations from pairs of variables via regression and dependence estimation. We propose to focus on the sensitivity (curvature) of the dependence estimator to account for the asymmetry of the forward and inverse densities of approximation residuals. Results in a large collection of 28 geoscience causal inference problems demonstrate the good capabilities of the method.
翻訳日:2021-05-16 20:40:06 公開日:2020-12-07