このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201215となっている論文です。

PDF登録状況(公開日: 20201215)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 線形二次深部構造チームにおける強化学習:政策勾配法のグローバルコンバージェンス [全文訳有]

Reinforcement Learning in Linear Quadratic Deep Structured Teams: Global Convergence of Policy Gradient Methods ( http://arxiv.org/abs/2011.14393v2 )

ライセンス: CC BY 4.0
Vida Fathi, Jalal Arabneydi and Amir G. Aghdam(参考訳) 本稿では,線形2次深層構造チームに対するモデルベースおよびモデルフリー政策勾配勾配と自然政策勾配勾配アルゴリズムのグローバル収束性について検討する。 このようなシステムでは、エージェントはいくつかのサブポピュレーションに分割され、各サブポピュレーション内のエージェントは、すべてのエージェントの状態とアクションの線形回帰によって、動的およびコスト関数に結合される。 すべてのエージェントはその局所状態とディープ状態と呼ばれる状態の線形回帰を観察する。 十分小さいリスクファクターおよび/または十分な人口に対して、モデルに基づく政策勾配法がグローバルに最適解に収束することを証明する。 任意の数のエージェントが与えられた場合、リスクニュートラルコスト関数の特別な場合に、モデルフリーポリシー勾配と自然ポリシー勾配アルゴリズムを開発する。 提案アルゴリズムは,各サブ人口におけるエージェント数に依存しないため,エージェント数に対してスケーラブルである。 理論結果を検証するためのシミュレーションが提供される。

In this paper, we study the global convergence of model-based and model-free policy gradient descent and natural policy gradient descent algorithms for linear quadratic deep structured teams. In such systems, agents are partitioned into a few sub-populations wherein the agents in each sub-population are coupled in the dynamics and cost function through a set of linear regressions of the states and actions of all agents. Every agent observes its local state and the linear regressions of states, called deep states. For a sufficiently small risk factor and/or sufficiently large population, we prove that model-based policy gradient methods globally converge to the optimal solution. Given an arbitrary number of agents, we develop model-free policy gradient and natural policy gradient algorithms for the special case of risk-neutral cost function. The proposed algorithms are scalable with respect to the number of agents due to the fact that the dimension of their policy space is independent of the number of agents in each sub-population. Simulations are provided to verify the theoretical results.
翻訳日:2021-06-07 10:25:12 公開日:2020-12-15
# (参考訳) StructFormer: マスケッド言語モデリングによる依存性と構成構造の非教師付き誘導 [全文訳有]

StructFormer: Joint Unsupervised Induction of Dependency and Constituency Structure from Masked Language Modeling ( http://arxiv.org/abs/2012.00857v2 )

ライセンス: CC BY 4.0
Yikang Shen, Yi Tay, Che Zheng, Dara Bahri, Donald Metzler, Aaron Courville(参考訳) 自然言語文法には2つの主要なクラスがあり、単語間の1対1の対応をモデル化する依存文法と、1つまたは複数の対応語の集合をモデル化する構成文法である。 従来の教師なし構文解析法は1つの文法クラスのみに焦点をあてるが、我々は依存性と構成構造を同時に誘導する新しいモデルであるstructformerを導入する。 これを実現するために,構成木と依存性グラフを共同で生成可能な新しい構文解析フレームワークを提案する。 次に,新たな依存制約型自己着脱機構により,誘導された依存関係をトランスフォーマタに微分可能な方法で統合する。 実験結果から, 教師なし選挙区解析, 教師なし依存関係解析, マスキング言語モデリングを同時に行うことができることがわかった。

There are two major classes of natural language grammars -- the dependency grammar that models one-to-one correspondences between words and the constituency grammar that models the assembly of one or several corresponded words. While previous unsupervised parsing methods mostly focus on only inducing one class of grammars, we introduce a novel model, StructFormer, that can induce dependency and constituency structure at the same time. To achieve this, we propose a new parsing framework that can jointly generate a constituency tree and dependency graph. Then we integrate the induced dependency relations into the transformer, in a differentiable manner, through a novel dependency-constrain ed self-attention mechanism. Experimental results show that our model can achieve strong results on unsupervised constituency parsing, unsupervised dependency parsing, and masked language modeling at the same time.
翻訳日:2021-05-30 23:23:52 公開日:2020-12-15
# 再帰木文法オートエンコーダ

Recursive Tree Grammar Autoencoders ( http://arxiv.org/abs/2012.02097v2 )

ライセンス: Link先を確認
Benjamin Paassen, Irena Koprinska, Kalina Yacef(参考訳) ツリーデータの機械学習は、主にインプットとして木に焦点が当てられている。 薬物発見のための分子最適化やインテリジェントチューターシステムのためのヒント生成など、出力として木を研究する研究ははるかに少ない。 本研究では,再帰的木文法オートエンコーダ(RTG-AE)と呼ばれる新しいオートエンコーダ手法を提案し,ボトムアップパーサを介して木を符号化し,ツリー文法を介して木をデコードする。 結果として得られるエンコーディングとデコード関数は、最適化や時系列予測のような後続のタスクに利用することができる。 RTG-AEは変分オートエンコーダ、文法知識、再帰処理を組み合わせる。 私たちの重要なメッセージは、この組み合わせは、これら3つのコンポーネントのうち2つだけを組み合わせるよりもパフォーマンスが向上するということです。 特に,提案手法は,文献のベースラインと比較して,4つのベンチマークデータセットのオートエンコーディング誤差,トレーニング時間,最適化スコアを改善することを実験的に示す。

Machine learning on tree data has been mostly focused on trees as input. Much less research has investigates trees as output, like in molecule optimization for drug discovery or hint generation for intelligent tutoring systems. In this work, we propose a novel autoencoder approach, called recursive tree grammar autoencoder (RTG-AE), which encodes trees via a bottom-up parser and decodes trees via a tree grammar, both controlled by neural networks that minimize the variational autoencoder loss. The resulting encoding and decoding functions can then be employed in subsequent tasks, such as optimization and time series prediction. RTG-AE combines variational autoencoders, grammatical knowledge, and recursive processing. Our key message is that this combination improves performance compared to only combining two of these three components. In particular, we show experimentally that our proposed method improves the autoencoding error, training time, and optimization score on four benchmark datasets compared to baselines from the literature.
翻訳日:2021-05-23 14:40:46 公開日:2020-12-15
# 論理合成と機械学習: 一般化のための取引慣性

Logic Synthesis Meets Machine Learning: Trading Exactness for Generalization ( http://arxiv.org/abs/2012.02530v2 )

ライセンス: Link先を確認
Shubham Rai, Walter Lau Neto, Yukio Miyasaka, Xinpei Zhang, Mingfei Yu, Qingyang Yi Masahiro Fujita, Guilherme B. Manske, Matheus F. Pontes, Leomar S. da Rosa Junior, Marilton S. de Aguiar, Paulo F. Butzen, Po-Chun Chien, Yu-Shan Huang, Hoa-Ren Wang, Jie-Hong R. Jiang, Jiaqi Gu, Zheng Zhao, Zixuan Jiang, David Z. Pan, Brunno A. de Abreu, Isac de Souza Campos, Augusto Berndt, Cristina Meinhardt, Jonata T. Carvalho, Mateus Grellert, Sergio Bampi, Aditya Lohana, Akash Kumar, Wei Zeng, Azadeh Davoodi, Rasit O. Topaloglu, Yuan Zhou, Jordan Dotzel, Yichi Zhang, Hanyu Wang, Zhiru Zhang, Valerio Tenace, Pierre-Emmanuel Gaillardon, Alan Mishchenko, and Satrajit Chatterjee(参考訳) 論理合成はハードウェア設計における基本的なステップであり、その目標は遅延と面積を最小化しながらブール関数の構造表現を見つけることである。 関数が完全に指定されている場合、実装は関数を正確に表現する。 関数が不完全特定されている場合、実装はケアセットにのみ真である必要がある。 論理合成のアルゴリズムのほとんどは、ケアセットを正確に実装するためにsatとbooleanメソッドに依存しているが、我々は論理合成における学習を調査し、汎化のために厳密さを交換しようとしている。 この作業は、ケアセットがトレーニングセットであり、実装が検証セットに一般化することが期待される機械学習に直接関係している。 我々は,IWLS 2020で実施した競技結果に基づいて,不完全特定関数を学習する。 競争の目標は、同じ関数からサンプリングされた検証小数点セットを使用して、トレーニングのためのケア小数点セットによって与えられる100の関数を実装することである。 このベンチマークスイートを利用可能にし、学習アプローチの詳細な比較分析を提供する

Logic synthesis is a fundamental step in hardware design whose goal is to find structural representations of Boolean functions while minimizing delay and area. If the function is completely-specified , the implementation accurately represents the function. If the function is incompletely-specifi ed, the implementation has to be true only on the care set. While most of the algorithms in logic synthesis rely on SAT and Boolean methods to exactly implement the care set, we investigate learning in logic synthesis, attempting to trade exactness for generalization. This work is directly related to machine learning where the care set is the training set and the implementation is expected to generalize on a validation set. We present learning incompletely-specifi ed functions based on the results of a competition conducted at IWLS 2020. The goal of the competition was to implement 100 functions given by a set of care minterms for training, while testing the implementation using a set of validation minterms sampled from the same function. We make this benchmark suite available and offer a detailed comparative analysis of the different approaches to learning
翻訳日:2021-05-22 20:37:18 公開日:2020-12-15
# (参考訳) CSMTチャレンジにおけるコンピュータ生成メロディ識別のための新しいデータセット [全文訳有]

A novel dataset for the identification of computer generated melodies in the CSMT challenge ( http://arxiv.org/abs/2012.03646v2 )

ライセンス: CC BY 4.0
Shengchen Li and Yinji Jing and Georgy Fazekas(参考訳) 本稿では,CSMT(Conference on Sound and Music Technology)が主催するデータチャレンジのためのデータセットを紹介する。 csmtデータチャレンジでは、参加者は与えられたメロディがコンピュータによって生成されたか、あるいは人間が構成しているかを特定する必要がある。 データセットは、開発データセットと評価データセットの2つの部分で構成されている。 開発データセットは、コンピュータ生成メロディのみを含むが、評価データセットは、コンピュータ生成メロディと人間の合成メロディの両方を含む。 このデータセットの目的は、生成されたメロディの特徴を学習することで、コンピュータが生成したメロディを区別できるかどうかを調べることである。

In this paper, the dataset used for the data challenge organised by Conference on Sound and Music Technology (CSMT) is introduced. The CSMT data challenge requires participants to identify whether a given piece of melody is generated by computer or is composed by human. The dataset is formed by two parts: development dataset and evaluation dataset. The development dataset contains only computer generated melodies whereas the evaluation dataset contain both computer generated melodies and human composed melodies. The aim of the dataset is to examine whether it is possible to distinguish computer generated melodies by learning the feature of generated melodies.
翻訳日:2021-05-20 09:25:36 公開日:2020-12-15
# ラベルを付加したコンセプトドリフトと共変量シフト検出

Concept Drift and Covariate Shift Detection Ensemble with Lagged Labels ( http://arxiv.org/abs/2012.04759v3 )

ライセンス: Link先を確認
Yiming Xu, Diego Klabjan(参考訳) モデルサービスでは、生涯にわたる推論プロセス全体を通して1つの固定されたモデルを持つことは、データ分散が時間とともに進化するにつれて、モデルのパフォーマンスを損なうことになり、履歴データでトレーニングされたモデルの信頼性が失われる。 変更を検出し、モデルを再トレーニングすることが重要です。 既存の手法では,(1)分類誤り率のみを信号として使用すること,(2)サンプルから特徴が受信された後に真実ラベルがすぐに利用可能であると仮定すること,(3)変更時にモデルの再トレーニングに使用するデータを決定することができないこと,の3つの弱点がある。 まず,6つの異なる信号を用いてデータの特徴を広範囲に把握し,ラベルのラグを許容し,ラグ後に対応する特徴のラベルを受信することで,第2の問題を解決する。 第3の問題として,提案手法では,信号に基づいて再トレーニングするデータを自動的に決定する。 異なる種類のデータ変更に対する構造化データと非構造化データに関する広範囲な実験は、この手法が最先端のメソッドを一貫して高いマージンで上回っていることを証明している。

In model serving, having one fixed model during the entire often life-long inference process is usually detrimental to model performance, as data distribution evolves over time, resulting in lack of reliability of the model trained on historical data. It is important to detect changes and retrain the model in time. The existing methods generally have three weaknesses: 1) using only classification error rate as signal, 2) assuming ground truth labels are immediately available after features from samples are received and 3) unable to decide what data to use to retrain the model when change occurs. We address the first problem by utilizing six different signals to capture a wide range of characteristics of data, and we address the second problem by allowing lag of labels, where labels of corresponding features are received after a lag in time. For the third problem, our proposed method automatically decides what data to use to retrain based on the signals. Extensive experiments on structured and unstructured data for different type of data changes establish that our method consistently outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-05-16 21:26:49 公開日:2020-12-15
# 任意指向物体検出のための動的アンカー学習

Dynamic Anchor Learning for Arbitrary-Oriented Object Detection ( http://arxiv.org/abs/2012.04150v2 )

ライセンス: Link先を確認
Qi Ming, Zhiqiang Zhou, Lingjuan Miao, Hongwei Zhang, Linhao Li(参考訳) 任意指向物体は自然の風景や航空写真、リモートセンシング画像などに広く現れるため、任意指向物体検出は注目されている。 現在のローテーション検出器の多くは、異なる向きのアンカーを多数使用して、地上の真理箱と空間的アライメントを達成し、次に、IoU(Intersection-ove r-Union)を適用して、トレーニングの正と負の候補をサンプリングする。 しかし, 選択された正のアンカーは回帰後の正確な検出を常に保証できないが, 負のサンプルによっては正確な位置決めが可能である。 また,IoUによるアンカーの品質評価は適切ではなく,分類信頼度と局所化精度の整合性がもたらされることが示唆された。 本稿では,新たに定義されたマッチング度を用いて,アンカーの局在ポテンシャルを包括的に評価し,より効率的なラベル割当処理を行う動的アンカー学習(dal)手法を提案する。 このようにして、検出器は動的に高品質なアンカーを選択して正確な物体検出を実現し、分類と回帰のばらつきを緩和する。 新たに導入されたDALでは,数個の水平プリセットアンカーを持つ任意の対象に対して,優れた検出性能が得られる。 3つのリモートセンシングデータセット hrsc2016, dota, ucas-aod およびシーンテキストデータセット icdar 2015 の実験結果から,本手法はベースラインモデルと比較して相当な改善を達成した。 また,水平境界ボックスを用いた物体検出にも汎用性がある。 コードとモデルはhttps://github.com/m ing71/dalで入手できる。

Arbitrary-oriented objects widely appear in natural scenes, aerial photographs, remote sensing images, etc., thus arbitrary-oriented object detection has received considerable attention. Many current rotation detectors use plenty of anchors with different orientations to achieve spatial alignment with ground truth boxes, then Intersection-over-Un ion (IoU) is applied to sample the positive and negative candidates for training. However, we observe that the selected positive anchors cannot always ensure accurate detections after regression, while some negative samples can achieve accurate localization. It indicates that the quality assessment of anchors through IoU is not appropriate, and this further lead to inconsistency between classification confidence and localization accuracy. In this paper, we propose a dynamic anchor learning (DAL) method, which utilizes the newly defined matching degree to comprehensively evaluate the localization potential of the anchors and carry out a more efficient label assignment process. In this way, the detector can dynamically select high-quality anchors to achieve accurate object detection, and the divergence between classification and regression will be alleviated. With the newly introduced DAL, we achieve superior detection performance for arbitrary-oriented objects with only a few horizontal preset anchors. Experimental results on three remote sensing datasets HRSC2016, DOTA, UCAS-AOD as well as a scene text dataset ICDAR 2015 show that our method achieves substantial improvement compared with the baseline model. Besides, our approach is also universal for object detection using horizontal bound box. The code and models are available at https://github.com/m ing71/DAL.
翻訳日:2021-05-16 21:18:55 公開日:2020-12-15
# 正方形損失を持つReLUネットワークにおける入射正則化

Implicit Regularization in ReLU Networks with the Square Loss ( http://arxiv.org/abs/2012.05156v2 )

ライセンス: Link先を確認
Gal Vardi and Ohad Shamir(参考訳) 勾配降下の暗黙の正規化(または暗黙のバイアス)を理解することは、最近非常に活発な研究領域である。 しかし、非線形ニューラルネットワークにおける暗黙の正則化は、特に正方形損失のような回帰損失についてはまだ理解されていない。 意外なことに、単一のReLUニューロンであっても、モデルパラメータの明示的な関数によって平方損失による暗黙の正規化を特徴付けることは不可能である(正の側では、概ね特徴付けられる)。 1つの隠れ層ネットワークに対して、Du et al で特定される「均衡性」の性質を除いて、一般にこの方法で暗黙の正規化特性を特徴づけることは不可能である。 [2018]. この結果から, 非線形予測器の暗黙的正規化を理解するためには, これまでに検討したフレームワークよりも一般的なフレームワークが必要であることが示唆された。

Understanding the implicit regularization (or implicit bias) of gradient descent has recently been a very active research area. However, the implicit regularization in nonlinear neural networks is still poorly understood, especially for regression losses such as the square loss. Perhaps surprisingly, we prove that even for a single ReLU neuron, it is impossible to characterize the implicit regularization with the square loss by any explicit function of the model parameters (although on the positive side, we show it can be characterized approximately). For one hidden-layer networks, we prove a similar result, where in general it is impossible to characterize implicit regularization properties in this manner, except for the "balancedness" property identified in Du et al. [2018]. Our results suggest that a more general framework than the one considered so far may be needed to understand implicit regularization for nonlinear predictors, and provides some clues on what this framework should be.
翻訳日:2021-05-16 02:12:56 公開日:2020-12-15
# 因果関係の非現実的定義

The Counterfactual NESS Definition of Causation ( http://arxiv.org/abs/2012.05123v2 )

ライセンス: Link先を確認
Sander Beckers(参考訳) joost vennekens氏との以前の仕事において、ある種の正当な原則に基づいた実際の因果関係の定義を提案し、因果関係に関する議論が、例からより体系的な分析へとシフトすることを可能にした。 本稿では2つの方法でその分析に寄与する。 まず、我々の定義は実際、ライトの有名な因果関係の定義と反実差分法条件の形式化であることを示す。 これは、我々の定義が互いに対立していると主張する因果関係に対する2つの非常に影響力のあるアプローチを統合することを意味する。 第二に、私は、この定義を大幅に改善するために修正し、先制のケースの問題を回避できるように、差分条件を弱めます。 因果関係の相反性定義は相反性アプローチと相反性アプローチの間の自然な妥協を形成する。

In previous work with Joost Vennekens I proposed a definition of actual causation that is based on certain plausible principles, thereby allowing the debate on causation to shift away from its heavy focus on examples towards a more systematic analysis. This paper contributes to that analysis in two ways. First, I show that our definition is in fact a formalization of Wright's famous NESS definition of causation combined with a counterfactual difference-making condition. This means that our definition integrates two highly influential approaches to causation that are claimed to stand in opposition to each other. Second, I modify our definition to offer a substantial improvement: I weaken the difference-making condition in such a way that it avoids the problematic analysis of cases of preemption. The resulting Counterfactual NESS definition of causation forms a natural compromise between counterfactual approaches and the NESS approach.
翻訳日:2021-05-16 02:05:00 公開日:2020-12-15
# (参考訳) LGE-MRIの深層学習に基づくセグメンテーションにおける正規化ハイパーパラメータの効果 [全文訳有]

Effect of the regularization hyperparameter on deep learning-based segmentation in LGE-MRI ( http://arxiv.org/abs/2012.05661v3 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 本研究では,L2正規化ハイパーパラメータの任意の選択が,LGE-MRIにおける深層学習に基づくセグメンテーションの結果にどの程度影響するかを示すことを目的とする。 ここでは、任意のL2正規化値を使用して、異なるディープラーニングベースのセグメンテーションネットワークを作成する。 また、著者らは、他のディープラーニングハイパーパラメータのマニュアル調整やチューニングを採用し、90%の精度を達成する前に、すべてのエポックの10%に達する場合にのみ行うようにしている。 実験的比較の結果,l2正規化値が小さいほど心筋境界の分画性が向上する可能性が示唆された。

In this work, the author aims at demonstrating the extent to which the arbitrary selection of the L2 regularization hyperparameter can affect the outcome of deep learning-based segmentation in LGE-MRI. Here, arbitrary L2 regularization values are used to create different deep learning-based segmentation networks. Also, the author adopts the manual adjustment or tunning, of other deep learning hyperparameters, to be done only when 10% of all epochs are reached before achieving the 90% validation accuracy. The experimental comparisons demonstrate that small L2 regularization values can lead to better segmentation of the myocardial boundaries.
翻訳日:2021-05-15 16:00:21 公開日:2020-12-15
# SSD-GAN:空間領域とスペクトル領域における実測

SSD-GAN: Measuring the Realness in the Spatial and Spectral Domains ( http://arxiv.org/abs/2012.05535v3 )

ライセンス: Link先を確認
Yuanqi Chen, Ge Li, Cece Jin, Shan Liu, Thomas Li(参考訳) 本稿では,標準GANの識別器に高周波数が欠落していることが観察され,ネットワークアーキテクチャにおけるダウンサンプリング層に起因することが判明した。 この問題により、ジェネレータは、データの高周波コンテンツを学ぶための判別器からのインセンティブを欠き、生成された画像と実際の画像の間にかなりのスペクトルの差が生じる。 フーリエ変換は単射写像であるため、このスペクトルの差分を減らせば GAN の性能が向上すると主張する。 この目的のために、識別器のスペクトル情報損失を軽減するため、GANの強化であるSSD-GANを導入する。 具体的には、周波数認識型分類器を識別器に組み込んで、空間領域とスペクトル領域の両方における入力の現実性を測定する。 これにより、SSD-GANの生成元は、実データの高周波コンテンツを学習し、正確な詳細を生成することができる。 提案手法は汎用的であり,過剰なコストを伴わずに既存のほとんどのGANフレームワークに容易に統合できる。 SSD-GANの有効性は、様々なネットワークアーキテクチャ、目的関数、データセットで検証される。 コードはhttps://github.com/c yq373/SSD-GANで入手できる。

This paper observes that there is an issue of high frequencies missing in the discriminator of standard GAN, and we reveal it stems from downsampling layers employed in the network architecture. This issue makes the generator lack the incentive from the discriminator to learn high-frequency content of data, resulting in a significant spectrum discrepancy between generated images and real images. Since the Fourier transform is a bijective mapping, we argue that reducing this spectrum discrepancy would boost the performance of GANs. To this end, we introduce SSD-GAN, an enhancement of GANs to alleviate the spectral information loss in the discriminator. Specifically, we propose to embed a frequency-aware classifier into the discriminator to measure the realness of the input in both the spatial and spectral domains. With the enhanced discriminator, the generator of SSD-GAN is encouraged to learn high-frequency content of real data and generate exact details. The proposed method is general and can be easily integrated into most existing GANs framework without excessive cost. The effectiveness of SSD-GAN is validated on various network architectures, objective functions, and datasets. Code will be available at https://github.com/c yq373/SSD-GAN.
翻訳日:2021-05-15 06:24:06 公開日:2020-12-15
# 教師付きセグメンテーションモデルを用いた過分散ChIP-seqデータのピーク検出精度の向上

Increased peak detection accuracy in over-dispersed ChIP-seq data with supervised segmentation models ( http://arxiv.org/abs/2012.06848v2 )

ライセンス: Link先を確認
Arnaud Liehrmann, Guillem Rigaill and Toby Dylan Hocking(参考訳) モチベーション:ヒストン修飾は遺伝子発現の遺伝的調節の基本的なメカニズムである。 2000年代初期には、高スループットシークエンシング(ChIP-seq)とクロマチンの免疫沈降が結合する強力な技術が出現した。 この技術はこれらの修飾に関連するDNA領域を直接調査する。 この手法の可能性を最大限に発揮するために、大量のデータを分析するために、より高度な統計アルゴリズムが開発され、応用されている。 これらのアルゴリズムの多くは、カウントデータのノイズをモデル化するpoissonのような自然仮定に基づいて構築された。 この作業では、これらの自然な仮定から始め、それらを改善することが可能であることを示します。 結果: ヒストン修飾の基準データセット(H3K36me3およびH3K4me3)との比較結果から, 自然仮定は適用条件下では必ずしも現実的とは限らないことが示唆された。 本研究では,制約のない複数の変化点検出モデル,代替ノイズ仮定と適切な設定により,カウントデータによる過分散を低減し,これらの自然な仮定に依存するアルゴリズムよりも高精度にピークを検出することを示す。

Motivation: Histone modification constitutes a basic mechanism for the genetic regulation of gene expression. In early 2000s, a powerful technique has emerged that couples chromatin immunoprecipitation with high-throughput sequencing (ChIP-seq). This technique provides a direct survey of the DNA regions associated to these modifications. In order to realize the full potential of this technique, increasingly sophisticated statistical algorithms have been developed or adapted to analyze the massive amount of data it generates. Many of these algorithms were built around natural assumptions such as the Poisson one to model the noise in the count data. In this work we start from these natural assumptions and show that it is possible to improve upon them. Results: The results of our comparisons on seven reference datasets of histone modifications (H3K36me3 and H3K4me3) suggest that natural assumptions are not always realistic under application conditions. We show that the unconstrained multiple changepoint detection model, with alternative noise assumptions and a suitable setup, reduces the over-dispersion exhibited by count data and turns out to detect peaks more accurately than algorithms which rely on these natural assumptions.
翻訳日:2021-05-10 05:13:37 公開日:2020-12-15
# (参考訳) 深層集合表現の学習による効率的な人文推定 [全文訳有]

Efficient Human Pose Estimation by Learning Deeply Aggregated Representations ( http://arxiv.org/abs/2012.07033v2 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Zhicheng Wang, Yuanhao Cai, Guanan Wang, Yan Huang, Liang Wang, Erjin Zhou, Tieniu Tan, Jian Sun(参考訳) 本稿では,より深く集約された表現を学習し,効率の良い人間ポーズ推定ネットワーク(DANet)を提案する。 既存のモデルの多くは、主に空間サイズが異なる特徴からマルチスケール情報を探究している。 強力なマルチスケール表現は通常カスケードピラミッドフレームワークに依存する。 このフレームワークはパフォーマンスを大幅に向上させるが、一方でネットワークを深く複雑にしている。 代わりに、異なる受容界サイズを持つ層からのマルチスケール情報を活用することに集中し、融合法を改善することで、この情報をフル活用する。 具体的には,直交注意ブロック (OAB) と2階融合ユニット (SFU) を提案する。 OABは異なるレイヤからマルチスケール情報を学び、多様性を奨励することでそれらを強化する。 SFUは、多様なマルチスケール情報を適応的に選択してヒューズし、冗長な情報を抑圧する。 これにより、最終的な融合表現における有効な情報を最大化することができる。 OABとSFUの助けを借りて、我々の単一のピラミッドネットワークは、よりリッチなマルチスケール情報を含み、カスケードネットワークよりも大きな表現能力を持つ、深く集約された表現を生成することができるかもしれない。 したがって、我々のネットワークは、モデルの複雑さをはるかに小さくして、同等、あるいはさらに優れた精度を達成できます。 具体的には、私たちの \mbox{DANet-72} は、わずか1.0G$ FLOPsの COCO test-dev セットで 70.5$ のAPスコアを得る。 CPUプラットフォーム上での速度は、PPS(Persons-Per-Seco nd~)$58である。

In this paper, we propose an efficient human pose estimation network (DANet) by learning deeply aggregated representations. Most existing models explore multi-scale information mainly from features with different spatial sizes. Powerful multi-scale representations usually rely on the cascaded pyramid framework. This framework largely boosts the performance but in the meanwhile makes networks very deep and complex. Instead, we focus on exploiting multi-scale information from layers with different receptive-field sizes and then making full of use this information by improving the fusion method. Specifically, we propose an orthogonal attention block (OAB) and a second-order fusion unit (SFU). The OAB learns multi-scale information from different layers and enhances them by encouraging them to be diverse. The SFU adaptively selects and fuses diverse multi-scale information and suppress the redundant ones. This could maximize the effective information in final fused representations. With the help of OAB and SFU, our single pyramid network may be able to generate deeply aggregated representations that contain even richer multi-scale information and have a larger representing capacity than that of cascaded networks. Thus, our networks could achieve comparable or even better accuracy with much smaller model complexity. Specifically, our \mbox{DANet-72} achieves $70.5$ in AP score on COCO test-dev set with only $1.0G$ FLOPs. Its speed on a CPU platform achieves $58$ Persons-Per-Second~( PPS).
翻訳日:2021-05-09 17:35:13 公開日:2020-12-15
# 抽象ルール学習のためのメモリ型ニューラルネットワークモデル

A Memory-Augmented Neural Network Model of Abstract Rule Learning ( http://arxiv.org/abs/2012.07172v2 )

ライセンス: Link先を確認
Ishan Sinha, Taylor W. Webb, Jonathan D. Cohen(参考訳) 人間の知性は、経験から抽象的なルールを推論し、これらのルールを新しいドメインに適用する素晴らしい能力によって特徴づけられる。 このように、この能力でニューラルネットワークアルゴリズムを設計することは、より人間的な知能を持つディープラーニングシステムの開発に向けた重要なステップである。 しかし、それは大きな課題であり、ニューラルネットワークが明示的なシンボル処理メカニズムを使用する必要があると主張する人もいる。 本研究では,任意のロールフィラー結合に対するニューラルネットワークの能力,抽象的"ロール"とコンテキスト固有の"フィラー"を関連付ける能力に注目する。 人間の知性の目覚しいテストであるRaven's Progressive Matricesの簡易版を用いて、このような結合を必要とする視覚的問題解決タスクのシーケンシャルな定式化を導入する。 さらに,外部メモリを結合機構として使用することを学習するリカレントニューラルネットワークモデルであるEmergent Symbol Binding Network (ESBN)を導入する。 このメカニズムは、明示的なシンボル処理機構を必要とせずに、ESBNのトレーニングプロセスを通じてシンボルのような変数表現を発生させることができる。 我々はESBNが我々のタスクの根底にある抽象ルール構造をうまく学習し、このルール構造を完全に新しいフィラーに一般化することを実証的に実証した。

Human intelligence is characterized by a remarkable ability to infer abstract rules from experience and apply these rules to novel domains. As such, designing neural network algorithms with this capacity is an important step toward the development of deep learning systems with more human-like intelligence. However, doing so is a major outstanding challenge, one that some argue will require neural networks to use explicit symbol-processing mechanisms. In this work, we focus on neural networks' capacity for arbitrary role-filler binding, the ability to associate abstract "roles" to context-specific "fillers," which many have argued is an important mechanism underlying the ability to learn and apply rules abstractly. Using a simplified version of Raven's Progressive Matrices, a hallmark test of human intelligence, we introduce a sequential formulation of a visual problem-solving task that requires this form of binding. Further, we introduce the Emergent Symbol Binding Network (ESBN), a recurrent neural network model that learns to use an external memory as a binding mechanism. This mechanism enables symbol-like variable representations to emerge through the ESBN's training process without the need for explicit symbol-processing machinery. We empirically demonstrate that the ESBN successfully learns the underlying abstract rule structure of our task and perfectly generalizes this rule structure to novel fillers.
翻訳日:2021-05-09 12:49:58 公開日:2020-12-15
# 複合型および匿名型フィードバックを持つマルチアーム帯域適応アルゴリズム

Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous Feedback ( http://arxiv.org/abs/2012.07048v2 )

ライセンス: Link先を確認
Siwei Wang, Haoyun Wang, Longbo Huang(参考訳) 複合・匿名フィードバックを用いたマルチアームバンディット(MAB)問題について検討した。 このモデルでは、アームを引っ張る報酬は一定期間にわたって広がり(この期間を報酬間隔と呼ぶ)、プレイヤーはアクションの部分的な報酬を受け取り、他のアームを引っ張ることによる報酬と相まって連続する。 このモデルの既存の結果は、アルゴリズムへの入力として報酬間隔サイズに関する事前知識を必要とする。 本稿では,報奨区間に関する事前情報を必要とせず,確率的ケースと逆ケースの両方に対する適応アルゴリズムを提案する。 確率の場合、このアルゴリズムは(順序の)下限に一致する後悔を保証することを証明します。 逆境の場合,非聖書的逆境と未知の報酬区間サイズを共同で処理する最初のアルゴリズムを提案する。 また,実世界のデータセットに基づいてシミュレーションを行う。 その結果,我々のアルゴリズムは既存のベンチマークより優れていることがわかった。

We study the multi-armed bandit (MAB) problem with composite and anonymous feedback. In this model, the reward of pulling an arm spreads over a period of time (we call this period as reward interval) and the player receives partial rewards of the action, convoluted with rewards from pulling other arms, successively. Existing results on this model require prior knowledge about the reward interval size as an input to their algorithms. In this paper, we propose adaptive algorithms for both the stochastic and the adversarial cases, without requiring any prior information about the reward interval. For the stochastic case, we prove that our algorithm guarantees a regret that matches the lower bounds (in order). For the adversarial case, we propose the first algorithm to jointly handle non-oblivious adversary and unknown reward interval size. We also conduct simulations based on real-world dataset. The results show that our algorithms outperform existing benchmarks.
翻訳日:2021-05-09 12:49:19 公開日:2020-12-15
# InferCode: サブツリー予測によるコード表現の自己教師付き学習

InferCode: Self-Supervised Learning of Code Representations by Predicting Subtrees ( http://arxiv.org/abs/2012.07023v2 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang(参考訳) ソースコード上にディープラーニングモデルを構築することで、コード検索、コードコメント生成、バグ検出、コードマイグレーションなど、多くのソフトウェアエンジニアリングアプリケーションが成功しています。 しかし、現在の学習技術は、これらのモデルが主に特定の下流タスクにラベル付けされたデータセットで訓練されており、コード表現は他のタスクには適さないという大きな欠点がある。 いくつかのテクニックはラベルのないコードから表現を生成するが、下流のタスクに適用しても満足できない。 特定のテクニックは、下流のタスクに適用するとラベルのないコードから表現を生成するが、満足には程遠い。 本稿では,自己教師付き学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。 ASTのコンテキストから自動的に同定されたサブツリーを予測することで、コード表現のトレーニングに重要な新機能がある。 ASTのサブツリーは、人間のラベル付け作業や高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとしてInferCodeで扱われ、トレーニングされた表現は、特定の下流タスクやコードユニットに縛られなくなった。 我々は、木ベースのcnnを多数のjavaコードのエンコーダとして使用して、infercodeモデルインスタンスをトレーニングし、コードクラスタリング、コードクローン検出、クロス言語コード検索、転送学習スキームで再利用された下流の非教師付きタスクに適用し、コード分類やメソッド名予測のような教師付きタスクのモデルウェイトのトレーニングを継続する。 Code2Vec、Code2Seq、ASTNNのような、同じ下流タスクに適用された以前のコード学習技術と比較すると、トレーニング済みのInferCodeモデルを使用してより高いパフォーマンスを実現しています。

Building deep learning models on source code has found many successful software engineering applications, such as code search, code comment generation, bug detection, code migration, and so on. Current learning techniques, however, have a major drawback that these models are mostly trained on datasets labeled for particular downstream tasks, and code representations may not be suitable for other tasks. While some techniques produce representations from unlabeled code, they are far from satisfactory when applied to downstream tasks. Although certain techniques generate representations from unlabeled code when applied to downstream tasks they are far from satisfactory. This paper proposes InferCode to overcome the limitation by adapting the self-supervised learning mechanism to build source code model. The key novelty lies in training code representations by predicting automatically identified subtrees from the context of the ASTs. Subtrees in ASTs are treated with InferCode as the labels for training code representations without any human labeling effort or the overhead of expensive graph construction, and the trained representations are no longer tied to any specific downstream tasks or code units. We trained an InferCode model instance using the Tree-based CNN as the encoder of a large set of Java code and applied it to downstream unsupervised tasks such as code clustering, code clone detection, cross-language code search or reused under a transfer learning scheme to continue training the model weights for supervised tasks such as code classification and method name prediction. Compared to previous code learning techniques applied to the same downstream tasks, such as Code2Vec, Code2Seq, ASTNN, higher performance results are achieved using our pre-trained InferCode model with a significant margin for most tasks including those involving different programming languages.
翻訳日:2021-05-09 12:48:33 公開日:2020-12-15
# 高精度一段物体検出のための分離自己注意

Decoupled Self Attention for Accurate One Stage Object Detection ( http://arxiv.org/abs/2012.07630v2 )

ライセンス: Link先を確認
Kehe WU, Zuge Chen, Qi MA, Xiaoliang Zhang, Wei Li(参考訳) 物体検出データセットのスケールが画像認識データセットよりも小さいため、画像Netデータセット上で物体検出モデルのバックボーンネットワークを事前訓練し、分類および局所化サブタスクの特徴を抽出する、深層学習オブジェクト検出モデルの基本的な訓練方法となっている。 しかし,分類タスクは対象の健全領域の特徴に焦点をあて,位置タスクは対象のエッジ特徴に焦点を合わせ,事前学習したバックボーンネットワークによって抽出された特徴と局所化タスクに使用する特徴との間には一定のずれがある。 この問題を解決するために, 1段階の物体検出モデルに対して, 分離自己注意モジュール(DSA)を提案する。 dsaには分離された2つのセルフアテンションブランチが含まれているため、異なるタスクに適した機能を抽出することができる。 FPNとサブタスクのヘッドネットワークの間に位置するため、FPNの融合機能に基づいたグローバルな特徴を個別に抽出するために使用される。 DSAモジュールのネットワークは単純だが、オブジェクト検出の性能を効果的に向上させることができるが、多くの検出モデルに組み込むこともできる。 本実験は, 代表的な1段階検出モデルであるRetinaNetに基づく。 COCOデータセットでは、バックボーンネットワークとしてResNet50とResNet101を使用すると、検出性能がそれぞれ0.4%、APが0.5%向上する。 DSAモジュールとオブジェクト信頼タスクを共にRetinaNetに適用すると、ResNet50とResNet101に基づく検出性能をそれぞれ1.0%APと1.4%APで向上させることができる。 実験結果はDSAモジュールの有効性を示した。 https://github.com/c henzuge1/dsanet.git。

As the scale of object detection dataset is smaller than that of image recognition dataset ImageNet, transfer learning has become a basic training method for deep learning object detection models, which will pretrain the backbone network of object detection model on ImageNet dataset to extract features for classification and localization subtasks. However, the classification task focuses on the salient region features of object, while the location task focuses on the edge features of object, so there is certain deviation between the features extracted by pretrained backbone network and the features used for localization task. In order to solve this problem, a decoupled self attention(DSA) module is proposed for one stage object detection models in this paper. DSA includes two decoupled self-attention branches, so it can extract appropriate features for different tasks. It is located between FPN and head networks of subtasks, so it is used to extract global features based on FPN fused features for different tasks independently. Although the network of DSA module is simple, but it can effectively improve the performance of object detection, also it can be easily embedded in many detection models. Our experiments are based on the representative one-stage detection model RetinaNet. In COCO dataset, when ResNet50 and ResNet101 are used as backbone networks, the detection performances can be increased by 0.4% AP and 0.5% AP respectively. When DSA module and object confidence task are applied in RetinaNet together, the detection performances based on ResNet50 and ResNet101 can be increased by 1.0% AP and 1.4% AP respectively. The experiment results show the effectiveness of DSA module. Code is at: https://github.com/c henzuge1/DSANet.git.
翻訳日:2021-05-08 14:29:05 公開日:2020-12-15
# Lyapunov最適化の強化学習定式化:キュー安定性を持つエッジコンピューティングシステムへの適用

A Reinforcement Learning Formulation of the Lyapunov Optimization: Application to Edge Computing Systems with Queue Stability ( http://arxiv.org/abs/2012.07279v2 )

ライセンス: Link先を確認
Sohee Bae, Seungyul Han, and Youngchul Sung(参考訳) 本稿では,lyapunov最適化に対する深層強化学習(drl)に基づく手法を,待ち行列安定性を維持しながら平均時間ペナルティを最小化する。 状態空間と作用空間の適切な構成は、リャプノフ最適化のための適切なマルコフ決定過程(MDP)を形成するために提供される。 待ち行列安定性のための強化学習(RL)の報奨関数の条件を導出する。 Lyapunov 最適化に対する DRL に基づくアプローチでは,報酬割引を伴う実効的な RL のクラスが提案されている。 Lyapunov最適化に対するDRLに基づくアプローチは、各ステップで複雑な最適化を必要とせず、一般的な非凸かつ不連続なペナルティ関数で動作する。 したがって、ライプノフ最適化のための従来のドリフトプラスペナルティ(dpp)アルゴリズムに代わるものである。 提案手法は,キュー安定性を持つエッジコンピューティングシステムにおけるリソース割り当てに適用し,その動作を数値的に検証する。

In this paper, a deep reinforcement learning (DRL)-based approach to the Lyapunov optimization is considered to minimize the time-average penalty while maintaining queue stability. A proper construction of state and action spaces is provided to form a proper Markov decision process (MDP) for the Lyapunov optimization. A condition for the reward function of reinforcement learning (RL) for queue stability is derived. Based on the analysis and practical RL with reward discounting, a class of reward functions is proposed for the DRL-based approach to the Lyapunov optimization. The proposed DRL-based approach to the Lyapunov optimization does not required complicated optimization at each time step and operates with general non-convex and discontinuous penalty functions. Hence, it provides an alternative to the conventional drift-plus-penalty (DPP) algorithm for the Lyapunov optimization. The proposed DRL-based approach is applied to resource allocation in edge computing systems with queue stability and numerical results demonstrate its successful operation.
翻訳日:2021-05-08 14:21:54 公開日:2020-12-15
# wdnet: 透かし除去のための透かし除去ネットワーク

WDNet: Watermark-Decomposit ion Network for Visible Watermark Removal ( http://arxiv.org/abs/2012.07616v2 )

ライセンス: Link先を確認
Yang Liu, Zhen Zhu, and Xiang Bai(参考訳) 視覚的な透かしは、著作権の所有権を保護するために画像に広く使われている。 ウォーターマークの除去分析は、敵対的な方法で攻撃防止技術を強化するのに役立つ。 現在の除去法は通常、画像から画像への変換技術を利用する。 それでも、透かしのサイズ、形状、色、透明さの不確かさは、これらの方法の大きな障壁となった。 そこで本研究では, 従来の透かし画像分解を, 透かし分解ネットワーク (wdnet) と呼ばれる2段階生成器に組み合わせることにより, 第1段階は透かし画像全体からの粗い分解を予測し, 第2段階は透かし領域に集中して除去結果を洗練する。 分解の定式化により、WDNetは単に削除するのではなく、画像から透かしを分離することができる。 さらに,これらの分離透かしは,より大きなトレーニングデータセットを構築するための余分な栄養源となり,さらに除去性能が向上することを示す。 また,カラーウォーターマーク除去データセットの真空を満たすために,主にカラーウォーターマークを含むclwdという大規模データセットを構築した。 パブリックグレースケールデータセットLVWとCLWDの大規模な実験は、提案されたWDNetが精度と効率の両方で最先端のアプローチより優れていることを一貫して示している。 コードとCLWDデータセットはhttps://github.com/M RUIL/WDNetで公開されている。

Visible watermarks are widely-used in images to protect copyright ownership. Analyzing watermark removal helps to reinforce the anti-attack techniques in an adversarial way. Current removal methods normally leverage image-to-image translation techniques. Nevertheless, the uncertainty of the size, shape, color and transparency of the watermarks set a huge barrier for these methods. To combat this, we combine traditional watermarked image decomposition into a two-stage generator, called Watermark-Decomposit ion Network (WDNet), where the first stage predicts a rough decomposition from the whole watermarked image and the second stage specifically centers on the watermarked area to refine the removal results. The decomposition formulation enables WDNet to separate watermarks from the images rather than simply removing them. We further show that these separated watermarks can serve as extra nutrients for building a larger training dataset and further improving removal performance. Besides, we construct a large-scale dataset named CLWD, which mainly contains colored watermarks, to fill the vacuum of colored watermark removal dataset. Extensive experiments on the public gray-scale dataset LVW and CLWD consistently show that the proposed WDNet outperforms the state-of-the-art approaches both in accuracy and efficiency. The code and CLWD dataset are publicly available at https://github.com/M RUIL/WDNet.
翻訳日:2021-05-08 14:19:44 公開日:2020-12-15
# (参考訳) グラフ埋め込み手法の理解とその応用

Understanding graph embedding methods and their applications ( http://arxiv.org/abs/2012.08019v1 )

ライセンス: CC BY 4.0
Mengjia Xu(参考訳) グラフ分析は複雑なネットワークの定量的な理解と制御に繋がるが、従来の手法は計算コストが高く、産業規模ネットワークの高次元と異質な特性に関連する過大なメモリ要求に苦しむ。 グラフ埋め込み技術は、高次元スパースグラフを低次元、高密度、連続なベクトル空間に変換するのに有効であり、グラフ構造特性を最大に保存する。 別の種類の新興グラフ埋め込みは、重要な不確実性推定を伴うガウス分布に基づくグラフ埋め込みを用いる。 グラフ埋め込み法の主な目標は、全てのノードの特性をより小さな次元のベクトルにパックすることであり、したがって、元の複素不規則空間におけるノードの類似性は標準計量を用いて埋め込みベクトル空間内で容易に定量化できる。 潜在空間に生成された非線形で高情報的なグラフ埋め込みは、異なる下流のグラフ分析タスク(例えば、ノード分類、リンク予測、コミュニティ検出、可視化など)に対処するのに便利である。 本稿では,特にランダムウォークとニューラルネットワークに基づく手法に着目し,グラフ分析とグラフ埋め込み手法の基本的な概念について述べる。 また,深層学習に基づく動的グラフ埋め込み手法についても述べる。 我々は4つの異なるアプリケーションにおけるグラフ埋め込み手法の異なる利点を強調し、オープンソースソフトウェアの実装の詳細と参照、および利用可能なデータベースを付録で提示し、興味のある読者がグラフ分析について調査を開始する。

Graph analytics can lead to better quantitative understanding and control of complex networks, but traditional methods suffer from high computational cost and excessive memory requirements associated with the high-dimensionality and heterogeneous characteristics of industrial size networks. Graph embedding techniques can be effective in converting high-dimensional sparse graphs into low-dimensional, dense and continuous vector spaces, preserving maximally the graph structure properties. Another type of emerging graph embedding employs Gaussian distribution-based graph embedding with important uncertainty estimation. The main goal of graph embedding methods is to pack every node's properties into a vector with a smaller dimension, hence, node similarity in the original complex irregular spaces can be easily quantified in the embedded vector spaces using standard metrics. The generated nonlinear and highly informative graph embeddings in the latent space can be conveniently used to address different downstream graph analytics tasks (e.g., node classification, link prediction, community detection, visualization, etc.). In this Review, we present some fundamental concepts in graph analytics and graph embedding methods, focusing in particular on random walk-based and neural network-based methods. We also discuss the emerging deep learning-based dynamic graph embedding methods. We highlight the distinct advantages of graph embedding methods in four diverse applications, and present implementation details and references to open-source software as well as available databases in the Appendix for the interested readers to start their exploration into graph analytics.
翻訳日:2021-05-08 13:23:21 公開日:2020-12-15
# (参考訳) スマートフォン利用者の利用パターンに基づくエネルギー消費モデルの構築

Building Energy Consumption Models Based On Smartphone User's Usage Patterns ( http://arxiv.org/abs/2012.10246v1 )

ライセンス: CC BY 4.0
Antonio Sa Barreto Neto, Felipe Farias, Marco Aurelio Tomaz Mialaret, Bruno Cartaxo, Priscila Alves Lima, Paulo Maciel(参考訳) 日常業務におけるスマートフォンの利用の増加は,スマートフォンの有効性の向上とユーザ利用時間の向上を目的としたエネルギー消費特性に関する多くの研究の動機付けとなっている。 このシナリオでは、ユーザ利用パターンを特徴づけるメカニズムを研究することが不可欠であり、スマートフォンのコンポーネントは、省エネで最高のユーザエクスペリエンスを促進するために適応することができる。 本研究の目的は、アプリケーション開発者が使用する最も正確なモデルと自動最適化を提供することを目的とした、ユーザ利用パターンに基づくエネルギー消費モデルの構築である。 エネルギー消費モデルを開発するために,スマートフォンのエネルギー消費に最も影響を及ぼすコンポーネントを識別し,各デバイスの状態を特定する方法を確立した。 さらに,不正確なハードウェアを用いて構築したモデルのロバスト性を証明する手法と,構築したモデルの精度を評価する戦略を確立した。 使用状況に基づいてエネルギー消費をモデル化するための各戦略を訓練し, ネメニー試験を行った結果, スマートフォンの平均消費電力が 1970.1mw の場合, 平均絶対誤差が 158.57mw になることを実証した。 いくつかの研究は、主要なスマートフォンのワークロードがユーザであることを示している。 そこで本研究では,利用者の利用データを分析し,利用者の利用パターンに基づいてスマートフォンの消費エネルギーを推定できるスマートモデルを構築するための自動モデル構築手法を開発した。 自動モデル構築手法によって、バッテリを排出するコンポーネントの使用を最小限に抑える戦略を採用できます。

The increasing usage of smartphones in everyday tasks has been motivated many studies on energy consumption characterization aiming to improve smartphone devices' effectiveness and increase user usage time. In this scenario, it is essential to study mechanisms capable of characterizing user usage patterns, so smartphones' components can be adapted to promote the best user experience with lower energy consumption. The goal of this study is to build an energy consumption model based on user usage patterns aiming to provide the best accurate model to be used by application developers and automated optimization. To develop the energy consumption models, we established a method to identify the components with the most influence in the smartphone's energy consumption and identify the states of each influential device. Besides that, we established a method to prove the robustness of the models constructed using inaccurate hardware and a strategy to assess the accuracy of the model built. After training and testing each strategy to model the energy consumption based on the user's usage and perform the Nemenyi test, we demonstrated that it is possible to get a Mean Absolute Error of 158.57mW when the smartphone's average power is 1970.1mW. Some studies show that the leading smartphone's workload is the user. Based on this fact, we developed an automatic model building methodology that is capable of analyzing the user's usage data and build smart models that can estimate the smartphone's energy consumption based on the user's usage pattern. With the automatic model building methodology, we can adopt strategies to minimize the usage of components that drain the battery.
翻訳日:2021-05-08 13:22:18 公開日:2020-12-15
# (参考訳) 深層学習を用いた喫煙・呼気の分類 [全文訳有]

Classification of Smoking and Calling using Deep Learning ( http://arxiv.org/abs/2012.08026v1 )

ライセンス: CC BY 4.0
Miaowei Wang, Alexander William Mohacey, Hongyu Wang, James Apfel(参考訳) 2014年以降、非常に深い畳み込みニューラルネットワークが提案され、あらゆる種類の競争においてチャンピオンにとって必須の武器となっている。 本報告では,事前学習したインセプションv3を変更することにより,喫煙と呼び出しの分類を行うパイプラインを導入する。 深層学習に基づく明度向上は、この分類タスクの分類と、他の有用なトレーニングトリックを改善するために実施される。 品質と量の結果から, バイアスのあるサンプルの少ないパイプラインは実用的で, 高い精度で有用であることがわかった。

Since 2014, very deep convolutional neural networks have been proposed and become the must-have weapon for champions in all kinds of competition. In this report, a pipeline is introduced to perform the classification of smoking and calling by modifying the pretrained inception V3. Brightness enhancing based on deep learning is implemented to improve the classification of this classification task along with other useful training tricks. Based on the quality and quantity results, it can be concluded that this pipeline with small biased samples is practical and useful with high accuracy.
翻訳日:2021-05-08 13:21:14 公開日:2020-12-15
# (参考訳) NUTA:行動認識のための非一様時間集合 [全文訳有]

NUTA: Non-uniform Temporal Aggregation for Action Recognition ( http://arxiv.org/abs/2012.08041v1 )

ライセンス: CC BY 4.0
Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Hao Chen, Joseph Tighe(参考訳) 行動認識研究の世界では、入力ビデオの空間的-時間的ボリュームをモデル化するためのネットワークの構築と訓練に重点が置かれている。 これらの方法は通常、入力クリップのセグメントを(時間次元とともに)一様にサンプリングする。 しかし、ビデオのすべての部分がビデオ内のアクションを決定するのに等しく重要であるわけではない。 本研究は,映像の最も情報性の高い部分に集中するために,特徴抽出の場所を学習することに焦点を当てる。 本稿では,情報的時間セグメントのみから特徴を集約する非一様時間アグリゲーション(NUTA)手法を提案する。 また, 局所的特徴とクリップレベルの特徴を組み合わせるために, 従来の一様にサンプリングされたビデオ機能との時間的整合を可能にする同期手法も導入した。 提案モデルは,4つの大規模動作認識データセット(kinetics400,kinetic s700,何かv2とcharades)において最先端のパフォーマンスを達成している。 さらに,提案手法がビデオクリップの最も関連性の高い部分のみをどのように選択するかを視覚化した。

In the world of action recognition research, one primary focus has been on how to construct and train networks to model the spatial-temporal volume of an input video. These methods typically uniformly sample a segment of an input clip (along the temporal dimension). However, not all parts of a video are equally important to determine the action in the clip. In this work, we focus instead on learning where to extract features, so as to focus on the most informative parts of the video. We propose a method called the non-uniform temporal aggregation (NUTA), which aggregates features only from informative temporal segments. We also introduce a synchronization method that allows our NUTA features to be temporally aligned with traditional uniformly sampled video features, so that both local and clip-level features can be combined. Our model has achieved state-of-the-art performance on four widely used large-scale action-recognition datasets (Kinetics400, Kinetics700, Something-something V2 and Charades). In addition, we have created a visualization to illustrate how the proposed NUTA method selects only the most relevant parts of a video clip.
翻訳日:2021-05-08 12:38:38 公開日:2020-12-15
# (参考訳) ディープベイズアクティブラーニング : 最近の進歩を振り返って [全文訳有]

Deep Bayesian Active Learning, A Brief Survey on Recent Advances ( http://arxiv.org/abs/2012.08044v1 )

ライセンス: CC BY 4.0
Salman Mohamadi, Hamidreza Amindavar(参考訳) アクティブな学習フレームワークは、顕著な精度の劣化なしに効率的なデータアノテーションを提供する。 言い換えれば、アクティブラーニングは、ラベル付きデータの小さなサイズでモデルをトレーニングし、ラベル付きデータの空間を探索し、ラベル付けされる最も有用なサンプルを選択する。 一般に、この不確実性を表現することは、どんな活動的な学習フレームワークにおいても重要であるが、深層学習法はモデルの不確実性を表現または操作することができない。 一方、現実世界のアプリケーションの観点からすると、機械学習コミュニティでは不確実性表現がますます注目を集めています。 ディープベイズアクティブラーニングフレームワークおよび一般的にベイズアクティブラーニング設定は、モデルのより効率的なトレーニングのためにモデルの不確実性を表す一方で、小さなデータによるトレーニングを可能にするモデルの実践的考察を提供する。 本稿では,ベイジアンアクティブラーニングの最近の進歩,特にベイジアンアクティブラーニングの枠組みを概観する。

Active learning frameworks offer efficient data annotation without remarkable accuracy degradation. In other words, active learning starts training the model with a small size of labeled data while exploring the space of unlabeled data in order to select most informative samples to be labeled. Generally speaking, representing the uncertainty is crucial in any active learning framework, however, deep learning methods are not capable of either representing or manipulating model uncertainty. On the other hand, from the real world application perspective, uncertainty representation is getting more and more attention in the machine learning community. Deep Bayesian active learning frameworks and generally any Bayesian active learning settings, provide practical consideration in the model which allows training with small data while representing the model uncertainty for further efficient training. In this paper, we briefly survey recent advances in Bayesian active learning and in particular deep Bayesian active learning frameworks.
翻訳日:2021-05-08 12:25:05 公開日:2020-12-15
# (参考訳) 意味論とテクスチャのコヒーレンス優先によるイメージインペインティング [全文訳有]

Image Inpainting Guided by Coherence Priors of Semantics and Textures ( http://arxiv.org/abs/2012.08054v1 )

ライセンス: CC BY 4.0
Liang Liao, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh(参考訳) 既存の塗装法は、特定のシーンの欠陥画像の復元に有望な性能を実現している。 しかしながら、複数の意味カテゴリーを含む穴を埋めることは、曖昧な意味的境界と異なる意味的テクスチャの混合のため、依然として困難である。 本稿では,テクスチャのセマンティクスとテクスチャのコヒーレンス先行について述べる。 具体的には,まずコヒーレンス前処理をモデル化し,それに従って画像インペインティングと意味セグメンテーションを粗い方法で相互に最適化するマルチスケール協調最適化フレームワークを採用する。 テクスチャのミックスアップを効果的に緩和する非局所的なセマンティクスコヒーレンスを探索することにより、スケール全体の完成されたテクスチャを洗練するために、swap(semantic-wise attention propagation)モジュールが考案された。 また,全体構造と詳細なテクスチャの観点から,セマンティクスと塗装画像の一貫性を制約する2つのコヒーレンス損失を提案する。 実験により,複素孔を有する難問に対する提案手法の優位性を示した。

Existing inpainting methods have achieved promising performance in recovering defected images of specific scenes. However, filling holes involving multiple semantic categories remains challenging due to the obscure semantic boundaries and the mixture of different semantic textures. In this paper, we introduce coherence priors between the semantics and textures which make it possible to concentrate on completing separate textures in a semantic-wise manner. Specifically, we adopt a multi-scale joint optimization framework to first model the coherence priors and then accordingly interleavingly optimize image inpainting and semantic segmentation in a coarse-to-fine manner. A Semantic-Wise Attention Propagation (SWAP) module is devised to refine completed image textures across scales by exploring non-local semantic coherence, which effectively mitigates mix-up of textures. We also propose two coherence losses to constrain the consistency between the semantics and the inpainted image in terms of the overall structure and detailed textures. Experimental results demonstrate the superiority of our proposed method for challenging cases with complex holes.
翻訳日:2021-05-08 12:18:57 公開日:2020-12-15
# (参考訳) バランスインデックス影響最大化のための学習パラメータ [全文訳有]

Learning Parameters for Balanced Index Influence Maximization ( http://arxiv.org/abs/2012.08067v1 )

ライセンス: CC BY 4.0
Manqing Ma, Gyorgy Korniss, Boleslaw K. Szymanski(参考訳) 影響最大化(英語: Influence maximization)とは、ソーシャルネットワークでアクティベーションを行うノードの最小セットを見つけるタスクであり、ターゲットネットワークのカバレッジに達するアクティベーションカスケードをトリガーし、しきい値ルールが影響の結果を決定する。 この問題はNPハードであり、効率的なヒューリスティックの発見に関する最近の研究のかなりの数を生み出している。 本稿では,その性能を所定のネットワーク構造に合わせるために,3つのパラメータに依存するアルゴリズムに焦点をあてる。 このようなチューニングのために教師付き機械学習アプローチを提案する。 パラメータチューニングにおいて最も影響力のあるグラフ機能を選択する。 そして、ランダムウォークに基づくグラフサンプリングを用いて、与えられた合成および大規模現実世界ネットワークから小さなスナップショットを作成する。 徹底的な検索を用いて,biパラメータの高精度値を基礎的真理として使用するスナップショットを求める。 そして、スナップショット上で機械学習モデルをトレーニングし、このモデルを実単語ネットワークに適用して最適なbiパラメータを見つけます。 これらのパラメータを実世界のサンプルネットワークに適用し、この方法で得られた開始子の集合の質を測定する。 我々は、他のヒューリスティックに対するアプローチを検証するために、様々な現実世界のネットワークを使用します。

Influence maximization is the task of finding the smallest set of nodes whose activation in a social network can trigger an activation cascade that reaches the targeted network coverage, where threshold rules determine the outcome of influence. This problem is NP-hard and it has generated a significant amount of recent research on finding efficient heuristics. We focus on a {\it Balance Index} algorithm that relies on three parameters to tune its performance to the given network structure. We propose using a supervised machine-learning approach for such tuning. We select the most influential graph features for the parameter tuning. Then, using random-walk-based graph-sampling, we create small snapshots from the given synthetic and large-scale real-world networks. Using exhaustive search, we find for these snapshots the high accuracy values of BI parameters to use as a ground truth. Then, we train our machine-learning model on the snapshots and apply this model to the real-word network to find the best BI parameters. We apply these parameters to the sampled real-world network to measure the quality of the sets of initiators found this way. We use various real-world networks to validate our approach against other heuristic.
翻訳日:2021-05-08 12:04:39 公開日:2020-12-15
# (参考訳) 高速3d画像モーメント [全文訳有]

Fast 3D Image Moments ( http://arxiv.org/abs/2012.08099v1 )

ライセンス: CC BY 4.0
William Diggin and Michael Diggin(参考訳) ボリューム画像のモーメントを効率的に計算するアルゴリズムを開示する。 このアプローチは、計算複雑性を著しく減らし、処理時間の短縮を示す。 具体的には、アルゴリズムは乗法複雑性を O(n^3) から O(n) に還元する。 3次元ボリュームの2次元投影画像が複数生成される。 アルゴリズムはこれらの2D画像から一連の2Dモーメントを計算する。 これらの2Dモーメントは、3Dボリュームモーメントを導出するために使用される。 mriやctでの使用例や関連する分析では、離散射影モーメントアルゴリズムの利点が示されている。 このアプローチは、そのオブジェクトの2Dトモグラフィー画像の小さなセットを使用して、3Dオブジェクトのモーメントを計算するのにも有用である。

An algorithm to efficiently compute the moments of volumetric images is disclosed. The approach demonstrates a reduction in processing time by reducing the computational complexity significantly. Specifically, the algorithm reduces multiplicative complexity from O(n^3) to O(n). Several 2D projection images of the 3D volume are generated. The algorithm computes a set of 2D moments from those 2D images. Those 2D moments are then used to derive the 3D volumetric moments. Examples of use in MRI or CT and related analysis demonstrates the benefit of the Discrete Projection Moment Algorithm. The approach is also useful in computing the moments of a 3D object using a small set of 2D tomographic images of that object.
翻訳日:2021-05-08 11:55:06 公開日:2020-12-15
# (参考訳) 自然言語発話からの複雑なデータベースクエリとapi呼び出しの生成 [全文訳有]

Generation of complex database queries and API calls from natural language utterances ( http://arxiv.org/abs/2012.08146v1 )

ライセンス: CC BY 4.0
Amol Kelkar, Nachiketa Rajpurohit, Utkarsh Mittal and Peter Relan(参考訳) 自然言語質問に対応するクエリの生成は、長年にわたる問題である。 従来の方法は言語の柔軟性を欠いているが、新しいシーケンスからシーケンスへのモデルは大量のデータを必要とする。 スキーマに依存しないシーケンスからシーケンスへのモデルは、小さなデータセットを使用して特定のスキーマ用に微調整することができるが、これらのモデルは相対的に精度が低い。 本稿では,クエリ生成問題を意図分類とスロット充填問題に変換する手法を提案する。 この方法は小さなデータセットを使って動作する。 トレーニングデータセットに類似した質問に対しては、高い精度で複雑なクエリを生成する。 その他の質問では、テンプレートベースのアプローチやクエリ要素を予測してクエリを構築することができ、シーケンス・ツー・シーケンスモデルよりも高い精度で実行することができる。 実世界のデータセットでは,スキーマの微調整による生成モデルがクエリ生成タスクに対して60倍の精度で一致し,提案手法は92倍の精度で一致した。

Generating queries corresponding to natural language questions is a long standing problem. Traditional methods lack language flexibility, while newer sequence-to-sequence models require large amount of data. Schema-agnostic sequence-to-sequence models can be fine-tuned for a specific schema using a small dataset but these models have relatively low accuracy. We present a method that transforms the query generation problem into an intent classification and slot filling problem. This method can work using small datasets. For questions similar to the ones in the training dataset, it produces complex queries with high accuracy. For other questions, it can use a template-based approach or predict query pieces to construct the queries, still at a higher accuracy than sequence-to-sequence models. On a real-world dataset, a schema fine-tuned state-of-the-art generative model had 60\% exact match accuracy for the query generation task, while our method resulted in 92\% exact match accuracy.
翻訳日:2021-05-08 11:17:59 公開日:2020-12-15
# (参考訳) 多段階変換器を用いた対話の応答検索手法 [全文訳有]

A Response Retrieval Approach for Dialogue Using a Multi-Attentive Transformer ( http://arxiv.org/abs/2012.08148v1 )

ライセンス: CC BY 4.0
Matteo A. Senese, Alberto Benincasa, Barbara Caputo, Giuseppe Rizzo(参考訳) 本稿では,対話システム技術チャレンジ(dstc9)第9版について紹介する。 提案手法は,トラック番号4のSimulated Interactive MultiModal Conversationsに対処する。 このタスクは、ユーザをリクエストで支援するショッピングアシスタントをシミュレートできるアルゴリズムを提供することによって構成される。 本稿では、応答候補のプールから最も適切なエージェント応答を検索するタスクである応答検索のタスクに対処する。 本手法では,ユーザによる要求とユーザが参照している製品に対するエージェントの応答を条件としたマルチタッチ構造を持つトランスフォーマティブに基づくニューラルアーキテクチャを用いる。 SIMMC Fashion Datasetの最終的な実験結果から,提案手法はオーガナイザが定義したすべての検索指標において,2番目のベストスコアを達成できることがわかった。 ソースコードはhttps://github.com/D 2KLab/dstc9-SIMMCで入手できる。

This paper presents our work for the ninth edition of the Dialogue System Technology Challenge (DSTC9). Our solution addresses the track number four: Simulated Interactive MultiModal Conversations. The task consists in providing an algorithm able to simulate a shopping assistant that supports the user with his/her requests. We address the task of response retrieval, that is the task of retrieving the most appropriate agent response from a pool of response candidates. Our approach makes use of a neural architecture based on transformer with a multi-attentive structure that conditions the response of the agent on the request made by the user and on the product the user is referring to. Final experiments on the SIMMC Fashion Dataset show that our approach achieves the second best scores on all the retrieval metrics defined by the organizers. The source code is available at https://github.com/D 2KLab/dstc9-SIMMC.
翻訳日:2021-05-08 11:14:24 公開日:2020-12-15
# (参考訳) マルチクラスオブジェクトカウントのためのDilated-Scale-Aware Attention ConvNet [全文訳有]

Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting ( http://arxiv.org/abs/2012.08149v1 )

ライセンス: CC BY 4.0
Wei Xu, Dingkang Liang, Yixiao Zheng, Zhanyu Ma(参考訳) オブジェクトカウントは、画像内のオブジェクト数を推定することを目的としている。 主要なカウント手法は、単一のカテゴリカウントタスクに集中し、素晴らしいパフォーマンスを達成する。 実際のシーンには複数のカテゴリのオブジェクトがある。 多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。 マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。 しかし、バウンディングボックスにアノテートされたデータセットが必要である。 主流のオブジェクトカウント問題におけるポイントアノテーションと比較すると、座標ボックスレベルのアノテーションは入手が難しい。 本稿では,ポイントレベルのアノテーションに基づく簡易かつ効率的な計数ネットワークを提案する。 具体的には、まず従来の出力チャネルを1つから複数のカテゴリに変更し、マルチクラスカウントを実現する。 提案するフレームワークでは,オブジェクトのすべてのカテゴリが同じ特徴抽出器を使用するため,それらの特徴は共有特徴空間において相互に干渉する。 さらに,物体間の有害な相互作用を抑制するマルチマスク構造を設計する。 試行錯誤実験により,提案手法が最先端の計数性能を実現することを示す。

Object counting aims to estimate the number of objects in images. The leading counting approaches focus on the single category counting task and achieve impressive performance. Note that there are multiple categories of objects in real scenes. Multi-class object counting expands the scope of application of object counting task. The multi-target detection task can achieve multi-class object counting in some scenarios. However, it requires the dataset annotated with bounding boxes. Compared with the point annotations in mainstream object counting issues, the coordinate box-level annotations are more difficult to obtain. In this paper, we propose a simple yet efficient counting network based on point-level annotations. Specifically, we first change the traditional output channel from one to the number of categories to achieve multiclass counting. Since all categories of objects use the same feature extractor in our proposed framework, their features will interfere mutually in the shared feature space. We further design a multi-mask structure to suppress harmful interaction among objects. Extensive experiments on the challenging benchmarks illustrate that the proposed method achieves state-of-the-art counting performance.
翻訳日:2021-05-08 10:44:32 公開日:2020-12-15
# (参考訳) 契約不整合のチェックを学ぶ [全文訳有]

Learning to Check Contract Inconsistencies ( http://arxiv.org/abs/2012.08150v1 )

ライセンス: CC BY 4.0
Shuo Zhang, Junzhou Zhao, Pinghui Wang, Nuo Xu, Yang Yang, Yiting Liu, Yi Huang, Junlan Feng(参考訳) 契約の整合性は、契約の法的妥当性を保証する上で重要である。 多くのシナリオにおいて、契約書は予めコンパイルされた形式で空白を埋めて書かれる。 不注意のため、同じ(または異なる)コンテンツで満たすべき2つの空白は、誤って異なる(または同じ)コンテンツで満たされる可能性がある。 これにより、契約の不一致が発生し、契約の法的妥当性を著しく損なう可能性がある。 この問題に対処する伝統的な方法は、主に労働集約的で費用がかかる手動の契約審査に依存している。 本研究では,新しい契約不整合チェック(CIC)問題を定式化し,Pair-wise Blank Resolution(PBR)と呼ばれるエンドツーエンドのフレームワークを設計し,CIC問題を高精度に解決する。 我々のPBRモデルは、意味のない空白をモデリングする難題に対処する新しいBlankCoderを含んでいる。 BlankCoderは、意味のない空白と関連する記述を適切に関連付けるための2段階のアテンションメカニズムを採用している。 実世界のデータセットで行った実験では,CIC問題では94.05%,F1スコア90.90%のバランスの取れた精度で,本手法の有望な性能を示した。

Contract consistency is important in ensuring the legal validity of the contract. In many scenarios, a contract is written by filling the blanks in a precompiled form. Due to carelessness, two blanks that should be filled with the same (or different)content may be incorrectly filled with different (or same) content. This will result in the issue of contract inconsistencies, which may severely impair the legal validity of the contract. Traditional methods to address this issue mainly rely on manual contract review, which is labor-intensive and costly. In this work, we formulate a novel Contract Inconsistency Checking (CIC) problem, and design an end-to-end framework, called Pair-wise Blank Resolution (PBR), to solve the CIC problem with high accuracy. Our PBR model contains a novel BlankCoder to address the challenge of modeling meaningless blanks. BlankCoder adopts a two-stage attention mechanism that adequately associates a meaningless blank with its relevant descriptions while avoiding the incorporation of irrelevant context words. Experiments conducted on real-world datasets show the promising performance of our method with a balanced accuracy of 94.05% and an F1 score of 90.90% in the CIC problem.
翻訳日:2021-05-08 10:30:59 公開日:2020-12-15
# (参考訳) 逆分布による高次元データの異種統計的パターンのモデル化:教師なし生成フレームワーク [全文訳有]

Modeling Heterogeneous Statistical Patterns in High-dimensional Data by Adversarial Distributions: An Unsupervised Generative Framework ( http://arxiv.org/abs/2012.08153v1 )

ライセンス: CC BY 4.0
Han Zhang, Wenhao Zheng, Charley Chen, Kevin Gao, Yao Hu, Ling Huang, and Wei Xu(参考訳) ラベル収集は禁止され、時間を要するため、不正検出などのアプリケーションでは教師なしの方法が好ましい。 一方、このようなアプリケーションは、通常、異なるクラスタのパターンが異なる次元に現れる可能性があるため、異種統計パターンを表示する高次元データの内在的なクラスタをモデル化する必要がある。 既存の方法では、選択した次元でデータクラスタをモデル化するが、グローバルに任意の次元を省略することは、特定のクラスタのパターンを損なう可能性がある。 上記の問題に対処するため,不均一な統計パターンに適合・アンタングルする逆分布を利用した非教師なし生成フレームワークFIRDを提案する。 離散空間に適用する場合、FIRDは同期された詐欺師を通常のユーザと効果的に区別する。 さらに、FIRDはSOTA異常検出法(平均AUC改善率5%以上)と比較して、異常検出データセットの性能も優れている。 各種データセットにおける有意な実験結果から,提案手法が高次元データにおける不均一な統計パターンをモデル化し,下流アプリケーションに有効であることを示す。

Since the label collecting is prohibitive and time-consuming, unsupervised methods are preferred in applications such as fraud detection. Meanwhile, such applications usually require modeling the intrinsic clusters in high-dimensional data, which usually displays heterogeneous statistical patterns as the patterns of different clusters may appear in different dimensions. Existing methods propose to model the data clusters on selected dimensions, yet globally omitting any dimension may damage the pattern of certain clusters. To address the above issues, we propose a novel unsupervised generative framework called FIRD, which utilizes adversarial distributions to fit and disentangle the heterogeneous statistical patterns. When applying to discrete spaces, FIRD effectively distinguishes the synchronized fraudsters from normal users. Besides, FIRD also provides superior performance on anomaly detection datasets compared with SOTA anomaly detection methods (over 5% average AUC improvement). The significant experiment results on various datasets verify that the proposed method can better model the heterogeneous statistical patterns in high-dimensional data and benefit downstream applications.
翻訳日:2021-05-08 10:17:37 公開日:2020-12-15
# (参考訳) 非信頼プラットフォームにおける機密機械学習:調査 [全文訳有]

Confidential Machine Learning on Untrusted Platforms: A Survey ( http://arxiv.org/abs/2012.08156v1 )

ライセンス: CC BY 4.0
Sagar Sharma, Keke Chen(参考訳) 成長を続けるデータと強力な機械学習モデルの開発の必要性により、データ所有者はますます信頼できないプラットフォーム(パブリッククラウド、エッジ、マシンラーニングサービスプロバイダなど)に依存している。 しかし、機密データやモデルは不正アクセス、誤用、プライバシー侵害の影響を受けやすい。 近年,信頼できないプラットフォームで暗号化されたアウトソーシングデータの機械学習モデルをトレーニングする研究が進められている。 本調査では、この新興分野の研究を、主要な課題とアプローチを強調する統一的な枠組みで要約する。 ハードウェア支援型秘密コンピューティング環境における摂動に基づくアプローチやCMLといった他の方向性についても取り上げながら、機密機械学習(CML)の暗号的アプローチに焦点を当てる。 議論は、関連する脅威モデル、セキュリティ仮定、攻撃、設計哲学、およびデータユーティリティ、コスト、機密性の間の関連するトレードオフのリッチなコンテキストを検討するための包括的な方法を取る。

With ever-growing data and the need for developing powerful machine learning models, data owners increasingly depend on untrusted platforms (e.g., public clouds, edges, and machine learning service providers). However, sensitive data and models become susceptible to unauthorized access, misuse, and privacy compromises. Recently, a body of research has been developed to train machine learning models on encrypted outsourced data with untrusted platforms. In this survey, we summarize the studies in this emerging area with a unified framework to highlight the major challenges and approaches. We will focus on the cryptographic approaches for confidential machine learning (CML), while also covering other directions such as perturbation-based approaches and CML in the hardware-assisted confidential computing environment. The discussion will take a holistic way to consider a rich context of the related threat models, security assumptions, attacks, design philosophies, and associated trade-offs amongst data utility, cost, and confidentiality.
翻訳日:2021-05-08 09:56:23 公開日:2020-12-15
# (参考訳) AIOpsにおけるシステムマッピングの研究 [全文訳有]

A Systematic Mapping Study in AIOps ( http://arxiv.org/abs/2012.09108v1 )

ライセンス: CC BY 4.0
Paolo Notaro, Jorge Cardoso, and Michael Gerndt(参考訳) 今日のITシステムはますます複雑になり、人間の監督がより困難になっています。 AIとビッグデータのおかげで、現代的なIT管理の課題に取り組むために、AIOps(Artificial Intelligence for IT Operations)が提案されている。 しかし、過去のaiopsの貢献は散在し、組織化されておらず、共通の用語規約を欠いているため、発見と比較は現実的ではない。 本稿では,aiopsに対する多数の散在する貢献をユニークな参照インデックスで収集し整理するために,詳細なマッピング研究を行う。 AIOps分類を作成し、将来のコントリビューションのための基盤を構築し、同様の問題を扱うAIOps論文の効率的な比較を可能にします。 アルゴリズムやデータソース,ターゲットコンポーネントの選択に基づいて,aiopsコントリビューションの時間的傾向を調査し,分類する。 以上の結果から,aiopsに対する近年の関心が高まり,特に異常検出や根本原因分析などの障害関連タスク(62%)の処理に寄与していることが明らかとなった。

IT systems of today are becoming larger and more complex, rendering their human supervision more difficult. Artificial Intelligence for IT Operations (AIOps) has been proposed to tackle modern IT administration challenges thanks to AI and Big Data. However, past AIOps contributions are scattered, unorganized and missing a common terminology convention, which renders their discovery and comparison impractical. In this work, we conduct an in-depth mapping study to collect and organize the numerous scattered contributions to AIOps in a unique reference index. We create an AIOps taxonomy to build a foundation for future contributions and allow an efficient comparison of AIOps papers treating similar problems. We investigate temporal trends and classify AIOps contributions based on the choice of algorithms, data sources and the target components. Our results show a recent and growing interest towards AIOps, specifically to those contributions treating failure-related tasks (62%), such as anomaly detection and root cause analysis.
翻訳日:2021-05-08 09:36:47 公開日:2020-12-15
# (参考訳) アンサンブル学習におけるバッキング・アンド・インターバルアグリーメントアプローチ(iaa)に基づく新しい間隔ベースアグリゲーションアプローチ [全文訳有]

A new interval-based aggregation approach based on bagging and Interval Agreement Approach (IAA) in ensemble learning ( http://arxiv.org/abs/2101.10267v1 )

ライセンス: CC BY 4.0
Mansoureh Maadia, Uwe Aickelin, Hadi Akbarzadeh Khorshidi(参考訳) アンサンブル学習の主な目的は、1つの分類器出力ではなく複数の個別分類器出力を使用してより正確な分類を行うことである。 アンサンブル分類器の生成は、基本分類器の選択、異なる個別分類器の生成のためのサンプリング戦略の適用、および出力の集約の3段階からなる。 本稿では, アンサンブル学習において, ガベージ・リサンプリング・アプローチとIAA(Interval Agreement Approach)を用いた, 間隔に基づく新たなアグリゲーション・モデルを提案する。 iaaは意思決定における興味深い実践的な集約アプローチであり、意思決定者が意見を一定間隔で提示する際の意見を結合するために導入された。 本稿では,アンサンブル学習における新たなアグリゲーションアプローチの実施に加えて,より不確実性を維持し,より正確な分類を実現するために,アンサンブル学習におけるインターバルモデリングの利用を促す実験を行った。 そこで本研究では,本手法を10項目の医学データセットにおいて最も一般的かつ成功した集計関数として多数票を得た結果と比較し,アンサンブル学習に関して,区間モデリングと区間ベース集計関数の性能向上を示す。 その結果,提案手法の有効性が確認された。

The main aim in ensemble learning is using multiple individual classifiers outputs rather than one classifier output to aggregate them for more accurate classification. Generating an ensemble classifier generally is composed of three steps: selecting the base classifier, applying a sampling strategy to generate different individual classifiers and aggregation the classifiers outputs. This paper focuses on the classifiers outputs aggregation step and presents a new interval-based aggregation modeling using bagging resampling approach and Interval Agreement Approach (IAA) in ensemble learning. IAA is an interesting and practical aggregation approach in decision making which was introduced to combine decision makers opinions when they present their opinions by intervals. In this paper, in addition to implementing a new aggregation approach in ensemble learning, we designed some experiments to encourage researchers to use interval modeling in ensemble learning because it preserves more uncertainty and this leads to more accurate classification. For this purpose, we compared the results of implementing the proposed method to the majority vote as the most common and successful aggregation function in the literature on 10 medical data sets to show the better performance of the interval modeling and the proposed interval-based aggregation function in binary classification when it comes to ensemble learning. The results confirm the good performance of our proposed approach.
翻訳日:2021-05-08 09:25:17 公開日:2020-12-15
# (参考訳) 深部核融合クラスタリングネットワーク [全文訳有]

Deep Fusion Clustering Network ( http://arxiv.org/abs/2012.09600v1 )

ライセンス: CC BY 4.0
Wenxuan Tu, Sihang Zhou, Xinwang Liu, Xifeng Guo, Zhiping Cai, En zhu, Jieren Cheng(参考訳) ディープクラスタリングは、データ分析の基本的な課題ですが、難しい課題です。 近年,自動エンコーダとグラフニューラルネットワークを組み合わせることで,構造情報をクラスタリング性能向上に活用する傾向が強まっている。 しかし,1) 既存の文献では, コンセンサス表現学習のためのグラフ構造やノード属性の情報を選択的に統合・洗練するための動的融合機構が欠如している。 以上の課題に対処するため,Deep Fusion Clustering Network (DFCN)を提案する。 具体的には,相互依存学習に基づく構造化・属性情報融合(SAIF)モジュールを提案し,コンセンサス表現学習のためのオートエンコーダとグラフオートエンコーダで学習した表現を明示的にマージする。 また、ネットワークトレーニングのために、信頼性の高い目標分布生成手段と、モダリティ間の情報活用を容易にする三重化セルフスーパービジョン戦略を設計する。 6つのベンチマークデータセットに対する大規模な実験により、提案されたDFCNは最先端のディープクラスタリング手法よりも一貫して優れていることが示された。

Deep clustering is a fundamental yet challenging task for data analysis. Recently we witness a strong tendency of combining autoencoder and graph neural networks to exploit structure information for clustering performance enhancement. However, we observe that existing literature 1) lacks a dynamic fusion mechanism to selectively integrate and refine the information of graph structure and node attributes for consensus representation learning; 2) fails to extract information from both sides for robust target distribution (i.e., "groundtruth" soft labels) generation. To tackle the above issues, we propose a Deep Fusion Clustering Network (DFCN). Specifically, in our network, an interdependency learning-based Structure and Attribute Information Fusion (SAIF) module is proposed to explicitly merge the representations learned by an autoencoder and a graph autoencoder for consensus representation learning. Also, a reliable target distribution generation measure and a triplet self-supervision strategy, which facilitate cross-modality information exploitation, are designed for network training. Extensive experiments on six benchmark datasets have demonstrated that the proposed DFCN consistently outperforms the state-of-the-art deep clustering methods.
翻訳日:2021-05-08 09:06:22 公開日:2020-12-15
# (参考訳) 不均衡データと希少事象の再サンプリングにおける多様性の重要性について [全文訳有]

On the Importance of Diversity in Re-Sampling for Imbalanced Data and Rare Events in Mortality Risk Models ( http://arxiv.org/abs/2012.09645v1 )

ライセンス: CC BY 4.0
Yuxuan (Diana) Yang, Hadi Akbarzadeh Khorshidi, Uwe Aickelin, Aditi Nevgi, Elif Ekinci(参考訳) 合併症のある患者では外科的リスクが著しく増加する。 この結果、外科医と患者の意思決定を支援するために関連する外科的リスクを定式化する目的で、多数のリスク階層化ツールが作られた。 外科的アウトカムリスクツール(英: Surgery Outcome Risk Tool、SORT)は、イギリスにおける主要な外科手術における周術期を通して死亡リスクを予測するために開発されたツールの1つである。 本研究では,データセット内のクラス不均衡に対処することにより,元のSORT予測モデル(UK SORT)を強化する。 提案手法は,マイノリティ(モータリティ)イベントの検出における分類器の能力を高めるために,共通再サンプリング手法を用いた多様性に基づく選択の適用を検討する。 トレーニングデータセット間の多様性は、マイノリティ/マイジョリティクラス領域の正確な描写を維持するために必要不可欠な要素であり、メインストリームサンプリングアプローチの一般化問題を解決する。 多様性を評価するために,Sollow-Polasky測度をドロップイン機能として利用し,最も類似性の高い部分集合を識別・破棄するgreedyアルゴリズムを追加した。 さらに、実証実験により、多様性に基づくデータセットよりも訓練された分類器の性能が10個の外部データセットよりも優れていることを示す。 多様性に基づく再サンプリング手法により,UK SORTアルゴリズムの性能は1.4ドル向上した。

Surgical risk increases significantly when patients present with comorbid conditions. This has resulted in the creation of numerous risk stratification tools with the objective of formulating associated surgical risk to assist both surgeons and patients in decision-making. The Surgical Outcome Risk Tool (SORT) is one of the tools developed to predict mortality risk throughout the entire perioperative period for major elective in-patient surgeries in the UK. In this study, we enhance the original SORT prediction model (UK SORT) by addressing the class imbalance within the dataset. Our proposed method investigates the application of diversity-based selection on top of common re-sampling techniques to enhance the classifier's capability in detecting minority (mortality) events. Diversity amongst training datasets is an essential factor in ensuring re-sampled data keeps an accurate depiction of the minority/majority class region, thereby solving the generalization problem of mainstream sampling approaches. We incorporate the use of the Solow-Polasky measure as a drop-in functionality to evaluate diversity, with the addition of greedy algorithms to identify and discard subsets that share the most similarity. Additionally, through empirical experiments, we prove that the performance of the classifier trained over diversity-based dataset outperforms the original classifier over ten external datasets. Our diversity-based re-sampling method elevates the performance of the UK SORT algorithm by 1.4$.
翻訳日:2021-05-08 08:51:20 公開日:2020-12-15
# (参考訳) マニファストおよび潜時相互作用を持つ一般化付加モデルによる説明可能な推薦システム [全文訳有]

Explainable Recommendation Systems by Generalized Additive Models with Manifest and Latent Interactions ( http://arxiv.org/abs/2012.08196v1 )

ライセンス: CC BY 4.0
Yifeng Guo, Yu Su, Zebin Yang and Aijun Zhang(参考訳) 近年、レコメンデーションシステムの分野は、アイテムがユーザーに推奨される理由の説明を提供する予測モデルの開発に注目が集まっている。 これらの説明は、比較的複雑なモデルに適合させた後、あるいは本質的に解釈可能なモデルに埋め込まれた後診断によって得られる。 本稿では,GAMMLI(Explain and Latent Interaction)を用いた一般化付加モデルに基づく説明可能なレコメンデーションシステムを提案する。 このモデルアーキテクチャは本質的に解釈可能であり、ユーザーとアイテムの主な効果、観察された特徴に基づく明示的なユーザとテーマの相互作用、残差からの潜在的な相互作用効果からなる。 従来の協調フィルタリング法とは異なり、gammliではユーザとアイテムの集団効果が考慮される。 モデル解釈性を向上させるのに有用であり、コールドスタート推奨問題も促進できる。 新しいPythonパッケージGAMMLIは、効率的なモデルトレーニングと結果の可視化解釈のために開発された。 シミュレーションデータと実例に基づく数値実験により,提案手法は予測性能と説明可能な推薦の両方において有益であることが示された。

In recent years, the field of recommendation systems has attracted increasing attention to developing predictive models that provide explanations of why an item is recommended to a user. The explanations can be either obtained by post-hoc diagnostics after fitting a relatively complex model or embedded into an intrinsically interpretable model. In this paper, we propose the explainable recommendation systems based on a generalized additive model with manifest and latent interactions (GAMMLI). This model architecture is intrinsically interpretable, as it additively consists of the user and item main effects, the manifest user-item interactions based on observed features, and the latent interaction effects from residuals. Unlike conventional collaborative filtering methods, the group effect of users and items are considered in GAMMLI. It is beneficial for enhancing the model interpretability, and can also facilitate the cold-start recommendation problem. A new Python package GAMMLI is developed for efficient model training and visualized interpretation of the results. By numerical experiments based on simulation data and real-world cases, the proposed method is shown to have advantages in both predictive performance and explainable recommendation.
翻訳日:2021-05-08 07:30:36 公開日:2020-12-15
# (参考訳) 言語固有の概念階層によるスケーラブルな言語間文書類似性 [全文訳有]

Scalable Cross-lingual Document Similarity through Language-specific Concept Hierarchies ( http://arxiv.org/abs/2101.03026v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, Jose-Luis Redondo Garc\'ia, Oscar Corcho(参考訳) 幅広い言語におけるデジタル記事数の増加と異なる言語の利用の拡大に伴い、多言語コーパスの閲覧を可能にするアノテーションメソッドが求められている。 多言語確率的トピックモデルは、最近、複数の言語のテキストの集合に関するテーマ探索に使用できる半教師付き機械学習モデルのグループとして登場した。 しかし、これらのアプローチは言語に依存しない空間を作るためにテーマに沿ったトレーニングデータを必要とする。 この制約は、このテクニックがトレーニングのソリューションを提供するシナリオの量を制限し、トレーニングフェーズ中に大量の多言語文書の収集が必要な状況にスケールアップすることを困難にします。 本稿では,並列あるいは同等のコーパスや他の種類の翻訳リソースを必要としない教師なし文書類似性アルゴリズムを提案する。 このアルゴリズムは、言語横断ラベルを持つ単一の言語で文書から生成されたトピックをアノテートし、独立に訓練されたモデルから多言語の概念の階層によって文書を記述する。 jcr-acquis corporaの英語版、スペイン語版、フランス語版で行った実験は、同様の内容の文書の分類と分類に関する有望な結果を示している。

With the ongoing growth in number of digital articles in a wider set of languages and the expanding use of different languages, we need annotation methods that enable browsing multi-lingual corpora. Multilingual probabilistic topic models have recently emerged as a group of semi-supervised machine learning models that can be used to perform thematic explorations on collections of texts in multiple languages. However, these approaches require theme-aligned training data to create a language-independent space. This constraint limits the amount of scenarios that this technique can offer solutions to train and makes it difficult to scale up to situations where a huge collection of multi-lingual documents are required during the training phase. This paper presents an unsupervised document similarity algorithm that does not require parallel or comparable corpora, or any other type of translation resource. The algorithm annotates topics automatically created from documents in a single language with cross-lingual labels and describes documents by hierarchies of multi-lingual concepts from independently-traine d models. Experiments performed on the English, Spanish and French editions of JCR-Acquis corpora reveal promising results on classifying and sorting documents by similar content.
翻訳日:2021-05-08 07:17:28 公開日:2020-12-15
# (参考訳) アンカーレス物体検出のための合成画像から実画像への教師なし領域適応 [全文訳有]

Unsupervised Domain Adaptation from Synthetic to Real Images for Anchorless Object Detection ( http://arxiv.org/abs/2012.08205v1 )

ライセンス: CC BY 4.0
Tobias Scheck, Ana Perez Grassi, Gangolf Hirtz(参考訳) 合成画像は、教師付き畳み込みニューラルネットワーク(CNN)をトレーニングするための注釈付きデータセットの生成に伴う高コストを回避する最も有望なソリューションの1つである。 しかし、ネットワークが合成画像から実画像への知識を一般化するためには、ドメイン適応法が必要である。 本稿では、アンカーレス物体検出器に非教師なし領域適応法(UDA)を実装する。 優れた性能のため、アンカーレス検出器は物体検出の分野でますます注目を集めている。 これらの結果は確立されたアンカーベースの手法に匹敵するが、アンカーレス検出器ははるかに高速である。 私たちの研究では、合成画像を含む領域適応問題に対して、最新のアンカーレスアーキテクチャの一つであるCenterNetを使用しました。 アンカーレス検出器のアーキテクチャを利用して,2つのUDA法,ビズ法,エントロピー最小化法,最大二乗損失法を物体検出に適応させることを提案する。 提案手法は, アンカーレス検出器の直接移動に対して, mAPを61 %から69 %まで増加させることができることを示す。 コードはhttps://github.com/s checkmedia/centernet -uda。

Synthetic images are one of the most promising solutions to avoid high costs associated with generating annotated datasets to train supervised convolutional neural networks (CNN). However, to allow networks to generalize knowledge from synthetic to real images, domain adaptation methods are necessary. This paper implements unsupervised domain adaptation (UDA) methods on an anchorless object detector. Given their good performance, anchorless detectors are increasingly attracting attention in the field of object detection. While their results are comparable to the well-established anchor-based methods, anchorless detectors are considerably faster. In our work, we use CenterNet, one of the most recent anchorless architectures, for a domain adaptation problem involving synthetic images. Taking advantage of the architecture of anchorless detectors, we propose to adjust two UDA methods, viz., entropy minimization and maximum squares loss, originally developed for segmentation, to object detection. Our results show that the proposed UDA methods can increase the mAPfrom61 %to69 %with respect to direct transfer on the considered anchorless detector. The code is available: https://github.com/s checkmedia/centernet -uda.
翻訳日:2021-05-08 06:46:57 公開日:2020-12-15
# (参考訳) トピック上の分布からの効率的なクラスタリング [全文訳有]

Efficient Clustering from Distributions over Topics ( http://arxiv.org/abs/2012.08206v1 )

ライセンス: CC BY 4.0
Carlos Badenes-Olmedo, Jose-Luis Redondo Garc\'ia, Oscar Corcho(参考訳) テキストに類似した文書のペアを大きなコーパス(例)で見つけたい、というシナリオはたくさんあります。 文献レビューを行う研究者、またはプロジェクト提案を分析するR&Dプロジェクトマネージャ。 これらの接続をプログラム的に発見することは、専門家がこれらの目標を達成するのに役立つが、ドキュメントコーパスのサイズが大きすぎると、ブルートフォースのペアワイズ比較は計算に適さない。 文献のいくつかのアルゴリズムは、検索空間を潜在的に類似した文書を含む領域に分割し、後に比較したペアの数を減らすために他の部分から別々に処理する。 しかし、このような教師なしの手法は依然として時間的コストが高い。 本稿では、類似度関数を計算可能な文書のより小さなサブセットを識別する手段として、コレクション内の文書に対するトピックモデリングアルゴリズムの結果に依存する手法を提案する。 このアプローチは、科学出版分野における類似文書を特定する際に有望な結果が得られることが証明されている。 我々は,最先端のクラスタリング技術に対する我々のアプローチと,トピックモデリングアルゴリズムの異なる構成との比較を行った。 その結果,本手法は,他の解析手法よりも効率がよい(>0.5)ことが示唆された。

There are many scenarios where we may want to find pairs of textually similar documents in a large corpus (e.g. a researcher doing literature review, or an R&D project manager analyzing project proposals). To programmatically discover those connections can help experts to achieve those goals, but brute-force pairwise comparisons are not computationally adequate when the size of the document corpus is too large. Some algorithms in the literature divide the search space into regions containing potentially similar documents, which are later processed separately from the rest in order to reduce the number of pairs compared. However, this kind of unsupervised methods still incur in high temporal costs. In this paper, we present an approach that relies on the results of a topic modeling algorithm over the documents in a collection, as a means to identify smaller subsets of documents where the similarity function can then be computed. This approach has proved to obtain promising results when identifying similar documents in the domain of scientific publications. We have compared our approach against state of the art clustering techniques and with different configurations for the topic modeling algorithm. Results suggest that our approach outperforms (> 0.5) the other analyzed techniques in terms of efficiency.
翻訳日:2021-05-08 06:33:11 公開日:2020-12-15
# (参考訳) 光文字認識と自然言語後処理を用いたインドネシアのIDカードエクストラクタ [全文訳有]

Indonesian ID Card Extractor Using Optical Character Recognition and Natural Language Post-Processing ( http://arxiv.org/abs/2101.05214v1 )

ライセンス: CC BY 4.0
Firhan Maulana Rusli, Kevin Akbar Adhiguna, Hendy Irawan(参考訳) 情報技術の発展は、印刷文書のデジタル化の必要性につながる情報交換の方法を変えつつある。 現代では、しばしば発生する詐欺が多い。 アカウント不正を避けるため、OCRとNLPを用いたIDカード抽出による検証が行われた。 光文字認識(OCR)は、画像からテキストを生成する技術である。 ocrを使えば、インドネシアのidカードやkartu tanda penduduk(ktp)もテキストに抽出できます。 これは、サービスオペレーターがデータ入力を簡単にするのに役立つ。 精度を向上させるため,自然言語処理(nlp)法を用いてテキストの修正を行った。 インドネシアのidカード画像50枚で0.78fスコア、idカード1枚あたり4510ミリ秒の抽出が必要。

The development of Information Technology has been increasingly changing the means of information exchange leading to the need of digitizing print documents. In the present era, there is a lot of fraud that often occur. To avoid account fraud there was verification using ID card extraction using OCR and NLP. Optical Character Recognition (OCR) is technology that used to generate text from image. With OCR we can extract Indonesian ID card or kartu tanda penduduk (KTP) into text too. This is using to make easier service operator to do data entry. To improve the accuracy we made text correction using Natural language Processing (NLP) method to fixing the text. With 50 Indonesian ID card image we got 0.78 F-score, and we need 4510 milliseconds to extract per ID card.
翻訳日:2021-05-08 06:21:57 公開日:2020-12-15
# (参考訳) ガウス/ユニフォーム混合モデルを用いたロバスト因子化法 [全文訳有]

Robust Factorization Methods Using a Gaussian/Uniform Mixture Model ( http://arxiv.org/abs/2012.08243v1 )

ライセンス: CC BY 4.0
Andrei Zaharescu and Radu Horaud(参考訳) 本稿では,アフィン(弱視点)モデルと遠近距離カメラモデルの両方を用いて,形状と運動パラメータを解消するロバストな分解アルゴリズムのクラスを構築する問題に対処する。 ガウス型/一様混合モデルとそのemアルゴリズムを提案する。 これにより、データクラスタリングアプローチでロバストなパラメータ推定に対処できます。 本稿では,任意のアフィン因子分解法に適合するロバストな手法を提案する。 さらに,このようなフレームワークを反復的視点因子化スキームに組み込む方法を示す。 我々は、アルゴリズムを検証し、既存のものと比較するために、多数の実験を行った。 また,M推定器を用いた因子分解法との比較を行った。

In this paper we address the problem of building a class of robust factorization algorithms that solve for the shape and motion parameters with both affine (weak perspective) and perspective camera models. We introduce a Gaussian/uniform mixture model and its associated EM algorithm. This allows us to address robust parameter estimation within a data clustering approach. We propose a robust technique that works with any affine factorization method and makes it robust to outliers. In addition, we show how such a framework can be further embedded into an iterative perspective factorization scheme. We carry out a large number of experiments to validate our algorithms and to compare them with existing ones. We also compare our approach with factorization methods that use M-estimators.
翻訳日:2021-05-08 05:49:52 公開日:2020-12-15
# (参考訳) 燃え尽きる外来治療のための移動型社会的・職業的統合アシスタントの設計 [全文訳有]

Designing a Mobile Social and Vocational Reintegration Assistant for Burn-out Outpatient Treatment ( http://arxiv.org/abs/2012.08254v1 )

ライセンス: CC BY-SA 4.0
Patrick Gebhard, Tanja Schneeberger, Michael Dietz, Elisabeth Andr\'e, Nida ul Habib Bajwa(参考訳) ソーシャルエージェントを医療助手やトレーナーとして使用することは、IVA研究の焦点となっている。 理学療法としての利用は確立されているが、精神療法の分野での雇用は大変な困難を伴う。 本稿では, 燃え尽き症候群治療のための職業的再統合アシスタントとして, 移動型ソーシャルエージェントであるemmaについて述べる。 専門家や患者を含む典型的な参加型設計アプローチに従い,双方の要求に対応する。 このような治療の成功は、患者の感情調節能力に関連しているため、エージェントの社会的行動に影響を及ぼす感情制御の計算シミュレーションや、言語治療戦略の状況選択と合わせて、リアルタイムの社会的シグナル解釈を行う。 総合的に、我々の学際的アプローチは、燃え尽き症候群患者のアシスタントとしてのソーシャルエージェントの新しい統合概念を可能にする。

Using Social Agents as health-care assistants or trainers is one focus area of IVA research. While their use as physical health-care agents is well established, their employment in the field of psychotherapeutic care comes with daunting challenges. This paper presents our mobile Social Agent EmmA in the role of a vocational reintegration assistant for burn-out outpatient treatment. We follow a typical participatory design approach including experts and patients in order to address requirements from both sides. Since the success of such treatments is related to a patients emotion regulation capabilities, we employ a real-time social signal interpretation together with a computational simulation of emotion regulation that influences the agent's social behavior as well as the situational selection of verbal treatment strategies. Overall, our interdisciplinary approach enables a novel integrative concept for Social Agents as assistants for burn-out patients.
翻訳日:2021-05-08 05:30:37 公開日:2020-12-15
# (参考訳) 機械学習による高スループットスクリーニング [全文訳有]

High throughput screening with machine learning ( http://arxiv.org/abs/2012.08275v1 )

ライセンス: CC BY 4.0
Oleksandr Gurbych, Maksym Druchok, Dzvenymyra Yarish, Sofiya Garkot(参考訳) 本研究では,分子結合親和性の予測における機械学習アプローチの有効性を評価する。CatBoost, Graph Attention Neural Network, Bidirectional Encoder Representations from Transformers。 モデルでは、タンパク質と小さな有機分子の対に対する阻害定数$k_i$の観点で結合親和性を予測するように訓練された。 最初の2つのアプローチは、完全に選択された物理化学的特徴を用いるが、第3のアプローチは、テキストによる分子表現に基づいている。 また,Transformerアプローチの注目層を可視化して,相互作用に関与する分子部位を明らかにする。 すべてのアプローチは、既知の構造からのバイアスを回避し、未知の配座を持つ化合物を一般化することができる。 提案手法で得られた精度は,高スループットスクリーニングの可能性を示す。

This study assesses the efficiency of several popular machine learning approaches in the prediction of molecular binding affinity: CatBoost, Graph Attention Neural Network, and Bidirectional Encoder Representations from Transformers. The models were trained to predict binding affinities in terms of inhibition constants $K_i$ for pairs of proteins and small organic molecules. First two approaches use thoroughly selected physico-chemical features, while the third one is based on textual molecular representations - it is one of the first attempts to apply Transformer-based predictors for the binding affinity. We also discuss the visualization of attention layers within the Transformer approach in order to highlight the molecular sites responsible for interactions. All approaches are free from atomic spatial coordinates thus avoiding bias from known structures and being able to generalize for compounds with unknown conformations. The achieved accuracy for all suggested approaches prove their potential in high throughput screening.
翻訳日:2021-05-08 05:16:46 公開日:2020-12-15
# (参考訳) VSQL: 分類のための変分シャドウ量子学習 [全文訳有]

VSQL: Variational Shadow Quantum Learning for Classification ( http://arxiv.org/abs/2012.08288v1 )

ライセンス: CC BY 4.0
Guangxi Li, Zhixin Song, Xin Wang(参考訳) 量子データの分類は、量子機械学習と短期量子技術に不可欠である。 本稿では,変分影量子学習(VSQL)と呼ばれる,教師付き量子学習のための新しいハイブリッド量子古典的フレームワークを提案する。 特に,量子データの古典的シャドウを用いて,物理観測量に対する量子データの側面情報を表現する。 具体的には,まず変分影量子回路を用いて古典的特徴を畳み込み方法で抽出し,その後,完全連結ニューラルネットワークを用いて分類タスクを完了させる。 本手法は,パラメータ数を著しく削減し,量子回路トレーニングをより容易に行うことができることを示す。 同時に、そのようなシャドウ回路では量子ゲートが少なくなるため、ノイズが少なくなる。 さらに,量子機械学習における重要な勾配解消問題であるバレン高原問題は,VSQLでは回避可能であることを示した。 最後に,量子状態の分類と多段手書き文字の認識に関する数値実験を通して,vsqlの量子分類における効率を示す。 特に当社のvsqlアプローチは,手書き文字認識のバイナリケースにおけるテスト精度において,既存の変分量子分類器よりも優れており,パラメータが大幅に削減されている。

Classification of quantum data is essential for quantum machine learning and near-term quantum technologies. In this paper, we propose a new hybrid quantum-classical framework for supervised quantum learning, which we call Variational Shadow Quantum Learning (VSQL). Our method in particular utilizes the classical shadows of quantum data, which fundamentally represent the side information of quantum data with respect to certain physical observables. Specifically, we first use variational shadow quantum circuits to extract classical features in a convolution way and then utilize a fully-connected neural network to complete the classification task. We show that this method could sharply reduce the number of parameters and thus better facilitate quantum circuit training. Simultaneously, less noise will be introduced since fewer quantum gates are employed in such shadow circuits. Moreover, we show that the Barren Plateau issue, a significant gradient vanishing problem in quantum machine learning, could be avoided in VSQL. Finally, we demonstrate the efficiency of VSQL in quantum classification via numerical experiments on the classification of quantum states and the recognition of multi-labeled handwritten digits. In particular, our VSQL approach outperforms existing variational quantum classifiers in the test accuracy in the binary case of handwritten digit recognition and notably requires much fewer parameters.
翻訳日:2021-05-07 12:56:25 公開日:2020-12-15
# (参考訳) 外部ラベルとドメイン内プリトレインによるマルチモーダルトランスフォーマーの拡張:ヘイトフルミームチャレンジ勝利ソリューション [全文訳有]

Enhance Multimodal Transformer With External Label And In-Domain Pretrain: Hateful Meme Challenge Winning Solution ( http://arxiv.org/abs/2012.08290v1 )

ライセンス: CC BY 4.0
Ron Zhu(参考訳) hateful meme detection(ヘイトフルミーム検出)は、ミームの視覚的、言語的理解と、タスクをうまく実行するための背景知識の両方を必要とする、最近発表された新しい研究領域である。 この技術レポートは、最先端の視覚言語トランスフォーマーを拡張してこの問題に取り組む、ヘイトフルミーム検出チャレンジ2020の1位ソリューションをまとめている。 レポートの最後には、現在の方法論を改善するための欠点と可能性についても指摘します。

Hateful meme detection is a new research area recently brought out that requires both visual, linguistic understanding of the meme and some background knowledge to performing well on the task. This technical report summarises the first place solution of the Hateful Meme Detection Challenge 2020, which extending state-of-the-art visual-linguistic transformers to tackle this problem. At the end of the report, we also point out the shortcomings and possible directions for improving the current methodology.
翻訳日:2021-05-07 11:58:26 公開日:2020-12-15
# (参考訳) quarc:ヘイトスピーチ分類のための4次マルチモーダル融合アーキテクチャ [全文訳有]

QUARC: Quaternion Multi-Modal Fusion Architecture For Hate Speech Classification ( http://arxiv.org/abs/2012.08312v1 )

ライセンス: CC BY 4.0
Deepak Kumar, Nalin Kumar and Subhankar Mishra(参考訳) ヘイトスピーチ(Hate speech)は、ソーシャルメディアの時代において非常に一般的であり、時には無害であることもあるが、誰かやコミュニティの暴動に精神的なトラウマを引き起こすこともある。 特定のコミュニティを悪用する男性の軽蔑的なコメントやビデオを持つ宗教的なシンボルの画像は、すべて、そのあらゆるモダリティ(テキスト、画像、オーディオなど)がそれへ寄与するヘイトスピーチとなる。 ソーシャルメディア上でのヘイトスピーチポストの特定のモダリティに基づくモデルは有用ではなく、ヘイトスピーチを分類しながら画像とテキストの両方を考慮したマルチモーダル融合モデルのようなモデルが必要である。 テキスト画像融合モデルは非常にパラメータ化されているため,2対のモダリティに対して融合成分を付加した四元系ニューラルネットワークモデルを提案する。 このモデルは、ヘイトスピーチ分類のためのMMHS150K twitterデータセットでテストされる。 このモデルではパラメータの約75%が削減され、実際のパラメータに比べてパフォーマンスの面で同等なストレージスペースとトレーニング時間の面でもメリットがあります。

Hate speech, quite common in the age of social media, at times harmless but can also cause mental trauma to someone or even riots in communities. Image of a religious symbol with derogatory comment or video of a man abusing a particular community, all become hate speech with its every modality (such as text, image, and audio) contributing towards it. Models based on a particular modality of hate speech post on social media are not useful, rather, we need models like multi-modal fusion models that consider both image and text while classifying hate speech. Text-image fusion models are heavily parameterized, hence we propose a quaternion neural network-based model having additional fusion components for each pair of modalities. The model is tested on the MMHS150K twitter dataset for hate speech classification. The model shows an almost 75% reduction in parameters and also benefits us in terms of storage space and training time while being at par in terms of performance as compared to its real counterpart.
翻訳日:2021-05-07 11:51:24 公開日:2020-12-15
# (参考訳) 不確実性推定のためのマスク組 [全文訳有]

Masksembles for Uncertainty Estimation ( http://arxiv.org/abs/2012.08334v1 )

ライセンス: CC BY 4.0
Nikita Durasov, Timur Bagautdinov, Pierre Baque, Pascal Fua(参考訳) ディープ・ニューラル・ネットワークは彼らの進歩を十分に実証しているが、予測の信頼性を推定するのは難しい。 深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。 mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。 我々の中心的な直観は、MC-DropoutとDeep Ensemblesが極端な例であるアンサンブルのようなモデルの連続スペクトルが存在するということである。 1つは事実上無限個の高相関モデルを使用し、2つは有限個の独立モデルに依存している。 両方の利点を組み合わせるために、Masksemblesを紹介します。 mc-dropoutのようにネットワークの一部をランダムにドロップする代わりに、 masksembleは固定数のバイナリマスクに依存しており、個々のモデル間の相関を変更できるようにパラメータ化されている。 すなわち、マスクと密度の重なりを制御することで、目の前のタスクの最適な構成を選択することができる。 これにより、Ensemblesと同等のパフォーマンスで、少しのコストで、シンプルで簡単に実装できるメソッドが実現できます。 CIFAR10とImageNetの2つの広く使われているデータセット上で,Masksemblesを実験的に検証した。

Deep neural networks have amply demonstrated their prowess but estimating the reliability of their predictions remains challenging. Deep Ensembles are widely considered as being one of the best methods for generating uncertainty estimates but are very expensive to train and evaluate. MC-Dropout is another popular alternative, which is less expensive, but also less reliable. Our central intuition is that there is a continuous spectrum of ensemble-like models of which MC-Dropout and Deep Ensembles are extreme examples. The first uses an effectively infinite number of highly correlated models while the second relies on a finite number of independent models. To combine the benefits of both, we introduce Masksembles. Instead of randomly dropping parts of the network as in MC-dropout, Masksemble relies on a fixed number of binary masks, which are parameterized in a way that allows to change correlations between individual models. Namely, by controlling the overlap between the masks and their density one can choose the optimal configuration for the task at hand. This leads to a simple and easy to implement method with performance on par with Ensembles at a fraction of the cost. We experimentally validate Masksembles on two widely used datasets, CIFAR10 and ImageNet.
翻訳日:2021-05-07 11:42:45 公開日:2020-12-15
# (参考訳) ロバストニューラルネットワーク翻訳のためのホモホンノイズのモデル化 [全文訳有]

Modeling Homophone Noise for Robust Neural Machine Translation ( http://arxiv.org/abs/2012.08396v1 )

ライセンス: CC BY 4.0
Wenjie Qin, Xiang Li, Yuhui Sun, Deyi Xiong, Jianwei Cui, Bin Wang(参考訳) 本稿では,頑健なニューラルネットワーク翻訳(NMT)フレームワークを提案する。 このフレームワークは、ホモフォーンノイズ検知器と、ホモフォーンエラーに対する音節認識NMTモデルで構成されている。 検出器は、テキスト文中の潜在的ホモフォン誤りを特定し、それらを音節に変換して混合シーケンスを形成し、音節認識NMTに入力する。 広範にわたる中国語訳実験により, 提案手法は, 音素雑音を伴う雑音テスト集合のベースラインを著しく上回るだけでなく, クリーンテキストの大幅な改善を実現した。

In this paper, we propose a robust neural machine translation (NMT) framework. The framework consists of a homophone noise detector and a syllable-aware NMT model to homophone errors. The detector identifies potential homophone errors in a textual sentence and converts them into syllables to form a mixed sequence that is then fed into the syllable-aware NMT. Extensive experiments on Chinese->English translation demonstrate that our proposed method not only significantly outperforms baselines on noisy test sets with homophone noise, but also achieves a substantial improvement on clean text.
翻訳日:2021-05-07 11:27:52 公開日:2020-12-15
# (参考訳) 知識グラフと自然言語処理 [全文訳有]

Knowledge Graphs and Natural-Language Processing ( http://arxiv.org/abs/2101.06111v1 )

ライセンス: CC BY 4.0
Andreas L Opdahl(参考訳) 緊急関連データは多種多様である。 ハイボリュームで高速で、反応時間は重要であり、データ分析と管理のための効率的で強力な技術を求めている。 知識グラフは、緊急管理のニーズによくマッチする、豊かで柔軟な、均一な方法でデータを表現します。 それらは既存の標準、リソース、技術、セマンティックデータとコンピューティングのためのツールの上に構築される。 この章では、最も重要なセマンティック技術と、それらが知識グラフをどのようにサポートするかを説明します。 我々は,それらの利点と課題を議論し,関連する意味的データソースと語彙の例を示す。 自然言語テキスト(特にTwitterのようなソーシャルメディアから集めたもの)は、特定の分析課題を引き起こすデータソースの一種である。 したがって、自然言語テキストの処理技術の概要を含める。

Emergency-relevant data comes in many varieties. It can be high volume and high velocity, and reaction times are critical, calling for efficient and powerful techniques for data analysis and management. Knowledge graphs represent data in a rich, flexible, and uniform way that is well matched with the needs of emergency management. They build on existing standards, resources, techniques, and tools for semantic data and computing. This chapter explains the most important semantic technologies and how they support knowledge graphs. We proceed to discuss their benefits and challenges and give examples of relevant semantic data sources and vocabularies. Natural-language texts -- in particular those collected from social media such as Twitter -- is a type of data source that poses particular analysis challenges. We therefore include an overview of techniques for processing natural-language texts.
翻訳日:2021-05-07 11:19:09 公開日:2020-12-15
# (参考訳) InfluxDBとPythonを用いた時系列データの異常検出 [全文訳有]

Detection of Anomalies in a Time Series Data using InfluxDB and Python ( http://arxiv.org/abs/2012.08439v1 )

ライセンス: CC BY 4.0
Tochukwu John Anih, Chika Amadi Bede, and Chima Festus Umeokpala(参考訳) 水と環境データの分析は多くのインテリジェントな水と環境システムの応用において重要な側面であり、そのような分析からの推論が意思決定において重要な役割を果たす。 センシティブなセンサーによって収集されるこれらのデータは、システムの故障やセンサー検出器の故障など、さまざまな理由により異常な場合がある。 根本原因にかかわらず、これらのデータはその後の分析結果に大きく影響する。 本稿では,時系列データのクリーニングと準備を行い,時系列データの異常点検出のための解としてコストに敏感な機械学習アルゴリズムを提案する。 ロジスティック回帰、ランダムフォレスト、サポートベクターマシンは、誤分類サンプルをペナルティ化するコスト感受性学習をサポートするために修正され、全体的な誤分類コストを最小化する。 その結果,ランダムフォレストは正のクラス(すなわち異常)を予測するのに他のモデルよりも優れていた。 データオーバーサンプリングのような予測モデルの改善技術を適用することは、ランダムフォレストモデルにはほとんど、あるいは全く改善しないようだ。 興味深いことに、再帰的特徴除去により、我々はより良いモデル性能を達成し、データの次元を減らした。 最後に、InfluxdbとKapacitorは、データを取り込み、ストリームし、新しいデータポイントを生成して、目に見えないデータでモデルパフォーマンスを更に評価する。これにより、飲料水の品質の望ましくない変化を早期に認識し、望ましくない変化が何であれ、水供給会社がタイムリーに修正できるようにする。

Analysis of water and environmental data is an important aspect of many intelligent water and environmental system applications where inference from such analysis plays a significant role in decision making. Quite often these data that are collected through sensible sensors can be anomalous due to different reasons such as systems breakdown, malfunctioning of sensor detectors, and more. Regardless of their root causes, such data severely affect the results of the subsequent analysis. This paper demonstrates data cleaning and preparation for time-series data and further proposes cost-sensitive machine learning algorithms as a solution to detect anomalous data points in time-series data. The following models: Logistic Regression, Random Forest, Support Vector Machines have been modified to support the cost-sensitive learning which penalizes misclassified samples thereby minimizing the total misclassification cost. Our results showed that Random Forest outperformed the rest of the models at predicting the positive class (i.e anomalies). Applying predictive model improvement techniques like data oversampling seems to provide little or no improvement to the Random Forest model. Interestingly, with recursive feature elimination, we achieved a better model performance thereby reducing the dimensions in the data. Finally, with Influxdb and Kapacitor the data was ingested and streamed to generate new data points to further evaluate the model performance on unseen data, this will allow for early recognition of undesirable changes in the drinking water quality and will enable the water supply companies to rectify on a timely basis whatever undesirable changes abound.
翻訳日:2021-05-07 11:05:06 公開日:2020-12-15
# (参考訳) 深層埋め込みベクトルの客観的階層クラスタリング

Objective-Based Hierarchical Clustering of Deep Embedding Vectors ( http://arxiv.org/abs/2012.08466v1 )

ライセンス: CC BY 4.0
Stanislav Naumov, Grigory Yaroslavtsev, Dmitrii Avdiukhin(参考訳) 我々は,コンピュータビジョンおよびnlpアプリケーションからの深い埋め込みベクトルからなる大規模データセット上での,客観的な階層クラスタリング手法に関する包括的実験を開始する。 これには、ImageNet、ImageNetV2、NaBirds)、ワード埋め込み(Twitter、Wikipedia)、およびいくつかの最近の人気モデルの文埋め込み(SST-2)ベクターが含まれる。 ResNet, ResNext, Inception V3, SBERT)。 私たちの研究には、最大450万ドルのエントリを持つデータセットが含まれており、埋め込み次元は2048ドルです。 このような大規模データセットへの階層的クラスタリングのスケールアップという課題に対処するため、我々は新しい実用的な階層的クラスタリングアルゴリズムb++&cを提案する。 人気の高いMoseley-Wang (MW) / Cohen-Addad et alでは、平均で5%/20%改善されている。 (CKMM)目的(正規化)は、様々な古典的手法や最近のヒューリスティックスと比較される。 また、CKMMの目的を多項式時間で0.74$-近似する理論アルゴリズムB2SAT&Cを導入する。 これは、ランダムなバイナリツリーによって達成された自明な2/3$-近似に対する最初の実質的な改善である。 この研究に先立ち、$\approx 2/3 + 0.0004$の最も優れたポリ時間近似はCharikarらによる。 (SODA'19)。

We initiate a comprehensive experimental study of objective-based hierarchical clustering methods on massive datasets consisting of deep embedding vectors from computer vision and NLP applications. This includes a large variety of image embedding (ImageNet, ImageNetV2, NaBirds), word embedding (Twitter, Wikipedia), and sentence embedding (SST-2) vectors from several popular recent models (e.g. ResNet, ResNext, Inception V3, SBERT). Our study includes datasets with up to $4.5$ million entries with embedding dimensions up to $2048$. In order to address the challenge of scaling up hierarchical clustering to such large datasets we propose a new practical hierarchical clustering algorithm B++&C. It gives a 5%/20% improvement on average for the popular Moseley-Wang (MW) / Cohen-Addad et al. (CKMM) objectives (normalized) compared to a wide range of classic methods and recent heuristics. We also introduce a theoretical algorithm B2SAT&C which achieves a $0.74$-approximation for the CKMM objective in polynomial time. This is the first substantial improvement over the trivial $2/3$-approximation achieved by a random binary tree. Prior to this work, the best poly-time approximation of $\approx 2/3 + 0.0004$ was due to Charikar et al. (SODA'19).
翻訳日:2021-05-07 09:55:12 公開日:2020-12-15
# (参考訳) 部分観測木CRFを用いたNested Named Entity Recognition [全文訳有]

Nested Named Entity Recognition with Partially-Observed TreeCRFs ( http://arxiv.org/abs/2012.08478v1 )

ライセンス: CC BY 4.0
Yao Fu, Chuanqi Tan, Mosha Chen, Songfang Huang, Fei Huang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理においてよく研究されているタスクである。 しかし、広く使われているシーケンスラベリングフレームワークは、ネスト構造を持つエンティティを検出するのが難しい。 本研究では,nested nerを,部分観測木を用いた構成構文解析として捉え,部分観測木crfを用いてモデル化する。 具体的には、全てのラベル付きエンティティスパンを指数木内の観測ノードとして、その他のスパンを潜在ノードとして見る。 TreeCRFを使用することで、観測されたノードと潜伏ノードを共同でモデル化する均一な方法を実現する。 部分木の部分的辺縁化の確率を計算するために,異なるノードに対する異なる推論操作(観測値の評価,潜伏値の辺縁化,観測値と互換性のないノードの拒絶)を効率よく並列化することで,トレーニングと推論を著しく高速化する,Insideアルゴリズムの変種である‘textsc{Masked Inside} アルゴリズムを提案する。 実験の結果,本手法はace2004,ace2005データセットの最先端(sota)f1スコアを達成し,geniaデータセットのsomaモデルと同等の性能を示す。 当社のアプローチは、次のような形で実装されています。

Named entity recognition (NER) is a well-studied task in natural language processing. However, the widely-used sequence labeling framework is difficult to detect entities with nested structures. In this work, we view nested NER as constituency parsing with partially-observed trees and model it with partially-observed TreeCRFs. Specifically, we view all labeled entity spans as observed nodes in a constituency tree, and other spans as latent nodes. With the TreeCRF we achieve a uniform way to jointly model the observed and the latent nodes. To compute the probability of partial trees with partial marginalization, we propose a variant of the Inside algorithm, the \textsc{Masked Inside} algorithm, that supports different inference operations for different nodes (evaluation for the observed, marginalization for the latent, and rejection for nodes incompatible with the observed) with efficient parallelized implementation, thus significantly speeding up training and inference. Experiments show that our approach achieves the state-of-the-art (SOTA) F1 scores on the ACE2004, ACE2005 dataset, and shows comparable performance to SOTA models on the GENIA dataset. Our approach is implemented at: \url{https://github.com/F ranxYao/Partially-Ob served-TreeCRFs}.
翻訳日:2021-05-07 09:54:06 公開日:2020-12-15
# (参考訳) データサイエンスのための分光法:統計的展望

Spectral Methods for Data Science: A Statistical Perspective ( http://arxiv.org/abs/2012.08496v1 )

ライセンス: CC BY 4.0
Yuxin Chen, Yuejie Chi, Jianqing Fan, Cong Ma(参考訳) スペクトル法は、巨大でノイズの多い不完全なデータから情報を抽出するための単純で驚くほど効果的な手法として登場した。 簡単に言えば、スペクトル法は固有値(resp)に基づいて構築されたアルゴリズムの集合を指す。 特異値)と固有ベクトル(resp。 データから構築されたいくつかの適切に設計された行列の特異ベクトル)。 様々な応用が機械学習、データサイエンス、信号処理で発見されている。 その単純さと有効性のため、スペクトル法は単独の推定器としてだけでなく、他の洗練されたアルゴリズムを初期化して性能を向上させるために頻繁に用いられる。 スペクトル法の研究は古典的行列摂動理論やモーメントの方法に遡ることができるが、過去10年間、非漸近的ランダム行列理論(英語版)の助けを借りて、統計モデリングのレンズを通してその効力を減弱する理論的な進歩を目撃してきた。 このモノグラフは、現代の統計的観点から、体系的で包括的でアクセスしやすいスペクトル法の導入を示し、様々な大規模アプリケーションにおけるアルゴリズムの影響を強調することを目的としている。 特に,統計的精度の目標レベルに達する際のスペクトル法のサンプル効率を特徴付ける方法や,無作為なノイズやデータ不足,反面的な汚職に対して,その安定性を評価する方法など,さまざまな応用分野にまたがるいくつかの中心的疑問を浮き彫りにした。 従来の $\ell_2$ 摂動解析に加えて、固有空間と特異部分空間に対する体系的な $\ell_{\infty}$ と $\ell_{2,\infty}$ 摂動理論を提示する。

Spectral methods have emerged as a simple yet surprisingly effective approach for extracting information from massive, noisy and incomplete data. In a nutshell, spectral methods refer to a collection of algorithms built upon the eigenvalues (resp. singular values) and eigenvectors (resp. singular vectors) of some properly designed matrices constructed from data. A diverse array of applications have been found in machine learning, data science, and signal processing. Due to their simplicity and effectiveness, spectral methods are not only used as a stand-alone estimator, but also frequently employed to initialize other more sophisticated algorithms to improve performance. While the studies of spectral methods can be traced back to classical matrix perturbation theory and methods of moments, the past decade has witnessed tremendous theoretical advances in demystifying their efficacy through the lens of statistical modeling, with the aid of non-asymptotic random matrix theory. This monograph aims to present a systematic, comprehensive, yet accessible introduction to spectral methods from a modern statistical perspective, highlighting their algorithmic implications in diverse large-scale applications. In particular, our exposition gravitates around several central questions that span various applications: how to characterize the sample efficiency of spectral methods in reaching a target level of statistical accuracy, and how to assess their stability in the face of random noise, missing data, and adversarial corruptions? In addition to conventional $\ell_2$ perturbation analysis, we present a systematic $\ell_{\infty}$ and $\ell_{2,\infty}$ perturbation theory for eigenspace and singular subspaces, which has only recently become available owing to a powerful "leave-one-out" analysis framework.
翻訳日:2021-05-07 09:33:58 公開日:2020-12-15
# (参考訳) エンドツーエンドの音声言語理解のためのトランスファー学習の探索 [全文訳有]

Exploring Transfer Learning For End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2012.08549v1 )

ライセンス: CC BY 4.0
Subendhu Rongali, Beiye Liu, Liwei Cai, Konstantine Arkoudas, Chengwei Su, and Wael Hamza(参考訳) Alexa、Siri、Google Assistantなどの音声アシスタントは通常、2段階の音声理解パイプラインを使用する。まず、顧客音声を処理してテキストの書き起こしを生成する自動音声認識(ASR)コンポーネント、続いて自然言語理解(NLU)コンポーネントを使用して、書き起こしを実行可能な仮説にマッピングする。 音声から仮説へ直接移動するエンドツーエンド(E2E)システムは、より魅力的な選択肢である。 これらのシステムはより小さく、より速く、より最適化された。 しかし、それらは大量のエンドツーエンドのトレーニングデータを必要とし、さらに、既に利用可能なASRとNLUのトレーニングデータを利用できない。 本研究では,音声合成やSLU (speech-hypothesis)やNLU (text-hypothesis)などのテキスト・テキスト・タスクを共同で学習するE2Eシステムを提案する。 我々はこれをAudio-Text All-Task (AT-AT) Modelと呼び、個々のタスク、特に限られたデータでトレーニングされたE2Eモデルのパフォーマンスを上回ります。 この結果は、内部音楽データセットと2つの公開データセット、fluentspeech と snips audioで示され、最先端の結果を得る。 我々のモデルは、音声とテキストの両方の入力シーケンスを処理し、ターゲットシーケンスを予測することができるので、新しいドメインからのテキストハイブリッドデータのみをトレーニングすることで、ゼロショットE2E SLUを実行できる。 我々はこのモデルをfacebook top dataset上で評価し、zeroshot e2eパフォーマンスの新しいベンチマークを設定した。 今後,TOPデータセットから収集した音声データについて検討する。

Voice Assistants such as Alexa, Siri, and Google Assistant typically use a two-stage Spoken Language Understanding pipeline; first, an Automatic Speech Recognition (ASR) component to process customer speech and generate text transcriptions, followed by a Natural Language Understanding (NLU) component to map transcriptions to an actionable hypothesis. An end-to-end (E2E) system that goes directly from speech to a hypothesis is a more attractive option. These systems were shown to be smaller, faster, and better optimized. However, they require massive amounts of end-to-end training data and in addition, don't take advantage of the already available ASR and NLU training data. In this work, we propose an E2E system that is designed to jointly train on multiple speech-to-text tasks, such as ASR (speech-transcriptio n) and SLU (speech-hypothesis), and text-to-text tasks, such as NLU (text-hypothesis). We call this the Audio-Text All-Task (AT-AT) Model and we show that it beats the performance of E2E models trained on individual tasks, especially ones trained on limited data. We show this result on an internal music dataset and two public datasets, FluentSpeech and SNIPS Audio, where we achieve state-of-the-art results. Since our model can process both speech and text input sequences and learn to predict a target sequence, it also allows us to do zero-shot E2E SLU by training on only text-hypothesis data (without any speech) from a new domain. We evaluate this ability of our model on the Facebook TOP dataset and set a new benchmark for zeroshot E2E performance. We will soon release the audio data collected for the TOP dataset for future research.
翻訳日:2021-05-07 08:55:13 公開日:2020-12-15
# (参考訳) ディープラーニングを用いたニューラルネットワークを用いたコンピュータシステムの侵入検出 [全文訳有]

Intrusion detection in computer systems by using artificial neural networks with Deep Learning approaches ( http://arxiv.org/abs/2012.08559v1 )

ライセンス: CC BY 4.0
Sergio Hidalgo-Espinoza and Kevin Chamorro-Cupueran and Oscar Chang-Tortolero(参考訳) コンピュータネットワークへの侵入検知は、サイバーセキュリティにおける最も重要な問題の1つとなっている。 攻撃者は情報セキュリティシステムに侵入する新たな脆弱性を発見するため、調査とコーディングを続けます。 その結果、コンピュータシステムはハッカーを困らせるために最新の技術を使って毎日アップグレードされなければならない。 本稿では,ディープラーニングアーキテクチャに基づく侵入検知システムの設計と実装に焦点を当てる。 最初のステップとして、浅いネットワークは、Dataset CICIDS2017から取得した[コンピュータネットワークに]ラベル付きログインでトレーニングされる。 このネットワークの内部動作は、侵入予測精度の関数ピークに達するまでプロットと探索コードを用いて注意深く追跡・調整される。 第2のステップとして、大きな未ラベルデータで訓練されたオートエンコーダが、圧縮された情報と抽象表現を元の浅層ネットワークに供給する中間プロセッサとして使用される。 その結果、ディープアーキテクチャは浅いネットワークのどのバージョンよりも性能が良いことが証明された。 matlabで書かれた関数型コードスクリプトは、実データを使用して証明された再学習可能なシステムを表しており、精度と応答が良好である。

Intrusion detection into computer networks has become one of the most important issues in cybersecurity. Attackers keep on researching and coding to discover new vulnerabilities to penetrate information security system. In consequence computer systems must be daily upgraded using up-to-date techniques to keep hackers at bay. This paper focuses on the design and implementation of an intrusion detection system based on Deep Learning architectures. As a first step, a shallow network is trained with labelled log-in [into a computer network] data taken from the Dataset CICIDS2017. The internal behaviour of this network is carefully tracked and tuned by using plotting and exploring codes until it reaches a functional peak in intrusion prediction accuracy. As a second step, an autoencoder, trained with big unlabelled data, is used as a middle processor which feeds compressed information and abstract representation to the original shallow network. It is proven that the resultant deep architecture has a better performance than any version of the shallow network alone. The resultant functional code scripts, written in MATLAB, represent a re-trainable system which has been proved using real data, producing good precision and fast response.
翻訳日:2021-05-07 08:40:21 公開日:2020-12-15
# (参考訳) 雑音ラベル下のロバスト最適分類木 [全文訳有]

Robust Optimal Classification Trees under Noisy Labels ( http://arxiv.org/abs/2012.08560v1 )

ライセンス: CC BY 4.0
V\'ictor Blanco and Alberto Jap\'on and Justo Puerto(参考訳) 本稿では,学習サンプルにノイズラベルが存在することを考慮し,最適分類木を構築するための新しい手法を提案する。 本手法は,(1)SVMのパラダイムを適用したクラス間の分離マージンを最大化するために,分類木の分割ルールを設計し,(2)ラベルノイズを検知しようとする木の構築中に,トレーニングサンプルのラベルを変更することを許している。 どちらの特徴も考慮され統合され、結果の最適分類木を設計する。 本稿では,本問題に対する混合整数非線形計画式を提案する。 UCI Machine Learningレポジトリから取得した標準データセットのバッテリを解析してテストし、このアプローチの有効性を示す。

In this paper we propose a novel methodology to construct Optimal Classification Trees that takes into account that noisy labels may occur in the training sample. Our approach rests on two main elements: (1) the splitting rules for the classification trees are designed to maximize the separation margin between classes applying the paradigm of SVM; and (2) some of the labels of the training sample are allowed to be changed during the construction of the tree trying to detect the label noise. Both features are considered and integrated together to design the resulting Optimal Classification Tree. We present a Mixed Integer Non Linear Programming formulation for the problem, suitable to be solved using any of the available off-the-shelf solvers. The model is analyzed and tested on a battery of standard datasets taken from UCI Machine Learning repository, showing the effectiveness of our approach.
翻訳日:2021-05-07 08:31:47 公開日:2020-12-15
# (参考訳) 弱教師付きラベル平滑化 [全文訳有]

Weakly Supervised Label Smoothing ( http://arxiv.org/abs/2012.08575v1 )

ライセンス: CC BY 4.0
Gustavo Penha and Claudia Hauff(参考訳) ニューラルネットワークモデル(L2R)のランク付けにおいて,広く用いられている正規化手法であるラベル平滑化(LS)について検討した。 LSは、基底構造ラベルと均一な分布を組み合わせることで、予測に対する信頼性を低下させる。 本研究では,非関連文書のサンプリング方法とLSの有効性の関係を解析し,関連文書と非関連文書との「隠れ類似知識」をLSがどのように捉えているかについて議論する。 さらに、LSから始まるカリキュラム学習アプローチ、つまり、ゼロ・トゥルースラベルのみを用いて何回も繰り返していくことが有益かをテストすることで、LSをさらに分析する。 ニューラルl2rモデルの文脈におけるlsの研究に触発されて,本研究では,接地ラベルの修正過程において,負のサンプル文書の検索スコアを弱い監督信号として活用する,weakly supervised label smoothing (wsls) と呼ばれる新しい手法を提案する。 WSLSは実装が簡単で、ニューラルランサーアーキテクチャを変更する必要はない。 提案手法は,3つの検索タスク-パス検索,類似質問検索,会話応答ランキングの3つにまたがる実験により,ポイントワイドBERTによるランク付けにおけるWSLSが一貫した効率向上をもたらすことを示す。 ソースコードはhttps://anonymous.4o pen.science/r/dac85d 48-6f71-4261-a7d8-04 0da6021c52/で入手できる。

We study Label Smoothing (LS), a widely used regularization technique, in the context of neural learning to rank (L2R) models. LS combines the ground-truth labels with a uniform distribution, encouraging the model to be less confident in its predictions. We analyze the relationship between the non-relevant documents-specifical ly how they are sampled-and the effectiveness of LS, discussing how LS can be capturing "hidden similarity knowledge" between the relevantand non-relevant document classes. We further analyze LS by testing if a curriculum-learning approach, i.e., starting with LS and after anumber of iterations using only ground-truth labels, is beneficial. Inspired by our investigation of LS in the context of neural L2R models, we propose a novel technique called Weakly Supervised Label Smoothing (WSLS) that takes advantage of the retrieval scores of the negative sampled documents as a weak supervision signal in the process of modifying the ground-truth labels. WSLS is simple to implement, requiring no modification to the neural ranker architecture. Our experiments across three retrieval tasks-passage retrieval, similar question retrieval and conversation response ranking-show that WSLS for pointwise BERT-based rankers leads to consistent effectiveness gains. The source code is available at https://anonymous.4o pen.science/r/dac85d 48-6f71-4261-a7d8-04 0da6021c52/.
翻訳日:2021-05-07 08:15:21 公開日:2020-12-15
# (参考訳) 量子d分離と量子信念伝播 [全文訳有]

Quantum d-separation and quantum belief propagation ( http://arxiv.org/abs/2012.09635v1 )

ライセンス: CC BY 4.0
Robert R. Tucci(参考訳) 本論文の目的は、古典的d-分離と古典的信念伝播(BP)を量子領域に一般化することである。 古典的d分離はジュデア・パールの作品のほとんどの重要な要素である。 パールが3つのラングと呼ぶ3つのラングすべてにとって重要である。 したがって、d-分離とbpの量子バージョンを持つことは、パールのベイズネットワークのほとんどが、因果性の理論を含む働きを、直接的に量子空間に翻訳できることを意味する。

The goal of this paper is to generalize classical d-separation and classical Belief Propagation (BP) to the quantum realm. Classical d-separation is an essential ingredient of most of Judea Pearl's work. It is crucial to all 3 rungs of what Pearl calls the 3 rungs of Causation. So having a quantum version of d-separation and BP probably implies that most of Pearl's Bayesian networks work, including his theory of causality, can be translated in a straightforward manner to the quantum realm.
翻訳日:2021-05-07 08:05:42 公開日:2020-12-15
# (参考訳) 衛星画像と位置特徴を用いたハリケーン後被害評価 [全文訳有]

Post-Hurricane Damage Assessment Using Satellite Imagery and Geolocation Features ( http://arxiv.org/abs/2012.08624v1 )

ライセンス: CC BY 4.0
Quoc Dung Cao and Youngjun Choe(参考訳) 緊急管理者や第一対応者にとって、ハリケーンなどの危険イベント後のタイムリーで信頼性の高い状況認識を得ることが不可欠である。 その目標を達成する効果的な方法の1つは、損害評価である。 近年、災害研究者は、衛星やドローンで捉えた画像を利用して、浸水・損傷した建物の数を定量化している。 本稿では,被災地の衛星画像と位置情報を利用して,ハリケーン後の被害建物を識別する混合データ手法を提案する。 この手法は、2017年のヒューストン大都市圏におけるハリケーン・ハーベイのケーススタディに基づいて、画像のみを用いて同様の作業を行うことで大幅に改善した。 この結果は、畳み込みニューラルネットワークや従来の損傷評価手法(例えば、洪水深度や裸地トポロジー)のようなコンピュータビジョンアルゴリズムの進歩を統一する幅広い可能性への扉を開く。 本研究では,画像特徴に付加的な情報を提供するために位置情報機能の創造的な選択を行ったが,ドメイン知識や災害の種類に応じて,イベントの物理的挙動をモデル化するための他の機能を含めることはユーザ次第である。 この研究でキュレートされたデータセットは、オープンに利用可能である(doi: 10.17603/ds2-3cca-f3 98)。

Gaining timely and reliable situation awareness after hazard events such as a hurricane is crucial to emergency managers and first responders. One effective way to achieve that goal is through damage assessment. Recently, disaster researchers have been utilizing imagery captured through satellites or drones to quantify the number of flooded/damaged buildings. In this paper, we propose a mixed data approach, which leverages publicly available satellite imagery and geolocation features of the affected area to identify damaged buildings after a hurricane. The method demonstrated significant improvement from performing a similar task using only imagery features, based on a case study of Hurricane Harvey affecting Greater Houston area in 2017. This result opens door to a wide range of possibilities to unify the advancement in computer vision algorithms such as convolutional neural networks and traditional methods in damage assessment, for example, using flood depth or bare-earth topology. In this work, a creative choice of the geolocation features was made to provide extra information to the imagery features, but it is up to the users to decide which other features can be included to model the physical behavior of the events, depending on their domain knowledge and the type of disaster. The dataset curated in this work is made openly available (DOI: 10.17603/ds2-3cca-f3 98).
翻訳日:2021-05-07 07:57:10 公開日:2020-12-15
# (参考訳) モデル性能のための学習予測間隔 [全文訳有]

Learning Prediction Intervals for Model Performance ( http://arxiv.org/abs/2012.08625v1 )

ライセンス: CC BY 4.0
Benjamin Elder, Matthew Arnold, Anupama Murthi, Jiri Navratil(参考訳) ラベルのないデータ上でのモデルパフォーマンスを理解することは、AIシステムの開発、デプロイ、保守の根本的な課題である。 モデルパフォーマンスは通常、テストセットまたは定期的な手動品質評価を使用して評価される。 自動パフォーマンス予測技術は、この負担を軽減することを目的としているが、潜在的な不正確さと予測に対する信頼の欠如は、その普及を妨げている。 本稿では,モデル性能の予測区間を計算する手法を用いて,性能予測の不確実性の根本問題に対処する。 本手法では,伝達学習を用いて不確実性モデルを訓練し,モデル性能予測の不確かさを推定する。 我々は,広範囲のドリフト条件に対するアプローチを評価し,競争ベースラインよりも大幅に改善した。 この結果により,実世界の利用において,予測間隔や性能予測がはるかに現実的になると考えられる。

Understanding model performance on unlabeled data is a fundamental challenge of developing, deploying, and maintaining AI systems. Model performance is typically evaluated using test sets or periodic manual quality assessments, both of which require laborious manual data labeling. Automated performance prediction techniques aim to mitigate this burden, but potential inaccuracy and a lack of trust in their predictions has prevented their widespread adoption. We address this core problem of performance prediction uncertainty with a method to compute prediction intervals for model performance. Our methodology uses transfer learning to train an uncertainty model to estimate the uncertainty of model performance predictions. We evaluate our approach across a wide range of drift conditions and show substantial improvement over competitive baselines. We believe this result makes prediction intervals, and performance prediction in general, significantly more practical for real-world use.
翻訳日:2021-05-07 07:45:49 公開日:2020-12-15
# 時空間推論のためのオブジェクトベース注意:柔軟な分散アーキテクチャを用いたニューロシンボリックモデルの性能向上

Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures ( http://arxiv.org/abs/2012.08508v1 )

ライセンス: Link先を確認
David Ding, Felix Hill, Adam Santoro, Matt Botvinick(参考訳) ニューラルネットワークは様々な知覚的タスクで成功を収めてきたが、高レベルの推論を必要とするタスクを解くことはできないとしばしば述べられている。 CLEVRERとCATERという2つの新しいタスクドメインが最近開発され、物体間の時空間相互作用の文脈において、知覚とは対照的に推論に焦点を当てている。 これらの領域での最初の実験では、論理エンジンと言語パーサとニューラルネットワーク知覚フロントエンドを結合したニューロシンボリックアプローチが、完全に学習された分散ネットワークを実質的に上回っていることが判明した。 そこで,本研究では,正しい帰納的バイアスを持つ完全学習型ニューラルネットワークが,これら2つの課題,特に知覚よりも推論を最も重視する問題において,従来のすべてのニューラルシンボリックモデルよりも有意に優れた性能を発揮することを示す。 我々のモデルは,自己注意と学習対象中心の表現,およびBERTスタイルの半教師付き予測損失の両方を批判的に活用する。 これらの柔軟なバイアスにより、私たちのモデルは、利用可能なラベル付きデータの60%未満を使用して、過去のニューロシンボリックな最先端技術を上回ることができる。 これらの結果は、これらのデータセットを含む以前の研究で述べられたニューロシンボリック・テーゼに反するものであり、ニューラルネットワークが物理的事象の因果的、動的構造について効果的に推論できるという証拠を提供する。

Neural networks have achieved success in a wide array of perceptual tasks, but it is often stated that they are incapable of solving tasks that require higher-level reasoning. Two new task domains, CLEVRER and CATER, have recently been developed to focus on reasoning, as opposed to perception, in the context of spatio-temporal interactions between objects. Initial experiments on these domains found that neuro-symbolic approaches, which couple a logic engine and language parser with a neural perceptual front-end, substantially outperform fully-learned distributed networks, a finding that was taken to support the above thesis. Here, we show on the contrary that a fully-learned neural network with the right inductive biases can perform substantially better than all previous neural-symbolic models on both of these tasks, particularly on questions that most emphasize reasoning over perception. Our model makes critical use of both self-attention and learned "soft" object-centric representations, as well as BERT-style semi-supervised predictive losses. These flexible biases allow our model to surpass the previous neuro-symbolic state-of-the-art using less than 60% of available labelled data. Together, these results refute the neuro-symbolic thesis laid out by previous work involving these datasets, and they provide evidence that neural networks can indeed learn to reason effectively about the causal, dynamic structure of physical events.
翻訳日:2021-05-07 05:42:02 公開日:2020-12-15
# オンライン学習における政策最適化

Policy Optimization as Online Learning with Mediator Feedback ( http://arxiv.org/abs/2012.08225v1 )

ライセンス: Link先を確認
Alberto Maria Metelli, Matteo Papini, Pierluca D'Oro, and Marcello Restelli(参考訳) ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。 本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。 標準のバンディットフィードバックと比較して、追加可能な情報は、あるポリシーが生成したサンプルを再利用することで、他のポリシーのパフォーマンスを見積もることができる。 そこで本研究では,既存の楽観的手法とは異なるランダム化探索戦略を用いたpoにおける後悔の最小化を目的とした,複数重要サンプリングによるランダム化探索(randomist)によるランダム化探索政策最適化手法を提案する。 方針空間が有限であれば、ある状況下では、常に対数的後悔を享受しながら、一定の後悔を達成できることを示す。 我々はまた、問題依存の後悔の限界を導出する。 そして、RANDOMISTをコンパクトなポリシー空間に拡張する。 最後に,po とbandit のベースラインと比較して,有限およびコンパクトなポリシー空間の数値シミュレーションを行う。

Policy Optimization (PO) is a widely used approach to address continuous control tasks. In this paper, we introduce the notion of mediator feedback that frames PO as an online learning problem over the policy space. The additional available information, compared to the standard bandit feedback, allows reusing samples generated by one policy to estimate the performance of other policies. Based on this observation, we propose an algorithm, RANDomized-explorati on policy Optimization via Multiple Importance Sampling with Truncation (RANDOMIST), for regret minimization in PO, that employs a randomized exploration strategy, differently from the existing optimistic approaches. When the policy space is finite, we show that under certain circumstances, it is possible to achieve constant regret, while always enjoying logarithmic regret. We also derive problem-dependent regret lower bounds. Then, we extend RANDOMIST to compact policy spaces. Finally, we provide numerical simulations on finite and compact policy spaces, in comparison with PO and bandit baselines.
翻訳日:2021-05-07 05:40:54 公開日:2020-12-15
# BeBold: 探索地域の境界を越えた探索

BeBold: Exploration Beyond the Boundary of Explored Regions ( http://arxiv.org/abs/2012.08621v1 )

ライセンス: Link先を確認
Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph E. Gonzalez, Yuandong Tian(参考訳) スパース報酬の下での効率的な探索は、深層強化学習の重要な課題である。 探索のガイドとして,従来の研究は本質的な報酬(IR)を広く活用していた。 IRには訪問数、好奇心、国家差など多くのヒューリスティックがある。 本稿では,各手法の長所と短所を解析し,逆訪問回数の規制的差をIRの簡易かつ効果的な基準として提案する。 この基準は、調査対象の領域の境界を越えて探索し、近視力や分断のようなカウントベースの方法における共通の問題を緩和するのに役立つ。 その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。 一方、以前のSoTAはタスクの50%しか解決していない。 BeBoldはまた、より難しい手続き的に生成された環境を含む人気のあるローグのようなゲームNetHackの複数のタスクでSoTAを達成している。

Efficient exploration under sparse rewards remains a key challenge in deep reinforcement learning. To guide exploration, previous work makes extensive use of intrinsic reward (IR). There are many heuristics for IR, including visitation counts, curiosity, and state-difference. In this paper, we analyze the pros and cons of each method and propose the regulated difference of inverse visitation counts as a simple but effective criterion for IR. The criterion helps the agent explore Beyond the Boundary of explored regions and mitigates common issues in count-based methods, such as short-sightedness and detachment. The resulting method, BeBold, solves the 12 most challenging procedurally-generat ed tasks in MiniGrid with just 120M environment steps, without any curriculum learning. In comparison, the previous SoTA only solves 50% of the tasks. BeBold also achieves SoTA on multiple tasks in NetHack, a popular rogue-like game that contains more challenging procedurally-generat ed environments.
翻訳日:2021-05-07 05:40:39 公開日:2020-12-15
# Max-min Fairnessにおけるオンライン学習需要

Online Learning Demands in Max-min Fairness ( http://arxiv.org/abs/2012.08648v1 )

ライセンス: Link先を確認
Kirthevasan Kandasamy, Gur-Eyal Sela, Joseph E Gonzalez, Michael I Jordan, Ion Stoica(参考訳) 本稿では,複数のユーザ間のリソース割り当ての仕組みを,リソース要件を知らない場合であっても,効率的で公平で戦略に準拠した方法で記述する。 このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される。 各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。 このような状況は、組織内の多くのユーザの間で計算クラスタの共有使用において一般的であり、すべてのチームが自分のジョブを実行するために必要なリソースの量を正確に把握できない場合がある。 要件を過小評価することで、ユーザは必要よりも少なく、その結果、目標を達成できなくなります。 過度に集計することで、組織内の他の人々に役立つ貴重なリソースを取り除くことができる。 我々は、オンライン学習のこの課題を、この設定に適用可能な効率性、公平性、戦略防御性の概念を通して公正な区分で定式化し、この問題を3種類のフィードバックで研究する: ユーザの観察が決定論的であるとき、確率的かつパラメトリックなモデルに従うとき、そして、それらが確率的かつ非パラメトリックであるとき。 我々はこれらの要求を満たす古典的な最大値公正手順にインスパイアされたメカニズムを導出し、それらが漸近速度によって達成される範囲を定量化する。 我々はこれらの知見を合成問題とweb保存タスクに関する実験的評価で裏付ける。

We describe mechanisms for the allocation of a scarce resource among multiple users in a way that is efficient, fair, and strategy-proof, but when users do not know their resource requirements. The mechanism is repeated for multiple rounds and a user's requirements can change on each round. At the end of each round, users provide feedback about the allocation they received, enabling the mechanism to learn user preferences over time. Such situations are common in the shared usage of a compute cluster among many users in an organisation, where all teams may not precisely know the amount of resources needed to execute their jobs. By understating their requirements, users will receive less than they need and consequently not achieve their goals. By overstating them, they may siphon away precious resources that could be useful to others in the organisation. We formalise this task of online learning in fair division via notions of efficiency, fairness, and strategy-proofness applicable to this setting, and study this problem under three types of feedback: when the users' observations are deterministic, when they are stochastic and follow a parametric model, and when they are stochastic and nonparametric. We derive mechanisms inspired by the classical max-min fairness procedure that achieve these requisites, and quantify the extent to which they are achieved via asymptotic rates. We corroborate these insights with an experimental evaluation on synthetic problems and a web-serving task.
翻訳日:2021-05-07 05:40:25 公開日:2020-12-15
# Amazon SageMaker自動モデルチューニング:スケーラブルなブラックボックス最適化

Amazon SageMaker Automatic Model Tuning: Scalable Black-box Optimization ( http://arxiv.org/abs/2012.08489v1 )

ライセンス: Link先を確認
Valerio Perrone, Huibin Shen, Aida Zolic, Iaroslav Shcherbatyi, Amr Ahmed, Tanya Bansal, Michele Donini, Fela Winkelmolen, Rodolphe Jenatton, Jean Baptiste Faddoul, Barbara Pogorzelska, Miroslav Miladinovic, Krishnaram Kenthapadi, Matthias Seeger, C\'edric Archambeau(参考訳) 複雑な機械学習システムのチューニングは難しい。 機械学習モデルは、通常、正規化、アーキテクチャ、最適化パラメータといった一連のハイパーパラメータを公開する。 このようなシステムへのアクセスを民主化するには、このチューニングプロセスを自動化する必要がある。 本稿では,大規模なブラックボックス最適化システムであるAmazon SageMaker Automatic Model Tuning (AMT)を提案する。 AMTは、異なるハイパーパラメータ構成で繰り返しトレーニングすることで、機械学習モデルの最良のバージョンを見つける。 ランダム検索またはベイズ最適化のいずれかを利用して、ユーザが選択したメトリックによって測定されるように、最高のパフォーマンスモデルをもたらすハイパーパラメータ値を選択する。 amtは、組み込みアルゴリズム、カスタムアルゴリズム、および機械学習フレームワーク用のamazon sagemakerプリビルドコンテナで使用することができる。 コア機能、システムアーキテクチャ、設計原則について論じます。 また,amtの提供するより高度な機能として,早期停止の自動化やウォームスタート,実験でのメリットの実証なども紹介する。

Tuning complex machine learning systems is challenging. Machine learning models typically expose a set of hyperparameters, be it regularization, architecture, or optimization parameters, whose careful tuning is critical to achieve good performance. To democratize access to such systems, it is essential to automate this tuning process. This paper presents Amazon SageMaker Automatic Model Tuning (AMT), a fully managed system for black-box optimization at scale. AMT finds the best version of a machine learning model by repeatedly training it with different hyperparameter configurations. It leverages either random search or Bayesian optimization to choose the hyperparameter values resulting in the best-performing model, as measured by the metric chosen by the user. AMT can be used with built-in algorithms, custom algorithms, and Amazon SageMaker pre-built containers for machine learning frameworks. We discuss the core functionality, system architecture and our design principles. We also describe some more advanced features provided by AMT, such as automated early stopping and warm-starting, demonstrating their benefits in experiments.
翻訳日:2021-05-07 05:39:58 公開日:2020-12-15
# エンティティアライメントのための関係認識近傍マッチングモデル

Relation-Aware Neighborhood Matching Model for Entity Alignment ( http://arxiv.org/abs/2012.08128v1 )

ライセンス: Link先を確認
Yao Zhu, Hongzhi Liu, Zhonghai Wu, Yingpeng Du(参考訳) 異なる知識グラフ(kgs)からエンティティを同じ意味に結びつけることを目的としたエンティティアライメントは、知識融合の重要なステップである。 既存の研究は、エンティティアライメントにkgの構造情報を活用することで、エンティティの埋め込みを学習することに焦点を当てている。 これらの手法は隣接ノードからの情報を集約するが、隣接ノードからのノイズを発生させることもある。 最近では、いくつかの研究者が隣接するノードをペアで比較してエンティティアライメントを強化しようとした。 しかし、近隣のマッチングにおいても重要なエンティティ間の関係を無視した。 さらに、既存の手法では、エンティティアライメントと関係アライメントの間のポジティブな相互作用にはあまり注意を払わなかった。 これらの問題に対処するため,エンティティアライメントのためのRNMという新しい関係認識近傍マッチングモデルを提案する。 具体的には、近傍マッチングを利用してエンティティアライメントを強化することを提案する。 隣り合うノードを比較することに加えて、接続された関係から有用な情報を探究する。 さらに、反復的フレームワークは、エンティティアライメントと関係アライメントの間の正の相互作用を半教師付き方法で活用するように設計されている。 3つの実世界のデータセットによる実験結果から,提案モデルRNMは最先端の手法よりも優れた性能を示した。

Entity alignment which aims at linking entities with the same meaning from different knowledge graphs (KGs) is a vital step for knowledge fusion. Existing research focused on learning embeddings of entities by utilizing structural information of KGs for entity alignment. These methods can aggregate information from neighboring nodes but may also bring noise from neighbors. Most recently, several researchers attempted to compare neighboring nodes in pairs to enhance the entity alignment. However, they ignored the relations between entities which are also important for neighborhood matching. In addition, existing methods paid less attention to the positive interactions between the entity alignment and the relation alignment. To deal with these issues, we propose a novel Relation-aware Neighborhood Matching model named RNM for entity alignment. Specifically, we propose to utilize the neighborhood matching to enhance the entity alignment. Besides comparing neighbor nodes when matching neighborhood, we also try to explore useful information from the connected relations. Moreover, an iterative framework is designed to leverage the positive interactions between the entity alignment and the relation alignment in a semi-supervised manner. Experimental results on three real-world datasets demonstrate that the proposed model RNM performs better than state-of-the-art methods.
翻訳日:2021-05-07 05:39:43 公開日:2020-12-15
# 説明可能な抽象列車データセット

Explainable Abstract Trains Dataset ( http://arxiv.org/abs/2012.12115v1 )

ライセンス: Link先を確認
Manuel de Sousa Ribeiro, Ludwig Krippahl, Joao Leite(参考訳) 説明可能な抽象列車データセットは、列車の簡易表現を含むイメージデータセットである。 正当化と説明抽出のためのアルゴリズムの応用と研究のためのプラットフォームを提供することを目的としている。 データセットには、その視覚特性に基づいて表現された列車を概念化し分類するオントロジーが付属しており、各列車のラベル付け方法を正確に理解することができる。 データセットの各画像は、列車の特徴を記述した複数の属性と、列車要素のバウンディングボックスでアノテートされる。

The Explainable Abstract Trains Dataset is an image dataset containing simplified representations of trains. It aims to provide a platform for the application and research of algorithms for justification and explanation extraction. The dataset is accompanied by an ontology that conceptualizes and classifies the depicted trains based on their visual characteristics, allowing for a precise understanding of how each train was labeled. Each image in the dataset is annotated with multiple attributes describing the trains' features and with bounding boxes for the train elements.
翻訳日:2021-05-07 05:38:43 公開日:2020-12-15
# 限定ラベルデータを用いた病理所見からの腫瘍属性分類のための富化アノテーション

Enriched Annotations for Tumor Attribute Classification from Pathology Reports with Limited Labeled Data ( http://arxiv.org/abs/2012.08113v1 )

ライセンス: Link先を確認
Nick Altieri, Briton Park, Mara Olson, John DeNero, Anobel Odisho, Bin Yu(参考訳) 精密医療は医療に革命をもたらす可能性があるが、患者のデータの多くは構造化されていない自由テキストに閉じ込められ、効果的なパーソナライズされた治療の研究と提供を制限する。 臨床ノートから情報を取り出すために大量の注釈付きデータセットを生成することは、高品質なアノテーションに必要な高度な専門知識のため、しばしば困難で費用がかかる。 小データセットサイズでの自然言語処理を実現するため,我々は,新しい階層型アノテーションスキームとアルゴリズムである Supervised Line Attention (SLA) を開発し,このアルゴリズムを適用して,カリフォルニア大学サンフランシスコ校 (UCSF) の腎および大腸癌の病理報告から分類的腫瘍特性を予測する。 以前の作業では、文書レベルのラベルに注釈を付けるだけだったが、アノテーションを付けている人たちには、最終ラベルの関連する行や潜在的な行を強調するように依頼することで、従来のラベルの強化を依頼し、ドキュメントごとに20%のアノテーション時間の増加がもたらされた。 このアノテーションにより、文書中の関連行をまず予測し、次に腫瘍属性を予測する、シンプルで解釈可能な機械学習アルゴリズムを開発する。 以上の結果から,癌1例につき32,64,128,および186のラベル付き文書の小さなデータセットサイズにおいて,SLAは同等あるいは優れたマイクロf1およびマクロf1スコアを達成するための最先端手法としてラベル付き文書の半数しか必要としないことがわかった。 アノテーション時間の増加を考慮すると、このことは、美術品の状態よりも総アノテーション時間の40%削減につながる。

Precision medicine has the potential to revolutionize healthcare, but much of the data for patients is locked away in unstructured free-text, limiting research and delivery of effective personalized treatments. Generating large annotated datasets for information extraction from clinical notes is often challenging and expensive due to the high level of expertise needed for high quality annotations. To enable natural language processing for small dataset sizes, we develop a novel enriched hierarchical annotation scheme and algorithm, Supervised Line Attention (SLA), and apply this algorithm to predicting categorical tumor attributes from kidney and colon cancer pathology reports from the University of California San Francisco (UCSF). Whereas previous work only annotated document level labels, we in addition ask the annotators to enrich the traditional label by asking them to also highlight the relevant line or potentially lines for the final label, which leads to a 20% increase of annotation time required per document. With the enriched annotations, we develop a simple and interpretable machine learning algorithm that first predicts the relevant lines in the document and then predicts the tumor attribute. Our results show across the small dataset sizes of 32, 64, 128, and 186 labeled documents per cancer, SLA only requires half the number of labeled documents as state-of-the-art methods to achieve similar or better micro-f1 and macro-f1 scores for the vast majority of comparisons that we made. Accounting for the increased annotation time, this leads to a 40% reduction in total annotation time over the state of the art.
翻訳日:2021-05-07 05:38:35 公開日:2020-12-15
# *-CFQ: 構成タスクにおける機械学習のスケーラビリティの分析

*-CFQ: Analyzing the Scalability of Machine Learning on a Compositional Task ( http://arxiv.org/abs/2012.08266v1 )

ライセンス: Link先を確認
Dmitry Tsarkov, Tibor Tihon, Nathan Scales, Nikola Momchev, Danila Sinopalnikov, Nathanael Sch\"arli(参考訳) 本稿では,現実的な構成タスク設定における機械学習システムのスケーラビリティの原理的調査を目的とした,CFQセマンティック解析ベンチマークに基づく,さまざまな範囲の大規模データセットスイートである*-CFQ(star-CFQ)を提案する。 このスイートを用いて,一定計算コストの条件下でのトレーニングサイズの増加によるトランスフォーマーの能力について,一連の実験を行った。 構成的一般化は,すべてのトレーニングサイズにおいて依然として課題であり,自然言語の範囲の増大は,トレーニングデータの増加によって部分的にオフセットされるだけで,常に高いエラー率をもたらすことを示す。 さらに、関連ドメインからの追加のトレーニングデータにより、データ探索時の精度が向上する一方で、この改善は制限され、関連するドメインから対象ドメインへの距離が増加するにつれて減少することを示す。

We present *-CFQ ("star-CFQ"): a suite of large-scale datasets of varying scope based on the CFQ semantic parsing benchmark, designed for principled investigation of the scalability of machine learning systems in a realistic compositional task setting. Using this suite, we conduct a series of experiments investigating the ability of Transformers to benefit from increased training size under conditions of fixed computational cost. We show that compositional generalization remains a challenge at all training sizes, and we show that increasing the scope of natural language leads to consistently higher error rates, which are only partially offset by increased training data. We further show that while additional training data from a related domain improves the accuracy in data-starved situations, this improvement is limited and diminishes as the distance from the related domain to the target domain increases.
翻訳日:2021-05-07 05:37:59 公開日:2020-12-15
# 潜在感性属性を用いた多視点感性分析

Multi-Aspect Sentiment Analysis with Latent Sentiment-Aspect Attribution ( http://arxiv.org/abs/2012.08407v1 )

ライセンス: Link先を確認
Yifan Zhang, Fan Yang, Marjan Hosseinia, Arjun Mukherjee(参考訳) 本稿では,感傷的帰属モジュール (SAAM) と呼ばれる新しいフレームワークを紹介する。 SAAMは従来のニューラルネットワーク上で動作し、マルチアスペクトの感情分類と感情回帰の問題を解決するように設計されている。 このフレームワークは文レベルの埋め込み特徴と文書レベルのアスペクトレーティングスコアのバリエーションの相関を利用して動作する。 我々は、CNNおよびRNNベースのモデル上に、我々のフレームワークのバリエーションをいくつか示す。 ホテルレビューデータセットとビールレビューデータセットの実験により、SAAMは対応するベースモデルよりも感情分析性能を向上させることが示された。 さらに、文レベルのスコアを文書レベルのスコアに直感的に組み合わせることにより、データに対する深い洞察(例えば、半教師付き文のアスペクトラベリング)を提供することができる。 そこで,本論文では,感情スニペット抽出など他のアプリケーションに対するモデルの可能性を示す詳細な分析を行った。

In this paper, we introduce a new framework called the sentiment-aspect attribution module (SAAM). SAAM works on top of traditional neural networks and is designed to address the problem of multi-aspect sentiment classification and sentiment regression. The framework works by exploiting the correlations between sentence-level embedding features and variations of document-level aspect rating scores. We demonstrate several variations of our framework on top of CNN and RNN based models. Experiments on a hotel review dataset and a beer review dataset have shown SAAM can improve sentiment analysis performance over corresponding base models. Moreover, because of the way our framework intuitively combines sentence-level scores into document-level scores, it is able to provide a deeper insight into data (e.g., semi-supervised sentence aspect labeling). Hence, we end the paper with a detailed analysis that shows the potential of our models for other applications such as sentiment snippet extraction.
翻訳日:2021-05-07 05:37:44 公開日:2020-12-15
# EmpLite:短いテキストの強調選択のための軽量シーケンスラベルモデル

EmpLite: A Lightweight Sequence Labeling Model for Emphasis Selection of Short Texts ( http://arxiv.org/abs/2101.03025v1 )

ライセンス: Link先を確認
Vibhav Agarwal, Sourav Ghosh, Kranti Chalamalasetti, Bharath Challa, Sonal Kumari, Harshavardhana, Barath Raj Kandur Raja(参考訳) テキストコンテンツにおける単語強調は、サイズ、色、書体、スタイル(ボールド、イタリックなど)を変えることで、望ましい意図を伝えることを目的としている。 ほか、タイポグラフィー機能もある。 強調された単語は、著者が強調したい特定の情報に読者の注意を引くのに非常に役立つ。 しかし、ソーシャルメディアのインタラクションにソフトキーボードを使うことは時間を要するため、関連する学習曲線を持つ。 本稿では,短い文章に対する単語検出の重み付けを自動化する新しい手法を提案する。 我々の知る限り、この研究は、強調選択のスマートフォン展開のための、初めての軽量なディープラーニングアプローチを示す。 実験の結果,既存のモデルよりもずっと小さいモデルサイズで比較精度が得られることがわかった。 我々の最も軽量なモデルはメモリフットプリントが2.82MBで、SemEval-2020公開ベンチマークデータセットのスコアは0.716である。

Word emphasis in textual content aims at conveying the desired intention by changing the size, color, typeface, style (bold, italic, etc.), and other typographical features. The emphasized words are extremely helpful in drawing the readers' attention to specific information that the authors wish to emphasize. However, performing such emphasis using a soft keyboard for social media interactions is time-consuming and has an associated learning curve. In this paper, we propose a novel approach to automate the emphasis word detection on short written texts. To the best of our knowledge, this work presents the first lightweight deep learning approach for smartphone deployment of emphasis selection. Experimental results show that our approach achieves comparable accuracy at a much lower model size than existing models. Our best lightweight model has a memory footprint of 2.82 MB with a matching score of 0.716 on SemEval-2020 public benchmark dataset.
翻訳日:2021-05-07 05:37:08 公開日:2020-12-15
# 量子化ニューラルネットワークのスケーラブルな検証(技術報告)

Scalable Verification of Quantized Neural Networks (Technical Report) ( http://arxiv.org/abs/2012.08185v1 )

ライセンス: Link先を確認
Thomas A. Henzinger, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c(参考訳) ニューラルネットワークの形式的検証は研究の活発なトピックであり、最近の進歩により、検証ツールが扱えるネットワークのサイズが大幅に増加した。 しかし,ほとんどの手法は実数演算上で動作し,ラウンドリング不正確さを無視する実ネットワークの理想的なモデルを検証するために設計されている。 この理想化は、数値の精度を計算効率と交換する手法であるネットワーク量子化とは対照的であり、したがって実際にはしばしば適用される。 このような低ビット量子化ニューラルネットワークの丸め誤差を無視すると、ネットワークの正しさに関する誤った結論が導かれる。 したがって、量子化されたニューラルネットワークを検証するための望ましいアプローチは、これらの丸め誤差を考慮するものである。 本稿では,ビットベクトル仕様のみを満足できる理想化された実数値ネットワークを検証したとしても,ビットベクトル仕様による量子化ニューラルネットワークの実装がPSPACEハードであることを示す。 さらに,理想化とビット実行検証の複雑性ギャップを埋めるための実用的ヒューリスティックスについて検討する。 特に,SMTに基づく量子化ニューラルネットワークの検証をよりスケーラブルにするための3つの手法を提案する。 実験の結果,提案手法では既存手法に比べて最大3桁の高速化が可能となった。

Formal verification of neural networks is an active topic of research, and recent advances have significantly increased the size of the networks that verification tools can handle. However, most methods are designed for verification of an idealized model of the actual network which works over real arithmetic and ignores rounding imprecisions. This idealization is in stark contrast to network quantization, which is a technique that trades numerical precision for computational efficiency and is, therefore, often applied in practice. Neglecting rounding errors of such low-bit quantized neural networks has been shown to lead to wrong conclusions about the network's correctness. Thus, the desired approach for verifying quantized neural networks would be one that takes these rounding errors into account. In this paper, we show that verifying the bit-exact implementation of quantized neural networks with bit-vector specifications is PSPACE-hard, even though verifying idealized real-valued networks and satisfiability of bit-vector specifications alone are each in NP. Furthermore, we explore several practical heuristics toward closing the complexity gap between idealized and bit-exact verification. In particular, we propose three techniques for making SMT-based verification of quantized neural networks more scalable. Our experiments demonstrate that our proposed methods allow a speedup of up to three orders of magnitude over existing approaches.
翻訳日:2021-05-07 05:36:53 公開日:2020-12-15
# モデル検証のための畳み込み規則付き二元ニューラルネットワークからの規則抽出

Rule Extraction from Binary Neural Networks with Convolutional Rules for Model Validation ( http://arxiv.org/abs/2012.08459v1 )

ライセンス: Link先を確認
Sophie Burkhardt, Jannis Brugger, Nicolas Wagner, Zahra Ahmadi, Kristian Kersting and Stefan Kramer(参考訳) ほとんどのディープニューラルネットワークはブラックボックスであると考えられており、その出力は解釈が難しい。 対照的に、論理表現は、分散表現の代わりに自然言語に意味的に近い記号を使用するため、より理解しやすいと考えられている。 しかし、画像などの高次元入力データに対して、個々のシンボル、すなわち、 ピクセルは簡単には解釈できない。 本稿では,畳み込みニューラルネットワーク(cnn)を用いて抽出可能な論理規則であり,その複雑さは畳み込みフィルタのサイズに依存するが,入力の次元性には依存しない一階畳み込みルールの概念を導入する。 本手法は,確率的局所探索を用いたバイナリニューラルネットワークからの規則抽出に基づいている。 我々は、必ずしも短いものではなく、入力の特徴であり、可視化が容易なルールの抽出方法を示す。 実験の結果,提案手法はニューラルネットワークの機能をモデル化できると同時に,解釈可能な論理ルールを生成できることがわかった。

Most deep neural networks are considered to be black boxes, meaning their output is hard to interpret. In contrast, logical expressions are considered to be more comprehensible since they use symbols that are semantically close to natural language instead of distributed representations. However, for high-dimensional input data such as images, the individual symbols, i.e. pixels, are not easily interpretable. We introduce the concept of first-order convolutional rules, which are logical rules that can be extracted using a convolutional neural network (CNN), and whose complexity depends on the size of the convolutional filter and not on the dimensionality of the input. Our approach is based on rule extraction from binary neural networks with stochastic local search. We show how to extract rules that are not necessarily short, but characteristic of the input, and easy to visualize. Our experiments show that the proposed approach is able to model the functionality of the neural network while at the same time producing interpretable logical rules.
翻訳日:2021-05-07 05:35:56 公開日:2020-12-15
# 層幅量子化解析によるニューラルネットワーク量子化の探索

Exploring Neural Networks Quantization via Layer-Wise Quantization Analysis ( http://arxiv.org/abs/2012.08420v1 )

ライセンス: Link先を確認
Shachar Gluska and Mark Grobman(参考訳) 量子化は、ディープラーニングモデルの効率的なデプロイにおける重要なステップであり、ますます人気のある研究トピックである。 現在の文献では触れられていない重要な実践的側面は、量子化の使用が過度に劣化するケースを分析し、修正する方法である。 本稿では,レイヤごとのコントリビューション全体の劣化を分解する,シンプルな分析フレームワークを提案する。 多くの共通ネットワークを分析し,各レイヤの寄与度を,各レイヤの重みとアクティベーションの分布である内在的(局所)因子と,他のレイヤとの相互作用と関係のある外在的(グローバル)因子の両方によって決定する。 既存の量子化スキームの層別分析は、全体的なパフォーマンスを検査する際に反映されない既存の技術の局所的なフェールケースを明らかにする。 一例として,SoTAポストトレーニング量子化手法が不十分なResNext26を考える。 ほとんどすべての劣化は1つの層に由来することを示す。 同じ解析によって局所的な修正も可能になった – この層のみに共通のウェイトクリッピングヒューリスティックを適用することで,グローバルに同じヒューリスティックを適用した場合,劣化は最小限に抑えられる。 より一般に、層別分析は、量子化がネットワークにどのように影響するかをより微妙な検証を可能にし、より良い実行スキームの設計を可能にする。

Quantization is an essential step in the efficient deployment of deep learning models and as such is an increasingly popular research topic. An important practical aspect that is not addressed in the current literature is how to analyze and fix fail cases where the use of quantization results in excessive degradation. In this paper, we present a simple analytic framework that breaks down overall degradation to its per layer contributions. We analyze many common networks and observe that a layer's contribution is determined by both intrinsic (local) factors - the distribution of the layer's weights and activations - and extrinsic (global) factors having to do with the the interaction with the rest of the layers. Layer-wise analysis of existing quantization schemes reveals local fail-cases of existing techniques which are not reflected when inspecting their overall performance. As an example, we consider ResNext26 on which SoTA post-training quantization methods perform poorly. We show that almost all of the degradation stems from a single layer. The same analysis also allows for local fixes - applying a common weight clipping heuristic only to this layer reduces degradation to a minimum while applying the same heuristic globally results in high degradation. More generally, layer-wise analysis allows for a more nuanced examination of how quantization affects the network, enabling the design of better performing schemes.
翻訳日:2021-05-07 05:34:14 公開日:2020-12-15
# 仮説差分正規化相互情報の最大化

Hypothesis Disparity Regularized Mutual Information Maximization ( http://arxiv.org/abs/2012.08072v1 )

ライセンス: Link先を確認
Qicheng Lao, Xiang Jiang, Mohammad Havaei(参考訳) 本研究では、仮説伝達学習(HTL)と教師なしドメイン適応(UDA)を統一する取り組みとして、教師なしの仮説伝達に取り組むための仮説不一致規則化相互情報最大化〜(HDMI)アプローチを提案する。 単一の仮説を用いる一般的な htl と uda のアプローチとは対照的に、hdmi はソースとターゲット仮説の基盤となる分布を活用するために複数の仮説を用いる。 相互情報最大化を通じてラベルのない対象領域に適応しながら、異なる仮説間の重要な関係を独立して利用するために、hdmiは、目標仮説を協調してよりよい目標表現を学習し、より正確な予測の不確実性を持つより転送可能なソース知識を保ちながら、より優れた目標表現を学習する仮説不等式規則化を取り入れている。 HDMIは、HTLの文脈でUDAのベンチマークデータセットに対して、適応中にソースデータにアクセスすることなく、最先端の適応性能を達成する。

We propose a hypothesis disparity regularized mutual information maximization~(HDMI) approach to tackle unsupervised hypothesis transfer -- as an effort towards unifying hypothesis transfer learning (HTL) and unsupervised domain adaptation (UDA) -- where the knowledge from a source domain is transferred solely through hypotheses and adapted to the target domain in an unsupervised manner. In contrast to the prevalent HTL and UDA approaches that typically use a single hypothesis, HDMI employs multiple hypotheses to leverage the underlying distributions of the source and target hypotheses. To better utilize the crucial relationship among different hypotheses -- as opposed to unconstrained optimization of each hypothesis independently -- while adapting to the unlabeled target domain through mutual information maximization, HDMI incorporates a hypothesis disparity regularization that coordinates the target hypotheses jointly learn better target representations while preserving more transferable source knowledge with better-calibrated prediction uncertainty. HDMI achieves state-of-the-art adaptation performance on benchmark datasets for UDA in the context of HTL, without the need to access the source data during the adaptation.
翻訳日:2021-05-07 05:33:52 公開日:2020-12-15
# 条件付き可逆ニューラルネットワークによる登録問題におけるあいまいさの表現

Representing Ambiguity in Registration Problems with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2012.08195v1 )

ライセンス: Link先を確認
Darya Trofimova, Tim Adler, Lisa Kausch, Lynton Ardizzone, Klaus Maier-Hein, Ulrich K\"othe, Carsten Rother and Lena Maier-Hein(参考訳) 画像登録は、医用画像計算とコンピュータ支援介入の分野における多くの応用の基礎である。 一例として,術前3次元CT画像を用いた2次元X線画像の術中誘導システムへの登録がある。 医療応用における高い安全性要件のため、このようなシナリオでは、登録の不確実性の推定が重要である。 しかしながら、従来の反復登録法や深層学習に基づく手法を含む従来の手法には共通する特徴が一つある: 登録問題が本質的に曖昧であるという事実を表現する能力が欠如しており、つまり複数の(従属的に異なる)妥当な解が存在する。 この制限に取り組むために,インバータブルニューラルネットワーク(inn)を登録方法論のコアコンポーネントとして利用することを検討する。 提案フレームワークでは,複数のモードで異なる可算解を符号化する確率分布を用いて,登録問題の解を表現し,ネットワーク出力として点推定を超えることができる。 まず, 脊椎CT量をX線画像に登録することにより, 2次元3次元レジストレーション設定へのアプローチを検証した。 本研究では,複数方向のc-armで撮影されたx線画像をデジタル再構成ラジオグラフ(drr)の原理を用いてシミュレートする。 ヒトの脊椎の対称性のため、c-armの実質的に異なるポーズが複数あり、同様の投射に繋がる可能性がある。 本研究の仮説は,このようなあいまいな登録問題において,提案手法が複数の解を識別できることである。

Image registration is the basis for many applications in the fields of medical image computing and computer assisted interventions. One example is the registration of 2D X-ray images with preoperative three-dimensional computed tomography (CT) images in intraoperative surgical guidance systems. Due to the high safety requirements in medical applications, estimating registration uncertainty is of a crucial importance in such a scenario. However, previously proposed methods, including classical iterative registration methods and deep learning-based methods have one characteristic in common: They lack the capacity to represent the fact that a registration problem may be inherently ambiguous, meaning that multiple (substantially different) plausible solutions exist. To tackle this limitation, we explore the application of invertible neural networks (INN) as core component of a registration methodology. In the proposed framework, INNs enable going beyond point estimates as network output by representing the possible solutions to a registration problem by a probability distribution that encodes different plausible solutions via multiple modes. In a first feasibility study, we test the approach for a 2D 3D registration setting by registering spinal CT volumes to X-ray images. To this end, we simulate the X-ray images taken by a C-Arm with multiple orientations using the principle of digitially reconstructed radiographs (DRRs). Due to the symmetry of human spine, there are potentially multiple substantially different poses of the C-Arm that can lead to similar projections. The hypothesis of this work is that the proposed approach is able to identify multiple solutions in such ambiguous registration problems.
翻訳日:2021-05-07 05:33:31 公開日:2020-12-15
# CosSGD:コミュニケーション効率向上のための非線形量子化

CosSGD: Nonlinear Quantization for Communication-effici ent Federated Learning ( http://arxiv.org/abs/2012.08241v1 )

ライセンス: Link先を確認
Yang He and Maximilian Zenk and Mario Fritz(参考訳) フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。 連合学習法の成功にもかかわらず、限られた通信条件下でモデルを更新するために最も重要な情報を伝達するw.r.tは改善され、この学習スキームを幅広いアプリケーションシナリオに活用することができる。 本研究では,連体学習において容易に利用できる圧縮確率勾配降下のための非線形量子化を提案する。 提案した量子化法により,学習過程の収束と精度を極端に維持しつつ,通信コストを最大3桁まで削減する。 MNIST, CIFAR-10, BraTSデータセットを用いた画像分類と脳腫瘍のセマンティックセマンティックセグメンテーションに関する大規模な実験を行った。

Federated learning facilitates learning across clients without transferring local data on these clients to a central server. Despite the success of the federated learning method, it remains to improve further w.r.t communicating the most critical information to update a model under limited communication conditions, which can benefit this learning scheme into a wide range of application scenarios. In this work, we propose a nonlinear quantization for compressed stochastic gradient descent, which can be easily utilized in federated learning. Based on the proposed quantization, our system significantly reduces the communication cost by up to three orders of magnitude, while maintaining convergence and accuracy of the training process to a large extent. Extensive experiments are conducted on image classification and brain tumor semantic segmentation using the MNIST, CIFAR-10 and BraTS datasets where we show state-of-the-art effectiveness and impressive communication efficiency.
翻訳日:2021-05-07 05:33:07 公開日:2020-12-15
# 軽量分布検出のためのビクタナルリスク最小化の検討

Exploring Vicinal Risk Minimization for Lightweight Out-of-Distribution Detection ( http://arxiv.org/abs/2012.08398v1 )

ライセンス: Link先を確認
Deepak Ravikumar, Sangamesh Kodge, Isha Garg, Kaushik Roy(参考訳) ディープニューラルネットワークは、画像認識から自然言語処理まで、複雑なタスクの解決に広く採用されている。 しかし、これらのネットワークはトレーニング分布に属さないデータ、すなわちトレーニング分布に属さないデータを提示した場合、確実な誤予測を行う。 out-of-distribution (OoD) サンプル。 本稿では,異なるクラス境界間をスムーズに補間するためのビクタナルリスク最小化(vrm)の特性が,より優れたood検出器の訓練に有用かどうかを検討する。 既存のOoD検出技術にVRMを適用し,その性能向上を示す。 既存のOoD検出器はメモリと計算オーバーヘッドがかなり大きいので、VRMを利用して最小限の過度に耳を傾けるOoD検出器を開発する。 検出方法は,OoDサンプルを分類する補助クラスを導入する。 mixupを2つの方法で活用し,リスク最小化を実現している。 第1に,同一クラス内でミックスアップを行い,第2に補助クラスを訓練する際にガウス雑音とのミックスアップを行う。 本手法は,既存のood検出手法と比較して計算量とメモリオーバーヘッドを大幅に削減し,ほぼ競合性能を実現している。 これにより、エッジデバイスへのOoD検出の展開が容易になり、OoD検出器のトレーニングに使用するためのバイシナルリスク最小化の理解が拡大する。

Deep neural networks have found widespread adoption in solving complex tasks ranging from image recognition to natural language processing. However, these networks make confident mispredictions when presented with data that does not belong to the training distribution, i.e. out-of-distribution (OoD) samples. In this paper we explore whether the property of Vicinal Risk Minimization (VRM) to smoothly interpolate between different class boundaries helps to train better OoD detectors. We apply VRM to existing OoD detection techniques and show their improved performance. We observe that existing OoD detectors have significant memory and compute overhead, hence we leverage VRM to develop an OoD detector with minimal overheard. Our detection method introduces an auxiliary class for classifying OoD samples. We utilize mixup in two ways to implement Vicinal Risk Minimization. First, we perform mixup within the same class and second, we perform mixup with Gaussian noise when training the auxiliary class. Our method achieves near competitive performance with significantly less compute and memory overhead when compared to existing OoD detection techniques. This facilitates the deployment of OoD detection on edge devices and expands our understanding of Vicinal Risk Minimization for use in training OoD detectors.
翻訳日:2021-05-07 05:32:51 公開日:2020-12-15
# 画像マーカーによる畳み込みニューラルネットワーク

Convolutional Neural Networks from Image Markers ( http://arxiv.org/abs/2012.12108v1 )

ライセンス: Link先を確認
Barbara C. Benato and Italos E. de Souza and Felipe L. Galv\~ao and Alexandre X. Falc\~ao(参考訳) FLIM (Feature Learning from Image Markers) と呼ばれる手法が最近提案され、コンボリューションを伴わない畳み込みフィルタを1クラスあたり1-3のごくわずかな画像(例:1-3)でユーザが描画したストロークから推定し、ココナッツツリーの画像分類のために実証した。 本稿では,完全連結層に対してflimを拡張し,異なる画像分類問題に対してそれを示す。 この研究は、複数のユーザーからのマーカーの選択と、完全に接続されたレイヤーを追加する影響を評価する。 その結果、FLIMベースの畳み込みニューラルネットワークは、バックプロパゲーションによってゼロからトレーニングされた同じアーキテクチャより優れていることが示された。

A technique named Feature Learning from Image Markers (FLIM) was recently proposed to estimate convolutional filters, with no backpropagation, from strokes drawn by a user on very few images (e.g., 1-3) per class, and demonstrated for coconut-tree image classification. This paper extends FLIM for fully connected layers and demonstrates it on different image classification problems. The work evaluates marker selection from multiple users and the impact of adding a fully connected layer. The results show that FLIM-based convolutional neural networks can outperform the same architecture trained from scratch by backpropagation.
翻訳日:2021-05-07 05:32:34 公開日:2020-12-15
# 遠隔監視型Eコマースクエリのスロットフィリング

Distant-Supervised Slot-Filling for E-Commerce Queries ( http://arxiv.org/abs/2012.08134v1 )

ライセンス: Link先を確認
Saurav Manchanda and Mohit Sharma and George Karypis(参考訳) スロットフィリング(slot-filling)とは、対象とする製品特性(製品の種類、ブランド、性別、サイズ、色など)をクエリ内で個々の用語にアノテートするタスクである。 これらの特性は、検索エンジンがクエリの製品意図に合致する結果を返すために使用できる。 従来のスロットフィリングの方法は、地上の真実のスロットアノテーション情報を含むトレーニングデータの入手が必要である。 しかし、特に電子商取引におけるラベル付きデータの生成は、新製品の追加に伴ってスロットの数が増えるため、高価で時間を要する。 本稿では,手動アノテーションを必要としない遠隔教師付き確率的生成モデルを提案する。 提案手法は,これらのクエリが引き起こした履歴クエリログと購入情報を活用するとともに,スロット間の共起情報を利用して意図した製品特性を識別する。 提案手法は,検索性能やスロットの分類にどのように影響するかを考慮し,評価を行った。 検索の面では,okapi bm25よりもランク付け性能(最大156%)が向上した。 さらに,共起情報を活用する手法は,検索とスロット分類のタスクを併用しない手法よりも優れた性能をもたらす。

Slot-filling refers to the task of annotating individual terms in a query with the corresponding intended product characteristics (product type, brand, gender, size, color, etc.). These characteristics can then be used by a search engine to return results that better match the query's product intent. Traditional methods for slot-filling require the availability of training data with ground truth slot-annotation information. However, generating such labeled data, especially in e-commerce is expensive and time-consuming because the number of slots increases as new products are added. In this paper, we present distant-supervised probabilistic generative models, that require no manual annotation. The proposed approaches leverage the readily available historical query logs and the purchases that these queries led to, and also exploit co-occurrence information among the slots in order to identify intended product characteristics. We evaluate our approaches by considering how they affect retrieval performance, as well as how well they classify the slots. In terms of retrieval, our approaches achieve better ranking performance (up to 156%) over Okapi BM25. Moreover, our approach that leverages co-occurrence information leads to better performance than the one that does not on both the retrieval and slot classification tasks.
翻訳日:2021-05-07 05:32:21 公開日:2020-12-15
# マルチモーダルasyndgan: 個人情報を共有せずに、分散医療画像データから学ぶ

Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information ( http://arxiv.org/abs/2012.08604v1 )

ライセンス: Link先を確認
Qi Chang, Zhennan Yan, Lohendran Baskaran, Hui Qu, Yikai Zhang, Tong Zhang, Shaoting Zhang, and Dimitris N. Metaxas(参考訳) ディープラーニング技術が進むにつれて、さまざまなタスクに対して汎用的で堅牢なモデルを生成するために、ますます多くのデータが必要になる。 しかし医療分野では,プライバシやデータのセキュリティ上の懸念から,大規模かつマルチパートのデータトレーニングや分析は不可能である。 本稿では,効率的なコミュニケーションによる協調学習を実現しつつ,プライバシとセキュリティを保ちつつ,拡張可能な弾性学習フレームワークを提案する。 提案するフレームワークは分散Asynchronized Discriminator Generative Adversarial Networks (AsynDGAN) と名付けられ,集中型ジェネレータと複数の分散ディスクリミネータで構成される。 The advantages of our proposed framework are five-fold: 1) the central generator could learn the real data distribution from multiple datasets implicitly without sharing the image data; 2) the framework is applicable for single-modality or multi-modality data; 3) the learned generator can be used to synthesize samples for down-stream learning tasks to achieve close-to-real performance as using actual samples collected from multiple data centers; 4) the synthetic samples can also be used to augment data or complete missing modalities for one single data center; 5) the learning process is more efficient and requires lower bandwidth than other distributed deep learning methods.

As deep learning technologies advance, increasingly more data is necessary to generate general and robust models for various tasks. In the medical domain, however, large-scale and multi-parties data training and analyses are infeasible due to the privacy and data security concerns. In this paper, we propose an extendable and elastic learning framework to preserve privacy and security while enabling collaborative learning with efficient communication. The proposed framework is named distributed Asynchronized Discriminator Generative Adversarial Networks (AsynDGAN), which consists of a centralized generator and multiple distributed discriminators. The advantages of our proposed framework are five-fold: 1) the central generator could learn the real data distribution from multiple datasets implicitly without sharing the image data; 2) the framework is applicable for single-modality or multi-modality data; 3) the learned generator can be used to synthesize samples for down-stream learning tasks to achieve close-to-real performance as using actual samples collected from multiple data centers; 4) the synthetic samples can also be used to augment data or complete missing modalities for one single data center; 5) the learning process is more efficient and requires lower bandwidth than other distributed deep learning methods.
翻訳日:2021-05-07 05:32:01 公開日:2020-12-15
# 非構造・不確実な環境に対するマルチモーダル異常検出

Multi-Modal Anomaly Detection for Unstructured and Uncertain Environments ( http://arxiv.org/abs/2012.08637v1 )

ライセンス: Link先を確認
Tianchen Ji, Sri Theja Vuppala, Girish Chowdhary, Katherine Driggs-Campbell(参考訳) 高度な自律性を実現するために、現代のロボットは、最小限の人間の監督で異常や障害を検出して回復する能力を必要としている。 マルチモーダルセンサ信号はそのような異常検出タスクにより多くの情報を提供することができるが、高次元および不均一なセンサモーダルの融合は依然として困難な問題である。 本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。 我々のモデルはVAEの表現力を利用して、教師付き学習タスクのための高次元入力から堅牢な特徴を抽出する。 学習目的は生成モデルと識別モデルを統合することにより,学習を1段階の手順とする。 実地ロボットデータを用いた実験は,ベースライン法よりも優れた故障識別性能を示し,解釈可能な表現を学習する。 結果のビデオは、弊社のwebサイト(https://sites.googl e.com/illinois.edu/s upervised-vae.com)から入手できます。

To achieve high-levels of autonomy, modern robots require the ability to detect and recover from anomalies and failures with minimal human supervision. Multi-modal sensor signals could provide more information for such anomaly detection tasks; however, the fusion of high-dimensional and heterogeneous sensor modalities remains a challenging problem. We propose a deep learning neural network: supervised variational autoencoder (SVAE), for failure identification in unstructured and uncertain environments. Our model leverages the representational power of VAE to extract robust features from high-dimensional inputs for supervised learning tasks. The training objective unifies the generative model and the discriminative model, thus making the learning a one-stage procedure. Our experiments on real field robot data demonstrate superior failure identification performance than baseline methods, and that our model learns interpretable representations. Videos of our results are available on our website: https://sites.google .com/illinois.edu/su pervised-vae .
翻訳日:2021-05-07 05:31:41 公開日:2020-12-15
# ニューラルネットワークを用いた多変量準ランダムサンプリングの応用

Applications of multivariate quasi-random sampling with neural networks ( http://arxiv.org/abs/2012.08036v1 )

ライセンス: Link先を確認
Marius Hofert, Avinash Prasad, Mu Zhu(参考訳) 確率過程間の断面積依存性をモデル化するために生成モーメントマッチングネットワーク(GMMN)を提案する。 確率過程は幾何学的ブラウン運動とアルマ・ガルクモデルである。 幾何学的ブラウン運動は、依存下でのアメリカのバスケットコールオプションの価格設定につながり、ARMA-GARCHモデルは予測分布をシミュレートする応用に繋がる。 どちらのタイプのアプリケーションにおいても、パラメトリック依存モデルと比較してGMMNを使うことの利点が強調され、GMMNが追加の労力なしで依存準ランダムサンプルを生成できるという事実が分散還元を得るために利用される。

Generative moment matching networks (GMMNs) are suggested for modeling the cross-sectional dependence between stochastic processes. The stochastic processes considered are geometric Brownian motions and ARMA-GARCH models. Geometric Brownian motions lead to an application of pricing American basket call options under dependence and ARMA-GARCH models lead to an application of simulating predictive distributions. In both types of applications the benefit of using GMMNs in comparison to parametric dependence models is highlighted and the fact that GMMNs can produce dependent quasi-random samples with no additional effort is exploited to obtain variance reduction.
翻訳日:2021-05-07 05:31:25 公開日:2020-12-15
# TACTO:高解像度ビジョンベース触覚センサのための高速で柔軟なオープンソースのシミュレータ

TACTO: A Fast, Flexible and Open-source Simulator for High-Resolution Vision-based Tactile Sensors ( http://arxiv.org/abs/2012.08456v1 )

ライセンス: Link先を確認
Shaoxiong Wang, Mike Lambeta, Po-Wei Chou, Roberto Calandra(参考訳) シミュレータは、プロトタイピング、デバッギング、そしてロボット工学の新たな進歩と制御の学習において重要な役割を果たす。 多くの物理エンジンが存在するが、現実世界のいくつかの側面はシミュレーションが難しい。 これまで正確なシミュレーションを行ってきた側面の1つは、タッチセンシングである。 このギャップに対処するために,視覚ベースの触覚センサのための高速でフレキシブルでオープンソースなシミュレータであるtactoを提案する。 このシミュレータは、数百フレーム/秒でリアルな高解像度のタッチ読み取りをレンダリングでき、ゲルビジョン、デジット、omnitactなど、さまざまな視覚ベースの触覚センサーをシミュレートできる。 本稿では,TACTOの実装を推進した原則と,それらがアーキテクチャにどのように反映されているかを詳述する。 我々は,100万把持と大理石操作制御タスクから,タッチによる把持安定性の予測を学習し,知覚課題のtactoを示す。 TACTOは、ロボットアプリケーションにおけるタッチセンシングの普及に向けての一歩であり、マルチモーダル学習と制御に関心を持つ機械学習実践者の実現を目的としています。 tactoはhttps://github.com/f acebookresearch/tact oでオープンソースである。

Simulators perform an important role in prototyping, debugging and benchmarking new advances in robotics and learning for control. Although many physics engines exist, some aspects of the real-world are harder than others to simulate. One of the aspects that have so far eluded accurate simulation is touch sensing. To address this gap, we present TACTO -- a fast, flexible and open-source simulator for vision-based tactile sensors. This simulator allows to render realistic high-resolution touch readings at hundreds of frames per second, and can be easily configured to simulate different vision-based tactile sensors, including GelSight, DIGIT and OmniTact. In this paper, we detail the principles that drove the implementation of TACTO and how they are reflected in its architecture. We demonstrate TACTO on a perceptual task, by learning to predict grasp stability using touch from 1 million grasps, and on a marble manipulation control task. We believe that TACTO is a step towards the widespread adoption of touch sensing in robotic applications, and to enable machine learning practitioners interested in multi-modal learning and control. TACTO is open-source at https://github.com/f acebookresearch/tact o.
翻訳日:2021-05-07 05:31:03 公開日:2020-12-15
# FAWA:光学式文字認識(OCR)システムにおける高速逆透かし攻撃

FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems ( http://arxiv.org/abs/2012.08096v1 )

ライセンス: Link先を確認
Lu Chen, Jiao Sun, Wei Xu(参考訳) ディープニューラルネットワーク(DNN)は光学文字認識(OCR)の精度を大幅に向上させ、多くの重要な応用に影響を与えた。 残念ながら、OCRは敵の例の下でDNNの脆弱性を継承している。 カラフルなバニラ画像とは異なり、テキスト画像は通常明確な背景を持つ。 既存のほとんどの敵攻撃によって生成された敵の例は不自然であり、背景を厳しく汚染する。 この問題に対処するために,シーケンスベースのOCRモデルに対して,White-box方式でFAWA(Fast Adversarial Watermark Attack)を提案する。 摂動を透かしとすることで、人間の目に自然に敵のイメージを見せることができ、完璧な攻撃成功率を達成することができる。 FAWAは勾配ベースまたは最適化ベースの摂動生成で動作する。 文字レベルの攻撃と単語レベルの攻撃の両方において、fawaは自然外観に加えて、摂動が60%少なく、イテレーションが平均78%少ない100%攻撃成功率を達成しています。 さらにfawaを拡張して,フルカラーのウォーターマーク,他の言語,さらにはocr精度向上機構もサポートする。

Deep neural networks (DNNs) significantly improved the accuracy of optical character recognition (OCR) and inspired many important applications. Unfortunately, OCRs also inherit the vulnerabilities of DNNs under adversarial examples. Different from colorful vanilla images, text images usually have clear backgrounds. Adversarial examples generated by most existing adversarial attacks are unnatural and pollute the background severely. To address this issue, we propose the Fast Adversarial Watermark Attack (FAWA) against sequence-based OCR models in the white-box manner. By disguising the perturbations as watermarks, we can make the resulting adversarial images appear natural to human eyes and achieve a perfect attack success rate. FAWA works with either gradient-based or optimization-based perturbation generation. In both letter-level and word-level attacks, our experiments show that in addition to natural appearance, FAWA achieves a 100% attack success rate with 60% less perturbations and 78% fewer iterations on average. In addition, we further extend FAWA to support full-color watermarks, other languages, and even the OCR accuracy-enhancing mechanism.
翻訳日:2021-05-07 05:29:43 公開日:2020-12-15
# Frozen-to-Paraffin: Paraffin セクションと生成側ネットワークによる組織凍結部の分類

Frozen-to-Paraffin: Categorization of Histological Frozen Sections by the Aid of Paraffin Sections and Generative Adversarial Networks ( http://arxiv.org/abs/2012.08158v1 )

ライセンス: Link先を確認
Michael Gadermayr, Maximilian Tschuchnig, Lea Maria Stangassinger, Christina Kreutzer, Sebastien Couillard-Despres, Gertie Janneke Oostingh, Anton Hittmair(参考訳) パラフィンセクションとは対照的に、凍結セクションは外科的介入によって迅速に生成される。 この術式では, 術中の組織学的所見を待ち, 組織学的結果に基づいて術中決定を下すことができる。 しかし、パラフィン部に比べ、凍結部の品質は一般的に低いため、ミス分類の比率は高い。 本研究は,甲状腺癌分類における自動判定支援アプローチに対するセクションタイプの影響について検討した。 これは、個々の患者のためのセクションのペアからなるデータセットによって実現されました。 さらに,凍結パラフィン翻訳が分類スコアの最適化に役立つかどうかを検討した。 最後に,少量のトレーニングデータに対処し,さらに分類精度を高めるための具体的なデータ拡張戦略を提案する。

In contrast to paraffin sections, frozen sections can be quickly generated during surgical interventions. This procedure allows surgeons to wait for histological findings during the intervention to base intra-operative decisions on the outcome of the histology. However, compared to paraffin sections, the quality of frozen sections is typically lower, leading to a higher ratio of miss-classification. In this work, we investigated the effect of the section type on automated decision support approaches for classification of thyroid cancer. This was enabled by a data set consisting of pairs of sections for individual patients. Moreover, we investigated, whether a frozen-to-paraffin translation could help to optimize classification scores. Finally, we propose a specific data augmentation strategy to deal with a small amount of training data and to increase classification accuracy even further.
翻訳日:2021-05-07 05:29:24 公開日:2020-12-15
# foggysight: 顔のルックアッププライバシーのためのスキーム

FoggySight: A Scheme for Facial Lookup Privacy ( http://arxiv.org/abs/2012.08588v1 )

ライセンス: Link先を確認
Ivan Evtimov, Pascal Sturmfels, Tadayoshi Kohno(参考訳) ディープラーニングアルゴリズムの進歩は、顔認識タスクにおける人間よりも優れたパフォーマンスを可能にした。 同時に、プライベート企業は、写真とIDを結びつけるソーシャルメディアやその他の公開ウェブサイトを廃止し、ラベル付き顔画像の大規模なデータベースを構築している。 これらのデータベースの検索は現在、法執行機関などのサービスとして提供されており、ソーシャルメディアユーザーには数多くのプライバシーリスクが伴っている。 本研究では、このような顔認識システムからプライバシーを提供する問題に取り組む。 foggysightは、敵の事例文献から学んだ教訓をソーシャルメディアにアップロードする前に、プライバシー保護的な方法で顔写真を変更するためのソリューションだ。 FoggySightの中核的な機能はコミュニティ保護戦略である。ユーザは、敵対的な機械学習アルゴリズムによって生成されたデコイ写真をアップロードする。 このスキームのさまざまな設定を調査し、未知の内部を持つ顔認識サービスを含む、顔のプライバシ保護を可能にすることを発見した。

Advances in deep learning algorithms have enabled better-than-human performance on face recognition tasks. In parallel, private companies have been scraping social media and other public websites that tie photos to identities and have built up large databases of labeled face images. Searches in these databases are now being offered as a service to law enforcement and others and carry a multitude of privacy risks for social media users. In this work, we tackle the problem of providing privacy from such face recognition systems. We propose and evaluate FoggySight, a solution that applies lessons learned from the adversarial examples literature to modify facial photos in a privacy-preserving manner before they are uploaded to social media. FoggySight's core feature is a community protection strategy where users acting as protectors of privacy for others upload decoy photos generated by adversarial machine learning algorithms. We explore different settings for this scheme and find that it does enable protection of facial privacy -- including against a facial recognition service with unknown internals.
翻訳日:2021-05-07 05:29:13 公開日:2020-12-15
# CUDA-Optimized Real-time rendering of a Foveated Visual System

CUDA-Optimized real-time rendering of a Foveated Visual System ( http://arxiv.org/abs/2012.08655v1 )

ライセンス: Link先を確認
Elian Malkin, Arturo Deza, Tomaso Poggio(参考訳) 人間の視覚システムの空間的に変化する分野は、仮想現実(vr)とニューラルネットワークの開発によって、最近再び関心を集めている。 vrに希望する高解像度レンダリングの計算要求は、周囲を節約することで相殺できるが、foveated inputで訓練されたニューラルネットワークは、i.i.dとo.o.dの一般化において知覚的な向上を示している。 本稿では、cuda gpuアーキテクチャを利用して、従来のガウス系フォベーションアルゴリズムよりも多くのプーリング領域を持つ高精細(1920x1080px)で、高精細(1920x1080px)で効率的にガウス系フォベート画像を165hzで生成し、さらにブレンドや縫い合わせを必要とせず、任意のコントラスト感度関数に適合する滑らかなフォベート画像を生成する手法を提案する。 提案手法は,ガウス的ぼかしから偏心性に依存した画像処理に適応することができ,我々のアルゴリズムは,生物や人工エージェント間で空間的に変化する処理の役割を評価するために,実験に必要な要求を満たすことができる。 全体として,cudaブロックワイズアーキテクチャを持つgpuが,より複雑なポストプロセッシングによってメタメリックなフォベーションスキームを保証し,ラジアルな可変レンダリングに利用できることを示す。 コードが提供される。

The spatially-varying field of the human visual system has recently received a resurgence of interest with the development of virtual reality (VR) and neural networks. The computational demands of high resolution rendering desired for VR can be offset by savings in the periphery, while neural networks trained with foveated input have shown perceptual gains in i.i.d and o.o.d generalization. In this paper, we present a technique that exploits the CUDA GPU architecture to efficiently generate Gaussian-based foveated images at high definition (1920x1080 px) in real-time (165 Hz), with a larger number of pooling regions than previous Gaussian-based foveation algorithms by several orders of magnitude, producing a smoothly foveated image that requires no further blending or stitching, and that can be well fit for any contrast sensitivity function. The approach described can be adapted from Gaussian blurring to any eccentricity-depende nt image processing and our algorithm can meet demand for experimentation to evaluate the role of spatially-varying processing across biological and artificial agents, so that foveation can be added easily on top of existing systems rather than forcing their redesign (emulated foveated renderer). Altogether, this paper demonstrates how a GPU, with a CUDA block-wise architecture, can be employed for radially-variant rendering, with opportunities for more complex post-processing to ensure a metameric foveation scheme. Code is provided.
翻訳日:2021-05-07 05:28:58 公開日:2020-12-15
# パーソナルメンタルヘルスナビゲータ: 心理的幸福を促進するために、データ、パーソナルモデル、健康サイバーネティクスの力を活用する

Personal Mental Health Navigator: Harnessing the Power of Data, Personal Models, and Health Cybernetics to Promote Psychological Well-being ( http://arxiv.org/abs/2012.09131v1 )

ライセンス: Link先を確認
Amir M. Rahmani, Jocelyn Lai, Salar Jafarlou, Asal Yunusova, Alex. P. Rivera, Sina Labbaf, Sirui Hu, Arman Anzanpour, Nikil Dutt, Ramesh Jain, Jessica L. Borelli(参考訳) 伝統的に、メンタルヘルスの体制は、患者が複数の提供者訪問を通じて発達した所定の治療計画を通じて提供者からケアを求めるエピソディック精神療法モデルに従っている。 近年のウェアラブルとモバイル技術の発展により、個人が心身の健康症状に対処できるデジタルメンタルヘルスへの関心が高まっている。 しかしながら、これらの取り組みは一般的に反応性と症状に焦点を当てており、時間とともに広がる個人の総体的メンタルヘルスモデルを捉える包括的で包括的でカスタマイズされた治療を提供しない。 個別の個人が独特であることを認識し、パーソナライズドメンタルヘルスナビゲーション (mhn) という概念を提示する。これは、個人のメンタルヘルス状態を健全なゾーンに向けて操るために、測定、推定、ガイダンスの連続的な循環を展開するセラピスト・イン・ザ・ループ、サイバーネティックな目標ベースのシステムである。 感情・生物学的パターン・社会学・行動・認知といった複数の知識層からなる高次元のカバーで表される個人の精神的健康状態の発達を前提としたmhnの主要な構成要素について概説する。 大学生の総合的ストレス管理のための12ヶ月のパイロットケーススタディを通じて, パーソナライズされたMHNアプローチの有効性を実証し, 持続的期間にわたる中等度のうつ病のモニタリング, 推定, 積極的対処にMHNを使用したセラピスト・イン・ザ・ループ介入の事例を強調した。 私たちは、MHNがメンタルヘルスを、現在の受動的でエピソジックでリアクティブなプロセス(個人がすでに現れている症状に対処する手助けをする)から、個人のパーソナライズされたモデルを活用する継続的かつナビゲーションのパラダイムに転換する道を開いたと信じています。

Traditionally, the regime of mental healthcare has followed an episodic psychotherapy model wherein patients seek care from a provider through a prescribed treatment plan developed over multiple provider visits. Recent advances in wearable and mobile technology have generated increased interest in digital mental healthcare that enables individuals to address episodic mental health symptoms. However, these efforts are typically reactive and symptom-focused and do not provide comprehensive, wrap-around, customized treatments that capture an individual's holistic mental health model as it unfolds over time. Recognizing that each individual is unique, we present the notion of Personalized Mental Health Navigation (MHN): a therapist-in-the-loo p, cybernetic goal-based system that deploys a continuous cyclic loop of measurement, estimation, guidance, to steer the individual's mental health state towards a healthy zone. We outline the major components of MHN that is premised on the development of an individual's personal mental health state, holistically represented by a high-dimensional cover of multiple knowledge layers such as emotion, biological patterns, sociology, behavior, and cognition. We demonstrate the feasibility of the personalized MHN approach via a 12-month pilot case study for holistic stress management in college students and highlight an instance of a therapist-in-the-loo p intervention using MHN for monitoring, estimating, and proactively addressing moderately severe depression over a sustained period of time. We believe MHN paves the way to transform mental healthcare from the current passive, episodic, reactive process (where individuals seek help to address symptoms that have already manifested) to a continuous and navigational paradigm that leverages a personalized model of the individual, promising to deliver timely interventions to individuals in a holistic manner.
翻訳日:2021-05-07 05:28:30 公開日:2020-12-15
# Simileでポーランド語を書く:タスク,データセット,ニューラルアプローチ

Writing Polishment with Simile: Task, Dataset and A Neural Approach ( http://arxiv.org/abs/2012.08117v1 )

ライセンス: Link先を確認
Jiayi Zhang, Zhi Cui, Xiaoqiang Xia, Yalong Guo, Yanran Li, Chen Wei, Jianwei Cui(参考訳) シミリ(simile)は、直接比較を行い、例えば2つの異なるもの間の類似性を示す音声の図形である。 「紙を読むのは、草が生えるのを見るように、時々鈍くなる。」 人間の作家はしばしば、適切なシミュラをプレーンテキストの適切な場所へ解釈して、彼らの著作を活気づける。 しかし、既存の研究では、探索と生成の両方を含むニューラルシミール補間を探求していない。 本稿では,機械が人間のようにシミールでテキストを磨くことができるかどうかを調べるため,simile (wps) を用いた研磨作業を提案する。 そこで我々は,トランスフォーマーアーキテクチャに基づく2段配置・生成モデルの設計を行った。 我々のモデルはまず、シミリ補間が行われるべき場所を特定し、次に位置特異的シミリを生成する。 また、コンテキスト付きで500万シミリを含む大規模な中国シマイル(cs)データセットもリリースしています。 実験結果は,WPSタスクの実現可能性を示し,将来的な研究の方向性を明らかにするものである。

A simile is a figure of speech that directly makes a comparison, showing similarities between two different things, e.g. "Reading papers can be dull sometimes,like watching grass grow". Human writers often interpolate appropriate similes into proper locations of the plain text to vivify their writings. However, none of existing work has explored neural simile interpolation, including both locating and generation. In this paper, we propose a new task of Writing Polishment with Simile (WPS) to investigate whether machines are able to polish texts with similes as we human do. Accordingly, we design a two-staged Locate&Gen model based on transformer architecture. Our model firstly locates where the simile interpolation should happen, and then generates a location-specific simile. We also release a large-scale Chinese Simile (CS) dataset containing 5 million similes with context. The experimental results demonstrate the feasibility of WPS task and shed light on the future research directions towards better automatic text polishment.
翻訳日:2021-05-07 05:27:52 公開日:2020-12-15
# エネルギーベースクローズモデルとしてのプレトレーニングトランス

Pre-Training Transformers as Energy-Based Cloze Models ( http://arxiv.org/abs/2012.08561v1 )

ライセンス: Link先を確認
Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning(参考訳) テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。 BERTと同様に、コンテキストが与えられたトークンの条件付き生成モデルである。 しかし、electricはマスキングを使用しず、コンテキスト内で発生したトークンに対する完全な分散を出力しない。 代わりに、各入力トークンにスカラーエネルギースコアを割り当て、そのコンテキストがどの程度の確率で与えられるかを示す。 我々は、ノイズコントラスト推定に基づくアルゴリズムを用いてElectricを訓練し、この学習目的が最近提案されたELECTRA事前学習手法とどのように密接に関連しているかを明らかにする。 electricは下流のタスクに転送されるとうまく動作し、テキストの確率スコアを作成するのに特に効果的である: 音声認識n-bestリストを言語モデルよりも良くランク付けし、マスクされた言語モデルよりもずっと高速である。 さらに、事前トレーニング中にelectraが学んだことを明確にし、より原則的に見ることもできる。

We introduce Electric, an energy-based cloze model for representation learning over text. Like BERT, it is a conditional generative model of tokens given their contexts. However, Electric does not use masking or output a full distribution over tokens that could occur in a context. Instead, it assigns a scalar energy score to each input token indicating how likely it is given its context. We train Electric using an algorithm based on noise-contrastive estimation and elucidate how this learning objective is closely related to the recently proposed ELECTRA pre-training method. Electric performs well when transferred to downstream tasks and is particularly effective at producing likelihood scores for text: it re-ranks speech recognition n-best lists better than language models and much faster than masked language models. Furthermore, it offers a clearer and more principled view of what ELECTRA learns during pre-training.
翻訳日:2021-05-07 05:27:38 公開日:2020-12-15
# MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets (英語)

MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets ( http://arxiv.org/abs/2101.03028v1 )

ライセンス: Link先を確認
Qi Wu, Peng Wang, Chenghao Huang(参考訳) 自然言語処理(NLP)はテキスト分類や感情分析など様々な分野に適用されている。 SemEval-2020コンペティション~\cite{patwa2020sentimix} の一部であるコードミックスツイートの感情分析の共有タスクでは、絵文字の置き換えや非共通文字の削除などによってデータセットを前処理し、変換器(BERT)から双方向エンコーダ表現を微調整してベストを尽くします。 トップ3の応募を終えると、チームmeistermorxrcは平均的なf1スコア0.730を達成し、codalabのユーザーネームはmeistermorxrcです。

Natural language processing (NLP) has been applied to various fields including text classification and sentiment analysis. In the shared task of sentiment analysis of code-mixed tweets, which is a part of the SemEval-2020 competition~\cite{patwa2020sentimix}, we preprocess datasets by replacing emoji and deleting uncommon characters and so on, and then fine-tune the Bidirectional Encoder Representation from Transformers(BERT) to perform the best. After exhausting top3 submissions, Our team MeisterMorxrc achieves an averaged F1 score of 0.730 in this task, and and our codalab username is MeisterMorxrc.
翻訳日:2021-05-07 05:27:26 公開日:2020-12-15
# スマートモビリティオントロジーの現状と今後の方向性

Smart Mobility Ontology: Current Trends and Future Directions ( http://arxiv.org/abs/2012.08622v1 )

ライセンス: Link先を確認
Ali Yazdizadeh and Bilal Farooq(参考訳) オントロジーはドメイン内の概念とそれらの間の関係の明示的かつ形式的な表現である。 交通科学は、土地、航空、海上輸送など、様々な複雑で相互接続された輸送システムに対する移動性を扱う広い領域であり、オントロジーの発展からかなりの利点を享受することができる。 近年の文献にはいくつかの研究があるが、総合的なスマートモビリティオントロジーを改良し発展させる大きな可能性がある。 本章は、オントロジー開発方法、言語、ツール、ソフトウェアなど、オントロジー開発全般のさまざまな側面を提示することを目的としている。 その後、輸送、スマートシティ、商品モビリティ、センサーなど、さまざまなドメインで現在利用可能なモビリティ関連のオントロジーを紹介する。 現在利用可能なオントロジーのギャップが特定されており、今後の自動運転・コネクテッドカー、モビリティ・アズ・ア・サービス(maas)、その他の破壊的な輸送技術やサービスを取り入れたオントロジー開発に関する今後の方向性が提案されている。

Ontology is the explicit and formal representation of the concepts in a domain and relations among them. Transportation science is a wide domain dealing with mobility over various complex and interconnected transportation systems, such as land, aviation, and maritime transport, and can take considerable advantage from ontology development. While several studies can be found in the recent literature, there exists a large potential to improve and develop a comprehensive smart mobility ontology. The current chapter aims to present different aspects of ontology development in general, such as ontology development methods, languages, tools, and software. Subsequently, it presents the currently available mobility-related ontologies developed across different domains, such as transportation, smart cities, goods mobility, sensors. Current gaps in the available ontologies are identified, and future directions regarding ontology development are proposed that can incorporate the forthcoming autonomous and connected vehicles, mobility as a service (MaaS), and other disruptive transportation technologies and services.
翻訳日:2021-05-07 05:26:39 公開日:2020-12-15
# 自己教師付き単眼訓練深度推定のための意味誘導表現強調

Semantic-Guided Representation Enhancement for Self-supervised Monocular Trained Depth Estimation ( http://arxiv.org/abs/2012.08048v1 )

ライセンス: Link先を確認
Rui Li, Qing Mao, Pei Wang, Xiantuo He, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) 自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。 しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。 本稿では,局所的特徴表現と大域的深さ特徴表現の両方を,リッチな文脈情報を用いて促進する意味的ガイド付き奥行き表現拡張手法を提案する。 従来のパラダイムで用いられる1つの深度ネットワークの代わりに、深度推定のための余分な文脈的特徴を提供するセグメンテーションブランチを提案する。 本稿では,この枠組みに基づき,意味的辺にある点に基づく特徴を個別の意味的誘導エッジ拡張モジュール (seem) にサンプリング・供給することにより,局所的特徴表現を向上させる。 そして,マルチレベル深度復号方式における画素単位の相関を探索することにより,意味的・深度的特徴を高める意味誘導型多レベルアテンション機構を提案することにより,グローバルな特徴表現を改善する。 広範囲な実験により,意味圏境界や細い物体などの難解な画像領域の精度の高い深度を捉える上で,本手法の顕著な優位性を検証した。 KITTIにおける定量的および定性的実験は,本手法が最先端の手法より優れていることを示す。

Self-supervised depth estimation has shown its great effectiveness in producing high quality depth maps given only image sequences as input. However, its performance usually drops when estimating on border areas or objects with thin structures due to the limited depth representation ability. In this paper, we address this problem by proposing a semantic-guided depth representation enhancement method, which promotes both local and global depth feature representations by leveraging rich contextual information. In stead of a single depth network as used in conventional paradigms, we propose an extra semantic segmentation branch to offer extra contextual features for depth estimation. Based on this framework, we enhance the local feature representation by sampling and feeding the point-based features that locate on the semantic edges to an individual Semantic-guided Edge Enhancement module (SEEM), which is specifically designed for promoting depth estimation on the challenging semantic borders. Then, we improve the global feature representation by proposing a semantic-guided multi-level attention mechanism, which enhances the semantic and depth features by exploring pixel-wise correlations in the multi-level depth decoding scheme. Extensive experiments validate the distinct superiority of our method in capturing highly accurate depth on the challenging image areas such as semantic category borders and thin objects. Both quantitative and qualitative experiments on KITTI show that our method outperforms the state-of-the-art methods.
翻訳日:2021-05-07 05:26:22 公開日:2020-12-15
# 混ざった監督で分断するように教える:信頼の学生がマスターになる

Teach me to segment with mixed supervision: Confident students become masters ( http://arxiv.org/abs/2012.08051v1 )

ライセンス: Link先を確認
Jose Dolz, Christian Desrosiers, Ismail Ben Ayed(参考訳) ディープセグメンテーションニューラルネットワークは、ピクセル単位のセグメンテーションを持つ大規模なトレーニングデータセットを必要とする。 混合監督は、ピクセル単位のアノテーションを含むデータのごく一部でこの困難を軽減し、残りは、例えば、わずかなピクセルだけがラベル付けされるなど、監督されていない。 本研究では,上枝(教師)が強いアノテーションを受け取り,下枝(学生)が限られた監督によって駆動され,上枝が指導する二重ブランチアーキテクチャを提案する。 In conjunction with a standard cross-entropy over the labeled pixels, our novel formulation integrates two important terms: (i) a Shannon entropy loss defined over the less-supervised images, which encourages confident student predictions at the bottom branch; and (ii) a Kullback-Leibler (KL) divergence, which transfers the knowledge from the predictions generated by the strongly supervised branch to the less-supervised branch, and guides the entropy (student-confidence) term to avoid trivial solutions. 興味深いことに、エントロピーとklの発散の相乗効果はパフォーマンスの大幅な改善をもたらす。 さらに、シャノンエントロピー最小化と標準擬似マスク生成の興味深い関係を考察し、ラベルなし画素からの情報を活用するために前者が後者よりも好まれるべきであると主張する。 定量的および定性的な一連の実験を通して,MRI画像の左室心内膜分画における定式化の有効性を示す。 本手法は,混合スーパービジョンフレームワークにおけるセマンティクスセグメンテーションに取り組むための他の戦略を著しく上回っていることを示す。 より興味深いことに、最近の分類の観察と相まって、監督の少ない訓練を受けた分科が教師を圧倒的に上回っていることが示されている。

Deep segmentation neural networks require large training datasets with pixel-wise segmentations, which are expensive to obtain in practice. Mixed supervision could mitigate this difficulty, with a small fraction of the data containing complete pixel-wise annotations, while the rest being less supervised, e.g., only a handful of pixels are labeled. In this work, we propose a dual-branch architecture, where the upper branch (teacher) receives strong annotations, while the bottom one (student) is driven by limited supervision and guided by the upper branch. In conjunction with a standard cross-entropy over the labeled pixels, our novel formulation integrates two important terms: (i) a Shannon entropy loss defined over the less-supervised images, which encourages confident student predictions at the bottom branch; and (ii) a Kullback-Leibler (KL) divergence, which transfers the knowledge from the predictions generated by the strongly supervised branch to the less-supervised branch, and guides the entropy (student-confidence) term to avoid trivial solutions. Very interestingly, we show that the synergy between the entropy and KL divergence yields substantial improvements in performances. Furthermore, we discuss an interesting link between Shannon-entropy minimization and standard pseudo-mask generation and argue that the former should be preferred over the latter for leveraging information from unlabeled pixels. Through a series of quantitative and qualitative experiments, we show the effectiveness of the proposed formulation in segmenting the left-ventricle endocardium in MRI images. We demonstrate that our method significantly outperforms other strategies to tackle semantic segmentation within a mixed-supervision framework. More interestingly, and in line with recent observations in classification, we show that the branch trained with reduced supervision largely outperforms the teacher.
翻訳日:2021-05-07 05:25:56 公開日:2020-12-15
# ビデオにおける時空間行動認識の改善に向けて

Towards Improving Spatiotemporal Action Recognition in Videos ( http://arxiv.org/abs/2012.08097v1 )

ライセンス: Link先を確認
Shentong Mo, Xiaoqing Tan, Jingfei Xia, Pinxu Ren(参考訳) 時空間的行動認識はビデオ内の行動の特定と分類を扱う。 最新の最先端のリアルタイム物体検出装置であるYou Only Watch Once (YOWO)に触発された我々は、その構造を変更して行動検出精度を高め、計算時間を短縮することを目指している。 具体的には,yowoの改良と,ロス関数の修正によるビデオの不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。 カーネギーメロン大学に本拠を置くスタートアップAgot.AIが提供したレストランビデオのプライベートデータセットであるJ-HMDB-21(Joint-anno tated Human Motion Data Base)を応用するための2つの中規模データセットを検討する。 後者は、小さなオブジェクトで素早く動くアクションと不均衡なデータクラスを含み、アクションローカライゼーションのタスクをより難しくする。 提案したメソッドはGitHubリポジトリ https://github.com/s toneMo/YOWOv2で実装しています。

Spatiotemporal action recognition deals with locating and classifying actions in videos. Motivated by the latest state-of-the-art real-time object detector You Only Watch Once (YOWO), we aim to modify its structure to increase action detection precision and reduce computational time. Specifically, we propose four novel approaches in attempts to improve YOWO and address the imbalanced class issue in videos by modifying the loss function. We consider two moderate-sized datasets to apply our modification of YOWO - the popular Joint-annotated Human Motion Data Base (J-HMDB-21) and a private dataset of restaurant video footage provided by a Carnegie Mellon University-based startup, Agot.AI. The latter involves fast-moving actions with small objects as well as unbalanced data classes, making the task of action localization more challenging. We implement our proposed methods in the GitHub repository https://github.com/s toneMo/YOWOv2.
翻訳日:2021-05-07 05:25:01 公開日:2020-12-15
# マルチドメイン学習によるカスタムサイズの家具の深いレイアウト

Deep Layout of Custom-size Furniture through Multiple-domain Learning ( http://arxiv.org/abs/2012.08131v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu, Danfeng Yang, Hong Zhu, Changyu Sun, YinDong Liu(参考訳) 本稿では,インテリアシーンでカスタムサイズの家具レイアウトを作成するための多領域モデルを提案する。 このモデルは、プロのインテリアデザイナーがカスタムサイズの家具でインテリアデコレーションソリューションをより迅速に作成できるようにすることを目的としている。 提案モデルは、エンドエンドトレーニングにおいて、ディープレイアウトモジュール、ドメインアテンションモジュール、次元ドメイン転送モジュール、カスタムサイズモジュールを組み合わせる。 シーン合成に関する先行研究と比較して,提案モデルは室内のカスタムサイズ家具の自動レイアウト機能を向上させる。 私たちは、プロのデザイナーによる7万10700ドルのデザインを含む、現実世界の内部レイアウトデータセットで実験を行います。 提案モデルは,最先端の家具と比較して,より高品質な家具のレイアウトが得られることを示す。

In this paper, we propose a multiple-domain model for producing a custom-size furniture layout in the interior scene. This model is aimed to support professional interior designers to produce interior decoration solutions with custom-size furniture more quickly. The proposed model combines a deep layout module, a domain attention module, a dimensional domain transfer module, and a custom-size module in the end-end training. Compared with the prior work on scene synthesis, our proposed model enhances the ability of auto-layout of custom-size furniture in the interior room. We conduct our experiments on a real-world interior layout dataset that contains $710,700$ designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts of custom-size furniture in comparison with the state-of-art model.
翻訳日:2021-05-07 05:24:20 公開日:2020-12-15
# 財務チケット画像における全コンテンツテキスト認識手法に関する研究

Research on All-content Text Recognition Method for Financial Ticket Image ( http://arxiv.org/abs/2012.08168v1 )

ライセンス: Link先を確認
Fukang Tian, Haiyu Wu, Bo Xu(参考訳) 経済の発展に伴い、金融チケットの数は急速に増加した。 従来の手形による請求書の払い戻しと財務会計システムは、財務会計士にますます負担をもたらしている。 そこで本研究では,多数のファイナンシャルチケットデータの研究と分析に基づいて,ディープラーニングに基づく全コンテンツテキストの検出・認識手法を高精度かつ効率的に設計した。 この方法は、認識精度とリコール率が高く、財務会計業務の実際の要件を満たすことができる。 また,ファイナンシャル・チケット・キャラクタ認識フレームワーク (FTCRF) を提案する。 漢字認識の特徴から,この枠組みには2段階情報抽出手法が組み込まれており,漢字認識の高速化が図られている。 実験の結果,本手法の平均認識精度は,文字列の91.75\%,チケット全体の87\%であった。 本手法の有効性と有効性は,金融会計システムの効率を大幅に向上させる商用アプリケーションシステムによって検証される。

With the development of the economy, the number of financial tickets increases rapidly. The traditional manual invoice reimbursement and financial accounting system bring more and more burden to financial accountants. Therefore, based on the research and analysis of a large number of real financial ticket data, we designed an accurate and efficient all contents text detection and recognition method based on deep learning. This method has higher recognition accuracy and recall rate and can meet the actual requirements of financial accounting work. In addition, we propose a Financial Ticket Character Recognition Framework (FTCRF). According to the characteristics of Chinese character recognition, this framework contains a two-step information extraction method, which can improve the speed of Chinese character recognition. The experimental results show that the average recognition accuracy of this method is 91.75\% for character sequence and 87\% for the whole ticket. The availability and effectiveness of this method are verified by a commercial application system, which significantly improves the efficiency of the financial accounting system.
翻訳日:2021-05-07 05:24:09 公開日:2020-12-15
# docextractor: 既製の歴史的文書要素の抽出

docExtractor: An off-the-shelf historical document element extraction ( http://arxiv.org/abs/2012.08191v1 )

ライセンス: Link先を確認
Tom Monnier, Mathieu Aubry(参考訳) 実データアノテーションを必要とせずに,テキスト行やイラストなどの視覚的要素を史料から抽出する汎用的手法である docExtractor を提案する。 さまざまなデータセットにまたがるオフ・ザ・シェルフシステムとして高品質なパフォーマンスを提供し、微調整された場合の最先端技術と同等の結果をもたらすことを実証する。 特定のデータセットを微調整せずに得られる性能は、特にデジタル人間性においてアプリケーションにとって重要であり、私たちが扱う行レベルのページセグメンテーションは汎用の要素抽出エンジンにとって最も重要である。 私たちは、リッチな合成文書の高速生成と完全な畳み込みネットワークの設計に依存しています。 さらに,文献におけるイラストのセグメンテーションの詳細な評価を目的とした,IlluHisDocと呼ばれる新しい公開データセットを導入する。

We present docExtractor, a generic approach for extracting visual elements such as text lines or illustrations from historical documents without requiring any real data annotation. We demonstrate it provides high-quality performances as an off-the-shelf system across a wide variety of datasets and leads to results on par with state-of-the-art when fine-tuned. We argue that the performance obtained without fine-tuning on a specific dataset is critical for applications, in particular in digital humanities, and that the line-level page segmentation we address is the most relevant for a general purpose element extraction engine. We rely on a fast generator of rich synthetic documents and design a fully convolutional network, which we show to generalize better than a detection-based approach. Furthermore, we introduce a new public dataset dubbed IlluHisDoc dedicated to the fine evaluation of illustration segmentation in historical documents.
翻訳日:2021-05-07 05:23:56 公開日:2020-12-15
# FMODetect:高速移動物体のロバスト検出と軌道推定

FMODetect: Robust Detection and Trajectory Estimation of Fast Moving Objects ( http://arxiv.org/abs/2012.08216v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Jiri Matas, Filip Sroubek, Marc Pollefeys, Martin R. Oswald(参考訳) 高速移動物体の検出と軌道推定のための最初の学習ベースアプローチを提案する。 このようなオブジェクトは非常にぼやけており、1つのビデオフレーム内で大きな距離を移動します。 高速動くオブジェクトは、デブラッティング(deblatting)とも呼ばれるデブラリングやマットングの問題と関連している。 複雑なデブラッティング問題を共同で解決する代わりに、問題をマットングとデブラリングに分割し、それらを別々に解決します。 提案手法は, トラジェクタへの切り離された距離関数として, 高速移動物体をまず検出する。 その後、検出された各対象に対するマッチング・フィッティング・ネットワークは、対象の軌跡とその背景のないぼやけた外観を推定する。 シャープな外観推定のために,エネルギー最小化に基づくデブロワーリングを提案する。 最先端の手法は、軌道推定と鋭い外観再構成の点で上回っている。 宣言などの他の手法と比較して、推論は桁違いに高速であり、大規模なビデオコレクションにおけるリアルタイムの高速移動物体の検出や検索などのアプリケーションを可能にする。

We propose the first learning-based approach for detection and trajectory estimation of fast moving objects. Such objects are highly blurred and move over large distances within one video frame. Fast moving objects are associated with a deblurring and matting problem, also called deblatting. Instead of solving the complex deblatting problem jointly, we split the problem into matting and deblurring and solve them separately. The proposed method first detects all fast moving objects as a truncated distance function to the trajectory. Subsequently, a matting and fitting network for each detected object estimates the object trajectory and its blurred appearance without background. For the sharp appearance estimation, we propose an energy minimization based deblurring. The state-of-the-art methods are outperformed in terms of trajectory estimation and sharp appearance reconstruction. Compared to other methods, such as deblatting, the inference is of several orders of magnitude faster and allows applications such as real-time fast moving object detection and retrieval in large video collections.
翻訳日:2021-05-07 05:23:21 公開日:2020-12-15
# point-level temporal action localization: bridging full-supervised proposals to weakly-supervised loss

Point-Level Temporal Action Localization: Bridging Fully-supervised Proposals to Weakly-supervised Losses ( http://arxiv.org/abs/2012.08236v1 )

ライセンス: Link先を確認
Chen Ju, Peisen Zhao, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) ポイントレベル時間的アクションローカライゼーション(PTAL)は、アクションインスタンスごとに1つのタイムスタンプアノテーションで、未トリミングビデオ中のアクションをローカライズすることを目的としている。 既存の方法はフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。 しかし、そのようなフレームワークは必然的に大きなソリューション空間に苦しむ。 本稿では,より制約のある解空間と隣り合うフレーム間の一貫した予測の利点を生かした,ポイントレベルのアノテーションの提案に基づく予測パラダイムの検討を試みる。 ポイントレベルのアノテーションは、まずキーポイントディテクターをトレーニングするためのキーポイント監視として使用される。 位置予測の段階では、トレーニングエラーのバックプロパゲーションを可能にするシンプルで効果的なマッパーモジュールを導入し、完全な教師付きフレームワークを弱い監督で橋渡しする。 私たちの知る限りでは、ポイントレベルの設定に完全に教師されたパラダイムを活用するのはこれが初めてです。 THUMOS14,BEOID,GTEAの実験により,提案手法の有効性を定量的かつ定性的に検証し,本手法が最先端手法よりも優れていることを示す。

Point-Level temporal action localization (PTAL) aims to localize actions in untrimmed videos with only one timestamp annotation for each action instance. Existing methods adopt the frame-level prediction paradigm to learn from the sparse single-frame labels. However, such a framework inevitably suffers from a large solution space. This paper attempts to explore the proposal-based prediction paradigm for point-level annotations, which has the advantage of more constrained solution space and consistent predictions among neighboring frames. The point-level annotations are first used as the keypoint supervision to train a keypoint detector. At the location prediction stage, a simple but effective mapper module, which enables back-propagation of training errors, is then introduced to bridge the fully-supervised framework with weak supervision. To our best of knowledge, this is the first work to leverage the fully-supervised paradigm for the point-level setting. Experiments on THUMOS14, BEOID, and GTEA verify the effectiveness of our proposed method both quantitatively and qualitatively, and demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-05-07 05:23:08 公開日:2020-12-15
# ビジュアルコンテンツからの幾何学的拡張 - 地平を越えて

Geometry Enhancements from Visual Content: Going Beyond Ground Truth ( http://arxiv.org/abs/2012.08248v1 )

ライセンス: Link先を確認
Liran Azaria and Dan Raviv(参考訳) この研究は、画像から高周波パターンを抽出し、幾何学的特徴として再挿入する新しい循環アーキテクチャを提案する。 この方法では, 低コスト深度センサの分解能を向上し, 片方の手の細部を捉えるとともに, 他方の被検地真実に忠実である。 深度超解像タスクの最先端結果と、視覚的に魅力的で拡張された3Dモデルについて述べる。

This work presents a new cyclic architecture that extracts high-frequency patterns from images and re-insert them as geometric features. This procedure allows us to enhance the resolution of low-cost depth sensors capturing fine details on the one hand and being loyal to the scanned ground truth on the other. We present state-of-the-art results for depth super-resolution tasks and as well as visually attractive, enhanced generated 3D models.
翻訳日:2021-05-07 05:22:47 公開日:2020-12-15
# FCFR-Net:単眼深度補完のための特徴フュージョンに基づく粗/偽残差学習

FCFR-Net: Feature Fusion based Coarse-to-Fine Residual Learning for Monocular Depth Completion ( http://arxiv.org/abs/2012.08270v1 )

ライセンス: Link先を確認
Lina Liu, Xibin Song, Xiaoyang Lyu, Junwei Diao, Mengmeng Wang, Yong Liu, Liangjun Zhang(参考訳) 奥行き完了は、対応する色イメージを入力としてスパース深度マップから濃密深度マップを復元することを目的としている。 近年のアプローチでは, 深度マップを直接出力する一段階のエンドツーエンド学習タスクとして, 深度補完を定式化している。 しかし、一段階フレームワークの機能抽出と監視は不十分であり、これらのアプローチのパフォーマンスを制限している。 この問題に対処するために,2段階の学習課題,すなわちスパース・ツー・粗い段階と粗い・粗い段階として深度完了を定式化する,新しいエンドツーエンド残差学習フレームワークを提案する。 まず、単純なCNNフレームワークによって粗密深度マップを得る。 そして、粗い深度マップとカラー画像とを入力として、粗い粒度ステージにおける残差学習戦略を用いて洗練された深度マップを得る。 特に、細粒度ステージにおいて、カラー画像と粗度マップからより代表的な特徴を抽出するためにチャンネルシャッフル抽出操作が用いられ、チャンネルシャッフル操作によって得られた特徴を効果的に融合するためにエネルギーベースの融合操作が活用され、より正確で洗練された深度マップが作成される。 我々は,RMSE on KITTIベンチマークでSoTA性能を実現する。 他のデータセットに関する大規模な実験は、現在の最先端の深度補完アプローチよりも、我々のアプローチが優れていることを示す。

Depth completion aims to recover a dense depth map from a sparse depth map with the corresponding color image as input. Recent approaches mainly formulate the depth completion as a one-stage end-to-end learning task, which outputs dense depth maps directly. However, the feature extraction and supervision in one-stage frameworks are insufficient, limiting the performance of these approaches. To address this problem, we propose a novel end-to-end residual learning framework, which formulates the depth completion as a two-stage learning task, i.e., a sparse-to-coarse stage and a coarse-to-fine stage. First, a coarse dense depth map is obtained by a simple CNN framework. Then, a refined depth map is further obtained using a residual learning strategy in the coarse-to-fine stage with coarse depth map and color image as input. Specially, in the coarse-to-fine stage, a channel shuffle extraction operation is utilized to extract more representative features from color image and coarse depth map, and an energy based fusion operation is exploited to effectively fuse these features obtained by channel shuffle operation, thus leading to more accurate and refined depth maps. We achieve SoTA performance in RMSE on KITTI benchmark. Extensive experiments on other datasets future demonstrate the superiority of our approach over current state-of-the-art depth completion approaches.
翻訳日:2021-05-07 05:22:25 公開日:2020-12-15
# 都市データセット拡張のための人工ダミー

Artificial Dummies for Urban Dataset Augmentation ( http://arxiv.org/abs/2012.08274v1 )

ライセンス: Link先を確認
Anton\'in Vobeck\'y, David Hurych, Michal U\v{r}i\v{c}\'a\v{r}, Patrick P\'erez, and Josef \v{S}ivic(参考訳) 画像中の歩行者検知器を訓練するための既存のデータセットは、外観やポーズの変動が限られている。 最も困難なシナリオは、安全上の理由から捕獲が難しい、あるいは起こりそうにないため、めったに含まれない。 アシストや自動運転のアプリケーションにおける厳格な安全性要件は、これらのまれな状況においても、さらに高い検出精度を要求する。 任意のポーズで人物画像を生成でき、任意の外観で、異なる背景に様々な照明や天候条件で埋め込まれる能力は、そのようなアプリケーションの開発とテストにとって重要な要素である。 この論文の貢献は3つある。 まず,人間を含む都市景観の制御的合成のための拡張手法について述べる。 これは、ポーズ、外観、ターゲットの背景シーンを不連続に制御したデータジェネレータ(dummynetと呼ばれる)によって達成される。 第2に,提案するジェネレータは,前景人物のセグメンテーションとその構成を背景シーンに考慮した,新たなネットワークアーキテクチャと関連する損失に依存する。 最後に,dummynetが生成するデータは,限られたトレーニングデータしか利用できない夜間条件などの困難な状況において,さまざまなデータセットにまたがる既存の人物検出器の性能を向上させることを実証する。 日時データのみを利用可能なセットアップでは、日時データのみを用いてトレーニングされた検出器よりも、夜間検出器を17\%$ログ平均ミスレートで改善する。

Existing datasets for training pedestrian detectors in images suffer from limited appearance and pose variation. The most challenging scenarios are rarely included because they are too difficult to capture due to safety reasons, or they are very unlikely to happen. The strict safety requirements in assisted and autonomous driving applications call for an extra high detection accuracy also in these rare situations. Having the ability to generate people images in arbitrary poses, with arbitrary appearances and embedded in different background scenes with varying illumination and weather conditions, is a crucial component for the development and testing of such applications. The contributions of this paper are three-fold. First, we describe an augmentation method for controlled synthesis of urban scenes containing people, thus producing rare or never-seen situations. This is achieved with a data generator (called DummyNet) with disentangled control of the pose, the appearance, and the target background scene. Second, the proposed generator relies on novel network architecture and associated loss that takes into account the segmentation of the foreground person and its composition into the background scene. Finally, we demonstrate that the data generated by our DummyNet improve performance of several existing person detectors across various datasets as well as in challenging situations, such as night-time conditions, where only a limited amount of training data is available. In the setup with only day-time data available, we improve the night-time detector by $17\%$ log-average miss rate over the detector trained with the day-time data only.
翻訳日:2021-05-07 05:22:01 公開日:2020-12-15
# cluster, split, fuse, and update: meta-learning for open compound domain adaptive semantic segmentation

Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2012.08278v1 )

ライセンス: Link先を確認
Rui Gong, Yuhua Chen, Danda Pani Paudel, Yawei Li, Ajad Chhatkuli, Wen Li, Dengxin Dai, Luc Van Gool(参考訳) オープン・コンプレックス・ドメイン適応(OCDA)は、対象ドメインを複数の未知の同質領域の化合物としてモデル化し、未確認領域に一般化の改善の利点をもたらすドメイン適応セットである。 本研究では,OCDAのセマンティックセマンティックセグメンテーション(MOCDA)に対するメタラーニングに基づく手法を提案する。 我々のアプローチは4つの重要なステップからなる。 まず、対象ドメインを画像スタイルによって複数のサブターゲットドメインにクラスタリングし、教師なしの方法で抽出する。 次に、異なるサブターゲットドメインを独立ブランチに分割し、バッチ正規化パラメータを学習してそれらを独立に扱う。 その後、メタリーナーが配置され、スタイルコードに基づいて条件付けられたサブターゲットのドメイン固有の予測を融合する。 一方,モデル非依存型メタラーニング(maml)アルゴリズムによるオンライン更新を学習し,一般化をさらに改善する。 提案手法の利点は,複合領域とオープン領域の両方で最先端の性能を実現するための,合成-実知識伝達ベンチマークデータセットの広範な実験により検証する。

Open compound domain adaptation (OCDA) is a domain adaptation setting, where target domain is modeled as a compound of multiple unknown homogeneous domains, which brings the advantage of improved generalization to unseen domains. In this work, we propose a principled meta-learning based approach to OCDA for semantic segmentation, MOCDA, by modeling the unlabeled target domain continuously. Our approach consists of four key steps. First, we cluster target domain into multiple sub-target domains by image styles, extracted in an unsupervised manner. Then, different sub-target domains are split into independent branches, for which batch normalization parameters are learnt to treat them independently. A meta-learner is thereafter deployed to learn to fuse sub-target domain-specific predictions, conditioned upon the style code. Meanwhile, we learn to online update the model by model-agnostic meta-learning (MAML) algorithm, thus to further improve generalization. We validate the benefits of our approach by extensive experiments on synthetic-to-real knowledge transfer benchmark datasets, where we achieve the state-of-the-art performance in both compound and open domains.
翻訳日:2021-05-07 05:21:37 公開日:2020-12-15
# mDALU: 部分データセットによるマルチソースドメイン適応とラベル統一

mDALU: Multi-Source Domain Adaptation and Label Unification with Partial Datasets ( http://arxiv.org/abs/2012.08385v1 )

ライセンス: Link先を確認
Rui Gong, Dengxin Dai, Yuhua Chen, Wen Li, Luc Van Gool(参考訳) 物体認識は近年急速に進歩している。 課題のひとつは、既存のメソッドを新しいドメイン、より多くのクラス、または新しいデータモダリティに一般化することです。 これらの新しいケース毎に1つのデータセットに注釈を付けるのを避けるために、異なるドメインに属し、部分的なアノテーションを持ち、あるいは異なるデータモダリティを持つ可能性のある既存のデータセットを組み合わせて再利用する必要がある。 本稿では,この課題をマルチソースドメイン適応・ラベル統一(mDALU)問題として扱い,新しい手法を提案する。 本手法は,部分教師あり適応段階と完全教師あり適応段階からなる。 前者では、部分的な知識が複数のソースドメインからターゲットドメインに転送され、融合される。 非整合ラベル空間間の負の移動は、ドメイン注意、不確実性最大化、注意誘導逆アライメントの3つの新しいモジュールによって緩和される。 後者では、知識は擬似ラベルを持つラベル完了プロセスの後、統一ラベル空間に転送される。 本手法は,画像分類,2次元意味画像分割,ジョイント2d-3d意味セグメンテーションの3つのタスクで検証する。 広範な実験により,本手法がすべての競合手法を大幅に上回ることが示された。

Object recognition advances very rapidly these days. One challenge is to generalize existing methods to new domains, to more classes and/or to new data modalities. In order to avoid annotating one dataset for each of these new cases, one needs to combine and reuse existing datasets that may belong to different domains, have partial annotations, and/or have different data modalities. This paper treats this task as a multi-source domain adaptation and label unification (mDALU) problem and proposes a novel method for it. Our method consists of a partially-supervised adaptation stage and a fully-supervised adaptation stage. In the former, partial knowledge is transferred from multiple source domains to the target domain and fused therein. Negative transfer between unmatched label space is mitigated via three new modules: domain attention, uncertainty maximization and attention-guided adversarial alignment. In the latter, knowledge is transferred in the unified label space after a label completion process with pseudo-labels. We verify the method on three different tasks, image classification, 2D semantic image segmentation, and joint 2D-3D semantic segmentation. Extensive experiments show that our method outperforms all competing methods significantly.
翻訳日:2021-05-07 05:20:58 公開日:2020-12-15
# FINED:エッジ検出のための高速推論ネットワーク

FINED: Fast Inference Network for Edge Detection ( http://arxiv.org/abs/2012.08392v1 )

ライセンス: Link先を確認
Jan Kristanto Wibisono and Hsueh-Ming Hang(参考訳) 本稿では,軽量深層学習に基づくエッジ検出の設計について述べる。 ディープラーニング技術は、エッジ検出精度を大幅に向上させる。 しかし、典型的なニューラルネットワークの設計はモデルの複雑さが非常に高く、実用的利用を妨げている。 これとは対照的に,エッジ検出専用の軽量ニューラルネットワークであるfined(fast inference network for edge detection)を提案する。 エッジ検出目的の適切なコンポーネントを慎重に選択することにより、エッジ検出における最先端の精度を実現し、その複雑さを著しく低減することができる。 参照速度を上げるもう1つの重要な貢献は、トレーニングヘルパーの概念の導入である。 追加のサブネット(トレーニングヘルパー)は訓練に使用されるが、推論には使用されない。 モデルの複雑さをさらに削減し、同じレベルの精度を維持することができる。 私たちの実験では、我々のシステムは現在のエッジ検出器をほぼ同じモデル(パラメータ)サイズで上回っています。

In this paper, we address the design of lightweight deep learning-based edge detection. The deep learning technology offers a significant improvement on the edge detection accuracy. However, typical neural network designs have very high model complexity, which prevents it from practical usage. In contrast, we propose a Fast Inference Network for Edge Detection (FINED), which is a lightweight neural net dedicated to edge detection. By carefully choosing proper components for edge detection purpose, we can achieve the state-of-the-art accuracy in edge detection while significantly reducing its complexity. Another key contribution in increasing the inferencing speed is introducing the training helper concept. The extra subnetworks (training helper) are employed in training but not used in inferencing. It can further reduce the model complexity and yet maintain the same level of accuracy. Our experiments show that our systems outperform all the current edge detectors at about the same model (parameter) size.
翻訳日:2021-05-07 05:20:40 公開日:2020-12-15
# 新しいサンプリングバッチ正規化埋め込みニューラルネットワーク法によるspoc学習者の最終次数予測

SPOC learner's final grade prediction based on a novel sampling batch normalization embedded neural network method ( http://arxiv.org/abs/2012.08408v1 )

ライセンス: Link先を確認
Zhuonan Liang, Ziheng Liu, Huaze Shi, Yunlong Chen, Yanbin Cai, Yating Liang, Yafan Feng, Yuqing Yang, Jing Zhang, Peng Fu(参考訳) 近年では、学習者の成績を要約し予測するために機械学習技術が研究され、主に最終学年に集中する、可変的な教育要求に高度にカスタマイズし、パーソナライズすることができるs small private online courses (spoc)が急速に成長している。 しかし,SPOCにおける学習者の最終段階は,予測モデルの訓練を手作業で行う場合,概して深刻な不均衡である。 そこで本研究では,サンプリングバッチ正規化組み込みディープニューラルネットワーク(SBNEDNN)法を開発した。 まず、データ分布を測定するために結合指標を定義し、その後、サンプリングプロセスを導くためのルールが確立される。 次に、バッチ正規化(bn)修飾層を完全連結ニューラルネットワークに組み込み、データ不均衡問題を解決する。 他の3つのディープラーニング手法による実験結果は,提案手法の優位性を示している。

Recent years have witnessed the rapid growth of Small Private Online Courses (SPOC) which is able to highly customized and personalized to adapt variable educational requests, in which machine learning techniques are explored to summarize and predict the learner's performance, mostly focus on the final grade. However, the problem is that the final grade of learners on SPOC is generally seriously imbalance which handicaps the training of prediction model. To solve this problem, a sampling batch normalization embedded deep neural network (SBNEDNN) method is developed in this paper. First, a combined indicator is defined to measure the distribution of the data, then a rule is established to guide the sampling process. Second, the batch normalization (BN) modified layers are embedded into full connected neural network to solve the data imbalanced problem. Experimental results with other three deep learning methods demonstrates the superiority of the proposed method.
翻訳日:2021-05-07 05:20:29 公開日:2020-12-15
# 見えない人を検出する

Detecting Invisible People ( http://arxiv.org/abs/2012.08419v1 )

ライセンス: Link先を確認
Tarasha Khurana, Achal Dave, Deva Ramanan(参考訳) モノクロ物体の検出と追跡は近年大幅に改善されているが、重要な前提は、物体がカメラから見えるというものである。 多くのオフライントラッキングアプローチは、オブジェクトが再出現した後にトラックレットをリンクして再識別する(ReID)ことで、隠されたオブジェクトをポストホックで推論する。 しかし、身体化されたロボットエージェント(自動運転車など)のオンライントラッキングには、基本的にオブジェクトの永続性が必要である。 本研究は,被験者の視覚的ケースに焦点をあて,目に見える物体を検出するタスクのためのトラッキングベンチマークと,新しいメトリクスを提案する。 この課題に対して,現在の検出・追跡システムが劇的に悪化していることを示す。 このパフォーマンス低下を回復するために、2つの重要なイノベーションを紹介します。 我々は, 時間系列におけるオクルード物体検出を短期予測課題として扱い, 動的シーケンス予測から有意なツールをもたらす。 第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。 私たちの知る限りでは,オクルード物体を追跡・検出するタスクにおいて,単眼深度推定の有効性を示す最初の研究である。 我々のアプローチは、基準値よりも11.4%、F1スコアより5.0%向上した。

Monocular object detection and tracking have improved drastically in recent years, but rely on a key assumption: that objects are visible to the camera. Many offline tracking approaches reason about occluded objects post-hoc, by linking together tracklets after the object re-appears, making use of reidentification (ReID). However, online tracking in embodied robotic agents (such as a self-driving vehicle) fundamentally requires object permanence, which is the ability to reason about occluded objects before they re-appear. In this work, we re-purpose tracking benchmarks and propose new metrics for the task of detecting invisible objects, focusing on the illustrative case of people. We demonstrate that current detection and tracking systems perform dramatically worse on this task. We introduce two key innovations to recover much of this performance drop. We treat occluded object detection in temporal sequences as a short-term forecasting challenge, bringing to bear tools from dynamic sequence prediction. Second, we build dynamic models that explicitly reason in 3D, making use of observations produced by state-of-the-art monocular depth estimation networks. To our knowledge, ours is the first work to demonstrate the effectiveness of monocular depth estimation for the task of tracking and detecting occluded objects. Our approach strongly improves by 11.4% over the baseline in ablations and by 5.0% over the state-of-the-art in F1 score.
翻訳日:2021-05-07 05:20:11 公開日:2020-12-15
# napa:ニューラルネットワークによる人間のポーズアンプ

NAPA: Neural Art Human Pose Amplifier ( http://arxiv.org/abs/2012.08501v1 )

ライセンス: Link先を確認
Qingfu Wan, Oliver Lu(参考訳) これはCSCI-GA.2271-001のプロジェクトレポートである。 芸術画像における人間のポーズ推定を対象とする。 この目的のために,ポーズ回帰にニューラルスタイル転送を用いるエンドツーエンドシステムの設計を行う。 任意のスタイル転送のための277スタイルのセットを収集し,芸術的281画像テストセットを構築した。 テストセットで直接ポーズ回帰を実行し、有望な結果を示します。 ポーズ回帰のために,ポーズが持ち上げられる2次元骨マップを提案する。 このようなリフティングを支援するために,本論文では,完全な内蔵MPIIデータセットの擬似3dラベルを注釈付けする。 さらに、2dを改善するために、別のスタイル転送を自己監督として追加する。 紹介した特徴を分析するために広範なアブレーション研究を行う。 また、エンドツーエンドとスタイル毎のトレーニングを比較し、スタイル転送とポーズ回帰のトレードオフについて説明する。 最後に、我々のモデルを現実世界の人間のデータセットに一般化し、その可能性を一般的なポーズモデルとして示す。 我々はAppendixの理論的基礎を説明します。 https://github.com/s trawberryfg/NAPA-NST -HPE、データ、ビデオでコードをリリースします。

This is the project report for CSCI-GA.2271-001. We target human pose estimation in artistic images. For this goal, we design an end-to-end system that uses neural style transfer for pose regression. We collect a 277-style set for arbitrary style transfer and build an artistic 281-image test set. We directly run pose regression on the test set and show promising results. For pose regression, we propose a 2d-induced bone map from which pose is lifted. To help such a lifting, we additionally annotate the pseudo 3d labels of the full in-the-wild MPII dataset. Further, we append another style transfer as self supervision to improve 2d. We perform extensive ablation studies to analyze the introduced features. We also compare end-to-end with per-style training and allude to the tradeoff between style transfer and pose regression. Lastly, we generalize our model to the real-world human dataset and show its potentiality as a generic pose model. We explain the theoretical foundation in Appendix. We release code at https://github.com/s trawberryfg/NAPA-NST -HPE, data, and video.
翻訳日:2021-05-07 05:19:49 公開日:2020-12-15
# 属性と関係グラフを用いたエンドツーエンド生成フロアプランとレイアウト

End-to-end Generative Floor-plan and Layout with Attributes and Relation Graph ( http://arxiv.org/abs/2012.08514v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu, Danfeng Yang, Hong Zhu, Changyu Sun, YinDong Liu(参考訳) 本稿では,ランダムなベクトルから室内シーンを合成するための家具レイアウトを生成するエンドエンドモデルを提案する。 このモデルは、プロのインテリアデザイナーがインテリアデコレーションソリューションをより迅速に作成できるよう支援することを目的としている。 提案モデルでは,室内の条件付きフロアプランモジュール,室内の条件付きグラフィカルフロアプランモジュール,および条件付きレイアウトモジュールを組み合わせる。 シーン合成に関する先行研究と比較して,提案する3つのモジュールは,部屋の次元的カテゴリから自動レイアウト生成能力を向上させる。 我々は,プロのデザイナーによる191208ドルのデザインを含む,現実世界のレイアウトデータセットについて実験を行った。 その結果,提案モデルでは,最先端モデルと比較して高品質なレイアウトが得られた。 データセットとコードは、href{https://github.com/C ODE-SUBMIT/dataset3}{Dataset,Code} でリリースされる。

In this paper, we propose an end-end model for producing furniture layout for interior scene synthesis from the random vector. This proposed model is aimed to support professional interior designers to produce the interior decoration solutions more quickly. The proposed model combines a conditional floor-plan module of the room, a conditional graphical floor-plan module of the room and a conditional layout module. As compared with the prior work on scene synthesis, our proposed three modules enhance the ability of auto-layout generation given the dimensional category of the room. We conduct our experiments on the proposed real-world interior layout dataset that contains $191208$ designs from the professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts in comparison with the state-of-the-art model. The dataset and code are released \href{https://github.com/C ODE-SUBMIT/dataset3}{Dataset,Code}
翻訳日:2021-05-07 05:18:51 公開日:2020-12-15
# 赤外小ターゲット検出のための注意的局所コントラストネットワーク

Attentional Local Contrast Networks for Infrared Small Target Detection ( http://arxiv.org/abs/2012.08573v1 )

ライセンス: Link先を確認
Yimian Dai and Yiquan Wu and Fei Zhou and Kobus Barnard(参考訳) 本稿では,純粋データ駆動方式における最小固有特性の問題を軽減するため,赤外小目標検出のための新しいモデル駆動型深層ネットワークを提案し,識別ネットワークと従来のモデル駆動手法を組み合わせて,ラベル付きデータとドメイン知識の両方を利用する。 特徴マップの循環シフトスキームを設計することにより,従来の局所コントラスト法をエンド・ツー・エンドネットワークのパラメータレス非線形特徴改善層としてモジュール化する。 低レベルの機能の小さな詳細をより深い層の高レベルな機能に統合したボトムアップの注意変調も活用します。 ネットワークアーキテクチャの各コンポーネントの設計の有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。 また、オープンなSIRSTデータセット上の他のモデル駆動手法やディープネットワークと比較した。 その結果,我々のネットワークは,競合相手よりもパフォーマンスが向上することが示唆された。 私たちのコード、トレーニングされたモデル、結果はオンラインで利用可能です。

To mitigate the issue of minimal intrinsic features for pure data-driven methods, in this paper, we propose a novel model-driven deep network for infrared small target detection, which combines discriminative networks and conventional model-driven methods to make use of both labeled data and the domain knowledge. By designing a feature map cyclic shift scheme, we modularize a conventional local contrast measure method as a depth-wise parameterless nonlinear feature refinement layer in an end-to-end network, which encodes relatively long-range contextual interactions with clear physical interpretability. To highlight and preserve the small target features, we also exploit a bottom-up attentional modulation integrating the smaller scale subtle details of low-level features into high-level features of deeper layers. We conduct detailed ablation studies with varying network depths to empirically verify the effectiveness and efficiency of the design of each component in our network architecture. We also compare the performance of our network against other model-driven methods and deep networks on the open SIRST dataset as well. The results suggest that our network yields a performance boost over its competitors. Our code, trained models, and results are available online.
翻訳日:2021-05-07 05:18:37 公開日:2020-12-15
# 熱合成開口可視化における焦点強調のためのポーズ誤差低減

Pose Error Reduction for Focus Enhancement in Thermal Synthetic Aperture Visualization ( http://arxiv.org/abs/2012.08606v1 )

ライセンス: Link先を確認
Indrajit Kurmi, David C. Schedl, and Oliver Bimber(参考訳) 森林に汚染された人工物を明らかにするための航空合成開口イメージング技術であるairborne optical sectioningは、ドローンのポーズを正確に測定する必要がある。 本稿では,従来のパースペクティブ・n・ポイント・ソリューションの可能性を超越したポーズ推定誤差を低減するための新しい手法を提案する。 本稿では,パラメータ探索空間を削減し,現実的な処理時間を実現するとともに,合成積分画像の品質を向上させる効率的な画像統合手法を提案する。

Airborne optical sectioning, an effective aerial synthetic aperture imaging technique for revealing artifacts occluded by forests, requires precise measurements of drone poses. In this article we present a new approach for reducing pose estimation errors beyond the possibilities of conventional Perspective-n-Point solutions by considering the underlying optimization as a focusing problem. We present an efficient image integration technique, which also reduces the parameter search space to achieve realistic processing times, and improves the quality of resulting synthetic integral images.
翻訳日:2021-05-07 05:18:17 公開日:2020-12-15
# 交通需要予測のための結合層グラフ畳み込み

Coupled Layer-wise Graph Convolution for Transportation Demand Prediction ( http://arxiv.org/abs/2012.08080v1 )

ライセンス: Link先を確認
Junchen Ye, Leilei Sun, Bowen Du, Yanjie Fu, Hui Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は,駅や地域交通需要の非ユークリッド空間依存性を捉える能力に優れており,交通需要予測に広く応用されている。 しかし,既存の研究のほとんどにおいて,グラフ畳み込みは,駅の実際の空間関係を正確に反映したり,要求の多段階空間依存性を適応的に捉えたりすることができない,ヒューリスティックに生成された隣接行列上に実装された。 上記の問題に対処するため,輸送需要予測のための新しいグラフ畳み込みネットワークを提案する。 まず,新しいグラフ畳み込み構造を提案し,異なる層に異なる隣接行列を配置し,学習中にすべての隣接行列を自己学習する。 第2に、上層の隣接行列と下層の行列とを関連付ける層ワイドカップリング機構を設ける。 また、モデルにおけるパラメータのスケールも削減します。 最後に、隠れた空間状態とゲートリカレント単位を統合して最終予測結果を与えるユニタリネットワークを構築し、マルチレベル空間依存と時間ダイナミクスを同時に捉えることができる。 実世界の2つのデータセット(nyc citi bikeとnyc taxi)で実験が行われ、最新モデルよりも優れたモデルが実証された。

Graph Convolutional Network (GCN) has been widely applied in transportation demand prediction due to its excellent ability to capture non-Euclidean spatial dependence among station-level or regional transportation demands. However, in most of the existing research, the graph convolution was implemented on a heuristically generated adjacency matrix, which could neither reflect the real spatial relationships of stations accurately, nor capture the multi-level spatial dependence of demands adaptively. To cope with the above problems, this paper provides a novel graph convolutional network for transportation demand prediction. Firstly, a novel graph convolution architecture is proposed, which has different adjacency matrices in different layers and all the adjacency matrices are self-learned during the training process. Secondly, a layer-wise coupling mechanism is provided, which associates the upper-level adjacency matrix with the lower-level one. It also reduces the scale of parameters in our model. Lastly, a unitary network is constructed to give the final prediction result by integrating the hidden spatial states with gated recurrent unit, which could capture the multi-level spatial dependence and temporal dynamics simultaneously. Experiments have been conducted on two real-world datasets, NYC Citi Bike and NYC Taxi, and the results demonstrate the superiority of our model over the state-of-the-art ones.
翻訳日:2021-05-07 05:17:48 公開日:2020-12-15
# Double Kernelized ScoringとMatrix Kernelsによる異常検出と位置推定

Anomaly Detection and Localization based on Double Kernelized Scoring and Matrix Kernels ( http://arxiv.org/abs/2012.08100v1 )

ライセンス: Link先を確認
Shunsuke Hirose, Tomotake Kozu, and Yingzi Jin(参考訳) 異常検出は、複数のデバイス、ネットワーク、および/または植物からなる大規模システムの適切な安全運用のために必要である。 これらのシステムは、しばしば多変量データセットのペアによって特徴づけられる。 このようなシステムにおける異常を検出し、異常に関連する要素を局所化するには、システム全体とその要素の異常を定量化するスコアを推定する必要がある。 しかし、それらの要素間の関係の変化を考慮し、それらのスコアを推定することは自明ではない。 さらに、異常に関連する要素を局所化するためのスコア間の関係を識別するために、システム全体のスコアとその要素を単一のフレームワークから推定する必要がある。 そこで我々は,システム全体とその要素の異常性を同時に定量化する手法を開発した。 本論文の目的は3倍である。 1つ目は、新しい異常検出方法であるDouble Kernelized Scoring (DKS)を提案することである。 DKSはシステム全体の異常スコアと要素単位の異常スコアの統一フレームワークである。 したがって、DKSは、1)システム全体の異常検出を同時に行うことができ、2)システム異常の原因となる欠陥要素を特定できる。 2つ目の目的は、新しいカーネル関数であるMatrix Kernelを提案することである。 マトリックスカーネル(Matrix Kernel)は、次元の異なる一般的な行列の間で定義されており、時間とともに要素の数が変化するシステム上で異常検出を行うことができる。 第3の目的は,提案手法の有効性を実験的に実証することである。 提案手法を合成および実時間時系列データを用いて評価した。 その結果、DKSは異常を検出し、それに関連する要素をうまくローカライズできることが示された。

Anomaly detection is necessary for proper and safe operation of large-scale systems consisting of multiple devices, networks, and/or plants. Those systems are often characterized by a pair of multivariate datasets. To detect anomaly in such a system and localize element(s) associated with anomaly, one would need to estimate scores that quantify anomalousness of the entire system as well as its elements. However, it is not trivial to estimate such scores by considering changes of relationships between the elements, which strongly correlate with each other. Moreover, it is necessary to estimate the scores for the entire system and its elements from a single framework, in order to identify relationships among the scores for localizing elements associated with anomaly. Here, we developed a new method to quantify anomalousness of an entire system and its elements simultaneously. The purpose of this paper is threefold. The first one is to propose a new anomaly detection method: Double Kernelized Scoring (DKS). DKS is a unified framework for entire-system anomaly scoring and element-wise anomaly scoring. Therefore, DKS allows for conducting simultaneously 1) anomaly detection for the entire system and 2) localization for identifying faulty elements responsible for the system anomaly. The second purpose is to propose a new kernel function: Matrix Kernel. The Matrix Kernel is defined between general matrices, which might have different dimensions, allowing for conducting anomaly detection on systems where the number of elements change over time. The third purpose is to demonstrate the effectiveness of the proposed method experimentally. We evaluated the proposed method with synthetic and real time series data. The results demonstrate that DKS is able to detect anomaly and localize the elements associated with it successfully.
翻訳日:2021-05-07 05:17:26 公開日:2020-12-15
# 集合関数の学習

Learning Aggregation Functions ( http://arxiv.org/abs/2012.08482v1 )

ライセンス: Link先を確認
Giovanni Pellegrini and Alessandro Tibo and Paolo Frasconi and Andrea Passerini and Manfred Jaeger(参考訳) セットでの学習は、広く適用可能なため、機械学習コミュニティでますます注目を集めている。 通常、集合上の表現は和や最大といった固定集約関数を用いて計算される。 しかし、最近の結果は、和(または最大)分解による普遍関数表現は、高度に不連続な(したがって学習しにくい)写像を必要とするか、あるいは集合内の要素の最大数に等しい潜在次元を必要とすることを示した。 この問題を軽減するために,任意の濃度の集合に対する学習可能なアグリゲータであるLAF(Learning Aggregation Function)を導入する。 LAFは、より複雑な関数(例えば、平均、和、最大値など)だけでなく、広く用いられるアグリゲータを近似することができる。 ばらつきと歪み)。 本稿では,LAFがDeepSetsやPrincipal Neighborhood Aggregationのようなライブラリベースのアーキテクチャなど,最先端の和(max-)分解アーキテクチャより優れていることを示す半合成および実データに関する実験を報告する。

Learning on sets is increasingly gaining attention in the machine learning community, due to its widespread applicability. Typically, representations over sets are computed by using fixed aggregation functions such as sum or maximum. However, recent results showed that universal function representation by sum- (or max-) decomposition requires either highly discontinuous (and thus poorly learnable) mappings, or a latent dimension equal to the maximum number of elements in the set. To mitigate this problem, we introduce LAF (Learning Aggregation Functions), a learnable aggregator for sets of arbitrary cardinality. LAF can approximate several extensively used aggregators (such as average, sum, maximum) as well as more complex functions (e.g. variance and skewness). We report experiments on semi-synthetic and real data showing that LAF outperforms state-of-the-art sum- (max-) decomposition architectures such as DeepSets and library-based architectures like Principal Neighborhood Aggregation.
翻訳日:2021-05-07 05:16:47 公開日:2020-12-15
# 差分アーキテクチャ探索のためのシングルレベル最適化

Single-level Optimization For Differential Architecture Search ( http://arxiv.org/abs/2012.11337v1 )

ライセンス: Link先を確認
Pengfei Hou, Ying Jin(参考訳) 本稿では,差分アーキテクチャ探索(darts)により,アーキテクチャパラメータの勾配がネットワーク重みに偏り,アーキテクチャパラメータが異なるデータセットで更新され,代わりにbiレベル最適化フレームワークで更新されることを示す。 このバイアスは、学習不可能な操作のアーキテクチャパラメータが学習可能な操作のパラメータを超える原因となる。 さらに、softmaxをアーキテクチャパラメータのアクティベーション関数と不適切な学習率として使用すると、バイアスが悪化する。 その結果, 探索段階において非学習操作が支配的であることがしばしば観察される。 バイアスを軽減するために,二レベル最適化とsigmoidのような非競合的アクティベーション関数の置き換えにシングルレベルを用いることを提案する。 その結果,高性能アーキテクチャを着実に探索することができた。 NAS Benchmark 201の実験は、我々の仮説を検証し、ほぼ最適なアーキテクチャを安定して見つける。 DARTS空間上では、ImageNet-1K上で77.0%の最先端アーキテクチャ(PDARTSと追加モジュールを含まないトレーニング設定)を検索し、現在報告されている最高の結果に匹敵する76.5%の最先端アーキテクチャ(検索されたアーキテクチャからベストを選ばない)を着実に検索する。

In this paper, we point out that differential architecture search (DARTS) makes gradient of architecture parameters biased for network weights and architecture parameters are updated in different datasets alternatively in the bi-level optimization framework. The bias causes the architecture parameters of non-learnable operations to surpass that of learnable operations. Moreover, using softmax as architecture parameters' activation function and inappropriate learning rate would exacerbate the bias. As a result, it's frequently observed that non-learnable operations are dominated in the search phase. To reduce the bias, we propose to use single-level to replace bi-level optimization and non-competitive activation function like sigmoid to replace softmax. As a result, we could search high-performance architectures steadily. Experiments on NAS Benchmark 201 validate our hypothesis and stably find out nearly the optimal architecture. On DARTS space, we search the state-of-the-art architecture with 77.0% top1 accuracy (training setting follows PDARTS and without any additional module) on ImageNet-1K and steadily search architectures up-to 76.5% top1 accuracy (but not select the best from the searched architectures) which is comparable with current reported best result.
翻訳日:2021-05-07 05:15:43 公開日:2020-12-15
# 半構造化データのスキーマ抽出

Schema Extraction on Semi-structured Data ( http://arxiv.org/abs/2012.08105v1 )

ライセンス: Link先を確認
Panpan Li, Yikun Gong, Chen Wang(参考訳) nosqlデータベースの継続的な開発により、開発とデータ管理に半構造化データを使用することがますます多くなり、nosqlデータベースに格納された半構造化データのスキーマ管理の要求が高まっている。 スキーマ抽出は、スキーマの理解、クエリの最適化、データの一貫性の検証において重要な役割を果たす。 そこで本研究では,木とグラフに基づく構造的手法と,分散アーキテクチャに基づく統計的手法とスキーマ抽出のための機械学習について検討する。 構造的手法により得られたスキーマはより解釈可能であり、統計的手法は適用性と一般化能力が向上する。 さらに,スキーマ抽出のためのツールやシステムについても検討する。 スキーマ抽出ツールは、主にスパークやNoSQLデータベースに使われ、小さなデータセットや単純なアプリケーション環境に適している。 システムは主に、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。 さらに,これらの手法を比較して,データマネージャの選択を促進する。

With the continuous development of NoSQL databases, more and more developers choose to use semi-structured data for development and data management, which puts forward requirements for schema management of semi-structured data stored in NoSQL databases. Schema extraction plays an important role in understanding schemas, optimizing queries, and validating data consistency. Therefore, in this survey we investigate structural methods based on tree and graph and statistical methods based on distributed architecture and machine learning to extract schemas. The schemas obtained by the structural methods are more interpretable, and the statistical methods have better applicability and generalization ability. Moreover, we also investigate tools and systems for schemas extraction. Schema extraction tools are mainly used for spark or NoSQL databases, and are suitable for small datasets or simple application environments. The system mainly focuses on the extraction and management of schemas in large data sets and complex application scenarios. Furthermore, we also compare these techniques to facilitate data managers' choice.
翻訳日:2021-05-07 05:15:21 公開日:2020-12-15
# 大規模8パズルの解法による変調複雑性の新しい視点

A new perspective of paramodulation complexity by solving massive 8 puzzles ( http://arxiv.org/abs/2012.08231v1 )

ライセンス: Link先を確認
Ruo Ando, Yoshiyasu Takefuji(参考訳) スライディングパズル(Slide puzzle)とは、プレイヤーがボード上の特定のルートに沿って部品をスライドさせて特定のエンド設定に達するような組み合わせパズルである。 本稿では,自動推論手法であるパラモディフィケーションを用いた大規模スライディングパズルの複雑性の新たな測定法を提案する。 その結果、パラモジュレーションによって得られる節の数を数えることで、各パズルの難易度を評価できることがわかった。 実験では,100×8のパズルを生成し,逆解析による可解性チェックに合格した。 これにより、パラモーテーションによって生成される8つのパズルの複雑さを区別することができる。 例えば、ボード[2,3,6,1,7,8,5,4,ホール]はスコア3008が最も簡単で、ボード[6,5,8,7,4,3,2,1,ホール]はスコア48653で最も難しい。 さらに,100のパズルにおいて,数階層の複雑さ(生成節数)を克服することに成功している。 提案手法は,スライディングブロックパズルに関するパラモーダル複雑性の新しい視点を提供することができる。

A sliding puzzle is a combination puzzle where a player slide pieces along certain routes on a board to reach a certain end-configuration. In this paper, we propose a novel measurement of complexity of massive sliding puzzles with paramodulation which is an inference method of automated reasoning. It turned out that by counting the number of clauses yielded with paramodulation, we can evaluate the difficulty of each puzzle. In experiment, we have generated 100 * 8 puzzles which passed the solvability checking by countering inversions. By doing this, we can distinguish the complexity of 8 puzzles with the number of generated with paramodulation. For example, board [2,3,6,1,7,8,5,4, hole] is the easiest with score 3008 and board [6,5,8,7,4,3,2,1, hole] is the most difficult with score 48653. Besides, we have succeeded to obverse several layers of complexity (the number of clauses generated) in 100 puzzles. We can conclude that proposal method can provide a new perspective of paramodulation complexity concerning sliding block puzzles.
翻訳日:2021-05-07 05:15:09 公開日:2020-12-15
# Gegelati: 汎用的で進化可能なプログラムグラフによる軽量人工知能

Gegelati: Lightweight Artificial Intelligence through Generic and Evolvable Tangled Program Graphs ( http://arxiv.org/abs/2012.08296v1 )

ライセンス: Link先を確認
Karol Desnos (UNIV-RENNES, INSA Rennes, IETR), Nicolas Sourbier (INSA Rennes, UNIV-RENNES, IETR), Pierre-Yves Raumer (INSA Rennes, IETR), Olivier Gesny, Maxime Pelcat (UNIV-RENNES, INSA Rennes, IETR)(参考訳) Tangled Program Graph (TPG) は遺伝的プログラミングの概念に基づく強化学習技術である。 最先端の学習環境において、TPGはDeep Neural Networks(DNN)に匹敵する能力を提供し、計算とストレージのコストのごく一部を提供する。 TPGのこの軽量さは、トレーニングと推論の両方において、限られた計算と記憶資源を持つ組み込みシステムに人工知能(AI)を実装する興味深いモデルとなっている。 本稿では TPG 用 Gegelati ライブラリについて紹介する。 図書館の一般的な概念や特徴を紹介するのに加えて、本論文では2つの主要な貢献について詳述している。 1/ 異種マルチプロセッサシステム・オン・チップ(MPSoC)をサポートするためのTPGの決定論的トレーニングプロセスの並列化。 2/ TPGモデルの遺伝的に進化したプログラム内で、カスタマイズ可能な命令セットとデータタイプのサポート。 並列トレーニングプロセスのスケーラビリティは、ハイエンドの24コアプロセッサから低消費電力の異種MPSoCまで、アーキテクチャの実験を通じて実証される。 トレーニングプロセスの結果に対するカスタマイズ可能な指示の影響を,最先端の強化学習環境に示す。 ccs の概念: $\bullet$ computer systems organization $\rightarrow$ embedded systems; $\bullet$ computing methodology $\rightarrow$ machine learning。

Tangled Program Graph (TPG) is a reinforcement learning technique based on genetic programming concepts. On state-of-the-art learning environments, TPGs have been shown to offer comparable competence with Deep Neural Networks (DNNs), for a fraction of their computational and storage cost. This lightness of TPGs, both for training and inference, makes them an interesting model to implement Artificial Intelligences (AIs) on embedded systems with limited computational and storage resources. In this paper, we introduce the Gegelati library for TPGs. Besides introducing the general concepts and features of the library, two main contributions are detailed in the paper: 1/ The parallelization of the deterministic training process of TPGs, for supporting heterogeneous Multiprocessor Systems-on-Chips (MPSoCs). 2/ The support for customizable instruction sets and data types within the genetically evolved programs of the TPG model. The scalability of the parallel training process is demonstrated through experiments on architectures ranging from a high-end 24-core processor to a low-power heterogeneous MPSoC. The impact of customizable instructions on the outcome of a training process is demonstrated on a state-of-the-art reinforcement learning environment. CCS Concepts: $\bullet$ Computer systems organization $\rightarrow$ Embedded systems; $\bullet$ Computing methodologies $\rightarrow$ Machine learning.
翻訳日:2021-05-07 05:14:54 公開日:2020-12-15
# 語彙データに対する意味アノテーション

Semantic Annotation for Tabular Data ( http://arxiv.org/abs/2012.08594v1 )

ライセンス: Link先を確認
Udayan Khurana and Sainyam Galhotra(参考訳) 表データにおける列の意味概念の検出は、データ統合、クリーニング、検索、特徴工学、機械学習におけるモデル構築など、多くのアプリケーションにとって特に興味深い。 近年,セマンティック型アノテーションに対する教師付き学習に基づく,あるいはヒューリスティックなパターンに基づくアプローチが提案されている。 どちらも、多くの概念や例を一般化するのを防ぐ欠点がある。 多くのニューラルネットワークベースの手法もスケーラビリティの問題を提示している。 さらに、既知の手法は数値データに対してうまく機能しない。 我々は,アンサンブルによる最大確率推定手法に基づく,概念マッパーのためのコラムである$c^2$を提案する。 2つの一般的なナレッジグラフに加えて、幾分騒がしいオープンなテーブルコーパスを効果的に活用し、構造化データに対して効果的かつ効率的な概念予測を行うことができる。 我々は9つのデータセット上で$c^2$が使用可能なテクニックの有効性を実証する。

Detecting semantic concept of columns in tabular data is of particular interest to many applications ranging from data integration, cleaning, search to feature engineering and model building in machine learning. Recently, several works have proposed supervised learning-based or heuristic pattern-based approaches to semantic type annotation. Both have shortcomings that prevent them from generalizing over a large number of concepts or examples. Many neural network based methods also present scalability issues. Additionally, none of the known methods works well for numerical data. We propose $C^2$, a column to concept mapper that is based on a maximum likelihood estimation approach through ensembles. It is able to effectively utilize vast amounts of, albeit somewhat noisy, openly available table corpora in addition to two popular knowledge graphs to perform effective and efficient concept prediction for structured data. We demonstrate the effectiveness of $C^2$ over available techniques on 9 datasets, the most comprehensive comparison on this topic so far.
翻訳日:2021-05-07 05:14:08 公開日:2020-12-15
# 協調型AIにおけるオープン問題

Open Problems in Cooperative AI ( http://arxiv.org/abs/2012.08630v1 )

ライセンス: Link先を確認
Allan Dafoe and Edward Hughes and Yoram Bachrach and Tantum Collins and Kevin R. McKee and Joel Z. Leibo and Kate Larson and Thore Graepel(参考訳) エージェントが共同で福祉を改善する方法を模索する協力の問題は、ユビキタスで重要なものである。 ハイウェイの運転や会議のスケジュール、協力的な作業など、私たちの毎日のルーチンから、平和や商業、パンデミックの準備といったグローバルな課題まで、さまざまなスケールで見られます。 人類の成功は、我々の協力力に根ざしているに違いない。 人工知能によって駆動される機械は、私たちの生活においてずっと大きな役割を担っているので、協力と協力の促進に必要な能力を持たせることが重要です。 私たちは、人工知能の分野が、協調aiと呼ばれるこのタイプの問題に明示的に注力する機会を見出している。 この研究の目的は、協力の課題の多くの側面を研究し、これらの問題の解決に貢献するためにAIを革新することである。 中心となる目標には、協力に必要な能力を備えた機械エージェントの構築、(機械および/または人間)エージェントの集団における協力を促進するツールの構築、その他協力問題に関連する洞察を得るためにai研究を実施することが含まれる。 本研究は,マルチエージェントシステム,ゲーム理論と社会的選択,ヒューマンマシンインタラクションとアライメント,自然言語処理,ソーシャルツールとプラットフォームの構築など,現在進行中の作業を統合する。 しかし、協調AIは、これらの既存の領域の結合ではなく、これらの領域を含む特定の種類の会話の生産性に対する独立した賭けである。 我々は、より明確に協力の問題に焦点を当て、統一理論と語彙を構築し、自然科学、社会科学、行動科学を含む協力に取り組む近隣のコミュニティと橋を建設する機会を見出している。

Problems of cooperation--in which agents seek ways to jointly improve their welfare--are ubiquitous and important. They can be found at scales ranging from our daily routines--such as driving on highways, scheduling meetings, and working collaboratively--to our global challenges--such as peace, commerce, and pandemic preparedness. Arguably, the success of the human species is rooted in our ability to cooperate. Since machines powered by artificial intelligence are playing an ever greater role in our lives, it will be important to equip them with the capabilities necessary to cooperate and to foster cooperation. We see an opportunity for the field of artificial intelligence to explicitly focus effort on this class of problems, which we term Cooperative AI. The objective of this research would be to study the many aspects of the problems of cooperation and to innovate in AI to contribute to solving these problems. Central goals include building machine agents with the capabilities needed for cooperation, building tools to foster cooperation in populations of (machine and/or human) agents, and otherwise conducting AI research for insight relevant to problems of cooperation. This research integrates ongoing work on multi-agent systems, game theory and social choice, human-machine interaction and alignment, natural-language processing, and the construction of social tools and platforms. However, Cooperative AI is not the union of these existing areas, but rather an independent bet about the productivity of specific kinds of conversations that involve these and other areas. We see opportunity to more explicitly focus on the problem of cooperation, to construct unified theory and vocabulary, and to build bridges with adjacent communities working on cooperation, including in the natural, social, and behavioural sciences.
翻訳日:2021-05-07 05:13:52 公開日:2020-12-15
# AsyncTaichi: Megakernelスパース計算と微分プログラミングのための全プログラム最適化

AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse Computation and Differentiable Programming ( http://arxiv.org/abs/2012.08141v1 )

ライセンス: Link先を確認
Yuanming Hu, Mingkuan Xu, Ye Kuang, Fr\'edo Durand(参考訳) 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。 スパースで微分可能な計算に適した命令型言語として、Taichiのユニークな計算パターンは、他のコンパイラやランタイムシステムには存在しない魅力的な最適化機会をもたらす。 例えば、スパースなvoxelグリッド上のイテレーションをサポートするために、過剰なリスト生成タスクがしばしば挿入される。 スパース計算プログラムを高いレベルで解析することにより、オプティマイザは不要なリスト生成タスクの大部分を取り除くことができる。 プログラミングの柔軟性を最大化するために,太一カーネルからなる計算グラフ全体のオンザフライ最適化を行う。 最適化されたtaichiカーネルはジャストインタイムで並列にコンパイルされ、マルチスレッドcpuや超並列gpuなどの並列デバイスにディスパッチされる。 taichiプログラムのコード修正がなければ、新しいシステムは3.07~3.90\times$のカーネル起動を少なくし、1.73~2.76\times$のスピードアップを実現します。

We present a whole-program optimization framework for the Taichi programming language. As an imperative language tailored for sparse and differentiable computation, Taichi's unique computational patterns lead to attractive optimization opportunities that do not present in other compiler or runtime systems. For example, to support iteration over sparse voxel grids, excessive list generation tasks are often inserted. By analyzing sparse computation programs at a higher level, our optimizer is able to remove the majority of unnecessary list generation tasks. To provide maximum programming flexibility, our optimization system conducts on-the-fly optimization of the whole computational graph consisting of Taichi kernels. The optimized Taichi kernels are then just-in-time compiled in parallel, and dispatched to parallel devices such as multithreaded CPU and massively parallel GPUs. Without any code modification on Taichi programs, our new system leads to $3.07 - 3.90\times$ fewer kernel launches and $1.73 - 2.76\times$ speed up on our benchmarks including sparse-grid physical simulation and differentiable programming.
翻訳日:2021-05-07 05:13:24 公開日:2020-12-15
# 認知コンピューティングが次の体系的レビューをどう計画するか

On how Cognitive Computing will plan your next Systematic Review ( http://arxiv.org/abs/2012.08178v1 )

ライセンス: Link先を確認
Maisie Badami, Marcos Baez, Shayan Zamanirad, Wei Kang(参考訳) 体系的文献レビュー(SLRs)は証拠に基づく研究の中心であり、将来の研究と実践の基礎となっている。 しかし、良い品質のタイムリーなコントリビューションを生み出すことは難しく、非常に認知的な取り組みであり、近年SLRプロセスにおける自動化とサポートの探求の動機となっている。 本稿では,このプロセスにおいてしばしば見過ごされがちな段階,すなわち文献レビューの計画について論じ,その最善の課題を克服するための認知過程強化のレンズの下で検討する。 そこで本研究では,24人のSLR著者の計画実践,課題,認知コンピューティングの最近の進歩に触発された支援戦略に対するフィードバックについて報告する。 本研究の成果は,認知能力向上フレームワークに基づくもので,技術的実現可能性の向上に焦点をあてたプロトタイプの実装と評価について報告する。

Systematic literature reviews (SLRs) are at the heart of evidence-based research, setting the foundation for future research and practice. However, producing good quality timely contributions is a challenging and highly cognitive endeavor, which has lately motivated the exploration of automation and support in the SLR process. In this paper we address an often overlooked phase in this process, that of planning literature reviews, and explore under the lenses of cognitive process augmentation how to overcome its most salient challenges. In doing so, we report on the insights from 24 SLR authors on planning practices, its challenges as well as feedback on support strategies inspired by recent advances in cognitive computing. We frame our findings under the cognitive augmentation framework, and report on a prototype implementation and evaluation focusing on further informing the technical feasibility.
翻訳日:2021-05-07 05:13:04 公開日:2020-12-15
# 加速・スケーラブル・再現可能な重力波検出のための人工知能と高性能計算の併用

Confluence of Artificial Intelligence and High Performance Computing for Accelerated, Scalable and Reproducible Gravitational Wave Detection ( http://arxiv.org/abs/2012.08545v1 )

ライセンス: Link先を確認
E. A. Huerta, Asad Khan, Xiaobo Huang, Minyang Tian, Maksim Levental, Ryan Chard, Wei Wei, Maeve Heflin, Daniel S. Katz, Volodymyr Kindratenko, Dawei Mu, Ben Blaiszik and Ian Foster(参考訳) 人工知能(AI)を使用して重力波データの解析を加速し、開発モデルを確実にすることは、MMA(Multi-messenger Astrophysics)における新たな機会を解放し、コミュニティによるより広範な使用、厳密な検証、共有を可能にするために、容易に再利用可能なものである。 本研究では、最近デプロイされたDOEとNSFが支援するサイバーインフラストラクチャーの接続によって、モデルを公開する新たな方法が実現され、その後、ラップトップから高性能コンピューティングクラスタまでのコンピューティングプラットフォームを使用して、これらのモデルをアプリケーションにデプロイする方法を実証する。 我々は、機械学習モデルを公開するためのリポジトリであるData and Learning Hub for Science(DLHub)と、funcXを汎用分散コンピューティングサービスとして使用するHardware Accelerated Learning(HAL)ディープラーニングコンピューティングクラスタを接続するワークフローを開発する。 次に、このワークフローを用いて、オープンソースの先進LIGOデータにおいて、二元ブラックホール重力波信号を探索する。 このワークフローを使用することで、2017年8月の全月の高度なligoデータの処理と、このデータセットで以前に特定された4つのバイナリブラックホールのマージをすべて識別し、誤分類を報告せずに、公開可能な4つのディープラーニングモデルのアンサンブルがhal上で実行可能であることが分かりました。 ai、分散コンピューティング、科学データインフラの進歩を組み合わせたこのアプローチは、再現性があり、加速され、データ駆動の重力波検出を行うための新しい経路を開く。

Finding new ways to use artificial intelligence (AI) to accelerate the analysis of gravitational wave data, and ensuring the developed models are easily reusable promises to unlock new opportunities in multi-messenger astrophysics (MMA), and to enable wider use, rigorous validation, and sharing of developed models by the community. In this work, we demonstrate how connecting recently deployed DOE and NSF-sponsored cyberinfrastructure allows for new ways to publish models, and to subsequently deploy these models into applications using computing platforms ranging from laptops to high performance computing clusters. We develop a workflow that connects the Data and Learning Hub for Science (DLHub), a repository for publishing machine learning models, with the Hardware Accelerated Learning (HAL) deep learning computing cluster, using funcX as a universal distributed computing service. We then use this workflow to search for binary black hole gravitational wave signals in open source advanced LIGO data. We find that using this workflow, an ensemble of four openly available deep learning models can be run on HAL and process the entire month of August 2017 of advanced LIGO data in just seven minutes, identifying all four binary black hole mergers previously identified in this dataset, and reporting no misclassifications. This approach, which combines advances in AI, distributed computing, and scientific data infrastructure opens new pathways to conduct reproducible, accelerated, data-driven gravitational wave detection.
翻訳日:2021-05-07 05:12:50 公開日:2020-12-15
# NeuralQAAD: 高解像度ポイントクラウド圧縮のための効率的な微分可能なフレームワーク

NeuralQAAD: An Efficient Differentiable Framework for High Resolution Point Cloud Compression ( http://arxiv.org/abs/2012.08143v1 )

ライセンス: Link先を確認
Nicolas Wagner, Ulrich Schwanecke(参考訳) 本稿では,高速で,サンプリングに頑健で,高解像度に適用可能な,微分可能なポイントクラウド圧縮フレームワークneuralqaadを提案する。 複雑で非滑らかなトポロジを扱うことができるこれまでの作業は、ほんの数千ポイント以上まで拡張可能であることはほとんどない。 我々は、ウェイトシェアリングとオートデコーディングを特徴とする新しいニューラルネットワークアーキテクチャでタスクに取り組む。 私たちのアーキテクチャは、以前の作業よりもずっと効率的にパラメータを使用します。 さらに、現在、ポイントクラウド圧縮のための唯一の訓練基準である、Chamfer距離、高解像度では性能が劣っていることを示す。 この問題を克服するために,我々は2つの近似アルゴリズムを提示する二次代入問題 (qap) に基づく新しい訓練手順とアーキテクチャを組み合わせる。 我々は勾配降下と並行してqapを解く。 この手順は代理損失として機能し、より表現力のある地球移動距離 (EMD) を10^6$以上の点群であっても暗黙的に最小化することができる。 高分解能点雲上でのemdの評価は難解なため、emdのスケール可能かつ高速かつ信頼性の高い上限として、k-d木に基づく分割・分割手法を提案する。 ニューラルQAADはCOMA、D-FAUST、Skullsで示され、現状の最先端とEM-kDで大きく上回っている。 Skullsは頭蓋骨CTスキャンの新しいデータセットであり、NeuralQAADの実装とともに公開します。

In this paper, we propose NeuralQAAD, a differentiable point cloud compression framework that is fast, robust to sampling, and applicable to high resolutions. Previous work that is able to handle complex and non-smooth topologies is hardly scaleable to more than just a few thousand points. We tackle the task with a novel neural network architecture characterized by weight sharing and autodecoding. Our architecture uses parameters much more efficiently than previous work, allowing us to be deeper and scalable. Futhermore, we show that the currently only tractable training criterion for point cloud compression, the Chamfer distance, performances poorly for high resolutions. To overcome this issue, we pair our architecture with a new training procedure based upon a quadratic assignment problem (QAP) for which we state two approximation algorithms. We solve the QAP in parallel to gradient descent. This procedure acts as a surrogate loss and allows to implicitly minimize the more expressive Earth Movers Distance (EMD) even for point clouds with way more than $10^6$ points. As evaluating the EMD on high resolution point clouds is intractable, we propose a divide-and-conquer approach based on k-d trees, the EM-kD, as a scaleable and fast but still reliable upper bound for the EMD. NeuralQAAD is demonstrated on COMA, D-FAUST, and Skulls to significantly outperform the current state-of-the-art visually and in terms of the EM-kD. Skulls is a novel dataset of skull CT-scans which we will make publicly available together with our implementation of NeuralQAAD.
翻訳日:2021-05-07 05:12:21 公開日:2020-12-15
# 弱教師付きマスクデータ蒸留による人間中心環境における文脈情報理解ロボット

Robots Understanding Contextual Information in Human-Centered Environments using Weakly Supervised Mask Data Distillation ( http://arxiv.org/abs/2012.08282v1 )

ライセンス: Link先を確認
Daniel Dworakowski, and Goldie Nejat(参考訳) サイン、シンボル、オブジェクトなどの人間の環境におけるコンテキスト情報は、ロボットが探索やナビゲーションに使用する重要な情報を提供する。 これらの環境で得られた複雑な画像からコンテキスト情報を識別および分割するために、畳み込みニューラルネットワーク(CNN)のようなデータ駆動方式を用いる。 しかし,これらの手法には,低速かつ時間を要する大量のラベル付きデータが必要である。 弱教師付き手法は擬似セグメンテーションラベル(PSL)を生成することでこの制限に対処する。 本稿では、コンテキストセグメンテーションのタスクに特化して訓練されていないCNN、すなわちオブジェクト分類や画像キャプションなどを用いて、PSLを自律的に生成するWeakly Supervised Mask Data Distillation(WeSuper MaDD)アーキテクチャを提案する。 WeSuperMaDDは、人中心環境(モール、食料品店)におけるロボットナビゲーションタスクに共通する、スパースと限られた多様性データから学習画像特徴を用いて、PSLを独自に生成する。 提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。 これにより、手作りのヒューリスティックルールが不要になる。 大規模な実験により、複数の屋内/屋外環境における様々なスケール、フォント、視点のテキストによるデータセットのPSLを生成するWeSuperMaDDの性能が検証された。 ナイーブ法、グラブカット法、ピラミッド法との比較により、ラベルとセグメンテーションの品質が著しく向上した。 さらに,WeSuperMaDDアーキテクチャを用いてトレーニングしたコンテキストセグメンテーションCNNは,Naive PSLを用いてトレーニングしたコンテキストセグメンテーションに比べて精度が向上した。 また,既存のテキスト検出や実データセットのセグメンテーション手法と同等の性能を有しており,トレーニングにはセグメンテーションラベルを必要としなかった。

Contextual information in human environments, such as signs, symbols, and objects provide important information for robots to use for exploration and navigation. To identify and segment contextual information from complex images obtained in these environments, data-driven methods such as Convolutional Neural Networks (CNNs) are used. However, these methods require large amounts of human labeled data which are slow and time-consuming to obtain. Weakly supervised methods address this limitation by generating pseudo segmentation labels (PSLs). In this paper, we present the novel Weakly Supervised Mask Data Distillation (WeSuperMaDD) architecture for autonomously generating PSLs using CNNs not specifically trained for the task of context segmentation; i.e., CNNs trained for object classification, image captioning, etc. WeSuperMaDD uniquely generates PSLs using learned image features from sparse and limited diversity data; common in robot navigation tasks in human-centred environments (malls, grocery stores). Our proposed architecture uses a new mask refinement system which automatically searches for the PSL with the fewest foreground pixels that satisfies cost constraints. This removes the need for handcrafted heuristic rules. Extensive experiments successfully validated the performance of WeSuperMaDD in generating PSLs for datasets with text of various scales, fonts, and perspectives in multiple indoor/outdoor environments. A comparison with Naive, GrabCut, and Pyramid methods found a significant improvement in label and segmentation quality. Moreover, a context segmentation CNN trained using the WeSuperMaDD architecture achieved measurable improvements in accuracy compared to one trained with Naive PSLs. Our method also had comparable performance to existing state-of-the-art text detection and segmentation methods on real datasets without requiring segmentation labels for training.
翻訳日:2021-05-07 05:11:34 公開日:2020-12-15
# クラウドソーシング型ダッシュカメラによる空間シーンの自動校正

Practical Auto-Calibration for Spatial Scene-Understanding from Crowdsourced Dashcamera Videos ( http://arxiv.org/abs/2012.08375v1 )

ライセンス: Link先を確認
Hemang Chawla, Matti Jukola, Shabbir Marzban, Elahe Arani and Bahram Zonooz(参考訳) 深度深度やエゴモーション推定を含む空間的シーンの理解は、自動運転車や先進運転支援システムのコンピュータビジョンにおいて重要な問題である。 したがって、任意の車載カメラやダッシュボードカメラから収集したクラウドソースビデオを利用することのできる知覚モジュールの設計に有益である。 しかし、これらのカメラに対応する固有のパラメータは、しばしば未知または時間とともに変化する。 典型的な手動校正アプローチでは、チェス盤や追加のシーン固有の情報を必要とする。 一方、自動カメラのキャリブレーションにはそのような要件はない。 しかし, ダッシュボードカメラの自動キャリブレーションは前方と平面ナビゲーションにより, 復元のあいまいさを伴う重要な動作シーケンスが生じるため困難である。 数万の画像を含むような完全な視覚系列の構造再構成も、計算的に不可能である。 本稿では,クラウドソースビデオから単眼搭載カメラの自動キャリブレーションを行うシステムを提案する。 提案システムの有効性を,KITTIの生データ,Oxford RobotCar,クラウドソーシングによるD$^2$-Cityデータセットに示す。 最後に,本手法の高精度な単眼密集深度とエゴモーション推定への応用を実証する。

Spatial scene-understanding, including dense depth and ego-motion estimation, is an important problem in computer vision for autonomous vehicles and advanced driver assistance systems. Thus, it is beneficial to design perception modules that can utilize crowdsourced videos collected from arbitrary vehicular onboard or dashboard cameras. However, the intrinsic parameters corresponding to such cameras are often unknown or change over time. Typical manual calibration approaches require objects such as a chessboard or additional scene-specific information. On the other hand, automatic camera calibration does not have such requirements. Yet, the automatic calibration of dashboard cameras is challenging as forward and planar navigation results in critical motion sequences with reconstruction ambiguities. Structure reconstruction of complete visual-sequences that may contain tens of thousands of images is also computationally untenable. Here, we propose a system for practical monocular onboard camera auto-calibration from crowdsourced videos. We show the effectiveness of our proposed system on the KITTI raw, Oxford RobotCar, and the crowdsourced D$^2$-City datasets in varying conditions. Finally, we demonstrate its application for accurate monocular dense depth and ego-motion estimation on uncalibrated videos.
翻訳日:2021-05-07 05:11:06 公開日:2020-12-15
# 画像認識強調のための幾何表面画像予測

Geometric Surface Image Prediction for Image Recognition Enhancement ( http://arxiv.org/abs/2012.08451v1 )

ライセンス: Link先を確認
Tanasai Sucontphunt(参考訳) 本研究では,画像から幾何学的表面像を推定し,画像認識を支援する手法を提案する。 オブジェクトを認識するには、モデルのトレーニングや事前訓練されたモデルの微調整に、異なる条件からの複数のイメージが必要である。 本研究では、照明条件を克服するために、色画像よりも優れた表現として幾何学的表面像を導入する。 カラー画像から表面画像を予測する。 そのため、幾何学的表面画像とそのカラー写真は、まずGAN(Generative Adversarial Networks)モデルを用いて訓練される。 次に、入力された色画像から幾何学的表面像を予測するために訓練された生成モデルを用いる。 amulet 認識のケーススタディの評価は、予測された幾何面画像は、異なる照明条件下でのカラー画像よりも曖昧度が少なく、画像認識タスクの補助に効果的に使用できることを示す。

This work presents a method to predict a geometric surface image from a photograph to assist in image recognition. To recognize objects, several images from different conditions are required for training a model or fine-tuning a pre-trained model. In this work, a geometric surface image is introduced as a better representation than its color image counterpart to overcome lighting conditions. The surface image is predicted from a color image. To do so, the geometric surface image together with its color photographs are firstly trained with Generative Adversarial Networks (GAN) model. The trained generator model is then used to predict the geometric surface image from the input color image. The evaluation on a case study of an amulet recognition shows that the predicted geometric surface images contain less ambiguity than their color images counterpart under different lighting conditions and can be used effectively for assisting in image recognition task.
翻訳日:2021-05-07 05:10:50 公開日:2020-12-15
# 物体中心型ニューラルシーンレンダリング

Object-Centric Neural Scene Rendering ( http://arxiv.org/abs/2012.08503v1 )

ライセンス: Link先を確認
Michelle Guo, Alireza Fathi, Jiajun Wu, Thomas Funkhouser(参考訳) 本稿では,物体の撮影画像から写実的シーンを構成する手法を提案する。 我々の研究は、シーンの体積密度と方向の放射を暗黙的にモデル化するニューラル放射場(NeRF)の上に構築されている。 NeRFはリアルな画像を合成するが、静的なシーンのみをモデル化し、特定の撮像条件と密接に結びついている。 この特性により、新しい照明や新しいオブジェクトの配置など、NeRFを新しいシナリオに一般化するのが困難になる。 我々は、NeRFのようにシーンラディアンス場を学習する代わりに、照明とビューに依存したニューラルネットワークを用いて、オブジェクトごとの光輸送を暗黙的にモデル化するオブジェクト中心型ニューラル散乱関数(OSF)を学習することを提案する。 これにより、オブジェクトやライトが再トレーニングすることなく、シーンをレンダリングできる。 本手法は,ボリュームパス追跡手法と組み合わせて,オクルージョン,特異性,影,間接照明などの物体内および物体間光伝達効果をレンダリングする。 本研究では,シーン構成に対するアプローチを評価し,新しい照明条件に一般化し,多目的シーンのフォトリアリスティックで物理的に正確なレンダリングを実現することを示す。

We present a method for composing photorealistic scenes from captured images of objects. Our work builds upon neural radiance fields (NeRFs), which implicitly model the volumetric density and directionally-emitte d radiance of a scene. While NeRFs synthesize realistic pictures, they only model static scenes and are closely tied to specific imaging conditions. This property makes NeRFs hard to generalize to new scenarios, including new lighting or new arrangements of objects. Instead of learning a scene radiance field as a NeRF does, we propose to learn object-centric neural scattering functions (OSFs), a representation that models per-object light transport implicitly using a lighting- and view-dependent neural network. This enables rendering scenes even when objects or lights move, without retraining. Combined with a volumetric path tracing procedure, our framework is capable of rendering both intra- and inter-object light transport effects including occlusions, specularities, shadows, and indirect illumination. We evaluate our approach on scene composition and show that it generalizes to novel illumination conditions, producing photorealistic, physically accurate renderings of multi-object scenes.
翻訳日:2021-05-07 05:10:35 公開日:2020-12-15
# 深いガウス過程サロゲートのためのアクティブラーニング

Active Learning for Deep Gaussian Process Surrogates ( http://arxiv.org/abs/2012.08015v1 )

ライセンス: Link先を確認
Annie Sauer, Robert B. Gramacy, David Higdon(参考訳) ディープラーニングプロセス(Deep Gaussian Process, DGP)は、非定常的な柔軟性と、トレーニングデータの急激な状態変化に対応する能力のために、機械学習(ML)の予測モデルとして人気が高まっている。 そこで我々はDGPを,応答面が類似した特性を示す計算機シミュレーション実験のサロゲートとして検討する。 特に、入力空間と完全な不確実性定量化(uq)を、新しい楕円スライスサンプリング(ess)ベイズ後方推論スキームを通じて、入力空間で非均一に実行されるアクティブラーニング(al)戦略 -- 通常の(定常)gpではできなかったこと -- へ輸送する。 この方法で設計を逐次構築することで、シミュレータコードの高価な評価とDGP推論の立方体コストの軽減の両方を制限し、より小さなトレーニングセットを可能にする。 トレーニングデータのサイズを慎重に取得することで小さく保ち、遅延層の類似したレイアウトで、このフレームワークは効果的かつ計算的に抽出できる。 本手法は, シミュレーションデータと, 入力次元の異なる2つの実コンピュータ実験で示される。 我々はCRANの"deepgp"パッケージにオープンソース実装を提供しています。

Deep Gaussian processes (DGPs) are increasingly popular as predictive models in machine learning (ML) for their non-stationary flexibility and ability to cope with abrupt regime changes in training data. Here we explore DGPs as surrogates for computer simulation experiments whose response surfaces exhibit similar characteristics. In particular, we transport a DGP's automatic warping of the input space and full uncertainty quantification (UQ), via a novel elliptical slice sampling (ESS) Bayesian posterior inferential scheme, through to active learning (AL) strategies that distribute runs non-uniformly in the input space -- something an ordinary (stationary) GP could not do. Building up the design sequentially in this way allows smaller training sets, limiting both expensive evaluation of the simulator code and mitigating cubic costs of DGP inference. When training data sizes are kept small through careful acquisition, and with parsimonious layout of latent layers, the framework can be both effective and computationally tractable. Our methods are illustrated on simulation data and two real computer experiments of varying input dimensionality. We provide an open source implementation in the "deepgp" package on CRAN.
翻訳日:2021-05-07 05:10:18 公開日:2020-12-15
# 疎度とランク制約を考慮した多領域データからの製品グラフ学習

Product Graph Learning from Multi-domain Data with Sparsity and Rank Constraints ( http://arxiv.org/abs/2012.08090v1 )

ライセンス: Link先を確認
Sai Kiran Kadambari, Sundeep Prabhakar Chepuri(参考訳) 本稿では,マルチドメインデータから製品グラフを学習することに焦点を当てる。 積グラフは、グラフ因子と呼ばれる2つのより小さなグラフのカルテアン積によって形成されると仮定する。 本稿では,製品グラフ学習問題を,グラフ因子ラプラシアン行列の推定問題とする。 データ内の局所的な相互作用を捉えるために、スパースグラフ因子を求め、データの滑らかさモデルを仮定する。 データからスパース製品グラフを学習するための効率的な反復解法を提案する。 次に、この解法を拡張して多成分グラフ因子を推論し、グラフラプラシア行列に階数制約を課すことにより製品グラフクラスタリングに適用する。 より小さなグラフ因子を扱うことは計算的に魅力的であるが、全てのグラフが正確なデカルト積分解を容易に認めるわけではない。 この目的のために,より小さい2つのグラフの直交積によってグラフを近似する効率的なアルゴリズムを提案する。 提案手法の有効性を,合成データと実データに関する数値実験を用いて実証した。

In this paper, we focus on learning product graphs from multi-domain data. We assume that the product graph is formed by the Cartesian product of two smaller graphs, which we refer to as graph factors. We pose the product graph learning problem as the problem of estimating the graph factor Laplacian matrices. To capture local interactions in data, we seek sparse graph factors and assume a smoothness model for data. We propose an efficient iterative solver for learning sparse product graphs from data. We then extend this solver to infer multi-component graph factors with applications to product graph clustering by imposing rank constraints on the graph Laplacian matrices. Although working with smaller graph factors is computationally more attractive, not all graphs may readily admit an exact Cartesian product factorization. To this end, we propose efficient algorithms to approximate a graph by a nearest Cartesian product of two smaller graphs. The efficacy of the developed framework is demonstrated using several numerical experiments on synthetic data and real data.
翻訳日:2021-05-07 05:09:57 公開日:2020-12-15
# 音声自動検証スポーフィング検出

Automatic Speech Verification Spoofing Detection ( http://arxiv.org/abs/2012.08095v1 )

ライセンス: Link先を確認
Shentong Mo, Haofan Wang, Pinxu Ren, Ta-Chung Chi(参考訳) 自動音声認識(automatic speech verification, asv)は、音声に基づいて個人のアイデンティティを決定する技術である。 身元確認には便利ですが、価値あるデジタル資産の保護を前提として、システムセキュリティの最高基準を目指しています。 これを念頭に置いて、我々はASVSpoof 2019のコンペティションに続き、堅牢で効率的な潜在的な対策を開発する。 EERとt-DCFという2つのメトリクスがシステム評価に使用される。

Automatic speech verification (ASV) is the technology to determine the identity of a person based on their voice. While being convenient for identity verification, we should aim for the highest system security standard given that it is the safeguard of valuable digital assets. Bearing this in mind, we follow the setup in ASVSpoof 2019 competition to develop potential countermeasures that are robust and efficient. Two metrics, EER and t-DCF, will be used for system evaluation.
翻訳日:2021-05-07 05:09:42 公開日:2020-12-15
# 小型組込みシステムにおけるセンサデータ分類のためのニューラルネットワーク

Artificial Neural Networks for Sensor Data Classification on Small Embedded Systems ( http://arxiv.org/abs/2012.08403v1 )

ライセンス: Link先を確認
Marcus Venzke, Daniel Klisch, Philipp Kubik, Asad Ali, Jesper Dell Missier and Volker Turau(参考訳) 本稿では,センサモジュールの計測値の解釈における機械学習の利用について検討する。 特に、数キロバイトのメモリを持つ低コストマイクロコントローラ上でのニューラルネットワーク(anns)の可能性を分析し、センサが捉えたデータを意味的に豊かにする。 焦点は、信頼性の高い時系列データ系列を分類することである。 ANNの設計と実装は、フィードフォワードニューラルネットワーク(FFNN)とリカレントニューラルネットワーク(RNN)を考慮して分析される。 8ビットマイクロコントローラを用いた光手ジェスチャー認識のケーススタディにおいて,開発したANNを検証した。 2層1493のパラメータと36ミリ秒の実行時間を必要とするFFNNでは,最も信頼性が高いことが判明した。

In this paper we investigate the usage of machine learning for interpreting measured sensor values in sensor modules. In particular we analyze the potential of artificial neural networks (ANNs) on low-cost micro-controllers with a few kilobytes of memory to semantically enrich data captured by sensors. The focus is on classifying temporal data series with a high level of reliability. Design and implementation of ANNs are analyzed considering Feed Forward Neural Networks (FFNNs) and Recurrent Neural Networks (RNNs). We validate the developed ANNs in a case study of optical hand gesture recognition on an 8-bit micro-controller. The best reliability was found for an FFNN with two layers and 1493 parameters requiring an execution time of 36 ms. We propose a workflow to develop ANNs for embedded devices.
翻訳日:2021-05-07 05:09:35 公開日:2020-12-15
# モデルベースディープラーニング

Model-Based Deep Learning ( http://arxiv.org/abs/2012.08405v1 )

ライセンス: Link先を確認
Nir Shlezinger, Jay Whang, Yonina C. Eldar, and Alexandros G. Dimakis(参考訳) 信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。 このようなモデルに基づく手法は、基礎となる物理学、事前情報、および追加のドメイン知識を表す数学的定式化を利用する。 単純な古典モデルは有用だが不正確さに敏感であり、実際のシステムが複雑または動的振る舞いを示す場合、性能が低下する可能性がある。 一方で、データセットが豊富になり、現代のディープラーニングパイプラインのパワーが増すにつれて、モデルに依存しない純粋なデータ駆動アプローチが普及しています。 ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、特に教師付き問題に対して優れたパフォーマンスを示す。 しかし、DNNは通常大量のデータと膨大な計算資源を必要とし、いくつかの信号処理シナリオに適用性を制限する。 私たちは、原則化された数学モデルとデータ駆動システムを組み合わせて、両方のアプローチの利点を享受するハイブリッド技術に興味を持っています。 このようなモデルに基づくディープラーニング手法は、特定の問題のために設計された数学的構造や限られたデータからの学習を通じて、部分的なドメイン知識の両方を利用する。 本稿では、モデルベースディープラーニングシステムの研究と設計のための主要なアプローチについて調査する。 ハイブリッドモデルベース/データ駆動システムはその推論メカニズムに基づいてカテゴリに分類する。 本稿では,モデルに基づくアルゴリズムとディープラーニングを体系的に組み合わせる主要なアプローチについて,具体的なガイドラインや最近の文献からの詳細な信号処理指向の例とともに概説する。 本研究の目的は,両領域の利点を取り入れた信号処理と機械学習の交差する未来のシステムの設計と研究を促進することである。

Signal processing, communications, and control have traditionally relied on classical statistical modeling techniques. Such model-based methods utilize mathematical formulations that represent the underlying physics, prior information and additional domain knowledge. Simple classical models are useful but sensitive to inaccuracies and may lead to poor performance when real systems display complex or dynamic behavior. On the other hand, purely data-driven approaches that are model-agnostic are becoming increasingly popular as datasets become abundant and the power of modern deep learning pipelines increases. Deep neural networks (DNNs) use generic architectures which learn to operate from data, and demonstrate excellent performance, especially for supervised problems. However, DNNs typically require massive amounts of data and immense computational resources, limiting their applicability for some signal processing scenarios. We are interested in hybrid techniques that combine principled mathematical models with data-driven systems to benefit from the advantages of both approaches. Such model-based deep learning methods exploit both partial domain knowledge, via mathematical structures designed for specific problems, as well as learning from limited data. In this article we survey the leading approaches for studying and designing model-based deep learning systems. We divide hybrid model-based/data-dri ven systems into categories based on their inference mechanism. We provide a comprehensive review of the leading approaches for combining model-based algorithms with deep learning in a systematic manner, along with concrete guidelines and detailed signal processing oriented examples from recent literature. Our aim is to facilitate the design and study of future systems on the intersection of signal processing and machine learning that incorporate the advantages of both domains.
翻訳日:2021-05-07 05:09:24 公開日:2020-12-15
# 自動運転のための歩行者行動予測:要件,メトリクス,関連する特徴

Pedestrian Behavior Prediction for Automated Driving: Requirements, Metrics, and Relevant Features ( http://arxiv.org/abs/2012.08418v1 )

ライセンス: Link先を確認
Michael Herman, J\"org Wagner, Vishnu Prabhakaran, Nicolas M\"oser, Hanna Ziesche, Waleed Ahmed, Lutz B\"urkle, Ernst Kloppenburg, Claudius Gl\"aser(参考訳) 自動走行車は安全で快適な運転を確保するために交通状況の包括的な理解を必要とする。 この文脈では、歩行者の行動が複数の要因に影響されるため、歩行者の予測は特に困難である。 本稿では,システムレベルアプローチによる自動走行における歩行者行動予測の要件を網羅的に分析する。 人間の運転行動に基づいて、自動走行車の適切な反応パターンを導き出す。 最後に、歩行者の予測の要件を決定する。 これはまた、システムレベルの観点から予測性能を測定するために調整された新しいメトリクスを含んでいる。 さらに,条件付き変分自動エンコーダ(CVAE)に基づく歩行者予測モデルを提案する。 CVAEはベースライン予測モデルよりも優れた性能を示し、数千の現実世界の歩行者と車両の相互作用からなる大規模データセット上で予測性能を評価した。 最後に, 歩行者属性の知覚に関する今後の研究を導くアブレーション研究を通じて, 異なる文脈的手がかりが予測性能に与える影響について検討する。

Automated vehicles require a comprehensive understanding of traffic situations to ensure safe and comfortable driving. In this context, the prediction of pedestrians is particularly challenging as pedestrian behavior can be influenced by multiple factors. In this paper, we thoroughly analyze the requirements on pedestrian behavior prediction for automated driving via a system-level approach: to this end we investigate real-world pedestrian-vehicle interactions with human drivers. Based on human driving behavior we then derive appropriate reaction patterns of an automated vehicle. Finally, requirements for the prediction of pedestrians are determined. This also includes a novel metric tailored to measure prediction performance from a system-level perspective. Furthermore, we present a pedestrian prediction model based on a Conditional Variational Auto-Encoder (CVAE) which incorporates multiple contextual cues to achieve accurate long-term prediction. The CVAE shows superior performance over a baseline prediction model, where prediction performance was evaluated on a large-scale data set comprising thousands of real-world pedestrian-vehicle-i nteractions. Finally, we investigate the impact of different contextual cues on prediction performance via an ablation study whose results can guide future research on the perception of relevant pedestrian attributes.
翻訳日:2021-05-07 05:09:02 公開日:2020-12-15
# PANTHER:高次特徴学習のための経路拡張非負のテンソル因子化

PANTHER: Pathway Augmented Nonnegative Tensor factorization for HighER-order feature learning ( http://arxiv.org/abs/2012.08580v1 )

ライセンス: Link先を確認
Yuan Luo, Chengsheng Mao(参考訳) 遺伝経路は通常、標的の介入を知らせる分子機構をコードする。 既存の機械学習アプローチでは、遺伝的経路(高次の特徴)と変異(原子的特徴)を共同でモデル化し、臨床医が解釈可能なモデルを示すことはしばしば困難である。 遺伝医学のためのより正確で理解しやすい機械学習モデルを構築するために,高次特徴学習のためのパスウェイ拡張非負のテンソル分解法(PANTHER)を提案する。 PANTHERは、分子機構を直接コードする情報伝達経路を選択する。 分子機構の相互作用を反映した遺伝子組み換え型テンソル因子化をグループパスに適用する。 次に,特定経路群を用いてソフトマックス分類器を訓練する。 我々はpantherを,複数の制約付きテンソル/行列因子化モデル,グループ誘導型およびベイズ型階層モデルに対して評価した。 PANTHERはすべての最先端比較モデルを大幅に上回る(p<0.05)。 大規模Next Generation Sequencing (NGS) と全ゲノムジェノタイピングデータセットについても,PANTHERの広範囲な適用性を示した。 本研究は,病型予測における特徴分析を行い,特定経路群の知見とメリットを示唆した。

Genetic pathways usually encode molecular mechanisms that can inform targeted interventions. It is often challenging for existing machine learning approaches to jointly model genetic pathways (higher-order features) and variants (atomic features), and present to clinicians interpretable models. In order to build more accurate and better interpretable machine learning models for genetic medicine, we introduce Pathway Augmented Nonnegative Tensor factorization for HighER-order feature learning (PANTHER). PANTHER selects informative genetic pathways that directly encode molecular mechanisms. We apply genetically motivated constrained tensor factorization to group pathways in a way that reflects molecular mechanism interactions. We then train a softmax classifier for disease types using the identified pathway groups. We evaluated PANTHER against multiple state-of-the-art constrained tensor/matrix factorization models, as well as group guided and Bayesian hierarchical models. PANTHER outperforms all state-of-the-art comparison models significantly (p<0.05). Our experiments on large scale Next Generation Sequencing (NGS) and whole-genome genotyping datasets also demonstrated wide applicability of PANTHER. We performed feature analysis in predicting disease types, which suggested insights and benefits of the identified pathway groups.
翻訳日:2021-05-07 05:08:46 公開日:2020-12-15
# 多様性に基づく神経進化改善のための政策マニフォールド探索

Policy Manifold Search for Improving Diversity-based Neuroevolution ( http://arxiv.org/abs/2012.08676v1 )

ライセンス: Link先を確認
Nemanja Rakicevic, Antoine Cully and Petar Kormushev(参考訳) 多様性に基づくアプローチは最近、パフォーマンスベースのポリシー検索の代替パラダイムとして人気を集めています。 この家族のポピュラーなアプローチであるQD(Quality-Diversity )は、ポリシーのロールアウト行動に基づいて定義された多様性測定領域で分離されたハイパフォーマンスなポリシーの集合を維持している。 ポリシーがニューラルネットワークとしてパラメータ化される場合、すなわち 神経進化、QDはパラメータ空間次元とうまくスケールしない傾向がある。 我々の仮説は、ポリシーパラメータ空間に埋め込まれた低次元多様体が存在し、多様で実現可能なポリシーの密度が高いことである。 本稿では,局所的なデータ構造を捉えたポリシーパラメータの学習された潜在表現を活用するニューロ進化による多様性に基づくポリシー探索手法を提案する。 当社のアプローチは、qdフレームワークに従ってポリシーを反復的に収集し、(i)多様なポリシーの集合を構築し、(ii)ポリシーパラメータの潜在表現を学習するためにそれを使用し、(iii)学習された潜在空間でポリシー検索を実行する。 我々は、逆変換(すなわち再構成関数)のヤコビアンを用いて、潜在空間の探索を導く。 これにより、生成されたサンプルが復元後の元の空間の高密度領域に残ることが保証される。 シミュレーション環境における3つの連続制御タスクに対する貢献を評価し,多様性ベースのベースラインと比較した。 その結果,我々のアプローチはより効率的で堅牢な政策探索プロセスをもたらすことが示唆された。

Diversity-based approaches have recently gained popularity as an alternative paradigm to performance-based policy search. A popular approach from this family, Quality-Diversity (QD), maintains a collection of high-performing policies separated in the diversity-metric space, defined based on policies' rollout behaviours. When policies are parameterised as neural networks, i.e. Neuroevolution, QD tends to not scale well with parameter space dimensionality. Our hypothesis is that there exists a low-dimensional manifold embedded in the policy parameter space, containing a high density of diverse and feasible policies. We propose a novel approach to diversity-based policy search via Neuroevolution, that leverages learned latent representations of the policy parameters which capture the local structure of the data. Our approach iteratively collects policies according to the QD framework, in order to (i) build a collection of diverse policies, (ii) use it to learn a latent representation of the policy parameters, (iii) perform policy search in the learned latent space. We use the Jacobian of the inverse transformation (i.e.reconstruction function) to guide the search in the latent space. This ensures that the generated samples remain in the high-density regions of the original space, after reconstruction. We evaluate our contributions on three continuous control tasks in simulated environments, and compare to diversity-based baselines. The findings suggest that our approach yields a more efficient and robust policy search process.
翻訳日:2021-05-07 05:08:29 公開日:2020-12-15
# 降雨流出モデルにおける深層学習による不確かさ推定

Uncertainty Estimation with Deep Learning for Rainfall-Runoff Modelling ( http://arxiv.org/abs/2012.14295v1 )

ライセンス: Link先を確認
Daniel Klotz, Frederik Kratzert, Martin Gauch, Alden Keefe Sampson, G\"unter Klambauer, Sepp Hochreiter, Grey Nearing(参考訳) 深層学習は、幅広い空間的および時間的スケールにわたって正確な水文予測を行うための、ますます重要な方法になりつつある。 不確実性推定は実行可能な水文予測には不可欠であり、標準化されたコミュニティベンチマークは水文モデルの開発と研究においてますます重要になっているが、不確実性推定をベンチマークするための同様のツールが不足している。 我々は,不確実性推定ベンチマーク手法を確立し,その内3つは混合密度ネットワーク,1つはモンテカルロのドロップアウトに基づくディープラーニングベースラインを提示する。 さらに,結果モデルの定性的理解を進めるために,ポストホックモデル解析も提供する。 しかし最も重要なことは、Deep Learningによって正確で正確で確実な不確実性推定が達成できることである。

Deep Learning is becoming an increasingly important way to produce accurate hydrological predictions across a wide range of spatial and temporal scales. Uncertainty estimations are critical for actionable hydrological forecasting, and while standardized community benchmarks are becoming an increasingly important part of hydrological model development and research, similar tools for benchmarking uncertainty estimation are lacking. We establish an uncertainty estimation benchmarking procedure and present four Deep Learning baselines, out of which three are based on Mixture Density Networks and one is based on Monte Carlo dropout. Additionally, we provide a post-hoc model analysis to put forward some qualitative understanding of the resulting models. Most importantly however, we show that accurate, precise, and reliable uncertainty estimation can be achieved with Deep Learning.
翻訳日:2021-05-07 05:08:06 公開日:2020-12-15
# 乗法報酬を一般化したマルコフ決定過程における厳密解

An exact solution in Markov decision process with multiplicative rewards as a general framework ( http://arxiv.org/abs/2012.08074v1 )

ライセンス: Link先を確認
Yuan Yao and Xiaolin Sun(参考訳) 我々は、有限な地平線と連続状態と作用空間を持つマルコフ決定過程の完全可解な枠組みを開発する。 まず,線形遷移とガウス雑音を伴う従来の線形二次制御の厳密な解を考察し,その最適方針はガウス雑音に依存しないが,重要な雑音が存在する場合には望ましくない特徴である。 ノイズに依存する正確な解を調査する動機となる。 そのため、報酬の蓄積を一般的な二元可換および連想演算として一般化する。 新しい乗法累積法により、ガウス雑音を伴う線形遷移を仮定した最適化の厳密な解を求め、その最適方針は加法累積とは対照的にノイズに依存する。 さらに、乗法的スキームは、モデルに依存しない原理である任意の精度で加法的スキームをカバーする一般的な枠組みであることを示す。

We develop an exactly solvable framework of Markov decision process with a finite horizon, and continuous state and action spaces. We first review the exact solution of conventional linear quadratic regulation with a linear transition and a Gaussian noise, whose optimal policy does not depend on the Gaussian noise, which is an undesired feature in the presence of significant noises. It motivates us to investigate exact solutions which depend on noise. To do so, we generalize the reward accumulation to be a general binary commutative and associative operation. By a new multiplicative accumulation, we obtain an exact solution of optimization assuming linear transitions with a Gaussian noise and the optimal policy is noise dependent in contrast to the additive accumulation. Furthermore, we also show that the multiplicative scheme is a general framework that covers the additive one with an arbitrary precision, which is a model-independent principle.
翻訳日:2021-05-07 05:07:31 公開日:2020-12-15
# 閉ループ同定のためのDual-Youlaアプローチの単純化について

On simplification of Dual-Youla approach for closed-loop identification ( http://arxiv.org/abs/2012.08165v1 )

ライセンス: Link先を確認
Toshiharu Sugie and Ichiro Maruta(参考訳) 閉ループ同定のための双対 youla 法には、実用上重要な点がいくつかあることが知られている。 すなわち、ノイズモデルに関係なく正確な植物モデルを提供し、コリメ分解を用いて不安定な植物を扱うために本質的に適合する。 さらに,この手法は制御者の知識の不確実性に対して実証的に堅牢である。 しかし、コプライム分解の使用は工業用途に対する大きな障壁となる可能性がある。 そこで本論文では,2つのYoula手法のメリットを享受しながら,相乗分解を伴わず植物自体を同定する手法の簡易版を導出する方法について述べる。 この単純化版は、著者らが最近提案した安定化予測誤差法と同一であることが判明した。 上記の利点を示すために、詳細なシミュレーション結果が示される。

The dual Youla method for closed loop identification is known to have several practically important merits. Namely, it provides an accurate plant model irrespective of noise models, and fits inherently to handle unstable plants by using coprime factorization. In addition, the method is empirically robust against the uncertainty of the controller knowledge. However, use of coprime factorization may cause a big barrier against industrial applications. This paper shows how to derive a simplified version of the method which identifies the plant itself without coprime factorization, while enjoying all the merits of the dual Youla method. This simplified version turns out to be identical to the stabilized prediction error method which was proposed by the authors recently. Detailed simulation results are given to demonstrate the above merits.
翻訳日:2021-05-07 05:07:16 公開日:2020-12-15
# 新しい小種の自動識別のための機械学習

Machine Learning for automatic identification of new minor species ( http://arxiv.org/abs/2012.08175v1 )

ライセンス: Link先を確認
Frederic Schmidt, Guillaume Cruz Mermy, Justin Erwin, Severine Robert, Lori Neary, Ian R. Thomas, Frank Daerden, Bojan Ristic, Manish R. Patel, Giancarlo Bellucci, Jose-Juan Lopez-Moreno, Ann-Carine Vandaele(参考訳) 現代の分光データを分析するのが難しいのは、大量のデータがあるためである。 例えば、大気透過分光法では、ESA ExoMars2016衛星(TGO)に搭載されたNOMADの太陽観測チャネル(SO)が、2018年4月のミッション開始から2020年1月15日までの20000の取得シーケンスで1000万米ドルのスペクトルを生成していた。 他のデータセットはさらに大きく、Mars Express搭載のOMEGAやMars Reconnaissance Orbiter搭載のCRISMには$$\sim$billionsのスペクトルがある。 通常、新しい線は、モデルフィッティングと手動残留分析の長い反復過程を経て発見される。 本稿では、教師なし機械学習に基づく新しい手法を提案し、新しいマイナーな種を自動的に検出する。 正確な定量化はスコープ外であるが、このツールは、少数のエンドメンバー(ソース)とその存在量を与えることによって、データセットをすばやく要約するためにも使用できる。 データセットの非線形性は、豊富なスペクトルとソーススペクトル(終端スペクトル)の線形混合により近似する。 非教師付きソース分離を非負行列分解法を用いて推定した。 合成およびシミュレーションデータに対していくつかの方法が試験された。 我々のアプローチは、それらを正確に定量化するのではなく、小さな種のスペクトルを検出することである。 合成例では、この手法はノイズレベルの1.5倍の10^4$から100の隠されたスペクトルの形で存在する化合物を検出できる。 CH$_{4}$をターゲットとしたNOMAD-SOのシミュレーションスペクトルの結果,検出限界は100-500pptの範囲で良好な条件で進行することが示された。 NOMAD-SO の実際の火星データは、予想通り CO$_{2}$ と H$_{2}$O が存在することを示しているが、CH$_{4}$ は存在しない。 それでも我々はacsインスツルメンツチームによるデータベース内の予期せぬ新しい線の集合を co$_{2}$ の磁気双極子で確認する。

One of the main difficulties to analyze modern spectroscopic datasets is due to the large amount of data. For example, in atmospheric transmittance spectroscopy, the solar occultation channel (SO) of the NOMAD instrument onboard the ESA ExoMars2016 satellite called Trace Gas Orbiter (TGO) had produced $\sim$10 millions of spectra in 20000 acquisition sequences since the beginning of the mission in April 2018 until 15 January 2020. Other datasets are even larger with $\sim$billions of spectra for OMEGA onboard Mars Express or CRISM onboard Mars Reconnaissance Orbiter. Usually, new lines are discovered after a long iterative process of model fitting and manual residual analysis. Here we propose a new method based on unsupervised machine learning, to automatically detect new minor species. Although precise quantification is out of scope, this tool can also be used to quickly summarize the dataset, by giving few endmembers ("source") and their abundances. We approximate the dataset non-linearity by a linear mixture of abundance and source spectra (endmembers). We used unsupervised source separation in form of non-negative matrix factorization to estimate those quantities. Several methods are tested on synthetic and simulation data. Our approach is dedicated to detect minor species spectra rather than precisely quantifying them. On synthetic example, this approach is able to detect chemical compounds present in form of 100 hidden spectra out of $10^4$, at 1.5 times the noise level. Results on simulated spectra of NOMAD-SO targeting CH$_{4}$ show that detection limits goes in the range of 100-500 ppt in favorable conditions. Results on real martian data from NOMAD-SO show that CO$_{2}$ and H$_{2}$O are present, as expected, but CH$_{4}$ is absent. Nevertheless, we confirm a set of new unexpected lines in the database, attributed by ACS instrument Team to the CO$_{2}$ magnetic dipole.
翻訳日:2021-05-07 05:07:05 公開日:2020-12-15
# OFDMシステムにおけるMU-MIMO受信処理のための機械学習

Machine Learning for MU-MIMO Receive Processing in OFDM Systems ( http://arxiv.org/abs/2012.08177v1 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis, and Jean-Marie Gorce(参考訳) 機械学習(ML)は、マルチユーザマルチインプットマルチアウトプット(MU-MIMO)受信機の性能を高めるために広く使われるようになった。 しかし,そのような手法が現実的なシナリオや現実的な制約の下で従来の手法と真に競合するかどうかは不明である。 MU-MIMO受信アルゴリズムは、現実的なチャネルモデル上で正確な信号再構成を可能にするだけでなく、リトレーニングを必要とせずに、様々なユーザへの適応を容易にしなければなりません。 既存の作業とは対照的に,従来の線形最小平均二乗誤差(LMMSE)アーキテクチャ上に構築されたML強化MU-MIMO受信機を提案する。 LMMSE受信機の解釈可能性とスケーラビリティを維持しつつ、その精度を2つの方法で改善する。 まず、畳み込みニューラルネットワーク(CNN)を用いて、正確な等化に必要なチャネル推定誤差の2次統計量の近似を計算する。 第2に、cnnベースのデマッパーは、多数の直交周波数分割多重化(ofdm)シンボルとサブキャリアを共同で処理し、チャネルエイジングを補償することにより、より優れたログ度比(llr)を算出する。 結果として得られたアーキテクチャは、アップリンクとダウンリンクで使用することができ、エンドツーエンドでトレーニングされ、トレーニングフェーズ中に完全チャネル状態情報(csi)を取得する必要がなくなる。 シミュレーションの結果,高モビリティシナリオにおいて特に顕著なベースラインに対する一貫した性能向上を示す。

Machine learning (ML) starts to be widely used to enhance the performance of multi-user multiple-input multiple-output (MU-MIMO) receivers. However, it is still unclear if such methods are truly competitive with respect to conventional methods in realistic scenarios and under practical constraints. In addition to enabling accurate signal reconstruction on realistic channel models, MU-MIMO receive algorithms must allow for easy adaptation to a varying number of users without the need for retraining. In contrast to existing work, we propose an ML-enhanced MU-MIMO receiver that builds on top of a conventional linear minimum mean squared error (LMMSE) architecture. It preserves the interpretability and scalability of the LMMSE receiver, while improving its accuracy in two ways. First, convolutional neural networks (CNNs) are used to compute an approximation of the second-order statistics of the channel estimation error which are required for accurate equalization. Second, a CNN-based demapper jointly processes a large number of orthogonal frequency-division multiplexing (OFDM) symbols and subcarriers, which allows it to compute better log likelihood ratios (LLRs) by compensating for channel aging. The resulting architecture can be used in the up- and downlink and is trained in an end-to-end manner, removing the need for hard-to-get perfect channel state information (CSI) during the training phase. Simulation results demonstrate consistent performance improvements over the baseline which are especially pronounced in high mobility scenarios.
翻訳日:2021-05-07 05:06:33 公開日:2020-12-15
# PDFFlow:Parton密度アクセスを加速するハードウェア

PDFFlow: hardware accelerating parton density access ( http://arxiv.org/abs/2012.08221v1 )

ライセンス: Link先を確認
Marco Rossi, Stefano Carrazza, Juan M. Cruz-Martinez(参考訳) ハードウェアアクセラレータを持つプラットフォーム向けに設計されたパートン分布関数(PDF)を高速に評価するための新しいソフトウェアであるPDFFlowを提案する。 pdfはモンテカルロシミュレーション技術による素粒子物理学観測の計算に不可欠である。 クォークとグルーオンの与えられた運動量分数とエネルギースケールでの一般的なPDFセットの評価は、初めてLHAPDFプロジェクトによって導入された補間アルゴリズムの実装を必要とする。 pdfflowは、googleのtensorflowライブラリを使用して、これらの補間アルゴリズムを拡張し実装し、マルチスレッディングcpuとgpuのセットアップを十分に活用したpdf評価を可能にする。 このライブラリの性能を粒子物理学コミュニティに関連する複数のシナリオでベンチマークする。

We present PDFFlow, a new software for fast evaluation of parton distribution functions (PDFs) designed for platforms with hardware accelerators. PDFs are essential for the calculation of particle physics observables through Monte Carlo simulation techniques. The evaluation of a generic set of PDFs for quarks and gluons at a given momentum fraction and energy scale requires the implementation of interpolation algorithms as introduced for the first time by the LHAPDF project. PDFFlow extends and implements these interpolation algorithms using Google's TensorFlow library providing the possibility to perform PDF evaluations taking fully advantage of multi-threading CPU and GPU setups. We benchmark the performance of this library on multiple scenarios relevant for the particle physics community.
翻訳日:2021-05-07 05:06:10 公開日:2020-12-15
# BiSNN:ベイズ学習による2重み付きスパイクニューラルネットワークのトレーニング

BiSNN: Training Spiking Neural Networks with Binary Weights via Bayesian Learning ( http://arxiv.org/abs/2012.08300v1 )

ライセンス: Link先を確認
Hyeryung Jang and Nicolas Skatchkovsky and Osvaldo Simeone(参考訳) 人工ニューラルネットワーク(ann)ベースのバッテリ駆動デバイスの推論は、シナプス重みをバイナリに制限することで、よりエネルギー効率が向上し、乗算を実行する必要がなくなる。 新たなアプローチとして、バイオインスパイアされた動的イベント駆動モデルであるスパイキングニューラルネットワーク(SNN)の使用が、バイナリ、スパース、アクティベーションの使用によるエネルギー効率の向上に頼っている。 本稿では、時間的にスパースなバイナリアクティベーションと二分重の利点を組み合わせたSNNモデルを提案する。 2つの学習規則が導出され、第1はストレートスルーとサロゲート勾配法の組み合わせ、第2はベイズパラダイムに基づく。 実験は、完全な精度実装に関する性能損失を検証し、正確性とキャリブレーションの観点からベイズパラダイムの利点を実証する。

Artificial Neural Network (ANN)-based inference on battery-powered devices can be made more energy-efficient by restricting the synaptic weights to be binary, hence eliminating the need to perform multiplications. An alternative, emerging, approach relies on the use of Spiking Neural Networks (SNNs), biologically inspired, dynamic, event-driven models that enhance energy efficiency via the use of binary, sparse, activations. In this paper, an SNN model is introduced that combines the benefits of temporally sparse binary activations and of binary weights. Two learning rules are derived, the first based on the combination of straight-through and surrogate gradient techniques, and the second based on a Bayesian paradigm. Experiments validate the performance loss with respect to full-precision implementations, and demonstrate the advantage of the Bayesian paradigm in terms of accuracy and calibration.
翻訳日:2021-05-07 05:06:00 公開日:2020-12-15
# コスト効率のよい連合学習設計

Cost-Effective Federated Learning Design ( http://arxiv.org/abs/2012.08336v1 )

ライセンス: Link先を確認
Bing Luo, Xiang Li, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas(参考訳) フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。 実効性と有効性にもかかわらず、反復型オンデバイス学習プロセスは、選択したクライアントの数と各トレーニングラウンドにおけるローカルイテレーションの数に大きく依存する、学習時間とエネルギー消費の観点からかなりのコストを発生させる。 本稿では,これらの基本制御変数を最適に選択し,収束を確保しつつ,総コストを最小化する適応FLの設計方法を分析する。 理論的には、総コストと制御変数の収束上限との関係を解析的に確立する。 コスト最小化の問題を効率的に解くため,低コストなサンプリングベースアルゴリズムを開発し,収束に関連する未知のパラメータを学習する。 異なる計量選好のための設計原理を効果的に識別する重要な解特性を導出する。 本研究は,シミュレーション環境とハードウェアプロトタイプの両方で理論的結果を評価する。 実験的なエビデンスから得られた特性を検証し,提案手法が様々なデータセット,異なる機械学習モデル,異種システム設定に対してほぼ最適性能を実現することを示す。

Federated learning (FL) is a distributed learning paradigm that enables a large number of devices to collaboratively learn a model without sharing their raw data. Despite its practical efficiency and effectiveness, the iterative on-device learning process incurs a considerable cost in terms of learning time and energy consumption, which depends crucially on the number of selected clients and the number of local iterations in each training round. In this paper, we analyze how to design adaptive FL that optimally chooses these essential control variables to minimize the total cost while ensuring convergence. Theoretically, we analytically establish the relationship between the total cost and the control variables with the convergence upper bound. To efficiently solve the cost minimization problem, we develop a low-cost sampling-based algorithm to learn the convergence related unknown parameters. We derive important solution properties that effectively identify the design principles for different metric preferences. Practically, we evaluate our theoretical results both in a simulated environment and on a hardware prototype. Experimental evidence verifies our derived properties and demonstrates that our proposed solution achieves near-optimal performance for various datasets, different machine learning models, and heterogeneous system settings.
翻訳日:2021-05-07 05:05:43 公開日:2020-12-15
# 進化ゲーム理論--内在的に進化するゼロサムゲームにおけるエージェントの進化

Evolutionary Game Theory Squared: Evolving Agents in Endogenously Evolving Zero-Sum Games ( http://arxiv.org/abs/2012.08382v1 )

ライセンス: Link先を確認
Stratis Skoulakis, Tanner Fiez, Ryann Sim, Georgios Piliouras, Lillian Ratliff(参考訳) 進化的ゲーム理論とより一般的にオンライン学習における主要なパラダイムは、固定された静的なゲームと相互作用する動的エージェントの集団間の明確な区別に基づいている。 本稿では,動的エージェントと静的ゲームとの人工的な分断から離れて,エージェントとゲームの両方が時間とともに戦略的に進化する,大規模な競争的設定を紹介し分析する。 我々は、おそらく最も典型的なゲーム理論的な設定であるゼロサムゲーム(およびネットワークの一般化)と最も研究されている進化的学習ダイナミックなレプリケータに焦点を当てています。 エージェントの集団は、現在の人口混合に逆らって進化するゼロサム競争で互いに競合する。 驚くべきことに、エージェントとゲームのカオス的な共進化にもかかわらず、システムは多くの正規性を示すことを証明している。 まず、システムはすべてのエージェントとゲームの振る舞いを結合する情報理論的なフレーバーの保存則を有する。 第二に、システムはpoincar\'{e}リカレントであり、エージェントとゲームの全ての初期化は、無限に頻繁に初期状態に近いリカレント軌道上にある。 第3に、時間平均エージェントの挙動とユーティリティは、時間平均ゲームのナッシュ平衡値に収束する。 最後に,このようなネットワークゲームに対して,この時間平均動作を効率的に予測する多項式時間アルゴリズムを提案する。

The predominant paradigm in evolutionary game theory and more generally online learning in games is based on a clear distinction between a population of dynamic agents that interact given a fixed, static game. In this paper, we move away from the artificial divide between dynamic agents and static games, to introduce and analyze a large class of competitive settings where both the agents and the games they play evolve strategically over time. We focus on arguably the most archetypal game-theoretic setting -- zero-sum games (as well as network generalizations) -- and the most studied evolutionary learning dynamic -- replicator, the continuous-time analogue of multiplicative weights. Populations of agents compete against each other in a zero-sum competition that itself evolves adversarially to the current population mixture. Remarkably, despite the chaotic coevolution of agents and games, we prove that the system exhibits a number of regularities. First, the system has conservation laws of an information-theoreti c flavor that couple the behavior of all agents and games. Secondly, the system is Poincar\'{e} recurrent, with effectively all possible initializations of agents and games lying on recurrent orbits that come arbitrarily close to their initial conditions infinitely often. Thirdly, the time-average agent behavior and utility converge to the Nash equilibrium values of the time-average game. Finally, we provide a polynomial time algorithm to efficiently predict this time-average behavior for any such coevolving network game.
翻訳日:2021-05-07 05:05:23 公開日:2020-12-15
# ランダム初期化によるニューラルネットワークのトレーニングのための強大な総合的誤差解析

Strong overall error analysis for the training of artificial neural networks via random initializations ( http://arxiv.org/abs/2012.08443v1 )

ライセンス: Link先を確認
Arnulf Jentzen and Adrian Riekert(参考訳) ディープラーニングに基づく近似アルゴリズムは、多くの問題に非常にうまく適用されてきたが、現時点ではその性能の理由は数学的観点から完全には理解されていない。 近年,深い教師付き学習の状況において,総誤差の収束率を推定する手法が提案されているが,収束率は非常に遅い。 ここでは、これらの見積もりを部分的に改善する。 より具体的には、同じ近似率を得るためには、ニューラルネットワークの深さがはるかに遅いだけであることを示す。 結果は任意の確率最適化アルゴリズムの場合、すなわちランダム初期化を伴う。

Although deep learning based approximation algorithms have been applied very successfully to numerous problems, at the moment the reasons for their performance are not entirely understood from a mathematical point of view. Recently, estimates for the convergence of the overall error have been obtained in the situation of deep supervised learning, but with an extremely slow rate of convergence. In this note we partially improve on these estimates. More specifically, we show that the depth of the neural network only needs to increase much slower in order to obtain the same rate of approximation. The results hold in the case of an arbitrary stochastic optimization algorithm with i.i.d.\ random initializations.
翻訳日:2021-05-07 05:04:21 公開日:2020-12-15