このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201211となっている論文です。

PDF登録状況(公開日: 20201211)

TitleAuthorsAbstract論文公表日・翻訳日
# 複雑なカテゴリの樹状デコードによるロングテールの重畳

Supertagging the Long Tail with Tree-Structured Decoding of Complex Categories ( http://arxiv.org/abs/2012.01285v2 )

ライセンス: Link先を確認
Jakob Prange, Nathan Schneider, Vivek Srikumar(参考訳) 現在のCCGスーパータガーは標準的なWSJテストセットで高い精度を達成するが、解析中に構文的導出を駆動するカテゴリの内部構造を利用するシステムはほとんどない。 タグセットは伝統的に切り捨てられ、長い尾にある多くの稀で複雑なカテゴリーの型を捨てる。 しかし、スーパータグはそれ自体が木である。 稀なタグを諦める代わりに,木構造予測のための新しい手法を含む内部構造を考慮した構成モデルを検討する。 我々の最高のタグは、長い尾のスーパータグの相当な部分を復元し、トレーニングで見たことのないCCGカテゴリを生成できると同時に、タグ全体の精度を少ないパラメータで予測できる。 さらに、異なるアプローチがドメイン外評価セットにどのように一般化するかについても検討する。

Although current CCG supertaggers achieve high accuracy on the standard WSJ test set, few systems make use of the categories' internal structure that will drive the syntactic derivation during parsing. The tagset is traditionally truncated, discarding the many rare and complex category types in the long tail. However, supertags are themselves trees. Rather than give up on rare tags, we investigate constructive models that account for their internal structure, including novel methods for tree-structured prediction. Our best tagger is capable of recovering a sizeable fraction of the long-tail supertags and even generates CCG categories that have never been seen in training, while approximating the prior state of the art in overall tag accuracy with fewer parameters. We further investigate how well different approaches generalize to out-of-domain evaluation sets.
翻訳日:2021-05-25 04:03:58 公開日:2020-12-11
# (参考訳) 航空画像における意味セグメンテーションの領域適応 [全文訳有]

Domain Adaptation on Semantic Segmentation for Aerial Images ( http://arxiv.org/abs/2012.02264v2 )

ライセンス: CC BY 4.0
Ying Chen, Xu Ouyang, Kaiyue Zhu, Gady Agam(参考訳) セマンティックセグメンテーションは近年大きな進歩を遂げている。 ディープニューラルネットワークはセマンティックセグメンテーションをうまく実行するが、その成功は高価で時間を要するピクセルレベルの監視に依存している。 さらに、あるドメインからのデータを使ったトレーニングは、異なるドメイン内のデータ分散間のドメインギャップのため、新しいドメインからのデータに対してうまく一般化できない。 この領域のギャップは、視覚的な外観が環境の画像の種類、季節、天気、および環境が撮影された日の時間に依存する空中画像で特に顕著である。 この分布ギャップは、事前訓練されたセグメンテーションモデルを用いて異なる特徴を持つ新しいデータを分析する場合、深刻な精度の損失をもたらす。 本稿では,空中意味画像セグメンテーションの文脈における領域シフトに対処する,新しい教師なしドメイン適応フレームワークを提案する。 この目的のために、ソースとターゲットドメイン間のソフトラベル分布差を学習することで、ドメインシフトの問題を解決する。 さらに, 対象領域にエントロピー最小化を適用し, 擬似ラベルによる高密度予測ではなく, 高信頼予測を行う。 ISPRSの課題画像セグメンテーションデータセットを用いて、ドメイン適応フレームワークの有効性を実証し、様々な指標による最先端手法の改善を示す。

Semantic segmentation has achieved significant advances in recent years. While deep neural networks perform semantic segmentation well, their success rely on pixel level supervision which is expensive and time-consuming. Further, training using data from one domain may not generalize well to data from a new domain due to a domain gap between data distributions in the different domains. This domain gap is particularly evident in aerial images where visual appearance depends on the type of environment imaged, season, weather, and time of day when the environment is imaged. Subsequently, this distribution gap leads to severe accuracy loss when using a pretrained segmentation model to analyze new data with different characteristics. In this paper, we propose a novel unsupervised domain adaptation framework to address domain shift in the context of aerial semantic image segmentation. To this end, we solve the problem of domain shift by learn the soft label distribution difference between the source and target domains. Further, we also apply entropy minimization on the target domain to produce high-confident prediction rather than using high-confident prediction by pseudo-labeling. We demonstrate the effectiveness of our domain adaptation framework using the challenge image segmentation dataset of ISPRS, and show improvement over state-of-the-art methods in terms of various metrics.
翻訳日:2021-05-23 17:10:34 公開日:2020-12-11
# (参考訳) 畳み込みニューラルネットワークを用いた食品分類と多クラス線形識別分析 [全文訳有]

Food Classification with Convolutional Neural Networks and Multi-Class Linear Discernment Analysis ( http://arxiv.org/abs/2012.03170v2 )

ライセンス: CC BY 4.0
Joshua Ball(参考訳) 畳み込みニューラルネットワーク(cnns)は、人間の脳で知覚される完全に接続された推論能力を表現することに成功している。 cnnの無数の実装は、これらの複雑なパターン、特に画像分類の領域を学習する能力の強さを示している。 しかし、高性能CNNをいわゆる「最先端技術」レベルに上げるコストは、計算コストがかかる。 mobilenetv2のようなモデルから非常に深い層を利用する転送学習を使う場合でも、cnnは膨大な時間とリソースを必要とします。 フィッシャーの線形判別を一般化した線形判別分析(LDA)は、画像分類に高性能なシステムを必要としないが、クラス特徴の分離性を高めるために多クラス分類法で実装することができる。 同様に、私たちはLDAが優れたパフォーマンスを約束しているとも信じています。 本稿では, 食品分類のための堅牢なCNNの開発プロセスと, マルチクラスLDAの効果的な実装について論じ, 1) 画像分類においてCNNがLDAよりも優れていること, (2) 画像分類においてLDAを除外すべきでない理由について述べる。

Convolutional neural networks (CNNs) have been successful in representing the fully-connected inferencing ability perceived to be seen in the human brain: they take full advantage of the hierarchy-style patterns commonly seen in complex data and develop more patterns using simple features. Countless implementations of CNNs have shown how strong their ability is to learn these complex patterns, particularly in the realm of image classification. However, the cost of getting a high performance CNN to a so-called "state of the art" level is computationally costly. Even when using transfer learning, which utilize the very deep layers from models such as MobileNetV2, CNNs still take a great amount of time and resources. Linear discriminant analysis (LDA), a generalization of Fisher's linear discriminant, can be implemented in a multi-class classification method to increase separability of class features while not needing a high performance system to do so for image classification. Similarly, we also believe LDA has great promise in performing well. In this paper, we discuss our process of developing a robust CNN for food classification as well as our effective implementation of multi-class LDA and prove that (1) CNN is superior to LDA for image classification and (2) why LDA should not be left out of the races for image classification, particularly for binary cases.
翻訳日:2021-05-22 09:28:22 公開日:2020-12-11
# 深部沈み込みネットワークを用いた交通流予測

Traffic flow prediction using Deep Sedenion Networks ( http://arxiv.org/abs/2012.03874v2 )

ライセンス: Link先を確認
Alabi Bojesomo, Panos Liatsis, Hasan Al Marzouqi(参考訳) 本稿では,traffic4cast2020のトラヒック予測課題に対する解決策を提案する。 このコンペティションでは、参加者はベルリン、イスタンブール、モスクワの3つの都市で将来の交通パラメータ(速度とボリューム)を予測する。 情報には、最初の8つが4つの異なる方向(ne、nw、se、sw)の速度と体積を表す9つのチャネルが含まれているが、最後のチャンネルは、トラフィックインシデントの存在を示すために使用される。 期待される出力は、入力の最初の8チャンネルを6つの将来のタイミング間隔(5,10,15,30,45,60min )で、過去のトラフィックデータの1時間の持続時間を5分間隔で入力として提供する。 我々は,新しいsedenion u-netニューラルネットワークを用いてこの問題を解決する。 セデニオンネットワークは、相関したマルチモーダルデータセットの効率的なエンコーディングの手段を提供する。 動的入力には15個の仮想部品のうち12個を使用し、静的入力には実際のセデニオン成分を用いる。 ネットワークのセデニオン出力は、マルチモーダルトラフィック予測を表すために使用される。 提案システムは、検証mse 1.33e-3とテストmse 1.31e-3を達成した。

In this paper, we present our solution to the Traffic4cast2020 traffic prediction challenge. In this competition, participants are to predict future traffic parameters (speed and volume) in three different cities: Berlin, Istanbul and Moscow. The information provided includes nine channels where the first eight represent the speed and volume for four different direction of traffic (NE, NW, SE and SW), while the last channel is used to indicate presence of traffic incidents. The expected output should have the first 8 channels of the input at six future timing intervals (5, 10, 15, 30, 45, and 60min), while a one hour duration of past traffic data, in 5mins intervals, are provided as input. We solve the problem using a novel sedenion U-Net neural network. Sedenion networks provide the means for efficient encoding of correlated multimodal datasets. We use 12 of the 15 sedenion imaginary parts for the dynamic inputs and the real sedenion component is used for the static input. The sedenion output of the network is used to represent the multimodal traffic predictions. Proposed system achieved a validation MSE of 1.33e-3 and a test MSE of 1.31e-3.
翻訳日:2021-05-16 21:21:31 公開日:2020-12-11
# (参考訳) 少量知識蒸留用プログレッシブネットワークグラフト [全文訳有]

Progressive Network Grafting for Few-Shot Knowledge Distillation ( http://arxiv.org/abs/2012.04915v2 )

ライセンス: CC BY 4.0
Chengchao Shen, Xinchao Wang, Youtan Yin, Jie Song, Sihui Luo, Mingli Song(参考訳) 知識蒸留は深部モデル圧縮における励振性能を示す。 しかし、既存のアプローチの多くは、知識転送を達成するために大量のラベル付きデータを必要としており、モデル圧縮は面倒でコストのかかるプロセスとなっている。 本稿では,人間アノテーションのないサンプルが各カテゴリにわずか数個しか存在しないと仮定した,実用的マイノリティ蒸留シナリオについて検討する。 そこで本研究では, 数ショットデータに適した二段蒸留方式を提案する。 第1段階では,生徒ブロックを1つずつ教師にグラフトし,他の教師ブロックと連動したグラフトブロックのパラメータを学習する。 第2のステップでは、訓練された学生ブロックは徐々に接続され、教師ネットワークにグラフトされ、学習された学生ブロックが互いに適応し、最終的には教師ネットワークを置き換えることができる。 実験により, CIFAR10, CIFAR100, ILSVRC-2012における実験結果が得られた。 CIFAR10とCIFAR100では、全データセットを利用する知識蒸留方式と同等の性能を示しています。 ソースコードはhttps://github.com/z ju-vipa/netgraftで入手できる。

Knowledge distillation has demonstrated encouraging performances in deep model compression. Most existing approaches, however, require massive labeled data to accomplish the knowledge transfer, making the model compression a cumbersome and costly process. In this paper, we investigate the practical few-shot knowledge distillation scenario, where we assume only a few samples without human annotations are available for each category. To this end, we introduce a principled dual-stage distillation scheme tailored for few-shot data. In the first step, we graft the student blocks one by one onto the teacher, and learn the parameters of the grafted block intertwined with those of the other teacher blocks. In the second step, the trained student blocks are progressively connected and then together grafted onto the teacher network, allowing the learned student blocks to adapt themselves to each other and eventually replace the teacher network. Experiments demonstrate that our approach, with only a few unlabeled samples, achieves gratifying results on CIFAR10, CIFAR100, and ILSVRC-2012. On CIFAR10 and CIFAR100, our performances are even on par with those of knowledge distillation schemes that utilize the full datasets. The source code is available at https://github.com/z ju-vipa/NetGraft.
翻訳日:2021-05-16 11:58:09 公開日:2020-12-11
# MLComp:Pareto-Optima l Compiler最適化系列の機械学習に基づく性能推定と適応選択手法

MLComp: A Methodology for Machine Learning-based Performance Estimation and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences ( http://arxiv.org/abs/2012.05270v2 )

ライセンス: Link先を確認
Alessio Colucci, D\'avid Juh\'asz, Martin Mosbeck, Alberto Marchisio, Semeen Rehman, Manfred Kreutzer, Guenther Nadbath, Axel Jantsch and Muhammad Shafique(参考訳) 組込みシステムは、サイバー物理システムとモノのインターネットの進化により、様々な消費者や産業のアプリケーションで普及してきた。 これらのシステムは厳密な制約を受けており、組み込みソフトウェアは複数の目的、すなわちエネルギー消費量、実行時間、コードサイズを同時に最適化する必要がある。 コンパイラはこれらのメトリクスを改善する最適化フェーズを提供する。 しかし、適切な選択と順序付けは複数の要因に依存し、通常は専門家の知識を必要とする。 最先端のオプティマイザは、ケースによって異なるプラットフォームやアプリケーションのケースを容易にし、動的プロファイリングによって異なるターゲットに対して時間を要するだけでなく、1度に1つのメトリックを最適化することで制限される。 これらの問題に対処するために,強化学習に基づくポリシーにより最適化フェーズをシーケンスする新しいMLComp手法を提案する。 ポリシーのトレーニングは、迅速なパフォーマンス推定のための機械学習ベースの分析モデルによってサポートされ、動的プロファイリングに費やされる時間を大幅に削減する。 私たちのフレームワークでは、最適なモデルを選択するために、さまざまな機械学習モデルが自動的にテストされます。 訓練された性能推定モデルを用いて、準最適位相列を生成するための強化学習に基づく多目的ポリシーを効率的に考案する。 最先端推定モデルと比較して、パフォーマンス推定モデルは、複数のプラットフォームやアプリケーションドメインで最大50倍高速なトレーニング時間を持つ低い相対誤差(2%)を達成する。 我々のフェーズ選択ポリシーは、与えられたコードの実行時間とエネルギー消費をそれぞれ最大12%と6%改善します。 パフォーマンス推定器とフェーズ選択ポリシーは、任意のプラットフォームとアプリケーションドメインに対して効率的にトレーニングできます。

Embedded systems have proliferated in various consumer and industrial applications with the evolution of Cyber-Physical Systems and the Internet of Things. These systems are subjected to stringent constraints so that embedded software must be optimized for multiple objectives simultaneously, namely reduced energy consumption, execution time, and code size. Compilers offer optimization phases to improve these metrics. However, proper selection and ordering of them depends on multiple factors and typically requires expert knowledge. State-of-the-art optimizers facilitate different platforms and applications case by case, and they are limited by optimizing one metric at a time, as well as requiring a time-consuming adaptation for different targets through dynamic profiling. To address these problems, we propose the novel MLComp methodology, in which optimization phases are sequenced by a Reinforcement Learning-based policy. Training of the policy is supported by Machine Learning-based analytical models for quick performance estimation, thereby drastically reducing the time spent for dynamic profiling. In our framework, different Machine Learning models are automatically tested to choose the best-fitting one. The trained Performance Estimator model is leveraged to efficiently devise Reinforcement Learning-based multi-objective policies for creating quasi-optimal phase sequences. Compared to state-of-the-art estimation models, our Performance Estimator model achieves lower relative error (<2%) with up to 50x faster training time over multiple platforms and application domains. Our Phase Selection Policy improves execution time and energy consumption of a given code by up to 12% and 6%, respectively. The Performance Estimator and the Phase Selection Policy can be trained efficiently for any target platform and application domain.
翻訳日:2021-05-16 01:51:12 公開日:2020-12-11
# (参考訳) flatland-rl : 列車におけるマルチエージェント強化学習 [全文訳有]

Flatland-RL : Multi-Agent Reinforcement Learning on Trains ( http://arxiv.org/abs/2012.05893v2 )

ライセンス: CC BY 4.0
Sharada Mohanty, Erik Nygren, Florian Laurent, Manuel Schneider, Christian Scheller, Nilabha Bhattacharya, Jeremy Watson, Adrian Egli, Christian Eichenberger, Christian Baumberger, Gereon Vienken, Irene Sturm, Guillaume Sartoretti, Giacomo Spigler(参考訳) 列車の効率的な自動スケジューリングは現代の鉄道システムにとって大きな課題である。 車両再スケジュール問題(VRSP)は、数十年前からオペレーティング・リサーチ(OR)の主要な焦点となっている。 従来のアプローチでは、複雑なシミュレータを使ってVRSPを研究しており、様々な新しいアイデアを試すには時間がかかる。 本稿では,高速な実験を可能にする「フラトランド」と呼ばれる2次元簡易グリッド環境を提案する。 Flatlandは、完全な物理シミュレーションの複雑さを軽減するだけでなく、Reinforcement Learning (RL)やImitation Learning (IL)といったVRSPの新しいアプローチをテストするための使いやすいインターフェースを提供する。 フラットランドにおける機械学習(ml)研究の可能性を探究するため,(1)rlとilの実験と(2)neurips 2020で公開ベンチマークを実施し,大規模な研究者コミュニティによる研究を行った。 一方、我々の実験結果は、MLがFlatlandのVRSPを解く可能性を実証している。 一方で、さらなる研究を必要とする重要なトピックを特定する。 全体的に、フラットランド環境は鉄道網のvrspを調査するための堅牢で価値のある枠組みであることが証明されている。 われわれの実験は、NeurIPS 2020 Flatland Benchmarkの参加者にとって、さらなる研究の出発点となる。 これらすべての取り組みは、将来のモビリティを形作る上で大きな影響を与える可能性がある。

Efficient automated scheduling of trains remains a major challenge for modern railway systems. The underlying vehicle rescheduling problem (VRSP) has been a major focus of Operations Research (OR) since decades. Traditional approaches use complex simulators to study VRSP, where experimenting with a broad range of novel ideas is time consuming and has a huge computational overhead. In this paper, we introduce a two-dimensional simplified grid environment called "Flatland" that allows for faster experimentation. Flatland does not only reduce the complexity of the full physical simulation, but also provides an easy-to-use interface to test novel approaches for the VRSP, such as Reinforcement Learning (RL) and Imitation Learning (IL). In order to probe the potential of Machine Learning (ML) research on Flatland, we (1) ran a first series of RL and IL experiments and (2) design and executed a public Benchmark at NeurIPS 2020 to engage a large community of researchers to work on this problem. Our own experimental results, on the one hand, demonstrate that ML has potential in solving the VRSP on Flatland. On the other hand, we identify key topics that need further research. Overall, the Flatland environment has proven to be a robust and valuable framework to investigate the VRSP for railway networks. Our experiments provide a good starting point for further research and for the participants of the NeurIPS 2020 Flatland Benchmark. All of these efforts together have the potential to have a substantial impact on shaping the mobility of the future.
翻訳日:2021-05-15 10:41:09 公開日:2020-12-11
# より詳細: 一般化可能なReIDモデルのための一般化可能なサンプルの選択

One for More: Selecting Generalizable Samples for Generalizable ReID Model ( http://arxiv.org/abs/2012.05475v2 )

ライセンス: Link先を確認
Enwei Zhang, Xinyang Jiang, Hao Cheng, Ancong Wu, Fufu Yu, Ke Li, Xiaowei Guo, Feng Zheng, Wei-Shi Zheng, Xing Sun(参考訳) 既存の人物再識別(ReID)モデルの現在のトレーニング目標は、バッチ外のサンプルのパフォーマンスに関係なく、選択したトレーニングバッチにおいてモデルの損失が減少することを保証するのみである。 必然的にモデルが支配的な位置(例えば、不均衡クラスのヘッドデータ、簡単なサンプル、騒がしいサンプルなど)でデータを過剰に適合させる。 % より多くのデータを一般化可能なサンプルとするためにモデルを更新するサンプルを呼び出します。 最新の再サンプリング手法では、モデルが特定の種類のデータ(ハードサンプル、テールデータなど)をより一般化する特定のサンプルを選択するための特定の基準を設計することでこの問題に対処している。 そこで,本研究では,どのサンプルが一般化可能かを単純に仮定する代わりに,選択したサンプルを損失関数として直接的に一般化する1対3の学習目標を提案する。 さらに重要なことは、提案した1対3のサンプルラをReIDトレーニングフレームワークにシームレスに統合することで、エンドツーエンドでReIDモデルとサンプルラを同時にトレーニングすることができることです。 実験の結果,提案手法はReIDモデルのトレーニングを効果的に改善し,ReIDモデルの性能を向上させることができることがわかった。

Current training objectives of existing person Re-IDentification (ReID) models only ensure that the loss of the model decreases on selected training batch, with no regards to the performance on samples outside the batch. It will inevitably cause the model to over-fit the data in the dominant position (e.g., head data in imbalanced class, easy samples or noisy samples). %We call the sample that updates the model towards generalizing on more data a generalizable sample. The latest resampling methods address the issue by designing specific criterion to select specific samples that trains the model generalize more on certain type of data (e.g., hard samples, tail data), which is not adaptive to the inconsistent real world ReID data distributions. Therefore, instead of simply presuming on what samples are generalizable, this paper proposes a one-for-more training objective that directly takes the generalization ability of selected samples as a loss function and learn a sampler to automatically select generalizable samples. More importantly, our proposed one-for-more based sampler can be seamlessly integrated into the ReID training framework which is able to simultaneously train ReID models and the sampler in an end-to-end fashion. The experimental results show that our method can effectively improve the ReID model training and boost the performance of ReID models.
翻訳日:2021-05-15 06:39:25 公開日:2020-12-11
# オンライン半定義型プログラミングのための一般化ログ決定型正規化器とその応用

A generalised log-determinant regularizer for online semi-definite programming and its applications ( http://arxiv.org/abs/2012.05632v2 )

ライセンス: Link先を確認
Yaxiong Liu, Ken-ichiro Moridomi, Kohei Hatano, Eiji Takimoto(参考訳) オンライン半定義型プログラミング問題 (osdp: online semi-definite programming problem) の変種を考える: 決定空間は、有界な$\gamma$-trace ノルムを持つ半定義行列から成り、正の定値行列 $\gamma.$ で定義されるトレースノルムの一般化である。 次に、一般化された設定と提案アルゴリズムをオンライン行列補完(OMC)およびオンライン類似度予測にサイド情報で適用する。 特に、オンライン行列補完問題を一般化された osdp 問題に還元し、その辺情報は $\gamma$ matrix として表現される。 したがって、一般OSDPに対する残念な点から、対数係数を除去することで、OMCに対する最適な誤りが得られる。

We consider a variant of online semi-definite programming problem (OSDP): The decision space consists of semi-definite matrices with bounded $\Gamma$-trace norm, which is a generalization of trace norm defined by a positive definite matrix $\Gamma.$ To solve this problem, we utilise the follow-the-regulariz ed-leader algorithm with a $\Gamma$-dependent log-determinant regularizer. Then we apply our generalised setting and our proposed algorithm to online matrix completion(OMC) and online similarity prediction with side information. In particular, we reduce the online matrix completion problem to the generalised OSDP problem, and the side information is represented as the $\Gamma$ matrix. Hence, due to our regret bound for the generalised OSDP, we obtain an optimal mistake bound for the OMC by removing the logarithmic factor.
翻訳日:2021-05-15 06:09:47 公開日:2020-12-11
# (参考訳) ai駆動シミュレータの台頭: 新しいクリスタルボールの構築 [全文訳有]

The Rise of AI-Driven Simulators: Building a New Crystal Ball ( http://arxiv.org/abs/2012.06049v1 )

ライセンス: CC BY 4.0
Ian Foster, David Parkes, and Stephan Zheng(参考訳) 計算シミュレーションの使用は今や社会に広く浸透しているので、米国と国際的な繁栄、安全保障、健康がシミュレーション能力の継続的な改善に依存していると言うのは誇張ではない。 2週間後に天気を予報したり、新型ウイルス病の新しい薬の設計を指導したり、製造コストと時間を桁違いに削減する新しい製造プロセスを管理することができるとしたらどうだろう? 例えば、自然災害時の避難要請への対応や、財政刺激による労働対応など、集団的人間の行動を予測することは可能か。 (パンデミック情報学に関するコンパニオンcccccクアッドペーパーも参照のこと) この10年で、世界の膨大なデータを収集できるセンサーや、それらのデータから予測パターンを学習するAI手法など、補完的な分野で顕著な進歩を遂げた。 これらの進歩は、多くの種類のセンサーが大量のデータを生成するのに使われ、AIメソッドはそれらのデータ内のパターンを識別し、新しいAI駆動シミュレータは、機械学習と数学的ルールを組み合わせて正確で行動可能な予測を行う。 また、数学的な理解の限界に到達したり、少なくとも数学的な理解を効率的なシミュレーションに翻訳する能力に到達しているところもあります。 本稿では,AI駆動シミュレータにおける凝集性,多分野,アプリケーションに触発された研究課題の一部を構成することを想定するテーマについて述べる。

The use of computational simulation is by now so pervasive in society that it is no exaggeration to say that continued U.S. and international prosperity, security, and health depend in part on continued improvements in simulation capabilities. What if we could predict weather two weeks out, guide the design of new drugs for new viral diseases, or manage new manufacturing processes that cut production costs and times by an order of magnitude? What if we could predict collective human behavior, for example, response to an evacuation request during a natural disaster, or labor response to fiscal stimulus? (See also the companion CCC Quad Paper on Pandemic Informatics, which discusses features that would be essential to solving large-scale problems like preparation for, and response to, the inevitable next pandemic.) The past decade has brought remarkable advances in complementary areas: in sensors, which can now capture enormous amounts of data about the world, and in AI methods capable of learning to extract predictive patterns from those data. These advances may lead to a new era in computational simulation, in which sensors of many kinds are used to produce vast quantities of data, AI methods identify patterns in those data, and new AI-driven simulators combine machine-learned and mathematical rules to make accurate and actionable predictions. At the same time, there are new challenges -- computers in some important regards are no longer getting faster, and in some areas we are reaching the limits of mathematical understanding, or at least of our ability to translate mathematical understanding into efficient simulation. In this paper, we lay out some themes that we envision forming part of a cohesive, multi-disciplinary, and application-inspired research agenda on AI-driven simulators.
翻訳日:2021-05-14 13:08:11 公開日:2020-12-11
# (参考訳) クラウドコンピューティングにおけるスマート産業 4.0 アプリケーションの性能分析 [全文訳有]

Analyzing the Performance of Smart Industry 4.0 Applications on Cloud Computing Systems ( http://arxiv.org/abs/2012.06054v1 )

ライセンス: CC BY 4.0
Razin Farhan Hussain, Alireza Pakravan, Mohsen Amini Salehi(参考訳) レイテンシに敏感な推論を行うクラウドベースのDeep Neural Network (DNN)アプリケーションは、Industrial 4.0で必須の部分になりつつある。 クラウドコンピューティング環境に固有のマルチテナントとリソースの不均一性のため、DNNベースのアプリケーションの推論時間は確率的である。 このような確率性は、捕まらなければ、低品質のサービス(qos)や、石油やガス産業のような重要な分野における災害につながる可能性がある。 産業4.0を堅牢にするためには、ソリューションアーキテクトと研究者は、DNNベースのアプリケーションの振る舞いを理解し、推論時間内に確率性を捉える必要がある。 そこで本研究では,2つの視点から推論時間の記述的分析を行った。 まず、アプリケーション中心の分析を行い、統計的に異なる4つのdnnアプリケーションのamazonおよびchameleonクラウド上での実行時間をモデル化する。 第二に、リソース中心のアプローチを採り、クラウド上の異種マシンに対するMIPS(Million Instruction Per Second)という形でレートベースのメトリクスを分析する。 この非パラメトリックモデリングはJackknifeとBootstrapの再サンプリング手法によって達成され、異種クラウドマシンに対するMIPSの信頼区間を提供する。 この研究の結果は、研究者やクラウドソリューションアーキテクトがクラウド上のDNNアプリケーションの推論時間の確率的性質に対して堅牢なソリューションを開発し、ユーザに対してより高いQoSを提供し、意図しない結果を避けるのに役立つ。

Cloud-based Deep Neural Network (DNN) applications that make latency-sensitive inference are becoming an indispensable part of Industry 4.0. Due to the multi-tenancy and resource heterogeneity, both inherent to the cloud computing environments, the inference time of DNN-based applications are stochastic. Such stochasticity, if not captured, can potentially lead to low Quality of Service (QoS) or even a disaster in critical sectors, such as Oil and Gas industry. To make Industry 4.0 robust, solution architects and researchers need to understand the behavior of DNN-based applications and capture the stochasticity exists in their inference times. Accordingly, in this study, we provide a descriptive analysis of the inference time from two perspectives. First, we perform an application-centric analysis and statistically model the execution time of four categorically different DNN applications on both Amazon and Chameleon clouds. Second, we take a resource-centric approach and analyze a rate-based metric in form of Million Instruction Per Second (MIPS) for heterogeneous machines in the cloud. This non-parametric modeling, achieved via Jackknife and Bootstrap re-sampling methods, provides the confidence interval of MIPS for heterogeneous cloud machines. The findings of this research can be helpful for researchers and cloud solution architects to develop solutions that are robust against the stochastic nature of the inference time of DNN applications in the cloud and can offer a higher QoS to their users and avoid unintended outcomes.
翻訳日:2021-05-14 11:27:26 公開日:2020-12-11
# (参考訳) 人工知能が社会に与える影響を理解するための学際的アプローチ [全文訳有]

Interdisciplinary Approaches to Understanding Artificial Intelligence's Impact on Society ( http://arxiv.org/abs/2012.06057v1 )

ライセンス: CC BY 4.0
Suresh Venkatasubramanian, Nadya Bliss, Helen Nissenbaum, and Melanie Moses(参考訳) AIのイノベーションは主に、Web検索のパターンを見つけるための"何"と"どのように"のアルゴリズムに関する質問に焦点を当てている。 ひとつは、テクノロジー業界におけるインセンティブや力によって、製品主導の焦点が、潜在的な害や誤解に対するより広範な反省的な懸念を解き放つ傾向にあることだ。 しかし、これは主に、コンピュータ科学における工学と数学に焦点を当てたトレーニングの反映であり、ツールの構築と計算概念の開発に重点を置いている。 この厳密な技術的焦点の結果として、AIは、人種的または性別に偏った方法で行動するアルゴリズムから、不平等を持続するフィードバックループに捕捉される、あるいは自由で民主的な社会の基本的な価値に挑戦する前例のない行動監視の監視まで、予期せぬ社会技術的問題の嵐に遭遇した。 AIはもはや技術者の領域ではなく、社会全体の領域であるということを考えると、コンピュータ科学と社会と社会的価値を研究する分野の密接な結合が必要である。

Innovations in AI have focused primarily on the questions of "what" and "how"-algorithms for finding patterns in web searches, for instance-without adequate attention to the possible harms (such as privacy, bias, or manipulation) and without adequate consideration of the societal context in which these systems operate. In part, this is driven by incentives and forces in the tech industry, where a more product-driven focus tends to drown out broader reflective concerns about potential harms and misframings. But this focus on what and how is largely a reflection of the engineering and mathematics-focused training in computer science, which emphasizes the building of tools and development of computational concepts. As a result of this tight technical focus, and the rapid, worldwide explosion in its use, AI has come with a storm of unanticipated socio-technical problems, ranging from algorithms that act in racially or gender-biased ways, get caught in feedback loops that perpetuate inequalities, or enable unprecedented behavioral monitoring surveillance that challenges the fundamental values of free, democratic societies. Given that AI is no longer solely the domain of technologists but rather of society as a whole, we need tighter coupling of computer science and those disciplines that study society and societal values.
翻訳日:2021-05-14 11:10:41 公開日:2020-12-11
# (参考訳) 次の波の人工知能:堅牢、説明可能、適応可能、倫理的、説明責任 [全文訳有]

Next Wave Artificial Intelligence: Robust, Explainable, Adaptable, Ethical, and Accountable ( http://arxiv.org/abs/2012.06058v1 )

ライセンス: CC BY 4.0
Odest Chadwicke Jenkins, Daniel Lopresti, and Melanie Mitchell(参考訳) AIの歴史には、いくつかの"波"のアイデアが含まれている。 1950年代半ばから1980年代にかけての最初の波は、知識の論理と記号的手書き表現、いわゆる「エキスパートシステム」の基礎に焦点を当てていた。 第2の波は1990年代に始まり、統計と機械学習に焦点を当て、プログラマは振る舞いのハンドプログラミングのルールの代わりに、大規模なデータセットでトレーニングできる「統計学習アルゴリズム」を構築した。 直近のAIにおける波動研究では、主に深層ニューラルネットワークに焦点を当てており、脳に緩やかにインスパイアされ、「深層学習」の手法で訓練されている。 しかし、ディープニューラルネットワークはコンピュータビジョン、音声認識、言語処理、ゲームプレイング、ロボット工学において多くの成功と新機能をもたらしているが、幅広い応用の可能性にはいくつかの要因がある。 制限に関して言えば、今日のAIシステムの中でも最も成功したものでさえ不安定性に悩まされ、トレーニングされたシステムと十分に異なる状況に直面した場合に予期せぬ方法で失敗する可能性があるということです。 この堅牢性の欠如は、敵対的な攻撃に対するAIシステムの脆弱性にも現れ、敵はAIシステムから特定の間違った回答やアクションを保証する方法でデータを微妙に操作することができる。 AIシステムは、トレーニングデータから性別、人種、その他の要因に基づくバイアスを吸収し、その後の意思決定におけるバイアスをさらに大きくすることができる。 これらさまざまな制限が組み合わさって、自動医療診断や自動運転車のようなaiシステムが幅広い展開に十分な信頼を持てなくなった。 社会全体のAIの急増は、我々の生産性や生活の質、価値観を犠牲にしない技術を生み出すために、根本的に新しいアイデアを必要とします。

The history of AI has included several "waves" of ideas. The first wave, from the mid-1950s to the 1980s, focused on logic and symbolic hand-encoded representations of knowledge, the foundations of so-called "expert systems". The second wave, starting in the 1990s, focused on statistics and machine learning, in which, instead of hand-programming rules for behavior, programmers constructed "statistical learning algorithms" that could be trained on large datasets. In the most recent wave research in AI has largely focused on deep (i.e., many-layered) neural networks, which are loosely inspired by the brain and trained by "deep learning" methods. However, while deep neural networks have led to many successes and new capabilities in computer vision, speech recognition, language processing, game-playing, and robotics, their potential for broad application remains limited by several factors. A concerning limitation is that even the most successful of today's AI systems suffer from brittleness-they can fail in unexpected ways when faced with situations that differ sufficiently from ones they have been trained on. This lack of robustness also appears in the vulnerability of AI systems to adversarial attacks, in which an adversary can subtly manipulate data in a way to guarantee a specific wrong answer or action from an AI system. AI systems also can absorb biases-based on gender, race, or other factors-from their training data and further magnify these biases in their subsequent decision-making. Taken together, these various limitations have prevented AI systems such as automatic medical diagnosis or autonomous vehicles from being sufficiently trustworthy for wide deployment. The massive proliferation of AI across society will require radically new ideas to yield technology that will not sacrifice our productivity, our quality of life, or our values.
翻訳日:2021-05-14 11:05:46 公開日:2020-12-11
# (参考訳) マニフォールド学習を用いた行列補完のための深層学習手法 [全文訳有]

Deep Learning Approach for Matrix Completion Using Manifold Learning ( http://arxiv.org/abs/2012.06063v1 )

ライセンス: CC BY 4.0
Saeid Mehrdad, Mohammad Hossein Kahaei(参考訳) 行列の完成は、様々な研究分野に広く応用されているため、多くの注目を集め、研究されている。 既存の行列補完法は、データ行列のエントリ間の非線形(あるいは線形)関係のみを考慮し、線形(または非線形)関係を潜在的に無視する。 本稿では,線形モデルと非線形モデルを組み合わせたデータ行列のための新しい潜在変数モデルを提案し,データ行列のエントリ間の線形関係と非線形関係に対処する新しい深層ニューラルネットワークに基づく行列補完アルゴリズムを提案する。 提案手法は2つの分枝からなる。 第1のブランチは列の潜在表現を学び、隠れたニューラルネットワーク層を通じて部分的に観察された行列の列を再構築する。 2番目のブランチは行に対して同じことをします。 さらに、マルチタスク学習の原則に基づき、これら2つのブランチを連携させ、オーバーフィッティングを減らすための新しい正規化手法を導入する。 具体的には、欠落したデータのエントリをメインタスクとして回収し、補助タスクとして多様体学習を行う。 補助タスクは、ネットワークの重みを制約し、正規化要因と見なすことができ、メインタスクを改善し、過度な適合を減らす。 合成データと実世界データから得られた実験結果から,提案手法の有効性を最新行列補完法と比較して検証した。

Matrix completion has received vast amount of attention and research due to its wide applications in various study fields. Existing methods of matrix completion consider only nonlinear (or linear) relations among entries in a data matrix and ignore linear (or nonlinear) relationships latent. This paper introduces a new latent variables model for data matrix which is a combination of linear and nonlinear models and designs a novel deep-neural-network- based matrix completion algorithm to address both linear and nonlinear relations among entries of data matrix. The proposed method consists of two branches. The first branch learns the latent representations of columns and reconstructs the columns of the partially observed matrix through a series of hidden neural network layers. The second branch does the same for the rows. In addition, based on multi-task learning principles, we enforce these two branches work together and introduce a new regularization technique to reduce over-fitting. More specifically, the missing entries of data are recovered as a main task and manifold learning is performed as an auxiliary task. The auxiliary task constrains the weights of the network so it can be considered as a regularizer, improving the main task and reducing over-fitting. Experimental results obtained on the synthetic data and several real-world data verify the effectiveness of the proposed method compared with state-of-the-art matrix completion methods.
翻訳日:2021-05-14 11:00:48 公開日:2020-12-11
# (参考訳) レーザーデータに基づくインテリジェント車両用車線レベル道路地図の自動生成 [全文訳有]

Laser Data Based Automatic Generation of Lane-Level Road Map for Intelligent Vehicles ( http://arxiv.org/abs/2101.05066v1 )

ライセンス: CC BY 4.0
Zehai Yu, Hui Zhu, Linglong Lin, Huawei Liang, Biao Yu, Weixin Huang(参考訳) インテリジェントな車両システムの開発により、多くの面で高精度の道路地図が求められている。 自動車線抽出とモデリングは、正確な車線レベルの道路地図を生成する上で最も重要なステップである。 本稿では,車線レベル道路地図自動生成システムを提案する。 地上の道路マーキングを抽出するために,背景と道路マーキングのばらつきを最大化するレーザデータの強度値を算出するマルチリージョン大津しきい値法を適用した。 抽出された道路マーキングポイントはラスター画像に投影され、2段階クラスタリングアルゴリズムを用いてクラスタ化される。 その後、これらのクラスターから線が最小有界矩形の形状によって認識される。 地図の保存効率を確保するために,ベイズ推定法を用いて,レーン線を立方次多項式曲線に近似する。 提案したレーンレベルの道路地図生成システムは,中国河北省の都市部および高速道路の条件下で試験されている。 実験結果から,本手法は抽出およびクラスタリング効果に優れ,10cm未満の誤差で高い位置精度を達成できることが示唆された。

With the development of intelligent vehicle systems, a high-precision road map is increasingly needed in many aspects. The automatic lane lines extraction and modeling are the most essential steps for the generation of a precise lane-level road map. In this paper, an automatic lane-level road map generation system is proposed. To extract the road markings on the ground, the multi-region Otsu thresholding method is applied, which calculates the intensity value of laser data that maximizes the variance between background and road markings. The extracted road marking points are then projected to the raster image and clustered using a two-stage clustering algorithm. Lane lines are subsequently recognized from these clusters by the shape features of their minimum bounding rectangle. To ensure the storage efficiency of the map, the lane lines are approximated to cubic polynomial curves using a Bayesian estimation approach. The proposed lane-level road map generation system has been tested on urban and expressway conditions in Hefei, China. The experimental results on the datasets show that our method can achieve excellent extraction and clustering effect, and the fitted lines can reach a high position accuracy with an error of less than 10 cm
翻訳日:2021-05-14 10:44:16 公開日:2020-12-11
# (参考訳) Euler Particle Transportによる生成学習

Generative Learning With Euler Particle Transport ( http://arxiv.org/abs/2012.06094v1 )

ライセンス: CC BY 4.0
Yuan Gao, Jian Huang, Yuling Jiao, Jin Liu, Xiliang Lu and Zhijian Yang(参考訳) 生成学習のためのEuler Particle Transport (EPT) アプローチを提案する。 提案手法は,モンジュ・アンペア方程式を特徴とする目標分布に対する基準分布から最適輸送マップを求める問題に動機づけられる。 測度空間の勾配流の観点から、モンゲ・アンペア方程式の無限小線型化を解釈すると、確率的マッケイン・ブラソフ方程式が導かれる。 我々はこの方程式を解くためにフォワードオイラー法を用いる。 結果として生じる前方オイラー写像は、目標への参照分布を前進させる。 この写像は単純な剰余写像の列の合成であり、計算的に安定であり、訓練が容易である。 トレーニングにおける重要なタスクは、残留マップを決定する密度比や差を推定することである。 深部密度比(差分)フィッティングを用いた勾配ペナルティを伴うブレグマン分岐に基づいて密度比(差分)を推定する。 提案する密度比(差分)推定器は,データが低次元多様体上で支持されている場合,「次元の曲線」に支障を来さないことを示す。 多モード合成データセットを用いた数値実験と実ベンチマークデータセットにおける既存手法との比較により,提案手法の有効性が示された。

We propose an Euler particle transport (EPT) approach for generative learning. The proposed approach is motivated by the problem of finding an optimal transport map from a reference distribution to a target distribution characterized by the Monge-Ampere equation. Interpreting the infinitesimal linearization of the Monge-Ampere equation from the perspective of gradient flows in measure spaces leads to a stochastic McKean-Vlasov equation. We use the forward Euler method to solve this equation. The resulting forward Euler map pushes forward a reference distribution to the target. This map is the composition of a sequence of simple residual maps, which are computationally stable and easy to train. The key task in training is the estimation of the density ratios or differences that determine the residual maps. We estimate the density ratios (differences) based on the Bregman divergence with a gradient penalty using deep density-ratio (difference) fitting. We show that the proposed density-ratio (difference) estimators do not suffer from the "curse of dimensionality" if data is supported on a lower-dimensional manifold. Numerical experiments with multi-mode synthetic datasets and comparisons with the existing methods on real benchmark datasets support our theoretical results and demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-14 09:51:33 公開日:2020-12-11
# (参考訳) ペアビュー非教師なしグラフ表現学習 [全文訳有]

Pair-view Unsupervised Graph Representation Learning ( http://arxiv.org/abs/2012.06113v1 )

ライセンス: CC BY-SA 4.0
You Li, Binli Luo, Ning Gui(参考訳) 低次元グラフ埋め込みは、リンク関連コンテンツレコメンデーションやノード分類タスクなど、大きなグラフの様々な下流タスクで非常に有用であることが証明されている。 既存の埋め込みアプローチは、GNNのノード認識フィールドやランダムウォークのコンテクストノードなど、情報集約の基本的な単位としてノードを取り上げている。 このようなノードビューによって引き起こされた主な欠点は、ノード間の複合関係を表現するためのサポートの欠如である。 この目的のために、グラフ埋め込みのコアとして「ノード」よりも高いレベルの単位である「ペア」を使用するソリューションであるPairE(Pair Embedding)を提案する。 したがって、複数自己監督型オートエンコーダは、2つのプレテキストタスクを満たすように設計され、各ペアとその周辺状況の特徴分布を再構成する。 PairEには3つの大きな利点がある: 1) ノードビューを越えたインフォーマティブな埋め込みはグラフのよりリッチな情報を保存することができる; 2) シンプルに、PairEが提供するソリューションは時間節約であり、ストレージ効率が低く、ハイパーパラメータが少ない; 3) 導入したトランスレータ演算子を使ってノード埋め込みにペア埋め込みをマッピングする高い適応性、PairEはリンクベースとノードベースのグラフ解析の両方で効果的に使用できる。 実験の結果、PairEは4つの下流タスク、特にリンク予測およびマルチラベルノード分類タスクにおいて、ベースラインの状態を常に上回ることがわかった。

Low-dimension graph embeddings have proved extremely useful in various downstream tasks in large graphs, e.g., link-related content recommendation and node classification tasks, etc. Most existing embedding approaches take nodes as the basic unit for information aggregation, e.g., node perception fields in GNN or con-textual nodes in random walks. The main drawback raised by such node-view is its lack of support for expressing the compound relationships between nodes, which results in the loss of a certain degree of graph information during embedding. To this end, this paper pro-poses PairE(Pair Embedding), a solution to use "pair", a higher level unit than a "node" as the core for graph embeddings. Accordingly, a multi-self-supervise d auto-encoder is designed to fulfill two pretext tasks, to reconstruct the feature distribution for respective pairs and their surrounding context. PairE has three major advantages: 1) Informative, embedding beyond node-view are capable to preserve richer information of the graph; 2) Simple, the solutions provided by PairE are time-saving, storage-efficient, and require the fewer hyper-parameters; 3) High adaptability, with the introduced translator operator to map pair embeddings to the node embeddings, PairE can be effectively used in both the link-based and the node-based graph analysis. Experiment results show that PairE consistently outperforms the state of baselines in all four downstream tasks, especially with significant edges in the link-prediction and multi-label node classification tasks.
翻訳日:2021-05-14 09:50:16 公開日:2020-12-11
# (参考訳) DSRNA:ロバストニューラルネットワークの微分検索 [全文訳有]

DSRNA: Differentiable Search of Robust Neural Architectures ( http://arxiv.org/abs/2012.06122v1 )

ライセンス: CC BY 4.0
Ramtin Hosseini, Xingyi Yang and Pengtao Xie(参考訳) ディープラーニングアプリケーションでは、ディープニューラルネットワークのアーキテクチャは高い精度を達成するために不可欠である。 高性能なニューラルアーキテクチャを自動検索する多くの手法が提案されている。 しかし、これらの検索されたアーキテクチャは敵の攻撃を受けやすい。 入力データの小さな摂動はアーキテクチャをレンダリングして予測結果を大きく変えることができる。 そこで本研究では,ロバストなニューラルネットワークの可微分探索を行う手法を提案する。 本手法では,認定下界とヤコビノルム境界に基づいて,アーキテクチャのロバスト性を測定するために2つの微分可能なメトリクスを定義する。 次に、ロバスト性メトリクスを最大化することでロバストなアーキテクチャを探します。 アーキテクチャのロバスト性を暗黙の方法で改善することを目的とした従来のアプローチとは違って,ロバストなアーキテクチャを抽出するためのロバスト性メトリクスを明示的にかつ直接的に最大化する手法である。 CIFAR-10, ImageNet, MNISTでは,本手法のロバスト性に関するゲームベース評価と検証ベース評価を行う。 実験結果から,本手法はNASベースラインよりも各種のノルムバウンド攻撃に対して堅牢であること,攻撃がない場合のベースラインよりも精度が高いこと,および,ベースラインよりも高い認証下限を有することがわかった。

In deep learning applications, the architectures of deep neural networks are crucial in achieving high accuracy. Many methods have been proposed to search for high-performance neural architectures automatically. However, these searched architectures are prone to adversarial attacks. A small perturbation of the input data can render the architecture to change prediction outcomes significantly. To address this problem, we propose methods to perform differentiable search of robust neural architectures. In our methods, two differentiable metrics are defined to measure architectures' robustness, based on certified lower bound and Jacobian norm bound. Then we search for robust architectures by maximizing the robustness metrics. Different from previous approaches which aim to improve architectures' robustness in an implicit way: performing adversarial training and injecting random noise, our methods explicitly and directly maximize robustness metrics to harvest robust architectures. On CIFAR-10, ImageNet, and MNIST, we perform game-based evaluation and verification-based evaluation on the robustness of our methods. The experimental results show that our methods 1) are more robust to various norm-bound attacks than several robust NAS baselines; 2) are more accurate than baselines when there are no attacks; 3) have significantly higher certified lower bounds than baselines.
翻訳日:2021-05-14 09:39:24 公開日:2020-12-11
# (参考訳) 3次元畳み込みリカレントネットワークによる映像予測のためのログ状正規化KL分散 [全文訳有]

A Log-likelihood Regularized KL Divergence for Video Prediction with A 3D Convolutional Variational Recurrent Network ( http://arxiv.org/abs/2012.06123v1 )

ライセンス: CC BY 4.0
Haziq Razali and Basura Fernando(参考訳) 潜在変数モデルの使用は、シーケンス上の確率分布をモデル化する強力なツールであることが示されている。 本稿では,ビデオフレーム予測の課題に対して,リカレントネットワークを2つの方法で拡張する新しい変動モデルを提案する。 まず,リカレントモデルを含む全モジュールに3次元畳み込みを導入してフレーム予測を行い,各時間ステップでビデオフレームのシーケンスを入力・出力する。 これにより、変動反復モデル内の時空間情報をよりうまく活用し、高品質な予測を生成できる。 第2に,変分モデルで一般的に用いられるkl発散に加えて,最大確率推定を導入することにより,変分モデルの潜在損失を増大させる。 この単純な拡張は変分自己エンコーダ損失関数のより強力な正則化器として機能し、より良い結果と一般化性が得られる。 実験により,本モデルは,パラメータを少なくしながら,複数のベンチマークで既存の映像予測手法より優れていることが示された。

The use of latent variable models has shown to be a powerful tool for modeling probability distributions over sequences. In this paper, we introduce a new variational model that extends the recurrent network in two ways for the task of video frame prediction. First, we introduce 3D convolutions inside all modules including the recurrent model for future frame prediction, inputting and outputting a sequence of video frames at each timestep. This enables us to better exploit spatiotemporal information inside the variational recurrent model, allowing us to generate high-quality predictions. Second, we enhance the latent loss of the variational model by introducing a maximum likelihood estimate in addition to the KL divergence that is commonly used in variational models. This simple extension acts as a stronger regularizer in the variational autoencoder loss function and lets us obtain better results and generalizability. Experiments show that our model outperforms existing video prediction methods on several benchmarks while requiring fewer parameters.
翻訳日:2021-05-14 09:11:56 公開日:2020-12-11
# (参考訳) ダークフラッシュノーマルカメラ [全文訳有]

A Dark Flash Normal Camera ( http://arxiv.org/abs/2012.06125v1 )

ライセンス: CC BY 4.0
Zhihao Xia, Jason Lawrence, Supreeth Achar(参考訳) カジュアル撮影は、低画質の画像が得られ、下流処理の性能が低下する未制御照明でしばしば行われる。 近赤外光源(NIR)とカメラ(いわゆる「暗フラッシュ画像」)で可視光を補うことで、これらの条件にもかかわらず人物を映し出すシーンの表面の正常さと反射率マップを推定する問題を考察する。 本手法は、任意の可視光下で撮影した単一カラー画像と、制御されたフロントライトNIR照明下で撮影した単一ダークフラッシュ画像とを同一視点で入力し、通常の地図、拡散アルベドマップ、シーンの特異強度マップを演算する。 地上の真実の正規化と顔の反射率マップの取得が難しいため,ステレオ深度信号と測光シェーディングキューという2つの相補的情報源からの情報を組み合わせた,新しいトレーニング手法を提案する。 本手法は,様々な被写体や照明条件から評価し,ステレオ形状の最適化と影の充填という2つの応用例について述べる。

Casual photography is often performed in uncontrolled lighting that can result in low quality images and degrade the performance of downstream processing. We consider the problem of estimating surface normal and reflectance maps of scenes depicting people despite these conditions by supplementing the available visible illumination with a single near infrared (NIR) light source and camera, a so-called "dark flash image". Our method takes as input a single color image captured under arbitrary visible lighting and a single dark flash image captured under controlled front-lit NIR lighting at the same viewpoint, and computes a normal map, a diffuse albedo map, and a specular intensity map of the scene. Since ground truth normal and reflectance maps of faces are difficult to capture, we propose a novel training technique that combines information from two readily available and complementary sources: a stereo depth signal and photometric shading cues. We evaluate our method over a range of subjects and lighting conditions and describe two applications: optimizing stereo geometry and filling the shadows in an image.
翻訳日:2021-05-14 08:58:28 公開日:2020-12-11
# (参考訳) 医薬品設計におけるアンサンブル法の比較分析 [全文訳有]

A Comparative Analysis of the Ensemble Methods for Drug Design ( http://arxiv.org/abs/2012.07640v1 )

ライセンス: CC BY 4.0
Rifkat Davronova and Fatima Adilovab(参考訳) 定量的構造活性相関 (QSAR) は、化学化合物の構造特性と生物活性の関係を同定するコンピュータモデリング手法である。 薬物発見にはQSARモデリングが必要であるが、多くの制限がある。 アンサンブルベースの機械学習アプローチは、制限を克服し、信頼できる予測を生成するために使用されている。 アンサンブル学習は多様なモデルを作り、それらを組み合わせます。 比較分析では,各アンサンブルアルゴリズムと基本アルゴリズムのペアリングを行ったが,基本アルゴリズムも別々に検討した。 この構成では、57のアルゴリズムが開発され、4つの異なるデータセットで比較された。 そこで,多様なモデルを構築し,それらを統合する複雑なアンサンブル手法を提案する。 提案した個々のモデルは統合されたモデルとして印象的な結果を示さなかったが、組み合わせると最も重要な予測器とみなされた。 我々は、アンサンブルが必ずしも個々のアルゴリズムよりもよい結果を与えるかどうかを評価した。 この記事で実験結果を得るために書かれたPythonコードはGithubにアップロードされた(https://github.com/ rifqat/Comparative-A nalysis)。

Quantitative structure-activity relationship (QSAR) is a computer modeling technique for identifying relationships between the structural properties of chemical compounds and biological activity. QSAR modeling is necessary for drug discovery, but it has many limitations. Ensemble-based machine learning approaches have been used to overcome limitations and generate reliable predictions. Ensemble learning creates a set of diverse models and combines them. In our comparative analysis, each ensemble algorithm was paired with each of the basic algorithms, but the basic algorithms were also investigated separately. In this configuration, 57 algorithms were developed and compared on 4 different datasets. Thus, a technique for complex ensemble method is proposed that builds diversified models and integrates them. The proposed individual models did not show impressive results as a unified model, but it was considered the most important predictor when combined. We assessed whether ensembles always give better results than individual algorithms. The Python code written to get experimental results in this article has been uploaded to Github (https://github.com/ rifqat/Comparative-A nalysis).
翻訳日:2021-05-14 08:42:08 公開日:2020-12-11
# (参考訳) ParsiNLU:ペルシア語に対する言語理解の課題のスイート [全文訳有]

ParsiNLU: A Suite of Language Understanding Challenges for Persian ( http://arxiv.org/abs/2012.06154v1 )

ライセンス: CC BY 4.0
Daniel Khashabi, Arman Cohan, Siamak Shakeri, Pedram Hosseini, Pouya Pezeshkpour, Malihe Alikhani, Moin Aminnaseri, Marzieh Bitaab, Faeze Brahman, Sarik Ghazarian, Mozhdeh Gheini, Arman Kabiri, Rabeeh Karimi Mahabadi, Omid Memarrast, Ahmadreza Mosallanezhad, Erfan Noury, Shahab Raji, Mohammad Sadegh Rasooli, Sepideh Sadeghi, Erfan Sadeqi Azer, Niloofar Safi Samghabadi, Mahsa Shafaei, Saber Sheybani, Ali Tazarv, Yadollah Yaghoobzadeh(参考訳) 近年の自然言語理解(NLU)問題への取り組みの進展にもかかわらず、この進歩の大部分は英語のような資源に富む言語に集中している。 この研究は、世界で最も広く話されている言語の一つであるペルシア語に焦点を当てているが、このリッチ言語で利用可能なNLUデータセットは少ない。 高品質な評価データセットの可用性は、異なるNLUタスクやドメインの進捗を確実に評価するために必要である。 私たちはペルシャ語で最初のベンチマークであるParsiNLUを紹介します。 これらのデータセットは、多数の方法で収集され、しばしばネイティブスピーカーによる手動アノテーションを含む。 これにより、6つの異なるNLUタスクにわたる14.5$k以上の新規インスタンスが生成される。 さらに,このベンチマークでは,最先端のモノリンガルおよび多言語事前学習言語モデルの最初の結果を提示し,人間のパフォーマンスと比較し,ペルシャにおける自然言語理解の課題に取り組む能力に関する貴重な知見を提供する。 ParsiNLUがペルシア語理解のさらなる研究と進歩を後押しすることを願っている。

Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this rich language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of high-level tasks -- Reading Comprehension, Textual Entailment, etc. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5$k$ new instances across 6 distinct NLU tasks. Besides, we present the first results on state-of-the-art monolingual and multi-lingual pre-trained language-models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.
翻訳日:2021-05-14 08:34:50 公開日:2020-12-11
# (参考訳) Voxel Super-ResolutionとLearred Implicit Representationを組み合わせた多視点画像からの詳細な3次元人体再構成

Detailed 3D Human Body Reconstruction from Multi-view Images Combining Voxel Super-Resolution and Learned Implicit Representation ( http://arxiv.org/abs/2012.06178v1 )

ライセンス: CC BY 4.0
Zhongguo Li, Magnus Oskarsson, Anders Heyden(参考訳) 画像から詳細な3次元人体モデルを再構築する作業は興味深いが、人間の身体の自由度が高いコンピュータビジョンでは難しい。 この問題に対処するために,暗黙表現の学習に基づくボクセル超解像を組み合わせた多視点画像から詳細な3次元人体を再構築する粗大な手法を提案する。 まず,多視点画像から多段階の時間ガラスネットワークから抽出したマルチスケール特徴に基づいて暗黙の表現を学習することにより,粗い3次元モデルを推定する。 そして、粗い3dモデルによって生成された低解像度ボクセルグリッドを入力として、暗黙表現に基づくボクセル超解像を多段3d畳み込みニューラルネットワークを介して学習する。 最後に、洗練された精巧な3d人体モデルはvoxel super- resolutionによって作成することができ、細部を保存でき、粗い3dモデルの偽の再構築を低減できる。 暗黙的表現から見れば,本手法のトレーニングプロセスはメモリ効率が高く,多視点画像から得られた詳細な3次元人体は,高分解能幾何を用いた連続決定境界である。 また,voxelスーパーレゾリューションに基づく粗粒度法では,偽復元を除去し,最終レゾリューションの外観詳細を保存できる。 実験では,実データと合成データの両方に様々なポーズと形状を持つ画像から,定量的に定性的に3次元人体再構成を実現する。

The task of reconstructing detailed 3D human body models from images is interesting but challenging in computer vision due to the high freedom of human bodies. In order to tackle the problem, we propose a coarse-to-fine method to reconstruct a detailed 3D human body from multi-view images combining voxel super-resolution based on learning the implicit representation. Firstly, the coarse 3D models are estimated by learning an implicit representation based on multi-scale features which are extracted by multi-stage hourglass networks from the multi-view images. Then, taking the low resolution voxel grids which are generated by the coarse 3D models as input, the voxel super-resolution based on an implicit representation is learned through a multi-stage 3D convolutional neural network. Finally, the refined detailed 3D human body models can be produced by the voxel super-resolution which can preserve the details and reduce the false reconstruction of the coarse 3D models. Benefiting from the implicit representation, the training process in our method is memory efficient and the detailed 3D human body produced by our method from multi-view images is the continuous decision boundary with high-resolution geometry. In addition, the coarse-to-fine method based on voxel super-resolution can remove false reconstructions and preserve the appearance details in the final reconstruction, simultaneously. In the experiments, our method quantitatively and qualitatively achieves the competitive 3D human body reconstructions from images with various poses and shapes on both the real and synthetic datasets.
翻訳日:2021-05-14 07:20:17 公開日:2020-12-11
# (参考訳) メモリ拡張ニューラルネットワークを用いた衣服推薦 [全文訳有]

Garment Recommendation with Memory Augmented Neural Networks ( http://arxiv.org/abs/2012.06200v1 )

ライセンス: CC BY 4.0
Lavinia De Divitiis, Federico Becattini, Claudio Baecchi, Alberto Del Bimbo(参考訳) ファッションは社会において重要な役割を果たす。 服装を適切に組み合わせることは、人格や様式を伝える上で不可欠である。 また、社会的な服装規則に従うために、衣装を徹底的に選ぶ必要がある。 したがって、衣服を適切に組み合わせることは簡単ではない。 ファッション業界は、これを巨大な収入源にしており、顧客に適した衣服を検索し、提案するための複雑なレコメンデーションシステムに依存している。 より良い推奨を行うために、ユーザーの好みや購入履歴を考慮してパーソナライズされた提案を行うことができる。 本稿では,記憶拡張型ニューラルネットワーク(mann)を活用し,異なる衣料品(トップスとボトムス)をペアリングする衣料推奨システムを提案する。 メモリ書き込みコントローラをトレーニングすることで、サンプルの非冗長なサブセットを格納し、与えられたトップを補完するために適切なボトムのランクリストを取得することができる。 特に、特定の衣服を組み合わせることができる様々なモダリティを検索することを目的としている。 推奨を洗練させるために、Matrix Factorizationを通じてユーザの好みを含めます。 オンラインファッションコミュニティから収集したデータセット iqon3000 について実験を行い,その成果を報告する。

Fashion plays a pivotal role in society. Combining garments appropriately is essential for people to communicate their personality and style. Also different events require outfits to be thoroughly chosen to comply with underlying social clothing rules. Therefore, combining garments appropriately might not be trivial. The fashion industry has turned this into a massive source of income, relying on complex recommendation systems to retrieve and suggest appropriate clothing items for customers. To perform better recommendations, personalized suggestions can be performed, taking into account user preferences or purchase histories. In this paper, we propose a garment recommendation system to pair different clothing items, namely tops and bottoms, exploiting a Memory Augmented Neural Network (MANN). By training a memory writing controller, we are able to store a non-redundant subset of samples, which is then used to retrieve a ranked list of suitable bottoms to complement a given top. In particular, we aim at retrieving a variety of modalities in which a certain garment can be combined. To refine our recommendations, we then include user preferences via Matrix Factorization. We experiment on IQON3000, a dataset collected from an online fashion community, reporting state of the art results.
翻訳日:2021-05-11 13:58:38 公開日:2020-12-11
# (参考訳) $\pi$-ROAD: V2Xシナリオにおけるオンデマンド緊急スライスのための学習用フレームワーク [全文訳有]

$\pi$-ROAD: a Learn-as-You-Go Framework for On-Demand Emergency Slices in V2X Scenarios ( http://arxiv.org/abs/2012.06208v1 )

ライセンス: CC BY 4.0
Armin Okic, Lanfranco Zanzi, Vincenzo Sciancalepore, Alessandro Redondi, Xavier Costa-Perez(参考訳) vehicle-to-everythin g(v2x)は、近い将来、5gビジネスのメインドライバーの1つになるだろう。 自動運転など先進的なV2Xサービスの厳格な要件を満たすため、道路の被害を劇的に減らすことが想定されている。 しかし、v2xサービスがよりミッションクリティカルになるにつれて、例外的な状況でもサービスデリバリを成功させるための新しいソリューションが考案される必要がある。 交通事故、渋滞など この文脈では,道路沿いの通常の移動トラフィックパターンを自動的に学習し,非再帰事象を検出し,重大度で分類する,emph{deep learning}フレームワークである$\pi$-ROADを提案する。 $\pi$-ROADにより、オペレータは、サービス臨界度レベルに応じて既存のスライスを再分割しながら、必要に応じて専用の \emph{Emergency Network Slices (ENS) をインスタンス化できる。 本フレームワークは,欧州の高速道路の400〜kmで収集された実際の移動ネットワークトレースを用いて検証し,関連する道路イベントに関する情報を公開して拡張する。 その結果、$\pi$-ROADは未発生の道路イベントの検出と分類に成功し、すでに稼働しているサービスに対するENSの影響を最大30\%まで低減できることがわかった。

Vehicle-to-everythin g (V2X) is expected to become one of the main drivers of 5G business in the near future. Dedicated \emph{network slices} are envisioned to satisfy the stringent requirements of advanced V2X services, such as autonomous driving, aimed at drastically reducing road casualties. However, as V2X services become more mission-critical, new solutions need to be devised to guarantee their successful service delivery even in exceptional situations, e.g. road accidents, congestion, etc. In this context, we propose $\pi$-ROAD, a \emph{deep learning} framework to automatically learn regular mobile traffic patterns along roads, detect non-recurring events and classify them by severity level. $\pi$-ROAD enables operators to \emph{proactively} instantiate dedicated \emph{Emergency Network Slices (ENS)} as needed while re-dimensioning the existing slices according to their service criticality level. Our framework is validated by means of real mobile network traces collected within $400~km$ of a highway in Europe and augmented with publicly available information on related road events. Our results show that $\pi$-ROAD successfully detects and classifies non-recurring road events and reduces up to $30\%$ the impact of ENS on already running services.
翻訳日:2021-05-11 13:48:46 公開日:2020-12-11
# (参考訳) Commonsenseの知識によるゼロショット学習ベースラインの改善 [全文訳有]

Improving Zero Shot Learning Baselines with Commonsense Knowledge ( http://arxiv.org/abs/2012.06236v1 )

ライセンス: CC BY 4.0
Abhinaba Roy, Deepanway Ghosal, Erik Cambria, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) ゼロショットラーニング(ゼロショットラーニング) – 完全に不連続なクラスのトレーニングとテストの問題は、その知識を列車クラスからテストクラスに転送する能力に大きく依存している。 伝統的に、人間の定義属性(HA)または分散単語埋め込み(DWE)から構成されるセマンティック埋め込みは、視覚的およびセマンティック埋め込みの関連性を改善することで、この伝達を促進するために用いられる。 本稿では,共通意味知識グラフであるconceptnetで定義されたノード間の明示的な関係を利用して,グラフ畳み込みネットワークベースのオートエンコーダを用いてクラスラベルの共通意味埋め込みを生成する。 3つの標準ベンチマークデータセットで実施した実験は、既存のセマンティックな埋め込みとコモンセンスの埋め込みを融合させたときに、強いベースラインを超えた。 HAとDWE。

Zero shot learning -- the problem of training and testing on a completely disjoint set of classes -- relies greatly on its ability to transfer knowledge from train classes to test classes. Traditionally semantic embeddings consisting of human defined attributes (HA) or distributed word embeddings (DWE) are used to facilitate this transfer by improving the association between visual and semantic embeddings. In this paper, we take advantage of explicit relations between nodes defined in ConceptNet, a commonsense knowledge graph, to generate commonsense embeddings of the class labels by using a graph convolution network-based autoencoder. Our experiments performed on three standard benchmark datasets surpass the strong baselines when we fuse our commonsense embeddings with existing semantic embeddings i.e. HA and DWE.
翻訳日:2021-05-11 13:23:59 公開日:2020-12-11
# (参考訳) 自然言語エンタープライズ検索のためのクエリ理解

Query Understanding for Natural Language Enterprise Search ( http://arxiv.org/abs/2012.06238v1 )

ライセンス: CC BY 4.0
Francisco Borges, Georgios Balikas, Marc Brette, Guillaume Kempf, Arvind Srikantan, Matthieu Landos, Darya Brazouskaya, Qianqian Shi(参考訳) Natural Language Search (NLS)は、キーワード検索を行う検索エンジンの機能を拡張し、ユーザーがより自然な言語でクエリを発行できるようにする。 エンジンはクエリの意味を理解し、Persons、Organizations、Time Expressionsなどをサポートするシンボルにクエリワードをマップしようとします。 そして、答えやレコード、レコードのリストなど、ユーザのニーズを満たすさまざまな形式で情報を取得する。 我々は,主要なCRMプラットフォームの検索サービスの一部として実装したNLSシステムを提案する。 システムは現在、何千もの顧客にサービスを提供している。 ユーザ調査の結果,NLSで動的レポートを作成することで,ナビゲーション検索で同じ結果が得られるのに対して,ユーザの50%以上を節約できた。 我々は、システムのアーキテクチャ、crmドメインの特異性、そしてそれらが設計決定にどのように影響したかを説明します。 システムのいくつかのサブモジュールの中で、Deep Learning Named Entity Recognizerの役割を詳述する。 この記事は、この製品の開発中に学んだ教訓に関する議論で締めくくっている。

Natural Language Search (NLS) extends the capabilities of search engines that perform keyword search allowing users to issue queries in a more "natural" language. The engine tries to understand the meaning of the queries and to map the query words to the symbols it supports like Persons, Organizations, Time Expressions etc.. It, then, retrieves the information that satisfies the user's need in different forms like an answer, a record or a list of records. We present an NLS system we implemented as part of the Search service of a major CRM platform. The system is currently in production serving thousands of customers. Our user studies showed that creating dynamic reports with NLS saved more than 50% of our user's time compared to achieving the same result with navigational search. We describe the architecture of the system, the particularities of the CRM domain as well as how they have influenced our design decisions. Among several submodules of the system we detail the role of a Deep Learning Named Entity Recognizer. The paper concludes with discussion over the lessons learned while developing this product.
翻訳日:2021-05-11 13:10:44 公開日:2020-12-11
# (参考訳) 均質ニューラルネットワークにおける適応最適化アルゴリズムのインプシットバイアス

The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous Neural Networks ( http://arxiv.org/abs/2012.06244v1 )

ライセンス: CC BY 4.0
Bohan Wang, Qi Meng, Wei Chen(参考訳) 過剰に適合する能力は圧倒的だが、特定の最適化アルゴリズムによって訓練されたディープニューラルネットワークは、見当たらないデータに対して比較的よく一般化する傾向がある。 最近、研究者は最適化アルゴリズムの暗黙のバイアスについて研究している。 顕著な進歩は、勾配降下(GD)が均一な深層ニューラルネットワークのマージンを最大化することを示す研究[18]である。 GDのような一階最適化アルゴリズムを除いて、AdaGrad、RMSProp、Adamといった適応アルゴリズムは、その迅速なトレーニングプロセスのために人気がある。 一方、多くの作品が適応法が一般化性能の低下に苦しむという実証的な証拠を提供している。 しかし、適応最適化アルゴリズムの一般化に関する理論的説明はまだ欠けている。 本稿では,同次ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。 特に,ロジスティック損失を最適化する場合のパラメータの収束方向について検討する。 我々は RMSProp の収束方向が GD と同じであることを証明するが、AdaGrad の場合、収束方向は適応条件に依存する。 技術的には, 適応最適化アルゴリズムの収束方向を, 新規かつ非自明な適応勾配流とサーロゲートマージンを構築して解析するための統一的枠組みを提供する。 RMSPropとAdamが採用した指数移動平均戦略の一般化における優位性を説明する。 知る限りでは、非線形ディープニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。

Despite their overwhelming capacity to overfit, deep neural networks trained by specific optimization algorithms tend to generalize relatively well to unseen data. Recently, researchers explained it by investigating the implicit bias of optimization algorithms. A remarkable progress is the work [18], which proves gradient descent (GD) maximizes the margin of homogeneous deep neural networks. Except the first-order optimization algorithms like GD, adaptive algorithms such as AdaGrad, RMSProp and Adam are popular owing to its rapid training process. Meanwhile, numerous works have provided empirical evidence that adaptive methods may suffer from poor generalization performance. However, theoretical explanation for the generalization of adaptive optimization algorithms is still lacking. In this paper, we study the implicit bias of adaptive optimization algorithms on homogeneous neural networks. In particular, we study the convergent direction of parameters when they are optimizing the logistic loss. We prove that the convergent direction of RMSProp is the same with GD, while for AdaGrad, the convergent direction depends on the adaptive conditioner. Technically, we provide a unified framework to analyze convergent direction of adaptive optimization algorithms by constructing novel and nontrivial adaptive gradient flow and surrogate margin. The theoretical findings explain the superiority on generalization of exponential moving average strategy that is adopted by RMSProp and Adam. To the best of knowledge, it is the first work to study the convergent direction of adaptive optimizations on non-linear deep neural networks
翻訳日:2021-05-11 13:09:57 公開日:2020-12-11
# (参考訳) トピックモデル評価のためのトピックカバレッジアプローチ

A Topic Coverage Approach to Evaluation of Topic Models ( http://arxiv.org/abs/2012.06274v1 )

ライセンス: CC BY-SA 4.0
Damir Koren\v{c}i\'c (1), Strahil Ristov (1), Jelena Repar (1), Jan \v{S}najder (2) ((1) Rudjer Bo\v{s}kovi\'c Institute, Croatia, (2) University of Zagreb, Faculty of Electrical Engineering and Computing, Croatia)(参考訳) トピックモデルがテキストコレクション内のトピックの発見に使用されるとき、自然に生じる疑問は、モデルによって引き起こされるトピックがアナリストにとって関心のあるトピックにどの程度適合しているかである。 本研究では,トピックカバレッジの測定に基づくトピックモデル評価のアプローチを調査し,モデルトピックと参照トピックのマッチングに基づくカバレッジ尺度を提案する。 本研究は,2つの異なるテキスト領域上で,異なるタイプのトピックモデルを評価することによって,アプローチの利点を実証する。 実験には、モデル品質の評価、異なるトピックカテゴリのカバレッジの分析、カバレッジと他のトピックモデル評価方法との関係が含まれる。 本論文のコントリビューションには,トピック発見のためのトピックモデルの利用に関する,カバレッジの尺度と推奨事項が含まれている。

When topic models are used for discovery of topics in text collections, a question that arises naturally is how well the model-induced topics correspond to topics of interest to the analyst. We investigate an approach to topic model evaluation based on measuring topic coverage, and propose measures of coverage based on matching between model topics and reference topics. We demonstrate the benefits of the approach by evaluating, in a series of experiments, different types of topic models on two distinct text domains. The experiments include evaluation of model quality, analysis of coverage of distinct topic categories, and the relation between coverage and other topic model evaluation methods. The contributions of the paper include the measures of coverage and the recommendations for the use of topic models for topic discovery.
翻訳日:2021-05-11 13:07:32 公開日:2020-12-11
# (参考訳) Constrained ConvNetを用いたセンサパターンノイズからの映像カメラの同定 [全文訳有]

Video Camera Identification from Sensor Pattern Noise with a Constrained ConvNet ( http://arxiv.org/abs/2012.06277v1 )

ライセンス: CC BY 4.0
Derrick Timmerman, Swaroop Bennabhaktula, Enrique Alegre and George Azzopardi(参考訳) ビデオからのソースカメラの識別は、非常に関連性の高い鑑識分析のトピックであるが、画像を使用するそれよりもはるかに研究されていない。 本研究では,ビデオフレームから抽出したカメラ固有のノイズパターンに基づいて,映像のソースカメラを特定する手法を提案する。 ノイズパターンの特徴を抽出するために,色入力を処理可能な制約付き畳み込み層の拡張版を提案する。 本システムは,映像フレームを個別に分類し,多数決によりソースカメラの識別を行うように設計されている。 提案手法は,28台のカメラから1539本の動画を収録したベンチマークVISIONデータセットを用いて評価した。 私たちの知る限りでは、これはデバイスレベルでビデオカメラの識別の課題に対処する最初の仕事です。 実験によると、我々のアプローチは非常に有望であり、WhatsAppやYouTubeの圧縮技術に頑丈でありながら、93.1%の精度を実現している。 この研究はEUが支援する4NSEEKプロジェクトの一部であり、児童性的虐待に対する法医学に焦点を当てている。

The identification of source cameras from videos, though it is a highly relevant forensic analysis topic, has been studied much less than its counterpart that uses images. In this work we propose a method to identify the source camera of a video based on camera specific noise patterns that we extract from video frames. For the extraction of noise pattern features, we propose an extended version of a constrained convolutional layer capable of processing color inputs. Our system is designed to classify individual video frames which are in turn combined by a majority vote to identify the source camera. We evaluated this approach on the benchmark VISION data set consisting of 1539 videos from 28 different cameras. To the best of our knowledge, this is the first work that addresses the challenge of video camera identification on a device level. The experiments show that our approach is very promising, achieving up to 93.1% accuracy while being robust to the WhatsApp and YouTube compression techniques. This work is part of the EU-funded project 4NSEEK focused on forensics against child sexual abuse.
翻訳日:2021-05-11 13:06:38 公開日:2020-12-11
# (参考訳) エルマイト系列推定器を用いた非パラメトリック相関の逐次推定

Sequential Estimation of Nonparametric Correlation using Hermite Series Estimators ( http://arxiv.org/abs/2012.06287v1 )

ライセンス: CC BY 4.0
Michael Stephanou and Melvin Varughese(参考訳) 本稿では,スピアマンのランク相関係数に対する新たなエルミート系列に基づく逐次推定法について述べるとともに,定常と非定常の両方に適用可能なアルゴリズムを提案する。 本研究では,2変数データストリームの局所的非パラメトリック相関を追跡可能な,スピアマンのランク相関に対する指数関数的に重み付けされた新しい推定器を提案する。 我々の知る限りでは、このアルゴリズムは移動窓のアプローチに依存しない時間変化スピアマンのランク相関を推定するために提案された最初のアルゴリズムである。 本研究は,実データと実効性を示すシミュレーション研究を通して,エルマイト系推定器の実用性について検討する。 特にシミュレーション研究は、既存のアルゴリズムと比較して競合性能を示す。 この研究の潜在的な応用は多様体である。 エルミート級数に基づくスピアマンのランク相関推定器は、時間とともに変化する可能性のある相関の高速で堅牢なオンライン計算に適用できる。 機械学習アプリケーションには、高速な機能選択や大規模データセットの階層的クラスタリングなどが含まれる。

In this article we describe a new Hermite series based sequential estimator for the Spearman's rank correlation coefficient and provide algorithms applicable in both the stationary and non-stationary settings. To treat the non-stationary setting, we introduce a novel, exponentially weighted estimator for the Spearman's rank correlation, which allows the local nonparametric correlation of a bivariate data stream to be tracked. To the best of our knowledge this is the first algorithm to be proposed for estimating a time-varying Spearman's rank correlation that does not rely on a moving window approach. We explore the practical effectiveness of the Hermite series based estimators through real data and simulation studies demonstrating good practical performance. The simulation studies in particular reveal competitive performance compared to an existing algorithm. The potential applications of this work are manifold. The Hermite series based Spearman's rank correlation estimator can be applied to fast and robust online calculation of correlation which may vary over time. Possible machine learning applications include, amongst others, fast feature selection and hierarchical clustering on massive data sets.
翻訳日:2021-05-11 12:56:21 公開日:2020-12-11
# (参考訳) 独立ランダム射影によるモノのインターネットのための軽量プライバシー保全協調学習について

On Lightweight Privacy-Preserving Collaborative Learning for Internet of Things by Independent Random Projections ( http://arxiv.org/abs/2012.07626v1 )

ライセンス: CC0 1.0
Linshan Jiang, Rui Tan, Xin Lou, Guosheng Lin(参考訳) IoT(Internet of Things)は,より優れたシステムインテリジェンスを実現するための,主要なデータ生成インフラストラクチャになります。 本稿では,多くのIoTオブジェクトが提供したデータに基づいて,学習コーディネータがより優れた機械学習モデルをトレーニングし,トレーニングデータの生形態の機密性をコーディネータに対して保護する,実用的なプライバシー保護協調学習スキームの設計と実装について考察する。 既存の分散機械学習とデータ暗号化アプローチでは、計算と通信のオーバーヘッドが大きくなり、リソース制約のあるIoTオブジェクトには適さない。 我々は、各IoTオブジェクトに対して独立したランダムプロジェクションを適用してデータを難読化し、IoTオブジェクトからの予測データに基づいて、コーディネータでディープニューラルネットワークをトレーニングするアプローチを研究する。 このアプローチでは、IoTオブジェクトに光計算オーバーヘッドを導入し、ほとんどのワークロードを十分な計算リソースを持つコーディネータに移行する。 IoTオブジェクトによって実行される独立したプロジェクションは、好奇心の強いコーディネータといくつかの妥協したIoTオブジェクトとの潜在的な衝突に対処するが、予測されたデータの複雑さを大幅に増加させる。 本稿では,高度なパターンを捉え,優れた学習性能を維持するために,ディープラーニングの優れた学習能力を活用する。 広範な比較評価により、このアプローチは、データパターンの複雑さを軽視するアプリケーションで学習するための差分プライバシおよび/またはサポートベクターマシンに付加ノイズを適用する他の軽量アプローチよりも優れていることが示されている。

The Internet of Things (IoT) will be a main data generation infrastructure for achieving better system intelligence. This paper considers the design and implementation of a practical privacy-preserving collaborative learning scheme, in which a curious learning coordinator trains a better machine learning model based on the data samples contributed by a number of IoT objects, while the confidentiality of the raw forms of the training data is protected against the coordinator. Existing distributed machine learning and data encryption approaches incur significant computation and communication overhead, rendering them ill-suited for resource-constrained IoT objects. We study an approach that applies independent random projection at each IoT object to obfuscate data and trains a deep neural network at the coordinator based on the projected data from the IoT objects. This approach introduces light computation overhead to the IoT objects and moves most workload to the coordinator that can have sufficient computing resources. Although the independent projections performed by the IoT objects address the potential collusion between the curious coordinator and some compromised IoT objects, they significantly increase the complexity of the projected data. In this paper, we leverage the superior learning capability of deep learning in capturing sophisticated patterns to maintain good learning performance. The extensive comparative evaluation shows that this approach outperforms other lightweight approaches that apply additive noisification for differential privacy and/or support vector machines for learning in the applications with light to moderate data pattern complexities.
翻訳日:2021-05-11 12:55:26 公開日:2020-12-11
# (参考訳) ADD: ストックトレンド予測を改善するための拡張ディスタングル蒸留フレームワーク [全文訳有]

ADD: Augmented Disentanglement Distillation Framework for Improving Stock Trend Forecasting ( http://arxiv.org/abs/2012.06289v1 )

ライセンス: CC BY 4.0
Hongshun Tang, Lijun Wu, Weiqing Liu, Jiang Bian(参考訳) 株価トレンド予測は、金融分野で広く注目を集める研究方向として人気がある。 ディープラーニングの手法は有望な成果を上げていますが、生のストックデータからクリーンな機能を抽出する方法など、まだ多くの制限があります。 本稿では,ノイズ付き生データから干渉特性を除去する<emph{Augmented Disentanglement Distillation (ADD) アプローチを提案する。 具体的には,1)ストックデータから余剰情報と市場情報を分離して,相互の予測を乱す2つの要因を回避するための絡み合い構造を提案する。 また, 2) 動的自己蒸留法を適用して, 他の暗黙的干渉因子を除去することができる。 さらに,本フレームワークのデコーダモジュールのおかげで,異なる余剰および市場特性に基づいてトレーニングサンプルを増強し,性能を向上させる新たな戦略が提案されている。 我々は中国株式市場のデータで実験を行う。 その結果,提案手法は,バックテストによる実際の投資所得だけでなく,株価トレンド予測性能を著しく改善し,アプローチの有効性を強く示している。

Stock trend forecasting has become a popular research direction that attracts widespread attention in the financial field. Though deep learning methods have achieved promising results, there are still many limitations, for example, how to extract clean features from the raw stock data. In this paper, we introduce an \emph{Augmented Disentanglement Distillation (ADD)} approach to remove interferential features from the noised raw data. Specifically, we present 1) a disentanglement structure to separate excess and market information from the stock data to avoid the two factors disturbing each other's own prediction. Besides, by applying 2) a dynamic self-distillation method over the disentanglement framework, other implicit interference factors can also be removed. Further, thanks to the decoder module in our framework, 3) a novel strategy is proposed to augment the training samples based on the different excess and market features to improve performance. We conduct experiments on the Chinese stock market data. Results show that our method significantly improves the stock trend forecasting performances, as well as the actual investment income through backtesting, which strongly demonstrates the effectiveness of our approach.
翻訳日:2021-05-11 12:54:05 公開日:2020-12-11
# (参考訳) システム同定におけるOccam's Razorの超越 - モデリングダイナミクスにおけるダブルディフレッシュ [全文訳有]

Beyond Occam's Razor in System Identification: Double-Descent when Modeling Dynamics ( http://arxiv.org/abs/2012.06341v1 )

ライセンス: CC BY 4.0
Ant\^onio H. Ribeiro, Johannes N. Hendriks, Adrian G. Wills, Thomas B. Sch\"on(参考訳) システム識別は、データから動的システムのモデルを構築することを目的としている。 モデルは、システムのダイナミクスを捉えるのに十分リッチでなければならないが、データセットから急激なランダムな影響を学ぶほど柔軟ではない。 モデル検証性能はモデル複雑性が増加するにつれてU字型曲線に従うことが典型的である。 しかし、機械学習と統計学の最近の進展は、このu字型モデルパフォーマンス曲線を「二重線」曲線が乗じる状況が観察されている。 モデルが補間能力—————(ほぼ)完璧に適合する——を補間する能力に到達した時点を超えて、パフォーマンスが2番目に低下する。 しかし、我々の知る限りでは、そのような現象は動的システムの同定という文脈では研究されていない。 本稿では,動的システムのパラメータを推定する際にも,そのような現象が観測できるのか? 人工的に生成されたデータセットと実世界のデータセットの両方に対して実験的にこのような振る舞いを検証する。

System identification aims to build models of dynamical systems from data. Traditionally, choosing the model requires the designer to balance between two goals of conflicting nature; the model must be rich enough to capture the system dynamics, but not so flexible that it learns spurious random effects from the dataset. It is typically observed that model validation performance follows a U-shaped curve as the model complexity increases. Recent developments in machine learning and statistics, however, have observed situations where a "double-descent" curve subsumes this U-shaped model-performance curve. With a second decrease in performance occurring beyond the point where the model has reached the capacity of interpolating - i.e., (near) perfectly fitting - the training data. To the best of our knowledge, however, such phenomena have not been studied within the context of the identification of dynamic systems. The present paper aims to answer the question: "Can such a phenomenon also be observed when estimating parameters of dynamic systems?" We show the answer is yes, verifying such behavior experimentally both for artificially generated and real-world datasets.
翻訳日:2021-05-11 12:15:55 公開日:2020-12-11
# (参考訳) 双眼視のサイクロピー幾何学 [全文訳有]

Cyclopean Geometry of Binocular Vision ( http://arxiv.org/abs/2012.06363v1 )

ライセンス: CC BY 4.0
Miles Hansard and Radu Horaud(参考訳) 双眼射影の幾何学は、霊長類視覚系を参照して解析される。 特に網膜画像に対する協調眼球運動の影響について検討した。 適切なOculomotorパラメータ化が定義され、古典的なバージョンと頂点角を補完するように示される。 中間線ホロプターが同定され、その後システムのエピポーラ形状を構築するのに使用される。 エピポールと中間線ホロープターの投影を組み合わせることで本質マトリックスが得られることを示した。 固定点を含む平面に対して深さを測定するシーンの局所モデルを採用する。 両眼差場は対称パラメータ化が与えられ、未知のシーン深度が対応する画像特徴の位置を決定する。 結果のサイクロピア深度マップは推定されたオキュロモータパラメータと組み合わせて、シーンの局所的な表現を生成することができる。 網膜画像からの視覚方向と奥行きの回復について, 関連する精神物理学的, 神経生理学的文献から考察した。

The geometry of binocular projection is analyzed, with reference to the primate visual system. In particular, the effects of coordinated eye movements on the retinal images are investigated. An appropriate oculomotor parameterization is defined, and is shown to complement the classical version and vergence angles. The midline horopter is identified, and subsequently used to construct the epipolar geometry of the system. It is shown that the Essential matrix can be obtained by combining the epipoles with the projection of the midline horopter. A local model of the scene is adopted, in which depth is measured relative to a plane containing the fixation point. The binocular disparity field is given a symmetric parameterization, in which the unknown scene-depths determine the location of corresponding image-features. The resulting Cyclopean depth-map can be combined with the estimated oculomotor parameters, to produce a local representation of the scene. The recovery of visual direction and depth from retinal images is discussed, with reference to the relevant psychophysical and neurophysiological literature.
翻訳日:2021-05-11 08:01:25 公開日:2020-12-11
# (参考訳) 群間隔を用いたデータからの物理的に一貫した数学的モデル学習 [全文訳有]

Learning physically consistent mathematical models from data using group sparsity ( http://arxiv.org/abs/2012.06391v1 )

ライセンス: CC BY 4.0
Suryanarayana Maddu, Bevan L. Cheeseman, Christian L. M\"uller, Ivo F. Sbalzarini(参考訳) 本研究では,(1)保存則の施行,2)モデル等価性の確保,3)測定データから微分方程式モデルを学習または推論する場合の対称性の保証に使用可能な群疎回帰に基づく統計的学習フレームワークを提案する。 データから直接$\textit{interpretable}$ 数学的モデルを学ぶことは、貴重なモデリングアプローチとして現れました。 しかし、生物学、高騒音レベル、センサーによる相関、強いシステム間変動といった分野では、モデル構造に追加の制約を加えることなく、データ駆動モデルや物理的に一貫性のないモデルをレンダリングすることができる。 したがって、物理原則から$\textit{prior}$の知識を活用して、単にデータに最適なモデルではなく、"生物学的に妥当で物理的に一貫性のある"モデルを学ぶことが重要です。 本稿では, パラメータ調整を最小限に抑え, 物理的に一貫したモデルを推算するために, 安定選択を用いた新しい群Iterative Hard Thresholding (gIHT) アルゴリズムを提案する。 データ駆動モデリングにおける$\textit{priors}$の利点を示すシステム生物学からのいくつかの応用例を示す。

We propose a statistical learning framework based on group-sparse regression that can be used to 1) enforce conservation laws, 2) ensure model equivalence, and 3) guarantee symmetries when learning or inferring differential-equatio n models from measurement data. Directly learning $\textit{interpretable}$ mathematical models from data has emerged as a valuable modeling approach. However, in areas like biology, high noise levels, sensor-induced correlations, and strong inter-system variability can render data-driven models nonsensical or physically inconsistent without additional constraints on the model structure. Hence, it is important to leverage $\textit{prior}$ knowledge from physical principles to learn "biologically plausible and physically consistent" models rather than models that simply fit the data best. We present a novel group Iterative Hard Thresholding (gIHT) algorithm and use stability selection to infer physically consistent models with minimal parameter tuning. We show several applications from systems biology that demonstrate the benefits of enforcing $\textit{priors}$ in data-driven modeling.
翻訳日:2021-05-11 07:35:08 公開日:2020-12-11
# (参考訳) ニューラルアーキテクチャ探索のための微分進化 [全文訳有]

Differential Evolution for Neural Architecture Search ( http://arxiv.org/abs/2012.06400v1 )

ライセンス: CC BY 4.0
Noor Awad, Neeratyoy Mallik, Frank Hutter(参考訳) ニューラルアーキテクチャサーチ(NAS)手法は、次にどのアーキテクチャを評価するかを決定する検索戦略と、パフォーマンスを評価するパフォーマンス評価戦略(例えば、フル評価、マルチフィデリティ評価、ワンショットモデル)に依存している。 本稿では,検索戦略に焦点をあてる。 我々はNASコミュニティに差分進化の単純かつ強力な進化アルゴリズムを導入する。 その結果,NAS-Bench-101,NAS-B ench-1Shot1,NAS-Benc h-201,NAS-HPOをベースとした13個のNASベンチマークにおいて,この探索戦略を正規化進化とベイズ最適化と総合的に比較し,より堅牢な結果が得られることを示した。

Neural architecture search (NAS) methods rely on a search strategy for deciding which architectures to evaluate next and a performance estimation strategy for assessing their performance (e.g., using full evaluations, multi-fidelity evaluations, or the one-shot model). In this paper, we focus on the search strategy. We introduce the simple yet powerful evolutionary algorithm of differential evolution to the NAS community. Using the simplest performance evaluation strategy of full evaluations, we comprehensively compare this search strategy to regularized evolution and Bayesian optimization and demonstrate that it yields improved and more robust results for 13 tabular NAS benchmarks based on NAS-Bench-101, NAS-Bench-1Shot1, NAS-Bench-201 and NAS-HPO bench.
翻訳日:2021-05-11 07:12:49 公開日:2020-12-11
# (参考訳) 深部畳み込みニューラルネットワークを用いた模倣型アクティブカメラ制御 [全文訳有]

Imitation-Based Active Camera Control with Deep Convolutional Neural Network ( http://arxiv.org/abs/2012.06428v1 )

ライセンス: CC BY 4.0
Christos Kyrkou(参考訳) スマートカメラ監視、トラフィック監視、インテリジェント環境などのアプリケーションに対する自動的な視覚監視と制御の必要性が高まっているため、視覚的アクティブ監視のための方法の改善が必要である。 従来、アクティブな監視タスクは、検出、フィルタリング、制御などのモジュールのパイプラインを通じて処理されていた。 本稿では, コンピュータビジョンと制御を組み合わせることで, 視覚情報からカメラの動きまで, 教師ありで解決すべき模倣学習問題として, アクティブな視覚モニタリングを枠組し, コンピュータビジョンと制御を組み合わせることで, 満足のいくソリューションを提供する。 ディープ畳み込みニューラルネットワークは、カメラを複数のターゲットに追従するために必要な処理パイプライン全体を学び、その密度を単一のイメージから推定するカメラコントローラとしてエンドツーエンドに訓練される。 実験結果から,提案手法は各種条件に対して堅牢であり,監視対象数,監視時間ともに従来の手法よりも優れた監視性能を達成でき,最大25FPSに達することが示唆された。 これにより、監視およびスマート環境アプリケーションにおけるマルチターゲットアクティブモニタリングのための実用的で安価なソリューションとなる。

The increasing need for automated visual monitoring and control for applications such as smart camera surveillance, traffic monitoring, and intelligent environments, necessitates the improvement of methods for visual active monitoring. Traditionally, the active monitoring task has been handled through a pipeline of modules such as detection, filtering, and control. In this paper we frame active visual monitoring as an imitation learning problem to be solved in a supervised manner using deep learning, to go directly from visual information to camera movement in order to provide a satisfactory solution by combining computer vision and control. A deep convolutional neural network is trained end-to-end as the camera controller that learns the entire processing pipeline needed to control a camera to follow multiple targets and also estimate their density from a single image. Experimental results indicate that the proposed solution is robust to varying conditions and is able to achieve better monitoring performance both in terms of number of targets monitored as well as in monitoring time than traditional approaches, while reaching up to 25 FPS. Thus making it a practical and affordable solution for multi-target active monitoring in surveillance and smart-environment applications.
翻訳日:2021-05-11 07:04:30 公開日:2020-12-11
# (参考訳) 類似北欧語を区別する [全文訳有]

Discriminating Between Similar Nordic Languages ( http://arxiv.org/abs/2012.06431v1 )

ライセンス: CC BY 4.0
Ren\'e Haas, Leon Derczynski(参考訳) 言語の自動識別は難しい問題である。 近縁な言語間の区別は特に困難である。 本論文では,既存の最先端ツールで誤分類されることが多い北欧語の自動言語識別のための機械学習手法を提案する。 具体的には、デンマーク語、スウェーデン語、ノルウェー語(nynorsk)、ノルウェー語(bokm{\aa}l)、フェロー語、アイスランド語という6つの北欧語の区別に焦点を当てる。

Automatic language identification is a challenging problem. Discriminating between closely related languages is especially difficult. This paper presents a machine learning approach for automatic language identification for the Nordic languages, which often suffer miscategorisation by existing state-of-the-art tools. Concretely we will focus on discrimination between six Nordic languages: Danish, Swedish, Norwegian (Nynorsk), Norwegian (Bokm{\aa}l), Faroese and Icelandic.
翻訳日:2021-05-11 06:54:20 公開日:2020-12-11
# (参考訳) 自己教師付きシャムオートエンコーダによる野生画像のリライト [全文訳有]

Relighting Images in the Wild with a Self-Supervised Siamese Auto-Encoder ( http://arxiv.org/abs/2012.06444v1 )

ライセンス: CC BY 4.0
Yang Liu, Alexandros Neophytou, Sunando Sengupta, Eric Sommerlade(参考訳) 本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。 この方法は、シーン照明と内容に関する2つの別々のエンコーディングに画像を分解するオートエンコーダに基づいている。 この埋め込み情報を監視せずに切り離すために、いくつかの拡張操作は画像内容に影響を与えず、光方向のみに影響を及ぼすと仮定する。 球面調和損失(spherical harmonic loss)と呼ばれる新しい損失関数が導入され、照明を埋め込んで球面調和ベクトルに変換する。 youtube 8mやcelebaといった大規模データセットでモデルをトレーニングしています。 本実験は,シーン照明とリアルに再照らされた入力画像を,監督や事前形状モデルなしで正確に推定できることを示す。 監督手法と比較すると,我々のアプローチは同じような性能を持ち,一般的な照明アーチファクトを回避している。

We propose a self-supervised method for image relighting of single view images in the wild. The method is based on an auto-encoder which deconstructs an image into two separate encodings, relating to the scene illumination and content, respectively. In order to disentangle this embedding information without supervision, we exploit the assumption that some augmentation operations do not affect the image content and only affect the direction of the light. A novel loss function, called spherical harmonic loss, is introduced that forces the illumination embedding to convert to a spherical harmonic vector. We train our model on large-scale datasets such as Youtube 8M and CelebA. Our experiments show that our method can correctly estimate scene illumination and realistically re-light input images, without any supervision or a prior shape model. Compared to supervised methods, our approach has similar performance and avoids common lighting artifacts.
翻訳日:2021-05-11 06:46:20 公開日:2020-12-11
# (参考訳) 対称性サブグループの作用に不変な新しいニューラルネットワークアーキテクチャ [全文訳有]

A New Neural Network Architecture Invariant to the Action of Symmetry Subgroups ( http://arxiv.org/abs/2012.06452v1 )

ライセンス: CC BY 4.0
Piotr Kicki, Mete Ozay, Piotr Skrzypczy\'nski(参考訳) 入力データに対する対称群の置換部分群 $g \leq s_n$ の作用に不変な関数を近似する計算効率の良い$g$-invariantニューラルネットワークを提案する。 提案されたネットワークアーキテクチャの重要な要素は、入力データの$g$-invariant latent表現を生成する新しい$g$-invariant transformationモジュールである。 理論的考察は、他の$G$不変ニューラルネットワークと比較して提案手法の有効性と強力な一般化特性を示す数値実験によって支持される。

We propose a computationally efficient $G$-invariant neural network that approximates functions invariant to the action of a given permutation subgroup $G \leq S_n$ of the symmetric group on input data. The key element of the proposed network architecture is a new $G$-invariant transformation module, which produces a $G$-invariant latent representation of the input data. Theoretical considerations are supported by numerical experiments, which demonstrate the effectiveness and strong generalization properties of the proposed method in comparison to other $G$-invariant neural networks.
翻訳日:2021-05-11 06:34:36 公開日:2020-12-11
# (参考訳) Better Call Surrogates: ハイパーパラメータ最適化のためのハイブリッド進化アルゴリズム [全文訳有]

Better call Surrogates: A hybrid Evolutionary Algorithm for Hyperparameter optimization ( http://arxiv.org/abs/2012.06453v1 )

ライセンス: CC BY 4.0
Subhodip Biswas, Adam D Cobb, Andreea Sistrunk, Naren Ramakrishnan, Brian Jalaian(参考訳) 本稿では,機械学習(ML)モデルのハイパーパラメータ最適化のための代理支援進化アルゴリズム(EA)を提案する。 提案したSTEADEモデルは、まずRadarBasis関数補間を用いて目的関数のランドスケープを推定し、ベイズ最適化フレームワークによって導かれる新しいソリューションの進化に使用される差分進化と呼ばれるEA技術に知識を伝達する。 我々は、NeurIPS 2020におけるブラックボックス最適化チャレンジの一環として、ハイパーパラメータ最適化問題に関するモデルを実証的に評価し、バニラEAに対してSTEADEがもたらした改善を実証した。

In this paper, we propose a surrogate-assisted evolutionary algorithm (EA) for hyperparameter optimization of machine learning (ML) models. The proposed STEADE model initially estimates the objective function landscape using RadialBasis Function interpolation, and then transfers the knowledge to an EA technique called Differential Evolution that is used to evolve new solutions guided by a Bayesian optimization framework. We empirically evaluate our model on the hyperparameter optimization problems as a part of the black box optimization challenge at NeurIPS 2020 and demonstrate the improvement brought about by STEADE over the vanilla EA.
翻訳日:2021-05-11 06:21:54 公開日:2020-12-11
# (参考訳) コンテキスト: 医用画像のためのグラフに基づく自己教師型表現学習 [全文訳有]

Context Matters: Graph-based Self-supervised Representation Learning for Medical Images ( http://arxiv.org/abs/2012.06457v1 )

ライセンス: CC BY 4.0
Li Sun, Ke Yu, Kayhan Batmanghelich(参考訳) 教師付き学習法は大量の注釈付きデータセットを必要とする。 このようなデータセットの収集には時間と費用がかかる。 これまで、新型コロナウイルス(COVID-19)画像データセットに注釈を付けたものはほとんどない。 自己教師付き学習は、ラベルのないデータを利用してトレーニングをブートストラップすることができるが、自然画像の汎用的な自己教師付き手法は、文脈を十分に取り入れていない。 医用画像の場合、解剖学的には各解剖学的領域の正常な組織からの偏差を検出するのに十分な感度が望ましい。 本稿では,地域解剖学レベルと患者レベルの2段階の自己指導型表現学習目標を用いた新しいアプローチを提案する。 グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。 グラフの構造は、各患者と解剖学的アトラスの間の解剖学的対応によって通知される。 さらに、グラフ表現は任意の任意サイズの画像をフル解像度で処理する利点がある。 肺画像の大規模コンピュータ断層撮影(CT)データセットを用いた実験により,本手法は文脈を考慮しないベースライン法と比較した。 learnt embeddedを使って、covid-19の臨床進歩を定量化し、この方法が異なる病院のcovid-19患者に広く普及していることを示す。 定性的な結果から,画像内の臨床関連領域を同定できることが示唆された。

Supervised learning method requires a large volume of annotated datasets. Collecting such datasets is time-consuming and expensive. Until now, very few annotated COVID-19 imaging datasets are available. Although self-supervised learning enables us to bootstrap the training by exploiting unlabeled data, the generic self-supervised methods for natural images do not sufficiently incorporate the context. For medical images, a desirable method should be sensitive enough to detect deviation from normal-appearing tissue of each anatomical region; here, anatomy is the context. We introduce a novel approach with two levels of self-supervised representation learning objectives: one on the regional anatomical level and another on the patient-level. We use graph neural networks to incorporate the relationship between different anatomical regions. The structure of the graph is informed by anatomical correspondences between each patient and an anatomical atlas. In addition, the graph representation has the advantage of handling any arbitrarily sized image in full resolution. Experiments on large-scale Computer Tomography (CT) datasets of lung images show that our approach compares favorably to baseline methods that do not account for the context. We use the learnt embedding to quantify the clinical progression of COVID-19 and show that our method generalizes well to COVID-19 patients from different hospitals. Qualitative results suggest that our model can identify clinically relevant regions in the images.
翻訳日:2021-05-11 06:14:53 公開日:2020-12-11
# (参考訳) 長距離特徴統合のための周期的直交畳み込み [全文訳有]

Cyclic orthogonal convolutions for long-range integration of features ( http://arxiv.org/abs/2012.06462v1 )

ライセンス: CC BY 4.0
Federica Freddi, Jezabel R Garcia, Michael Bromberg, Sepehr Jalali, Da-Shan Shiu, Alvin Chua, Alberto Bernacchia(参考訳) 畳み込みニューラルネットワーク(cnns)では、情報は画像の各ピクセルの小さな近傍を流れ、ネットワークの深い層に到達する前に特徴の長距離統合を防いでいる。 本稿では,z$と位置$(x,y)$間の柔軟な情報フローを,少数のレイヤで画像全体にわたって実現可能な新しいアーキテクチャを提案する。 このアーキテクチャは、3つの直交畳み込みのサイクルを使用し、$(x,y)$座標だけでなく$(x,z)$と$(y,z)$座標も使う。 このようなサイクルのシーケンスを積み重ねて、cyclenetというディープネットワークを得るのです。 これは標準畳み込みの軸の置換のみを必要とするため、その性能はCNNと直接比較することができる。 このモデルでは,CIFAR-10とImageNetデータセットの画像分類において,類似サイズのCNNと比較して,競合する結果が得られる。 長距離統合はテクスチャよりも形状による物体の認識が好ましいと仮定し,CycleNetがCNNよりもスタイリングされた画像に転送することを示す。 遠隔機能の統合が重要であるpathfinderチャレンジでは、cyclenetはcnnを大きなマージンで上回っている。 また、小さな畳み込みカーネルを用いる場合であっても、CycleNetの受容フィールドのサイズは1サイクルで最大になるが、従来のCNNでは多数のレイヤを必要とする。

In Convolutional Neural Networks (CNNs) information flows across a small neighbourhood of each pixel of an image, preventing long-range integration of features before reaching deep layers in the network. We propose a novel architecture that allows flexible information flow between features $z$ and locations $(x,y)$ across the entire image with a small number of layers. This architecture uses a cycle of three orthogonal convolutions, not only in $(x,y)$ coordinates, but also in $(x,z)$ and $(y,z)$ coordinates. We stack a sequence of such cycles to obtain our deep network, named CycleNet. As this only requires a permutation of the axes of a standard convolution, its performance can be directly compared to a CNN. Our model obtains competitive results at image classification on CIFAR-10 and ImageNet datasets, when compared to CNNs of similar size. We hypothesise that long-range integration favours recognition of objects by shape rather than texture, and we show that CycleNet transfers better than CNNs to stylised images. On the Pathfinder challenge, where integration of distant features is crucial, CycleNet outperforms CNNs by a large margin. We also show that even when employing a small convolutional kernel, the size of receptive fields of CycleNet reaches its maximum after one cycle, while conventional CNNs require a large number of layers.
翻訳日:2021-05-11 06:12:32 公開日:2020-12-11
# (参考訳) dilie: 画像エンハンスメントのための深い内部学習 [全文訳有]

DILIE: Deep Internal Learning for Image Enhancement ( http://arxiv.org/abs/2012.06469v1 )

ライセンス: CC BY 4.0
Indra Deep Mastan and Shanmuganathan Raman(参考訳) 入力画像が知覚的に見栄えのよい画像に変換される一般的な深部画像強調問題を考える。 近年の画像強調手法では, スタイル転送と画像復元が問題となっている。 トレーニングデータベースとトレーニングデータ非依存(深い内部学習方法)の2つのカテゴリに大別される。 我々は,深層内部学習フレームワークで画像強調を行う。 我々のDeep Internal Learning for Image Enhancement frameworkは、コンテンツ機能とスタイル機能を強化し、強調画像中の画像コンテキストを保存するためにコンテキストコンテンツ損失を使用する。 画像強調とノイズ強調の両方の結果を示す。 その結果,画像中の非現実的変形を測定するのに効率的である構造的類似性と知覚的誤りを用いた。 提案フレームワークは,画像エンハンスメントのための関連する最先端の作業よりも優れていることを示す。

We consider the generic deep image enhancement problem where an input image is transformed into a perceptually better-looking image. Recent methods for image enhancement consider the problem by performing style transfer and image restoration. The methods mostly fall into two categories: training data-based and training data-independent (deep internal learning methods). We perform image enhancement in the deep internal learning framework. Our Deep Internal Learning for Image Enhancement framework enhances content features and style features and uses contextual content loss for preserving image context in the enhanced image. We show results on both hazy and noisy image enhancement. To validate the results, we use structure similarity and perceptual error, which is efficient in measuring the unrealistic deformation present in the images. We show that the proposed framework outperforms the relevant state-of-the-art works for image enhancement.
翻訳日:2021-05-11 06:00:00 公開日:2020-12-11
# (参考訳) 信頼性評価法によるペプチドの溶血傾向の予測 [全文訳有]

Prediction of Hemolysis Tendency of Peptides using a Reliable Evaluation Method ( http://arxiv.org/abs/2012.06470v1 )

ライセンス: CC BY 4.0
Ali Raza, Hafiz Saud Arshad(参考訳) 過去数十年間、多くのペプチドが発見され、抗菌性や抗癌性を示す。 これらの理由から、ペプチドは適切な治療候補であると考えられている。 一部のペプチドは代謝安定性が低く、毒性が高く、ペプチドのヘモリティが高い。 これは、治療に使用する前に、ペプチドの溶血傾向や毒性を評価することの重要性を強調している。 従来のペプチドの毒性評価法は、時間と費用がかかる。 本研究では,特定の血液量基準に基づく抗菌活性およびペプチド構造データベース(dbaasp)からペプチドデータ(hemo-db)を抽出し,ペプチドの溶血傾向予測のための機械学習手法(すなわち,ペプチドの溶血傾向予測法)を提案する。 溶血性または非溶血性)。 我々のモデルは、ヘモリティ予測ベンチマークを著しく改善する。 また,テストセット内のペプチドが試験セットのどのペプチドと40%以上類似していないことを保証する,信頼性の高いクラスタリングに基づくトレインテスト分割法を提案する。 このトレインテストスプリットを用いて、未知のデータ分布や新たに発見されたペプチドの予測モデル性能を推定できる。 本モデルでは,従来のランダムトレインテスト分割法を用いて,0.9986 auc-rocと97.79%のhemo-dbテストセットの精度をテストした。 さらに,クラスタリングベースの列車試験データ分割を用いて,0.997のAUC-ROCと97.58%の精度で実験を行った。 さらに,不明瞭なデータ分布(Hemo-PI3)のモデルを確認し,0.8726 AUC-ROCと79.5%の精度を記録した。 提案法では, ペプチドおよび新規に発見されたペプチドの未沈アミノ酸分布を予測し, さらなる治療効果が期待できる治療ペプチドのスクリーニングが可能となる。

There are numerous peptides discovered through past decades, which exhibit antimicrobial and anti-cancerous tendencies. Due to these reasons, peptides are supposed to be sound therapeutic candidates. Some peptides can pose low metabolic stability, high toxicity and high hemolity of peptides. This highlights the importance for evaluating hemolytic tendencies and toxicity of peptides, before using them for therapeutics. Traditional methods for evaluation of toxicity of peptides can be time-consuming and costly. In this study, we have extracted peptides data (Hemo-DB) from Database of Antimicrobial Activity and Structure of Peptides (DBAASP) based on certain hemolity criteria and we present a machine learning based method for prediction of hemolytic tendencies of peptides (i.e. Hemolytic or Non-Hemolytic). Our model offers significant improvement on hemolity prediction benchmarks. we also propose a reliable clustering-based train-tests splitting method which ensures that no peptide in train set is more than 40% similar to any peptide in test set. Using this train-test split, we can get reliable estimated of expected model performance on unseen data distribution or newly discovered peptides. Our model tests 0.9986 AUC-ROC (Area Under Receiver Operating Curve) and 97.79% Accuracy on test set of Hemo-DB using traditional random train-test splitting method. Moreover, our model tests AUC-ROC of 0.997 and Accuracy of 97.58% while using clustering-based train-test data split. Furthermore, we check our model on an unseen data distribution (at Hemo-PI 3) and we recorded 0.8726 AUC-ROC and 79.5% accuracy. Using the proposed method, potential therapeutic peptides can be screened, which may further in therapeutics and get reliable predictions for unseen amino acids distribution of peptides and newly discovered peptides.
翻訳日:2021-05-11 05:50:25 公開日:2020-12-11
# (参考訳) 人型運動の生成:環境特徴に基づく2つのアプローチの比較

Generating Human-Like Movement: A Comparison Between Two Approaches Based on Environmental Features ( http://arxiv.org/abs/2012.06474v1 )

ライセンス: CC BY 4.0
A. Zonta, S.K. Smit and A.E. Eiben(参考訳) シミュレーションで現実的な人間の振る舞いをモデル化することは、社会科学、哲学、人工知能といったいくつかの分野の間に存在する課題である。 人間の動きは、意図によって駆動される特別な行動(例えば、)である。 食料品を得る)と周囲の環境(例えば、) 新しい興味深い場所を見る好奇心) オンラインおよびオフラインで利用可能なサービスは、通常、経路を計画するときに環境を考慮しない。 環境特性に基づく人間のような軌道を生成するための2つの新しいアルゴリズムが提案されている。 また、Attraction-based A*アルゴリズムは、環境特徴からの情報を含むが、Feature-based A*アルゴリズムは、実際の軌跡から情報をその計算に注入する。 人間の類似性は、最終生成軌道を現実的なものと判断する人間の専門家によってテストされている。 本稿では, 効率, 有効性, ハイパーパラメータの感度といった重要な指標における2つの手法の比較を行った。 予め定義した基準に従って,実物に近い軌道を生成するにもかかわらず,特徴量に基づくA*アルゴリズムは,Attraction-based A*アルゴリズムと比較して時間効率が低下し,実世界におけるモデルのユーザビリティを損なうことを示す。

Modelling realistic human behaviours in simulation is an ongoing challenge that resides between several fields like social sciences, philosophy, and artificial intelligence. Human movement is a special type of behaviour driven by intent (e.g. to get groceries) and the surrounding environment (e.g. curiosity to see new interesting places). Services available online and offline do not normally consider the environment when planning a path, which is decisive especially on a leisure trip. Two novel algorithms have been presented to generate human-like trajectories based on environmental features. The Attraction-Based A* algorithm includes in its computation information from the environmental features meanwhile, the Feature-Based A* algorithm also injects information from the real trajectories in its computation. The human-likeness aspect has been tested by a human expert judging the final generated trajectories as realistic. This paper presents a comparison between the two approaches in some key metrics like efficiency, efficacy, and hyper-parameters sensitivity. We show how, despite generating trajectories that are closer to the real one according to our predefined metrics, the Feature-Based A* algorithm fall short in time efficiency compared to the Attraction-Based A* algorithm, hindering the usability of the model in the real world.
翻訳日:2021-05-11 05:44:13 公開日:2020-12-11
# (参考訳) 技術的意見:動物行動から自律ロボットへ [全文訳有]

Technical Opinion: From Animal Behaviour to Autonomous Robots ( http://arxiv.org/abs/2012.06492v1 )

ライセンス: CC BY 4.0
Chinedu Pascal Ezenkwu and Andrew Starkey(参考訳) ロボットの非構造的現実環境への応用の高まりに伴い、ロボット学者はそのような環境の複雑さに起因する問題にますます関心を寄せている。 この問題に対する1つの解決策は、ロボットの自律性である。 自然が既に自律性の問題を解決しているので、自律ロボットの開発に適したモデルになり得る。 本稿では,動物行動の観点からロボット自律性に関する簡潔なレビューを行う。 最先端の技術を調べ、研究の方向性を示唆する。

With the rising applications of robots in unstructured real-world environments, roboticists are increasingly concerned with the problems posed by the complexity of such environments. One solution to these problems is robot autonomy. Since nature has already solved the problem of autonomy it can be a suitable model for developing autonomous robots. This paper presents a concise review on robot autonomy from the perspective of animal behaviour. It examines some state-of-the-art techniques as well as suggesting possible research directions.
翻訳日:2021-05-11 05:42:53 公開日:2020-12-11
# (参考訳) DeepObjStyle:ディープオブジェクトベースの写真スタイル転送 [全文訳有]

DeepObjStyle: Deep Object-based Photo Style Transfer ( http://arxiv.org/abs/2012.06498v1 )

ライセンス: CC BY 4.0
Indra Deep Mastan and Shanmuganathan Raman(参考訳) スタイル転送の大きな課題の1つは、出力画像と入力画像(スタイルとコンテンツ)の間の適切な画像特徴の監督である。 効率的な戦略は、スタイルのオブジェクトとコンテンツイメージの間のオブジェクトマップを定義することである。 しかし、スタイルやコンテンツイメージに異なる型や数値のセマンティックオブジェクトが存在する場合、そのようなマッピングは十分に確立されていない。 また、スタイル転送出力のコンテンツミスマッチが発生し、結果の視覚的品質が低下する可能性がある。 本稿では、データ独立フレームワークのトレーニングにおいて、スタイルを監督するための、deepobjstyleと呼ばれるオブジェクトベースのスタイル転送手法を提案する。 DeepObjStyleは、オブジェクトのセマンティクスを保存し、スタイルとコンテンツイメージがイメージ機能のミスマッチを持つ場合、難しいシナリオにおいて、より良いスタイル転送を実現する。 また、単語クラウドを含む画像のスタイル転送を行い、DeepObjStyleが適切な画像特徴監視を可能にすることを示す。 定量的比較とユーザスタディを用いて結果を検証する。

One of the major challenges of style transfer is the appropriate image features supervision between the output image and the input (style and content) images. An efficient strategy would be to define an object map between the objects of the style and the content images. However, such a mapping is not well established when there are semantic objects of different types and numbers in the style and the content images. It also leads to content mismatch in the style transfer output, which could reduce the visual quality of the results. We propose an object-based style transfer approach, called DeepObjStyle, for the style supervision in the training data-independent framework. DeepObjStyle preserves the semantics of the objects and achieves better style transfer in the challenging scenario when the style and the content images have a mismatch of image features. We also perform style transfer of images containing a word cloud to demonstrate that DeepObjStyle enables an appropriate image features supervision. We validate the results using quantitative comparisons and user studies.
翻訳日:2021-05-11 05:39:16 公開日:2020-12-11
# (参考訳) 補助モデルによる信頼度推定 [全文訳有]

Confidence Estimation via Auxiliary Models ( http://arxiv.org/abs/2012.06508v1 )

ライセンス: CC BY 4.0
Charles Corbi\`ere, Nicolas Thome, Antoine Saporta, Tuan-Hung Vu, Matthieu Cord, Patrick P\'erez(参考訳) ディープニューラルネットワーク分類器の信頼性を確実に定量化することは、そのようなモデルを安全クリティカルなアプリケーションにデプロイする上で、難しいが基本的な要件である。 本稿では,モデル信頼度のための新しい目標基準,すなわち真のクラス確率(tcp)を提案する。 我々は,TCPが標準最大クラス確率(MCP)よりも信頼性推定に優れていることを示す。 真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。 提案手法は,障害予測と疑似ラベルによる自己学習の課題に対して,効果的な信頼度評価を必要とする手法である。 各タスクにおける提案手法の妥当性を検証するために,広範な実験を行った。 様々なネットワークアーキテクチャを研究し,画像分類とセマンティックセグメンテーションのための小型・大規模データセットを用いた実験を行った。 テストされたベンチマークで、我々のアプローチは強いベースラインよりも優れています。

Reliably quantifying the confidence of deep neural classifiers is a challenging yet fundamental requirement for deploying such models in safety-critical applications. In this paper, we introduce a novel target criterion for model confidence, namely the true class probability (TCP). We show that TCP offers better properties for confidence estimation than standard maximum class probability (MCP). Since the true class is by essence unknown at test time, we propose to learn TCP criterion from data with an auxiliary model, introducing a specific learning scheme adapted to this context. We evaluate our approach on the task of failure prediction and of self-training with pseudo-labels for domain adaptation, which both necessitate effective confidence estimates. Extensive experiments are conducted for validating the relevance of the proposed approach in each task. We study various network architectures and experiment with small and large datasets for image classification and semantic segmentation. In every tested benchmark, our approach outperforms strong baselines.
翻訳日:2021-05-11 05:28:28 公開日:2020-12-11
# (参考訳) ウェアラブルセンサを用いたパーソナライズされたステップカウント:ドメイン適応LSTMネットワークアプローチ [全文訳有]

Personalized Step Counting Using Wearable Sensors: A Domain Adapted LSTM Network Approach ( http://arxiv.org/abs/2012.08975v1 )

ライセンス: CC BY 4.0
Arvind Pillai, Halsey Lea, Faisal Khan, Glynn Dennis(参考訳) 運動モニターは、運動、フィットネス、健康の指標として様々な身体活動(pa)を測定するために広く使われている。 同様に、歩数における経時的傾向のリアルタイムモニタリングは、日常生活活動の変化に関するパーソナライズされた指標として、重要な臨床的可能性を持っている。 しかし, ベンダー, 身体位置, 個人歩容差の整合性は臨床的有用性に限界がある。 paモニター内の3軸加速度計は、デバイスと個人間のステップカウント精度を向上させるために活用できる。 本研究では,(1) 生三軸センサデータをモデル化し,信頼性と精度を両立させるとともに,(2) 一般化されたステップカウントモデルを新たなデータを用いて各歩行パターンに効率よく適用できる,という仮説を立てる。 まず、オープンソースの生センサデータを用いて、ステップカウントをモデル化するための長期記憶(LSTM)深層ニューラルネットワークを構築した。 そして、異なるデバイスと異なる主題を使って、新しい完全に独立したデータセットを生成しました。 最後に,個別化ステップ数精度の高いパーソナライズモデルを作成するために,少量の主題別データをドメイン化した。 これらの結果から, 大規模かつ自由なデータセットを用いてトレーニングしたモデルは, 大規模な歴史的データセットが稀な患者集団に適用可能であることが示唆された。

Activity monitors are widely used to measure various physical activities (PA) as an indicator of mobility, fitness and general health. Similarly, real-time monitoring of longitudinal trends in step count has significant clinical potential as a personalized measure of disease related changes in daily activity. However, inconsistent step count accuracy across vendors, body locations, and individual gait differences limits clinical utility. The tri-axial accelerometer inside PA monitors can be exploited to improve step count accuracy across devices and individuals. In this study, we hypothesize: (1) raw tri-axial sensor data can be modeled to create reliable and accurate step count, and (2) a generalized step count model can then be efficiently adapted to each unique gait pattern using very little new data. Firstly, open-source raw sensor data was used to construct a long short term memory (LSTM) deep neural network to model step count. Then we generated a new, fully independent data set using a different device and different subjects. Finally, a small amount of subject-specific data was domain adapted to produce personalized models with high individualized step count accuracy. These results suggest models trained using large freely available datasets can be adapted to patient populations where large historical data sets are rare.
翻訳日:2021-05-11 04:40:20 公開日:2020-12-11
# (参考訳) 保護政策移転 [全文訳有]

Protective Policy Transfer ( http://arxiv.org/abs/2012.06662v1 )

ライセンス: CC BY 4.0
Wenhao Yu, C. Karen Liu, Greg Turk(参考訳) 既存のスキルを新たな状況に移行できることは、予測不能な実環境で動作するようにロボットを訓練する上で重要な能力だ。 転送を成功させるアルゴリズムは、ロボットが新しい環境で収集する必要があるサンプルの数を最小限に抑えるだけでなく、移動プロセス中にロボットが自身や周囲の環境を傷つけることを防ぐ必要がある。 本稿では,ロボットの運動能力を新たなシナリオに適応させ,重大な障害を最小限に抑えるためのポリシー伝達アルゴリズムを提案する。 本アルゴリズムは,作業の完了に最適化されたタスクポリシと,ロボットが安全でないイベント(例えば,ロボットの安全を損なわないための保護ポリシという,トレーニング環境における2つのコントロールポリシを訓練する。 地面に倒れる)。 実行中に使用するポリシを決定するために,ロボットの持続的安全性レベルを推定するトレーニング環境において,安全推定モデルを学ぶ。 一連の閾値で使用すると、安全推定器は、保護ポリシーとタスクポリシーを切り替えるための分類器となる。 本研究では,4つのロボット移動問題と2次元ナビゲーション問題に対するアプローチを評価し,ロボットの安全性を考慮しつつ,異なる環境への移動を成功させることができることを示す。

Being able to transfer existing skills to new situations is a key capability when training robots to operate in unpredictable real-world environments. A successful transfer algorithm should not only minimize the number of samples that the robot needs to collect in the new environment, but also prevent the robot from damaging itself or the surrounding environment during the transfer process. In this work, we introduce a policy transfer algorithm for adapting robot motor skills to novel scenarios while minimizing serious failures. Our algorithm trains two control policies in the training environment: a task policy that is optimized to complete the task of interest, and a protective policy that is dedicated to keep the robot from unsafe events (e.g. falling to the ground). To decide which policy to use during execution, we learn a safety estimator model in the training environment that estimates a continuous safety level of the robot. When used with a set of thresholds, the safety estimator becomes a classifier for switching between the protective policy and the task policy. We evaluate our approach on four simulated robot locomotion problems and a 2D navigation problem and show that our method can achieve successful transfer to notably different environments while taking the robot's safety into consideration.
翻訳日:2021-05-11 04:22:15 公開日:2020-12-11
# (参考訳) tabtransformer: コンテキスト埋め込みを用いた表データモデリング [全文訳有]

TabTransformer: Tabular Data Modeling Using Contextual Embeddings ( http://arxiv.org/abs/2012.06678v1 )

ライセンス: CC0 1.0
Xin Huang, Ashish Khetan, Milan Cvitkovic, Zohar Karnin(参考訳) 本研究では,教師付きおよび半教師付き学習のための新しい深層表データモデリングアーキテクチャであるTabTransformerを提案する。 Tab Transformerは自己アテンションベースのTransformer上に構築されている。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 15の公開データセットに関する広範な実験により、TabTransformerは、AUCの平均値に対して少なくとも1.0%以上の最先端の深層学習手法を上回り、ツリーベースのアンサンブルモデルの性能に匹敵することを示す。 さらに,tabtransformerから学習したコンテキスト埋め込みは,欠落データとノイズデータの両方に対して極めて堅牢であり,解釈性が向上することを示す。 最後に, 半教師付き環境において, データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し, 平均2.1%のAUCが最先端の手法に到達した。

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-the-art deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.
翻訳日:2021-05-11 04:07:18 公開日:2020-12-11
# ポイントゴールナビゲーションエージェントを(サンプルと計算)予算で訓練する方法

How to Train PointGoal Navigation Agents on a (Sample and Compute) Budget ( http://arxiv.org/abs/2012.06117v1 )

ライセンス: Link先を確認
Erik Wijmans and Irfan Essa and Dhruv Batra(参考訳) ポイントゴールナビゲーションは、居住地プラットフォームと関連する課題によって推進され、近年大きな関心と進歩が見られる。 本稿では,サンプル予算 (75万フレーム) と計算予算 (1日あたり1GPU) の両面からPointGoalナビゲーションについて検討する。 さまざまな実験を行い、累計で5万以上のgpu時間を計上し、表面上はマイナーだが重要な設計選択 — アドバンテージ推定手順(トレーニングにおける重要なコンポーネント)、ビジュアルエンコーダアーキテクチャ、一見小さなハイパーパラメータの変更 — を特定し、議論することができました。 全体として、これらの設計選択は、savvaなどに存在するベースラインに対して、相当かつ一貫した改善をもたらすことになる。 サンプル予算では、RGB-Dエージェントの性能はギブソンでは8 SPL(相対改善率14%)、マターポート3Dでは20 SPL(相対改善率38%)である。 計算予算では、RGB-Dエージェントの性能はGibsonの19 SPL(32%の相対改善)とMatterport3Dの35 SPL(220%の相対改善)に改善される。 コミュニティの実験をより効率的にするために、私たちの発見と推奨が役立てることを願っています。

PointGoal navigation has seen significant recent interest and progress, spurred on by the Habitat platform and associated challenge. In this paper, we study PointGoal navigation under both a sample budget (75 million frames) and a compute budget (1 GPU for 1 day). We conduct an extensive set of experiments, cumulatively totaling over 50,000 GPU-hours, that let us identify and discuss a number of ostensibly minor but significant design choices -- the advantage estimation procedure (a key component in training), visual encoder architecture, and a seemingly minor hyper-parameter change. Overall, these design choices to lead considerable and consistent improvements over the baselines present in Savva et al. Under a sample budget, performance for RGB-D agents improves 8 SPL on Gibson (14% relative improvement) and 20 SPL on Matterport3D (38% relative improvement). Under a compute budget, performance for RGB-D agents improves by 19 SPL on Gibson (32% relative improvement) and 35 SPL on Matterport3D (220% relative improvement). We hope our findings and recommendations will make serve to make the community's experiments more efficient.
翻訳日:2021-05-11 03:14:32 公開日:2020-12-11
# 逆攻撃検出のためのランダム投影

Random Projections for Adversarial Attack Detection ( http://arxiv.org/abs/2012.06405v1 )

ライセンス: Link先を確認
Nathan Drenkow, Neil Fendley, Philippe Burlina(参考訳) 敵の攻撃検出は注目されているものの、2つの観点からの根本的な課題である。 第一に、脅威モデルは明確に定義できるが、攻撃戦略はこれらの制約内でも広く異なる可能性がある。 したがって、現在のほとんどの検出戦略とは対照的に、検出はオープンセットの問題と見なすべきである。 これらの方法は、閉じたセットの視点でバイナリ検出器を訓練し、検出器トレーニング中に見られる攻撃に対して検出を偏らせる。 第2に、情報はテスト時に制限され、画像のラベルや基礎となるコンテンツを含む迷惑要因によって共起される。 現在のハイパフォーマンス技術の多くは、これらの問題に対処するためのトレーニングセットを使用しているが、検出ステップの全体サイズと多様性によって制限される可能性がある。 ランダムな部分空間解析に基づく新しい戦略により,これらの課題に対処する。 ランダム射影の特殊特性を利用する手法を提案し, 多様な部分空間の集合にまたがるクリーン例と逆例の挙動を特徴付ける。 次に,モデルアクティベーションの自己一貫性(あるいは非一貫性)を活用して,敵の例からクリーンを識別する。 性能評価の結果,本手法は攻撃方法自体に非依存でありながら,SOTA攻撃戦略(SOTA)の競合状態($0.92$AUC)よりも優れていた。 さらに、より厳密なテストシナリオで評価された場合、チャンスパフォーマンスのみを達成する競合するsomaメソッドと比較して、クリーンな例のみで構成されるトレーニングデータも大幅に少なくする。

Whilst adversarial attack detection has received considerable attention, it remains a fundamentally challenging problem from two perspectives. First, while threat models can be well-defined, attacker strategies may still vary widely within those constraints. Therefore, detection should be considered as an open-set problem, standing in contrast to most current detection strategies. These methods take a closed-set view and train binary detectors, thus biasing detection toward attacks seen during detector training. Second, information is limited at test time and confounded by nuisance factors including the label and underlying content of the image. Many of the current high-performing techniques use training sets for dealing with some of these issues, but can be limited by the overall size and diversity of those sets during the detection step. We address these challenges via a novel strategy based on random subspace analysis. We present a technique that makes use of special properties of random projections, whereby we can characterize the behavior of clean and adversarial examples across a diverse set of subspaces. We then leverage the self-consistency (or inconsistency) of model activations to discern clean from adversarial examples. Performance evaluation demonstrates that our technique outperforms ($>0.92$ AUC) competing state of the art (SOTA) attack strategies, while remaining truly agnostic to the attack method itself. It also requires significantly less training data, composed only of clean examples, when compared to competing SOTA methods, which achieve only chance performance, when evaluated in a more rigorous testing scenario.
翻訳日:2021-05-11 03:14:09 公開日:2020-12-11
# 説明可能なモデルに対する依存分解と拒絶オプション

Dependency Decomposition and a Reject Option for Explainable Models ( http://arxiv.org/abs/2012.06523v1 )

ライセンス: Link先を確認
Jan Kronenberger and Anselm Haselhoff(参考訳) 機械学習モデルを安全関連ドメイン(例)にデプロイする 自律運転、医療診断) 説明可能なアプローチを要求し、敵の攻撃に対して堅牢で、モデルの不確実性を認識します。 近年のディープラーニングモデルは様々な推論タスクにおいて非常によく機能するが、これらのアプローチのブラックボックスの性質は上記の3つの要件に関して弱点をもたらす。 近年の進歩は、特徴の可視化、入力の属性(例えば、熱マップ)の記述、テキストによる説明の提供、次元の縮小などを提供する。 しかしながら、分類タスクの説明は依存するのか、それとも相互独立なのか。 インスタンスでは、オブジェクトの形は色に依存していますか? 予測クラスを使用した説明の生成とその逆の効果はどのようなものか? 本稿では,説明可能な深層学習モデルの文脈において,所望の画像分類出力と説明変数(例)の確率分布に関する第1の分析を行う。 属性、テキスト、ヒートマップ)。 そこで,我々は説明依存性分解(edd)を行う。 異なる依存関係の意味を解析し,説明を生成する2つの方法を提案する。 最後に、この説明を用いて予測を検証(承認または拒否)する。

Deploying machine learning models in safety-related do-mains (e.g. autonomous driving, medical diagnosis) demands for approaches that are explainable, robust against adversarial attacks and aware of the model uncertainty. Recent deep learning models perform extremely well in various inference tasks, but the black-box nature of these approaches leads to a weakness regarding the three requirements mentioned above. Recent advances offer methods to visualize features, describe attribution of the input (e.g.heatmaps), provide textual explanations or reduce dimensionality. However,are explanations for classification tasks dependent or are they independent of each other? For in-stance, is the shape of an object dependent on the color? What is the effect of using the predicted class for generating explanations and vice versa? In the context of explainable deep learning models, we present the first analysis of dependencies regarding the probability distribution over the desired image classification outputs and the explaining variables (e.g. attributes, texts, heatmaps). Therefore, we perform an Explanation Dependency Decomposition (EDD). We analyze the implications of the different dependencies and propose two ways of generating the explanation. Finally, we use the explanation to verify (accept or reject) the prediction
翻訳日:2021-05-11 03:13:47 公開日:2020-12-11
# バックプロパゲーション以外のハードウェア:直接フィードバックアライメントのためのフォトニックコプロセッサ

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment ( http://arxiv.org/abs/2012.06373v1 )

ライセンス: Link先を確認
Julien Launay, Iacopo Poli, Kilian M\"uller, Gustave Pariente, Igor Carron, Laurent Daudet, Florent Krzakala, Sylvain Gigan(参考訳) スケーリング仮説は、パフォーマンス向上への道筋として、パラメータ数兆を超えるモデルの拡張を動機付けている。 GPT-3のような最近の重要な発展はこの予想によって推進されている。 しかし,モデルがスケールアップするにつれて,バックプロパゲーションで効率的にトレーニングすることが困難になる。 モデル、パイプライン、データ並列性は、計算ノードにパラメータと勾配を分散させるため、通信のオーケストレーションは困難である。 本研究では,これらの問題を緩和し,超大規模トレーニングハードウェアの設計を通知できる代替トレーニング手法について論じる。 実際、ダイレクトフィードバックアライメントのような並列化可能な後方パスを持つシンセプティック非対称な手法を用いることで、通信の必要性は劇的に減少する。 数兆のパラメータでランダムなプロジェクションを計算できる、ダイレクトフィードバックアライメントのためのフォトニック加速器を提案する。 本稿では,完全連結ネットワークとグラフ畳み込みネットワークを用いて,ベンチマークタスクを行うシステムを示す。 私たちのハードウェアは、ニューラルネットワークをトレーニングする最初のアーキテクチャに依存しないフォトニックコプロセッサです。 これはスケーラブルなハードウェアを構築するための重要なステップであり、バックプロパゲーションを超えて、ディープラーニングのための新たな道を開くことができる。

The scaling hypothesis motivates the expansion of models past trillions of parameters as a path towards better performance. Recent significant developments, such as GPT-3, have been driven by this conjecture. However, as models scale-up, training them efficiently with backpropagation becomes difficult. Because model, pipeline, and data parallelism distribute parameters and gradients over compute nodes, communication is challenging to orchestrate: this is a bottleneck to further scaling. In this work, we argue that alternative training methods can mitigate these issues, and can inform the design of extreme-scale training hardware. Indeed, using a synaptically asymmetric method with a parallelizable backward pass, such as Direct Feedback Alignement, communication needs are drastically reduced. We present a photonic accelerator for Direct Feedback Alignment, able to compute random projections with trillions of parameters. We demonstrate our system on benchmark tasks, using both fully-connected and graph convolutional networks. Our hardware is the first architecture-agnosti c photonic co-processor for training neural networks. This is a significant step towards building scalable hardware, able to go beyond backpropagation, and opening new avenues for deep learning.
翻訳日:2021-05-11 03:13:16 公開日:2020-12-11
# eコマース検索における名前付きエンティティ認識のためのエンドツーエンドソリューション

An End-to-End Solution for Named Entity Recognition in eCommerce Search ( http://arxiv.org/abs/2012.07553v1 )

ライセンス: Link先を確認
Xiang Cheng, Mitchell Bowden, Bhushan Ramesh Bhange, Priyanka Goyal, Thomas Packer, Faizan Javed(参考訳) 名前付きエンティティ認識(NER)は、現代の検索クエリ理解における重要なステップである。 eコマースの分野では、ブランドや製品タイプといった重要なエンティティを特定することで、検索エンジンが関連する商品を検索し、魅力的なショッピング体験を提供することができる。 最近の研究では、ディープラーニングメソッドを用いたベンチマークnerタスクの共有に有望な結果を示しているが、業界では、ドメイン知識、トレーニングデータ、モデル生成に関するユニークな課題が残っている。 本稿では,これらの課題を解決するためのエンドツーエンドソリューションを示す。 私たちのソリューションの核心は、従来のように1つのトレーニングセットではなく、3つのトレーニングデータセットから反復的に学習する、新しいモデルトレーニングフレームワーク"triplelearn"です。 このアプローチを用いて、最良のモデルは、ホールドアウトテストデータにおいてF1スコアを69.5から93.3に引き上げる。 オフライン実験では、TripleLearnは、単一のトレーニングデータを使用する従来のトレーニングアプローチと比較して、モデルパフォーマンスを改善しました。 さらに、オンラインA/Bテストでは、ユーザエンゲージメントと収益変換に大きな改善が見られます。 このモデルはHomedepot.comで9ヶ月以上ライブされ、検索の変換と収益が増加した。 私たちのアプリケーション以外にも、このTripleLearnフレームワークは、エンドツーエンドのプロセスと同様に、モデル非依存で問題非依存なので、より多くの産業アプリケーション、特に同様のデータ基盤と問題を持つeコマース業界に一般化することができます。

Named entity recognition (NER) is a critical step in modern search query understanding. In the domain of eCommerce, identifying the key entities, such as brand and product type, can help a search engine retrieve relevant products and therefore offer an engaging shopping experience. Recent research shows promising results on shared benchmark NER tasks using deep learning methods, but there are still unique challenges in the industry regarding domain knowledge, training data, and model production. This paper demonstrates an end-to-end solution to address these challenges. The core of our solution is a novel model training framework "TripleLearn" which iteratively learns from three separate training datasets, instead of one training set as is traditionally done. Using this approach, the best model lifts the F1 score from 69.5 to 93.3 on the holdout test data. In our offline experiments, TripleLearn improved the model performance compared to traditional training approaches which use a single set of training data. Moreover, in the online A/B test, we see significant improvements in user engagement and revenue conversion. The model has been live on homedepot.com for more than 9 months, boosting search conversions and revenue. Beyond our application, this TripleLearn framework, as well as the end-to-end process, is model-independent and problem-independent, so it can be generalized to more industrial applications, especially to the eCommerce industry which has similar data foundations and problems.
翻訳日:2021-05-11 03:13:00 公開日:2020-12-11
# 乳腺病理像のダクトインスタンス指向パイプラインによる分類

Classifying Breast Histopathology Images with a Ductal Instance-Oriented Pipeline ( http://arxiv.org/abs/2012.06136v1 )

ライセンス: Link先を確認
Beibin Li, Ezgi Mercan, Sachin Mehta, Stevan Knezevich, Corey W. Arnold, Donald L. Weaver, Joann G. Elmore, Linda G. Shapiro(参考訳) 本研究では、ダクトレベルのインスタンスセグメンテーションモデル、組織レベルのセグメンテーションモデル、診断分類のための3段階の機能を含むDctal Instance-Oriented Pipeline(DIOP)を提案する。 近年のインスタンスセグメンテーションとMask R-CNNモデルに基づいて,本研究のダクトレベルセグメンタは,顕微鏡画像中の各ダクトレベルを識別し,同定されたダクトレベルから組織レベル情報を抽出する。 これらの管例と病理像から得られた3つのレベルの情報を活用することで、提案したDIOPは、すべての診断タスクにおいて以前のアプローチ(特徴ベースとCNNベースの両方)より優れており、このユニークなデータセットにおいて、DIOPは一般的な病理学者に匹敵するパフォーマンスを達成している。 提案されたdiopは推論時間にほんの数秒しかかからず、ほとんどの現代のコンピュータでインタラクティブに使用できる。 将来的にこのシステムの堅牢性と一般化性を研究するには、さらなる臨床調査が必要である。

In this study, we propose the Ductal Instance-Oriented Pipeline (DIOP) that contains a duct-level instance segmentation model, a tissue-level semantic segmentation model, and three-levels of features for diagnostic classification. Based on recent advancements in instance segmentation and the Mask R-CNN model, our duct-level segmenter tries to identify each ductal individual inside a microscopic image; then, it extracts tissue-level information from the identified ductal instances. Leveraging three levels of information obtained from these ductal instances and also the histopathology image, the proposed DIOP outperforms previous approaches (both feature-based and CNN-based) in all diagnostic tasks; for the four-way classification task, the DIOP achieves comparable performance to general pathologists in this unique dataset. The proposed DIOP only takes a few seconds to run in the inference time, which could be used interactively on most modern computers. More clinical explorations are needed to study the robustness and generalizability of this system in the future.
翻訳日:2021-05-11 03:12:37 公開日:2020-12-11
# 対人機械学習における近接性と不確実性認識

Closeness and Uncertainty Aware Adversarial Examples Detection in Adversarial Machine Learning ( http://arxiv.org/abs/2012.06390v1 )

ライセンス: Link先を確認
Omer Faruk Tuna, Ferhat Ozgur Catak, M. Taner Eskil(参考訳) ディープニューラルネットワーク(dnn)アーキテクチャはランダム摂動に対して堅牢であると考えられている。 それにもかかわらず、これらはわずかながら慎重に作られた入力の摂動に対して脆弱である可能性が示された。 近年,dnnモデルの信頼性を高めるために,逆サンプルと正規入力を区別する研究が数多く行われている。 本研究では,モンテカルロ・ドロップアウトサンプリングを用いた不確実性推定に基づく検体と,モデルにより抽出された深部特徴量の部分空間における近接度測定に基づく検体を用いて,2つの異なる検体を用いた検体を探索・評価する。 また、敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。

Deep neural network (DNN) architectures are considered to be robust to random perturbations. Nevertheless, it was shown that they could be severely vulnerable to slight but carefully crafted perturbations of the input, which are termed as adversarial samples. In recent years, numerous studies have been conducted to increase the reliability of DNN models by distinguishing adversarial samples from regular inputs. In this work, we explore and assess the usage of 2 different groups of metrics in detecting adversarial samples: the ones which are based on the uncertainty estimation using Monte-Carlo Dropout Sampling and the ones which are based on closeness measures in the subspace of deep features extracted by the model. We also introduce a new feature for adversarial detection, and we show that the performances of all these metrics heavily depend on the strength of the attack being used.
翻訳日:2021-05-11 03:11:19 公開日:2020-12-11
# OPAC:機会主義的アクター批判

OPAC: Opportunistic Actor-Critic ( http://arxiv.org/abs/2012.06555v1 )

ライセンス: Link先を確認
Srinjoy Roy, Saptam Bakshi, Tamal Maharaj(参考訳) モデルフリー強化学習(RL)の一種であるアクタークリティカル法は、連続制御において多くの実世界の領域で最先端の性能を達成した。 彼らの成功にもかかわらず、これらのモデルの広範囲な展開はいまだに未解決だ。 これらのアクタ-クリティック手法の主な問題は、非効率な探索とサブオプティマポリシーである。 soft actor-critic (sac) と twin delay deep deterministic policy gradient (td3) の2つのアルゴリズムはこれらの問題に苦しんでいる。 SACは、サンプルの複雑さと収束脆性の問題をハイパーパラメータに効果的に解決し、TD3を含む最先端のアルゴリズムをハードタスクで上回り、TD3は全ての環境で適度な結果を生み出した。 SACは、より単純な作業において境界線性能を引き起こす政策のガウス的性質のため、非効率な探索に苦しむ。 本稿では,より優れた探索ポリシとより分散度の低いモデルフリーなディープRLアルゴリズムであるOPACを紹介する。 OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法で確率的ポリシーを最適化することを目指している。 対象のQ値を計算するために、OPACは2つの批評家の代わりに3つの批評家を使用し、環境の複雑さに基づいて、対象のQ値がどのように計算されるかを選択する。 我々は,TD3 と SAC の性能に比較して,最先端の性能と性能を達成できる MuJoCo 環境上で,アルゴリズムを体系的に評価した。

Actor-critic methods, a type of model-free reinforcement learning (RL), have achieved state-of-the-art performances in many real-world domains in continuous control. Despite their success, the wide-scale deployment of these models is still a far cry. The main problems in these actor-critic methods are inefficient exploration and sub-optimal policies. Soft Actor-Critic (SAC) and Twin Delayed Deep Deterministic Policy Gradient (TD3), two cutting edge such algorithms, suffer from these issues. SAC effectively addressed the problems of sample complexity and convergence brittleness to hyper-parameters and thus outperformed all state-of-the-art algorithms including TD3 in harder tasks, whereas TD3 produced moderate results in all environments. SAC suffers from inefficient exploration owing to the Gaussian nature of its policy which causes borderline performance in simpler tasks. In this paper, we introduce Opportunistic Actor-Critic (OPAC), a novel model-free deep RL algorithm that employs better exploration policy and lesser variance. OPAC combines some of the most powerful features of TD3 and SAC and aims to optimize a stochastic policy in an off-policy way. For calculating the target Q-values, instead of two critics, OPAC uses three critics and based on the environment complexity, opportunistically chooses how the target Q-value is computed from the critics' evaluation. We have systematically evaluated the algorithm on MuJoCo environments where it achieves state-of-the-art performance and outperforms or at least equals the performance of TD3 and SAC.
翻訳日:2021-05-11 03:11:04 公開日:2020-12-11
# Smooth Bandit Optimization: H\"古い空間への一般化

Smooth Bandit Optimization: Generalization to H\"older Space ( http://arxiv.org/abs/2012.06076v1 )

ライセンス: Link先を確認
Yusha Liu, Yining Wang, Aarti Singh(参考訳) 目的が累積後悔最小化である円滑な報酬関数の帯域最適化を考える。 この問題は、$0<\alpha\leq 1$のリプシッツを含む$\alpha$-h\"older連続函数に対して研究されている。 我々の主な結果は、リプシッツバンドイットとリニアバンドイットのような無限微分可能なモデルの間のギャップを埋めるために、指数$\alpha>1$のh\"older空間への報酬関数の一般化である。 h\"older連続関数に対しては、離散化領域のビンのランダムサンプリングに基づくアプローチが最適である。 対照的に、不特定線形/ポリノミアル帯域幅アルゴリズムをビンに展開する2層アルゴリズムのクラスを提案する。 提案アルゴリズムは, 既存の下界に一致するような$\alpha>1$に対して, $\tilde{O}(T^\frac{d+\alpha}{d+2\alpha})$ の残差上限を導出することにより, 関数の高次滑らか性を利用することができることを示す。 また,提案した2層アルゴリズムを用いた帯域モデル選択手法を用いて,H\"古い空間の連続スケールにおける未知関数の滑らか性への適応性についても検討した。 我々は、$\alpha\leq 1$ のサブセット内で、既存の下限に適合する後悔率を達成することを示す。

We consider bandit optimization of a smooth reward function, where the goal is cumulative regret minimization. This problem has been studied for $\alpha$-H\"older continuous (including Lipschitz) functions with $0<\alpha\leq 1$. Our main result is in generalization of the reward function to H\"older space with exponent $\alpha>1$ to bridge the gap between Lipschitz bandits and infinitely-different iable models such as linear bandits. For H\"older continuous functions, approaches based on random sampling in bins of a discretized domain suffices as optimal. In contrast, we propose a class of two-layer algorithms that deploy misspecified linear/polynomial bandit algorithms in bins. We demonstrate that the proposed algorithm can exploit higher-order smoothness of the function by deriving a regret upper bound of $\tilde{O}(T^\frac{d+\alpha}{d+2\alpha})$ for when $\alpha>1$, which matches existing lower bound. We also study adaptation to unknown function smoothness over a continuous scale of H\"older spaces indexed by $\alpha$, with a bandit model selection approach applied with our proposed two-layer algorithms. We show that it achieves regret rate that matches the existing lower bound for adaptation within the $\alpha\leq 1$ subset.
翻訳日:2021-05-11 03:10:32 公開日:2020-12-11
# ハイブリッド正規化を用いたランダム特徴モデルの二重降下現象の回避

Avoiding The Double Descent Phenomenon of Random Feature Models Using Hybrid Regularization ( http://arxiv.org/abs/2012.06667v1 )

ライセンス: Link先を確認
Kelvin Kan, James G Nagy and Lars Ruthotto(参考訳) 本研究では,ランダム特徴モデルの訓練中に発生する二重降下現象を自動的に回避するハイブリッド正規化手法の能力を示す。 二重降下現象の顕著な特徴は、補間閾値における正則化ギャップのスパイクである。 RFMの特徴数がトレーニングサンプルの数と等しい場合。 このギャップを埋めるために,本論文で検討したハイブリット法は,2つの最も一般的な正則化形式である早期停止と重量減衰のそれぞれの強度を組み合わせたものである。 このスキームは、一般化クロスバリデーション(GCV)を用いて停止イテレーションと重み減衰ハイパーパラメータを自動的に選択するため、ハイパーパラメータチューニングを必要としない。 これはまた、専用の検証セットの必要性を回避する。 ハイブリッド手法の利点は不適切な逆問題に対して十分に文書化されているが,本研究は機械学習における最初のユースケースである。 正規化やハイブリッド手法のモチベーションの必要性を明らかにするため,画像分類にインスパイアされた詳細な数値実験を行った。 これらの例では、ハイブリッドスキームは二重降下現象をうまく回避し、テストデータを用いてハイパーパラメータを最適に調整する古典的な正規化アプローチに匹敵する一般化を持つrfmを生成する。 本稿では,数値実験を行うためのMATLABコードについて,https://github.com/ EmoryMLIP/HybridRFMで紹介する。

We demonstrate the ability of hybrid regularization methods to automatically avoid the double descent phenomenon arising in the training of random feature models (RFM). The hallmark feature of the double descent phenomenon is a spike in the regularization gap at the interpolation threshold, i.e. when the number of features in the RFM equals the number of training samples. To close this gap, the hybrid method considered in our paper combines the respective strengths of the two most common forms of regularization: early stopping and weight decay. The scheme does not require hyperparameter tuning as it automatically selects the stopping iteration and weight decay hyperparameter by using generalized cross-validation (GCV). This also avoids the necessity of a dedicated validation set. While the benefits of hybrid methods have been well-documented for ill-posed inverse problems, our work presents the first use case in machine learning. To expose the need for regularization and motivate hybrid methods, we perform detailed numerical experiments inspired by image classification. In those examples, the hybrid scheme successfully avoids the double descent phenomenon and yields RFMs whose generalization is comparable with classical regularization approaches whose hyperparameters are tuned optimally using the test data. We provide our MATLAB codes for implementing the numerical experiments in this paper at https://github.com/E moryMLIP/HybridRFM.
翻訳日:2021-05-11 03:10:04 公開日:2020-12-11
# ディープラーニングを用いた並列化速度歪み最適化量子化

Parallelized Rate-Distortion Optimized Quantization Using Deep Learning ( http://arxiv.org/abs/2012.06380v1 )

ライセンス: Link先を確認
Dana Kianfar, Auke Wiggers, Amir Said, Reza Pourreza, Taco Cohen(参考訳) RDOQはH.264/AVC、H.265/HEVC、VP9、AV1といった最近のビデオ圧縮標準の符号化性能において重要な役割を果たしている。 このスキームは比較的小さな歪みの増加を犠牲にしてビットレートを著しく低下させる。 通常、rdoqアルゴリズムは、逐次的な性質とエントロピー符号化コストを頻繁に得る必要性から、リアルタイムなハードウェアエンコーダを実装するのに非常に高価である。 この研究は、オフラインの教師付きトレーニング中にトレードオフレートと歪みを学習するニューラルネットワークベースのアプローチを用いて、この制限に対処する。 これらのネットワークは、既存のニューラルネットワークハードウェア上で実行可能な標準的な演算のみに基づいているため、専用のRDOQ回路のために追加の領域オンチップを予約する必要はない。 我々は,完全畳み込みネットワークと自己回帰ネットワークの2種類のニューラルネットワークを訓練し,スカラー量子化(sq)などの安価量子化スキームを洗練するために設計されたポスト量子化ステップとして評価する。 両方のネットワークアーキテクチャは計算オーバーヘッドが低いように設計されている。 訓練後、HEVCのHM 16.20実装に統合され、ビデオ符号化性能はH.266/VVC共通テストシーケンスのサブセットで評価される。 RDOQとSQをHM 16.20で比較する。 提案手法は,HM SQアンカーに比べて光度に1.64%のBDレートの節約を実現し,HM RDOQアルゴリズムの性能の45%に達する。

Rate-Distortion Optimized Quantization (RDOQ) has played an important role in the coding performance of recent video compression standards such as H.264/AVC, H.265/HEVC, VP9 and AV1. This scheme yields significant reductions in bit-rate at the expense of relatively small increases in distortion. Typically, RDOQ algorithms are prohibitively expensive to implement on real-time hardware encoders due to their sequential nature and their need to frequently obtain entropy coding costs. This work addresses this limitation using a neural network-based approach, which learns to trade-off rate and distortion during offline supervised training. As these networks are based solely on standard arithmetic operations that can be executed on existing neural network hardware, no additional area-on-chip needs to be reserved for dedicated RDOQ circuitry. We train two classes of neural networks, a fully-convolutional network and an auto-regressive network, and evaluate each as a post-quantization step designed to refine cheap quantization schemes such as scalar quantization (SQ). Both network architectures are designed to have a low computational overhead. After training they are integrated into the HM 16.20 implementation of HEVC, and their video coding performance is evaluated on a subset of the H.266/VVC SDR common test sequences. Comparisons are made to RDOQ and SQ implementations in HM 16.20. Our method achieves 1.64% BD-rate savings on luminosity compared to the HM SQ anchor, and on average reaches 45% of the performance of the iterative HM RDOQ algorithm.
翻訳日:2021-05-11 03:09:41 公開日:2020-12-11
# リー群変換とスパース符号化による画像の分離

Disentangling images with Lie group transformations and sparse coding ( http://arxiv.org/abs/2012.12071v1 )

ライセンス: Link先を確認
Ho Yin Chau, Frank Qiu, Yubei Chen, Bruno Olshausen(参考訳) 離散空間パターンとその連続変換は、自然信号に含まれる2つの重要な規則性である。 リー群と表現論(英: Lie group and representation theory)は、連続的な画像変換をモデル化するために過去の研究で使われた数学的ツールである。 一方、スパース符号化は自然信号のパターンの辞書を学習するための重要なツールである。 本稿では,これらのアイデアを,空間パターンと連続的な変換を完全に教師なしの方法で解離するベイズ生成モデルに組み合わせる。 画像は形状成分のスパース重ね合わせとしてモデル化され、n個の連続変数によってパラメータ化される変換が続く。 形状成分や変換は事前に定義されていないが、代わりに変換が n-次元トーラスの表現を形成するという制約により、データの対称性を学ぶために適応される。 特定のMNIST桁の制御された幾何変換からなるデータセット上でモデルをトレーニングすると、これらの変換を桁とともに復元できることが分かる。 完全なmnistデータセットのトレーニングは、基本桁の形状と、このデータに含まれるせん断やストレッチといった自然変換の両方を学習できることを示しています。

Discrete spatial patterns and their continuous transformations are two important regularities contained in natural signals. Lie groups and representation theory are mathematical tools that have been used in previous works to model continuous image transformations. On the other hand, sparse coding is an important tool for learning dictionaries of patterns in natural signals. In this paper, we combine these ideas in a Bayesian generative model that learns to disentangle spatial patterns and their continuous transformations in a completely unsupervised manner. Images are modeled as a sparse superposition of shape components followed by a transformation that is parameterized by n continuous variables. The shape components and transformations are not predefined, but are instead adapted to learn the symmetries in the data, with the constraint that the transformations form a representation of an n-dimensional torus. Training the model on a dataset consisting of controlled geometric transformations of specific MNIST digits shows that it can recover these transformations along with the digits. Training on the full MNIST dataset shows that it can learn both the basic digit shapes and the natural transformations such as shearing and stretching that are contained in this data.
翻訳日:2021-05-11 03:08:48 公開日:2020-12-11
# 連続脳波信号における言語セグメントのオンセット検出アルゴリズム

An algorithm for onset detection of linguistic segments in continuous electroencephalogram signals ( http://arxiv.org/abs/2012.06075v1 )

ライセンス: Link先を確認
Tonatiuh Hern\'andez-Del-Toro, Carlos A. Reyes-Garc\'ia(参考訳) 想像された単語に基づく脳コンピュータインタフェースは、被験者が脳信号を通して考えている単語をデコードして、外部デバイスを制御する。 脳波信号中の想像語を源とする完全に非同期な脳神経インタフェースを構築するためには,その単語の発端を検出するという問題を解決する必要がある。 この分野ではいくつかの研究がなされているが、問題が完全に解決されていない。 本稿では,統計,情報理論,カオス理論の値を特徴として用いて,連続信号における単語の発声を正確に識別する手法を提案する。 予測した単語の出現検出において,一般化ハースト指数に基づく特徴量を用いて,本手法が達成した最大正の正の確率は0.69と0.77であり,タイミング誤差許容領域は3秒と4秒であった。

A Brain Computer Interface based on imagined words can decode the word a subject is thinking on through brain signals to control an external device. In order to build a fully asynchronous Brain Computer Interface based on imagined words in electroencephalogram signals as source, we need to solve the problem of detecting the onset of the imagined words. Although there has been some research in this field, the problem has not been fully solved. In this paper we present an approach to solve this problem by using values from statistics, information theory and chaos theory as features to correctly identify the onset of imagined words in a continuous signal. On detecting the onsets of imagined words, the highest True Positive Rate achieved by our approach was obtained using features based on the generalized Hurst exponent, this True Positive Rate was 0.69 and 0.77 with a timing error tolerance region of 3 and 4 seconds respectively.
翻訳日:2021-05-11 03:08:31 公開日:2020-12-11
# DeCoAR 2.0:ベクトル量子化を用いた深部環境音響表現

DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization ( http://arxiv.org/abs/2012.06659v1 )

ライセンス: Link先を確認
Shaoshi Ling, Yuzong Liu(参考訳) 近年の音声表現学習の成功により、ラベルなしデータを利用した音声認識モデルの訓練が可能となった。 音声表現学習では、大量のラベルのないデータを自己教師ありで使用して特徴表現を学習する。 そして、新しい特徴表現を用いて下流のASRシステムをトレーニングするためにラベル付きデータの少ない量を使用する。 従来のDeCoARと他の音声表現学習のインスピレーションに基づいて,ベクトル量子化を用いたDeCoAR 2.0を提案する。 まず、LSTMの代わりにトランスフォーマーを使用し、次に、エンコーダと再構成モジュールの間にベクトル量子化層を導入し、第3に、再構成損失とベクトル量子化の多様性損失を組み合わせて、音声表現を訓練する目的を提案する。 実験では、異なるデータスパースシナリオにおける他の音声表現に対する一貫した改善を示す。 微調整なしでは、DeCoAR 2.0でラベル付けされたデータ10時間でトレーニングされた軽量のASRモデルは、フィルタバンク機能を備えた960時間データセットでトレーニングされたモデルよりも優れている。

Recent success in speech representation learning enables a new way to leverage unlabeled data to train speech recognition model. In speech representation learning, a large amount of unlabeled data is used in a self-supervised manner to learn a feature representation. Then a smaller amount of labeled data is used to train a downstream ASR system using the new feature representations. Based on our previous work DeCoAR and inspirations from other speech representation learning, we propose DeCoAR 2.0, a Deep Contextualized Acoustic Representation with vector quantization. We introduce several modifications over the DeCoAR: first, we use Transformers in encoding module instead of LSTMs; second, we introduce a vector quantization layer between encoder and reconstruction modules; third, we propose an objective that combines the reconstructive loss with vector quantization diversity loss to train speech representations. Our experiments show consistent improvements over other speech representations in different data-sparse scenarios. Without fine-tuning, a light-weight ASR model trained on 10 hours of LibriSpeech labeled data with DeCoAR 2.0 features outperforms the model trained on the full 960-hour dataset with filterbank features.
翻訳日:2021-05-11 03:08:17 公開日:2020-12-11
# ユニバーサルユーザ表現における行動構成の活用

Exploiting Behavioral Consistence for Universal User Representation ( http://arxiv.org/abs/2012.06146v1 )

ライセンス: Link先を確認
Jie Gu, Feng Wang, Qinghui Sun, Zhiquan Ye, Xiaoxiao Xu, Jingmin Chen, Jun Zhang(参考訳) ユーザモデリングは、業界におけるパーソナライズされたサービスを開発する上で重要である。 ユーザモデリングの一般的な方法は、興味や好みによって区別できるユーザ表現を学ぶことである。 本研究では,ユニバーサルユーザ表現モデルの開発に焦点をあてる。 得られた普遍表現はリッチな情報を含むことが期待され、さらに変更を加えることなく、様々な下流アプリケーションに適用することができる(例えば、ユーザ嗜好予測とユーザプロファイリング)。 したがって、これまでの作業のように、ダウンストリームタスク毎にタスク固有のモデルをトレーニングする重い作業から解放できるのです。 具体的には,行動データを普遍表現にエンコードする自己教師型ユーザモデリングネットワーク(SUMN)を提案する。 主なコンポーネントは2つある。 1つ目は、自己教師型学習フレームワークの下で、価値あるユーザ情報の完全な識別と保存をモデルに導く、新たな学習目標である。 もうひとつはマルチホップアグリゲーション層で、さまざまな振る舞いを集約するモデルキャパシティにメリットがあります。 ベンチマークデータセットに関する広範囲な実験は、このアプローチが最先端の教師なし表現メソッドよりも優れており、教師なし表現メソッドとさえ競合することを示している。

User modeling is critical for developing personalized services in industry. A common way for user modeling is to learn user representations that can be distinguished by their interests or preferences. In this work, we focus on developing universal user representation model. The obtained universal representations are expected to contain rich information, and be applicable to various downstream applications without further modifications (e.g., user preference prediction and user profiling). Accordingly, we can be free from the heavy work of training task-specific models for every downstream task as in previous works. In specific, we propose Self-supervised User Modeling Network (SUMN) to encode behavior data into the universal representation. It includes two key components. The first one is a new learning objective, which guides the model to fully identify and preserve valuable user information under a self-supervised learning framework. The other one is a multi-hop aggregation layer, which benefits the model capacity in aggregating diverse behaviors. Extensive experiments on benchmark datasets show that our approach can outperform state-of-the-art unsupervised representation methods, and even compete with supervised ones.
翻訳日:2021-05-11 03:07:41 公開日:2020-12-11
# earthnet2021: 新しい大規模データセットと局地的気候影響予測への挑戦

EarthNet2021: A novel large-scale dataset and challenge for forecasting localized climate impacts ( http://arxiv.org/abs/2012.06246v1 )

ライセンス: Link先を確認
Christian Requena-Mesa, Vitus Benson, Joachim Denzler, Jakob Runge and Markus Reichstein(参考訳) 気候変動は世界中で起きているが、その具体的な影響は地域によって大きく異なる。 季節天気予報は現在メソスケール(1km)で運行されている。 より標的的な緩和と適応には、100m以下のモデリングの影響が必要である。 しかし、そのような局所スケールでの駆動変数と地球表面の関係は、現在の物理モデルでは未解決のままである。 大規模な地球観測データセットにより、粗い気象情報を高解像度の地球表面予測に変換できる機械学習モデルが作成できるようになった。 本稿では,地球表面の高分解能予測を,メソスケール気象予報に基づく衛星画像の映像予測として定義する。 ビデオ予測にはディープラーニングモデルが取り組まれている。 このようなモデルの開発には、分析可能なデータセットが必要です。 我々は,高分解能地形とメソスケール(1.28km)の気象条件に適合した,目標時空間センチネル2衛星画像を含む新しいキュレートデータセットであるEarthNet2021を紹介する。 32000以上のサンプルで、ディープニューラルネットワークのトレーニングに適している。 複数の地球表面の予測を比較することは簡単ではない。 そこで我々は,地球表面反射率予測モデルのための新しいランキング基準であるEarthNetScoreを定義した。 モデル相互比較では、異なるテストセットに基づいた4トラックの挑戦としてEarthNet2021をフレーム化します。 これにより、モデルの有効性とロバスト性の評価と、極端な事象と年次植生サイクルのモデル適用性が期待できる。 衛星由来の植生指標による直接観測可能な気象の影響の予測に加えて、地球表面モデルにより、作物収量予測、森林健康評価、海岸線管理、生物多様性監視といった下流の応用が可能になる。 www.earthnet.techでデータ、コード、参加方法を見つける。

Climate change is global, yet its concrete impacts can strongly vary between different locations in the same region. Seasonal weather forecasts currently operate at the mesoscale (> 1 km). For more targeted mitigation and adaptation, modelling impacts to < 100 m is needed. Yet, the relationship between driving variables and Earth's surface at such local scales remains unresolved by current physical models. Large Earth observation datasets now enable us to create machine learning models capable of translating coarse weather information into high-resolution Earth surface forecasts. Here, we define high-resolution Earth surface forecasting as video prediction of satellite imagery conditional on mesoscale weather forecasts. Video prediction has been tackled with deep learning models. Developing such models requires analysis-ready datasets. We introduce EarthNet2021, a new, curated dataset containing target spatio-temporal Sentinel 2 satellite imagery at 20 m resolution, matched with high-resolution topography and mesoscale (1.28 km) weather variables. With over 32000 samples it is suitable for training deep neural networks. Comparing multiple Earth surface forecasts is not trivial. Hence, we define the EarthNetScore, a novel ranking criterion for models forecasting Earth surface reflectance. For model intercomparison we frame EarthNet2021 as a challenge with four tracks based on different test sets. These allow evaluation of model validity and robustness as well as model applicability to extreme events and the complete annual vegetation cycle. In addition to forecasting directly observable weather impacts through satellite-derived vegetation indices, capable Earth surface models will enable downstream applications such as crop yield prediction, forest health assessments, coastline management, or biodiversity monitoring. Find data, code, and how to participate at www.earthnet.tech .
翻訳日:2021-05-11 03:07:01 公開日:2020-12-11
# 多出力ガウスプロセスによる生体物理パラメータ時系列のギャップ充填

Gap Filling of Biophysical Parameter Time Series with Multi-Output Gaussian Processes ( http://arxiv.org/abs/2012.05912v1 )

ライセンス: Link先を確認
Anna Mateo-Sanchis, Jordi Munoz-Mari, Manuel Campos-Taberner, Javier Garcia-Haro, Gustau Camps-Valls(参考訳) 本研究では,マルチアウトプット(mo)ガウス過程(gp)モデルについて,ギャップ充填条件下での生物物理パラメータ変数推定のためのコリージョン化線形モデル(lmc)に基づいて評価する。 特に,水田におけるLAIとfAPARに着目した。 本稿では,標準の単一出力(so)gpモデルではこの問題がどのように解決できないかを示し,提案するmo-gpモデルが,欠落したデータレジームにおいても,暗黙的にドメイン間情報転送を行うことで,これらの変数をうまく予測できることを示す。

In this work we evaluate multi-output (MO) Gaussian Process (GP) models based on the linear model of coregionalization (LMC) for estimation of biophysical parameter variables under a gap filling setup. In particular, we focus on LAI and fAPAR over rice areas. We show how this problem cannot be solved with standard single-output (SO) GP models, and how the proposed MO-GP models are able to successfully predict these variables even in high missing data regimes, by implicitly performing an across-domain information transfer.
翻訳日:2021-05-11 03:06:38 公開日:2020-12-11
# I-GCN:影響メカニズムによるロバストグラフ畳み込みネットワーク

I-GCN: Robust Graph Convolutional Network via Influence Mechanism ( http://arxiv.org/abs/2012.06110v1 )

ライセンス: Link先を確認
Haoxi Zhan, Xiaobing Pei(参考訳) グラフの深層学習モデル、特にグラフ畳み込みネットワーク(GCN)は、半教師付きノード分類のタスクにおいて顕著な性能を発揮している。 しかし近年の研究では、GCNは逆行性摂動に悩まされている。 このような攻撃に対する脆弱性は、セキュリティクリティカルなアプリケーションに適用される際のGCNの安定性を著しく低下させる。 各種研究により, 前処理, 注意機構, 対人訓練などの防衛手法が議論されている。 摂動率が低い場合に望ましい性能を達成することができるが、そのような手法は高い摂動率に対して脆弱である。 一方、一部の防御アルゴリズムは、ノード機能が見えない場合に性能が悪い。 そこで,本論文では,gcnsのロバスト性を高めるために,影響機構と呼ばれる新しいメカニズムを提案する。 影響メカニズムは、各ノードの効果を2つの部分に分割する: 内向的な影響は、自身の特徴を維持しようとするものであり、外向的な影響は、他のノードに影響を及ぼす。 影響メカニズムを利用して,影響GCN(I-GCN)モデルを提案する。 広範な実験により,提案手法は,非標的攻撃に対する防御において,最先端手法よりも高い精度が得られることを示した。

Deep learning models for graphs, especially Graph Convolutional Networks (GCNs), have achieved remarkable performance in the task of semi-supervised node classification. However, recent studies show that GCNs suffer from adversarial perturbations. Such vulnerability to adversarial attacks significantly decreases the stability of GCNs when being applied to security-critical applications. Defense methods such as preprocessing, attention mechanism and adversarial training have been discussed by various studies. While being able to achieve desirable performance when the perturbation rates are low, such methods are still vulnerable to high perturbation rates. Meanwhile, some defending algorithms perform poorly when the node features are not visible. Therefore, in this paper, we propose a novel mechanism called influence mechanism, which is able to enhance the robustness of the GCNs significantly. The influence mechanism divides the effect of each node into two parts: introverted influence which tries to maintain its own features and extroverted influence which exerts influences on other nodes. Utilizing the influence mechanism, we propose the Influence GCN (I-GCN) model. Extensive experiments show that our proposed model is able to achieve higher accuracy rates than state-of-the-art methods when defending against non-targeted attacks.
翻訳日:2021-05-11 03:06:28 公開日:2020-12-11
# 非線形ダイナミクスのエンドツーエンドモデリングのためのニューラルダイナミックモード分解

Neural Dynamic Mode Decomposition for End-to-End Modeling of Nonlinear Dynamics ( http://arxiv.org/abs/2012.06191v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yoshinobu Kawahara(参考訳) Koopmanスペクトル分析は非線形関数を用いて観測を持ち上げることで非線形状態を用いて非線形力学を解析できる非線形力学系を理解することに注目されている。 解析のためには、適切なリフト関数を見つける必要がある。 ニューラルネットワークに基づくリフト関数の推定にはいくつかの手法が提案されているが、既存の手法ではスペクトル解析を行わずにニューラルネットワークを訓練している。 本稿では,昇降空間のスペクトル分解に基づいて動的にモデル化された場合,予測誤差を最小限に抑えるようにニューラルネットワークを訓練するニューラルダイナミックモード分解を提案する。 提案手法では,予測誤差をニューラルネットワークとスペクトル分解によって再伝播し,クープマンスペクトル解析のエンドツーエンド学習を可能にする。 力学の周波数や成長速度に関する情報が得られれば,本手法は正規化器として活用することができる。 また,外因性制御時系列の影響を受ければ,我々のアプローチの拡張も提案する。 提案手法の有効性を,固有値推定と予測性能の観点から実証した。

Koopman spectral analysis has attracted attention for understanding nonlinear dynamical systems by which we can analyze nonlinear dynamics with a linear regime by lifting observations using a nonlinear function. For analysis, we need to find an appropriate lift function. Although several methods have been proposed for estimating a lift function based on neural networks, the existing methods train neural networks without spectral analysis. In this paper, we propose neural dynamic mode decomposition, in which neural networks are trained such that the forecast error is minimized when the dynamics is modeled based on spectral decomposition in the lifted space. With our proposed method, the forecast error is backpropagated through the neural networks and the spectral decomposition, enabling end-to-end learning of Koopman spectral analysis. When information is available on the frequencies or the growth rates of the dynamics, the proposed method can exploit it as regularizers for training. We also propose an extension of our approach when observations are influenced by exogenous control time-series. Our experiments demonstrate the effectiveness of our proposed method in terms of eigenvalue estimation and forecast performance.
翻訳日:2021-05-11 03:06:12 公開日:2020-12-11
# 密度に基づく計量学習による内在的永続的ホモロジー

Intrinsic persistent homology via density-based metric learning ( http://arxiv.org/abs/2012.07621v1 )

ライセンス: Link先を確認
Eugenio Borghini, Ximena Fern\'andez, Pablo Groisman, Gabriel Mindlin(参考訳) 有限サンプルから多様体内の固有距離を推定する問題に対処する。 サンプルによって定義される計量空間は、サンプルフェルマー距離として知られる計算可能な計量で与えられ、グロモフ・ハウスドルフの意味で a.s. に収束する。 制限対象は多様体自身に、多様体の幾何学とサンプルを生成する密度の両方を考慮に入れた内在的な計量である集団フェルマー距離(英語版)が与えられている。 この結果を用いて、本質的な永続図に向かって収束するサンプル永続図を得る。 本手法は理論的結果と計算実験によりユークリッドノルムに基づくより標準的な手法よりも優れていることを示す。

We address the problem of estimating intrinsic distances in a manifold from a finite sample. We prove that the metric space defined by the sample endowed with a computable metric known as sample Fermat distance converges a.s. in the sense of Gromov-Hausdorff. The limiting object is the manifold itself endowed with the population Fermat distance, an intrinsic metric that accounts for both the geometry of the manifold and the density that produces the sample. This result is applied to obtain sample persistence diagrams that converge towards an intrinsic persistence diagram. We show that this method outperforms more standard approaches based on Euclidean norm with theoretical results and computational experiments.
翻訳日:2021-05-11 03:05:56 公開日:2020-12-11
# 正規化制約を持つスパースニューラルネットワーク層に基づく特徴選択

Feature Selection Based on Sparse Neural Network Layer with Normalizing Constraints ( http://arxiv.org/abs/2012.06365v1 )

ライセンス: Link先を確認
Peter Bugata and Peter Drotar(参考訳) 高次元データの次元性の呪いを抑えながら、予測精度を向上させることが示されているため、機械学習において特徴選択は重要なステップである。 ニューラルネットワークは多くの非線形学習問題の解決に多大な成功を収めてきた。 本稿では,2つの制約を導入するニューラルネットワークに基づく特徴選択手法を提案する。 提案するfsの性能を評価するために,合成データと実世界データについて広範な実験を行った。 実験では,特徴選択の主な課題として,高次元,低サンプルサイズデータに着目した。 その結果,正規化制約付きスパースニューラルネットワーク層(SNEL-FS)に基づく特徴選択は,従来のFS法と比較して重要な特徴を選択でき,優れた性能が得られることを確認した。

Feature selection is important step in machine learning since it has shown to improve prediction accuracy while depressing the curse of dimensionality of high dimensional data. The neural networks have experienced tremendous success in solving many nonlinear learning problems. Here, we propose new neural-network based feature selection approach that introduces two constrains, the satisfying of which leads to sparse FS layer. We have performed extensive experiments on synthetic and real world data to evaluate performance of the proposed FS. In experiments we focus on the high dimension, low sample size data since those represent the main challenge for feature selection. The results confirm that proposed Feature Selection Based on Sparse Neural Network Layer with Normalizing Constraints (SNEL-FS) is able to select the important features and yields superior performance compared to other conventional FS methods.
翻訳日:2021-05-11 03:05:46 公開日:2020-12-11
# AIforCOVID: 新型コロナウイルス患者の胸部X線にAIを適用した臨床結果を予測する。 イタリアの多元研究

AIforCOVID: predicting the clinical outcomes in patients with COVID-19 applying AI to chest-X-rays. An Italian multicentre study ( http://arxiv.org/abs/2012.06531v1 )

ライセンス: Link先を確認
Paolo Soda, Natascha Claudia D'Amico, Jacopo Tessadori, Giovanni Valbusa, Valerio Guarrasi, Chandra Bortolotto, Muhammad Usman Akbar, Rosa Sicilia, Ermanno Cordelli, Deborah Fazzini, Michaela Cellina, Giancarlo Oliva, Giovanni Callea, Silvia Panella, Maurizio Cariati, Diletta Cozzi, Vittorio Miele, Elvira Stellato, Gian Paolo Carrafiello, Giulia Castorani, Annalisa Simeone, Lorenzo Preda, Giulio Iannello, Alessio Del Bue, Fabio Tedoldi, Marco Al\`i, Diego Sona and Sergio Papa(参考訳) 最近の疫学的データによると、世界中で5300万人以上がSARS-CoV-2に感染し、1300万人が死亡した。 この病気は、最初の感染者の特定から数ヶ月後、急速に拡大しており、すぐに病院の資源不足が問題となった。 本研究は,胸部X線(CXR)を,集中治療や死亡などの重篤な結果のリスクのある患者を早期に同定するためのツールとして利用できるかを検討する。 CXRは、CT(Computed tomography)と比較して、より単純で、より速く、より広く、放射線線量を減らす放射線技術である。 2020年春にイタリアの6つの病院から820人の患者から収集されたデータを含むデータセットを提案する。 データセットには、CXR画像、いくつかの臨床属性、臨床結果が含まれる。 重症例と軽症例を区別し,その予後を予測するための人工知能の可能性を検討した。 そこで本研究では,CXR画像から抽出した特徴を,畳み込み神経ネットワークによって手作りまたは自動で利用し,臨床データと統合する3つのアプローチを提案する。 被曝評価は10倍と1セントのクロスバリデーションの両方で有望なパフォーマンスを示し、臨床データや画像が患者や病院の資源管理に有用な情報を提供する可能性があることを示唆している。

Recent epidemiological data report that worldwide more than 53 million people have been infected by SARS-CoV-2, resulting in 1.3 million deaths. The disease has been spreading very rapidly and few months after the identification of the first infected, shortage of hospital resources quickly became a problem. In this work we investigate whether chest X-ray (CXR) can be used as a possible tool for the early identification of patients at risk of severe outcome, like intensive care or death. CXR is a radiological technique that compared to computed tomography (CT) it is simpler, faster, more widespread and it induces lower radiation dose. We present a dataset including data collected from 820 patients by six Italian hospitals in spring 2020 during the first COVID-19 emergency. The dataset includes CXR images, several clinical attributes and clinical outcomes. We investigate the potential of artificial intelligence to predict the prognosis of such patients, distinguishing between severe and mild cases, thus offering a baseline reference for other researchers and practitioners. To this goal, we present three approaches that use features extracted from CXR images, either handcrafted or automatically by convolutional neuronal networks, which are then integrated with the clinical data. Exhaustive evaluation shows promising performance both in 10-fold and leave-one-centre-out cross-validation, implying that clinical data and images have the potential to provide useful information for the management of patients and hospital resources.
翻訳日:2021-05-11 03:05:33 公開日:2020-12-11
# 生成的モデルと分布外検出のための生成的adversarial trainingの分析と改善

Analyzing and Improving Generative Adversarial Training for Generative Modeling and Out-of-Distribution Detection ( http://arxiv.org/abs/2012.06568v1 )

ライセンス: Link先を確認
Xuwang Yin, Shiying Li, Gustavo K. Rohde(参考訳) gat(generative adversarial training)は、最近導入された防御法である。 従来の研究は、堅牢な予測モデルをトレーニングするための実験的な評価に重点を置いてきた。 本稿では,gat法を理論的に理解し,生成的モデリングと分散検出に応用することに焦点を当てる。 我々は, GAT の目的によって用いられる最大値定式化の最適解を解析し, GAN が使用する最小値定式化の比較分析を行う。 学習アルゴリズムの収束特性を理解するために,理論解析と2次元シミュレーションを用いる。 これらの結果に基づき,漸進的生成訓練アルゴリズムを開発し,画像生成および逆分布検出に対するアルゴリズムの適用に関する包括的評価を行う。 以上の結果から,生成的敵意訓練は,上記の応用において有望な新しい方向性であることが示唆された。

Generative adversarial training (GAT) is a recently introduced adversarial defense method. Previous works have focused on empirical evaluations of its application to training robust predictive models. In this paper we focus on theoretical understanding of the GAT method and extending its application to generative modeling and out-of-distribution detection. We analyze the optimal solutions of the maximin formulation employed by the GAT objective, and make a comparative analysis of the minimax formulation employed by GANs. We use theoretical analysis and 2D simulations to understand the convergence property of the training algorithm. Based on these results, we develop an incremental generative training algorithm, and conduct comprehensive evaluations of the algorithm's application to image generation and adversarial out-of-distribution detection. Our results suggest that generative adversarial training is a promising new direction for the above applications.
翻訳日:2021-05-11 03:05:09 公開日:2020-12-11
# EQG-RACE:試験型質問生成

EQG-RACE: Examination-Type Question Generation ( http://arxiv.org/abs/2012.06106v1 )

ライセンス: Link先を確認
Xin Jia, Wenjie Zhou, Xu Sun, Yunfang Wu(参考訳) 質問生成(QG)は,読み書きの実践や評価を容易にするための高品質な質問を生成することを目的とした,インテリジェントな自動学習システムの重要な構成要素である。 しかし、既存のQG技術は、主にWebから得られるデータセットのバイアス付きおよび非自然な言語源に関するいくつかの重要な問題に直面している(例)。 SQAD)。 本稿では, RACEから抽出したデータセットに基づいて, テストライクな質問を生成するための革新的な試験型質問生成手法(EQG-RACE)を提案する。 EQG-RACEには2つの主要な戦略が採用されている。 入力の表現を強化するために、粗い回答とキーワードのタグ付け方式を用いる。 応答誘導グラフ畳み込みネットワーク (ag-gcn) は, 文間関係と文間関係を明らかにする際に構造情報をキャプチャするように設計されている。 実験の結果,EQG-RACEはベースラインよりも優れていることがわかった。 さらに,本研究は,新たなQGプロトタイプとデータセットとQG手法を構築し,今後の研究における重要なベンチマークを提供する。 さらなる研究のために、私たちのデータとコードを公開します。

Question Generation (QG) is an essential component of the automatic intelligent tutoring systems, which aims to generate high-quality questions for facilitating the reading practice and assessments. However, existing QG technologies encounter several key issues concerning the biased and unnatural language sources of datasets which are mainly obtained from the Web (e.g. SQuAD). In this paper, we propose an innovative Examination-type Question Generation approach (EQG-RACE) to generate exam-like questions based on a dataset extracted from RACE. Two main strategies are employed in EQG-RACE for dealing with discrete answer information and reasoning among long contexts. A Rough Answer and Key Sentence Tagging scheme is utilized to enhance the representations of input. An Answer-guided Graph Convolutional Network (AG-GCN) is designed to capture structure information in revealing the inter-sentences and intra-sentence relations. Experimental results show a state-of-the-art performance of EQG-RACE, which is apparently superior to the baselines. In addition, our work has established a new QG prototype with a reshaped dataset and QG method, which provides an important benchmark for related research in future work. We will make our data and code publicly available for further research.
翻訳日:2021-05-11 03:04:43 公開日:2020-12-11
# 和英会話パラレルコーパスの文書化

Document-aligned Japanese-English Conversation Parallel Corpus ( http://arxiv.org/abs/2012.06143v1 )

ライセンス: Link先を確認
Mat\=iss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa(参考訳) 文レベル(sl)機械翻訳(mt)は多くの高ソース言語で受け入れられる品質に達しているが、ドキュメントレベル(dl)mtは、1)少量のdlデータでトレーニングすること、2)主要な手法とデータセットとしてsl評価に焦点を当てている。 最初の課題に対処するために、調整とテストのためのバランスのとれた高品質なビジネス会話データを含む和英会話コーパスを提案する。 第2の課題は、SL MTが文脈の欠如により適切な翻訳を作成できない主な領域を手動で特定することである。 次に,これらの現象をアノテートしてDLシステムの自動評価を緩和する評価セットを作成する。 私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。

Sentence-level (SL) machine translation (MT) has reached acceptable quality for many high-resourced languages, but not document-level (DL) MT, which is difficult to 1) train with little amount of DL data; and 2) evaluate, as the main methods and data sets focus on SL evaluation. To address the first issue, we present a document-aligned Japanese-English conversation corpus, including balanced, high-quality business conversation data for tuning and testing. As for the second issue, we manually identify the main areas where SL MT fails to produce adequate translations in lack of context. We then create an evaluation set where these phenomena are annotated to alleviate automatic evaluation of DL systems. We train MT models using our corpus to demonstrate how using context leads to improvements.
翻訳日:2021-05-11 03:04:24 公開日:2020-12-11
# レイヤマッピング探索によるタスク非依存BERT蒸留の改善

Improving Task-Agnostic BERT Distillation with Layer Mapping Search ( http://arxiv.org/abs/2012.06153v1 )

ライセンス: Link先を確認
Xiaoqi Jiao, Huating Chang, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang and Qun Liu(参考訳) 近年,大規模な教師モデルから小学生モデルに知識を伝達する知識蒸留(KD)が,BERTモデルを圧縮するために広く利用されている。 KDの出力の監督に加えて、最近の研究は、階層レベルの監督が学生BERTモデルの性能に不可欠であることを示している。 しかし、以前の作品では層マッピング戦略をヒューリスティックに設計しており(一様層や最後の層など)、性能を低下させる可能性がある。 本稿では,遺伝的アルゴリズム(ga)を用いて最適な層マッピングを自動的に探索する手法を提案する。 探索過程を高速化するために,蒸留のためにトレーニングコーパスのごく一部をサンプリングし,評価のために3つの代表的なタスクを選択するプロキシ設定を提案する。 最適層マッピングを得た後、コーパス全体に対してタスク非依存のBERT蒸留を行い、下流タスクを直接微調整できるコンパクトな学生モデルを構築する。 評価ベンチマークの総合的な実験から,1) 階層マッピング戦略がタスクに依存しないBERT蒸留や異なるレイヤマッピングに重大な影響があること,2) 提案した探索プロセスからの最適レイヤマッピング戦略が他のヒューリスティックな手法より一貫して優れていること,3) 最適レイヤマッピングでは,GLUEタスクにおける最先端のパフォーマンスが達成できること,などが示されている。

Knowledge distillation (KD) which transfers the knowledge from a large teacher model to a small student model, has been widely used to compress the BERT model recently. Besides the supervision in the output in the original KD, recent works show that layer-level supervision is crucial to the performance of the student BERT model. However, previous works designed the layer mapping strategy heuristically (e.g., uniform or last-layer), which can lead to inferior performance. In this paper, we propose to use the genetic algorithm (GA) to search for the optimal layer mapping automatically. To accelerate the search process, we further propose a proxy setting where a small portion of the training corpus are sampled for distillation, and three representative tasks are chosen for evaluation. After obtaining the optimal layer mapping, we perform the task-agnostic BERT distillation with it on the whole corpus to build a compact student model, which can be directly fine-tuned on downstream tasks. Comprehensive experiments on the evaluation benchmarks demonstrate that 1) layer mapping strategy has a significant effect on task-agnostic BERT distillation and different layer mappings can result in quite different performances; 2) the optimal layer mapping strategy from the proposed search process consistently outperforms the other heuristic ones; 3) with the optimal layer mapping, our student model achieves state-of-the-art performance on the GLUE tasks.
翻訳日:2021-05-11 03:04:08 公開日:2020-12-11
# Morphology Matters:多言語言語モデリング分析

Morphology Matters: A Multilingual Language Modeling Analysis ( http://arxiv.org/abs/2012.06262v1 )

ライセンス: Link先を確認
Hyunji Hayley Park, Katherine J. Zhang, Coleman Haley, Kenneth Steimel, Han Liu, Lane Schwartz(参考訳) 言語モデリングの先行研究(Cotterell et al., 2018; Mielke et al., 2019)では、屈折形態学が言語をモデル化しにくくするかどうかについて意見が分かれている。 我々はその意見の相違を解消し、研究を拡張しようと試みる。 我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。 我々は,いくつかの言語で欠落しているタイプ学データを埋め,専門的なタイプ学的特徴に加えて,形態的複雑性のコーパスに基づく尺度を検討する。 LSTMモデルにBPE分類データを適用した場合,いくつかの形態的測定値が高い確率に大きく関連していることが判明した。 また,Morfessor や Finite-State Transducers (FSTs) のような言語的に動機付けられたサブワードセグメンテーション戦略も検討し,これらのセグメンテーション戦略が言語モデルに対する言語形態の影響を低減し,より良い性能をもたらすことを見出した。

Prior studies in multilingual language modeling (e.g., Cotterell et al., 2018; Mielke et al., 2019) disagree on whether or not inflectional morphology makes languages harder to model. We attempt to resolve the disagreement and extend those studies. We compile a larger corpus of 145 Bible translations in 92 languages and a larger number of typological features. We fill in missing typological data for several languages and consider corpus-based measures of morphological complexity in addition to expert-produced typological features. We find that several morphological measures are significantly associated with higher surprisal when LSTM models are trained with BPE-segmented data. We also investigate linguistically-motiv ated subword segmentation strategies like Morfessor and Finite-State Transducers (FSTs) and find that these segmentation strategies yield better performance and reduce the impact of a language's morphology on language modeling.
翻訳日:2021-05-11 03:03:40 公開日:2020-12-11
# ゼロショット言語間伝達における直交言語とタスクアダプタ

Orthogonal Language and Task Adapters in Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2012.06460v1 )

ライセンス: Link先を確認
Marko Vidoni, Ivan Vuli\'c, Goran Glava\v{s}(参考訳) アダプタモジュール、事前学習されたトランスフォーマーの効率的な微調整を可能にする追加のトレーニング可能なパラメータは、最近多言語トランスフォーマーの言語特化、下流のゼロショットクロスリンガル転送の改善に使用されている。 本稿では,言語間変換のための直交言語とタスクアダプタ(dubbed orthoadapter)を提案する。 それらは、事前訓練されたトランスフォーマーのパラメータに既に格納されている知識と相補的な(直交する)言語およびタスク固有の情報をエンコードするように訓練される。 本研究では,3つのタスク(POSタグ,NER,NLI)と10の多言語からなるゼロショット言語間移動実験を行い,特に最も複雑なNLIタスクにおいて,オーソラアダプタの有用性を示すとともに,最適アダプタ構成がタスクとターゲット言語に大きく依存していることを示した。 我々の研究は、事前訓練されたトランスフォーマーの言語およびタスク固有の微調整における直交制約の有用性に関するより広範な調査を動機付けることを願っている。

Adapter modules, additional trainable parameters that enable efficient fine-tuning of pretrained transformers, have recently been used for language specialization of multilingual transformers, improving downstream zero-shot cross-lingual transfer. In this work, we propose orthogonal language and task adapters (dubbed orthoadapters) for cross-lingual transfer. They are trained to encode language- and task-specific information that is complementary (i.e., orthogonal) to the knowledge already stored in the pretrained transformer's parameters. Our zero-shot cross-lingual transfer experiments, involving three tasks (POS-tagging, NER, NLI) and a set of 10 diverse languages, 1) point to the usefulness of orthoadapters in cross-lingual transfer, especially for the most complex NLI task, but also 2) indicate that the optimal adapter configuration highly depends on the task and the target language. We hope that our work will motivate a wider investigation of usefulness of orthogonality constraints in language- and task-specific fine-tuning of pretrained transformers.
翻訳日:2021-05-11 03:03:23 公開日:2020-12-11
# TF-CR:テキスト分類のための重み付け埋め込み

TF-CR: Weighting Embeddings for Text Classification ( http://arxiv.org/abs/2012.06606v1 )

ライセンス: Link先を確認
Arkaitz Zubiaga(参考訳) テキスト分類は、カテゴリをテキストインスタンスに割り当てるタスクとして、情報科学において非常に一般的なタスクである。 近年,テキスト分類作業に使用する機能として,単語埋め込みなどの単語の分散表現を学習する手法が普及している。 テキスト分類における単語の埋め込みの増大にもかかわらず、これらは一般に教師なしの方法で使用される。 トレーニングデータの クラスラベルから派生した情報は 利用されない。 単語埋め込みは、本質的に単語の分布特性と、その周辺で観測されるコンテキストを大きなデータセットで捉えるが、手前の分類データセットのカテゴリ間で単語の分布を考えることは最適化されていない。 学習データにクラス分布を組み込むことで、単語埋め込みに基づくテキスト表現を最適化するために、各クラスにおけるそのサリエンシーに基づいて各単語の埋め込みに重みを割り当てる重み付けスキームの使用を提案する。 これを実現するために、単語埋め込みの計算において、高頻度のカテゴリー排他語を重み付けできる新しい重み付け方式TF-CR(Term Frequency-Category Ratio)を導入する。 16の分類データセットに対する実験によりTF-CRの有効性が示され、既存の重み付け方式よりも性能スコアが向上し、トレーニングデータのサイズが大きくなるにつれて性能差が増大した。

Text classification, as the task consisting in assigning categories to textual instances, is a very common task in information science. Methods learning distributed representations of words, such as word embeddings, have become popular in recent years as the features to use for text classification tasks. Despite the increasing use of word embeddings for text classification, these are generally used in an unsupervised manner, i.e. information derived from class labels in the training data are not exploited. While word embeddings inherently capture the distributional characteristics of words, and contexts observed around them in a large dataset, they aren't optimised to consider the distributions of words across categories in the classification dataset at hand. To optimise text representations based on word embeddings by incorporating class distributions in the training data, we propose the use of weighting schemes that assign a weight to embeddings of each word based on its saliency in each class. To achieve this, we introduce a novel weighting scheme, Term Frequency-Category Ratio (TF-CR), which can weight high-frequency, category-exclusive words higher when computing word embeddings. Our experiments on 16 classification datasets show the effectiveness of TF-CR, leading to improved performance scores over existing weighting schemes, with a performance gap that increases as the size of the training data grows.
翻訳日:2021-05-11 03:03:04 公開日:2020-12-11
# 比較テキスト分析の複雑さ -- 「庭師は常に殺人者」

The Complexity of Comparative Text Analysis -- "The Gardener is always the Murderer" says the Fourth Machine ( http://arxiv.org/abs/2012.07637v1 )

ライセンス: Link先を確認
Marcus Weber and Konstantin Fackeldey(参考訳) コンピューターがテキスト分析の複雑さを、人間研究者全体の能力と比較すると、どこまで地図化できるかという熱い議論がある。 与えられたテキストの「深い」分析は現代のコンピュータの可能性を超越している。 既存の計算テキスト解析アルゴリズムの中心には、代数体の規則に従って加算や乗算などの実数を扱う演算が存在する。 しかし、「比較」の過程は、代数体の構造とは異なる非常に正確な数学的構造を持つ。 比較」の数学的構造はブール環を用いて表現することができる。 この構造の上に構築し、対応する代数方程式を定義し、比較テキスト解析のアルゴリズムを「正しい」代数基底に引き上げる。 この観点から,比較テキスト解析における計算複雑性の問題を検討することができる。

There is a heated debate about how far computers can map the complexity of text analysis compared to the abilities of the whole team of human researchers. A "deep" analysis of a given text is still beyond the possibilities of modern computers. In the heart of the existing computational text analysis algorithms there are operations with real numbers, such as additions and multiplications according to the rules of algebraic fields. However, the process of "comparing" has a very precise mathematical structure, which is different from the structure of an algebraic field. The mathematical structure of "comparing" can be expressed by using Boolean rings. We build on this structure and define the corresponding algebraic equations lifting algorithms of comparative text analysis onto the "correct" algebraic basis. From this point of view, we can investigate the question of {\em computational} complexity of comparative text analysis.
翻訳日:2021-05-11 03:02:42 公開日:2020-12-11
# 新しいジョイントポイントとシルエットを用いた3次元人物のポーズと形状推定法

A novel joint points and silhouette-based method to estimate 3D human pose and shape ( http://arxiv.org/abs/2012.06109v1 )

ライセンス: Link先を確認
Zhongguo Li and Anders Heyden and Magnus Oskarsson(参考訳) 本稿では, パラメトリックモデルに基づく手動点とシルエットを用いて, 疎視画像から3次元人物のポーズと形状を推定する新しい手法を提案する。 まず、深層学習に基づく人間のポーズ推定によって推定される関節点にパラメトリックモデルを適用する。 次に,2次元空間と3次元空間におけるポーズフィッティングのパラメトリックモデルとシルエットの対応関係を抽出する。 対応に基づく新しいエネルギー関数が構築され、シルエットにパラメトリックモデルに適合するように最小化される。 シルエットのエネルギー関数は2次元空間と3次元空間の両方から構築されているため,形状情報の利用は十分である。 これはまた、使用するデータと必要な事前情報とのバランスをとるスパースビューからのイメージのみを必要とすることを意味する。 合成データと実データの結果から,人体のポーズと形状推定におけるアプローチの競争力が示された。

This paper presents a novel method for 3D human pose and shape estimation from images with sparse views, using joint points and silhouettes, based on a parametric model. Firstly, the parametric model is fitted to the joint points estimated by deep learning-based human pose estimation. Then, we extract the correspondence between the parametric model of pose fitting and silhouettes on 2D and 3D space. A novel energy function based on the correspondence is built and minimized to fit parametric model to the silhouettes. Our approach uses sufficient shape information because the energy function of silhouettes is built from both 2D and 3D space. This also means that our method only needs images from sparse views, which balances data used and the required prior information. Results on synthetic data and real data demonstrate the competitive performance of our approach on pose and shape estimation of the human body.
翻訳日:2021-05-11 03:02:31 公開日:2020-12-11
# 色関連局所バイナリパターン:カラー画像認識のための学習ローカル記述子

Color-related Local Binary Pattern: A Learned Local Descriptor for Color Image Recognition ( http://arxiv.org/abs/2012.06132v1 )

ライセンス: Link先を確認
Bin Xiao, Tao Geng, Xiuli Bi, Weisheng Li(参考訳) ローカルバイナリパターン(lbp)は、その単純さ、実装の容易さ、画像認識における強力な識別能力を示している。 いくつかのlbp変種はカラー画像認識のために特に研究されているが、画像の色情報は十分に考慮されておらず、分類における次元の呪いがこれらの手法で容易に引き起こされる。 本稿では,カラー画像認識のために,デコードされたlppから支配的なパターンを学習する色関連局所二分パターン(clbp)を提案する。 本稿ではまず,カラー画像を記述するための画像チャネル間の色相似性を表す相対相似性空間(rss)を提案する。 そして、rss伝統的rgb空間の各カラーチャネルに対応するlpp特徴マップ間の相関情報をマイニング可能な復号化されたlppを用いて特徴抽出を行う。 最後に、特徴ベクトルの次元を減少させ、さらに特徴の識別性を向上させるために、支配的な色関連パターンを学ぶために特徴学習戦略を用いる。 理論解析により,提案するrssは,従来のrgb空間よりも,より識別的情報を提供し,高い雑音ロバスト性と高い照明変動ロバスト性を有することが示された。 4つのグループ,全12のパブリックカラー画像データセットによる実験結果から,提案手法は特徴の次元,ノイズフリー,ノイズ,照明条件下での認識精度において,LBPの変種の大部分より優れていた。

Local binary pattern (LBP) as a kind of local feature has shown its simplicity, easy implementation and strong discriminating power in image recognition. Although some LBP variants are specifically investigated for color image recognition, the color information of images is not adequately considered and the curse of dimensionality in classification is easily caused in these methods. In this paper, a color-related local binary pattern (cLBP) which learns the dominant patterns from the decoded LBP is proposed for color images recognition. This paper first proposes a relative similarity space (RSS) that represents the color similarity between image channels for describing a color image. Then, the decoded LBP which can mine the correlation information between the LBP feature maps correspond to each color channel of RSS traditional RGB spaces, is employed for feature extraction. Finally, a feature learning strategy is employed to learn the dominant color-related patterns for reducing the dimension of feature vector and further improving the discriminatively of features. The theoretic analysis show that the proposed RSS can provide more discriminative information, and has higher noise robustness as well as higher illumination variation robustness than traditional RGB space. Experimental results on four groups, totally twelve public color image datasets show that the proposed method outperforms most of the LBP variants for color image recognition in terms of dimension of features, recognition accuracy under noise-free, noisy and illumination variation conditions.
翻訳日:2021-05-11 03:02:17 公開日:2020-12-11
# 高分解能ビデオ合成のための固有時間規則化

Intrinsic Temporal Regularization for High-resolution Human Video Synthesis ( http://arxiv.org/abs/2012.06134v1 )

ライセンス: Link先を確認
Lingbo Yang, Zhanning Gao, Peiran Ren, Siwei Ma, Wen Gao(参考訳) 時間的一貫性は、画像処理パイプラインをビデオドメインに拡張する上で非常に重要です。 しかし,人間の映像合成では,音源と対象映像のずれや正確な流れ推定の難しさから,その信頼性は低下している。 本稿では,フレーム生成器を介して固有信頼度マップを推定し,時間的損失変調による動き推定を制御し,これらの問題を緩和するための有効な固有時間正規化手法を提案する。 これにより、前端運動推定器に直接時間的損失勾配をバックプロパゲーションするショートカットが作成され、出力ビデオのトレーニング安定性と時間的コヒーレンスが向上する。 我々は、時間的コヒーレントでリアルな視覚的ディテールを備えた512\times512$の人間のアクションビデオを生成することができる強力な「INTERnet」を実現する。 大規模な実験は、いくつかの競争基盤線よりも提案されたInternetの優位性を実証している。

Temporal consistency is crucial for extending image processing pipelines to the video domain, which is often enforced with flow-based warping error over adjacent frames. Yet for human video synthesis, such scheme is less reliable due to the misalignment between source and target video as well as the difficulty in accurate flow estimation. In this paper, we propose an effective intrinsic temporal regularization scheme to mitigate these issues, where an intrinsic confidence map is estimated via the frame generator to regulate motion estimation via temporal loss modulation. This creates a shortcut for back-propagating temporal loss gradients directly to the front-end motion estimator, thus improving training stability and temporal coherence in output videos. We apply our intrinsic temporal regulation to single-image generator, leading to a powerful "INTERnet" capable of generating $512\times512$ resolution human action videos with temporal-coherent, realistic visual details. Extensive experiments demonstrate the superiority of proposed INTERnet over several competitive baselines.
翻訳日:2021-05-11 03:01:54 公開日:2020-12-11
# 空間制約付きサブスペースクラスタリングに基づくスーパーピクセルセグメンテーション

Superpixel Segmentation Based on Spatially Constrained Subspace Clustering ( http://arxiv.org/abs/2012.06149v1 )

ライセンス: Link先を確認
Hua Li, Yuheng Jia, Runmin Cong, Wenhui Wu, Sam Kwong, and Chuanbo Chen(参考訳) スーパーピクセルセグメンテーション(Superpixel segmentation)は、入力画像を、各スーパーピクセルの形状と大きさに関する事前の知識なしに、類似で一貫した固有の特性を持つ画素を含むいくつかの代表領域に分割することを目的とする。 本稿では,細部境界の維持が困難である産業作業におけるスーパーピクセルセグメンテーションの限界を軽減するため,各代表領域に独立したセマンティック情報をサブスペースとみなし,それに対応するスーパーピクセルセグメンテーションをサブスペースクラスタリング問題として定式化し,より詳細なコンテンツバウンダリを保存する。 従来のサブスペースクラスタリングとスーパーピクセルセグメンテーションの単純な統合は、スーパーピクセル内のピクセルの空間的相関のために効果的に機能しないため、相関を無視すると境界混乱やセグメンテーションエラーを引き起こす可能性がある。 その結果,空間正規化を考案し,空間隣接画素を類似属性で制約し,より詳細な境界を持つコンテンツ対応スーパーピクセルを生成することのできる,凸局所性制約付きサブスペースクラスタリングモデルを提案する。 最後に,乗算器 (ADMM) の効率的な交互方向法により,提案手法を解く。 異なる標準データセットに対する実験により,提案手法は,いくつかの最先端手法と比較して,定量的かつ質的に優れた性能を発揮することが示された。

Superpixel segmentation aims at dividing the input image into some representative regions containing pixels with similar and consistent intrinsic properties, without any prior knowledge about the shape and size of each superpixel. In this paper, to alleviate the limitation of superpixel segmentation applied in practical industrial tasks that detailed boundaries are difficult to be kept, we regard each representative region with independent semantic information as a subspace, and correspondingly formulate superpixel segmentation as a subspace clustering problem to preserve more detailed content boundaries. We show that a simple integration of superpixel segmentation with the conventional subspace clustering does not effectively work due to the spatial correlation of the pixels within a superpixel, which may lead to boundary confusion and segmentation error when the correlation is ignored. Consequently, we devise a spatial regularization and propose a novel convex locality-constrained subspace clustering model that is able to constrain the spatial adjacent pixels with similar attributes to be clustered into a superpixel and generate the content-aware superpixels with more detailed boundaries. Finally, the proposed model is solved by an efficient alternating direction method of multipliers (ADMM) solver. Experiments on different standard datasets demonstrate that the proposed method achieves superior performance both quantitatively and qualitatively compared with some state-of-the-art methods.
翻訳日:2021-05-11 03:01:36 公開日:2020-12-11
# 大ベースライン深部ホログラフィーによるエッジ保存画像スティッチの学習

Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography ( http://arxiv.org/abs/2012.06194v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Yao Zhao(参考訳) 画像縫合はコンピュータビジョンにおいて古典的で重要な技法であり、広い視野で画像を生成することを目的としている。 従来の手法は特徴検出に大きく依存しており、シーンの特徴が密度が高く、画像に均等に分散していることが必要であり、ゴースト効果やロバスト性に乏しい。 学習方法は、通常、固定ビューと入力サイズ制限に悩まされ、他の実際のデータセットに対する一般化能力の欠如を示す。 本稿では,大きなベースライン深部ホモグラフィモジュールとエッジ保存変形モジュールからなる画像縫合学習フレームワークを提案する。 まず,異なる特徴量で参照画像と対象画像の正確な投影変換を推定するための,大規模ベースライン深層ホログラフィーモジュールを提案する。 その後、エッジ保存変形モジュールは、画像縫合の変形規則をエッジからコンテンツへと学習し、ゴースト効果を極力排除するように設計されている。 特に,提案する学習フレームワークは,任意の視点や入力サイズの画像を縫い合わせることができ,他の実画像の一般化能力に優れた教師あり深部画像縫い法に寄与する。 実験の結果,我々のホモグラフィモジュールは,既存の深層ホモグラフィ法を大きく上回っていることがわかった。 画像ステッチでは,既存の学習方法よりも優れ,最先端の従来手法と競合する性能を示す。

Image stitching is a classical and crucial technique in computer vision, which aims to generate the image with a wide field of view. The traditional methods heavily depend on the feature detection and require that scene features be dense and evenly distributed in the image, leading to varying ghosting effects and poor robustness. Learning methods usually suffer from fixed view and input size limitations, showing a lack of generalization ability on other real datasets. In this paper, we propose an image stitching learning framework, which consists of a large-baseline deep homography module and an edge-preserved deformation module. First, we propose a large-baseline deep homography module to estimate the accurate projective transformation between the reference image and the target image in different scales of features. After that, an edge-preserved deformation module is designed to learn the deformation rules of image stitching from edge to content, eliminating the ghosting effects as much as possible. In particular, the proposed learning framework can stitch images of arbitrary views and input sizes, thus contribute to a supervised deep image stitching method with excellent generalization capability in other real images. Experimental results demonstrate that our homography module significantly outperforms the existing deep homography methods in the large baseline scenes. In image stitching, our method is superior to the existing learning method and shows competitive performance with state-of-the-art traditional methods.
翻訳日:2021-05-11 03:00:18 公開日:2020-12-11
# 骨格に基づく行動認識のための空間時間変換器ネットワーク

Spatial Temporal Transformer Network for Skeleton-based Action Recognition ( http://arxiv.org/abs/2012.06399v1 )

ライセンス: Link先を確認
Chiara Plizzari, Marco Cannici, Matteo Matteucci(参考訳) スケルトンベースの人間の行動認識は近年大きな関心を集めており、スケルトンデータは照明の変化、ボディスケール、ダイナミックカメラのビュー、複雑な背景に頑健であることが示されている。 それでも、3dスケルトンの基礎となる潜在情報の効果的なエンコーディングは、まだ未解決の問題である。 本研究では,Transformer self-attention operatorを用いて関節間の依存関係をモデル化する新しいSpatial-Temporal Transformer Network (ST-TR)を提案する。 st-trモデルでは,異なる身体部位間のフレーム内相互作用を理解するために空間的自己付着モジュール (ssa) と,フレーム間相関をモデル化する時間的自己接触モジュール (tsa) が用いられる。 両者は、NTU-RGB+D 60とNTU-RGB+D 120の両方で同じ入力データを用いて、最先端モデルを上回る2ストリームネットワークで結合される。

Skeleton-based human action recognition has achieved a great interest in recent years, as skeleton data has been demonstrated to be robust to illumination changes, body scales, dynamic camera views, and complex background. Nevertheless, an effective encoding of the latent information underlying the 3D skeleton is still an open problem. In this work, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer self-attention operator. In our ST-TR model, a Spatial Self-Attention module (SSA) is used to understand intra-frame interactions between different body parts, and a Temporal Self-Attention module (TSA) to model inter-frame correlations. The two are combined in a two-stream network which outperforms state-of-the-art models using the same input data on both NTU-RGB+D 60 and NTU-RGB+D 120.
翻訳日:2021-05-11 02:59:31 公開日:2020-12-11
# シード画像解析への新しい自動アプローチ:獲得からセグメンテーションへ

A new automatic approach to seed image analysis: From acquisition to segmentation ( http://arxiv.org/abs/2012.06414v1 )

ライセンス: Link先を確認
A.M.P.G. Vale, M. Ucchesu, C. Di Ruberto, A. Loddo, J.M. Soares, G.Bacchetta(参考訳) 画像解析は、種子の形態的および色彩的特徴に基づいて血管植物の種を分類するための新しいツールを提供し、系統研究に重要な貢献をした。 しかし, 形態的, 色彩的特徴を抽出するためには, 分析対象の試料を含む画像を分割する必要がある。 この段階は画像処理において最も難しいステップの1つであり、一様および均質なオブジェクトを背景から分離することは困難である。 本稿では,シードサンプルの画像の自動セグメンテーションのための新しいオープンソースプラグインを提案する。 このプラグインは、ImageJオープンソースソフトウェアと連携できるようにJavaで書かれています。 新しいプラグインはfabaceaeファミリーに属する120種の合計3,386種の種子サンプルでテストされた。 デジタル画像はフラットベッドスキャナーで取得された。 対象物のエッジを識別し,背景から分離する手法として,本手法の有効性を検証するため,各試料を背景に4種類の青色でスキャンし,合計480枚のデジタル画像を精査した。 新しいプラグインのパフォーマンスは、同じシードサンプルを使用して、イメージをcore imagejプラグインを使って手動でセグメンテーションしたダブルイメージ取得(黒と白の背景を持つ)に基づく方法と比較された。 その結果、新しいプラグインはオブジェクト検出エラーを発生させることなく、すべてのデジタルイメージを分割することができた。 さらに、新しいプラグインは、平均0.02 s以内にイメージをセグメンテーションすることができたが、マニュアルメソッドでの実行平均時間は63 sであった。この新しいオープンソースプラグインは、1つのイメージで作業できることが証明されており、大量の画像と幅広い形状を扱う場合、時間とセグメンテーションの観点から非常に効率的である。

Image Analysis offers a new tool for classifying vascular plant species based on the morphological and colorimetric features of the seeds, and has made significant contributions in systematic studies. However, in order to extract the morphological and colorimetric features, it is necessary to segment the image containing the samples to be analysed. This stage represents one of the most challenging steps in image processing, as it is difficult to separate uniform and homogeneous objects from the background. In this paper, we present a new, open source plugin for the automatic segmentation of an image of a seed sample. This plugin was written in Java to allow it to work with ImageJ open source software. The new plugin was tested on a total of 3,386 seed samples from 120 species belonging to the Fabaceae family. Digital images were acquired using a flatbed scanner. In order to test the efficacy of this approach in terms of identifying the edges of objects and separating them from the background, each sample was scanned using four different hues of blue for the background, and a total of 480 digital images were elaborated. The performance of the new plugin was compared with a method based on double image acquisition (with a black and white background) using the same seed samples, in which images were manually segmented using the Core ImageJ plugin. The results showed that the new plugin was able to segment all of the digital images without generating any object detection errors. In addition, the new plugin was able to segment images within an average of 0.02 s, while the average time for execution with the manual method was 63 s. This new open source plugin is proven to be able to work on a single image, and to be highly efficient in terms of time and segmentation when working with large numbers of images and a wide diversity of shapes.
翻訳日:2021-05-11 02:59:15 公開日:2020-12-11
# リアルタイム人物検索のためのマルチタスク統合フレームワーク

A Multi-task Joint Framework for Real-time Person Search ( http://arxiv.org/abs/2012.06418v1 )

ライセンス: Link先を確認
Ye Li, Kangning Yin, Jie Liang, Chunyu Wang, Guangqiang Yin(参考訳) パーソナライズ検索は一般的に3つの重要な部分を含む:パーソナライズ検出、特徴抽出、アイデンティティ比較。 しかし, 検出, 抽出, 比較を統合した人物探索には, 以下の欠点がある。 まず、検出の精度が比較の精度に影響を与える。 第2に,リアルタイムアプリケーションの実現は困難である。 そこで本研究では,人物検出,特徴抽出,同一性比較をそれぞれ最適化したリアルタイム人物検索のためのマルチタスク統合フレームワークを提案する。 人検出モジュールとして,人物データセットをトレーニングしたYOLOv5-GSモデルを提案する。 ghostnetとswish-and-excitation (se)ブロックの利点を組み合わせることで、スピードと精度を向上させる。 特徴抽出モジュールでは、人数に応じて異なるネットワークを選択することができるモデル適応アーキテクチャ(MAA)を設計する。 精度と速度の関係をバランスさせることができます。 同一性比較のために,3次元(3次元)プーリングテーブルとマッチング戦略を提案し,識別精度を向上させる。 1920*1080の解像度ビデオと500のIDテーブルの条件で、我々の方法で達成された識別率(IR)とフレーム/秒(FPS)は93.6%と25.7に達した。

Person search generally involves three important parts: person detection, feature extraction and identity comparison. However, person search integrating detection, extraction and comparison has the following drawbacks. Firstly, the accuracy of detection will affect the accuracy of comparison. Secondly, it is difficult to achieve real-time in real-world applications. To solve these problems, we propose a Multi-task Joint Framework for real-time person search (MJF), which optimizes the person detection, feature extraction and identity comparison respectively. For the person detection module, we proposed the YOLOv5-GS model, which is trained with person dataset. It combines the advantages of the Ghostnet and the Squeeze-and-Excitati on (SE) block, and improves the speed and accuracy. For the feature extraction module, we design the Model Adaptation Architecture (MAA), which could select different network according to the number of people. It could balance the relationship between accuracy and speed. For identity comparison, we propose a Three Dimension (3D) Pooled Table and a matching strategy to improve identification accuracy. On the condition of 1920*1080 resolution video and 500 IDs table, the identification rate (IR) and frames per second (FPS) achieved by our method could reach 93.6% and 25.7,
翻訳日:2021-05-11 02:58:46 公開日:2020-12-11
# d2-net: 弁別埋め込みと弁別アクティベーションによる弱い教師付き行動局在

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations ( http://arxiv.org/abs/2012.06440v1 )

ライセンス: Link先を確認
Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao(参考訳) 本研究は,映像レベルの監視による動作の時間的ローカライズを目的とした,D2-Netと呼ばれる時間的行動ローカライズフレームワークを提案する。 我々の主な貢献は、低監督による前景背景雑音に対する遅延埋め込みの識別性と出力時間的階級活性化の堅牢性を共同で強化する新しい損失定式化の導入である。 提案する定式化は、時間的行動局在を高めるための識別的および認知的損失項を含む。 判別用語は分類損失を組み込んでおり、トップダウンアテンション機構を利用して潜在前景バックグラウンド埋め込みの分離性を高める。 消音損失項はボトムアップアテンション機構を用いてビデオ内およびビデオ間相互情報を最大化することにより、クラスアクティベーションにおける前景バックグラウンドノイズに明示的に対処する。 その結果、背景領域の活性化が強調され、背景領域の活性化が抑制され、より堅牢な予測が導かれる。 THUMOS14とActivityNet1.2の2つのベンチマークで包括的な実験が行われた。 我々のD2-Netは、両方のデータセットの既存の手法と比較して良好に動作し、THUMOS14の平均的な精度で最大3.6%のゲインを達成した。

This work proposes a weakly-supervised temporal action localization framework, called D2-Net, which strives to temporally localize actions using video-level supervision. Our main contribution is the introduction of a novel loss formulation, which jointly enhances the discriminability of latent embeddings and robustness of the output temporal class activations with respect to foreground-backgroun d noise caused by weak supervision. The proposed formulation comprises a discriminative and a denoising loss term for enhancing temporal action localization. The discriminative term incorporates a classification loss and utilizes a top-down attention mechanism to enhance the separability of latent foreground-backgroun d embeddings. The denoising loss term explicitly addresses the foreground-backgroun d noise in class activations by simultaneously maximizing intra-video and inter-video mutual information using a bottom-up attention mechanism. As a result, activations in the foreground regions are emphasized whereas those in the background regions are suppressed, thereby leading to more robust predictions. Comprehensive experiments are performed on two benchmarks: THUMOS14 and ActivityNet1.2. Our D2-Net performs favorably in comparison to the existing methods on both datasets, achieving gains as high as 3.6% in terms of mean average precision on THUMOS14.
翻訳日:2021-05-11 02:58:27 公開日:2020-12-11
# 個別化脳機能ネットワーク同定のための教師なし深層学習

Unsupervised deep learning for individualized brain functional network identification ( http://arxiv.org/abs/2012.06494v1 )

ライセンス: Link先を確認
Hongming Li, Yong Fan(参考訳) 安静状態fmri(rsfmri)から個人特異的大脳機能ネットワーク(fns)をエンド・ツー・エンドの学習方法で同定する,教師なし深層学習法を開発した。 本手法では,ディープエンコーダ・デコーダネットワークと従来の脳分解モデルを用いて,教師なし学習フレームワークにおける個人固有のFNを同定し,ディープネットワークの1つの前方パスを持つ新規個体の高速推論を容易にする。 特に、エンコーダ・デコーダアーキテクチャを備えた畳み込みニューラルネットワーク(CNN)を用いて、脳分解モデルで一般的に使用されるデータフィッティングと空間正規化項を最適化することにより、rsfMRIデータから個々のFNを識別する。 さらに、時変表現学習モジュールは、rsfMRIデータの時間点の時間順に不変な特徴を学習するように設計されている。 提案手法は,大規模なrsfmriデータセットに基づいて検証され,実験により,確立されたfnsと整合し,脳年齢の予測に有用である個体特異的fnが得られることを実証し,個体特異的fnsが機能神経解剖学の基盤的変動を真に捉えたことを示す。

A novel unsupervised deep learning method is developed to identify individual-specific large scale brain functional networks (FNs) from resting-state fMRI (rsfMRI) in an end-to-end learning fashion. Our method leverages deep Encoder-Decoder networks and conventional brain decomposition models to identify individual-specific FNs in an unsupervised learning framework and facilitate fast inference for new individuals with one forward pass of the deep network. Particularly, convolutional neural networks (CNNs) with an Encoder-Decoder architecture are adopted to identify individual-specific FNs from rsfMRI data by optimizing their data fitting and sparsity regularization terms that are commonly used in brain decomposition models. Moreover, a time-invariant representation learning module is designed to learn features invariant to temporal orders of time points of rsfMRI data. The proposed method has been validated based on a large rsfMRI dataset and experimental results have demonstrated that our method could obtain individual-specific FNs which are consistent with well-established FNs and are informative for predicting brain age, indicating that the individual-specific FNs identified truly captured the underlying variability of individualized functional neuroanatomy.
翻訳日:2021-05-11 02:57:45 公開日:2020-12-11
# パーキンソン病検出のための表情と情動ドメインの検討

Exploring Facial Expressions and Affective Domains for Parkinson Detection ( http://arxiv.org/abs/2012.06563v1 )

ライセンス: Link先を確認
Luis Felipe Gomez-Gomez and Aythami Morales and Julian Fierrez and Juan Rafael Orozco-Arroyave(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、顔面運動と非言語コミュニケーションに影響を与える神経疾患である。 PD患者は、MDS-UPDRS-IIIスケールの3.2項目で評価される視力低下と呼ばれる顔面運動の低下を呈する。 本研究では,感情領域に基づく顔画像からの表情解析を用いてPD検出を改善することを提案する。 我々は、顔認識と顔行動ユニット(FAU)検出の最新の進歩を活用するために、異なるドメイン適応手法を提案する。 The principal contributions of this work are: (1) a novel framework to exploit deep face architectures to model hypomimia in PD patients; (2) we experimentally compare PD detection based on single images vs. image sequences while the patients are evoked various face expressions; (3) we explore different domain adaptation techniques to exploit existing models initially trained either for Face Recognition or to detect FAUs for the automatic discrimination between PD patients and healthy subjects; and (4) a new approach to use triplet-loss learning to improve hypomimia modeling and PD detection. PD患者の実際の顔画像から, イメージシーケンス(中性, オンセット・トランジション, 頂点, オフセット・トランジション, 中立性)を用いて, シングルイメージPD検出において5.5%の精度(72.9%から78.4%)で誘発感情を適切にモデル化できることが示唆された。 また,提案した感情ドメイン適応はPD検出を最大8.9%(78.4%から87.3%)改善することを示した。

Parkinson's Disease (PD) is a neurological disorder that affects facial movements and non-verbal communication. Patients with PD present a reduction in facial movements called hypomimia which is evaluated in item 3.2 of the MDS-UPDRS-III scale. In this work, we propose to use facial expression analysis from face images based on affective domains to improve PD detection. We propose different domain adaptation techniques to exploit the latest advances in face recognition and Face Action Unit (FAU) detection. The principal contributions of this work are: (1) a novel framework to exploit deep face architectures to model hypomimia in PD patients; (2) we experimentally compare PD detection based on single images vs. image sequences while the patients are evoked various face expressions; (3) we explore different domain adaptation techniques to exploit existing models initially trained either for Face Recognition or to detect FAUs for the automatic discrimination between PD patients and healthy subjects; and (4) a new approach to use triplet-loss learning to improve hypomimia modeling and PD detection. The results on real face images from PD patients show that we are able to properly model evoked emotions using image sequences (neutral, onset-transition, apex, offset-transition, and neutral) with accuracy improvements up to 5.5% (from 72.9% to 78.4%) with respect to single-image PD detection. We also show that our proposed affective-domain adaptation provides improvements in PD detection up to 8.9% (from 78.4% to 87.3% detection accuracy).
翻訳日:2021-05-11 02:57:11 公開日:2020-12-11
# RNN変換器を用いた音声認識における分散性に対するロバスト性の改善

Improved Robustness to Disfluencies in RNN-Transducer Based Speech Recognition ( http://arxiv.org/abs/2012.06259v1 )

ライセンス: Link先を確認
Valentin Mendelev, Tina Raissi, Guglielmo Camporese, Manuel Giollo(参考訳) リカレントニューラルネットワークトランスデューサ(RNN-T)に基づく音声認識(ASR)が,音声コミュニティに注目されている。 RNN-T ASRの頑健性向上を目的としたデータ選択と準備選択について,部分的単語に着目した音声の拡散について検討する。 評価には,清潔なデータ,不均一なデータ,音声による別個のデータセットを用いた。 学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。 不正を伴うトレーニングデータ量の増加は、クリーンデータに低下を伴わずにさらなる利益をもたらす。 また、部分的な単語を専用トークンに置き換えることで、不一致や混乱を伴う発話の精度が向上することを示す。 最適モデルの評価は,これらの2つの評価セットに対して,22.5%と16.4%の相対的なWER削減を示す。

Automatic Speech Recognition (ASR) based on Recurrent Neural Network Transducers (RNN-T) is gaining interest in the speech community. We investigate data selection and preparation choices aiming for improved robustness of RNN-T ASR to speech disfluencies with a focus on partial words. For evaluation we use clean data, data with disfluencies and a separate dataset with speech affected by stuttering. We show that after including a small amount of data with disfluencies in the training set the recognition accuracy on the tests with disfluencies and stuttering improves. Increasing the amount of training data with disfluencies gives additional gains without degradation on the clean data. We also show that replacing partial words with a dedicated token helps to get even better accuracy on utterances with disfluencies and stutter. The evaluation of our best model shows 22.5% and 16.4% relative WER reduction on those two evaluation sets.
翻訳日:2021-05-11 02:56:27 公開日:2020-12-11
# データ効率的な回帰のための遅い特徴の教師なし学習

Unsupervised Learning of slow features for Data Efficient Regression ( http://arxiv.org/abs/2012.06279v1 )

ライセンス: Link先を確認
Oliver Struckmeier, Kshitij Tiwari, Ville Kyrki(参考訳) 計算神経科学の研究は、人間の脳の非並列データ効率は、連続的な感覚入力からゆっくりと変化する高次特徴を抽出し整理する非常に効率的なメカニズムの結果であることを示している。 本稿では,このスローネス原理を,ダウンストリーム回帰タスクのデータ効率的な学習を目標として,アート表現学習法の現状に適用する。 この目的のために、遅延表現に時間的類似性制約を適用した$\beta$-VAEの拡張である遅い変分オートエンコーダ(S-VAE)を提案する。 本手法を,時間的抽象化を伴う潜在空間における次のフレーム予測手法である$\beta$-vae とtemporal difference vae (td-vae) と比較した。 合成2次元球追跡データセットと、最近の学習環境からのデータセットとDeepMind Lab環境から生成されたデータセットを用いて、下流タスクのデータ効率に対する3つの手法を評価する。 すべてのタスクにおいて、提案手法は、密度の高いデータと、特にスパースなラベル付きデータの両方でベースラインを上回っていた。 s-vae は 20\%$ から 93\%$ のデータをベースラインと比較した場合、類似または良好な性能を達成した。

Research in computational neuroscience suggests that the human brain's unparalleled data efficiency is a result of highly efficient mechanisms to extract and organize slowly changing high level features from continuous sensory inputs. In this paper, we apply this slowness principle to a state of the art representation learning method with the goal of performing data efficient learning of down-stream regression tasks. To this end, we propose the slow variational autoencoder (S-VAE), an extension to the $\beta$-VAE which applies a temporal similarity constraint to the latent representations. We empirically compare our method to the $\beta$-VAE and the Temporal Difference VAE (TD-VAE), a state-of-the-art method for next frame prediction in latent space with temporal abstraction. We evaluate the three methods against their data-efficiency on down-stream tasks using a synthetic 2D ball tracking dataset, a dataset from a reinforcent learning environment and a dataset generated using the DeepMind Lab environment. In all tasks, the proposed method outperformed the baselines both with dense and especially sparse labeled data. The S-VAE achieved similar or better performance compared to the baselines with $20\%$ to $93\%$ less data.
翻訳日:2021-05-11 02:56:14 公開日:2020-12-11
# 事前学習データを必要としないトポロジ最適化のためのAI支援設計法

An AI-Assisted Design Method for Topology Optimization Without Pre-Optimized Training Data ( http://arxiv.org/abs/2012.06384v1 )

ライセンス: Link先を確認
Alex Halle, L. Flavio Campanile, Alexander Hasse(参考訳) 本稿では, トポロジー最適化に基づくai支援設計手法を提案し, 反復的最適探索をすることなく, 直接的に最適化設計を得られるようにした。 最適化された設計は、入力データとして境界条件と充填度(材料で満たされた体積率)に基づいて、ニューラルネットワーク、予測器によって提供される。 トレーニングフェーズでは、ランダムな入力データに基づいて生成されたジオメトリを所定の基準に応じて評価し、これらの評価結果が予測者のパラメータを適応することにより最小限の目的関数に流れ込む。 最先端の手順以外では、トレーニング中に最適化されたジオメトリは使用されない。 トレーニングが完了すると、提案されたAI支援設計手順は、従来のトポロジオプティマイザが生成したものに似たジオメトリを提供するが、これらのアルゴリズムが必要とする計算労力のごく一部を必要とする。

In this publication, an AI-assisted design method based on topology optimization is presented, which is able to obtain optimized designs in a direct way, without iterative optimum search. The optimized designs are provided by an artificial neural network, the predictor, on the basis of boundary conditions and degree of filling (the volume percentage filled by material) as input data. In the training phase, geometries generated on the basis of random input data are evaluated with respect to given criteria and the results of those evaluations flow into an objective function which is minimized by adapting the predictor's parameters. Other than in state-of-the-art procedures, no pre-optimized geometries are used during training. After the training is completed, the presented AI-assisted design procedure supplies geometries which are similar to the ones generated by conventional topology optimizers, but requires a small fraction of the computational effort required by those algorithms.
翻訳日:2021-05-11 02:55:54 公開日:2020-12-11
# 高精度学習に必要な無関係トレーニングデータの記憶はいつ必要か?

When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? ( http://arxiv.org/abs/2012.06421v1 )

ライセンス: Link先を確認
Gavin Brown, Mark Bun, Vitaly Feldman, Adam Smith, Kunal Talwar(参考訳) 現代の機械学習モデルは複雑で、個々の入力に関する驚くべき量の情報をエンコードすることが多い。 極端な場合、複雑なモデルは、一見無関係な情報(例えばテキストの社会保障番号)を含む全ての入力例を記憶しているように見える。 本稿では,このような記憶が正確な学習に必要かどうかを理解することを目的とする。 我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。 例が高次元であり、サンプルサイズよりもはるかに高いエントロピーを持つ場合や、その情報が最終的に手元にあるタスクと無関係である場合でも、これは事実である。 さらに,本研究の結果は,学習に使用する学習アルゴリズムやモデルのクラスに依存しない。 我々の問題は、次のシンボリック予測とクラスタラベリングタスクの単純かつかなり自然な変種である。 これらのタスクは、画像およびテキスト関連予測問題の抽象化と見なすことができる。 結果を確立するため、新たな情報複雑性の低い境界を証明できる一方的なコミュニケーション問題の家系から減じる。

Modern machine learning models are complex and frequently encode surprising amounts of information about individual inputs. In extreme cases, complex models appear to memorize entire input examples, including seemingly irrelevant information (social security numbers from text, for example). In this paper, we aim to understand whether this sort of memorization is necessary for accurate learning. We describe natural prediction problems in which every sufficiently accurate training algorithm must encode, in the prediction model, essentially all the information about a large subset of its training examples. This remains true even when the examples are high-dimensional and have entropy much higher than the sample size, and even when most of that information is ultimately irrelevant to the task at hand. Further, our results do not depend on the training algorithm or the class of models used for learning. Our problems are simple and fairly natural variants of the next-symbol prediction and the cluster labeling tasks. These tasks can be seen as abstractions of image- and text-related prediction problems. To establish our results, we reduce from a family of one-way communication problems for which we prove new information complexity lower bounds.
翻訳日:2021-05-11 02:55:39 公開日:2020-12-11
# データ共有のないデータ評価

Data Appraisal Without Data Sharing ( http://arxiv.org/abs/2012.06430v1 )

ライセンス: Link先を確認
Mimee Xu, Laurens van der Maaten, Awni Hannun(参考訳) 機械学習モデルのパフォーマンスを改善するための最も効果的なアプローチの1つは、追加のトレーニングデータを取得することである。 そのため、モデル所有者は、データ所有者から関連するトレーニングデータを取得することができる。 データを取得する前に、モデル所有者はデータを評価する必要がある。 しかし、データ所有者は通常、合意に達するまでデータを共有したくない。 その結果、Catch-22は効率的なデータ市場の形成を防ぐ。 この問題に対処するために,セキュアなマルチパーティ計算によるデータ共有を必要としないデータ評価手法を開発した。 具体的には,(1)パラメータ勾配ノルムの計算,(2)モデルの微調整,(3)影響関数の計算といった手法について検討する。 実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。

One of the most effective approaches to improving the performance of a machine-learning model is to acquire additional training data. To do so, a model owner may seek to acquire relevant training data from a data owner. Before procuring the data, the model owner needs to appraise the data. However, the data owner generally does not want to share the data until after an agreement is reached. The resulting Catch-22 prevents efficient data markets from forming. To address this problem, we develop data appraisal methods that do not require data sharing by using secure multi-party computation. Specifically, we study methods that: (1) compute parameter gradient norms, (2) perform model fine-tuning, and (3) compute influence functions. Our experiments show that influence functions provide an appealing trade-off between high-quality appraisal and required computation.
翻訳日:2021-05-11 02:55:21 公開日:2020-12-11
# ICU患者の死亡予測のための深層学習モデルの構築

Building Deep Learning Models to Predict Mortality in ICU Patients ( http://arxiv.org/abs/2012.07585v1 )

ライセンス: Link先を確認
Huachuan Wang and Yuanfei Bi(参考訳) 集中治療室における死亡予測は重篤な状態の患者を効率的に治療するための重要なステップの1つと考えられている。 その結果、現代の電子医療記録に基づいてこの問題に対処するために様々な予測モデルが開発されている。 しかし、心拍数や血圧などの検査結果が不整合な時間周波数でサンプリングされるため、時系列変数としてのタスクのモデル化はますます難しくなっている。 本稿では,SAPS IIスコアと同じ特徴を用いたいくつかのディープラーニングモデルを提案する。 提案するモデル性能に対する洞察を得る。 集中治療のための医療情報マート(Medical Information Mart for Intensive Care III)に基づいて、いくつかの実験が行われた。 予測結果は,提案モデルの精度,リコール,f1得点,受信機動作特性曲線下の面積について,提案モデルの能力を示す。

Mortality prediction in intensive care units is considered one of the critical steps for efficiently treating patients in serious condition. As a result, various prediction models have been developed to address this problem based on modern electronic healthcare records. However, it becomes increasingly challenging to model such tasks as time series variables because some laboratory test results such as heart rate and blood pressure are sampled with inconsistent time frequencies. In this paper, we propose several deep learning models using the same features as the SAPS II score. To derive insight into the proposed model performance. Several experiments have been conducted based on the well known clinical dataset Medical Information Mart for Intensive Care III. The prediction results demonstrate the proposed model's capability in terms of precision, recall, F1 score, and area under the receiver operating characteristic curve.
翻訳日:2021-05-11 02:55:09 公開日:2020-12-11
# ハイブリッド知能システムの概念化と枠組み

Conceptualization and Framework of Hybrid Intelligence Systems ( http://arxiv.org/abs/2012.06161v1 )

ライセンス: Link先を確認
Nikhil Prakash and Kory W. Mathewson(参考訳) 人工知能(AI)システムが社会内で普及するにつれ、その公正性、説明責任、透明性に関する問題が急速に増加している。 その結果、研究者は人間をAIシステムに統合し、堅牢で信頼性の高いハイブリッドインテリジェンスシステムを構築している。 しかし、これらのシステムの適切な概念化は、この急速な成長を阻害しない。 本稿では,ハイブリッドインテリジェンスシステムの正確な定義と,提案した枠組みと現代文献の例を通して,他の類似概念との関係を説明する。 この枠組みは、人間と機械の関係を、結合の度合いと各当事者の指示的権威の観点から分解する。 最後に、すべてのAIシステムはハイブリッドインテリジェンスシステムであると主張する。

As artificial intelligence (AI) systems are getting ubiquitous within our society, issues related to its fairness, accountability, and transparency are increasing rapidly. As a result, researchers are integrating humans with AI systems to build robust and reliable hybrid intelligence systems. However, a proper conceptualization of these systems does not underpin this rapid growth. This article provides a precise definition of hybrid intelligence systems as well as explains its relation with other similar concepts through our proposed framework and examples from contemporary literature. The framework breakdowns the relationship between a human and a machine in terms of the degree of coupling and the directive authority of each party. Finally, we argue that all AI systems are hybrid intelligence systems, so human factors need to be examined at every stage of such systems' lifecycle.
翻訳日:2021-05-11 02:54:56 公開日:2020-12-11
# 不安定電話カメラを用いたメソスコピックフォトグラメトリー

Mesoscopic photogrammetry with an unstabilized phone camera ( http://arxiv.org/abs/2012.06044v1 )

ライセンス: Link先を確認
Kevin C. Zhou, Colin Cooke, Jaehee Park, Ruobing Qian, Roarke Horstmeyer, Joseph A. Izatt, Sina Farsiu(参考訳) 本研究では,スマートフォンが手動で手動で近距離(数cm)で取得した画像列から,10マイクロンの精度で3次元メソスコピック(mmスケールの高度変化)を定量化できる機能フリーフォトグラム技術を提案する。 本手法は,各カメラ画像の立体的変形場として振る舞うコアライメント高さマップを推定し,全画像の相互登録と縫い合わせを行う。 高さマップ自体は、未学習エンコーダデコーダ畳み込みニューラルネットワーク(cnn)の出力として再パラメータ化され、生のカメライメージを入力とし、多くの再構築アーティファクトを効果的に除去する。 また、カメラのダイナミックな6Dポーズと非パラメトリックモデルによる歪みを共同で推定し、後者は、スマートフォンカメラのような短い作業距離で撮影するために設計されていないカメラを使用する場合、メソスコピック・アプリケーションにおいて特に重要である。 また,他の複数フレーム登録問題に適用可能な計算時間とメモリの削減戦略を提案する。 最後に, 様々なサンプル(例えば, ブラシストローク, 回路基板, シードなど)上で, 不安定なスマートフォンが捉えたマルチメガピクセル画像のシーケンスを用いて本手法を実証する。

We present a feature-free photogrammetric technique that enables quantitative 3D mesoscopic (mm-scale height variation) imaging with tens-of-micron accuracy from sequences of images acquired by a smartphone at close range (several cm) under freehand motion without additional hardware. Our end-to-end, pixel-intensity-base d approach jointly registers and stitches all the images by estimating a coaligned height map, which acts as a pixel-wise radial deformation field that orthorectifies each camera image to allow homographic registration. The height maps themselves are reparameterized as the output of an untrained encoder-decoder convolutional neural network (CNN) with the raw camera images as the input, which effectively removes many reconstruction artifacts. Our method also jointly estimates both the camera's dynamic 6D pose and its distortion using a nonparametric model, the latter of which is especially important in mesoscopic applications when using cameras not designed for imaging at short working distances, such as smartphone cameras. We also propose strategies for reducing computation time and memory, applicable to other multi-frame registration problems. Finally, we demonstrate our method using sequences of multi-megapixel images captured by an unstabilized smartphone on a variety of samples (e.g., painting brushstrokes, circuit board, seeds).
翻訳日:2021-05-11 02:54:22 公開日:2020-12-11
# ラベル不確実性を有する3D-to-2Dネットワークを用いた腫瘍コアセグメンテーションの不確実性改善

Uncertainty-driven refinement of tumor-core segmentation using 3D-to-2D networks with label uncertainty ( http://arxiv.org/abs/2012.06436v1 )

ライセンス: Link先を確認
Richard McKinley, Micheal Rebsamen, Katrin Daetwyler, Raphael Meier, Piotr Radojewski, Roland Wiest(参考訳) 以前の研究では、低グレードグリオーマ(lgg)と高グレードグリオーマ(hggs)の分離トレーニングによって、パフォーマンスが向上できることが示されているが、実際には、どのモデルを使用するかを決めるには、テスト時にこの情報は利用できない。 HGGと対照的に、LGGは腫瘍核と周囲の浮腫の間に鋭い境界を示さず、むしろ腫瘍細胞密度を徐々に減少させる。 3Dから2Dまでの完全な畳み込みアーキテクチャを利用するDeepSCANは、2019年のBraTSチャレンジで高く評価され、不確実性を認識した損失を使用してトレーニングされた。 前提として,各腫瘍にコアがあるため,分類器で区切られたコアが曖昧に定義されたり,欠落している場合には,コア組織の分類のしきい値が低下する。 次に, 年齢, 腫瘍成分数, 腫瘍コア数に基づいて, 線形回帰とランダム森林分類の融合による高次グリオーマ患者の生存率を予測した。 本稿では,マルチモーダル脳腫瘍分割チャレンジ2020の検証データセット(セグメンテーションと不確実性チャレンジ)と,セグメンテーションで4位,不確実性推定で1位,生存予測で1位を得たテストセットについて報告する。

The BraTS dataset contains a mixture of high-grade and low-grade gliomas, which have a rather different appearance: previous studies have shown that performance can be improved by separated training on low-grade gliomas (LGGs) and high-grade gliomas (HGGs), but in practice this information is not available at test time to decide which model to use. By contrast with HGGs, LGGs often present no sharp boundary between the tumor core and the surrounding edema, but rather a gradual reduction of tumor-cell density. Utilizing our 3D-to-2D fully convolutional architecture, DeepSCAN, which ranked highly in the 2019 BraTS challenge and was trained using an uncertainty-aware loss, we separate cases into those with a confidently segmented core, and those with a vaguely segmented or missing core. Since by assumption every tumor has a core, we reduce the threshold for classification of core tissue in those cases where the core, as segmented by the classifier, is vaguely defined or missing. We then predict survival of high-grade glioma patients using a fusion of linear regression and random forest classification, based on age, number of distinct tumor components, and number of distinct tumor cores. We present results on the validation dataset of the Multimodal Brain Tumor Segmentation Challenge 2020 (segmentation and uncertainty challenge), and on the testing set, where the method achieved 4th place in Segmentation, 1st place in uncertainty estimation, and 1st place in Survival prediction.
翻訳日:2021-05-11 02:53:18 公開日:2020-12-11
# 多目的探索を用いたキーポイント検出DNNの自動テストスイート生成

Automatic Test Suite Generation for Key-points Detection DNNs Using Many-Objective Search ( http://arxiv.org/abs/2012.06511v1 )

ライセンス: Link先を確認
Fitash Ul Haq, Donghwan Shin, Lionel C. Briand, Thomas Stifter, Jun Wang(参考訳) 画像中のキーポイント(顔のキーポイントや指のキーポイントなど)の位置を自動的に検出することは、運転者の視線検出や自動運転システムにおける眠気検出など、多くのアプリケーションにおいて不可欠な問題である。 近年のディープニューラルネットワーク(DNN)の発展に伴い、キーポイント検出DNN(KP-DNN)もその目的のために採用されている。 kp-dnnは複数の独立したキーポイントを同時に予測し、個々のキーポイントがターゲットアプリケーションで重要になる可能性があるため、多くの要因に応じて画像が異なるため、kp-dnnのテストと検証は依然として困難な問題となっている。 本稿では,多目的探索を用いたKP-DNNのテストデータの自動生成手法を提案する。 本実験では,産業用自動車用として開発された顔のキーポイント検出DNNに着目し,平均して93%以上のキーポイントを誤って予測するテストスイートを生成することができることを示した。 比較として,ランダム検索に基づくテストデータ生成は,その41%に過ぎません。 しかし、これらの誤った予測の多くは避けられず、そのため失敗と見なすべきではない。 また、テストスイート生成に適した最先端多目的検索アルゴリズムとその変種を実証的に比較した。 さらに,画像の特徴(頭部の姿勢や肌の色など)に基づいて,重篤な予測ミスにつながる特定の条件を学習する方法を調査し,実証する。 このような状況は、リスク分析やDNNの再訓練の基礎となる。

Automatically detecting the positions of key-points (e.g., facial key-points or finger key-points) in an image is an essential problem in many applications, such as driver's gaze detection and drowsiness detection in automated driving systems. With the recent advances of Deep Neural Networks (DNNs), Key-Points detection DNNs (KP-DNNs) have been increasingly employed for that purpose. Nevertheless, KP-DNN testing and validation have remained a challenging problem because KP-DNNs predict many independent key-points at the same time -- where each individual key-point may be critical in the targeted application -- and images can vary a great deal according to many factors. In this paper, we present an approach to automatically generate test data for KP-DNNs using many-objective search. In our experiments, focused on facial key-points detection DNNs developed for an industrial automotive application, we show that our approach can generate test suites to severely mispredict, on average, more than 93% of all key-points. In comparison, random search-based test data generation can only severely mispredict 41% of them. Many of these mispredictions, however, are not avoidable and should not therefore be considered failures. We also empirically compare state-of-the-art, many-objective search algorithms and their variants, tailored for test suite generation. Furthermore, we investigate and demonstrate how to learn specific conditions, based on image characteristics (e.g., head posture and skin color), that lead to severe mispredictions. Such conditions serve as a basis for risk analysis or DNN retraining.
翻訳日:2021-05-11 02:52:46 公開日:2020-12-11
# ディープビデオ行動認識に関する総合的研究

A Comprehensive Study of Deep Video Action Recognition ( http://arxiv.org/abs/2012.06567v1 )

ライセンス: Link先を確認
Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong, Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, Mu Li(参考訳) ビデオ動作認識は,映像理解における代表的なタスクの一つである。 過去10年間で私たちは、ディープラーニングの出現により、ビデオアクション認識の大幅な進歩を目の当たりにしてきた。 しかし,ビデオにおける長期時間情報のモデル化,高い計算コスト,データセットによる比較不能な結果,評価プロトコルのばらつきなど,新たな課題に遭遇した。 本稿では,映像行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。 まず,モデル設計に影響を与える17のアクション認識データセットを紹介する。 次に、ビデオ行動認識モデルを時系列順に提示する: ディープラーニングの早期適用から始め、2ストリームネットワークへ、続いて3D畳み込みカーネルの採用、そして最近では計算効率の高いモデルへ。 さらに、いくつかの代表的なデータセットと再現性のためのリリースコードに対して、人気のあるメソッドをベンチマークする。 最後に、オープンな問題について議論し、新しい研究アイデアを促進するビデオアクション認識の機会を明らかにした。

Video action recognition is one of the representative tasks for video understanding. Over the last decade, we have witnessed great advancements in video action recognition thanks to the emergence of deep learning. But we also encountered new challenges, including modeling long-range temporal information in videos, high computation costs, and incomparable results due to datasets and evaluation protocol variances. In this paper, we provide a comprehensive survey of over 200 existing papers on deep learning for video action recognition. We first introduce the 17 video action recognition datasets that influenced the design of models. Then we present video action recognition models in chronological order: starting with early attempts at adapting deep learning, then to the two-stream networks, followed by the adoption of 3D convolutional kernels, and finally to the recent compute-efficient models. In addition, we benchmark popular methods on several representative datasets and release code for reproducibility. In the end, we discuss open problems and shed light on opportunities for video action recognition to facilitate new research ideas.
翻訳日:2021-05-11 02:52:00 公開日:2020-12-11
# ロスレス画像符号化のためのソフト圧縮

Soft Compression for Lossless Image Coding ( http://arxiv.org/abs/2012.06240v1 )

ライセンス: Link先を確認
Gangtao Xin and Pingyi Fan(参考訳) ソフト圧縮は、符号化冗長性と空間冗長性を同時に排除し、コードブックの位置と形状を採用し、情報理論と統計分布の観点から画像を符号化する、ロスレス画像圧縮法である。 本稿では,画像に関する新しい概念である圧縮可能なインジケータ関数を提案する。これは,位置を表すのに必要なビット数の平均しきい値を与え,ソフト圧縮の性能を明らかにするために使用できる。 特定のアルゴリズムと圧縮可能なインジケータ値を用いて,2成分画像,グレー画像,多成分画像のソフト圧縮を調査し,解析する。 ソフト圧縮を適用することにより,同じ種類の画像の伝送・保存に必要な帯域幅とストレージ容量を大幅に削減できると考えられる。

Soft compression is a lossless image compression method, which is committed to eliminating coding redundancy and spatial redundancy at the same time by adopting locations and shapes of codebook to encode an image from the perspective of information theory and statistical distribution. In this paper, we propose a new concept, compressible indicator function with regard to image, which gives a threshold about the average number of bits required to represent a location and can be used for revealing the performance of soft compression. We investigate and analyze soft compression for binary image, gray image and multi-component image by using specific algorithms and compressible indicator value. It is expected that the bandwidth and storage space needed when transmitting and storing the same kind of images can be greatly reduced by applying soft compression.
翻訳日:2021-05-11 02:51:46 公開日:2020-12-11
# 非凸最適化の最近の理論進歩

Recent Theoretical Advances in Non-Convex Optimization ( http://arxiv.org/abs/2012.06188v1 )

ライセンス: Link先を確認
Marina Danilova, Pavel Dvurechensky, Alexander Gasnikov, Eduard Gorbunov, Sergey Guminov, Dmitry Kamzolov, Innokentiy Shibaev(参考訳) 本研究では,非凸最適化のための最適化アルゴリズムに対する近年の関心の高まりに動機づけられ,非凸最適化のための最適化アルゴリズムのグローバル性能保証に関する最近の理論結果の概要を示す。 まず古典的な議論から、一般の非凸問題は合理的な時間で効率的に解けないことを示す。 次に,この問題の構造を可能な限り活用して,グローバル・ミニマライザを見つけるために効率的に解決できる問題の一覧を示す。 非凸性に対処する別の方法は、グローバル最小点の発見から静止点や局所最小点の発見まで、目標を緩和することである。 この設定のために、決定論的一階法の収束率に関する既知の結果が最初に提示され、続いて最適な確率的およびランダムな勾配スキームの一般的な理論的解析と確率的一階法の概要が続く。 その後、例えば$\alpha$-weakly-quas i-convex関数の最小化や、一階法の理論的収束を保証するポリアック-ロジャシエヴィチ条件を満たす関数など、非常に一般的な非凸問題のクラスについて論じる。 次に,非凸最適化問題に対する高次およびゼロ次/導出自由法とその収束率について考察する。

Motivated by recent increased interest in optimization algorithms for non-convex optimization in application to training deep neural networks and other optimization problems in data analysis, we give an overview of recent theoretical results on global performance guarantees of optimization algorithms for non-convex optimization. We start with classical arguments showing that general non-convex problems could not be solved efficiently in a reasonable time. Then we give a list of problems that can be solved efficiently to find the global minimizer by exploiting the structure of the problem as much as it is possible. Another way to deal with non-convexity is to relax the goal from finding the global minimum to finding a stationary point or a local minimum. For this setting, we first present known results for the convergence rates of deterministic first-order methods, which are then followed by a general theoretical analysis of optimal stochastic and randomized gradient schemes, and an overview of the stochastic first-order methods. After that, we discuss quite general classes of non-convex problems, such as minimization of $\alpha$-weakly-quas i-convex functions and functions that satisfy Polyak--Lojasiewicz condition, which still allow obtaining theoretical convergence guarantees of first-order methods. Then we consider higher-order and zeroth-order/derivat ive-free methods and their convergence rates for non-convex optimization problems.
翻訳日:2021-05-11 02:51:34 公開日:2020-12-11
# 構造化政策表現:任意条件付き動的システムにおける安定性

Structured Policy Representation: Imposing Stability in arbitrarily conditioned dynamic systems ( http://arxiv.org/abs/2012.06224v1 )

ライセンス: Link先を確認
Julen Urain, Davide Tateo, Tianyu Ren, Jan Peters(参考訳) 我々は、ディープニューラルネットワークベースの動的システムの新しいファミリーを提示する。 提示されたダイナミクスはグローバルに安定しており、任意のコンテキスト状態で条件付けすることができる。 これらのダイナミクスを構造化ロボットのポリシーとして利用できることを示す。 グローバルな安定性は、デモンストレーションの領域外で合理的な行動を課すことができるため、最も重要で直接的な帰納的バイアスの1つです。

We present a new family of deep neural network-based dynamic systems. The presented dynamics are globally stable and can be conditioned with an arbitrary context state. We show how these dynamics can be used as structured robot policies. Global stability is one of the most important and straightforward inductive biases as it allows us to impose reasonable behaviors outside the region of the demonstrations.
翻訳日:2021-05-11 02:51:09 公開日:2020-12-11
# Hard-ODT:ハードウェアフレンドリーなオンライン決定木学習アルゴリズムとシステム

Hard-ODT: Hardware-Friendly Online Decision Tree Learning Algorithm and System ( http://arxiv.org/abs/2012.06272v1 )

ライセンス: Link先を確認
Zhe Lin, Sharad Sinha, Wei Zhang(参考訳) 決定木(decision tree)は、さまざまなアプリケーションシナリオで一般的に使用される機械学習モデルである。 ビッグデータの時代において、従来の決定木誘導アルゴリズムは、厳密なデータストレージ要件のため、大規模データセットの学習には適していない。 オンライン決定木学習アルゴリズムは、入ってくるサンプルとの同時トレーニングと推論結果の提供により、この問題に対処するために考案された。 しかし、最新のオンラインツリー学習アルゴリズムでさえも、高いメモリ使用率と高い計算強度と依存性と長いレイテンシに苦しむため、ハードウェアでの実装は困難である。 これらの課題を克服するため,我々は,最先端のオンライン学習モデルの1つであるhoeffding treeの誘導を改善するために,quantileベースの新しいアルゴリズムを導入する。 提案アルゴリズムは,高一般化能力を維持しつつ,メモリ需要と計算需要の両方の観点から軽量である。 提案アルゴリズム専用の最適化手法をハードウェアの観点から検討し, 粗粒度, 微細粒度並列性, 動的およびメモリベースのリソース共有, データ転送によるパイプライン化などを検討した。 次に,フィールドプログラマブルゲートアレイ(FPGA)を用いた高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムであるHard-ODTについて述べる。 各種設計指標間のトレードオフを早期かつ迅速に解析するための完全学習システムとして,性能と資源利用をモデル化する。 最後に,FPGAのランタイム電力モニタリングに提案した学習システムを応用した設計フローを提案する。

Decision trees are machine learning models commonly used in various application scenarios. In the era of big data, traditional decision tree induction algorithms are not suitable for learning large-scale datasets due to their stringent data storage requirement. Online decision tree learning algorithms have been devised to tackle this problem by concurrently training with incoming samples and providing inference results. However, even the most up-to-date online tree learning algorithms still suffer from either high memory usage or high computational intensity with dependency and long latency, making them challenging to implement in hardware. To overcome these difficulties, we introduce a new quantile-based algorithm to improve the induction of the Hoeffding tree, one of the state-of-the-art online learning models. The proposed algorithm is light-weight in terms of both memory and computational demand, while still maintaining high generalization ability. A series of optimization techniques dedicated to the proposed algorithm have been investigated from the hardware perspective, including coarse-grained and fine-grained parallelism, dynamic and memory-based resource sharing, pipelining with data forwarding. Following this, we present Hard-ODT, a high-performance, hardware-efficient and scalable online decision tree learning system on a field-programmable gate array (FPGA) with system-level optimization techniques. Performance and resource utilization are modeled for the complete learning system for early and fast analysis of the trade-off between various design metrics. Finally, we propose a design flow in which the proposed learning system is applied to FPGA run-time power monitoring as a case study.
翻訳日:2021-05-11 02:50:46 公開日:2020-12-11
# Bregman Divergencesによるクラスタリングのためのオンラインコアセット

Online Coresets for Clustering with Bregman Divergences ( http://arxiv.org/abs/2012.06522v1 )

ライセンス: Link先を確認
Rachit Chhaya, Jayesh Choudhari, Anirban Dasgupta, Supratim Shit(参考訳) bregman divergencesの幅広いサブセットに従って,クラスタ問題に対してオンライン環境でコアセットを作成するアルゴリズムを提案する。 特に、我々のコアセットは、Bachemなどの軽量コアセットと同様、小さな加算誤差を持つ。 アル そして、$d$がポイントの次元である入射点ごとに$o(d)$を更新します。 我々の最初のアルゴリズムは、$\tilde{O}(\mbox{poly}(k,d,\epsilon,\mu))$ for $k$-clusterings according by any $\mu$-similar Bregman divergence。 さらに、このアルゴリズムを拡張して非パラメトリックなコアセットの存在を示す。コアセットのサイズは、bregman divergencesの同じサブクラスに対して、クラスタ数である$k$から独立している。 我々の非パラメトリックコアセットは$O(\log n)$$$n$ is number of points)の係数で大きくなり、同様の(小さな)加法保証を持つ。 同時に、コアセットはDP-MeansのようなBregmanクラスタリングの非パラメトリックバージョンのための軽量コアセットとしても機能します。 これらのコアセットは付加的なエラー保証を提供するが、Bachemなどで得られた(相対エラー)コアセットよりもはるかに小さい($O(\log n)$と$O(d^d)$でスケーリングする)。 アル 2015年、DP-Meansに入社。 非パラメトリックコアセットは存在するが、特定の仮定の下でアルゴリズム版を与える。

We present algorithms that create coresets in an online setting for clustering problems according to a wide subset of Bregman divergences. Notably, our coresets have a small additive error, similar in magnitude to the lightweight coresets Bachem et. al. 2018, and take update time $O(d)$ for every incoming point where $d$ is dimension of the point. Our first algorithm gives online coresets of size $\tilde{O}(\mbox{poly}(k,d,\epsilon,\mu))$ for $k$-clusterings according to any $\mu$-similar Bregman divergence. We further extend this algorithm to show existence of a non-parametric coresets, where the coreset size is independent of $k$, the number of clusters, for the same subclass of Bregman divergences. Our non-parametric coresets are larger by a factor of $O(\log n)$ ($n$ is number of points) and have similar (small) additive guarantee. At the same time our coresets also function as lightweight coresets for non-parametric versions of the Bregman clustering like DP-Means. While these coresets provide additive error guarantees, they are also significantly smaller (scaling with $O(\log n)$ as opposed to $O(d^d)$ for points in $\~R^d$) than the (relative-error) coresets obtained in Bachem et. al. 2015 for DP-Means. While our non-parametric coresets are existential, we give an algorithmic version under certain assumptions.
翻訳日:2021-05-11 02:50:21 公開日:2020-12-11
# エネルギーモデルを用いたペアワイズインタラクションの再構築

Reconstruction of Pairwise Interactions using Energy-Based Models ( http://arxiv.org/abs/2012.06625v1 )

ライセンス: Link先を確認
Christoph Feinauer, Carlo Lucibello(参考訳) イジングモデルや一般化ポッツモデルのようなペアワイズモデルでは、物理学、生物学、経済学といった分野で多くの応用が成功している。 近接連結は逆統計力学の問題であり、観測されたデータからそのようなモデルのパラメータを推測することが目的である。 この分野でのオープンな問題は、データがペアワイズモデルに存在しない追加の高次相互作用を含む場合、これらのモデルをどうトレーニングするかという問題である。 本研究では,エネルギーベースモデルと擬似的類似度を最大化してこれらの問題に対処するアプローチを提案する。 ハイブリッドモデルとペアワイズモデルとニューラルネットワークを組み合わせることで,ペアワイズインタラクションの再構築において,大幅な改善がもたらされることを示す。 これらの改善は、ペアワイズモデルのみを用いた標準的なアプローチや、ニューラルネットワークのみを用いたアプローチと比較して、一貫して維持することを示す。 これは、単純な解釈可能なモデルと複雑なブラックボックスモデルが必ずしも二分法であるとは限らないという一般的な考え方と一致している。

Pairwise models like the Ising model or the generalized Potts model have found many successful applications in fields like physics, biology, and economics. Closely connected is the problem of inverse statistical mechanics, where the goal is to infer the parameters of such models given observed data. An open problem in this field is the question of how to train these models in the case where the data contain additional higher-order interactions that are not present in the pairwise model. In this work, we propose an approach based on Energy-Based Models and pseudolikelihood maximization to address these complications: we show that hybrid models, which combine a pairwise model and a neural network, can lead to significant improvements in the reconstruction of pairwise interactions. We show these improvements to hold consistently when compared to a standard approach using only the pairwise model and to an approach using only a neural network. This is in line with the general idea that simple interpretable models and complex black-box models are not necessarily a dichotomy: interpolating these two classes of models can allow to keep some advantages of both.
翻訳日:2021-05-11 02:49:56 公開日:2020-12-11
# Federated Learningのための適応ヒストグラムに基づく勾配木

Adaptive Histogram-Based Gradient Boosted Trees for Federated Learning ( http://arxiv.org/abs/2012.06670v1 )

ライセンス: Link先を確認
Yuya Jeremy Ong, Yi Zhou, Nathalie Baracaldo, Heiko Ludwig(参考訳) フェデレートラーニング(Federated Learning, FL)とは、複数のパーティ間でデータを共有せずにモデルを協調的にトレーニングする手法である。 コンシューマのドメインでも、個人データを保護するためにも、データ管理規則やデータサイロの実用性を扱うエンタープライズ設定でも使用されています。 XGBoostのような高勾配木の実装は、多くのユースケースで非常に成功したが、暗号やプライバシメソッドを使用するため、フェデレーション学習の適応は非常に遅く、広く使用されていない。 本稿では,データ暗号化を必要とせず,パーティー適応ヒストグラム集約法を用いた勾配ブースティングの新たな実装であるフェデレート学習のためのパーティ適応型xgboost(pax)を提案する。 決定木の分割を見つけるために、データ分布の代理表現を構築する。 実験の結果,特に非IID分布におけるモデル性能が向上し,既存のフェデレート実装よりもデータセット間の実行時間のトレーニングが大幅に高速化された。 このアプローチにより、企業連関学習において勾配強化木の利用が実用的になる。

Federated Learning (FL) is an approach to collaboratively train a model across multiple parties without sharing data between parties or an aggregator. It is used both in the consumer domain to protect personal data as well as in enterprise settings, where dealing with data domicile regulation and the pragmatics of data silos are the main drivers. While gradient boosted tree implementations such as XGBoost have been very successful for many use cases, its federated learning adaptations tend to be very slow due to using cryptographic and privacy methods and have not experienced widespread use. We propose the Party-Adaptive XGBoost (PAX) for federated learning, a novel implementation of gradient boosting which utilizes a party adaptive histogram aggregation method, without the need for data encryption. It constructs a surrogate representation of the data distribution for finding splits of the decision tree. Our experimental results demonstrate strong model performance, especially on non-IID distributions, and significantly faster training run-time across different data sets than existing federated implementations. This approach makes the use of gradient boosted trees practical in enterprise federated learning.
翻訳日:2021-05-11 02:49:41 公開日:2020-12-11
# バイオメディカル信号の事象検出と局所化のための隠れマルコフモデルとリカレントニューラルネットワークの検討

A Review of Hidden Markov Models and Recurrent Neural Networks for Event Detection and Localization in Biomedical Signals ( http://arxiv.org/abs/2012.06104v1 )

ライセンス: Link先を確認
Yassin Khalifa and Danilo Mandic and Ervin Sejdi\'c(参考訳) 生体医学的シグナルは、我々の身体活動を制御する複雑な生理的過程のシグネチャリズムを持つ。 これらのリズムの性質は、ホメオスタシスを維持する生理過程間の相互作用ダイナミクスの性質を示している。 疾患や障害に関連する異常は通常、これらのリズムを分離させるリズム構造とそれらの区別能力の混乱として現れるが、不可欠である。 コンピュータ支援診断システムは、現在、ほぼすべての医療施設で広く普及しており、ウェアラブル技術においてより密接な関係にあり、リズムやイベント検出は、彼らが実行する多くのインテリジェントなステップの第一段階である。 このリズムはどのように孤立しているか? プロセス間の遷移を時間内に記述できるモデルを開発するには? これらの疑問に対処し、バイオメディカル信号を別々のリズムにデコードする多くの方法が文献に存在している。 ここでは,時系列におけるリズムやイベントの検出と分離に最も有効な手法をデミステレーションし,それらが異なる生体信号に適用された方法と情報融合にどのように貢献したかを明らかにする。 これらの方法の重要な強みと限界、ならびに生体信号への応用に伴う課題についても論じる。

Biomedical signals carry signature rhythms of complex physiological processes that control our daily bodily activity. The properties of these rhythms indicate the nature of interaction dynamics among physiological processes that maintain a homeostasis. Abnormalities associated with diseases or disorders usually appear as disruptions in the structure of the rhythms which makes isolating these rhythms and the ability to differentiate between them, indispensable. Computer aided diagnosis systems are ubiquitous nowadays in almost every medical facility and more closely in wearable technology, and rhythm or event detection is the first of many intelligent steps that they perform. How these rhythms are isolated? How to develop a model that can describe the transition between processes in time? Many methods exist in the literature that address these questions and perform the decoding of biomedical signals into separate rhythms. In here, we demystify the most effective methods that are used for detection and isolation of rhythms or events in time series and highlight the way in which they were applied to different biomedical signals and how they contribute to information fusion. The key strengths and limitations of these methods are also discussed as well as the challenges encountered with application in biomedical signals.
翻訳日:2021-05-11 02:48:07 公開日:2020-12-11
# 異常音検出のための特徴表現の解析

Analysis of Feature Representations for Anomalous Sound Detection ( http://arxiv.org/abs/2012.06282v1 )

ライセンス: Link先を確認
Robert M\"uller, Steffen Illium, Fabian Ritz, Kyrill Schmid(参考訳) 本研究では,異常音検出のための特徴抽出器として,事前学習ニューラルネットワークの有効性を徹底的に評価する。 これらのニューラルネットワークに含まれる知識を活用し、正規性をモデル化するための密度推定器として使用されるガウス混合モデルの入力として機能する意味的にリッチな特徴(表現)を抽出する。 画像,環境音,音楽など,様々な分野のデータに基づいて学習した特徴抽出器を比較した。 本手法は,バルブ,ポンプ,スライダ,ファンなどの工場用機器の記録に基づいて評価する。 評価されたすべての表現はオートエンコーダベースラインより優れており、音楽に基づく表現がほとんどの場合、最高のパフォーマンスをもたらす。 これらの結果は、特徴抽出器の領域と下流タスクとの密接なマッチングにより、下流タスクのパフォーマンスが向上するという一般的な仮定に挑戦する。

In this work, we thoroughly evaluate the efficacy of pretrained neural networks as feature extractors for anomalous sound detection. In doing so, we leverage the knowledge that is contained in these neural networks to extract semantically rich features (representations) that serve as input to a Gaussian Mixture Model which is used as a density estimator to model normality. We compare feature extractors that were trained on data from various domains, namely: images, environmental sounds and music. Our approach is evaluated on recordings from factory machinery such as valves, pumps, sliders and fans. All of the evaluated representations outperform the autoencoder baseline with music based representations yielding the best performance in most cases. These results challenge the common assumption that closely matching the domain of the feature extractor and the downstream task results in better downstream task performance.
翻訳日:2021-05-11 02:47:38 公開日:2020-12-11
# 一般行列ゲームに対する線形古典的および量子的アルゴリズム

Sublinear classical and quantum algorithms for general matrix games ( http://arxiv.org/abs/2012.06519v1 )

ライセンス: Link先を確認
Tongyang Li, Chunhao Wang, Shouvanik Chakrabarti, and Xiaodi Wu(参考訳) 最適化と機械学習の基本的な問題である行列ゲームに対する線形古典的および量子的アルゴリズムを証明可能な保証とともに検討する。 行列 $a\in\mathbb{r}^{n\times d}$ が与えられたとき、行列ゲーム $\min_{x\in\mathcal{x}}\max_{y\in\mathcal{y}} y^{\top} ax$ のサブ線形アルゴリズムは、(1) $\mathcal{y}$ が $\ell_{1}$-norm 単位球であること、(2) $\mathcal{x}$ が $\ell_{1}$ または $\ell_{2}$-norm 単位球であることの2つの特別なケースでのみ知られていた。 任意の固定された$q\in (1,2]$ に対して、$\mathcal{x}$ is a $\ell_{q}$-norm unit ball in additive error $\epsilon$ in time $\tilde{o}((n+d)/{\epsilon^{2}})$という行列ゲームを解く。 対応する部分線形量子アルゴリズムも提供し、$n$ と $d$ の2次改良により、時間$\tilde{o}((\sqrt{n}+\sqrt{d})\textrm{poly}(1/\epsilon))$ で同じタスクを解く。 古典的および量子的アルゴリズムは、多元対数因子の次元パラメータ$n$と$d$で最適である。 最後に,近似carath\eodory問題と$\ell_{q}$-marginサポートベクターマシンに対する部分線形古典および量子アルゴリズムを応用として提案する。

We investigate sublinear classical and quantum algorithms for matrix games, a fundamental problem in optimization and machine learning, with provable guarantees. Given a matrix $A\in\mathbb{R}^{n\times d}$, sublinear algorithms for the matrix game $\min_{x\in\mathcal{X}}\max_{y\in\mathcal{Y}} y^{\top} Ax$ were previously known only for two special cases: (1) $\mathcal{Y}$ being the $\ell_{1}$-norm unit ball, and (2) $\mathcal{X}$ being either the $\ell_{1}$- or the $\ell_{2}$-norm unit ball. We give a sublinear classical algorithm that can interpolate smoothly between these two cases: for any fixed $q\in (1,2]$, we solve the matrix game where $\mathcal{X}$ is a $\ell_{q}$-norm unit ball within additive error $\epsilon$ in time $\tilde{O}((n+d)/{\epsilon^{2}})$. We also provide a corresponding sublinear quantum algorithm that solves the same task in time $\tilde{O}((\sqrt{n}+\sqrt{d})\textrm{poly}(1/\epsilon))$ with a quadratic improvement in both $n$ and $d$. Both our classical and quantum algorithms are optimal in the dimension parameters $n$ and $d$ up to poly-logarithmic factors. Finally, we propose sublinear classical and quantum algorithms for the approximate Carath\'eodory problem and the $\ell_{q}$-margin support vector machines as applications.
翻訳日:2021-05-11 02:47:25 公開日:2020-12-11
# 強化学習による平滑化制御のための正規化行動ポリシー

Regularizing Action Policies for Smooth Control with Reinforcement Learning ( http://arxiv.org/abs/2012.06644v1 )

ライセンス: Link先を確認
Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko(参考訳) 深層強化学習(RL)で訓練されたコントローラの実用性に関する重要な問題は、RLポリシーによって学習された動作のスムーズさの顕著な欠如である。 この傾向は、しばしば制御信号の発振という形で現れ、制御不良、高消費電力、不適切なシステム摩耗をもたらす可能性がある。 本稿では,ニューラルネットワーク制御器の学習状態間マッピングのスムーズさを一貫して改善し,制御信号の高周波成分の除去に反映した,効果的な行動ポリシーの直感的規則化である行動ポリシー平滑性(CAPS)について紹介する。 実システムでテストしたところ、クアドロタードローンのコントローラーのスムース性が改善され、飛行にふさわしいコントローラーを一貫して訓練しながら、消費電力が80%近く削減された。 プロジェクトウェブサイト: http://ai.bu.edu/cap s

A critical problem with the practical utility of controllers trained with deep Reinforcement Learning (RL) is the notable lack of smoothness in the actions learned by the RL policies. This trend often presents itself in the form of control signal oscillation and can result in poor control, high power consumption, and undue system wear. We introduce Conditioning for Action Policy Smoothness (CAPS), an effective yet intuitive regularization on action policies, which offers consistent improvement in the smoothness of the learned state-to-action mappings of neural network controllers, reflected in the elimination of high-frequency components in the control signal. Tested on a real system, improvements in controller smoothness on a quadrotor drone resulted in an almost 80% reduction in power consumption while consistently training flight-worthy controllers. Project website: http://ai.bu.edu/cap s
翻訳日:2021-05-11 02:46:41 公開日:2020-12-11
# 適応動的モード分解に向けて

Towards an Adaptive Dynamic Mode Decomposition ( http://arxiv.org/abs/2012.07834v1 )

ライセンス: Link先を確認
Mohammad N. Murshed, M. Monir Uddin(参考訳) dynamic mode decomposition (dmd) はデータベースのモデリングツールで、ある時点での量を将来同じ量にマッピングするためにマトリックスを識別する。 我々は、時間遅延座標、投影法、フィルタをデータの性質に応じて利用し、利用可能な問題のモデルを作成するAdaptive Dynamic Mode Decomposition (ADMD) と呼ばれる新しいバージョンを設計する。 フィルタは高次元データセットのランクを下げるのに非常に効果的である。 我々は,フィルタとして'discrete Fourier transform' と 'augmented lagrangian multiplier' を組み込んだ。 提案したADMDは、様々な複雑さのデータセットでテストされており、その性能は有望であるようだ。

Dynamic Mode Decomposition (DMD) is a data based modeling tool that identifies a matrix to map a quantity at some time instant to the same quantity in future. We design a new version which we call Adaptive Dynamic Mode Decomposition (ADMD) that utilizes time delay coordinates, projection methods and filters as per the nature of the data to create a model for the available problem. Filters are very effective in reducing the rank of high-dimensional dataset. We have incorporated 'discrete Fourier transform' and 'augmented lagrangian multiplier' as filters in our method. The proposed ADMD is tested on several datasets of varying complexities and its performance appears to be promising.
翻訳日:2021-05-11 02:46:25 公開日:2020-12-11