このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210205となっている論文です。

PDF登録状況(公開日: 20210205)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 重力前処理によるグローバル最適相対ポーズ推定 [全文訳有]

Globally Optimal Relative Pose Estimation with Gravity Prior ( http://arxiv.org/abs/2012.00458v2 )

ライセンス: CC BY 4.0
Yaqing Ding, Daniel Barath, Jian Yang, Hui Kong, Zuzana Kukelova(参考訳) 例えば、車やUAVで使われるスマートフォン、タブレット、カメラシステムは、通常は重力ベクトルを正確に測定できるIMU(慣性測定ユニット)を備えている。 この追加情報を使って、カメラの$y$-axesをアライメントでき、相対的な向きを1つの自由度に下げることができる。 この仮定により,代数誤差を最小二乗意味で最小化し,過大に決定された場合の相対的ポーズを推定する,新しい大域的最適解法を提案する。 極性制約に基づいて最適化問題を2つの未知の多項式で解く。 また、回転の1次近似を用いて高速解法を提案する。 提案する解法を,実世界の4つのデータセットにおける最先端の解法と比較する。 合計で50000枚。 さらに,10933枚の画像対,重力方向,地中真理3次元再構成からなるスマートフォンによるデータセットを収集した。

Smartphones, tablets and camera systems used, e.g., in cars and UAVs, are typically equipped with IMUs (inertial measurement units) that can measure the gravity vector accurately. Using this additional information, the $y$-axes of the cameras can be aligned, reducing their relative orientation to a single degree-of-freedom. With this assumption, we propose a novel globally optimal solver, minimizing the algebraic error in the least-squares sense, to estimate the relative pose in the over-determined case. Based on the epipolar constraint, we convert the optimization problem into solving two polynomials with only two unknowns. Also, a fast solver is proposed using the first-order approximation of the rotation. The proposed solvers are compared with the state-of-the-art ones on four real-world datasets with approx. 50000 image pairs in total. Moreover, we collected a dataset, by a smartphone, consisting of 10933 image pairs, gravity directions, and ground truth 3D reconstructions.
翻訳日:2021-05-31 08:41:13 公開日:2021-02-05
# 反応予測のための非自己回帰電子フロー生成

Non-autoregressive electron flow generation for reaction prediction ( http://arxiv.org/abs/2012.12124v2 )

ライセンス: Link先を確認
Hangrui Bi, Hengyi Wang, Chence Shi, Jian Tang(参考訳) 反応予測は計算化学の基本的な問題である。 既存のアプローチは通常、トークンやグラフ編集を逐次サンプリングすることで化学反応を生成し、以前に生成された出力を条件付けする。 これらの自己回帰生成手法は、任意の出力順序を強制し、推論中に並列復号を防ぐ。 このようなシーケンシャルな生成を回避し、非自己回帰的な方法で反応を予測する新しいデコーダを考案する。 物理化学の知見に触発されて、分子グラフのエッジ編集を電子フローとして表現し、それを並列に予測する。 反応の不確かさを捉えるために,マルチモーダル出力を生成するために潜在変数を導入する。 これまでの研究に続いて、USPTO MITデータセットでモデルを評価する。 提案モデルでは,Top-Kサンプリングにおいて,最先端のTop-1精度と同等の性能を両立させる。

Reaction prediction is a fundamental problem in computational chemistry. Existing approaches typically generate a chemical reaction by sampling tokens or graph edits sequentially, conditioning on previously generated outputs. These autoregressive generating methods impose an arbitrary ordering of outputs and prevent parallel decoding during inference. We devise a novel decoder that avoids such sequential generating and predicts the reaction in a Non-Autoregressive manner. Inspired by physical-chemistry insights, we represent edge edits in a molecule graph as electron flows, which can then be predicted in parallel. To capture the uncertainty of reactions, we introduce latent variables to generate multi-modal outputs. Following previous works, we evaluate our model on USPTO MIT dataset. Our model achieves both an order of magnitude lower inference latency, with state-of-the-art top-1 accuracy and comparable performance on Top-K sampling.
翻訳日:2021-05-03 02:45:59 公開日:2021-02-05
# 被監視者再確認のためのカメラアウェアプロキシ

Camera-aware Proxies for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2012.10674v2 )

ライセンス: Link先を確認
Menglin Wang, Baisheng Lai, Jianqiang Huang, Xiaojin Gong, Xian-Sheng Hua(参考訳) 本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。 従来の手法では、クラスタリング技術を使って擬似ラベルを生成し、生成したラベルを使ってRe-IDモデルを徐々に訓練していた。 これらの方法は比較的単純だが効果的である。 しかし、クラスタリングに基づくほとんどの手法は、カメラビューの変化による大きなID内分散を無視して、クラスタを擬似アイデンティティクラスとして捉えている。 この問題に対処するため、各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。 これらのカメラ対応プロキシにより、ID内の大きな分散に対処し、学習のためのより信頼性の高い擬似ラベルを生成することができる。 カメラ認識プロキシに基づいて、Re-IDモデルのためのカメラ内およびカメラ間コントラスト学習コンポーネントを設計し、カメラ内およびカメラ間のID識別能力を効果的に学習する。 一方、プロキシバランスのサンプリング戦略も設計されており、さらなる学習を容易にする。 3つの大規模なre-idデータセットに関する広範囲な実験により,提案手法が教師なし手法よりも有意な差を示した。 特に、挑戦的なMSMT17データセットでは、第2位に比べて14.3\%$ Rank-1と10.2\%$ mAPが改善されている。 コードは: \texttt{https://github.com/T erminator8758/CAP-ma ster}で入手できる。

This paper tackles the purely unsupervised person re-identification (Re-ID) problem that requires no annotations. Some previous methods adopt clustering techniques to generate pseudo labels and use the produced labels to train Re-ID models progressively. These methods are relatively simple but effective. However, most clustering-based methods take each cluster as a pseudo identity class, neglecting the large intra-ID variance caused mainly by the change of camera views. To address this issue, we propose to split each single cluster into multiple proxies and each proxy represents the instances coming from the same camera. These camera-aware proxies enable us to deal with large intra-ID variance and generate more reliable pseudo labels for learning. Based on the camera-aware proxies, we design both intra- and inter-camera contrastive learning components for our Re-ID model to effectively learn the ID discrimination ability within and across cameras. Meanwhile, a proxy-balanced sampling strategy is also designed, which facilitates our learning further. Extensive experiments on three large-scale Re-ID datasets show that our proposed approach outperforms most unsupervised methods by a significant margin. Especially, on the challenging MSMT17 dataset, we gain $14.3\%$ Rank-1 and $10.2\%$ mAP improvements when compared to the second place. Code is available at: \texttt{https://github.com/T erminator8758/CAP-ma ster}.
翻訳日:2021-05-01 11:11:46 公開日:2021-02-05
# 加算雑音付き線形時変フィルタを用いた因果推論

Causal Inference Using Linear Time-Varying Filters with Additive Noise ( http://arxiv.org/abs/2012.13025v2 )

ライセンス: Link先を確認
Kang Du and Yu Xiang(参考訳) 制約構造因果モデルフレームワークを用いた因果推論は、データ生成機構による原因と効果の非対称性に大きく依存する。 線形非ガウシアンノイズモデルと非線形付加ノイズモデルでは、非ガウシアン性または非線形性から非対称性が生じる。 この手法が定常時系列に適応できるという事実にもかかわらず、非定常時系列から因果関係を推定することは難しい課題である。 本研究では,データの非定常性を生かして,非定常な処理を緩やかに行うことに着目し,対称性を破る手法を提案する。 主な理論的結果は,原因と効果が時間変化フィルタを介して接続された場合,因果方向が汎用ケースで同定可能であることを示している。 二変量進化スペクトルの強力な推定を利用して因果的発見手順を提案する。 提案手法の有効性を示すため,高次および非滑らかなフィルタを含む合成および実世界のデータシミュレーションを行った。

Causal inference using the restricted structural causal model framework hinges largely on the asymmetry between cause and effect from the data generating mechanisms. For linear non-Gaussian noise models and nonlinear additive noise models, the asymmetry arises from non-Gaussianity or nonlinearity, respectively. Despite the fact that this methodology can be adapted to stationary time series, inferring causal relationships from nonstationary time series remains a challenging task. In this work, we focus on slowly-varying nonstationary processes and propose to break the symmetry by exploiting the nonstationarity of the data. Our main theoretical result shows that the causal direction is identifiable in generic cases when cause and effect are connected via a time-varying filter. We propose a causal discovery procedure by leveraging powerful estimates of the bivariate evolutionary spectra. Both synthetic and real-world data simulations that involve high-order and non-smooth filters are provided to demonstrate the effectiveness of our proposed methodology.
翻訳日:2021-04-25 17:58:14 公開日:2021-02-05
# (参考訳) ファイングラインド型ゼロショット学習のための統合属性誘導ディエンス注意モデル [全文訳有]

An Integrated Attribute Guided Dense Attention Model for Fine-Grained Generalized Zero-Shot Learning ( http://arxiv.org/abs/2101.02141v2 )

ライセンス: CC BY 4.0
Tasfia Shermin, Shyh Wei Teng, Ferdous Sohel, Manzur Murshed, Guojun Lu(参考訳) 埋め込み学習 (EL) と特徴合成 (FS) は, GZSL法で人気のカテゴリである。 EL法やFS法を探索するグローバルな特徴は、局所的な詳細を無視するため、微細な区別を探索しない。 また、elまたはfsメソッドを探索するローカル詳細は、直接属性ガイダンスやグローバル情報を無視している。 その結果、どちらの方法もうまく機能しない。 本稿では,細粒度gzslのための統合的手法を用いて,elとfsカテゴリのグローバルおよび直接属性教師付き局所視覚特徴を探索する。 提案する統合ネットワークは,ELサブネットワークとFSサブネットワークを備える。 これにより、提案した統合ネットワークを2つの方法でテストできる。 属性誘導局所視覚特徴を探索する2段階集中型注意機構を提案する。 我々は、相互に有益な情報を最適化するために、サブネットワーク間の新たな相互学習を導入する。 さらに,テスト中のソース領域に対するバイアスを低減するために,相互情報に基づいてソース・ターゲットクラス類似度を計算し,対象クラスを転送する手法を提案する。 提案手法がベンチマークデータセットの現代手法よりも優れていることを示す。

Embedding learning (EL) and feature synthesizing (FS) are two of the popular categories of fine-grained GZSL methods. The global feature exploring EL or FS methods do not explore fine distinction as they ignore local details. And, the local detail exploring EL or FS methods either neglect direct attribute guidance or global information. Consequently, neither method performs well. In this paper, we propose to explore global and direct attribute-supervised local visual features for both EL and FS categories in an integrated manner for fine-grained GZSL. The proposed integrated network has an EL sub-network and a FS sub-network. Consequently, the proposed integrated network can be tested in two ways. We propose a novel two-step dense attention mechanism to discover attribute-guided local visual features. We introduce new mutual learning between the sub-networks to exploit mutually beneficial information for optimization. Moreover, to reduce bias towards the source domain during testing, we propose to compute source-target class similarity based on mutual information and transfer-learn the target classes. We demonstrate that our proposed method outperforms contemporary methods on benchmark datasets.
翻訳日:2021-04-17 18:06:43 公開日:2021-02-05
# Voxel R-CNN: 高性能なVoxel-based 3Dオブジェクト検出を目指して

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection ( http://arxiv.org/abs/2012.15712v2 )

ライセンス: Link先を確認
Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li(参考訳) 3Dオブジェクト検出の最近の進歩は、3Dデータの表現方法に大きく依存している。 voxel-based あるいは point-based representation。 既存の高性能3D検出器の多くは、正確な位置を保つことができるため、ポイントベースである。 それでも、ポイントレベルの機能は、順序のないストレージのために高い計算オーバーヘッドを引き起こす。 対照的に、voxelベースの構造は特徴抽出に適しているが、入力データをグリッドに分割することで精度が低下することが多い。 本稿では, 原点の正確な位置決めは高性能な3次元物体検出には不可欠ではなく, 粗いボクセル粒度も十分な検出精度が得られることを示す。 この考え方を念頭に置いて,Voxel R-CNNという,シンプルだが効果的なボクセルベースのフレームワークを考案した。 2段階のアプローチでvoxel機能を最大限に活用することにより,最先端のポイントベースモデルと同程度の検出精度を実現するが,計算コストは少ない。 Voxel R-CNNは3Dバックボーンネットワークと2Dバードアイビュー(BEV)地域提案ネットワークと検出ヘッドで構成される。 ボクセルRoIプーリングは、ボクセル特徴から直接RoI特徴を抽出し、さらなる改良を行う。 大規模な実験は、広く使われているKITTIデータセットと、より最近のWaymo Open Datasetで行われている。 従来のボクセル法と比較して,Voxel R-CNNは,NVIDIA RTX 2080 Ti GPU上で25FPSの速度で,リアルタイムフレーム処理速度, \emph{i.e} を維持しながら高い検出精度を実現する。 コードは \url{https://github.com/d jiajunustc/voxel-r-c nn} で入手できる。

Recent advances on 3D object detection heavily rely on how the 3D data are represented, \emph{i.e.}, voxel-based or point-based representation. Many existing high performance 3D detectors are point-based because this structure can better retain precise point positions. Nevertheless, point-level features lead to high computation overheads due to unordered storage. In contrast, the voxel-based structure is better suited for feature extraction but often yields lower accuracy because the input data are divided into grids. In this paper, we take a slightly different viewpoint -- we find that precise positioning of raw points is not essential for high performance 3D object detection and that the coarse voxel granularity can also offer sufficient detection accuracy. Bearing this view in mind, we devise a simple but effective voxel-based framework, named Voxel R-CNN. By taking full advantage of voxel features in a two stage approach, our method achieves comparable detection accuracy with state-of-the-art point-based models, but at a fraction of the computation cost. Voxel R-CNN consists of a 3D backbone network, a 2D bird-eye-view (BEV) Region Proposal Network and a detect head. A voxel RoI pooling is devised to extract RoI features directly from voxel features for further refinement. Extensive experiments are conducted on the widely used KITTI Dataset and the more recent Waymo Open Dataset. Our results show that compared to existing voxel-based methods, Voxel R-CNN delivers a higher detection accuracy while maintaining a real-time frame processing rate, \emph{i.e}., at a speed of 25 FPS on an NVIDIA RTX 2080 Ti GPU. The code is available at \url{https://github.com/d jiajunustc/Voxel-R-C NN}.
翻訳日:2021-04-17 17:06:53 公開日:2021-02-05
# (参考訳) PointCutMix: Point Cloud分類の正規化戦略 [全文訳有]

PointCutMix: Regularization Strategy for Point Cloud Classification ( http://arxiv.org/abs/2101.01461v2 )

ライセンス: CC BY 4.0
Jinlai Zhang, Lyujie Chen, Bo Ouyang, Binbin Liu, Jihong Zhu, Yujing Chen, Yanmei Meng, Danfeng Wu(参考訳) 3Dポイントクラウド分析が注目されるにつれて、ポイントクラウドデータセットの不十分なスケールとネットワークの弱い一般化能力が顕著になる。 本稿では,これらの問題を緩和するためのポイントクラウドデータ(PointCutMix)の簡易かつ効果的な拡張手法を提案する。 2つの点雲間の最適な割り当てを見つけ、1つのサンプルの点を最適なペアに置き換えることで、新しいトレーニングデータを生成する。 2つの置換戦略は、異なるタスクの正確性または堅牢性要件に適応するために提案され、1つは、全ての置換点をランダムに選択し、もう1つは1つのランダム点のk近傍を選択することである。 いずれの戦略も、ポイントクラウド分類問題における様々なモデルの性能を一貫して改善する。 置換点の選択を導くために塩分マップを導入することにより、さらに性能が向上する。 さらに、PointCutMixは、ポイントアタックに対するモデルの堅牢性を高めるために検証されている。 防御手法として使用する場合,本手法は最先端の防御アルゴリズムに勝ることに留意すべきである。 コードは、https://github.com/c uge1995/PointCutMixで入手できる。

As 3D point cloud analysis has received increasing attention, the insufficient scale of point cloud datasets and the weak generalization ability of networks become prominent. In this paper, we propose a simple and effective augmentation method for the point cloud data, named PointCutMix, to alleviate those problems. It finds the optimal assignment between two point clouds and generates new training data by replacing the points in one sample with their optimal assigned pairs. Two replacement strategies are proposed to adapt to the accuracy or robustness requirement for different tasks, one of which is to randomly select all replacing points while the other one is to select k nearest neighbors of a single random point. Both strategies consistently and significantly improve the performance of various models on point cloud classification problems. By introducing the saliency maps to guide the selection of replacing points, the performance further improves. Moreover, PointCutMix is validated to enhance the model robustness against the point attack. It is worth noting that when using as a defense method, our method outperforms the state-of-the-art defense algorithms. The code is available at:https://github.co m/cuge1995/PointCutM ix
翻訳日:2021-04-11 18:55:46 公開日:2021-02-05
# (参考訳) 時空間光フロービデオフレームを用いた映像動作認識 [全文訳有]

Video Action Recognition Using spatio-temporal optical flow video frames ( http://arxiv.org/abs/2103.05101v1 )

ライセンス: CC BY 4.0
Aytekin Nebisoy and Saber Malekzadeh(参考訳) 近年,映像に基づく人間の行動認識がコンピュータビジョン研究の最も一般的な分野の一つとなっている。 この領域には、監視、ロボット工学、医療、ビデオ検索、人間とコンピュータの相互作用など多くの応用がある。 ビデオの背景や障害物、視点の変化、実行速度、カメラの動きなど、人間の行動を認識することには多くの問題がある。 この問題を解決するために多くの方法が提案されている。 本稿では,Deep Neural Networks を用いた映像分類における空間的・時間的パターン認識に着目した。 このモデルは、RGB画像と光フローを入力データとして、アクションクラス番号を出力する。 最終認識精度は約94%であった。

Recognizing human actions based on videos has became one of the most popular areas of research in computer vision in recent years. This area has many applications such as surveillance, robotics, health care, video search and human-computer interaction. There are many problems associated with recognizing human actions in videos such as cluttered backgrounds, obstructions, viewpoints variation, execution speed and camera movement. A large number of methods have been proposed to solve the problems. This paper focus on spatial and temporal pattern recognition for the classification of videos using Deep Neural Networks. This model takes RGB images and Optical Flow as input data and outputs an action class number. The final recognition accuracy was about 94%.
翻訳日:2021-04-06 07:11:53 公開日:2021-02-05
# 不確実性定量化と探査・探査トレードオフ

Uncertainty quantification and exploration-exploita tion trade-off in humans ( http://arxiv.org/abs/2102.07647v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) 本研究の目的は,情報収集(探索)と報酬探索(探索)のトレードオフを不確実性の下で人間の意思決定戦略がどのように管理するかを解析するための理論的枠組みを概説することである。 この一連の研究のモチベーションとなる重要な観察は、人間の学習者が見慣れない環境に適応し、今後の知識を取り入れて驚くほど高速かつ効果的である、という認識である。 対象とする問題は、ブラックボックス最適化タスクにおけるアクティブラーニングであり、より具体的には、探索/探索ジレンマがガウス過程に基づくベイズ最適化フレームワーク内でどのようにモデル化できるかである。 主な貢献は、2つの目的が期待される改善と不確実な定量化であるパレートの合理性に関する人間の決定を分析することである。 このパレート合理性モデルによれば、決定集合がパレート効率的な(支配的な)戦略を含むならば、合理的な意思決定者は、支配的な代替戦略よりも支配的な戦略を選択するべきである。 パレートフロンティアからの距離は、選択が(パレート)合理的であるか(すなわちフロンティアに横たわるか)、あるいは「過剰な」探検に関係しているかを決定する。 しかし,不確実性はパレートフロンティアを定義する2つの目標の1つであり,我々は3つの異なる不確実性定量化手法を調査し,提案するパレート合理性モデルに適合した1つを選択した。 主要な結果は、「合理性」からの逸脱が不確実な定量化と報酬を求める過程の進化にどのように依存するかを特徴づける分析的枠組みである。

The main objective of this paper is to outline a theoretical framework to analyse how humans' decision-making strategies under uncertainty manage the trade-off between information gathering (exploration) and reward seeking (exploitation). A key observation, motivating this line of research, is the awareness that human learners are amazingly fast and effective at adapting to unfamiliar environments and incorporating upcoming knowledge: this is an intriguing behaviour for cognitive sciences as well as an important challenge for Machine Learning. The target problem considered is active learning in a black-box optimization task and more specifically how the exploration/exploita tion dilemma can be modelled within Gaussian Process based Bayesian Optimization framework, which is in turn based on uncertainty quantification. The main contribution is to analyse humans' decisions with respect to Pareto rationality where the two objectives are improvement expected and uncertainty quantification. According to this Pareto rationality model, if a decision set contains a Pareto efficient (dominant) strategy, a rational decision maker should always select the dominant strategy over its dominated alternatives. The distance from the Pareto frontier determines whether a choice is (Pareto) rational (i.e., lays on the frontier) or is associated to "exasperate" exploration. However, since the uncertainty is one of the two objectives defining the Pareto frontier, we have investigated three different uncertainty quantification measures and selected the one resulting more compliant with the Pareto rationality model proposed. The key result is an analytical framework to characterize how deviations from "rationality" depend on uncertainty quantifications and the evolution of the reward seeking process.
翻訳日:2021-04-05 00:33:53 公開日:2021-02-05
# AIは大量射撃などを止めることができる

AI Can Stop Mass Shootings, and More ( http://arxiv.org/abs/2102.09343v1 )

ライセンス: Link先を確認
Selmer Bringsjord and Naveen Sundar Govindarajulu and Michael Giancola(参考訳) 我々は、AI/機械倫理における長年のr&dに基づいて直接構築することを提案し、その倫理的理由に対処することによって、大量射撃を阻止できるAIのブルースキーなアイデアの実現を試みる。 問題となっているr&dは形式的に過度に論理主義的であり、AIに倫理的感受性を持たせるためにしっかりとした基盤を築いてきたのは私たちだけではないので、異なる方法論のキャンプの人たちによる提案の追求も考慮されるべきである。 我々は、私たちの表現を2つのシミュレーションに固定することで、少なくともある程度具体化することを目指しています。1つは、aiが邪悪な人間の銃をロックアウトすることで罪のない人々の命を救っているもの、もう1つは、aiによってこの悪質なエージェントが法執行機関によって中立化されることを許可されているもの、です。 途中、いくつかの異論が予想され、反論される。

We propose to build directly upon our longstanding, prior r&d in AI/machine ethics in order to attempt to make real the blue-sky idea of AI that can thwart mass shootings, by bringing to bear its ethical reasoning. The r&d in question is overtly and avowedly logicist in form, and since we are hardly the only ones who have established a firm foundation in the attempt to imbue AI's with their own ethical sensibility, the pursuit of our proposal by those in different methodological camps should, we believe, be considered as well. We seek herein to make our vision at least somewhat concrete by anchoring our exposition to two simulations, one in which the AI saves the lives of innocents by locking out a malevolent human's gun, and a second in which this malevolent agent is allowed by the AI to be neutralized by law enforcement. Along the way, some objections are anticipated, and rebutted.
翻訳日:2021-04-05 00:31:35 公開日:2021-02-05
# ソーシャルネットワーク分析:グラフ理論からPythonアプリケーションへ

Social Network Analysis: From Graph Theory to Applications with Python ( http://arxiv.org/abs/2102.10014v1 )

ライセンス: Link先を確認
Dmitri Goldenberg(参考訳) ソーシャル・ネットワーク分析(social network analysis)は、ネットワークとグラフ理論を用いて社会構造を調査するプロセスである。 これは、ソーシャルネットワークの構造を分析するための様々な技術と、これらの構造で観察される基礎となる力学とパターンを説明する理論を組み合わせている。 それは本質的に学際的な分野であり、もともと社会心理学、統計学、グラフ理論の分野から生まれた。 この講演では、グラフ理論と情報拡散の簡単な紹介とともに、ソーシャルネットワーク分析の理論を取り上げる予定である。 続いて、実際のパンダやテキストデータセットからソーシャルネットワークを構築し、暗示することで、ネットワークコンポーネントをよりよく理解するために、networkxでpythonコードを深く掘り下げます。 最後に、matplotlibによる可視化、社会集中分析、情報拡散に対する影響最大化といった実用的なユースケースのコード例を取り上げる。

Social network analysis is the process of investigating social structures through the use of networks and graph theory. It combines a variety of techniques for analyzing the structure of social networks as well as theories that aim at explaining the underlying dynamics and patterns observed in these structures. It is an inherently interdisciplinary field which originally emerged from the fields of social psychology, statistics and graph theory. This talk will covers the theory of social network analysis, with a short introduction to graph theory and information spread. Then we will deep dive into Python code with NetworkX to get a better understanding of the network components, followed-up by constructing and implying social networks from real Pandas and textual datasets. Finally we will go over code examples of practical use-cases such as visualization with matplotlib, social-centrality analysis and influence maximization for information spread.
翻訳日:2021-04-05 00:30:05 公開日:2021-02-05
# 分散ガウス過程推定と被覆のレグレト解析

Regret Analysis of Distributed Gaussian Process Estimation and Coverage ( http://arxiv.org/abs/2101.04306v2 )

ライセンス: Link先を確認
Lai Wei, Andrew McDonald, Vaibhav Srivastava(参考訳) 未知の非一様感覚領域における分散マルチロボットカバレッジの問題について検討する。 感覚場をガウス過程の実現としてモデル化し,ベイズ手法を用いて,感覚関数の学習と環境被覆のトレードオフをバランスさせる政策を考案した。 本稿では,学習とカバレッジの時間軸をスケジュールする,決定論的学習とカバレッジのシークエンシング(dslc)と呼ばれる適応的カバレッジアルゴリズムを提案する。 複数ロボットチーム全体のカバレッジパフォーマンスを時間軸のT$で特徴づける新しいカバレッジ後悔の定義を用いて、DSLCを分析し、期待される累積カバレッジ後悔の上限を提供する。 最後に,未知の野火の分布上でのカバレッジタスクのシミュレーションにより,アルゴリズムの実証的性能を示す。

We study the problem of distributed multi-robot coverage over an unknown, nonuniform sensory field. Modeling the sensory field as a realization of a Gaussian Process and using Bayesian techniques, we devise a policy which aims to balance the tradeoff between learning the sensory function and covering the environment. We propose an adaptive coverage algorithm called Deterministic Sequencing of Learning and Coverage (DSLC) that schedules learning and coverage epochs such that its emphasis gradually shifts from exploration to exploitation while never fully ceasing to learn. Using a novel definition of coverage regret which characterizes overall coverage performance of a multi-robot team over a time horizon $T$, we analyze DSLC to provide an upper bound on expected cumulative coverage regret. Finally, we illustrate the empirical performance of the algorithm through simulations of the coverage task over an unknown distribution of wildfires.
翻訳日:2021-04-04 01:31:58 公開日:2021-02-05
# (参考訳) 深層予測符号化ネットワークの高速収束による表現の深層化 [全文訳有]

Faster Convergence in Deep-Predictive-Codi ng Networks to Learn Deeper Representations ( http://arxiv.org/abs/2101.06848v2 )

ライセンス: CC BY 4.0
Isaac J. Sledge and Jose C. Principe(参考訳) 深部予測符号化ネットワーク(Deep-predictive-cod ing network, DPCN)は、動的かつ文脈に敏感な刺激の潜在特徴表現を変調するために、フィードフォワードおよびフィードバック接続に依存する階層モデルである。 DPCNの重要な要素は、不変特徴抽出に使用される動的モデルのスパース状態を明らかにする前向き推論手順である。 しかし、この推論と対応する後方ネットワークパラメータの更新は、主要な計算ボトルネックである。 合理的に実装され、容易に訓練できるネットワーク深さを厳しく制限する。 そこで我々は,加速度的近位勾配に基づく,経験的および理論的収束性が向上した最適化戦略を提案する。 我々は、より深いdpcnを構築する能力が、ネットワークが訓練されるオブジェクトの概念全体をうまく捉える受容的フィールドをもたらすことを実証する。 これにより特徴表現が改善される。 完全教師なしの分類器は、畳み込みと畳み込みを繰り返すオートエンコーダを超え、教師付き方法で訓練された畳み込みネットワークと同等である。 これはdpcnが桁違いに少ないパラメータを持つにもかかわらずである。

Deep-predictive-codi ng networks (DPCNs) are hierarchical, generative models that rely on feed-forward and feed-back connections to modulate latent feature representations of stimuli in a dynamic and context-sensitive manner. A crucial element of DPCNs is a forward-backward inference procedure to uncover sparse states of a dynamic model, which are used for invariant feature extraction. However, this inference and the corresponding backwards network parameter updating are major computational bottlenecks. They severely limit the network depths that can be reasonably implemented and easily trained. We therefore propose an optimization strategy, with better empirical and theoretical convergence, based on accelerated proximal gradients. We demonstrate that the ability to construct deeper DPCNs leads to receptive fields that capture well the entire notions of objects on which the networks are trained. This improves the feature representations. It yields completely unsupervised classifiers that surpass convolutional and convolutional-recurr ent autoencoders and are on par with convolutional networks trained in a supervised manner. This is despite the DPCNs having orders of magnitude fewer parameters.
翻訳日:2021-03-27 18:19:22 公開日:2021-02-05
# (参考訳) 重要度重み付きオートエンコーダを用いた電子健康記録データの非無視特徴処理

Handling Non-ignorably Missing Features in Electronic Health Records Data Using Importance-Weighted Autoencoders ( http://arxiv.org/abs/2101.07357v2 )

ライセンス: CC BY 4.0
David K. Lim, Naim U. Rashid, Junier B. Oliva, Joseph G. Ibrahim(参考訳) 電子健康記録(ehrs)は、患者の健康情報と結果の関係を調べるために一般的に用いられる。 EHRデータセットの特徴的高次元と大きなサンプルサイズを考慮すると、深層学習はそのような関係を学習するための強力なツールとして現れている。 physionet 2012 Challengeには、12,000 ICU患者に関するEHRデータセットが含まれており、臨床測定値と院内死亡率の関係を調査している。 しかし、物理データにおけるデータ欠落の頻度と複雑さは、変分オートエンコーダ(vaes)のような深層学習法の適用において重大な課題を呈している。 従来の統計モデルでは欠落したデータの扱いについては豊富な文献があるが、どのようにしてディープラーニングアーキテクチャに拡張されるのかは不明である。 これらの問題に対処するため、我々はIWAE(Importance-Weig hted Autoencoders)と呼ばれる新しいVAEの拡張を提案し、Physoronetデータにおけるミス・ノー・アット・ランダム(MNAR)パターンを柔軟に処理する。 提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。 以上の結果から, 本手法を用いることで, 現状と比べ, より現実的な実測値が得られ, 下流モデルによる死亡率の有意差が認められた。

Electronic Health Records (EHRs) are commonly used to investigate relationships between patient health information and outcomes. Deep learning methods are emerging as powerful tools to learn such relationships, given the characteristic high dimension and large sample size of EHR datasets. The Physionet 2012 Challenge involves an EHR dataset pertaining to 12,000 ICU patients, where researchers investigated the relationships between clinical measurements, and in-hospital mortality. However, the prevalence and complexity of missing data in the Physionet data present significant challenges for the application of deep learning methods, such as Variational Autoencoders (VAEs). Although a rich literature exists regarding the treatment of missing data in traditional statistical models, it is unclear how this extends to deep learning architectures. To address these issues, we propose a novel extension of VAEs called Importance-Weighted Autoencoders (IWAEs) to flexibly handle Missing Not At Random (MNAR) patterns in the Physionet data. Our proposed method models the missingness mechanism using an embedded neural network, eliminating the need to specify the exact form of the missingness mechanism a priori. We show that the use of our method leads to more realistic imputed values relative to the state-of-the-art, as well as significant differences in fitted downstream models for mortality.
翻訳日:2021-03-27 06:38:42 公開日:2021-02-05
# parasci: 長いparaphrase生成のための大きな科学的なparaphraseデータセット

ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase Generation ( http://arxiv.org/abs/2101.08382v2 )

ライセンス: Link先を確認
Qingxiu Dong, Xiaojun Wan, Yue Cao(参考訳) 本研究では,ACL(ParaSCI-ACL)の33,981対とarXiv(ParaSCI-arXiv) の316,063対を含む,科学分野で最初の大規模パラフレーズデータセットであるParaSCIを提案する。 論文の特徴と共通パターンを掘り下げて,同一論文に対する引用の収集や科学用語による定義の集約など,論文内および論文間手法を用いて,このデータセットを構築した。 部分的にパラフレーズ化される文を利用するために,一般パラフレーズ発見法としてPDBERTを設置した。 ParaSCIにおけるパラフレーズの主な利点は、既存のパラフレーズデータセットを補完する顕著な長さとテキストの多様性にある。 ParaSCIは人間の評価や下流タスク、特に長いパラフレーズ生成において満足な結果を得る。

We propose ParaSCI, the first large-scale paraphrase dataset in the scientific field, including 33,981 paraphrase pairs from ACL (ParaSCI-ACL) and 316,063 pairs from arXiv (ParaSCI-arXiv). Digging into characteristics and common patterns of scientific papers, we construct this dataset though intra-paper and inter-paper methods, such as collecting citations to the same paper or aggregating definitions by scientific terms. To take advantage of sentences paraphrased partially, we put up PDBERT as a general paraphrase discovering method. The major advantages of paraphrases in ParaSCI lie in the prominent length and textual diversity, which is complementary to existing paraphrase datasets. ParaSCI obtains satisfactory results on human evaluation and downstream tasks, especially long paraphrase generation.
翻訳日:2021-03-21 07:58:25 公開日:2021-02-05
# (参考訳) ivp解決による画像復元 [全文訳有]

Image Restoration by Solving IVP ( http://arxiv.org/abs/2101.08987v3 )

ライセンス: CC BY 4.0
Seobin Park and Tae Hyun Kim(参考訳) 近年の画像復元の研究はディープラーニング技術の助けを借りて大きな成功を収めているが、その多くが現実的な設定でSRを扱うことに限定されている。 そこで本研究では, 画像の高分解能化のための新しい定式化手法を提案する。 提案する新しいsr法に基づいて,複数のスケールで超解像するだけでなく,超解像プロセスの性能を分析する新しい方法を見いだすことができる。 提案手法は従来のSR法とは異なり,高品質な画像を生成することができることを示す。

Recent research on image restoration have achieved great success with the aid of deep learning technologies, but, many of them are limited to dealing SR with realistic settings. To alleviate this problem, we introduce a new formulation for image super-resolution to solve arbitrary scale image super-resolution methods. Based on the proposed new SR formulation, we can not only super-resolve images with multiple scales, but also find a new way to analyze the performance of super-resolving process. We demonstrate that the proposed method can generate high-quality images unlike conventional SR methods.
翻訳日:2021-03-21 02:31:14 公開日:2021-02-05
# 画像とテキストの情報を組み合わせることで、重複したビデオベースのバグレポートを検出する

It Takes Two to Tango: Combining Visual and Textual Information for Detecting Duplicate Video-Based Bug Reports ( http://arxiv.org/abs/2101.09194v2 )

ライセンス: Link先を確認
Nathan Cooper, Carlos Bernal-C\'ardenas, Oscar Chaparro, Kevin Moran, Denys Poshyvanyk(参考訳) ユーザが対象とするアプリケーションにバグが現れると、グラフィカルユーザインターフェース(GUI)を通じて公開される可能性が高い。 このようなバグを特定して理解するプロセスにおける視覚的情報の重要性を考えると、ユーザに問題を伝える手段として、スクリーンショットやスクリーンレコーダーの利用が増えている。 しかし、クラウドソーステストなどの大量の情報を報告する場合、これらのアーティファクトの管理には時間がかかる可能性がある。 特に画面記録の報告が普及するにつれ、開発者は重複したバグを描写したビデオの手動識別に関する課題に直面する傾向にある。 グラフィカルな性質のため、画面記録は、現在の重複バグレポート検出技術の使用を妨げる自動解析の課題を示す。 そこで本稿では,これらの課題を克服し,開発者を支援するために,視覚情報とテキスト情報の両方を活用することで,ビデオベースのバグレポートを純粋に操作する重複検出手法であるtangoを提案する。 tangoは、カスタマイズされたコンピュータビジョン技術、光学式文字認識、テキスト検索を組み合わせる。 6つのAndroidアプリから180の画面記録を含む4,860の重複検出タスクに対して,Tangoの複数の構成を評価した。 さらに、ビデオベースのバグレポートの重複を開発者が手動で検出するために必要な労力を調査し、tangoの使用に要する労力と比較した。 その結果、tangoの最適な構成は、ビデオベースのバグレポートの重複検出に非常に効果的であり、返された上位2の重複動画を83%のタスクで正確にランク付けすることが判明した。 さらに,ユーザ調査の結果から,Tangoは開発者の労力を60%以上削減し,実用性を実証した。

When a bug manifests in a user-facing application, it is likely to be exposed through the graphical user interface (GUI). Given the importance of visual information to the process of identifying and understanding such bugs, users are increasingly making use of screenshots and screen-recordings as a means to report issues to developers. However, when such information is reported en masse, such as during crowd-sourced testing, managing these artifacts can be a time-consuming process. As the reporting of screen-recordings in particular becomes more popular, developers are likely to face challenges related to manually identifying videos that depict duplicate bugs. Due to their graphical nature, screen-recordings present challenges for automated analysis that preclude the use of current duplicate bug report detection techniques. To overcome these challenges and aid developers in this task, this paper presents Tango, a duplicate detection technique that operates purely on video-based bug reports by leveraging both visual and textual information. Tango combines tailored computer vision techniques, optical character recognition, and text retrieval. We evaluated multiple configurations of Tango in a comprehensive empirical evaluation on 4,860 duplicate detection tasks that involved a total of 180 screen-recordings from six Android apps. Additionally, we conducted a user study investigating the effort required for developers to manually detect duplicate video-based bug reports and compared this to the effort required to use Tango. The results reveal that Tango's optimal configuration is highly effective at detecting duplicate video-based bug reports, accurately ranking target duplicate videos in the top-2 returned results in 83% of the tasks. Additionally, our user study shows that, on average, Tango can reduce developer effort by over 60%, illustrating its practicality.
翻訳日:2021-03-20 17:20:05 公開日:2021-02-05
# Identity-Aware Graph Neural Networks

Identity-aware Graph Neural Networks ( http://arxiv.org/abs/2101.10320v2 )

ライセンス: Link先を確認
Jiaxuan You, Jonathan Gomes-Selman, Rex Ying, Jure Leskovec(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は、リレーショナルデータのための強力なモデリングフレームワークを提供する。 しかし、既存のGNNの表現力は、1-Weisfeiler-Lehman (1-WL)グラフ同型テストによって上界であり、ノードクラスタリング係数と最短経路距離を予測できず、異なるd-規則グラフを区別できないGNNを意味する。 ここでは、Identity-aware Graph Neural Networks(ID-GNNs)と呼ばれるGNNを渡すメッセージクラスを開発し、1-WLテストよりも表現力が高い。 ID-GNNは、既存のGNNの制限に対する最小限ながら強力なソリューションを提供します。 ID-GNNは、メッセージパッシング中にノードのIDを誘導的に考慮することにより、既存のGNNアーキテクチャを拡張します。 与えられたノードを埋め込むため、ID-GNNはまずノード中心のEgoネットワークを抽出し、その後、Egoネットワーク内の他の周辺ノードと異なるパラメータセットが中央ノードに適用される異種メッセージパッシングのラウンドを実行する。 さらに,拡張ノード機能としてノード識別情報を注入するID-GNNの簡易かつ高速なバージョンを提案する。 実験では、既存のGNNをID-GNNに変換することで、挑戦的なノード、エッジ、グラフプロパティ予測タスクにおける平均40%の精度向上、ノードとグラフの分類ベンチマークでの3%の精度向上、実世界のリンク予測タスクにおける15%のROC AUCの改善が得られている。 さらに、ID-GNNは、他のタスク固有のグラフネットワークよりも改善または同等のパフォーマンスを示す。

Message passing Graph Neural Networks (GNNs) provide a powerful modeling framework for relational data. However, the expressive power of existing GNNs is upper-bounded by the 1-Weisfeiler-Lehman (1-WL) graph isomorphism test, which means GNNs that are not able to predict node clustering coefficients and shortest path distances, and cannot differentiate between different d-regular graphs. Here we develop a class of message passing GNNs, named Identity-aware Graph Neural Networks (ID-GNNs), with greater expressive power than the 1-WL test. ID-GNN offers a minimal but powerful solution to limitations of existing GNNs. ID-GNN extends existing GNN architectures by inductively considering nodes' identities during message passing. To embed a given node, ID-GNN first extracts the ego network centered at the node, then conducts rounds of heterogeneous message passing, where different sets of parameters are applied to the center node than to other surrounding nodes in the ego network. We further propose a simplified but faster version of ID-GNN that injects node identity information as augmented node features. Altogether, both versions of ID-GNN represent general extensions of message passing GNNs, where experiments show that transforming existing GNNs to ID-GNNs yields on average 40% accuracy improvement on challenging node, edge, and graph property prediction tasks; 3% accuracy improvement on node and graph classification benchmarks; and 15% ROC AUC improvement on real-world link prediction tasks. Additionally, ID-GNNs demonstrate improved or comparable performance over other task-specific graph networks.
翻訳日:2021-03-14 19:16:39 公開日:2021-02-05
# パラメトリック整流パワーシグモイドユニット:非線形神経伝達解析形式を学習する

Parametric Rectified Power Sigmoid Units: Learning Nonlinear Neural Transfer Analytical Forms ( http://arxiv.org/abs/2101.09948v2 )

ライセンス: Link先を確認
Abdourrahmane Mahamane Atto (LISTIC), Sylvie Galichet (LISTIC), Dominique Pastor, Nicolas M\'eger (LISTIC)(参考訳) 本稿では,線形畳み込み重みと非線形活性化関数のパラメトリック形式の両方を共用する双対パラダイムの表現関数を提案する。 関数表現を実行するために提案された非線形形式は、整形パワーシグモイド単位と呼ばれる新しいパラメトリック神経伝達関数のクラスに関連付けられる。 このクラスは、これらの関数の欠点を否定するのに加えて、シグモイドと正則線型単位関数の利点を統合するために構築される。 さらに、この新しいニューラルクラスの分析形式は、標準整列線形単位を極限として含む幅広い活性化形状を得るために、スケール、シフト、形状パラメータを含む。 この神経伝達クラスのパラメータは、機械学習問題の解決に寄与する複雑な形状を発見するために学習可能であると考えられている。 浅層学習と深層学習の両フレームワークにおいて,畳み込み型および整流型シグモイド学習パラメータの連成学習により達成された性能を示す。 このクラスは、学習可能なパラメータが線形変換だけでなく、適切な非線形演算子にも関連付けられるという意味で、機械学習に関する新たな展望を開く。

The paper proposes representation functionals in a dual paradigm where learning jointly concerns both linear convolutional weights and parametric forms of nonlinear activation functions. The nonlinear forms proposed for performing the functional representation are associated with a new class of parametric neural transfer functions called rectified power sigmoid units. This class is constructed to integrate both advantages of sigmoid and rectified linear unit functions, in addition with rejecting the drawbacks of these functions. Moreover, the analytic form of this new neural class involves scale, shift and shape parameters so as to obtain a wide range of activation shapes, including the standard rectified linear unit as a limit case. Parameters of this neural transfer class are considered as learnable for the sake of discovering the complex shapes that can contribute in solving machine learning issues. Performance achieved by the joint learning of convolutional and rectified power sigmoid learnable parameters are shown outstanding in both shallow and deep learning frameworks. This class opens new prospects with respect to machine learning in the sense that learnable parameters are not only attached to linear transformations, but also to suitable nonlinear operators.
翻訳日:2021-03-14 18:54:54 公開日:2021-02-05
# 電力系統における意思決定と制御のための強化学習 : チュートリアル, レビュー, ビジョン

Reinforcement Learning for Decision-Making and Control in Power Systems: Tutorial, Review, and Vision ( http://arxiv.org/abs/2102.01168v3 )

ライセンス: Link先を確認
Xin Chen, Guannan Qu, Yujie Tang, Steven Low, Na Li(参考訳) 再生可能エネルギーとユビキタス分散エネルギー資源(ders)の大規模統合により、現代の電力システムは、複雑性の増大、不確実性の増加、ボラティリティの悪化など、運用と制御における一連の新たな課題に直面している。 欠点は、広くデプロイされているスマートメーター、スマートセンサー、通信ネットワークのアップグレードによって、より多くのデータが利用できることだ。 その結果、近年、データ駆動制御技術、特に強化学習(RL)が注目を集めています。 本稿では、RLに着目し、様々なRL技術に関するチュートリアルと、電力系統における意思決定と制御にどのように適用できるかを提案する。 特に、周波数制御、電圧制御、エネルギー管理を含む3つの重要な応用を図解として選択し、それらをRL法でモデル化し取り組む典型的な方法を示す。 我々は、RLの適用における2つの重要な問題、すなわち安全性とスケーラビリティを強調して結論付ける。 いくつかの将来の方向性も議論されている。

With large-scale integration of renewable generation and ubiquitous distributed energy resources (DERs), modern power systems confront a series of new challenges in operation and control, such as growing complexity, increasing uncertainty, and aggravating volatility. While the upside is that more and more data are available owing to the widely-deployed smart meters, smart sensors, and upgraded communication networks. As a result, data-driven control techniques, especially reinforcement learning (RL), have attracted surging attention in recent years. In this paper, we focus on RL and aim to provide a tutorial on various RL techniques and how they can be applied to the decision-making and control in power systems. In particular, we select three key applications, including frequency regulation, voltage control, and energy management, for illustration, and present the typical ways to model and tackle them with RL methods. We conclude by emphasizing two critical issues in the application of RL, i.e., safety and scalability. Several potential future directions are discussed as well.
翻訳日:2021-03-13 20:01:11 公開日:2021-02-05
# 極端な気象発生のためのモジュラーフレームワーク

A modular framework for extreme weather generation ( http://arxiv.org/abs/2102.04534v1 )

ライセンス: Link先を確認
Bianca Zadrozny, Campbell D. Watson, Daniela Szwarcman, Daniel Civitarese, Dario Oliveira, Eduardo Rodrigues, Jorge Guevara(参考訳) 極端な気象イベントは社会に大きな影響を与え、気候変動により頻繁で重大になることが期待されています。 この文脈では、レジリエンス・プランニングはリスク軽減とこのような極端な出来事への対処に不可欠である。 機械学習技術は、可能な緩和行動を評価するために使用できる現実的な極端な気象イベントシナリオの生成を通じて、レジリエンス計画において重要な役割を果たします。 本稿では,極度の気象イベントシナリオを生成するために交換可能なコンポーネントに依存するモジュール化フレームワークを提案する。 各コンポーネントの代替案について検討し,降水シナリオの生成タスクにおける2つのアプローチを比較した最初の結果を示す。

Extreme weather events have an enormous impact on society and are expected to become more frequent and severe with climate change. In this context, resilience planning becomes crucial for risk mitigation and coping with these extreme events. Machine learning techniques can play a critical role in resilience planning through the generation of realistic extreme weather event scenarios that can be used to evaluate possible mitigation actions. This paper proposes a modular framework that relies on interchangeable components to produce extreme weather event scenarios. We discuss possible alternatives for each of the components and show initial results comparing two approaches on the task of generating precipitation scenarios.
翻訳日:2021-02-10 15:16:52 公開日:2021-02-05
# (参考訳) 人工知能における象徴的行動 [全文訳有]

Symbolic Behaviour in Artificial Intelligence ( http://arxiv.org/abs/2102.03406v1 )

ライセンス: CC BY 4.0
Adam Santoro, Andrew Lampinen, Kory Mathewson, Timothy Lillicrap, David Raposo(参考訳) シンボルを使用する能力は人間の知能の頂点であるが、まだ機械で完全に複製されていない。 ここでは、記号的に流れる人工知能(ai)への道のりは、シンボルが何であるか、どのように存在するのか、システムがどのように振る舞うか、といった再解釈から始まります。 まず、シンボルを慣習によって確立された実体として解釈することから始める。 しかし、重要なことは、この大会に前向きかつ積極的に参加する人々のためのシンボルです。 次に、この解釈が人間の記号使用時の行動特性を数学的に統一する方法を概説する。 これは、より制限的な記号解釈に触発された特定の計算機構よりも、この分野が象徴的行動に重点を置くという提案を動機付ける。 最後に,象徴的行動に必要となる認知機構を発達させるためのツールとして,ai研究が社会的・文化的関与を探求することを提案する。 このアプローチにより、AIは単に人間の見物人にのみシンボルであるものを操作するのではなく、独自のシンボルとして解釈することができる。

The ability to use symbols is the pinnacle of human intelligence, but has yet to be fully replicated in machines. Here we argue that the path towards symbolically fluent artificial intelligence (AI) begins with a reinterpretation of what symbols are, how they come to exist, and how a system behaves when it uses them. We begin by offering an interpretation of symbols as entities whose meaning is established by convention. But crucially, something is a symbol only for those who demonstrably and actively participate in this convention. We then outline how this interpretation thematically unifies the behavioural traits humans exhibit when they use symbols. This motivates our proposal that the field place a greater emphasis on symbolic behaviour rather than particular computational mechanisms inspired by more restrictive interpretations of symbols. Finally, we suggest that AI research explore social and cultural engagement as a tool to develop the cognitive machinery necessary for symbolic behaviour to emerge. This approach will allow for AI to interpret something as symbolic on its own rather than simply manipulate things that are only symbols to human onlookers, and thus will ultimately lead to AI with more human-like symbolic fluency.
翻訳日:2021-02-10 05:58:55 公開日:2021-02-05
# (参考訳) 勾配フリー確率最適化のためのオンライン統計量推定 [全文訳有]

Online Statistical Inference for Gradient-free Stochastic Optimization ( http://arxiv.org/abs/2102.03389v1 )

ライセンス: CC BY 4.0
Xi Chen, Zehua Lai, He Li, Yichen Zhang(参考訳) 近年,グラデーションフリーの確率最適化が幅広い応用で注目されるようになり,そのような手法から得られるパラメータの不確実性定量化の需要が高まる。 本稿では,勾配ではなく関数値のみを用いる勾配自由確率最適化法に基づいて,モデルパラメータの統計的推論の問題を検討する。 まず,ポリak-ruppert平均型勾配なし推定器に対する中央極限定理結果を示す。 漸近分布は収束率と関数クエリの複雑さの間のトレードオフを反映している。 次に,完全オンライン方式で共分散行列を推定することにより,モデルパラメータの有効信頼区間を構成する。 さらに,共分散推定のための一般勾配フリーフレームワークを与え,共分散推定器の収束率における関数問合せ複雑性の役割を解析する。 モデルパラメータの推定値を同時に取得し、統計推論を行うためのワンパス計算効率の高い手順を提供する。 最後に、理論結果を検証し、様々な機械学習およびディープラーニングアプリケーションのためのメソッドの拡張を示すための数値実験を提供します。

As gradient-free stochastic optimization gains emerging attention for a wide range of applications recently, the demand for uncertainty quantification of parameters obtained from such approaches arises. In this paper, we investigate the problem of statistical inference for model parameters based on gradient-free stochastic optimization methods that use only function values rather than gradients. We first present central limit theorem results for Polyak-Ruppert-avera ging type gradient-free estimators. The asymptotic distribution reflects the trade-off between the rate of convergence and function query complexity. We next construct valid confidence intervals for model parameters through the estimation of the covariance matrix in a fully online fashion. We further give a general gradient-free framework for covariance estimation and analyze the role of function query complexity in the convergence rate of the covariance estimator. This provides a one-pass computationally efficient procedure for simultaneously obtaining an estimator of model parameters and conducting statistical inference. Finally, we provide numerical experiments to verify our theoretical results and illustrate some extensions of our method for various machine learning and deep learning applications.
翻訳日:2021-02-10 02:08:55 公開日:2021-02-05
# レギュラライザを用いたロバスト・シングルステップ・アドバーサリー・トレーニング

Robust Single-step Adversarial Training with Regularizer ( http://arxiv.org/abs/2102.03381v1 )

ライセンス: Link先を確認
Lehui Xie, Yaopeng Wang, Jia-Li Yin, and Ximeng Liu(参考訳) 多段階の対向例生成による訓練時間の高騰は、対向訓練において大きな課題である。 従来の方法は、効率を効果的に改善することができるが、ファストグラディエントサイン法(FGSM)に対する堅牢な精度が近くの100\%を達成できる破滅的なオーバーフィッティングの問題を導入するシングルステップの逆転例生成スキームを使用して、逆転訓練の計算負荷を低減しようとするが、プロジェクタグラディエントダイナスト(PGD)に対する堅牢な精度は、単一のエポックで突然0%に低下する。 そこで本研究では, PGD正規化(FGSMPR)を用いた高速勾配符号法を提案する。 我々の中核的な考え方は、FGSMとPGDの頑健な内部表現を学習できないことである。 したがって、我々は FGSM と PGD の類似した埋め込みを奨励するために PGD 正規化用語を設計します。 実験により,提案手法はFGSM対向トレーニングによるL$_\infty$-perturbat ionsのための頑健な深層ネットワークを訓練し,マルチステップ対向トレーニングとのギャップを低減できることを示した。

High cost of training time caused by multi-step adversarial example generation is a major challenge in adversarial training. Previous methods try to reduce the computational burden of adversarial training using single-step adversarial example generation schemes, which can effectively improve the efficiency but also introduce the problem of catastrophic overfitting, where the robust accuracy against Fast Gradient Sign Method (FGSM) can achieve nearby 100\% whereas the robust accuracy against Projected Gradient Descent (PGD) suddenly drops to 0\% over a single epoch. To address this problem, we propose a novel Fast Gradient Sign Method with PGD Regularization (FGSMPR) to boost the efficiency of adversarial training without catastrophic overfitting. Our core idea is that single-step adversarial training can not learn robust internal representations of FGSM and PGD adversarial examples. Therefore, we design a PGD regularization term to encourage similar embeddings of FGSM and PGD adversarial examples. The experiments demonstrate that our proposed method can train a robust deep network for L$_\infty$-perturbat ions with FGSM adversarial training and reduce the gap to multi-step adversarial training.
翻訳日:2021-02-09 16:12:54 公開日:2021-02-05
# 知識グラフにおけるリンク数予測の限界の検討

Exploring the Limits of Few-Shot Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2102.03419v1 )

ライセンス: Link先を確認
Dora Jambor, Komal Teru, Joelle Pineau, William L. Hamilton(参考訳) 実世界の知識グラフは、しばしば低周波の関係によって特徴づけられる。 これらの手法は、テスト時に各関係のいくつかの例を挙げると、トレーニング中に見つからない一連の新しい関係のリンク予測を行う。 本研究では,この数ショット設定における学習の限界を探究することを目的として,数ショットリンク予測のための技術の現状を一般化したモデル群を体系的に研究する。 単純なゼロショットベースライン - 関係固有の情報を無視する - は、驚くほど強力なパフォーマンスを達成します。 さらに、慎重に作られた合成データセットの実験は、関係のほんの一例しかモデルが細かい粒度の構造情報を使用することを制限せず、エンティティの粗い粒度の位置情報を利用することができることを示しています。 共に,先行研究の暗黙の仮定と帰納的バイアスに挑戦し,この分野の研究の新たな方向性を強調する。

Real-world knowledge graphs are often characterized by low-frequency relations - a challenge that has prompted an increasing interest in few-shot link prediction methods. These methods perform link prediction for a set of new relations, unseen during training, given only a few example facts of each relation at test time. In this work, we perform a systematic study on a spectrum of models derived by generalizing the current state of the art for few-shot link prediction, with the goal of probing the limits of learning in this few-shot setting. We find that a simple zero-shot baseline - which ignores any relation-specific information - achieves surprisingly strong performance. Moreover, experiments on carefully crafted synthetic datasets show that having only a few examples of a relation fundamentally limits models from using fine-grained structural information and only allows for exploiting the coarse-grained positional information of entities. Together, our findings challenge the implicit assumptions and inductive biases of prior work and highlight new directions for research in this area.
翻訳日:2021-02-09 16:09:55 公開日:2021-02-05
# マルチカメラ自己監督学習によるカスタムオブジェクト検出

Custom Object Detection via Multi-Camera Self-Supervised Learning ( http://arxiv.org/abs/2102.03442v1 )

ライセンス: Link先を確認
Yan Lu and Yuanchao Shu(参考訳) 本稿では,マルチカメラネットワーク上でカスタムオブジェクト検出モデルを構築するための自己監視型学習手法MCSSLを提案する。 MCSSLは、エピポーラ形状と最先端のトラッキングおよびreIDアルゴリズムを利用して、カメラ間のバウンディングボックスと重複する視野を関連付け、オブジェクト検出モデルでそれぞれバックボーンと検出ネットワークを微調整するための2つの擬似ラベルを慎重に生成する。 擬似ラベル上で効果的にトレーニングするため、モデルカスタマイズのために一貫性損失を伴う強力なreidライクなプリテキストタスクを構築する。 MCSSLは,従来のセルフトレーニング方式と比較して,WildTrackデータセットとCityFlowデータセットで平均mAPを5.44%,6.76%向上させた。

This paper proposes MCSSL, a self-supervised learning approach for building custom object detection models in multi-camera networks. MCSSL associates bounding boxes between cameras with overlapping fields of view by leveraging epipolar geometry and state-of-the-art tracking and reID algorithms, and prudently generates two sets of pseudo-labels to fine-tune backbone and detection networks respectively in an object detection model. To train effectively on pseudo-labels,a powerful reID-like pretext task with consistency loss is constructed for model customization. Our evaluation shows that compared with legacy selftraining methods, MCSSL improves average mAP by 5.44% and 6.76% on WildTrack and CityFlow dataset, respectively.
翻訳日:2021-02-09 16:09:38 公開日:2021-02-05
# 一般パターン理論による畳み込みニューラルネットワークの解釈性

Convolutional Neural Network Interpretability with General Pattern Theory ( http://arxiv.org/abs/2102.04247v1 )

ライセンス: Link先を確認
Erico Tjoa, Guan Cuntai(参考訳) 深いニューラルネットワーク(DNN)を理解するための継続的な努力は多くの洞察を与えてきたが、DNNは未だに理解されていない。 DNNの解釈性の改善には、説明可能な使用量の増加、アルゴリズムのメンテナンスの改善、改善など、実用的なメリットがある。 データセット構造の複雑さは、DNNのブラックボックス機構から生じる解釈可能性問題の解決の難しさに寄与する可能性がある。 そこで本論文では,Ulf Grenander氏によって定式化されたパターン理論を用いて,畳み込みニューラルネットワーク(CNN)の解釈可能性について,構成的に調査できる基本オブジェクトの構成として記述する。 具体的には、ResNetに拡張ブロック(EB)を取り付け、パターン理論の構成と互換性を持つように設計されたEB出力チャネルでセマンティックセグメンテーションライクなタスクを実行できるようにすることで、U-Netライクな構造を形成する。 これらのモジュールを通じて、いくつかのヒートマップベースの説明可能な人工知能(XAI)メソッドが、単一のデータサンプルを構成する個々のジェネレータの説明を抽出し、データセットの複雑さと解釈可能性の問題の影響を低減する。 パターン理論の要素を含むMNIST等価データセットは、理論の生成的側面が自然に提示されるこのフレームワークへのよりスムーズな参入を促進するように設計されています。

Ongoing efforts to understand deep neural networks (DNN) have provided many insights, but DNNs remain incompletely understood. Improving DNN's interpretability has practical benefits, such as more accountable usage, better algorithm maintenance and improvement. The complexity of dataset structure may contribute to the difficulty in solving interpretability problem arising from DNN's black-box mechanism. Thus, we propose to use pattern theory formulated by Ulf Grenander, in which data can be described as configurations of fundamental objects that allow us to investigate convolutional neural network's (CNN) interpretability in a component-wise manner. Specifically, U-Net-like structure is formed by attaching expansion blocks (EB) to ResNet, allowing it to perform semantic segmentation-like tasks at its EB output channels designed to be compatible with pattern theory's configurations. Through these modules, some heatmap-based explainable artificial intelligence (XAI) methods will be shown to extract explanations w.r.t individual generators that make up a single data sample, potentially reducing the impact of dataset's complexity to interpretability problem. The MNIST-equivalent dataset containing pattern theory's elements is designed to facilitate smoother entry into this framework, along which the theory's generative aspect is naturally presented.
翻訳日:2021-02-09 16:07:01 公開日:2021-02-05
# Projection Robust Wasserstein Barycenter

Projection Robust Wasserstein Barycenter ( http://arxiv.org/abs/2102.03390v1 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma, Lifeng Lai(参考訳) いくつかの確率尺度やヒストグラムから情報を収集し集約することは、機械学習の基本的なタスクである。 このタスクの一般的なソリューション方法の1つは、Wassersteinメトリックの下で確率測定のバリセンターを計算することです。 しかし、Wassersteinバリセンターの近似は、次元の呪いのために数値的に困難です。 本論文では,次元の呪いを緩和するプロジェクション堅牢なWassersteinバリセンタ(PRWB)を提案する。 この新しいモデルは、wasserstein barycenterの目的を最大化する低次元部分空間に確率測度を投影する。 結果として生じる問題は Stiefel 多様体上の最大分問題であり、実際は数値的に困難である。 反復的なブレグマンプロジェクションアルゴリズムとリーマン最適化を組み合わせることで、PRWBを計算するための2つの新しいアルゴリズムを提案する。 提案アルゴリズムの算術演算の複雑さを解析し,$\epsilon$-stationa ry の解を求める。 PRWBを離散分散クラスタリングアルゴリズムに組み込み、実際のテキストデータセットの数値結果により、PRWBモデルがクラスタリングパフォーマンスを大幅に向上させることができます。

Collecting and aggregating information from several probability measures or histograms is a fundamental task in machine learning. One of the popular solution methods for this task is to compute the barycenter of the probability measures under the Wasserstein metric. However, approximating the Wasserstein barycenter is numerically challenging because of the curse of dimensionality. This paper proposes the projection robust Wasserstein barycenter (PRWB) that mitigates the curse of dimensionality. This new model projects the probability measures onto a lower-dimensional subspace that maximizes the Wasserstein barycenter objective. The resulting problem is a max-min problem over the Stiefel manifold, which is numerically challenging in practice. Combining the iterative Bregman projection algorithm and Riemannian optimization, we propose two new algorithms for computing the PRWB. The complexity of arithmetic operations of the proposed algorithms for obtaining an $\epsilon$-stationar y solution is analyzed. We incorporate the PRWB into a discrete distribution clustering algorithm, and the numerical results on real text datasets confirm that our PRWB model helps improve the clustering performance significantly.
翻訳日:2021-02-09 16:05:49 公開日:2021-02-05
# 逐次予算学習のための信頼予算マッチング

Confidence-Budget Matching for Sequential Budgeted Learning ( http://arxiv.org/abs/2102.03400v1 )

ライセンス: Link先を確認
Yonathan Efroni, Nadav Merlis, Aadirupa Saha, Shie Mannor(参考訳) 不確実性の下での意思決定の核となる要素は、実行されたアクションの品質に対するフィードバックである。 しかし、多くのアプリケーションではそのようなフィードバックは制限されている。 例えば、レコメンデーションシステムでは、ユーザにレコメンデーションの品質に関するフィードバックを提供するように繰り返し求めると、イライラします。 本研究では,報酬要求数に対する(おそらく時間に依存した)ハードリミットが存在する場合,問い合わせ予算による意思決定問題を定式化する。 具体的には,多腕バンディット,線形バンディット,強化学習問題を考える。 まずは、いつでも報酬をクエリする‘greedy’アルゴリズムのパフォーマンスを分析することから始めます。 完全に確率的な環境では、驚くほどうまく機能するが、あらゆる逆境が存在する場合、これは線形な後悔につながる可能性がある。 そこで本研究では,信頼区間が利用可能な予算の逆方根よりも広い場合の報酬をクエリする信頼予算マッチング(CBM)原理を提案する。 我々は,cbmに基づくアルゴリズムの性能を異なる設定で分析し,文脈,初期状態,予算における逆境の存在下での性能を示す。

A core element in decision-making under uncertainty is the feedback on the quality of the performed actions. However, in many applications, such feedback is restricted. For example, in recommendation systems, repeatedly asking the user to provide feedback on the quality of recommendations will annoy them. In this work, we formalize decision-making problems with querying budget, where there is a (possibly time-dependent) hard limit on the number of reward queries allowed. Specifically, we consider multi-armed bandits, linear bandits, and reinforcement learning problems. We start by analyzing the performance of `greedy' algorithms that query a reward whenever they can. We show that in fully stochastic settings, doing so performs surprisingly well, but in the presence of any adversity, this might lead to linear regret. To overcome this issue, we propose the Confidence-Budget Matching (CBM) principle that queries rewards when the confidence intervals are wider than the inverse square root of the available budget. We analyze the performance of CBM based algorithms in different settings and show that they perform well in the presence of adversity in the contexts, initial states, and budgets.
翻訳日:2021-02-09 16:05:33 公開日:2021-02-05
# ドメインアウェアガウス過程のための高次定常および非定常カーネル設計

Advanced Stationary and Non-Stationary Kernel Designs for Domain-Aware Gaussian Processes ( http://arxiv.org/abs/2102.03432v1 )

ライセンス: Link先を確認
Marcus M. Noack and James A. Sethian(参考訳) ガウス過程回帰は関数近似と不確実性の定量化に広く適用されている手法である。 このテクニックは、堅牢性と解釈性のため、機械学習コミュニティで最近人気を集めている。 本論文で議論する数学的手法はガウス過程の枠組みの拡張である。 我々は、ある望ましい特性を持つ関数を、すべてのカーネルメソッドの基礎となりガウス過程の回帰のサンプル空間となる再生核ヒルベルト空間(英語版)(rkhs)の要素としてのみ許容する高度なカーネル設計を提案する。 これらの望ましい特性は基礎となる物理学を反映しており、2つの明白な例は対称性および周期性制約である。 さらに、非定常カーネル設計は同じフレームワークで定義することができ、柔軟なマルチタスクガウス過程が得られる。 いくつかの合成および2つの科学的データセットを用いて、先進的なカーネル設計がガウス過程に与える影響を示す。 その結果、先進的なカーネル設計を通じて伝達されるドメイン知識を含め、関数近似の正確性と関連性に大きな影響を及ぼすことが示された。

Gaussian process regression is a widely-applied method for function approximation and uncertainty quantification. The technique has gained popularity recently in the machine learning community due to its robustness and interpretability. The mathematical methods we discuss in this paper are an extension of the Gaussian-process framework. We are proposing advanced kernel designs that only allow for functions with certain desirable characteristics to be elements of the reproducing kernel Hilbert space (RKHS) that underlies all kernel methods and serves as the sample space for Gaussian process regression. These desirable characteristics reflect the underlying physics; two obvious examples are symmetry and periodicity constraints. In addition, non-stationary kernel designs can be defined in the same framework to yield flexible multi-task Gaussian processes. We will show the impact of advanced kernel designs on Gaussian processes using several synthetic and two scientific data sets. The results show that including domain knowledge, communicated through advanced kernel designs, has a significant impact on the accuracy and relevance of the function approximation.
翻訳日:2021-02-09 16:05:16 公開日:2021-02-05
# ビデオストリーム上でのシングルランアクション検出 - プライバシ保護アプローチ

Single Run Action Detector over Video Stream -- A Privacy Preserving Approach ( http://arxiv.org/abs/2102.03391v1 )

ライセンス: Link先を確認
Anbumalar Saravanan, Justin Sanchez, Hassan Ghasemzadeh, Aurelia Macabasco-O'Connell and Hamed Tabkhi(参考訳) 本稿では,プライバシを確保できるアクティビティモニタリングのためのビジョンベースのシステムの設計と評価に着手する。 人工知能(ai)を応用したプロアクティブシステムを用いて,人間の活動の継続的な監視,行動分析,モデリングを行う技術を提案する。 そこで本研究では,エンド・ツー・エンドの動作ローカライズと分類を行うリアルタイムプライバシ保護アクション検出器であるSingle Run Action Detector(S-RAD)を提案する。 これはfaster-rcnnとtemporal shift modelingとsegment based samplingを組み合わせることでヒューマンアクションをキャプチャする。 UCF-SportsとUR Fallデータセットの結果は、モデルサイズと計算要求が大幅に小さく、エッジ組み込みデバイス上でリアルタイムに実行できるなど、最先端のアプローチに匹敵する精度を示す。 Nvidia Jetson Xavier)。

This paper takes initial strides at designing and evaluating a vision-based system for privacy ensured activity monitoring. The proposed technology utilizing Artificial Intelligence (AI)-empowered proactive systems offering continuous monitoring, behavioral analysis, and modeling of human activities. To this end, this paper presents Single Run Action Detector (S-RAD) which is a real-time privacy-preserving action detector that performs end-to-end action localization and classification. It is based on Faster-RCNN combined with temporal shift modeling and segment based sampling to capture the human actions. Results on UCF-Sports and UR Fall dataset present comparable accuracy to State-of-the-Art approaches with significantly lower model size and computation demand and the ability for real-time execution on edge embedded device (e.g. Nvidia Jetson Xavier).
翻訳日:2021-02-09 16:00:51 公開日:2021-02-05
# 道路上でのフェデレーション学習:コネクテッドおよび自律車両のための自律制御設計

Federated Learning on the Road: Autonomous Controller Design for Connected and Autonomous Vehicles ( http://arxiv.org/abs/2102.03401v1 )

ライセンス: Link先を確認
Tengchan Zeng, Omid Semiari, Mingzhe Chen, Walid Saad, and Mehdi Bennis(参考訳) 接続型および自律型車両 (CAV) の自律コントローラを設計するために, 大規模無線接続によって実現される新たなフェデレーションラーニング (FL) フレームワークを提案する。 このフレームワークでは、コントローラが使用する学習モデルは、CAVのグループ間で協調的に訓練される。 FLトレーニングプロセスにおける各種CAVの関与とCAV間の多様なローカルデータ品質を捉えるために,CAVの移動性,無線フェージングチャネル,および不均衡で非独立で同一に分散されたCAVの移動性を考慮した新しい動的フェデレーション・プロキシ(DFP)アルゴリズムを提案する。 提案アルゴリズムでは,CAVが最適な自律制御器を用いてどの程度の速さで収束するか,厳密な収束解析を行う。 特に、FLプロセスにおける様々なCAV参加と多様なCAVデータ品質が提案したDFPアルゴリズムの収束に与える影響を明示的に分析する。 この分析を活用して、FL収束速度を改善するために、契約理論に基づくインセンティブメカニズムを設計する。 実車載データトレースを用いたシミュレーションの結果,提案したDFP制御器は,時間と交通シナリオの異なる目標CAV速度を正確に追跡できることがわかった。 さらに,FedAvg (Federated Averaging) やFedProx (Federated Proximal) といった一般的なFLアルゴリズムと比較して,DFPアルゴリズムの方がはるかに高速な収束性を示した。 その結果、契約理論的インセンティブメカニズムの実現可能性も検証し、提案されたメカニズムがベースラインと比較してDFPアルゴリズムの収束速度を40%改善できることを示した。

A new federated learning (FL) framework enabled by large-scale wireless connectivity is proposed for designing the autonomous controller of connected and autonomous vehicles (CAVs). In this framework, the learning models used by the controllers are collaboratively trained among a group of CAVs. To capture the varying CAV participation in the FL training process and the diverse local data quality among CAVs, a novel dynamic federated proximal (DFP) algorithm is proposed that accounts for the mobility of CAVs, the wireless fading channels, as well as the unbalanced and nonindependent and identically distributed data across CAVs. A rigorous convergence analysis is performed for the proposed algorithm to identify how fast the CAVs converge to using the optimal autonomous controller. In particular, the impacts of varying CAV participation in the FL process and diverse CAV data quality on the convergence of the proposed DFP algorithm are explicitly analyzed. Leveraging this analysis, an incentive mechanism based on contract theory is designed to improve the FL convergence speed. Simulation results using real vehicular data traces show that the proposed DFP-based controller can accurately track the target CAV speed over time and under different traffic scenarios. Moreover, the results show that the proposed DFP algorithm has a much faster convergence compared to popular FL algorithms such as federated averaging (FedAvg) and federated proximal (FedProx). The results also validate the feasibility of the contract-theoretic incentive mechanism and show that the proposed mechanism can improve the convergence speed of the DFP algorithm by 40% compared to the baselines.
翻訳日:2021-02-09 15:57:31 公開日:2021-02-05
# ロバスト主成分分析:平均的アプローチの中央値

Robust Principal Component Analysis: A Median of Means Approach ( http://arxiv.org/abs/2102.03403v1 )

ライセンス: Link先を確認
Debolina Paul, Saptarshi Chakraborty and Swagatam Das(参考訳) 主成分分析(PCA)は、データの可視化、復調、次元化のための基本的なツールである。 統計学、機械学習、コンピュータビジョン、および関連分野で広く普及しています。 しかし、PCAは外れ値の存在を捕食することがよく知られており、しばしばデータセット内の真の下層の低次元構造を検出するのに失敗する。 最近の教師付き学習法は、平均中央(MoM)哲学に従い、その大きなサンプル理論特性にあまり妥協することなく、外部観察を扱うことに成功しました。 本稿では,MoM原理に基づくPCA手順を提案する。 平均主成分分析の中央値 (mompca) と呼ばれ、提案手法は計算上魅力的であるばかりでなく、最小の仮定の下で最適収束率を達成する。 特に,vapnik-chervonenkis 理論とrademacher複雑性の助けを借りて,得られた解の非漸近的誤差境界を探索する。 提案の有効性はシミュレーションや実データアプリケーションを通じて徹底的に実証されている。

Principal Component Analysis (PCA) is a fundamental tool for data visualization, denoising, and dimensionality reduction. It is widely popular in Statistics, Machine Learning, Computer Vision, and related fields. However, PCA is well known to fall prey to the presence of outliers and often fails to detect the true underlying low-dimensional structure within the dataset. Recent supervised learning methods, following the Median of Means (MoM) philosophy, have shown great success in dealing with outlying observations without much compromise to their large sample theoretical properties. In this paper, we propose a PCA procedure based on the MoM principle. Called the Median of Means Principal Component Analysis (MoMPCA), the proposed method is not only computationally appealing but also achieves optimal convergence rates under minimal assumptions. In particular, we explore the non-asymptotic error bounds of the obtained solution via the aid of Vapnik-Chervonenkis theory and Rademacher complexity, while granting absolutely no assumption on the outlying observations. The efficacy of the proposal is also thoroughly showcased through simulations and real data applications.
翻訳日:2021-02-09 15:52:28 公開日:2021-02-05
# 深層学習支援型リレー選択に基づく簡易協調分散法

A Simple Cooperative Diversity Method Based on Deep-Learning-Aided Relay Selection ( http://arxiv.org/abs/2102.03409v1 )

ライセンス: Link先を確認
Wei Jiang, Hans Dieter Schotten(参考訳) オポチュニティ・リレー・セレクション (ORS) は, 遅いフェージングチャネルにおける協調的な多様性を実現するために, 移動ノードの簡易かつ効率的な方法として認識されている。 しかし、高速時変チャネルにおける古いチャネル状態情報(csi)から生じる最良リレーの誤選択は、その性能を実質的に低下させる。 高移動度アプリケーションの普及と5gおよびそれ以上のシステムでの高周波数帯の導入により、古いcsiの問題はより深刻になる。 そのため, 遅延フェージングのみならず, 高速フェージングにも適用可能な新しい協調方式の設計がますます重要になっている。 そこで本稿では,深層学習支援型協調型予測リレー選択(PRS)手法の開発と解析を行う。 マルチリレーコーディネートと同期の複雑さを避けるために、単一の日動リレーを選択することにより、ORSのシンプルさを維持しながら、フェーディングチャネル予測によってCSIの品質を著しく向上させることができます。 障害確率とチャネル容量の点での情報理論解析と数値結果は、PRSが遅いフェーディング無線環境における完全な多様性の利得を達成し、既存のスキームを高速フェーディングチャネルで大幅に上回ることを明らかにします。

Opportunistic relay selection (ORS) has been recognized as a simple but efficient method for mobile nodes to achieve cooperative diversity in slow fading channels. However, the wrong selection of the best relay arising from outdated channel state information (CSI) in fast time-varying channels substantially degrades its performance. With the proliferation of high-mobility applications and the adoption of higher frequency bands in 5G and beyond systems, the problem of outdated CSI will become more serious. Therefore, the design of a novel cooperative method that is applicable to not only slow fading but also fast fading is increasingly of importance. To this end, we develop and analyze a deep-learning-aided cooperative method coined predictive relay selection (PRS) in this article. It can remarkably improve the quality of CSI through fading channel prediction while retaining the simplicity of ORS by selecting a single opportunistic relay so as to avoid the complexity of multi-relay coordination and synchronization. Information-theoreti c analysis and numerical results in terms of outage probability and channel capacity reveal that PRS achieves full diversity gain in slow fading wireless environments and substantially outperforms the existing schemes in fast fading channels.
翻訳日:2021-02-09 15:46:56 公開日:2021-02-05
# 大容量データセットにおけるスケーラブルロバストグラフと任意容器ネットワークの特徴抽出

Scalable Robust Graph and Feature Extraction for Arbitrary Vessel Networks in Large Volumetric Datasets ( http://arxiv.org/abs/2102.03444v1 )

ライセンス: Link先を確認
Dominik Drees, Aaron Scherzinger, Ren\'e H\"agerling, Friedemann Kiefer, Xiaoyi Jiang(参考訳) 3Dイメージング技術の最近の進歩は、研究者に新しい洞察を提供し、特に生物医学領域における検査標本のより細かく、より詳細を明らかにするだけでなく、急速に増加するデータセットサイズによる自動解析アルゴリズムのスケーラビリティに関する大きな課題を課す。 特に, 自動容器ネットワーク解析に対する既存の研究は, 提案アルゴリズムのメモリ要求を考慮せず, 多数のボクセルからなる構造に対して, 多数の分岐を発生することが多い。 さらに、これらのアルゴリズムには、ツリートポロジの制限や、特定の画像モダリティのプロパティに依存するなど、さらなる制限があります。 任意のトポロジと容器形状の船舶ネットワークの前景分割から注釈付き抽象グラフ表現を抽出するスケーラブルなパイプライン(計算コスト、必要なメインメモリ、堅牢性の観点から)を提示する。 単一の次元のないa-priori決定パラメータのみが必要である。 個別のパイプラインステージの慎重なエンジニアリングと,新たな反復的改良スキームによって,商品ハードウェア上での約1TBのボリュームのトポロジを初めて分析することが可能になった。 このパイプラインの実装は、ボリュームレンダリングおよび処理エンジンvoreenのバージョン5.1で公開されている(https://www.uni-mue nster.de/voreen/)。

Recent advances in 3D imaging technologies provide novel insights to researchers and reveal finer and more detail of examined specimen, especially in the biomedical domain, but also impose huge challenges regarding scalability for automated analysis algorithms due to rapidly increasing dataset sizes. In particular, existing research towards automated vessel network analysis does not consider memory requirements of proposed algorithms and often generates a large number of spurious branches for structures consisting of many voxels. Additionally, very often these algorithms have further restrictions such as the limitation to tree topologies or relying on the properties of specific image modalities. We present a scalable pipeline (in terms of computational cost, required main memory and robustness) that extracts an annotated abstract graph representation from the foreground segmentation of vessel networks of arbitrary topology and vessel shape. Only a single, dimensionless, a-priori determinable parameter is required. By careful engineering of individual pipeline stages and a novel iterative refinement scheme we are, for the first time, able to analyze the topology of volumes of roughly 1TB on commodity hardware. An implementation of the presented pipeline is publicly available in version 5.1 of the volume rendering and processing engine Voreen (https://www.uni-mue nster.de/Voreen/).
翻訳日:2021-02-09 15:44:39 公開日:2021-02-05
# ニュースにおけるパンデミックの拡散 : トピックモデルを用いたテキスト分析

How Pandemic Spread in News: Text Analysis Using Topic Model ( http://arxiv.org/abs/2102.04205v1 )

ライセンス: Link先を確認
Minghao Wang, Paolo Mengoni(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、現実世界とメディアの雰囲気の両方において、世界中に大きな影響を与えた。 LDAトピックモデルを用いたテキスト分析を行った。 まず1月20日から5月19日まで,1127の論文と5563のコメントをSCMPで抽出し,モデル評価法としてLDAモデルとC_v$コヒーレンスに基づくパラメータ調整を行った。 最適なモデルでは、支配的なトピック、各トピックの代表文書と記事とコメント間の矛盾を分析します。 不一致のいくつかの要因が最終的に議論されます。

COVID-19 pandemic has made tremendous impact on the whole world, both the real world and the media atmosphere. Our research conducted a text analysis using LDA topic model. We first scraped 1127 articles and 5563 comments on SCMP covering COVID-19 from Jan 20 to May 19, then we trained the LDA model and tuned parameters based on the $C_v$ coherence as the model evaluation method. With the optimal model, dominant topics, representative documents of each topic and the inconsistency between articles and comments are analyzed. Some factors of the inconsistency are discussed at last.
翻訳日:2021-02-09 15:30:56 公開日:2021-02-05
# SkillBot:Alexaスキルで子どもの危険コンテンツを特定する

SkillBot: Identifying Risky Content for Children in Alexa Skills ( http://arxiv.org/abs/2102.03382v1 )

ライセンス: Link先を確認
Tu Le, Danny Yuxing Huang, Noah Apthorpe, Yuan Tian(参考訳) 多くの家庭には、Amazon Alexaなどの音声パーソナルアシスタント(VPA)を使用する子供たちがいます。 子どもたちはVPAやサードパーティアプリの豊富な機能から恩恵を受けるが、VPAエコシステム(不適切なコンテンツや情報収集など)の新たなリスクにさらされる。 VPAが子どもにもたらすリスクを調査するために、自然言語処理(NLP)ベースのシステムを構築し、VPAアプリと自動的に対話し、その結果の会話を分析し、子供にとって危険なコンテンツを特定します。 3,434のAlexaアプリから収集された31,966の非オーバーラップアプリ行動のデータセットを維持します。 以上の結果から,子ども向けの音声アプリは,より政策要件や集中的な審査の対象となっているものの,子どもは依然として危険なコンテンツに弱いことが示唆された。 その後、個人情報を求めるよりも不適切なコンテンツを持つVPAアプリに親が関心を持っていることを示すユーザー調査を実施しますが、多くの親はどちらのタイプの危険なアプリが存在することを認識していません。 最後に、vbaアプリのユーザに対する新たな脅威を特定します。複数のアプリが共有する発話や音声コマンドを組み合わせることで、ユーザが意図したよりも別のアプリを起動したり、操作したりする可能性があるのです。 児童向けおよび非児童向けアプリで共有される581種を含む,4,487種が混在する発話を同定した。

Many households include children who use voice personal assistants (VPA) such as Amazon Alexa. Children benefit from the rich functionalities of VPAs and third-party apps but are also exposed to new risks in the VPA ecosystem (e.g., inappropriate content or information collection). To study the risks VPAs pose to children, we build a Natural Language Processing (NLP)-based system to automatically interact with VPA apps and analyze the resulting conversations to identify contents risky to children. We identify 28 child-directed apps with risky contents and maintain a growing dataset of 31,966 non-overlapping app behaviors collected from 3,434 Alexa apps. Our findings suggest that although voice apps designed for children are subject to more policy requirements and intensive vetting, children are still vulnerable to risky content. We then conduct a user study showing that parents are more concerned about VPA apps with inappropriate content than those that ask for personal information, but many parents are not aware that risky apps of either type exist. Finally, we identify a new threat to users of VPA apps: confounding utterances, or voice commands shared by multiple apps that may cause a user to invoke or interact with a different app than intended. We identify 4,487 confounding utterances, including 581 shared by child-directed and non-child-directed apps.
翻訳日:2021-02-09 15:30:21 公開日:2021-02-05
# 進化計算における再現性

Reproducibility in Evolutionary Computation ( http://arxiv.org/abs/2102.03380v1 )

ライセンス: Link先を確認
Manuel L\'opez-Ib\'a\~nez (University of M\'alaga, Spain), Juergen Branke (University of Warwick, UK), Lu\'is Paquete (University of Coimbra, Portugal)(参考訳) 実験研究は進化計算(ec)で広く行われており、その再現性と再現性に関する懸念は近年増大しており、他の科学分野でも同様の懸念を反映している。 本稿では,TELOが採用しているACM(Association of Computing Machinery)のバッジシステムを改良した,さまざまな再現性の分類を提案する。 我々は、ECの文脈において、再現可能性の主張に欠かせない人工物や測定の概念と同様に、様々な種類の再現性について論じる。 我々は、EC分野における再現性に対する文化的および技術的障害を特定する。 最後に、これらの再現性障害を克服するためのガイドラインとツールを提供します。

Experimental studies are prevalent in Evolutionary Computation (EC), and concerns about the reproducibility and replicability of such studies have increased in recent times, reflecting similar concerns in other scientific fields. In this article, we suggest a classification of different types of reproducibility that refines the badge system of the Association of Computing Machinery (ACM) adopted by TELO. We discuss, within the context of EC, the different types of reproducibility as well as the concepts of artifact and measurement, which are crucial for claiming reproducibility. We identify cultural and technical obstacles to reproducibility in the EC field. Finally, we provide guidelines and suggest tools that may help to overcome some of these reproducibility obstacles.
翻訳日:2021-02-09 15:28:52 公開日:2021-02-05
# MudrockNet: ディープラーニングによるMudrock SEMイメージのセマンティックセグメンテーション

MudrockNet: Semantic Segmentation of Mudrock SEM Images through Deep Learning ( http://arxiv.org/abs/2102.03393v1 )

ライセンス: Link先を確認
Abhishek Bihani, Hugh Daigle, Javier E. Santos, Christopher Landry, Masa Prodanovic, Kitty Milliken(参考訳) 走査型電子顕微鏡画像からの個々の細孔と泥岩の粒のセグメンテーションと分析は、ノイズ、画像アーティファクト、画像間のピクセルグレースケール値のばらつき、シルト粒子、粘土粒子、細孔などの物理的特徴間のグレースケール値の重なりなどにより自明ではないため、画像内の識別が困難である。 また,粒度や細孔はグレースケール値と重なり合うことが多いため,しきい値に基づくセグメンテーション手法の直接適用は不十分である。 コンピュータビジョンの分野での最近の進歩は、アルゴリズムを訓練するための地層データが利用可能である限り、画像の画像をセグメント化し、画像内のそのような特徴の複数の発生を識別することが簡単かつ迅速になってきました。 本稿では,TensorFlowライブラリで実装されたGoogleのDeepLab-v3+アーキテクチャに基づく,ディープラーニングSEMイメージセグメンテーションモデルMudrockNetを提案する。 地下1.1kmの深さで, 熊野盆地沖の未観測泥の電子顕微鏡像を走査する画像処理ワークフローから, 地表面データを得た。 訓練された深層学習モデルでは約90%の画素精度が得られ, 試験データの予測では, シルト粒子の平均交点 (iou) が0.6591, 細孔が0.6642であった。 また,imagejでトレーニング可能なwekaセグメンテーションを用いたランダムフォレスト分類器と比較し,泥岩網がシルト粒子と細孔の両方に対してより良い予測を行った。 シルトおよび粘土粒の大きさ、濃度および空間配置は、泥岩の岩石理物性に影響を与える可能性があり、泥岩の異なる穀物および孔を正確に識別する自動化方法は、石油探査および人為的廃棄物隔離のための貯留層およびシール特性を改善するのに役立つ。

Segmentation and analysis of individual pores and grains of mudrocks from scanning electron microscope images is non-trivial because of noise, imaging artifacts, variation in pixel grayscale values across images, and overlaps in grayscale values among different physical features such as silt grains, clay grains, and pores in an image, which make their identification difficult. Moreover, because grains and pores often have overlapping grayscale values, direct application of threshold-based segmentation techniques is not sufficient. Recent advances in the field of computer vision have made it easier and faster to segment images and identify multiple occurrences of such features in an image, provided that ground-truth data for training the algorithm is available. Here, we propose a deep learning SEM image segmentation model, MudrockNet based on Google's DeepLab-v3+ architecture implemented with the TensorFlow library. The ground-truth data was obtained from an image-processing workflow applied to scanning electron microscope images of uncemented muds from the Kumano Basin offshore Japan at depths < 1.1 km. The trained deep learning model obtained a pixel-accuracy about 90%, and predictions for the test data obtained a mean intersection over union (IoU) of 0.6591 for silt grains and 0.6642 for pores. We also compared our model with the random forest classifier using trainable Weka segmentation in ImageJ, and it was observed that MudrockNet gave better predictions for both silt grains and pores. The size, concentration, and spatial arrangement of the silt and clay grains can affect the petrophysical properties of a mudrock, and an automated method to accurately identify the different grains and pores in mudrocks can help improve reservoir and seal characterization for petroleum exploration and anthropogenic waste sequestration.
翻訳日:2021-02-09 15:28:41 公開日:2021-02-05
# 高性能分散機械学習のためのネットワークサポート

Network Support for High-performance Distributed Machine Learning ( http://arxiv.org/abs/2102.03394v1 )

ライセンス: Link先を確認
Francesco Malandrino and Carla Fabiana Chiasserini and Nuria Molner and Antonio De La Oliva(参考訳) 分散機械学習に対する従来のアプローチは、学習アルゴリズムをネットワークに適応させることである。 インテリジェントエッジに基づくネットワークは、その代わりに、目的の学習パフォーマンスを満たすために、実行すべき学習タスクの周りに論理的なネットワークトポロジを定義するために、反対のアプローチに従うことを可能にします。 本稿では,学習ノード(計算を行う)と情報ノード(データを提供する)の両方を考慮し,教師付き機械学習の文脈でそのような側面を捉えるシステムモデルを提案する。 次に,学習ノードと情報ノードが協調して学習タスクを完了するべき問題,および (ii) 目標予測エラーや実行時間を満たしながら学習コストを最小限に抑えるために実行すべきイテレーション数を選択する問題を定式化する。 上記の問題の重要な性質を証明した後、DoubleClimbというアルゴリズムを考案し、1+1/|I|競合解(Iは情報ノードの集合である)を見つけることができる。 実世界のネットワークトポロジを活用し,分類タスクと回帰タスクの両方を考慮した性能評価の結果,DoubleClimbは最先端の最適化手法と密接に一致していることがわかった。

The traditional approach to distributed machine learning is to adapt learning algorithms to the network, e.g., reducing updates to curb overhead. Networks based on intelligent edge, instead, make it possible to follow the opposite approach, i.e., to define the logical network topology em around the learning task to perform, so as to meet the desired learning performance. In this paper, we propose a system model that captures such aspects in the context of supervised machine learning, accounting for both learning nodes (that perform computations) and information nodes (that provide data). We then formulate the problem of selecting (i) which learning and information nodes should cooperate to complete the learning task, and (ii) the number of iterations to perform, in order to minimize the learning cost while meeting the target prediction error and execution time. After proving important properties of the above problem, we devise an algorithm, named DoubleClimb, that can find a 1+1/|I|-competitive solution (with I being the set of information nodes), with cubic worst-case complexity. Our performance evaluation, leveraging a real-world network topology and considering both classification and regression tasks, also shows that DoubleClimb closely matches the optimum, outperforming state-of-the-art alternatives.
翻訳日:2021-02-09 15:24:40 公開日:2021-02-05
# 暗号化によるプライバシー保護のための精密医学の機械学習

Machine Learning in Precision Medicine to Preserve Privacy via Encryption ( http://arxiv.org/abs/2102.03412v1 )

ライセンス: Link先を確認
William Briguglio, Parisa Moghaddam, Waleed A. Yousef, Issa Traore, Mohammad Mamun(参考訳) 精密医療は、遺伝子構造、医療史、環境、ライフスタイルを考慮し、個々の患者にパーソナライズされたケアを提供する疾患治療と予防のための新しいアプローチです。 精密医療の急速な進歩とかなりの可能性にもかかわらず、いくつかの技術的課題は未解決のままである。 このような重要な課題の1つは、ゲノムデータや電子健康記録などの精密健康関連データのセキュリティとプライバシーであり、コラボレーションを阻害し、機械学習(ML)アルゴリズムの完全な可能性を阻害します。 MLソリューションを提供しながらデータのプライバシーを保護するために、この記事は3つの貢献をします。 まず,この分野における最新の包括的ゲノミクスデータセットから癌を予測するmlモデルの構築に用いた,mle(generally machine learning with encryption)フレームワークを提案する。 第2に,同一データセット上で実施した最新の研究よりも予測精度は若干高いが,患者のゲノムデータのプライバシは維持されている。 第三に、この作業の検証、再現、および拡張を容易にするために、フレームワークの設計と実装、すべてのML実験とコード、そして無料のクラウドサービスにデプロイされた最終的な予測モデルを含むオープンソースリポジトリを提供します。

Precision medicine is an emerging approach for disease treatment and prevention that delivers personalized care to individual patients by considering their genetic makeups, medical histories, environments, and lifestyles. Despite the rapid advancement of precision medicine and its considerable promise, several underlying technological challenges remain unsolved. One such challenge of great importance is the security and privacy of precision health-related data, such as genomic data and electronic health records, which stifle collaboration and hamper the full potential of machine-learning (ML) algorithms. To preserve data privacy while providing ML solutions, this article makes three contributions. First, we propose a generic machine learning with encryption (MLE) framework, which we used to build an ML model that predicts cancer from one of the most recent comprehensive genomics datasets in the field. Second, our framework's prediction accuracy is slightly higher than that of the most recent studies conducted on the same dataset, yet it maintains the privacy of the patients' genomic data. Third, to facilitate the validation, reproduction, and extension of this work, we provide an open-source repository that contains the design and implementation of the framework, all the ML experiments and code, and the final predictive model deployed to a free cloud service.
翻訳日:2021-02-09 15:24:19 公開日:2021-02-05
# Federated Reconstruction: 部分的局所的フェデレーション学習

Federated Reconstruction: Partially Local Federated Learning ( http://arxiv.org/abs/2102.03448v1 )

ライセンス: Link先を確認
Karan Singhal, Hakim Sidahmed, Zachary Garrett, Shanshan Wu, Keith Rush, Sushant Prakash(参考訳) フェデレーション学習におけるパーソナライズ手法は,データの可用性,通信コスト,クライアントの不均一性に対する堅牢性といった,フェデレーションとローカルトレーニングのメリットをバランスさせることを目的としている。 クライアントがすべてのモデルパラメータを通信する必要があるアプローチは、プライバシーと通信の制約のために望ましくない。 他のアプローチでは、大規模なクロスデバイス設定では実用的でない、常時利用可能またはステートフルなクライアントが必要です。 Federated Reconstructionは、トレーニングや大規模推論に適した、部分的にローカルなフェデレーション学習のための最初のモデル非依存フレームワークです。 モデルに依存しないメタ学習への接続を通じてフレームワークを動機付け、既存のフィルタリングと次の単語予測のアプローチに対するパフォーマンスを実証的に実証し、この設定におけるアプローチを評価するためのオープンソースライブラリをリリースする。 また,このアプローチを大規模に展開して,モバイルキーボードアプリケーションにおける協調協調フィルタリングを実現する手法について述べる。

Personalization methods in federated learning aim to balance the benefits of federated and local training for data availability, communication cost, and robustness to client heterogeneity. Approaches that require clients to communicate all model parameters can be undesirable due to privacy and communication constraints. Other approaches require always-available or stateful clients, impractical in large-scale cross-device settings. We introduce Federated Reconstruction, the first model-agnostic framework for partially local federated learning suitable for training and inference at scale. We motivate the framework via a connection to model-agnostic meta learning, empirically demonstrate its performance over existing approaches for collaborative filtering and next word prediction, and release an open-source library for evaluating approaches in this setting. We also describe the successful deployment of this approach at scale for federated collaborative filtering in a mobile keyboard application.
翻訳日:2021-02-09 15:23:58 公開日:2021-02-05
# 変分交叉モーダル生成による視聴覚相関の学習

Learning Audio-Visual Correlations from Variational Cross-Modal Generation ( http://arxiv.org/abs/2102.03424v1 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Hugo Latapie, Yi Yang, Yan Yan(参考訳) 人々はイベントを見ながら、潜在的な音を簡単に想像できます。 この音声と視覚信号の自然な同期は、固有の相関関係を明らかにする。 そこで本稿では,自己教師付き方式でモーダル生成の観点から音声と視覚の相関関係を学習し,その相関関係を音声-視覚間の局所化や検索など,複数の下流タスクに容易に適用することができることを提案する。 本稿では,複数のエンコーダと共有デコーダ(MS-VAE)と,さらにWasserstein距離制約を追加してこの問題に取り組む,新しいVariational Auto Encoder (VAE)フレームワークを紹介する。 提案されたMS-VAEの最適化された潜在表現は、効果的に視聴覚相関を学習し、複数の視聴覚下流タスクに容易に適用でき、トレーニング中に与えられたラベル情報なしでも競争性能を達成できることを実証している。

People can easily imagine the potential sound while seeing an event. This natural synchronization between audio and visual signals reveals their intrinsic correlations. To this end, we propose to learn the audio-visual correlations from the perspective of cross-modal generation in a self-supervised manner, the learned correlations can be then readily applied in multiple downstream tasks such as the audio-visual cross-modal localization and retrieval. We introduce a novel Variational AutoEncoder (VAE) framework that consists of Multiple encoders and a Shared decoder (MS-VAE) with an additional Wasserstein distance constraint to tackle the problem. Extensive experiments demonstrate that the optimized latent representation of the proposed MS-VAE can effectively learn the audio-visual correlations and can be readily applied in multiple audio-visual downstream tasks to achieve competitive performance even without any given label information during training.
翻訳日:2021-02-09 15:18:21 公開日:2021-02-05
# 畳み込みニューラルネットワークにおける不安定勾配問題を回避する畳み込み核テンソルの正規化

Regularization for convolutional kernel tensors to avoid unstable gradient problem in convolutional neural networks ( http://arxiv.org/abs/2102.04294v1 )

ライセンス: Link先を確認
Pei-Chang Guo(参考訳) 畳み込みニューラルネットワークは今日では非常に人気がある。 ニューラルネットワークのトレーニングは簡単ではありません。 各畳み込みは構造化変換行列に対応する。 爆発・崩壊勾配問題を回避するために,各変換行列の特異値は訓練過程において大きくも小さくもないことが望ましい。 本稿では,各変換行列の特異値を制限する畳み込み核テンソルに対する3つの新しい正規化項を提案する。 本稿では,畳み込み型ニューラルネットワークの学習に関する新たな知見を提供する,勾配型手法の実施方法を示す。

Convolutional neural networks are very popular nowadays. Training neural networks is not an easy task. Each convolution corresponds to a structured transformation matrix. In order to help avoid the exploding/vanishing gradient problem, it is desirable that the singular values of each transformation matrix are not large/small in the training process. We propose three new regularization terms for a convolutional kernel tensor to constrain the singular values of each transformation matrix. We show how to carry out the gradient type methods, which provides new insight about the training of convolutional neural networks.
翻訳日:2021-02-09 15:15:06 公開日:2021-02-05
# (参考訳) 著者名曖昧化のためのラベル付きデータの自動生成:反復クラスタリング手法 [全文訳有]

Generating automatically labeled data for author name disambiguation: An iterative clustering method ( http://arxiv.org/abs/2102.03272v1 )

ライセンス: CC BY 4.0
Jinseok Kim, Jinmo Kim, and Jason Owen-Smith(参考訳) 教師付き著者名不明瞭さのアルゴリズムを訓練するために、多くの研究は手書きの真理データに頼っている。 本論文では, 電子メールアドレス, 共著者名, 引用レファレンスなどの情報を用いて, ラベル付きトレーニングデータを自動生成できることを示した。 この目的のために、各機能上の名前インスタンスをマッチングするための高精度なルールを外部権限データベースを用いて決定する。 そして、対象のあいまいなデータで選択された名前インスタンスは、ルールに基づいてペアワイズマッチングのプロセスを経る。 次に、汎用エンティティ解決アルゴリズムによってクラスタにマージされる。 クラスタ化手順は、さらなるマージが不可能になるまで、他の機能で繰り返される。 228kの著者名インスタンスのうち26,566インスタンスでテストされたこの反復クラスタリングは、ペアワイズf1 = 0.99の正確なラベル付きデータを生成する。 ラベル付きデータは、名前の民族性およびグループサイズ分布の曖昧さの観点から、人口データを表現した。 さらにラベル付きデータに基づいてトレーニングされた機械学習アルゴリズムは、ペアワイズF1 = 0.90 ~ 0.92のパフォーマンスでテストデータ中の24K名を曖昧にしている。 本手法を大規模学術データにおける著者名曖昧性解消に適用する上で,いくつかの課題について考察した。

To train algorithms for supervised author name disambiguation, many studies have relied on hand-labeled truth data that are very laborious to generate. This paper shows that labeled training data can be automatically generated using information features such as email address, coauthor names, and cited references that are available from publication records. For this purpose, high-precision rules for matching name instances on each feature are decided using an external-authority database. Then, selected name instances in target ambiguous data go through the process of pairwise matching based on the rules. Next, they are merged into clusters by a generic entity resolution algorithm. The clustering procedure is repeated over other features until further merging is impossible. Tested on 26,566 instances out of the population of 228K author name instances, this iterative clustering produced accurately labeled data with pairwise F1 = 0.99. The labeled data represented the population data in terms of name ethnicity and co-disambiguating name group size distributions. In addition, trained on the labeled data, machine learning algorithms disambiguated 24K names in test data with performance of pairwise F1 = 0.90 ~ 0.92. Several challenges are discussed for applying this method to resolving author name ambiguity in large-scale scholarly data.
翻訳日:2021-02-09 01:56:48 公開日:2021-02-05
# (参考訳) 著者名曖昧化に対する前名文字列の影響 [全文訳有]

Effect of forename string on author name disambiguation ( http://arxiv.org/abs/2102.03250v1 )

ライセンス: CC BY 4.0
Jinseok Kim and Jenna Kim(参考訳) 著者名の曖昧さでは、著者のフォアネームを使用して、どの名前インスタンスが一緒に曖昧になり、同じ著者を参照する可能性が高いかを決定します。 フォアネームのそのような重要な役割にもかかわらず、ヒューリスティック(文字列マッチング)とアルゴリズムの曖昧さのパフォーマンスに対するそれらの効果はよく理解されていません。 本研究は,複数のラベル付きデータセットを用いて著者名の曖昧さの寄与を評価し,著者が名前の変種(synonym)で表される実世界のシナリオを反映し,同じ名前(homonym)を共有する著者もいる。 その結果、フルフォアネームの比率を増やすことで、ヒューリスティックと機械学習に基づく曖昧さの両方のパフォーマンスが大幅に向上することを示した。 アルゴリズムによる曖昧さ回避によるパフォーマンス向上は、多くのforenameが初期化され、あるいはhomonymが一般的になったときに発音される。 しかし、フルフォアネームの比率が大きくなるにつれて、文字列マッチングによるパフォーマンスよりも限界となる。 フォアネーム文字列の少数の使用は、完全長文字列の使用に比べてヒューリスティックおよびアルゴリズム的曖昧さの両方のパフォーマンスを低下させるものではない。 これらの知見は、初期化されたフォアネームをレコードリンクを介してフルストリング形式に復元し、曖昧化性能を向上させるなどの実用的な提案を提供する。

In author name disambiguation, author forenames are used to decide which name instances are disambiguated together and how much they are likely to refer to the same author. Despite such a crucial role of forenames, their effect on the performances of heuristic (string matching) and algorithmic disambiguation is not well understood. This study assesses the contributions of forenames in author name disambiguation using multiple labeled datasets under varying ratios and lengths of full forenames, reflecting real-world scenarios in which an author is represented by forename variants (synonym) and some authors share the same forenames (homonym). Results show that increasing the ratios of full forenames improves substantially the performances of both heuristic and machine-learning-bas ed disambiguation. Performance gains by algorithmic disambiguation are pronounced when many forenames are initialized or homonym is prevalent. As the ratios of full forenames increase, however, they become marginal compared to the performances by string matching. Using a small portion of forename strings does not reduce much the performances of both heuristic and algorithmic disambiguation compared to using full-length strings. These findings provide practical suggestions such as restoring initialized forenames into a full-string format via record linkage for improved disambiguation performances.
翻訳日:2021-02-09 01:31:22 公開日:2021-02-05
# (参考訳) 因果的発見のサンプル複雑さとドメインエキスパートの価値について [全文訳有]

On the Sample Complexity of Causal Discovery and the Value of Domain Expertise ( http://arxiv.org/abs/2102.03274v1 )

ライセンス: CC BY 4.0
Samir Wadhwa, Roy Dong(参考訳) 因果発見法は、実験者が相関関係のサブセットに介入する実験データに対して、純粋に観測データからランダム変数間の因果関係を同定する。 これは条件付き独立(CI) oracle: 2つのランダム変数が条件付き独立であるかどうかを別のランダム変数の集合で表すことができるオーラクルである。 このアルゴリズムの実践的実装には、CIオラクルの代わりに条件付き独立性に関する統計的テストが組み込まれている。 本稿では、CIオラクルを使わずに因果発見アルゴリズムのサンプル複雑性を分析する:一定の信頼度から、因果発見アルゴリズムが因果構造を特定するのに必要なデータポイントがいくつ必要か。 さらに、本手法は、データサンプルの観点から、ドメインの専門知識の価値を定量化することができる。 最後に,これらのサンプルレートの精度を数値例で示し,スパーシティ優先と既知の因果方向の利点を定量化する。

Causal discovery methods seek to identify causal relations between random variables from purely observational data, as opposed to actively collected experimental data where an experimenter intervenes on a subset of correlates. One of the seminal works in this area is the Inferred Causation algorithm, which guarantees successful causal discovery under the assumption of a conditional independence (CI) oracle: an oracle that can states whether two random variables are conditionally independent given another set of random variables. Practical implementations of this algorithm incorporate statistical tests for conditional independence, in place of a CI oracle. In this paper, we analyze the sample complexity of causal discovery algorithms without a CI oracle: given a certain level of confidence, how many data points are needed for a causal discovery algorithm to identify a causal structure? Furthermore, our methods allow us to quantify the value of domain expertise in terms of data samples. Finally, we demonstrate the accuracy of these sample rates with numerical examples, and quantify the benefits of sparsity priors and known causal directions.
翻訳日:2021-02-09 01:07:57 公開日:2021-02-05
# (参考訳) インクリメンタル・デクリメント学習によるコンフォーメーション予測器の厳密な最適化 [全文訳有]

Exact Optimization of Conformal Predictors via Incremental and Decremental Learning ( http://arxiv.org/abs/2102.03236v1 )

ライセンス: CC BY 4.0
Giovanni Cherubin, Konstantinos Chatzikokolakis, Martin Jaggi(参考訳) Conformal Predictors (CP) はMLメソッドのラッパーであり、データ分散に対する弱い仮定の下でエラー保証を提供する。 これらは分類や回帰から異常検出まで、幅広い問題に適している。 残念ながら、その高い計算複雑性は、大きなデータセットに適用性を制限する。 本研究では, 基礎となるML法と併用して検討し, インクリメンタル&デクリメンタル学習を活用することで, CP分類器をかなり高速化できることを示した。 k-NN,KDE,カーネルLS-SVMなどの手法では,正確な解を生成すると同時に,実行時間を1桁削減する。 同様のアイデアにより、ブートストラップの難しいケースでもリニアなスピードアップを実現します。 最後に、これらの手法を拡張して、回帰のためのk-NN CPの最適化を改善する。 その結果を実証的に評価し,CP最適化に適した手法について考察した。

Conformal Predictors (CP) are wrappers around ML methods, providing error guarantees under weak assumptions on the data distribution. They are suitable for a wide range of problems, from classification and regression to anomaly detection. Unfortunately, their high computational complexity limits their applicability to large datasets. In this work, we show that it is possible to speed up a CP classifier considerably, by studying it in conjunction with the underlying ML method, and by exploiting incremental&decremental learning. For methods such as k-NN, KDE, and kernel LS-SVM, our approach reduces the running time by one order of magnitude, whilst producing exact solutions. With similar ideas, we also achieve a linear speed up for the harder case of bootstrapping. Finally, we extend these techniques to improve upon an optimization of k-NN CP for regression. We evaluate our findings empirically, and discuss when methods are suitable for CP optimization.
翻訳日:2021-02-09 00:53:42 公開日:2021-02-05
# (参考訳) 地理物理学における機械学習の数学的側面に関する調査:気象予報・風力エネルギー・波力エネルギー・石油・ガス探査を事例として [全文訳有]

A Survey on Mathematical Aspects of Machine Learning in GeoPhysics: The Cases of Weather Forecast, Wind Energy, Wave Energy, Oil and Gas Exploration ( http://arxiv.org/abs/2102.03206v1 )

ライセンス: CC BY 4.0
Miroslav Kosanic and Veljko Milutinovic(参考訳) 本稿では、地球物理学と対応するサブブランチの文脈で機械学習技術(ML)を適用する最も顕著な作品をレビューします。 気象予報,風力エネルギー,波力エネルギー,石油,ガス探査の分野で十分な背景を提供しながら,現在までに達成されている進歩と今後のさらなる研究に向けた重要な方向性について紹介する。 本研究の目的は, これまでの成果を反映し, これら2分野間の相乗効果を総合的に検証し, 地学における機械学習技術の新たなアプローチを高速化することである。 最後に、パフォーマンスの加速手段としてデータフローパラダイムを使用したmlアルゴリズムの実装に関連する改善点を指摘したいと思います。

This paper reviews the most notable works applying machine learning techniques (ML) in the context of geophysics and corresponding subbranches. We showcase both the progress achieved to date as well as the important future directions for further research while providing an adequate background in the fields of weather forecast, wind energy, wave energy, oil and gas exploration. The objective is to reflect on the previous successes and provide a comprehensive review of the synergy between these two fields in order to speed up the novel approaches of machine learning techniques in geophysics. Last but not least, we would like to point out possible improvements, some of which are related to the implementation of ML algorithms using DataFlow paradigm as a means of performance acceleration.
翻訳日:2021-02-09 00:30:56 公開日:2021-02-05
# (参考訳) DEAL:フェデレーションシステムにおける省エネルギー学習 [全文訳有]

DEAL: Decremental Energy-Aware Learning in a Federated System ( http://arxiv.org/abs/2102.03051v1 )

ライセンス: CC BY 4.0
Wenting Zou, Li Li, Zichen Xu, Chengzhong Xu(参考訳) 連合学習は、バッテリー駆動デバイスでの重エネルギーフットプリントに苦しむ。 学習プロセスでは、すべてのデバイスが目覚め続けるとともに、高価なバッテリ電力を消費して、共有モデルを協調的に訓練する。 システムカーネルモードにおける従来のエネルギー管理技術は、トレーニング装置を低電力状態に強制することができるが、協調学習のSLOに違反する可能性がある。 本研究では,SLO学習とエネルギー効率の相違に対処するため,省エネとプライバシ保護のための省エネ学習システムであるDEALを提案する。 DEALは、2つの層からエネルギーフットプリントを削減します:1)十分な能力と最大の報酬を持つ労働者のサブセットを選択する最適化層。 2)デクリメントとインクリメンタルな更新関数を積極的に提供する特定デクリメント学習アルゴリズムは、カーネルがローカルdvfを正しくチューニングできるようにする。 われわれは、最新のスマートフォンプロファイルを持つコンテナ化されたサービスでDEALをプロトタイプ化し、現実的なトレースを持ついくつかの学習ベンチマークで評価した。 DEALが従来の方法と比較して、異なるデータセットのエネルギーフットプリントを75.6%-82.4%削減できることを観察した。 すべての学習プロセスは、モデル収束の2~4倍までの実践的なFLフレームワークよりも高速である。

Federated learning struggles with their heavy energy footprint on battery-powered devices. The learning process keeps all devices awake while draining expensive battery power to train a shared model collaboratively, yet it may still leak sensitive personal information. Traditional energy management techniques in system kernel mode can force the training device entering low power states, but it may violate the SLO of the collaborative learning. To address the conflict between learning SLO and energy efficiency, we propose DEAL, an energy efficient learning system that saves energy and preserves privacy with a decremental learning design. DEAL reduces the energy footprint from two layers: 1) an optimization layer that selects a subset of workers with sufficient capacity and maximum rewards. 2) a specified decremental learning algorithm that actively provides a decremental and incremental update functions, which allows kernel to correctly tune the local DVFS. We prototyped DEAL in containerized services with modern smartphone profiles and evaluated it with several learning benchmarks with realistic traces. We observed that DEAL achieves 75.6%-82.4% less energy footprint in different datasets, compared to the traditional methods. All learning processes are faster than state-of-the-practic e FL frameworks up to 2-4X in model convergence.
翻訳日:2021-02-09 00:12:36 公開日:2021-02-05
# (参考訳) ハイパーパラメータ最適化は私たちを欺き、それを止める方法 [全文訳有]

Hyperparameter Optimization Is Deceiving Us, and How to Stop It ( http://arxiv.org/abs/2102.03034v1 )

ライセンス: CC BY 4.0
A. Feder Cooper and Yucheng Lu and Christopher De Sa(参考訳) ハイパーパラメータ最適化(HPO)は学習アルゴリズムのパフォーマンスに大きく影響することが知られているが、しばしば経験的な後発として扱われる。 最近の実証研究は、HPOの第2級治療のリスクを強調している。 彼らは、探索するハイパーパラメータサブスペースの選択に基づく一貫性のないパフォーマンスの結果が、ML研究における広範な問題であることを示している。 2つのアルゴリズムを比較するとき、J と K が1つの部分空間を探索すると、J が K より優れているという結論が得られる。 要するに、ハイパーパラメータの選択はあなたを欺くことができます。 我々は、この問題を解析的に特徴付け、超パラメータ偽装(hyperparameter deception)と呼び、グリッド探索が本質的に偽造であることを示す。 我々は、偽装に対する保証をもって防御を証明し、実際に防御を示す。

While hyperparameter optimization (HPO) is known to greatly impact learning algorithm performance, it is often treated as an empirical afterthought. Recent empirical works have highlighted the risk of this second-rate treatment of HPO. They show that inconsistent performance results, based on choice of hyperparameter subspace to search, are a widespread problem in ML research. When comparing two algorithms, J and K searching one subspace can yield the conclusion that J outperforms K, whereas searching another can entail the opposite result. In short, your choice of hyperparameters can deceive you. We provide a theoretical complement to this prior work: We analytically characterize this problem, which we term hyperparameter deception, and show that grid search is inherently deceptive. We prove a defense with guarantees against deception, and demonstrate a defense in practice.
翻訳日:2021-02-08 23:53:40 公開日:2021-02-05
# (参考訳) Tiny Recurrent U-Netによるリアルタイムデノイングとデバベーション [全文訳有]

Real-time Denoising and Dereverberation with Tiny Recurrent U-Net ( http://arxiv.org/abs/2102.03207v1 )

ライセンス: CC BY 4.0
Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon, Kyogu Lee(参考訳) 現代のディープラーニングに基づくモデルは、音声強化タスクで顕著なパフォーマンス改善が見られた。 しかし、最先端モデルのパラメータの数は、現実のアプリケーションのためにデバイスにデプロイするには大きすぎることが多い。 この目的のために,現在の最先端モデルの性能と一致する軽量オンライン推論モデルであるTiny Recurrent U-Net(TRU-Net)を提案する。 TRU-Netの量子化されたバージョンのサイズは362キロバイトであり、エッジデバイスにデプロイできるほど小さい。 さらに,この小型モデルと相認識型$\beta$-sigmoidマスクという新しいマスキング手法を組み合わせることで,同時脱臭と脱水を可能にする。 客観的および主観的評価の結果から,ベンチマークデータセットにおける現在の最先端モデルとの競合性能は,桁違いに小さいパラメータで達成できることがわかった。

Modern deep learning-based models have seen outstanding performance improvement with speech enhancement tasks. The number of parameters of state-of-the-art models, however, is often too large to be deployed on devices for real-world applications. To this end, we propose Tiny Recurrent U-Net (TRU-Net), a lightweight online inference model that matches the performance of current state-of-the-art models. The size of the quantized version of TRU-Net is 362 kilobytes, which is small enough to be deployed on edge devices. In addition, we combine the small-sized model with a new masking method called phase-aware $\beta$-sigmoid mask, which enables simultaneous denoising and dereverberation. Results of both objective and subjective evaluations have shown that our model can achieve competitive performance with the current state-of-the-art models on benchmark datasets using fewer parameters by orders of magnitude.
翻訳日:2021-02-08 23:16:34 公開日:2021-02-05
# (参考訳) マルチストリームエンドツーエンドASRのロバスト性向上のための2段階拡張と適応CTC融合 [全文訳有]

Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream End-to-End ASR ( http://arxiv.org/abs/2102.03055v1 )

ライセンス: CC BY 4.0
Ruizhi Li and Gregory Sell and Hynek Hermansky(参考訳) 自動音声認識(ASR)システムの性能劣化は、テスト音響条件が訓練と異なる場合、一般的に観察される。 したがって、背景雑音や残響などの様々な環境歪みに対してASRシステムを堅牢化することが不可欠である。 マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。 これまでは、stage-2がstage-1 universal feature extractor(ufe)の特徴を持つマルチストリームモデルを定式化するマルチストリームエンドツーエンドasrにおいて、実用的な2段階トレーニング戦略が提案されていた。 本論文では,不整合シナリオに焦点をあてた2段階の拡張スキームを提案する。Stage-1 Augmentationは,データ拡張技術を用いた単一ストリーム入力品種への対処を目的とする。Stage-2 Time Maskingは,ランダムに選択されたストリームのUFE特徴に時間マスクを適用して,多様なストリームの組み合わせをシミュレートする。 また, 階層的注意機構の助けを借りて, 適応的接続性時間分類(CTC)を施行した。 マルチストリームシナリオとして、DIRHAとAMIという2つのデータセットで実験が行われた。 以前のトレーニング戦略と比較すると、単語誤り率を29.7-59.3%削減し、いくつかの未発見のストリームの組み合わせで大幅な改善が報告されている。

Performance degradation of an Automatic Speech Recognition (ASR) system is commonly observed when the test acoustic condition is different from training. Hence, it is essential to make ASR systems robust against various environmental distortions, such as background noises and reverberations. In a multi-stream paradigm, improving robustness takes account of handling a variety of unseen single-stream conditions and inter-stream dynamics. Previously, a practical two-stage training strategy was proposed within multi-stream end-to-end ASR, where Stage-2 formulates the multi-stream model with features from Stage-1 Universal Feature Extractor (UFE). In this paper, as an extension, we introduce a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1 Augmentation aims to address single-stream input varieties with data augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE features of randomly selected streams to simulate diverse stream combinations. During inference, we also present adaptive Connectionist Temporal Classification (CTC) fusion with the help of hierarchical attention mechanisms. Experiments have been conducted on two datasets, DIRHA and AMI, as a multi-stream scenario. Compared with the previous training strategy, substantial improvements are reported with relative word error rate reductions of 29.7-59.3% across several unseen stream combinations.
翻訳日:2021-02-08 23:03:29 公開日:2021-02-05
# (参考訳) NRTSI:不規則サンプリングデータに対する非リカレント時系列計算 [全文訳有]

NRTSI: Non-Recurrent Time Series Imputation for Irregularly-sampled Data ( http://arxiv.org/abs/2102.03340v1 )

ライセンス: CC0 1.0
Siyuan Shan, Junier B. Oliva(参考訳) 時系列計算は、欠落したデータで時系列を理解するための基本的なタスクである。 既存の計算法は、しばしば RNN や通常の微分方程式のような反復モデルに依存しており、どちらも繰り返しモデルの誤差合成問題に悩まされている。 本研究では,集合の置換同変モデリングの観点から計算課題を考察し,再帰的な加群を持たない新しい計算モデル NRTSI を提案する。 NRTSIの置換同変性を利用して、原理的かつ効率的な階層型計算手順を設計する。 NRTSIは不規則にサンプリングされたデータを容易に処理でき、多重モード確率計算を実行し、次元が部分的に観察されるシナリオを処理できる。 我々は, NRTSIが, 広く使用されている時系列計算ベンチマークにおいて, 最先端の性能を達成することを示す。

Time series imputation is a fundamental task for understanding time series with missing data. Existing imputation methods often rely on recurrent models such as RNNs and ordinary differential equations, both of which suffer from the error compounding problems of recurrent models. In this work, we view the imputation task from the perspective of permutation equivariant modeling of sets and propose a novel imputation model called NRTSI without any recurrent modules. Taking advantage of the permutation equivariant nature of NRTSI, we design a principled and efficient hierarchical imputation procedure. NRTSI can easily handle irregularly-sampled data, perform multiple-mode stochastic imputation, and handle the scenario where dimensions are partially observed. We show that NRTSI achieves state-of-the-art performance across a wide range of commonly used time series imputation benchmarks.
翻訳日:2021-02-08 22:25:28 公開日:2021-02-05
# (参考訳) てんかんの診断と予後のためのニューロイメージングの機械学習応用

Machine Learning Applications on Neuroimaging for Diagnosis and Prognosis of Epilepsy: A Review ( http://arxiv.org/abs/2102.03336v1 )

ライセンス: CC BY 4.0
Jie Yuan, Xuming Ran, Keyin Liu, Chen Yao, Yi Yao, Haiyan Wu, Quanying Liu(参考訳) 機械学習は、医療画像解析において重要な役割を担い、ニューロイメージング臨床応用の新たな進歩を生み出している。 しかし、これまでの研究とレビューは主に脳波やseegなどの電気生理学的信号に焦点を当てており、てんかん研究における神経画像化の可能性はほとんど見過ごされてきた。 本稿では,てんかん診断と予後の文脈において,神経画像と機械学習の相互作用を強調する。 まず, てんかんクリニック, textit{e.g} MRI, DTI, fMRI, PETで使用される典型的な神経画像モダリティについて概説する。 次に,ニューロイメージングデータに機械学習手法を適用するための2つのアプローチについて紹介する。特徴工学と機械学習分類器を組み合わせた2段階合成アプローチと,通常ディープラーニングに向けたエンドツーエンドアプローチである。 後に、セグメント化、局在化および側方化タスク、および診断および予後に直接関連するタスクなどのてんかん画像上の機械学習タスクに関する詳細なレビューが提示されます。 最後に, てんかんの診断と予後をコンピュータ支援する方法の確立を願って, この分野における現在の業績, 課題, 今後の方向性について論じる。

Machine learning is playing an increasing important role in medical image analysis, spawning new advances in neuroimaging clinical applications. However, previous work and reviews were mainly focused on the electrophysiological signals like EEG or SEEG; the potential of neuroimaging in epilepsy research has been largely overlooked despite of its wide use in clinical practices. In this review, we highlight the interactions between neuroimaging and machine learning in the context of the epilepsy diagnosis and prognosis. We firstly outline typical neuroimaging modalities used in epilepsy clinics, \textit{e.g} MRI, DTI, fMRI and PET. We then introduce two approaches to apply machine learning methods to neuroimaging data: the two-step compositional approach which combines feature engineering and machine learning classifier, and the end-to-end approach which is usually toward deep learning. Later a detailed review on the machine learning tasks on epileptic images is presented, such as segmentation, localization and lateralization tasks, as well as the tasks directly related to the diagnosis and prognosis. In the end, we discuss current achievements, challenges, potential future directions in the field, with the hope to pave a way to computer-aided diagnosis and prognosis of epilepsy.
翻訳日:2021-02-08 22:08:53 公開日:2021-02-05
# (参考訳) ベンフォードの法則とニューラルネットワークの関連について [全文訳有]

On The Connection of Benford's Law and Neural Networks ( http://arxiv.org/abs/2102.03313v1 )

ライセンス: CC BY-SA 4.0
Surya Kant Sahu, Abhinav Java, Arshad Shaikh(参考訳) ベンフォードの法則は重要桁法とも呼ばれ、多くの自然発生データセットで観察される。 例えば、重力、クーロンの定数などの物理定数は、この法則に従います。 本稿では、ニューラルネットワークの重みがベンフォードの法則にどの程度近いかを示すスコアである$mlh$を定義する。 ニューラルネットワークの重み付けは初期化法にかかわらずベンフォードの法則に従うことを示す。 一般化とネットワークの$MLH$との間には、大きなつながりがあります。 我々は、ImageNet、Transformer(BERT、Electraなど)でトレーニングされたAlexNetからResNeXtに至るまで、いくつかのアーキテクチャが証明されている。 さまざまなタスクに関する他のトレーニング済みモデルは、テストパフォーマンスと$MLH$との間に強い相関関係を持っています。 また、重みにおけるデータの影響を調査し、なぜNNがベンフォードの法則に従うのかを説明する。 MLP, CNN, LSTMを用いて複数のデータセットに対して繰り返し実験を行った結果, トレーニング中にMLH$が過度に適合していることを示す実証的証拠が得られた。 Benfordの法則とニューラルネットワークのこの関係を理解することは、後者をよりよく理解することを約束する。

Benford's law, also called Significant Digit Law, is observed in many naturally occurring data-sets. For instance, the physical constants such as Gravitational, Coulomb's Constant, etc., follow this law. In this paper, we define a score, $MLH$, for how closely a Neural Network's Weights match Benford's law. We show that Neural Network Weights follow Benford's Law regardless of the initialization method. We make a striking connection between Generalization and the $MLH$ of the network. We provide evidence that several architectures from AlexNet to ResNeXt trained on ImageNet, Transformers (BERT, Electra, etc.), and other pre-trained models on a wide variety of tasks have a strong correlation between their test performance and the $MLH$. We also investigate the influence of Data in the Weights to explain why NNs possibly follow Benford's Law. With repeated experiments on multiple datasets using MLPs, CNNs, and LSTMs, we provide empirical evidence that there is a connection between $MLH$ while training, overfitting. Understanding this connection between Benford's Law and Neural Networks promises a better comprehension of the latter.
翻訳日:2021-02-08 22:07:41 公開日:2021-02-05
# (参考訳) 異常水位予測のためのデータサイエンスプロジェクトにおける石客としてのカテゴリーデータ [全文訳有]

Categorical data as a stone guest in a data science project for predicting defective water meters ( http://arxiv.org/abs/2102.03284v1 )

ライセンス: CC BY 4.0
Giovanni Delnevo, Marco Roccetti, Luca Casini(参考訳) この分野で1年間の研究の末、機械式水量計が経時的かつ集中的な使用によって失敗するかどうかを予測できる機械学習ベースの分類器を開発した。 繰り返しのディープニューラルネットワーク(RNN)は、100万メートルから集められた1500万回の水消費から抽出されたデータで訓練されました。 トレーニングに使用したデータには,基本的に2つのタイプがあります。 カテゴリ(Categorical)とは、ある定性的性質に基づいて、可能な値の限定値と固定値の1つを取ることのできるデータの一種であり、一方、連続は、この場合、測定値である。 メートルで取られた、消費された水の量(立方メートル)。 本稿では,連続データを用いた場合,RNNの予測精度が平均80%を超えているにもかかわらず,学習段階におけるカテゴリ情報の導入により,その性能は著しく向上しなかったという事実を論じる。 特定の観点からは、この研究は未解決で批判的な問題です。 しかし、データサイエンスの観点からこの議論の余地があるとすれば、ドメインの専門家の参加なしには正確な機械学習ソリューションを構築することはできないということに気付きました。彼らは、それぞれが独自の感覚、妥当性、意味を持つさまざまな種類のデータの重要性(関係)を区別することができます。 データの科学は、データサイエンティスト/機械学習の専門家とドメインの専門家の指定が共生である多面的な分野に向かって進化しています。

After a one-year long effort of research on the field, we developed a machine learning-based classifier, tailored to predict whether a mechanical water meter would fail with passage of time and intensive use as well. A recurrent deep neural network (RNN) was trained with data extrapolated from 15 million readings of water consumption, gathered from 1 million meters. The data we used for training were essentially of two types: continuous vs categorical. Categorical being a type of data that can take on one of a limited and fixed number of possible values, on the basis of some qualitative property; while continuous, in this case, are the values of the measurements. taken at the meters, of the quantity of consumed water (cubic meters). In this paper, we want to discuss the fact that while the prediction accuracy of our RNN has exceeded the 80% on average, based on the use of continuous data, those performances did not improve, significantly, with the introduction of categorical information during the training phase. From a specific viewpoint, this remains an unsolved and critical problem of our research. Yet, if we reason about this controversial case from a data science perspective, we realize that we have had a confirmation that accurate machine learning solutions cannot be built without the participation of domain experts, who can differentiate on the importance of (the relation between) different types of data, each with its own sense, validity, and implications. Past all the original hype, the science of data is thus evolving towards a multifaceted discipline, where the designitations of data scientist/machine learning expert and domain expert are symbiotic
翻訳日:2021-02-08 21:52:10 公開日:2021-02-05
# (参考訳) 有限次元マルジナルからのガウス過程間の2-シンクホーン分岐の推定 [全文訳有]

Estimating 2-Sinkhorn Divergence between Gaussian Processes from Finite-Dimensional Marginals ( http://arxiv.org/abs/2102.03267v1 )

ライセンス: CC BY 4.0
Anton Mallasto(参考訳) \emph{Optimal Transport} (OT) は機械学習とコンピュータビジョンにおける重要な計算ツールとして登場し、確率測定を研究するための幾何学的枠組みを提供する。 OT は残念ながら次元の呪いに悩まされ、実用的計算には正規化が必要であり、そのために \emph{entropic regularization} は 'unbiased' となり、その結果 \emph{Sinkhorndivrgence} となる。 本研究では,その有限次元辺分布を用いて,<emph{Gaussian process} (GPs) 間の2-シンクホーンの発散を推定する収束性について検討する。 ある基準測度に従って辺点をサンプリングすると、発散のほぼ確実に収束する。 さらに、n$ を用いた場合、発散スケールの推定誤差は $\mathcal{o}\left(\epsilon^ {-1}n^{-\frac{1}{2}}\right)$ として次元フリーな方法で計算され、ここで $\epsilon$ はエントロピー正規化の大きさである。

\emph{Optimal Transport} (OT) has emerged as an important computational tool in machine learning and computer vision, providing a geometrical framework for studying probability measures. OT unfortunately suffers from the curse of dimensionality and requires regularization for practical computations, of which the \emph{entropic regularization} is a popular choice, which can be 'unbiased', resulting in a \emph{Sinkhorn divergence}. In this work, we study the convergence of estimating the 2-Sinkhorn divergence between \emph{Gaussian processes} (GPs) using their finite-dimensional marginal distributions. We show almost sure convergence of the divergence when the marginals are sampled according to some base measure. Furthermore, we show that using $n$ marginals the estimation error of the divergence scales in a dimension-free way as $\mathcal{O}\left(\epsilon^ {-1}n^{-\frac{1}{2}}\right)$, where $\epsilon$ is the magnitude of entropic regularization.
翻訳日:2021-02-08 21:46:46 公開日:2021-02-05
# (参考訳) RpBERT:マルチモーダルNERのためのテキスト画像相関伝播に基づくBERTモデル [全文訳有]

RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER ( http://arxiv.org/abs/2102.02967v1 )

ライセンス: CC BY-SA 4.0
Lin Sun, Jiquan Wang, Kai Zhang, Yindu Su, and Fangsheng Weng(参考訳) 近年,マルチモーダルなエンティティ認識(MNER)により,ツイート中のNERの精度が向上している。 しかし、ほとんどのマルチモーダル手法は、テキストや画像が関連しているかどうかに関わらず、注意機構を用いて視覚的手がかりを抽出する。 実際、無関係なテキストイメージペアは、ツイートのかなりの割合を占めている。 テキストとは無関係な視覚的な手がかりは、マルチモーダルモデル学習に不確実あるいはマイナスの影響をもたらす。 本稿では,マルチモーダルBERTモデルへのテキスト画像関係伝播の手法を提案する。 ソフトゲートまたはハードゲートを統合して視覚的な手がかりを選択し、MNERデータセットをトレーニングするマルチタスクアルゴリズムを提案します。 実験では,テキストと画像の関係伝播の前後における視覚的注意の変化を深く分析した。 本モデルは,MNERデータセット上での最先端性能を実現する。

Recently multimodal named entity recognition (MNER) has utilized images to improve the accuracy of NER in tweets. However, most of the multimodal methods use attention mechanisms to extract visual clues regardless of whether the text and image are relevant. Practically, the irrelevant text-image pairs account for a large proportion in tweets. The visual clues that are unrelated to the texts will exert uncertain or even negative effects on multimodal model learning. In this paper, we introduce a method of text-image relation propagation into the multimodal BERT model. We integrate soft or hard gates to select visual clues and propose a multitask algorithm to train on the MNER datasets. In the experiments, we deeply analyze the changes in visual attention before and after the use of text-image relation propagation. Our model achieves state-of-the-art performance on the MNER datasets.
翻訳日:2021-02-08 21:25:17 公開日:2021-02-05
# (参考訳) 新規クラス分類のための超球面埋め込み [全文訳有]

Hyperspherical embedding for novel class classification ( http://arxiv.org/abs/2102.03243v1 )

ライセンス: CC BY 4.0
Rafael S. Pereira, Alexis Joly, Patrick Valduriez, Fabio Porto(参考訳) ディープラーニングモデルは、多くの異なる業界でますます有用になっている。 画像分類の領域では、畳み込みニューラルネットワークは、MNIST FASHIONMNIST、CIFAR10、CIFAR100、IMAGENETなどの多くの異なるデータセットで示されているように、閉集合問題のための堅牢な機能を学ぶ能力を示した。 これらのアプローチは、潜伏空間でクラスを分離できる特徴を学ぶために、ソフトマックスアクティベーション機能を持つ密集層を持つディープニューラルネットワークを使用する。 しかし、この伝統的なアプローチは、オープンセット問題として知られるトレーニングセットにないクラスを特定するのに役に立ちません。 同様の問題は、小さなデータに関する学習を含むシナリオで発生します。 両方の問題に対処するために、数発学習が提案されている。 特に、測度学習は、分類を行うために、潜在空間における測度距離の制約に従う特徴を学習する。 However, while this approach proves to be useful for the open set problem, current implementation requires pair-wise training, where both positive and negative examples of similar images are presented during the training phase, which limits the applicability of these approaches in large data or large class scenarios given the combinatorial nature of the possible inputs.In this paper, we present a constraint-based approach applied to the representations in the latent space under the normalized softmax loss, proposed by[18]. 距離学習と正規化ソフトマックス損失の両方を用いて,異なるデータセット上の未知のクラスを分類するための提案手法を,解離シナリオと関節シナリオにおいて実験的に検証した。 以上の結果から,提案手法は,ペア学習を必要とせず,より大きなクラスで効率的に学習できるだけでなく,その精度をはるかに超えたメトリック学習戦略よりも優れた分類結果が得られることが示された。

Deep learning models have become increasingly useful in many different industries. On the domain of image classification, convolutional neural networks proved the ability to learn robust features for the closed set problem, as shown in many different datasets, such as MNIST FASHIONMNIST, CIFAR10, CIFAR100, and IMAGENET. These approaches use deep neural networks with dense layers with softmax activation functions in order to learn features that can separate classes in a latent space. However, this traditional approach is not useful for identifying classes unseen on the training set, known as the open set problem. A similar problem occurs in scenarios involving learning on small data. To tackle both problems, few-shot learning has been proposed. In particular, metric learning learns features that obey constraints of a metric distance in the latent space in order to perform classification. However, while this approach proves to be useful for the open set problem, current implementation requires pair-wise training, where both positive and negative examples of similar images are presented during the training phase, which limits the applicability of these approaches in large data or large class scenarios given the combinatorial nature of the possible inputs.In this paper, we present a constraint-based approach applied to the representations in the latent space under the normalized softmax loss, proposed by[18]. We experimentally validate the proposed approach for the classification of unseen classes on different datasets using both metric learning and the normalized softmax loss, on disjoint and joint scenarios. Our results show that not only our proposed strategy can be efficiently trained on larger set of classes, as it does not require pairwise learning, but also present better classification results than the metric learning strategies surpassing its accuracy by a significant margin.
翻訳日:2021-02-08 21:12:18 公開日:2021-02-05
# (参考訳) 多様な視覚的ストーリーテリングのための概念選択を意識したコモンセンス知識 [全文訳有]

Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling ( http://arxiv.org/abs/2102.02963v1 )

ライセンス: CC BY 4.0
Hong Chen, Yifei Huang, Hiroya Takamura, Hideki Nakayama(参考訳) ビジュアルストーリーテリングは、特定の画像シーケンスに関連する興味深いストーリーを生成するタスクです。 本研究は,画像から情報的コンテンツを保存しながら,生成したストーリーの多様性を高めることを目的とする。 概念候補の集合を示唆する概念選択モジュールを用いて、生成したストーリーの多様性と情報性を育成することを提案する。 次に,大規模事前学習モデルを用いて概念とイメージをフルストーリーに変換する。 候補概念を豊かにするために、コンセプト候補が提案される画像シーケンスごとに共通感覚知識グラフが作成されます。 グラフから適切な概念を得るため,候補概念間の相関と画像概念相関を考慮した2つの新しいモジュールを提案する。 広範な自動および人間の評価の結果は私達のモデルが適正概念を作り出すことができることを示します。 これにより、私たちのモデルは、ストーリーと画像シーケンスの関連性を維持しながら、ストーリーの多様性とインフォメーション性に大きなマージンで、以前のモデルを上回ることができる。

Visual storytelling is a task of generating relevant and interesting stories for given image sequences. In this work we aim at increasing the diversity of the generated stories while preserving the informative content from the images. We propose to foster the diversity and informativeness of a generated story by using a concept selection module that suggests a set of concept candidates. Then, we utilize a large scale pre-trained model to convert concepts and images into full stories. To enrich the candidate concepts, a commonsense knowledge graph is created for each image sequence from which the concept candidates are proposed. To obtain appropriate concepts from the graph, we propose two novel modules that consider the correlation among candidate concepts and the image-concept correlation. Extensive automatic and human evaluation results demonstrate that our model can produce reasonable concepts. This enables our model to outperform the previous models by a large margin on the diversity and informativeness of the story, while retaining the relevance of the story to the image sequence.
翻訳日:2021-02-08 21:00:07 公開日:2021-02-05
# (参考訳) 直答質問の回答は解けたか? AI2を直接答えるTry ARC-DA [全文訳有]

Think you have Solved Direct-Answer Question Answering? Try ARC-DA, the Direct-Answer AI2 Reasoning Challenge ( http://arxiv.org/abs/2102.03315v1 )

ライセンス: CC BY 4.0
Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord, Peter Clark(参考訳) 我々は、ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(オープン応答、フリーフォーム)バージョンであるARC-DAデータセットを提案する。 ARCはコミュニティで影響力を持っているが、その複数選択形式は現実世界の質問には表れず、複数の選択形式はアーティファクトに対して特に影響を受けやすい。 ARC-DAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせて質問を直接回答形式に変換することで、これらの懸念に対処する。 その結果得られたデータセットには、合計8436の有効回答を含む2985の質問が含まれている(質問は通常、複数の有効回答がある)。 ARC-DAは、しばしば推論を必要とする自然問題の最初のDAデータセットの1つであり、適切な質問分解が質問自体から明らかでない。 本稿では, 変換手法, 適切な評価基準, 強力なモデルについて述べる。 高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。 さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。 データセットがコミュニティによる複雑な質問処理のさらなる進歩を促すことを期待している。 ARC-DAはhttps://allenai.org/ data/arc-daで入手できます。

We present the ARC-DA dataset, a direct-answer ("open response", "freeform") version of the ARC (AI2 Reasoning Challenge) multiple-choice dataset. While ARC has been influential in the community, its multiple-choice format is unrepresentative of real-world questions, and multiple choice formats can be particularly susceptible to artifacts. The ARC-DA dataset addresses these concerns by converting questions to direct-answer format using a combination of crowdsourcing and expert review. The resulting dataset contains 2985 questions with a total of 8436 valid answers (questions typically have more than one valid answer). ARC-DA is one of the first DA datasets of natural questions that often require reasoning, and where appropriate question decompositions are not evident from the questions themselves. We describe the conversion approach taken, appropriate evaluation metrics, and several strong models. Although high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave considerable room for improvement. In addition, the dataset provides a natural setting for new research on explanation, as many questions require reasoning to construct answers. We hope the dataset spurs further advances in complex question-answering by the community. ARC-DA is available at https://allenai.org/ data/arc-da
翻訳日:2021-02-08 20:45:49 公開日:2021-02-05
# (参考訳) ディープニューラルネットワークを用いたアゼルバイジャン語のスペル補正 [全文訳有]

Spell Correction for Azerbaijani Language using Deep Neural Networks ( http://arxiv.org/abs/2102.03218v1 )

ライセンス: CC BY 4.0
Ahmad Ahmadzade and Saber Malekzadeh(参考訳) スペル補正は、テキスト中の正書ミスの検出と修正に使用される。 ほとんどの場合、文字列類似の方法で伝統的な辞書の検索は、英語のようなより複雑な構造を持つ言語に適しています。 しかし、アゼルバイジャン語はより複雑な構造を持ち、その形態的構造のため、単語の派生は、単語に接尾辞や接尾辞を加えることから派生した言葉が豊富である。 そこで本論文では,アゼルバイジャン語のスペル補正を開発するために,アテンション機構付きシーケンスモデルを用いた。 合計12000の誤りと正しい文ペアがトレーニングに使用され、モデルは1000の現実世界のミススペルされた単語でテストされ、F1スコアの結果は距離0で75%、距離1で90%、距離2で96%です。

Spell correction is used to detect and correct orthographic mistakes in texts. Most of the time, traditional dictionary lookup with string similarity methods is suitable for the languages that have a less complex structure such as the English language. However, the Azerbaijani language has a more complex structure and due to its morphological structure, the derivation of words is plenty that several words are derived from adding suffices, affixes to the words. Therefore, in this paper sequence to sequence model with an attention mechanism is used to develop spelling correction for Azerbaijani. Total 12000 wrong and correct sentence pairs used for training, and the model is tested on 1000 real-world misspelled words and F1-score results are 75% for distance 0, 90% for distance 1, and 96% for distance 2.
翻訳日:2021-02-08 20:31:07 公開日:2021-02-05
# (参考訳) サッカーにおける活動認識のための投影後処理による状態推定の改善 [全文訳有]

Improving state estimation through projection post-processing for activity recognition in football ( http://arxiv.org/abs/2102.03310v1 )

ライセンス: CC BY 4.0
Micha{\l} Ciszewski, Jakob S\"ohl, Geurt Jongbloed(参考訳) 過去10年間、人間の活動認識への関心は高まっている。 最も一般的には、ボディパーツに取り付けられたセンサーから来る生データは無注釈であり、高速なラベリング方法を必要とします。 手順の一部は、適切なパフォーマンス対策の選択または設計です。 分類結果における状態遷移の時間的不確実性の問題に対処する新しい性能尺度である局所時間シフト尺度を提案する。 当社の主な貢献は,バイナリアクティビティ認識のための新しいポストプロセッシング手法である。 推定における非現実的な短いアクティビティを補正することにより、分類方法の精度を向上させる。

The past decade has seen an increased interest in human activity recognition. Most commonly, the raw data coming from sensors attached to body parts are unannotated, which creates a need for fast labelling method. Part of the procedure is choosing or designing an appropriate performance measure. We propose a new performance measure, the Locally Time-Shifted Measure, which addresses the issue of timing uncertainty of state transitions in the classification result. Our main contribution is a novel post-processing method for binary activity recognition. It improves the accuracy of the classification methods, by correcting for unrealistically short activities in the estimate.
翻訳日:2021-02-08 19:47:13 公開日:2021-02-05
# (参考訳) Metric Embedding Sub-discrimination Study [全文訳有]

Metric Embedding Sub-discrimination Study ( http://arxiv.org/abs/2102.03176v1 )

ライセンス: CC BY 4.0
Ryan Furlong, Vincent O'Brien, James Garland, Francisco Dominguez-Mateos(参考訳) 深度メトリック学習は、ゼロショット、ワンショット、または数ショット学習を達成するために、さまざまな識別タスクで使用されるテクニックです。 適用されると、システムは埋め込み空間を学習し、例えば \gls{knn} のような非パラメトリックアプローチを使ってテスト時間中に特徴を判別することができる。 本研究では, この埋め込み空間に含まれる特徴情報が, 特徴空間におけるサブ差別にどの程度利用できるかを検討する。 本研究は, 識別埋め込みにおいて, 下位識別の問題を解決するために必要な有意属性に関する情報を埋め込みの中に保存し, この固有情報が下位識別タスクの実行に利用できることを示す。 これを証明するために、まず顔を識別するために設計された埋め込みは、追加のトレーニングなしで、性別、年齢、肌の色などのいくつかの属性を区別するために使用される。 この研究は、2つの研究ケースに分けられます:すべての埋め込みが同じアイデンティティから考慮されたクラス内識別と、埋め込みが異なるアイデンティティを表すクラス外識別です。 研究の後、異なるアイデンティティに共通の属性を推論することは可能であることが示されています。 このシステムは、性別、肌のトーン、年齢について、特に99.3\%、99.3\%、94.1\%の高精度なクラスサブ差別を行うこともできる。 クラス内テストでは、感情が確実に分類されないようなよりニュアンスのある特性と、厚いフレームのメガネやひげなどのより明確な特性が混ざり合い、それぞれ97.2\%と95.8\%の精度を達成している。

Deep metric learning is a technique used in a variety of discriminative tasks to achieve zero-shot, one-shot or few-shot learning. When applied, the system learns an embedding space where a non-parametric approach, such as \gls{knn}, can be used to discriminate features during test time. This work focuses on investigating to what extent feature information contained within this embedding space can be used to carry out sub-discrimination in the feature space. The study shows that within a discrimination embedding, the information on the salient attributes needed to solve the problem of sub-discrimination is saved within the embedding and that this inherent information can be used to carry out sub-discriminative tasks. To demonstrate this, an embedding designed initially to discriminate faces is used to differentiate several attributes such as gender, age and skin tone, without any additional training. The study is split into two study cases: intra class discrimination where all the embeddings took into consideration are from the same identity; and extra class discrimination where the embeddings represent different identities. After the study, it is shown that it is possible to infer common attributes to different identities. The system can also perform extra class sub-discrimination with a high accuracy rate, notably 99.3\%, 99.3\% and 94.1\% for gender, skin tone, and age, respectively. Intra class tests show more mixed results with more nuanced attributes like emotions not being reliably classified, while more distinct attributes such as thick-framed glasses and beards, achieving 97.2\% and 95.8\% accuracy, respectively.
翻訳日:2021-02-08 19:26:05 公開日:2021-02-05
# (参考訳) charactergan: 少数のキーポイントキャラクターアニメーションとレポジトリ [全文訳有]

CharacterGAN: Few-Shot Keypoint Character Animation and Reposing ( http://arxiv.org/abs/2102.03141v1 )

ライセンス: CC BY-SA 4.0
Tobias Hinz and Matthew Fisher and Oliver Wang and Eli Shechtman and Stefan Wermter(参考訳) 与えられた文字のサンプル数(8~15)でしか訓練できない生成モデルである CharacterGAN について紹介します。 我々のモデルはキーポイント位置に基づく新しいポーズを生成し、インタラクティブなフィードバックを提供しながらリアルタイムで修正可能であり、直感的な再現とアニメーションを可能にする。 非常に限られたトレーニングサンプルしか持っていないので、重要な課題のひとつは、(dis)独占に対処する方法です。 手が身体の後ろまたは前に動くとき。 そこで我々は,入力キーポイントを個別に処理する異なる層に明示的に分割する新しい階層化手法を提案する。 これらの層はキャラクタの異なる部分を表し、強い(非)閉塞でも現実的な結果を得るのに役立つ強い暗黙のバイアスを与える。 個々のレイヤの特徴を組み合わせるために、すべてのキーポイントに条件付き適応スケーリングアプローチを使用します。 最後に、テスト時に極端な分布外ポーズで発生する歪みアーティファクトを減らすためのマスク接続制約を紹介します。 提案手法は,最近のベースラインを上回っており,多様なキャラクタに対して現実的なアニメーションを作成する。 また、当社のモデルは、例えば、左右向きのプロファイルのように、個別の状態変化を処理できること、異なるレイヤが実際には、これらのレイヤ内の各キーポイントに特有の特徴を学習できること、より多くのデータが利用可能になると、モデルがより大きなデータセットにスケールできることを示します。

We introduce CharacterGAN, a generative model that can be trained on only a few samples (8 - 15) of a given character. Our model generates novel poses based on keypoint locations, which can be modified in real time while providing interactive feedback, allowing for intuitive reposing and animation. Since we only have very limited training samples, one of the key challenges lies in how to address (dis)occlusions, e.g. when a hand moves behind or in front of a body. To address this, we introduce a novel layering approach which explicitly splits the input keypoints into different layers which are processed independently. These layers represent different parts of the character and provide a strong implicit bias that helps to obtain realistic results even with strong (dis)occlusions. To combine the features of individual layers we use an adaptive scaling approach conditioned on all keypoints. Finally, we introduce a mask connectivity constraint to reduce distortion artifacts that occur with extreme out-of-distribution poses at test time. We show that our approach outperforms recent baselines and creates realistic animations for diverse characters. We also show that our model can handle discrete state changes, for example a profile facing left or right, that the different layers do indeed learn features specific for the respective keypoints in those layers, and that our model scales to larger datasets when more data is available.
翻訳日:2021-02-08 19:08:09 公開日:2021-02-05
# (参考訳) 迷彩物体検出のための深部テクスチャ認識機能 [全文訳有]

Deep Texture-Aware Features for Camouflaged Object Detection ( http://arxiv.org/abs/2102.02996v1 )

ライセンス: CC BY 4.0
Jingjing Ren and Xiaowei Hu and Lei Zhu and Xuemiao Xu and Yangyang Xu and Weiming Wang and Zijun Deng and Pheng-Ann Heng(参考訳) Camouflagedオブジェクト検出は、周囲に類似したテクスチャを持つオブジェクトを識別することを目的とした挑戦的なタスクです。 本稿では,複数のテクスチャアウェアリファインメントモジュールを定式化し,深層畳み込みニューラルネットワークでテクスチャアウェアの特徴を学習することにより,迷彩物体と迷彩物体の背景との微妙なテクスチャ差を増幅する。 テクスチャ・アウェア・リファインメント・モジュールは、特徴応答の共分散行列を計算し、テクスチャ情報を抽出し、アフィニティ・ロスをデザインし、カモフラージュされたオブジェクトと背景のテクスチャを分離するのに役立つパラメータ・マップのセットを学習し、境界一貫性の損失を採用してオブジェクトの詳細構造を探索し、カモフラージュされたオブジェクト検出のためのベンチマークデータセット上のネットワークを定性および定量的に評価する。 実験の結果,本手法は様々な最先端手法を大差で上回っていることがわかった。

Camouflaged object detection is a challenging task that aims to identify objects having similar texture to the surroundings. This paper presents to amplify the subtle texture difference between camouflaged objects and the background for camouflaged object detection by formulating multiple texture-aware refinement modules to learn the texture-aware features in a deep convolutional neural network. The texture-aware refinement module computes the covariance matrices of feature responses to extract the texture information, designs an affinity loss to learn a set of parameter maps that help to separate the texture between camouflaged objects and the background, and adopts a boundary-consistency loss to explore the object detail structures.We evaluate our network on the benchmark dataset for camouflaged object detection both qualitatively and quantitatively. Experimental results show that our approach outperforms various state-of-the-art methods by a large margin.
翻訳日:2021-02-08 18:55:54 公開日:2021-02-05
# (参考訳) ポーズ分解と意味相関による人物画像の構造認識 [全文訳有]

Structure-aware Person Image Generation with Pose Decomposition and Semantic Correlation ( http://arxiv.org/abs/2102.02972v1 )

ライセンス: CC BY 4.0
Jilin Tang, Yi Yuan, Tianjia Shao, Yong Liu, Mengmeng Wang, Kun Zhou(参考訳) 本稿では,人物像を音源位置から新たな対象位置へ移動させることを目的とした姿勢誘導型人物画像生成の課題を,音源の外観を維持しながら解決する。 大規模空間変換処理における標準CNNの非効率性から,高品質人像生成のための構造認識フローに基づく手法を提案する。 具体的には、人体の複雑な全体的なポーズの変化を学習する代わりに、人体を異なる意味部分(例えば、頭、胴体、脚)に分解し、異なるネットワークを適用して、これらの部分のフローフィールドを別々に予測する。 さらに, ネットワークモジュールを慎重に設計し, ヒトの部位内および部位間の特徴の局所的およびグローバル的意味的相関を効果的に把握する。 実験結果から,提案手法はポーズの相違が大きい場合に高品質な結果が得られ,定性比較と定量的比較の両方において最先端の手法よりも優れることが示された。

In this paper we tackle the problem of pose guided person image generation, which aims to transfer a person image from the source pose to a novel target pose while maintaining the source appearance. Given the inefficiency of standard CNNs in handling large spatial transformation, we propose a structure-aware flow based method for high-quality person image generation. Specifically, instead of learning the complex overall pose changes of human body, we decompose the human body into different semantic parts (e.g., head, torso, and legs) and apply different networks to predict the flow fields for these parts separately. Moreover, we carefully design the network modules to effectively capture the local and global semantic correlations of features within and among the human parts respectively. Extensive experimental results show that our method can generate high-quality results under large pose discrepancy and outperforms state-of-the-art methods in both qualitative and quantitative comparisons.
翻訳日:2021-02-08 18:43:21 公開日:2021-02-05
# (参考訳) マルチモーダル文書に基づくメタ知識抽出 [全文訳有]

Metaknowledge Extraction Based on Multi-Modal Documents ( http://arxiv.org/abs/2102.02971v1 )

ライセンス: CC BY 4.0
Shukan Liu, Ruilin Xu, Boying Geng, Qiao Sun, Li Duan, and Yiming Liu(参考訳) 大規模知識ベースにおける三重知識は、構造論理に欠けており、知識階層の実行に問題がある可能性が高い。 本稿では,構造的知識構築を目的とした知識工学研究にメタ知識の概念を導入する。 そのため、メタ知識抽出フレームワークおよび文書構造ツリーモデルを提供し、メタ知識要素(タイトル、著者、要約、セクション、段落など)を抽出、整理する。 は、マルチモーダル文書から構造知識を抽出することが可能であるように)。 実験の結果,メタ知識要素抽出の有効性が実証された。 一方、metaknowledgeが正確に何であり、どのように生成するかを示す詳細な例が提供されている。 本論文の最後に,メタナレッジアプリケーションのタスクフローと知識とメタナレッジの関連性を提案し,分析する。

The triple-based knowledge in large-scale knowledge bases is most likely lacking in structural logic and problematic of conducting knowledge hierarchy. In this paper, we introduce the concept of metaknowledge to knowledge engineering research for the purpose of structural knowledge construction. Therefore, the Metaknowledge Extraction Framework and Document Structure Tree model are presented to extract and organize metaknowledge elements (titles, authors, abstracts, sections, paragraphs, etc.), so that it is feasible to extract the structural knowledge from multi-modal documents. Experiment results have proved the effectiveness of metaknowledge elements extraction by our framework. Meanwhile, detailed examples are given to demonstrate what exactly metaknowledge is and how to generate it. At the end of this paper, we propose and analyze the task flow of metaknowledge applications and the associations between knowledge and metaknowledge.
翻訳日:2021-02-08 18:30:36 公開日:2021-02-05
# (参考訳) 「そうは思わない」-エージェント比較のための不一致に基づく政策要約 [全文訳有]

"I Don't Think So": Disagreement-Based Policy Summaries for Comparing Agents ( http://arxiv.org/abs/2102.03064v1 )

ライセンス: CC BY-SA 4.0
Yotam Amitai and Ofra Amir(参考訳) 人工知能が台頭すると、自律エージェントとの人間の相互作用がより頻繁になります。 効果的な人間とエージェントのコラボレーションは、人間がエージェントの行動を理解しなければならない。そうしないと、生産性の低下、誤用、フラストレーション、さらには危険につながる可能性があります。 エージェント戦略要約手法は、デモンストレーションを通じてエージェントのユーザへの戦略を記述するために使用される。 要約の目的は、ある重要な基準によって選択された一連の世界の州でその行動を示すことによって、エージェントの適性に対するユーザーの理解を最大化することです。 有用であることが示されているが,これらの手法は,エージェントごとの要約を独立に生成するので,エージェントの挙動を比較するタスクをサポートするのに限られていることが示される。 本稿では,エージェントが最善の行動方針に異を唱える状態を識別し,ランク付けすることで,エージェントの方針の違いを強調する,コントラスト的な要約を生成する手法を提案する。 我々は,参加者がエージェント選択課題に直面するユーザ調査を行う。 その結果,従来の戦略要約アルゴリズムであるhighlightsを用いて生成した要約に比べて,新たな不一致に基づく要約がユーザパフォーマンスの向上に繋がることがわかった。

With Artificial Intelligence on the rise, human interaction with autonomous agents becomes more frequent. Effective human-agent collaboration requires that the human understands the agent's behavior, as failing to do so may lead to reduced productiveness, misuse, frustration and even danger. Agent strategy summarization methods are used to describe the strategy of an agent to its destined user through demonstration. The summary's purpose is to maximize the user's understanding of the agent's aptitude by showcasing its behaviour in a set of world states, chosen by some importance criteria. While shown to be useful, we show that these methods are limited in supporting the task of comparing agent behavior, as they independently generate a summary for each agent. In this paper, we propose a novel method for generating contrastive summaries that highlight the differences between agent's policies by identifying and ranking states in which the agents disagree on the best course of action. We conduct a user study in which participants face an agent selection task. Our results show that the novel disagreement-based summaries lead to improved user performance compared to summaries generated using HIGHLIGHTS, a previous strategy summarization algorithm.
翻訳日:2021-02-08 18:12:03 公開日:2021-02-05
# (参考訳) GraphPlan:イベントグラフによる計画によるストーリー生成 [全文訳有]

GraphPlan: Story Generation by Planning with Event Graph ( http://arxiv.org/abs/2102.02977v1 )

ライセンス: CC BY 4.0
Hong Chen, Raphael Shu, Hiroya Takamura, Hideki Nakayama(参考訳) ストーリー生成は、意味のあるストーリーを構成するために複数の文章を自動的に生成することを目的としています。 このタスクは、文の意味的意味とストーリーイベントの因果関係を高度に理解する必要があるため、難しい。 シークエンス・ツー・シークエンス・モデルは通常そのような知識を得られず、論理的正しさは戦略的計画なしではテキスト生成モデルでは保証できない。 本稿では,イベントグラフを補助するイベント列の計画に焦点をあて,イベントを使用してジェネレータを誘導する。 既存の作業のように,シーケンス・ツー・シーケンスモデルを用いてストーリーラインを出力する代わりに,イベントグラフ上を歩くことでイベントシーケンスを生成することを提案する。 イベントグラフはコーパスに基づいて自動的に構築される。 提案手法を評価するため,イベントプランニングとストーリー生成の両方で人間による評価を行う。 提案手法は,人間による大規模アノテーションの結果に基づいて,より論理的に正しいイベントシーケンスとストーリーを生成する。

Story generation is a task that aims to automatically produce multiple sentences to make up a meaningful story. This task is challenging because it requires high-level understanding of semantic meaning of sentences and causality of story events. Naive sequence-to-sequence models generally fail to acquire such knowledge, as the logical correctness can hardly be guaranteed in a text generation model without the strategic planning. In this paper, we focus on planning a sequence of events assisted by event graphs, and use the events to guide the generator. Instead of using a sequence-to-sequence model to output a storyline as in some existing works, we propose to generate an event sequence by walking on an event graph. The event graphs are built automatically based on the corpus. To evaluate the proposed approach, we conduct human evaluation both on event planning and story generation. Based on large-scale human annotation results, our proposed approach is shown to produce more logically correct event sequences and stories.
翻訳日:2021-02-08 17:58:58 公開日:2021-02-05
# (参考訳) ブラックボックスニューラルマシン翻訳のための事前編集の理解 [全文訳有]

Understanding Pre-Editing for Black-Box Neural Machine Translation ( http://arxiv.org/abs/2102.02955v1 )

ライセンス: CC BY-SA 4.0
Rei Miyata, Atsushi Fujita(参考訳) 事前編集(pre-editing)は、ソーステキスト(st)を機械翻訳(mt)によりより良い品質で翻訳できるように修正するプロセスである。 ブラックボックス型ニューラルMT (NMT) の予測不可能性にもかかわらず, 様々な実用的MT症例にプレ編集が適用されている。 多くの研究は、特定の設定で事前編集する方法の有効性を実証しているが、これまでのところ、事前編集とは何か、ブラックボックスnmtでどのように機能するかの深い理解が欠けている。 このような理解を引き出すために、私たちは人間の事前編集プラクティスを幅広く調査した。 まず,ST毎の最小編集をインクリメンタルに記録するプロトコルを実装し,3つの翻訳方向,2つのMTシステム,4つのテキストドメインにまたがる事前編集の6,652のインスタンスを収集した。 次に, 事前編集STの特性, 事前編集操作の多様性, NMT出力に対する事前編集操作の影響の3つの観点から分析を行った。 本研究は,(1)STの意味の明示性の向上と,その構文構造がSTの短縮・簡易化よりも優れた翻訳を得る上で重要であること,(2)NMTに対する事前編集の影響は概ね予測できないが,編集操作の種類によってNMT出力に変化が生じる傾向があること,などの知見を得た。

Pre-editing is the process of modifying the source text (ST) so that it can be translated by machine translation (MT) in a better quality. Despite the unpredictability of black-box neural MT (NMT), pre-editing has been deployed in various practical MT use cases. Although many studies have demonstrated the effectiveness of pre-editing methods for particular settings, thus far, a deep understanding of what pre-editing is and how it works for black-box NMT is lacking. To elicit such understanding, we extensively investigated human pre-editing practices. We first implemented a protocol to incrementally record the minimum edits for each ST and collected 6,652 instances of pre-editing across three translation directions, two MT systems, and four text domains. We then analysed the instances from three perspectives: the characteristics of the pre-edited ST, the diversity of pre-editing operations, and the impact of the pre-editing operations on NMT outputs. Our findings include the following: (1) enhancing the explicitness of the meaning of an ST and its syntactic structure is more important for obtaining better translations than making the ST shorter and simpler, and (2) although the impact of pre-editing on NMT is generally unpredictable, there are some tendencies of changes in the NMT outputs depending on the editing operation types.
翻訳日:2021-02-08 17:47:02 公開日:2021-02-05
# (参考訳) Minimax Offline Reinforcement Learningの有限サンプル分析:完全性、高速速度、および第一次効率

Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency ( http://arxiv.org/abs/2102.02981v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun, Tengyang Xie(参考訳) 最近の最小値法を用いて推定した場合の限界重みと$q$-関数に対する関数近似を用いた強化学習におけるオフポリシ評価(OPE)の理論的評価を行う。 実現可能性と完全性の仮定の様々な組み合わせの下で、ミニマックスアプローチは、臨界不等式 \citep{bartlett2005} を特徴とする重みと品質関数の高速収束を達成することができることを示す。 この結果に基づき、OPEの収束率を分析します。 特に、OPEが実現可能な新規な代替完全性条件を導入し、非立方体環境における第一次効率、すなわち最短係数を先導的に有する最初の有限サンプル結果を提示する。

We offer a theoretical characterization of off-policy evaluation (OPE) in reinforcement learning using function approximation for marginal importance weights and $q$-functions when these are estimated using recent minimax methods. Under various combinations of realizability and completeness assumptions, we show that the minimax approach enables us to achieve a fast rate of convergence for weights and quality functions, characterized by the critical inequality \citep{bartlett2005}. Based on this result, we analyze convergence rates for OPE. In particular, we introduce novel alternative completeness conditions under which OPE is feasible and we present the first finite-sample result with first-order efficiency in non-tabular environments, i.e., having the minimal coefficient in the leading term.
翻訳日:2021-02-08 16:47:19 公開日:2021-02-05
# (参考訳) 情報伝達における学習 : SGLDの一般化能力の理解 [全文訳有]

Learning While Dissipating Information: Understanding the Generalization Capability of SGLD ( http://arxiv.org/abs/2102.02976v1 )

ライセンス: CC BY 4.0
Hao Wang, Yizhe Huang, Rui Gao, Flavio P. Calmon(参考訳) 学習アルゴリズムの一般化能力を理解することは、統計学習理論の中心である。 本稿では、深層ニューラルネットワーク(DNN)の訓練に広く用いられる最適化器である確率勾配Langevin Dynamics(SGLD)の一般化ギャップについて検討する。 sgldを情報理論レンズで解析することで,アルゴリズム依存の一般化を導出する。 sgldは、初期の学習段階から情報を散逸しながら、各イテレーションでパラメータを更新することでデータから学習します。 我々の境界はまた、損失景観の特定の種類の「シャープネス」をキャプチャする勾配の分散も含んでいる。 本論文の主な証明技術は、情報理論の基本概念である強いデータ処理の不等式と、オットー・ビラニのHWI不等式に依存する。 最後に, 数値実験により, 真の一般化ギャップの挙動を予測できることを実証した。

Understanding the generalization capability of learning algorithms is at the heart of statistical learning theory. In this paper, we investigate the generalization gap of stochastic gradient Langevin dynamics (SGLD), a widely used optimizer for training deep neural networks (DNNs). We derive an algorithm-dependent generalization bound by analyzing SGLD through an information-theoreti c lens. Our analysis reveals an intricate trade-off between learning and information dissipation: SGLD learns from data by updating parameters at each iteration while dissipating information from early training stages. Our bound also involves the variance of gradients which captures a particular kind of "sharpness" of the loss landscape. The main proof techniques in this paper rely on strong data processing inequalities -- a fundamental concept in information theory -- and Otto-Villani's HWI inequality. Finally, we demonstrate our bound through numerical experiments, showing that it can predict the behavior of the true generalization gap.
翻訳日:2021-02-08 16:46:19 公開日:2021-02-05
# (参考訳) 自律飛行ロボットのための機械学習に基づく自動設計空間探索 [全文訳有]

Machine Learning-Based Automated Design Space Exploration for Autonomous Aerial Robots ( http://arxiv.org/abs/2102.02988v1 )

ライセンス: CC BY 4.0
Srivatsan Krishnan, Zishen Wan, Kshitij Bharadwaj, Paul Whatmough, Aleksandra Faust, Sabrina Neuman, Gu-Yeon Wei, David Brooks, Vijay Janapa Reddi(参考訳) 自律飛行ロボットのためのドメイン固有アーキテクチャの構築は、オンボード計算を設計するための体系的な方法論の欠如のために困難である。 我々は,F-1ルーフラインと呼ばれる新しい性能モデルを導入し,自律飛行ロボットのサイバー(センサレート,計算性能)と,マシンの性能に影響を与える物理的コンポーネント(身体力学)の両方を考慮したバランスのとれた計算システムの構築を支援する。 我々はF-1を用いて、サイバー物理の共同設計の必要性を実証するために、オンボードプラットフォームでよく使われる学習ベースの自律アルゴリズムを特徴付ける。 サイバー物理設計空間を自動でナビゲートするために、AutoPilotを導入します。 このプッシュボタンフレームワークは、f-1モデルに導かれた高レベルの仕様から、空中ロボットのサイバー物理コンポーネントの共設計を自動化する。 autopilotはベイズ最適化を使用して自律アルゴリズムとハードウェアアクセラレータを自動的に設計し、さまざまなサイバー物理パラメータを考慮し、異なるロボットやセンサーフレームレートの異なるタスクレベルの複雑度の下で最適な設計を生成する。 その結果、AutoPilotが生成した設計では、平均して2倍のミッション時間がベースラインのアプローチで実行され、バッテリエネルギーが保たれる。

Building domain-specific architectures for autonomous aerial robots is challenging due to a lack of systematic methodology for designing onboard compute. We introduce a novel performance model called the F-1 roofline to help architects understand how to build a balanced computing system for autonomous aerial robots considering both its cyber (sensor rate, compute performance) and physical components (body-dynamics) that affect the performance of the machine. We use F-1 to characterize commonly used learning-based autonomy algorithms with onboard platforms to demonstrate the need for cyber-physical co-design. To navigate the cyber-physical design space automatically, we subsequently introduce AutoPilot. This push-button framework automates the co-design of cyber-physical components for aerial robots from a high-level specification guided by the F-1 model. AutoPilot uses Bayesian optimization to automatically co-design the autonomy algorithm and hardware accelerator while considering various cyber-physical parameters to generate an optimal design under different task level complexities for different robots and sensor framerates. As a result, designs generated by AutoPilot, on average, lower mission time up to 2x over baseline approaches, conserving battery energy.
翻訳日:2021-02-08 16:22:28 公開日:2021-02-05
# (参考訳) GIBBON:汎用情報ベースベイズ最適化

GIBBON: General-purpose Information-Based Bayesian OptimisatioN ( http://arxiv.org/abs/2102.03324v1 )

ライセンス: CC BY 4.0
Henry B. Moss, David S. Leslie, Javier Gonzalez, Paul Rayson(参考訳) 本稿では,ベイズ最適化(BO)の一般的なアプローチである最大値エントロピー探索の汎用的拡張について述べる。 連続的および高度に構造化された離散空間間の雑音性、多相性、バッチ最適化など、BO問題を解くための情報理論量である情報ゲインについて、新しい近似が提案されている。 これまで、これらの問題は情報理論BOの中で個別に取り組まれており、計算軽量な情報理論アプローチが提案されていないバッチBOを除いて、それぞれ異なる高度な近似スキームを必要とする。 GIBBON(General-purpo se Information-Based Bayesian OptimisatioN)は、計算オーバーヘッドを大幅に削減しながら、上記のすべてのアプローチに適した単一の原則化されたフレームワークを提供します。 さらに、ギボンは問題の探索空間がユークリッドである必要はないので、分子探索や遺伝子設計のような一般的な高構造な入力空間よりもバッチboをサポートする最初の高性能で計算量の多い獲得関数である。 さらに, GIBBONの原理的導出は, 決定点過程に基づく一般的なBOヒューリスティックの自然な解釈をもたらす。 最後に、GIBBONを一連の合成ベンチマークタスク、分子探索ループ、および制御可能な実験ノイズの問題に対する挑戦的なバッチマルチファイダリティフレームワークの一部として分析します。

This paper describes a general-purpose extension of max-value entropy search, a popular approach for Bayesian Optimisation (BO). A novel approximation is proposed for the information gain -- an information-theoreti c quantity central to solving a range of BO problems, including noisy, multi-fidelity and batch optimisations across both continuous and highly-structured discrete spaces. Previously, these problems have been tackled separately within information-theoreti c BO, each requiring a different sophisticated approximation scheme, except for batch BO, for which no computationally-ligh tweight information-theoreti c approach has previously been proposed. GIBBON (General-purpose Information-Based Bayesian OptimisatioN) provides a single principled framework suitable for all the above, out-performing existing approaches whilst incurring substantially lower computational overheads. In addition, GIBBON does not require the problem's search space to be Euclidean and so is the first high-performance yet computationally light-weight acquisition function that supports batch BO over general highly structured input spaces like molecular search and gene design. Moreover, our principled derivation of GIBBON yields a natural interpretation of a popular batch BO heuristic based on determinantal point processes. Finally, we analyse GIBBON across a suite of synthetic benchmark tasks, a molecular search loop, and as part of a challenging batch multi-fidelity framework for problems with controllable experimental noise.
翻訳日:2021-02-08 15:38:51 公開日:2021-02-05
# (参考訳) 電子メールとラフティング応答の理解 -- GPT-3を用いたアプローチ [全文訳有]

Understanding Emails and Drafting Responses -- An Approach Using GPT-3 ( http://arxiv.org/abs/2102.03062v1 )

ライセンス: CC BY 4.0
Jonas Thiergart, Stefan Huber, Thomas \"Ubellacker(参考訳) 自然言語を理解して生成する能力を持つコンピュータシステムを提供することは、長年、エンジニアの挑戦だった。 自然言語処理(NLP)の最近の進歩は、OpenAIがリリースしたGPT-3言語モデルのように、どちらもある程度可能になっている。 本稿では,GPT-3を用いた電子メール通信の合理化の可能性を検討する。 まず,ソフトウェア工学の分野とデータ科学の分野から文献を抽出し,受信メールの理解と応答生成の技術的実現可能性を示す。 第二に、ビジネススタディとソフトウェアエンジニアリングの両方から知識を適用して、直面した課題に取り組む方法を特定します。 第3に、コストと市場需要を分析して、そのようなソリューションの経済性について論じる。 メール通信の合理化にGPT-3を適用することは、技術的にも経済的にも実現可能であると結論づけます。

Providing computer systems with the ability to understand and generate natural language has long been a challenge of engineers. Recent progress in natural language processing (NLP), like the GPT-3 language model released by OpenAI, has made both possible to an extent. In this paper, we explore the possibility of rationalising email communication using GPT-3. First, we demonstrate the technical feasibility of understanding incoming emails and generating responses, drawing on literature from the disciplines of software engineering as well as data science. Second, we apply knowledge from both business studies and, again, software engineering to identify ways to tackle challenges we encountered. Third, we argue for the economic viability of such a solution by analysing costs and market demand. We conclude that applying GPT-3 to rationalising email communication is feasible both technically and economically.
翻訳日:2021-02-08 15:37:43 公開日:2021-02-05
# Co-Mixup:スーパーモジュラダイバーシティとSaliency Guided Joint Mixup

Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity ( http://arxiv.org/abs/2102.03065v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Wonho Choo, Hosan Jeong, Hyun Oh Song(参考訳) ディープニューラルネットワークはトレーニング分布に適合する優れた性能を示すが、テスト分布に対するネットワークの一般化性能の向上と入力摂動に対する感度の堅牢性は依然として課題である。 それらに部分的に対処するために、いくつかのミックスアップに基づく拡張戦略が提案されているが、最適化の観点からは、各入力データ内の監視信号の最適利用方法が不明である。 本稿では,各混合データのデータ塩分率を最大化し,構築した混合データの超モジュラー多様性を助長する混合データのバッチ構築について,バッチ混成に関する新たな視点を提案する。 このことは、部分モジュラ函数の差を最小限に抑える新しい離散最適化問題をもたらす。 また,ニューラルネットワークのトレーニングに適した各ミニバッチ毎の効率的な混合計算のための,効率的なモジュラー近似に基づく反復的部分モジュラー最小化アルゴリズムを提案する。 提案手法は,他のミックスアップ法と比較して,アート一般化,キャリブレーション,弱い教師付き局所化結果が得られることを示す。 ソースコードはhttps://github.com/s nu-mllab/co-mixupで入手できる。

While deep neural networks show great performance on fitting to the training distribution, improving the networks' generalization performance to the test distribution and robustness to the sensitivity to input perturbations still remain as a challenge. Although a number of mixup based augmentation strategies have been proposed to partially address them, it remains unclear as to how to best utilize the supervisory signal within each input data for mixup from the optimization perspective. We propose a new perspective on batch mixup and formulate the optimal construction of a batch of mixup data maximizing the data saliency measure of each individual mixup data and encouraging the supermodular diversity among the constructed mixup data. This leads to a novel discrete optimization problem minimizing the difference between submodular functions. We also propose an efficient modular approximation based iterative submodular minimization algorithm for efficient mixup computation per each minibatch suitable for minibatch based neural network training. Our experiments show the proposed method achieves the state of the art generalization, calibration, and weakly supervised localization results compared to other mixup methods. The source code is available at https://github.com/s nu-mllab/Co-Mixup.
翻訳日:2021-02-08 14:53:04 公開日:2021-02-05
# 対数回帰における減量環境の高度化と逆行訓練

Adversarial Training Makes Weight Loss Landscape Sharper in Logistic Regression ( http://arxiv.org/abs/2102.02950v1 )

ライセンス: Link先を確認
Masanori Yamada, Sekitoshi Kanai, Tomoharu Iwata, Tomokatsu Takahashi, Yuki Yamanaka, Hiroshi Takahashi, Atsutoshi Kumagai(参考訳) 対人訓練は、対人例に対する堅牢なモデルを学ぶために積極的に研究されている。 最近の研究では、敵対的訓練を受けたモデルが、重量に対する損失変化である減量ランドスケープが鋭い場合、敵対的例で一般化性能を低下させることが示されている。 残念なことに、逆行訓練は体重減少の風景を鋭くすることを示したが、この現象は理論的には解明されていない。 そこで本稿では,この現象を理論的に解析する。 第1ステップとして,L2ノルム制約による対向的トレーニングが線形ロジスティック回帰モデルにおける重量損失のランドスケープを鋭くすることを示す。 分析の結果, 減量環境の鋭さは, 対向訓練で使用される減量方向に整列した騒音が原因であることが明らかとなった。 線形ロジスティック回帰モデルにおいて, 対比訓練の騒音の大きさが増大するにつれて, 減量景観がシャープになることを理論的および実験的に確認した。 さらに、より一般的なケースとしてsoftmaxでResNet18で同じ現象を実験的に確認します。

Adversarial training is actively studied for learning robust models against adversarial examples. A recent study finds that adversarially trained models degenerate generalization performance on adversarial examples when their weight loss landscape, which is loss changes with respect to weights, is sharp. Unfortunately, it has been experimentally shown that adversarial training sharpens the weight loss landscape, but this phenomenon has not been theoretically clarified. Therefore, we theoretically analyze this phenomenon in this paper. As a first step, this paper proves that adversarial training with the L2 norm constraints sharpens the weight loss landscape in the linear logistic regression model. Our analysis reveals that the sharpness of the weight loss landscape is caused by the noise aligned in the direction of increasing the loss, which is used in adversarial training. We theoretically and experimentally confirm that the weight loss landscape becomes sharper as the magnitude of the noise of adversarial training increases in the linear logistic regression model. Moreover, we experimentally confirm the same phenomena in ResNet18 with softmax as a more general case.
翻訳日:2021-02-08 14:52:44 公開日:2021-02-05
# Sliced Stein Disrepancy のためのアクティブスライス

Active Slices for Sliced Stein Discrepancy ( http://arxiv.org/abs/2102.03159v1 )

ライセンス: Link先を確認
Wenbo Gong, Kaibo Zhang, Yingzhen Li, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Sliced Stein discrepancy (SSD)とそのカーネル化された変種は、良好なテストと高次元でのモデル学習において有望な成功を収めた。 理論上の優雅さにもかかわらず、その経験的性能は2つの分布を区別する最適なスライシング方向の探索に大きく依存する。 残念ながら、このタスクに対する従来の勾配に基づく最適化アプローチは、計算コストが高く、初期化に敏感であり、収束の理論的保証が欠如している。 これらの問題を2つのステップで解決する。 まず,ssdのカーネル化バージョンにおける最適スライシング方向の使用要件を緩和し,有限ランダムスライシング方向による結果の不一致を検証できることを示す理論的結果を提供する。 第2に,良好なスライシング方向が実用的性能に不可欠であることを踏まえ,能動部分空間構成とスペクトル分解の考え方に基づくスライシング方向を求める高速アルゴリズムを提案する。 適合性テストとモデル学習の実験は、我々のアプローチが性能の向上とより高速な収束の両方を達成することを示している。 特に,グラデーションベースの代替品と比較した場合,14~80倍の速度アップを示す。

Sliced Stein discrepancy (SSD) and its kernelized variants have demonstrated promising successes in goodness-of-fit tests and model learning in high dimensions. Despite their theoretical elegance, their empirical performance depends crucially on the search of optimal slicing directions to discriminate between two distributions. Unfortunately, previous gradient-based optimisation approaches for this task return sub-optimal results: they are computationally expensive, sensitive to initialization, and they lack theoretical guarantees for convergence. We address these issues in two steps. First, we provide theoretical results stating that the requirement of using optimal slicing directions in the kernelized version of SSD can be relaxed, validating the resulting discrepancy with finite random slicing directions. Second, given that good slicing directions are crucial for practical performance, we propose a fast algorithm for finding such slicing directions based on ideas of active sub-space construction and spectral decomposition. Experiments on goodness-of-fit tests and model learning show that our approach achieves both improved performance and faster convergence. Especially, we demonstrate a 14-80x speed-up in goodness-of-fit tests when comparing with gradient-based alternatives.
翻訳日:2021-02-08 14:52:27 公開日:2021-02-05
# 敵攻撃に対する防御としての最適輸送

Optimal Transport as a Defense Against Adversarial Attacks ( http://arxiv.org/abs/2102.03156v1 )

ライセンス: Link先を確認
Quentin Bouniot, Romaric Audigier, Ang\'elique Loesch(参考訳) ディープラーニングの分類器は現在、クラスの表現に欠陥があることが知られている。 敵の攻撃は、訓練されたモデルを誤認する特定の画像に対する人間の知覚不能な摂動を見つけることができます。 そのような攻撃から守る最も効果的な方法は、それらの分布を学ぶために生成された敵対的な例です。 以前の作業は、堅牢性を向上させるために、ドメイン適応と同じ方法でオリジナルと逆のイメージ表現を揃えることを目的としたものです。 しかし、空間と分布の幾何学を反映しないアプローチを用いて表現を部分的に整列させる。 また、防御モデル間の堅牢性を正確に比較することは困難です。 これまでは、固定的な摂動サイズを用いて評価されてきた。 しかし、防御されたモデルは、この摂動サイズのバリエーションと異なる反応をすることができる。 本稿では、最適な輸送理論を活用することにより、ドメイン適応の類似性をさらに一歩進めます。 地上距離を忠実に反映した分布間の損失を用いることを提案する。 これは、SAT(Sinkhorn Adversarial Training)、敵の攻撃に対するより堅牢な防御につながります。 そこで本研究では,異なる指標であるAUAC(Area Under the Accuracy Curve)を用いて,幅広い摂動サイズに対する敵攻撃に対するモデルの堅牢性をより正確に定量化することを提案する。 我々は、CIFAR-10とCIFAR-100データセットの両方で広範な実験を行い、我々の防衛が最先端技術よりも世界規模で堅牢であることを示す。

Deep learning classifiers are now known to have flaws in the representations of their class. Adversarial attacks can find a human-imperceptible perturbation for a given image that will mislead a trained model. The most effective methods to defend against such attacks trains on generated adversarial examples to learn their distribution. Previous work aimed to align original and adversarial image representations in the same way as domain adaptation to improve robustness. Yet, they partially align the representations using approaches that do not reflect the geometry of space and distribution. In addition, it is difficult to accurately compare robustness between defended models. Until now, they have been evaluated using a fixed perturbation size. However, defended models may react differently to variations of this perturbation size. In this paper, the analogy of domain adaptation is taken a step further by exploiting optimal transport theory. We propose to use a loss between distributions that faithfully reflect the ground distance. This leads to SAT (Sinkhorn Adversarial Training), a more robust defense against adversarial attacks. Then, we propose to quantify more precisely the robustness of a model to adversarial attacks over a wide range of perturbation sizes using a different metric, the Area Under the Accuracy Curve (AUAC). We perform extensive experiments on both CIFAR-10 and CIFAR-100 datasets and show that our defense is globally more robust than the state-of-the-art.
翻訳日:2021-02-08 14:51:49 公開日:2021-02-05
# 変異型オートエンコーダを用いた植物病分類の解明

Achieving Explainability for Plant Disease Classification with Disentangled Variational Autoencoders ( http://arxiv.org/abs/2102.03082v1 )

ライセンス: Link先を確認
Harshana Habaragamuwa, Yu Oishi, Kenichi Tanaka(参考訳) 農業画像認識タスクは、深層学習(DL)にますます依存している。 優れた性能にもかかわらず、DLが意思決定にどのようなロジックや特徴を使うのかを理解するのは難しい。 これは、分類タスクなどの意思決定で使用される論理や特徴を知ることが、検証、アルゴリズムの改善、データ改善のトレーニング、知識抽出などにおいて非常に重要であるため、dlベースの画像認識手法の実装と開発への道のりとなった。 このような問題を解決するため,我々は,最も重要な特徴の位置だけでなく,その特徴のバリエーションも示すことのできる,変分オートエンコーダアーキテクチャに基づく分類法を開発した。 プラントビレッジデータセットを用いて, 分類の精度を犠牲にすることなく, 許容できるレベルの説明可能性を達成した。 提案手法は一部の作物で疾患診断のために試験されたが、他の作物や他の画像分類タスクにも拡張できる。 今後は、この説明可能な人工知能アルゴリズムを、ジャガイモブラックレッグ病やジャガイモウイルスY(PVY)の同定などの疾患識別タスクや、その他の画像分類タスクに活用していきたいと考えています。

Agricultural image recognition tasks are becoming increasingly dependent on deep learning (DL). Despite its excellent performance, it is difficult to comprehend what type of logic or features DL uses in its decision making. This has become a roadblock for the implementation and development of DL-based image recognition methods because knowing the logic or features used in decision making, such as in a classification task, is very important for verification, algorithm improvement, training data improvement, knowledge extraction, etc. To mitigate such problems, we developed a classification method based on a variational autoencoder architecture that can show not only the location of the most important features but also what variations of that particular feature are used. Using the PlantVillage dataset, we achieved an acceptable level of explainability without sacrificing the accuracy of the classification. Although the proposed method was tested for disease diagnosis in some crops, the method can be extended to other crops as well as other image classification tasks. In the future, we hope to use this explainable artificial intelligence algorithm in disease identification tasks, such as the identification of potato blackleg disease and potato virus Y (PVY), and other image classification tasks.
翻訳日:2021-02-08 14:51:11 公開日:2021-02-05
# CF-GN Explainer: グラフニューラルネットワークの反実例

CF-GNNExplainer: Counterfactual Explanations for Graph Neural Networks ( http://arxiv.org/abs/2102.03322v1 )

ライセンス: Link先を確認
Ana Lucic, Maartje ter Hoeve, Gabriele Tolomei, Maarten de Rijke, Fabrizio Silvestri(参考訳) グラフニューラルネットワーク(gnns)は、現実世界のアプリケーションで期待が高まり、その予測を理解することへの関心が高まっている。 しかし、GNNから予測を説明する既存の方法は、リコースの機会を提供しません。特定のインスタンスの予測を考えると、予測を変更する方法を理解したいのです。 CF-GNNExplainer:GNNs の反実説明を生成する最初の方法、すなわち、予測が変化するような入力グラフデータへの最小限の摂動を提案する。 エッジ削除のみを使用して、GNN説明のために広く使用されている3つのデータセットにまたがるほとんどのインスタンスの反実例を生成し、平均で3つ未満のエッジを削除し、少なくとも94%の精度で生成することができます。 これは、CF-GNNExplainerが元々の予測に不可欠なエッジを取り除き、最小限の偽例をもたらすことを示している。

Graph neural networks (GNNs) have shown increasing promise in real-world applications, which has caused an increased interest in understanding their predictions. However, existing methods for explaining predictions from GNNs do not provide an opportunity for recourse: given a prediction for a particular instance, we want to understand how the prediction can be changed. We propose CF-GNNExplainer: the first method for generating counterfactual explanations for GNNs, i.e., the minimal perturbations to the input graph data such that the prediction changes. Using only edge deletions, we find that we are able to generate counterfactual examples for the majority of instances across three widely used datasets for GNN explanations, while removing less than 3 edges on average, with at least 94% accuracy. This indicates that CF-GNNExplainer primarily removes edges that are crucial for the original predictions, resulting in minimal counterfactual examples.
翻訳日:2021-02-08 14:50:16 公開日:2021-02-05
# ロバスト行列回復におけるサブグラデーション法の暗黙的正規化:アウトプライヤを脅かすな

Implicit Regularization of Sub-Gradient Method in Robust Matrix Recovery: Don't be Afraid of Outliers ( http://arxiv.org/abs/2102.02969v1 )

ライセンス: Link先を確認
Jianhao Ma and Salar Fattahi(参考訳) 勾配降下のような単純な短視野アルゴリズムは、暗黙の正規化のために、過パラメータ化された学習タスクでよく一般化されることが知られている。 しかし、これらのアルゴリズムの暗黙的な正規化が頑健な学習タスクにまで拡張できるかどうかは不明である。 本研究では,ロバスト行列回復問題の文脈において,この問題に対する肯定的な回答を提供する。 特に、いくつかの線形測定から低ランク行列を回復する問題を検討し、その場合、測定のサブセットは大きなノイズで破損する。 過パラメータ化 l1-ロス関数に適用した場合, 厳密な正規化や階数制約を伴わずに, 単純な部分勾配法が真の低階解に効率的に収束することを示す。 さらに、Sign-RIPと呼ばれる制限アイソメトリー特性の新しい概念を構築することによって、オーバーパラメータ化された体制における外れ値に対するサブグラデーション手法の堅牢性を証明する。 特に, ガウス計測では, 任意の割合がノイズで完全に崩壊した場合でも, 下位勾配法は真の低ランク解に収束することが保証されている。

It is well-known that simple short-sighted algorithms, such as gradient descent, generalize well in the over-parameterized learning tasks, due to their implicit regularization. However, it is unknown whether the implicit regularization of these algorithms can be extended to robust learning tasks, where a subset of samples may be grossly corrupted with noise. In this work, we provide a positive answer to this question in the context of robust matrix recovery problem. In particular, we consider the problem of recovering a low-rank matrix from a number of linear measurements, where a subset of measurements are corrupted with large noise. We show that a simple sub-gradient method converges to the true low-rank solution efficiently, when it is applied to the over-parameterized l1-loss function without any explicit regularization or rank constraint. Moreover, by building upon a new notion of restricted isometry property, called sign-RIP, we prove the robustness of the sub-gradient method against outliers in the over-parameterized regime. In particular, we show that, with Gaussian measurements, the sub-gradient method is guaranteed to converge to the true low-rank solution, even if an arbitrary fraction of the measurements are grossly corrupted with noise.
翻訳日:2021-02-08 14:49:44 公開日:2021-02-05
# カテゴリ入力のためのインタープリタブルニューラルネットワークに基づく分類器

Interpretable Neural Networks based classifiers for categorical inputs ( http://arxiv.org/abs/2102.03202v1 )

ライセンス: Link先を確認
Stefano Zamuner, Paolo De Los Rios(参考訳) 人間に敏感なアプリケーションでニューラルネットワークが広く使われているため、その解釈性は機械学習においてますます重要になっている。 本研究では,入力圏変数として捉えるニューラルネットワーク分類器の出力関数を簡便に解釈する手法を提案する。 ニューラルネットワーク分類器と物理エネルギーモデルの間のマッピングを利用することにより、これらの場合において、ネットワークの各層、特にロジッツ層は、各入力パターンの分類に寄与する項の和として拡張可能であることを示す。 例えば、第一階では、拡張は入力特徴と出力の間の線形関係のみを考慮し、第二階では入力特徴間のペアワイズ依存性も説明される。 適切なゲージ変換を行った後,各パターンの寄与度の解析を行い,その効果を評価できる2つの事例について述べる。

Because of the pervasive usage of Neural Networks in human sensitive applications, their interpretability is becoming an increasingly important topic in machine learning. In this work we introduce a simple way to interpret the output function of a neural network classifier that take as input categorical variables. By exploiting a mapping between a neural network classifier and a physical energy model, we show that in these cases each layer of the network, and the logits layer in particular, can be expanded as a sum of terms that account for the contribution to the classification of each input pattern. For instance, at the first order, the expansion considers just the linear relation between input features and output while at the second order pairwise dependencies between input features are also accounted for. The analysis of the contributions of each pattern, after an appropriate gauge transformation, is presented in two cases where the effectiveness of the method can be appreciated.
翻訳日:2021-02-08 14:49:00 公開日:2021-02-05
# vilt:畳み込みや地域監督のない視覚言語トランスフォーマー

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision ( http://arxiv.org/abs/2102.03334v1 )

ライセンス: Link先を確認
Wonjae Kim, Bokyung Son, Ildoo Kim(参考訳) Vision-and-Language Pretraining(VLP)は、さまざまな共同ビジョンおよび言語下流タスクのパフォーマンスを改善しました。 VLPの現在のアプローチは画像の特徴抽出プロセスに大きく依存しており、その多くは領域の監督(オブジェクト検出など)と畳み込みアーキテクチャ(ResNetなど)を含んでいる。 文献では無視されているが,(1) 効率/速さ,(2) 視覚エンコーダの表現力と事前定義された視覚語彙に上限があるため,入力特徴を抽出するのには,実際のマルチモーダル相互作用ステップよりもはるかに多くの計算が必要であることが問題となっている。 本稿では,視覚入力の処理がテキスト入力を処理するのと同じ畳み込みのない方法に劇的に簡略化されるという意味で,最小限のVLPモデルであるViLT(Vision-and-Lang uage Transformer)を提案する。 ViLTは従来のVLPモデルよりも最大60倍高速であるが、競争力やダウンストリームのタスク性能は向上している。

Vision-and-Language Pretraining (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches for VLP heavily rely on image feature extraction processes, most of which involve region supervisions (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the actual multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual encoder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to 60 times faster than previous VLP models, yet with competitive or better downstream task performance.
翻訳日:2021-02-08 14:48:46 公開日:2021-02-05
# GNN-RL圧縮:マルチステージグラフ埋め込みと強化学習を用いたトポロジー認識ネットワークプルーニング

GNN-RL Compression: Topology-Aware Network Pruning using Multi-stage Graph Embedding and Reinforcement Learning ( http://arxiv.org/abs/2102.03214v1 )

ライセンス: Link先を確認
Sixing Yu, Arya Mazaheri, Ali Jannesari(参考訳) モデル圧縮は、電力とメモリ制約のあるリソースにディープニューラルネットワーク(DNN)をデプロイする上で不可欠な技術である。 しかし、既存のモデル圧縮方法は、しばしば人間の専門知識に頼り、パラメータの局所的な重要性に焦点を当て、DNN内の豊富なトポロジ情報を無視します。 本稿では、DNNのトポロジを特定し、強化学習(RL)を用いて適切な圧縮ポリシーを見つけるために、グラフニューラルネットワーク(GNN)に基づく新しい多段階グラフ埋め込み手法を提案する。 我々は資源制約付き(FLOP)チャネルプルーニングを行い、オーバーパラメータ化されたDNN(ResNetやVGG-16など)とモバイルフレンドリーなDNN(MobileNetやShuffleNetなど)を用いた最先端の圧縮手法と比較した。 resnet family, vgg-16, mobilenet-v1/v2, shufflenetなど, 典型的なネットワークからモバイルフレンドリーなネットワークまで, 様々なモデルを用いて評価を行った。 その結果,本手法が高密度ネットワーク(例えばVGG-16)を元のFLOPの80%まで消去できることが示された。 さらに重要な点として,ShuffleNet-v1では最新手法を上回り,最大1.84%の精度を達成した。 さらに,本手法により,VGG-16は1.38$\times$スピードアップ,141MBのGPUメモリ削減を実現した。

Model compression is an essential technique for deploying deep neural networks (DNNs) on power and memory-constrained resources. However, existing model-compression methods often rely on human expertise and focus on parameters' local importance, ignoring the rich topology information within DNNs. In this paper, we propose a novel multi-stage graph embedding technique based on graph neural networks (GNNs) to identify the DNNs' topology and use reinforcement learning (RL) to find a suitable compression policy. We performed resource-constrained (i.e., FLOPs) channel pruning and compared our approach with state-of-the-art compression methods using over-parameterized DNNs (e.g., ResNet and VGG-16) and mobile-friendly DNNs (e.g., MobileNet and ShuffleNet). We evaluated our method on various models from typical to mobile-friendly networks, such as ResNet family, VGG-16, MobileNet-v1/v2, and ShuffleNet. The results demonstrate that our method can prune dense networks (e.g., VGG-16) by up to 80% of their original FLOPs. More importantly, our method outperformed state-of-the-art methods and achieved a higher accuracy by up to 1.84% for ShuffleNet-v1. Furthermore, following our approach, the pruned VGG-16 achieved a noticeable 1.38$\times$ speed up and 141 MB GPU memory reduction.
翻訳日:2021-02-08 14:48:25 公開日:2021-02-05
# プライバシー保護計画のための偽装強化学習

Deceptive Reinforcement Learning for Privacy-Preserving Planning ( http://arxiv.org/abs/2102.03022v1 )

ライセンス: Link先を確認
Zhengshang Liu, Yue Yang, Tim Miller, and Peta Masters(参考訳) 本稿では,報酬関数のプライバシを保護するために,偽り強化学習の問題について検討する。 強化学習は、探索行動から受け取った報酬に基づいて行動政策を見つけることの問題です。 強化学習の鍵となる要素は報酬関数であり、その報酬(負か正か)が与えられ、いつ与えられるかを決定する。 ただし、場合によっては、報酬関数をプライベートに保ちたい場合もあります。つまり、オブザーバーが使用する報酬関数を決定するのを困難にします。 プライバシー保護強化学習の課題を定義し,その解決のための2つのモデルを提示する。 これらのモデルは「真実を隠す」偽装の形式である解読に基づいています。 モデルの評価は、計算と人間の行動実験の両方を通して行う。 その結果, 結果は, 結果が真偽であり, 参加者が真報酬関数を正直なエージェントよりも確実に決定できることが示唆された。

In this paper, we study the problem of deceptive reinforcement learning to preserve the privacy of a reward function. Reinforcement learning is the problem of finding a behaviour policy based on rewards received from exploratory behaviour. A key ingredient in reinforcement learning is a reward function, which determines how much reward (negative or positive) is given and when. However, in some situations, we may want to keep a reward function private; that is, to make it difficult for an observer to determine the reward function used. We define the problem of privacy-preserving reinforcement learning, and present two models for solving it. These models are based on dissimulation -- a form of deception that `hides the truth'. We evaluate our models both computationally and via human behavioural experiments. Results show that the resulting policies are indeed deceptive, and that participants can determine the true reward function less reliably than that of an honest agent.
翻訳日:2021-02-08 14:47:57 公開日:2021-02-05
# 偏りのあるデータを取り除き、公平性と精度を向上させる

Removing biased data to improve fairness and accuracy ( http://arxiv.org/abs/2102.03054v1 )

ライセンス: Link先を確認
Sahil Verma, Michael Ernst, Rene Just(参考訳) 機械学習システムは、歴史的決定から収集されたデータを使ってしばしば訓練される。 過去の決定がバイアスされた場合、履歴データから学習する自動システムもバイアスされます。 偏りのあるトレーニングデータを識別・削除するためのブラックボックス手法を提案する。 このような偏りのあるデータ(元のトレーニングデータの一部)で訓練された機械学習モデルは、個人識別が低く、しばしば0%である。 これらのモデルは、完全な履歴データで訓練されたモデルよりも精度が高く、統計的格差も低い。 6つの実世界のデータセットを用いて実験を行った。 個人差と精度の点で,従来の7つのアプローチよりも優れていた。

Machine learning systems are often trained using data collected from historical decisions. If past decisions were biased, then automated systems that learn from historical data will also be biased. We propose a black-box approach to identify and remove biased training data. Machine learning models trained on such debiased data (a subset of the original training data) have low individual discrimination, often 0%. These models also have greater accuracy and lower statistical disparity than models trained on the full historical data. We evaluated our methodology in experiments using 6 real-world datasets. Our approach outperformed seven previous approaches in terms of individual discrimination and accuracy.
翻訳日:2021-02-08 14:47:43 公開日:2021-02-05
# 新規検索とエミッターによるスパース報酬探索

Sparse Reward Exploration via Novelty Search and Emitters ( http://arxiv.org/abs/2102.03140v1 )

ライセンス: Link先を確認
Giuseppe Paolo (1 and 2), Alexandre Coninx (1), Stephane Doncieux (1), Alban Laflaqui\`ere (2) ((1) ISIR, (2) SBRE)(参考訳) 報酬に基づく最適化アルゴリズムは、パフォーマンスを最大化するために、探索、報酬の発見、搾取の両方を必要とする。 効率的な探索の必要性は、パフォーマンスフィードバックがスパースに与えられるスパースな報酬設定においてさらに重要であるため、検索プロセスを導くのに不適切である。 本研究では,探索空間を効率的に探索できる新奇性とエミッタ(serene)アルゴリズムによるスパース報酬探索と,潜在的に異なる領域に存在する報酬の最適化を提案する。 既存のエミッタベースのアプローチとは対照的に、SERENEは検索空間探索とリワードエクスプロイトを2つの交互プロセスに分離します。 最初のプロセスは、異なる検索アルゴリズムであるNovety Searchを通じて探索を行う。 2つ目は、エミッタ、すなわち、発見された報酬領域を利用する。 集団に基づく最適化アルゴリズムのローカルインスタンス。 メタスケジューラは、2つのプロセス間で交互に計算予算を割り当て、相反する報酬領域の発見と効率的な活用を保証します。 SERENEは、検索空間をカバーする多様なソリューションのコレクションと、異なる報酬領域ごとに高性能なソリューションのコレクションの両方を返します。 各種のスパース報酬環境におけるSERENEの評価を行い,既存のベースラインと比較した。

Reward-based optimization algorithms require both exploration, to find rewards, and exploitation, to maximize performance. The need for efficient exploration is even more significant in sparse reward settings, in which performance feedback is given sparingly, thus rendering it unsuitable for guiding the search process. In this work, we introduce the SparsE Reward Exploration via Novelty and Emitters (SERENE) algorithm, capable of efficiently exploring a search space, as well as optimizing rewards found in potentially disparate areas. Contrary to existing emitters-based approaches, SERENE separates the search space exploration and reward exploitation into two alternating processes. The first process performs exploration through Novelty Search, a divergent search algorithm. The second one exploits discovered reward areas through emitters, i.e. local instances of population-based optimization algorithms. A meta-scheduler allocates a global computational budget by alternating between the two processes, ensuring the discovery and efficient exploitation of disjoint reward areas. SERENE returns both a collection of diverse solutions covering the search space and a collection of high-performing solutions for each distinct reward area. We evaluate SERENE on various sparse reward environments and show it compares favorably to existing baselines.
翻訳日:2021-02-08 14:47:35 公開日:2021-02-05
# 無線望遠鏡のスマートキャリブレーションのための深層補強学習

Deep reinforcement learning for smart calibration of radio telescopes ( http://arxiv.org/abs/2102.03200v1 )

ライセンス: Link先を確認
Sarod Yatawatta and Ian M. Avruch(参考訳) 現代の電波望遠鏡は前例のない量のデータを生成し、科学的な結果が届く前に多くの処理パイプラインを通過します。 これらのパイプラインのハイパーパラメータは、最適な結果を得るために手動で調整する必要がある。 望遠鏡の寿命に何万もの観測が行われ、それぞれの観測には独自の設定があるため、パイプラインの微調整は面倒な作業である。 データキャリブレーションパイプラインにおけるハイパーパラメータ選択のプロセスを自動化するために,強化学習について紹介する。 我々は,この微調整を行うための自律エージェントを訓練するために,ツイン遅延Deep Deterministic Policy gradient (TD3)と呼ばれる強化学習手法を用いる。 一般化のために、パイプラインは、パイプラインの解釈状態のみがエージェントによって使用されるブラックボックスシステムであると考えています。 この方法で訓練された自律エージェントは、多様な観察に最適な設定を決定することができるため、人間の介入の必要性を最小限に抑えて「スマート」キャリブレーションを実行できます。

Modern radio telescopes produce unprecedented amounts of data, which are passed through many processing pipelines before the delivery of scientific results. Hyperparameters of these pipelines need to be tuned by hand to produce optimal results. Because many thousands of observations are taken during a lifetime of a telescope and because each observation will have its unique settings, the fine tuning of pipelines is a tedious task. In order to automate this process of hyperparameter selection in data calibration pipelines, we introduce the use of reinforcement learning. We use a reinforcement learning technique called twin delayed deep deterministic policy gradient (TD3) to train an autonomous agent to perform this fine tuning. For the sake of generalization, we consider the pipeline to be a black-box system where only an interpreted state of the pipeline is used by the agent. The autonomous agent trained in this manner is able to determine optimal settings for diverse observations and is therefore able to perform 'smart' calibration, minimizing the need for human intervention.
翻訳日:2021-02-08 14:47:15 公開日:2021-02-05
# 文書デジタル化における機械学習の応用

Applications of Machine Learning in Document Digitisation ( http://arxiv.org/abs/2102.03239v1 )

ライセンス: Link先を確認
Christian M. Dahl, Torben S. D. Johansen, Emil N. S{\o}rensen, Christian E. Westermann and Simon F. Wittrock(参考訳) データ取得は、すべての実証研究の主要なステップを形成します。 データの可用性は、結論と洞察の質と範囲に直接影響します。 特に、より大きくより詳細なデータセットは、複雑な研究質問に対してさえ説得力のある答えを提供する。 主な問題は、特にデータ媒体が紙や本である場合、「大きくて詳細」が「高価で難しい」ことを意味することである。 人間の演算子と手動転写は、歴史的データを収集するための伝統的なアプローチでした。 私たちは代わりに、デジタル化プロセスの自動化に現代の機械学習技術を使うことを提唱します。 2つの図示アプリケーションを通じて、データ収集に機械のデジタル化を適用する可能性を概観します。 まず,ナースジャーナルの生スキャンに適用した教師なしレイアウト分類を治療指標の構築に利用できることを示す。 さらに、割り当てコンプライアンスの評価を可能にする。 第2のアプリケーションは、手書きのテキスト認識に注意に基づくニューラルネットワークを使用して、デンマークの死亡証明書の膨大なコレクションから年齢と出生年月日を書写する。 デジタル化パイプラインの各ステップを説明し、実装の洞察を提供します。

Data acquisition forms the primary step in all empirical research. The availability of data directly impacts the quality and extent of conclusions and insights. In particular, larger and more detailed datasets provide convincing answers even to complex research questions. The main problem is that 'large and detailed' usually implies 'costly and difficult', especially when the data medium is paper and books. Human operators and manual transcription have been the traditional approach for collecting historical data. We instead advocate the use of modern machine learning techniques to automate the digitisation process. We give an overview of the potential for applying machine digitisation for data collection through two illustrative applications. The first demonstrates that unsupervised layout classification applied to raw scans of nurse journals can be used to construct a treatment indicator. Moreover, it allows an assessment of assignment compliance. The second application uses attention-based neural networks for handwritten text recognition in order to transcribe age and birth and death dates from a large collection of Danish death certificates. We describe each step in the digitisation pipeline and provide implementation insights.
翻訳日:2021-02-08 14:46:58 公開日:2021-02-05
# フーリエ損失関数

The Fourier Loss Function ( http://arxiv.org/abs/2102.02979v1 )

ライセンス: Link先を確認
Auricchio Gennaro, Codegoni Andrea, Gualandi Stefano, Zambon Lorenzo(参考訳) 本稿では,フーリエ計量によって引き起こされる新しい損失関数を提案する。 この計量はワッサーシュタイン距離と同等であるが、高速フーリエ変換アルゴリズムを用いて非常に効率的に計算される。 フーリエ損失関数は2回微分可能であることを証明し、その勾配とヘッセン行列の両方に対して明示的な公式を与える。 さらに、フーリエ損失関数の最小化は、周波数空間におけるガウス雑音の下でのデータの可能性の最大化に等しいことを示す。 MNIST, Fashion-MNIST, CIFAR10データセットを用いたマルチクラス分類タスクに損失関数を適用します。 計算結果から,その精度は他の最先端の損失関数と競合するが,フーリエ損失関数はノイズデータに対してかなり頑健であることが示された。

This paper introduces a new loss function induced by the Fourier-based Metric. This metric is equivalent to the Wasserstein distance but is computed very efficiently using the Fast Fourier Transform algorithm. We prove that the Fourier loss function is twice differentiable, and we provide the explicit formula for both its gradient and its Hessian matrix. More importantly, we show that minimising the Fourier loss function is equivalent to maximising the likelihood of the data under a Gaussian noise in the space of frequencies. We apply our loss function to a multi-class classification task using MNIST, Fashion-MNIST, and CIFAR10 datasets. The computational results show that, while its accuracy is competitive with other state-of-the-art loss functions, the Fourier loss function is significantly more robust to noisy data.
翻訳日:2021-02-08 14:46:09 公開日:2021-02-05
# サブリニア通信によるスパースノーマル平均推定

Sparse Normal Means Estimation with Sublinear Communication ( http://arxiv.org/abs/2102.03060v1 )

ライセンス: Link先を確認
Chen Amiraz, Robert Krauthgamer, Boaz Nadler(参考訳) 通信制約のある分散環境におけるスパース正規平均推定の問題点を考察する。 マシンには$m$があり、それぞれに$k$-sparseベクター$\mu$が付加ガウス雑音によって崩壊する様子をd$次元で観察していると仮定する。 中央融合マシンはスタートポロジー内の$m$マシンに接続されており、その目標は低通信予算で$\mu$のベクトルを推定することである。 以前の研究では、$\ell_2$リスクの集中的なミニマックスレートを達成するためには、総通信は高い必要があります - 少なくとも次元$d$の線形。 しかし、この現象は非常に弱い信号で起こります。 信号対雑音比(SNR)がわずかに高くなると、$\mu$のサポートはより少ない通信で正確に回復できることを示す。 具体的には、分散スパース正規平均問題に対する2つのアルゴリズムを提案し、あるSNRしきい値を超えると、高い確率で、次元$d$のサブ線形な全通信で正しいサポートを回復することを示す。 さらに、通信は信号強度の関数として指数関数的に減少する。 さらに$KM\ll d$の場合、追加のサブ線形通信で、我々のアルゴリズムは$\ell_2$リスクの集中レートを達成する。 最後に,様々なパラメータ領域におけるアルゴリズムの性能を示すシミュレーションを提案する。

We consider the problem of sparse normal means estimation in a distributed setting with communication constraints. We assume there are $M$ machines, each holding a $d$-dimensional observation of a $K$-sparse vector $\mu$ corrupted by additive Gaussian noise. A central fusion machine is connected to the $M$ machines in a star topology, and its goal is to estimate the vector $\mu$ with a low communication budget. Previous works have shown that to achieve the centralized minimax rate for the $\ell_2$ risk, the total communication must be high - at least linear in the dimension $d$. This phenomenon occurs, however, at very weak signals. We show that once the signal-to-noise ratio (SNR) is slightly higher, the support of $\mu$ can be correctly recovered with much less communication. Specifically, we present two algorithms for the distributed sparse normal means problem, and prove that above a certain SNR threshold, with high probability, they recover the correct support with total communication that is sublinear in the dimension $d$. Furthermore, the communication decreases exponentially as a function of signal strength. If in addition $KM\ll d$, then with an additional round of sublinear communication, our algorithms achieve the centralized rate for the $\ell_2$ risk. Finally, we present simulations that illustrate the performance of our algorithms in different parameter regimes.
翻訳日:2021-02-08 14:45:58 公開日:2021-02-05
# 補間系における最小二乗に対するSGDの最終反復収束

Last iterate convergence of SGD for Least-Squares in the Interpolation regime ( http://arxiv.org/abs/2102.03183v1 )

ライセンス: Link先を確認
Aditya Varre, Loucas Pillaud-Vivien, Nicolas Flammarion(参考訳) データの完全適合性と一般化が可能なニューラルネットワークの最近の成功に動機づけられ、基本的な最小二乗構成でノイズレスモデルの研究を行った。 最適予測器は、$\langle \theta_* , \phi(X) \rangle = Y$ に完全に収まると仮定し、ここで $\phi(X)$ は無限次元非線形特徴写像を意味する。 この問題を解決するために,確率勾配降下(SGD)の最終反復によるステップサイズの推定について検討する。 In this context, our contribution is two fold: (i) from a (stochastic) optimization perspective, we exhibit an archetypal problem where we can show explicitly the convergence of SGD final iterate for a non-strongly convex problem with constant step-size whereas usual results use some form of average and (ii) from a statistical perspective, we give explicit non-asymptotic convergence rates in the over-parameterized setting and leverage a fine-grained parameterization of the problem to exhibit polynomial rates that can be faster than $O(1/T)$. 再生カーネルヒルベルト空間とのリンクが確立される。

Motivated by the recent successes of neural networks that have the ability to fit the data perfectly and generalize well, we study the noiseless model in the fundamental least-squares setup. We assume that an optimum predictor fits perfectly inputs and outputs $\langle \theta_* , \phi(X) \rangle = Y$, where $\phi(X)$ stands for a possibly infinite dimensional non-linear feature map. To solve this problem, we consider the estimator given by the last iterate of stochastic gradient descent (SGD) with constant step-size. In this context, our contribution is two fold: (i) from a (stochastic) optimization perspective, we exhibit an archetypal problem where we can show explicitly the convergence of SGD final iterate for a non-strongly convex problem with constant step-size whereas usual results use some form of average and (ii) from a statistical perspective, we give explicit non-asymptotic convergence rates in the over-parameterized setting and leverage a fine-grained parameterization of the problem to exhibit polynomial rates that can be faster than $O(1/T)$. The link with reproducing kernel Hilbert spaces is established.
翻訳日:2021-02-08 14:45:36 公開日:2021-02-05
# 一般化期待最大化に基づくスパイキングニューラルネットワークのマルチサンプルオンライン学習

Multi-Sample Online Learning for Spiking Neural Networks based on Generalized Expectation Maximization ( http://arxiv.org/abs/2102.03280v1 )

ライセンス: Link先を確認
Hyeryung Jang and Osvaldo Simeone(参考訳) spiking neural networks (snns) は、二元神経のダイナミックアクティベーションによる処理により、生体脳の効率の一部をキャプチャする新しい計算パラダイムを提供する。 確率的snモデルは通常、ログ様勾配の偏りのない推定を用いて所望の出力の可能性を最大化するために訓練される。 本論文では, シングルサンプル推定器を用いて, シナプス重みを共有しながら, 独立したスパイク信号をサンプリングする複数のコンパートメントを利用する方法を提案する。 重要なアイデアは、これらの信号を使用して、ログ類似トレーニング基準とその勾配のより正確な統計的推定を得ることです。 この手法は、重大サンプリングを用いてログのより厳密な近似を最適化する一般化予測最大化(GEM)に基づいている。 オンライン学習アルゴリズムは,グローバルな構成ごとの学習信号を用いた3要素ルールを実装している。 ニューロモルフィックMNIST-DVSデータセットの分類タスクに関する実験結果は、トレーニングおよび推論に使用されるコンパートメントの数を増やす際に、ログの類似性、正確性、および校正の点で有意な改善を示す。

Spiking Neural Networks (SNNs) offer a novel computational paradigm that captures some of the efficiency of biological brains by processing through binary neural dynamic activations. Probabilistic SNN models are typically trained to maximize the likelihood of the desired outputs by using unbiased estimates of the log-likelihood gradients. While prior work used single-sample estimators obtained from a single run of the network, this paper proposes to leverage multiple compartments that sample independent spiking signals while sharing synaptic weights. The key idea is to use these signals to obtain more accurate statistical estimates of the log-likelihood training criterion, as well as of its gradient. The approach is based on generalized expectation-maximiza tion (GEM), which optimizes a tighter approximation of the log-likelihood using importance sampling. The derived online learning algorithm implements a three-factor rule with global per-compartment learning signals. Experimental results on a classification task on the neuromorphic MNIST-DVS data set demonstrate significant improvements in terms of log-likelihood, accuracy, and calibration when increasing the number of compartments used for training and inference.
翻訳日:2021-02-08 14:45:17 公開日:2021-02-05
# 量子回路の統計的複雑性に及ぼす量子資源の影響

Effects of quantum resources on the statistical complexity of quantum circuits ( http://arxiv.org/abs/2102.03282v1 )

ライセンス: Link先を確認
Kaifeng Bu, Dax Enshan Koh, Lu Li, Qingxian Luo, Yaobo Zhang(参考訳) 量子資源理論の枠組みを用いて、量子資源の付加が量子回路の統計複雑性をいかに変化させるかを調べる。 私たちが考慮する統計的複雑さの尺度には、実値関数のクラスの豊かさを定量化する計算学習理論でよく知られた尺度であるRademacher複雑性およびGaussian複雑性が含まれる。 我々は、特定のリソースへのアクセスが限られている量子回路の統計的複雑さのバウンダリを導出し、(1)限られた数のTゲートを補う安定化回路と(2)限られた数のCCZゲートを補う瞬時量子多項式時間クリフォード回路の2つの特別なケースに適用する。 追加量子チャネルが付加されたときの量子回路の統計的複雑さの増加は、付加されたチャネルの自由堅牢性によって上界であることが示される。 最後に、量子回路から生じるトレーニングデータから学ぶことに関連する一般化誤差の境界を導出する。

We investigate how the addition of quantum resources changes the statistical complexity of quantum circuits by utilizing the framework of quantum resource theories. Measures of statistical complexity that we consider include the Rademacher complexity and the Gaussian complexity, which are well-known measures in computational learning theory that quantify the richness of classes of real-valued functions. We derive bounds for the statistical complexities of quantum circuits that have limited access to certain resources and apply our results to two special cases: (1) stabilizer circuits that are supplemented with a limited number of T gates and (2) instantaneous quantum polynomial-time Clifford circuits that are supplemented with a limited number of CCZ gates. We show that the increase in the statistical complexity of a quantum circuit when an additional quantum channel is added to it is upper bounded by the free robustness of the added channel. Finally, we derive bounds for the generalization error associated with learning from training data arising from quantum circuits.
翻訳日:2021-02-08 14:44:55 公開日:2021-02-05
# DetectorGuard: 局所的なパッチ隠蔽攻撃に対して、おそらくオブジェクト検出器を保護

DetectorGuard: Provably Securing Object Detectors against Localized Patch Hiding Attacks ( http://arxiv.org/abs/2102.02956v1 )

ライセンス: Link先を確認
Chong Xiang, Prateek Mittal(参考訳) 最先端のオブジェクト検出器は、敵が小さな敵パッチを導入し、検出者が突出したオブジェクトの検出を見逃す、ローカライズされたパッチ隠蔽攻撃に弱い。 本稿では,局所パッチ隠蔽攻撃に対してロバストな検出器を構築するための最初の汎用フレームワークである detectorguard を提案する。 まず,ロバストな画像分類とロバストな物体検出の橋渡しを構築するため,画像分類器から物体検出器へロバスト性を持たせる一般的な手法を提案する。 画像上のスライディングウィンドウに確固たる画像分類器を適用し、異なる場所における堅牢なウィンドウ分類を集約し、堅牢なオブジェクト検出を行います。 第2に、クリーンパフォーマンスと証明可能なロバスト性の間の悪名高いトレードオフを軽減するために、従来の検出器とロバスト検出器の出力を比較した予測パイプラインを用いて、進行中のアタックを捕捉する。 攻撃が検出されない場合、De DetectorGuardは従来の検出器によって予測された正確な境界ボックスを出力し、高いクリーンなパフォーマンスを達成する。 特に、我々の予測戦略は、ロバストな検出器の不正確なオブジェクトが、 detectorguardのクリーンな性能を損なわないことを保証する。 さらに,認証対象に対する detectorguard のロバスト性,すなわち攻撃者を隠蔽するパッチに対するオブジェクトの検出や警告のトリガを形式的に証明することが可能である。 PASCAL VOCおよびMS COCOデータセットを用いた評価では,検出器ガードは従来の検出器とほぼ同じクリーンな性能を示し,さらに重要なことは,検出器ガードが局所的なパッチ隠蔽攻撃に対して初めて証明可能な堅牢性を達成したことである。

State-of-the-art object detectors are vulnerable to localized patch hiding attacks where an adversary introduces a small adversarial patch to make detectors miss the detection of salient objects. In this paper, we propose the first general framework for building provably robust detectors against the localized patch hiding attack called DetectorGuard. To start with, we propose a general approach for transferring the robustness from image classifiers to object detectors, which builds a bridge between robust image classification and robust object detection. We apply a provably robust image classifier to a sliding window over the image and aggregates robust window classifications at different locations for a robust object detection. Second, in order to mitigate the notorious trade-off between clean performance and provable robustness, we use a prediction pipeline in which we compare the outputs of a conventional detector and a robust detector for catching an ongoing attack. When no attack is detected, DetectorGuard outputs the precise bounding boxes predicted by the conventional detector to achieve a high clean performance; otherwise, DetectorGuard triggers an attack alert for security. Notably, our prediction strategy ensures that the robust detector incorrectly missing objects will not hurt the clean performance of DetectorGuard. Moreover, our approach allows us to formally prove the robustness of DetectorGuard on certified objects, i.e., it either detects the object or triggers an alert, against any patch hiding attacker. Our evaluation on the PASCAL VOC and MS COCO datasets shows that DetectorGuard has the almost same clean performance as conventional detectors, and more importantly, that DetectorGuard achieves the first provable robustness against localized patch hiding attacks.
翻訳日:2021-02-08 14:44:24 公開日:2021-02-05
# マルチソース相関制約による3次元医用マルチモーダルセグメンテーションネットワーク

3D Medical Multi-modal Segmentation Network Guided by Multi-source Correlation Constraint ( http://arxiv.org/abs/2102.03111v1 )

ライセンス: Link先を確認
Tongxue Zhou, St\'ephane Canu, Pierre Vera and Su Ruan(参考訳) マルチモーダルセグメンテーションの分野では、セグメンテーション結果を改善するために異なるモダリティ間の相関を考慮することができる。 本稿では,相関制約付き多モードセグメンテーションネットワークを提案する。 我々のネットワークは、Nモデル非依存の符号化パスとN画像ソース、相関制約ブロック、特徴融合ブロック、デコードパスを含む。 モデル独立符号化パスは n 個のモダリティからモダリティ特有の特徴をキャプチャすることができる。 異なるモダリティの間に強い相関が存在するため、まずモダリティ間の相関を学習するための線形相関ブロックを提案し、次に、線形相関ブロックに基づいて相関特徴を学習するためにネットワークを導くために損失関数を使用する。 このブロックは、ネットワークにセグメンテーションに関連のある潜在相関機能を学ぶように強制します。 エンコーダから抽出された全ての特徴がセグメンテーションに有用であるわけではないことを考慮し,2重注意に基づく融合ブロックを用いて,モダリティや空間的経路に沿った特徴を再検討し,少ない情報的特徴を抑え,有用な特徴を強調することを提案する。 融合特徴表現は最終的にデコーダによって投影され、セグメンテーション結果が得られる。 脳腫瘍分割のためのBraTS-2018データセットで実験を行った結果,提案手法の有効性が示された。

In the field of multimodal segmentation, the correlation between different modalities can be considered for improving the segmentation results. In this paper, we propose a multi-modality segmentation network with a correlation constraint. Our network includes N model-independent encoding paths with N image sources, a correlation constraint block, a feature fusion block, and a decoding path. The model independent encoding path can capture modality-specific features from the N modalities. Since there exists a strong correlation between different modalities, we first propose a linear correlation block to learn the correlation between modalities, then a loss function is used to guide the network to learn the correlated features based on the linear correlation block. This block forces the network to learn the latent correlated features which are more relevant for segmentation. Considering that not all the features extracted from the encoders are useful for segmentation, we propose to use dual attention based fusion block to recalibrate the features along the modality and spatial paths, which can suppress less informative features and emphasize the useful ones. The fused feature representation is finally projected by the decoder to obtain the segmentation result. Our experiment results tested on BraTS-2018 dataset for brain tumor segmentation demonstrate the effectiveness of our proposed method.
翻訳日:2021-02-08 14:43:50 公開日:2021-02-05
# グラフ上のマトリックス分解:機能的な視点

Matrix Decomposition on Graphs: A Functional View ( http://arxiv.org/abs/2102.03233v1 )

ライセンス: Link先を確認
Abhishek Sharma, Maks Ovsjanikov(参考訳) 幾何学的行列完成やグラフ正規化次元還元などのグラフ上の行列分解問題の関数的視点を提案する。 我々の統一フレームワークは、還元基底を用いて積空間上の関数を表現することは、スパース信号からでも低階行列近似を回復するのに十分である、というキーアイデアに基づいている。 いくつかの実・合成ベンチマーク(両方の問題に対して)において、我々のフレームワークを検証し、最先端技術よりも優れているか、事前作業の計算作業のほんの一部で競合的な結果が得られるかした。

We propose a functional view of matrix decomposition problems on graphs such as geometric matrix completion and graph regularized dimensionality reduction. Our unifying framework is based on the key idea that using a reduced basis to represent functions on the product space is sufficient to recover a low rank matrix approximation even from a sparse signal. We validate our framework on several real and synthetic benchmarks (for both problems) where it either outperforms state of the art or achieves competitive results at a fraction of the computational effort of prior work.
翻訳日:2021-02-08 14:43:32 公開日:2021-02-05
# 対比質問応答のためのモデル診断応答ランキングシステム

Model Agnostic Answer Reranking System for Adversarial Question Answering ( http://arxiv.org/abs/2102.03016v1 )

ライセンス: Link先を確認
Sagnik Majumder, Chinmoy Samant, Greg Durrett(参考訳) 質問応答(QA)における敵の例に対する防御策として多くの手法が提案されているが、これらの手法はしばしばモデル固有であり、モデルの再訓練を必要とし、バニラモデルよりも性能を極端に向上させるだけである。 本研究では、この問題に対する単純なモデル非依存アプローチを提示し、リトレーニングなしで任意のQAモデルに直接適用することができる。 提案手法は,質問内容と質問内容の重なりに基づいて候補回答をスコア付けし,最終予測を行う明示的な回答候補リランキング機構を用いる。 強力なベースQAモデルと組み合わせることで、我々の手法は最先端の防御技術より優れており、これらの技術が実際にどれだけうまく行っており、敵の検層が強いかという疑問を投げかける。

While numerous methods have been proposed as defenses against adversarial examples in question answering (QA), these techniques are often model specific, require retraining of the model, and give only marginal improvements in performance over vanilla models. In this work, we present a simple model-agnostic approach to this problem that can be applied directly to any QA model without any retraining. Our method employs an explicit answer candidate reranking mechanism that scores candidate answers on the basis of their content overlap with the question before making the final prediction. Combined with a strong base QAmodel, our method outperforms state-of-the-art defense techniques, calling into question how well these techniques are actually doing and strong these adversarial testbeds are.
翻訳日:2021-02-08 14:43:23 公開日:2021-02-05
# Zero Training Overhead Portfolios for Learning to Solve Combinatorial Problems

Zero Training Overhead Portfolios for Learning to Solve Combinatorial Problems ( http://arxiv.org/abs/2102.03002v1 )

ライセンス: Link先を確認
Yiwei Bai, Wenting Zhao, Carla P. Gomes(参考訳) 近年,組合せ最適化(CO)問題に取り組むためにディープラーニングを活用することへの関心が高まっている。 典型的なcoディープラーニングアプローチは、モデルアーキテクチャの問題構造を活用する。 それでも、モデル選択は主に従来の機械学習設定に基づいている。 CO問題の離散的な性質のために、単一のモデルが問題を完全に学ぶ可能性は低い。 ZTopはZero Training Overhead Portfolioの略で、組み合わせ問題を解決するためのシンプルで効果的なモデル選択とアンサンブルメカニズムです。 ZTopは、一般的なCOアンサンブル戦略であるアルゴリズムポートフォリオ、特にランダム化されたCOアルゴリズムを定期的に再開するポートフォリオの再開に触発され、事実上、異なるヒューリスティックな検索空間を探索します。 我々は、同じトレーニング軌道で取得した訓練されたモデルが、同様の検証性能を持つ場合、非常に異なる検証インスタンスでうまく機能することを観察した。 この観察に続いて、ztopは訓練されたモデルのセットをアンサンブルし、それぞれがトレーニングオーバーヘッドゼロのユニークなヒューリスティックを提供し、それらを逐次または並行に適用してテストインスタンスを解決する。 ZToppingは、ZTopのアンサンブル戦略と与えられたディープラーニングアプローチを用いて、現在の3つの原型COドメイン、最も困難なユニークソリューションのSudokuインスタンス、挑戦的なルーティング問題、グラフ最大カット問題、およびマルチラベル分類、大規模な組み合わせラベル空間を備えた機械学習タスクのパフォーマンスを大幅に向上させる方法を示す。

There has been an increasing interest in harnessing deep learning to tackle combinatorial optimization (CO) problems in recent years. Typical CO deep learning approaches leverage the problem structure in the model architecture. Nevertheless, the model selection is still mainly based on the conventional machine learning setting. Due to the discrete nature of CO problems, a single model is unlikely to learn the problem entirely. We introduce ZTop, which stands for Zero Training Overhead Portfolio, a simple yet effective model selection and ensemble mechanism for learning to solve combinatorial problems. ZTop is inspired by algorithm portfolios, a popular CO ensembling strategy, particularly restart portfolios, which periodically restart a randomized CO algorithm, de facto exploring the search space with different heuristics. We have observed that well-trained models acquired in the same training trajectory, with similar top validation performance, perform well on very different validation instances. Following this observation, ZTop ensembles a set of well-trained models, each providing a unique heuristic with zero training overhead, and applies them, sequentially or in parallel, to solve the test instances. We show how ZTopping, i.e., using a ZTop ensemble strategy with a given deep learning approach, can significantly improve the performance of the current state-of-the-art deep learning approaches on three prototypical CO domains, the hardest unique-solution Sudoku instances, challenging routing problems, and the graph maximum cut problem, as well as on multi-label classification, a machine learning task with a large combinatorial label space.
翻訳日:2021-02-08 14:42:53 公開日:2021-02-05
# 自律運転における行動不確実性を考慮したリスク制約型インタラクティブセーフティ

Risk-Constrained Interactive Safety under Behavior Uncertainty for Autonomous Driving ( http://arxiv.org/abs/2102.03053v1 )

ライセンス: Link先を確認
Julian Bernhard and Alois Knoll(参考訳) 密な交通を計画する際の安全と効率のバランスをとることは困難です。 インタラクティブな行動プランナーは、これらの交通状況に固有の予測の不確実性と相互作用を組み込む。 しかし、単目的最適性の使用は、結果として生じる安全目標の解釈可能性を妨げる。 許可された計画地域を制限する安全封筒は、行動の不確実性の存在下で解釈可能な安全性をもたらしますが、保守的な運転による密集した交通の効率を犠牲にします。 研究によると、人間は高密度交通における安全と効率のバランスを保ち、安全封筒に違反する確率的リスクを受け入れる。 本研究では,この安全目標を対話型計画に適用する。 具体的には,安全目標を定式化し,他の交通参加者の行動の不確実性の下で安全包絡に違反するリスクを最大化するインタラクティブな決定を,マルチエージェントモンテカルロ木探索を用いて解決する。 提案手法がベースラインよりも優れていることをシミュレーションで実証し,シミュレーション時間よりも特定の違反リスクレベルに達することで,対話型計画のための解釈可能で調整可能な安全性目標を提供する。

Balancing safety and efficiency when planning in dense traffic is challenging. Interactive behavior planners incorporate prediction uncertainty and interactivity inherent to these traffic situations. Yet, their use of single-objective optimality impedes interpretability of the resulting safety goal. Safety envelopes which restrict the allowed planning region yield interpretable safety under the presence of behavior uncertainty, yet, they sacrifice efficiency in dense traffic due to conservative driving. Studies show that humans balance safety and efficiency in dense traffic by accepting a probabilistic risk of violating the safety envelope. In this work, we adopt this safety objective for interactive planning. Specifically, we formalize this safety objective, present the Risk-Constrained Robust Stochastic Bayesian Game modeling interactive decisions satisfying a maximum risk of violating a safety envelope under uncertainty of other traffic participants' behavior and solve it using our variant of Multi-Agent Monte Carlo Tree Search. We demonstrate in simulation that our approach outperforms baselines approaches, and by reaching the specified violation risk level over driven simulation time, provides an interpretable and tunable safety objective for interactive planning.
翻訳日:2021-02-08 14:42:26 公開日:2021-02-05
# 不確実性に対処する:分布強化学習を用いた自動運転におけるリスク感知行動生成

Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for Automated Driving using Distributional Reinforcement Learning ( http://arxiv.org/abs/2102.03119v1 )

ライセンス: Link先を確認
Julian Bernhard, Stefan Pollok and Alois Knoll(参考訳) SAEレベル~3を超える高度に自動化された運転では、行動生成アルゴリズムは交通環境の固有の不確かさを確実に考慮する必要がある。 様々な人間の運転スタイルに由来する。 このような不確実性は曖昧な決定を生じさせ、例えばアルゴリズムは低確率の有害事象を適切にバランスさせる必要がある。 衝突、および高確率の有益事象、例えば 交差点を素早く横断する 最先端の行動生成アルゴリズムは、決定結果の分散処理を欠いている。 これは曖昧な状況において適切なリスク評価を妨げ、しばしば安全でない行動や保守的な行動を奨励する。 そこで本研究では,オフライン分散学習とオンラインリスクアセスメントを組み合わせたリスク感応型行動生成手法を提案する。 具体的には、まずDeep Distributional Reinforcement Learningで不確実な環境で最適なポリシーを学びます。 実行中、学習された状態復帰分布に、リスク条件値等の確立されたリスク基準を適用することにより、最適なリスク感応動作を選択する。 交差点横断のシナリオでは、異なるリスク基準を評価し、アクティブな運転スタイルを維持しながら、我々のアプローチが安全性を高めることを実証する。 私たちのアプローチは、自動運転車のリスクに敏感なアプローチの利点についてさらなる研究を奨励します。

For highly automated driving above SAE level~3, behavior generation algorithms must reliably consider the inherent uncertainties of the traffic environment, e.g. arising from the variety of human driving styles. Such uncertainties can generate ambiguous decisions, requiring the algorithm to appropriately balance low-probability hazardous events, e.g. collisions, and high-probability beneficial events, e.g. quickly crossing the intersection. State-of-the-art behavior generation algorithms lack a distributional treatment of decision outcome. This impedes a proper risk evaluation in ambiguous situations, often encouraging either unsafe or conservative behavior. Thus, we propose a two-step approach for risk-sensitive behavior generation combining offline distribution learning with online risk assessment. Specifically, we first learn an optimal policy in an uncertain environment with Deep Distributional Reinforcement Learning. During execution, the optimal risk-sensitive action is selected by applying established risk criteria, such as the Conditional Value at Risk, to the learned state-action return distributions. In intersection crossing scenarios, we evaluate different risk criteria and demonstrate that our approach increases safety, while maintaining an active driving style. Our approach shall encourage further studies about the benefits of risk-sensitive approaches for self-driving vehicles.
翻訳日:2021-02-08 14:42:06 公開日:2021-02-05
# 斜めUAV画像のセマンティックセグメンテーションのための双方向マルチスケールアテンションネットワーク

Bidirectional Multi-scale Attention Networks for Semantic Segmentation of Oblique UAV Imagery ( http://arxiv.org/abs/2102.03099v1 )

ライセンス: Link先を確認
Ye Lyu, George Vosselman, Gui-Song Xia, Michael Ying Yang(参考訳) 航空プラットフォームにおけるセマンティクスセグメンテーションは、地球観測における基本的なシーン理解タスクの1つである。 セマンティックセグメンテーションのほとんどの研究は、斜視で捉えたシーンに比べて、物体のスケールの変化が比較的小さい、ナディルビューで捉えたシーンに焦点を当てている。 斜め画像におけるオブジェクトの大規模変動は、単一のスケールで画像を処理するディープニューラルネットワーク(DNN)のパフォーマンスを制限する。 そこで本論文では,複数のスケールの特徴を双方向に融合させ,より適応的かつ効果的な特徴抽出を行う,新しい双方向マルチスケール注意ネットワークを提案する。 実験はUAVid2020データセット上で行われ,本手法の有効性を示した。 私達のモデルは70.80%の連合(mIoU)スコア上の平均交差の最先端の(SOTA)結果を達成しました。

Semantic segmentation for aerial platforms has been one of the fundamental scene understanding task for the earth observation. Most of the semantic segmentation research focused on scenes captured in nadir view, in which objects have relatively smaller scale variation compared with scenes captured in oblique view. The huge scale variation of objects in oblique images limits the performance of deep neural networks (DNN) that process images in a single scale fashion. In order to tackle the scale variation issue, in this paper, we propose the novel bidirectional multi-scale attention networks, which fuse features from multiple scales bidirectionally for more adaptive and effective feature extraction. The experiments are conducted on the UAVid2020 dataset and have shown the effectiveness of our method. Our model achieved the state-of-the-art (SOTA) result with a mean intersection over union (mIoU) score of 70.80%.
翻訳日:2021-02-08 14:41:21 公開日:2021-02-05
# 監視カメラによる顔画像のリアルタイム超解像

Real-World Super-Resolution of Face-Images from Surveillance Cameras ( http://arxiv.org/abs/2102.03113v1 )

ライセンス: Link先を確認
Andreas Aakerberg, Kamal Nasrollahi, Thomas B. Moeslund(参考訳) ほとんどの顔画像超解法(SR)は、低分解能(LR)画像は、バイコビック補間による高分解能(HR)画像から人工的にダウンサンプリングされたと仮定している。 この操作は、自然な画像特性を変更し、ノイズを低減する。 したがって、そのようなデータに基づいて訓練されたSR法は、実際のLR画像に適用すると良い結果が得られないことが多い。 そこで本研究では,リアルなLR/HRトレーニングペア生成のための新しいフレームワークを提案する。 このフレームワークは、現実的なぼかしカーネル、ノイズ分布、JPEG圧縮アーティファクトを推定し、ソースドメインと同じ画像特性を持つLR画像を生成する。 これにより、高品質の顔画像を用いたSRモデルをGT(Gearth-Truth)としてトレーニングすることができます。 我々はGAN(Generative Adversarial Network)ベースのSRモデルを用いて、一般的に使われているVGG-loss [24]とLPIPS-loss [52]を交換した。 実画像と人工顔画像の両方に対する実験結果から,既存のSoTA法と比較してノイズが少なく,より詳細な再構成が得られた。 さらに,従来の非参照画像品質評価法(IQA)では,この改善を捉えられず,最近のNIMA測定法 [16] は,平均オピニオンランク(MOR)を介して人間の知覚と相関することを示した。

Most existing face image Super-Resolution (SR) methods assume that the Low-Resolution (LR) images were artificially downsampled from High-Resolution (HR) images with bicubic interpolation. This operation changes the natural image characteristics and reduces noise. Hence, SR methods trained on such data most often fail to produce good results when applied to real LR images. To solve this problem, we propose a novel framework for generation of realistic LR/HR training pairs. Our framework estimates realistic blur kernels, noise distributions, and JPEG compression artifacts to generate LR images with similar image characteristics as the ones in the source domain. This allows us to train a SR model using high quality face images as Ground-Truth (GT). For better perceptual quality we use a Generative Adversarial Network (GAN) based SR model where we have exchanged the commonly used VGG-loss [24] with LPIPS-loss [52]. Experimental results on both real and artificially corrupted face images show that our method results in more detailed reconstructions with less noise compared to existing State-of-the-Art (SoTA) methods. In addition, we show that the traditional non-reference Image Quality Assessment (IQA) methods fail to capture this improvement and demonstrate that the more recent NIMA metric [16] correlates better with human perception via Mean Opinion Rank (MOR).
翻訳日:2021-02-08 14:41:09 公開日:2021-02-05
# 深層学習を用いたマルチスペクトル物体検出

Multispectral Object Detection with Deep Learning ( http://arxiv.org/abs/2102.03115v1 )

ライセンス: Link先を確認
Md Osman Gani, Somenath Kuiry, Alaka Das, Mita Nasipuri, Nibaran Das(参考訳) 自然界における物体検出は難しい課題である。 多くの現実の状況では、可視スペクトルは従来のコンピュータビジョンのタスクには適さない。 熱スペクトルや近赤外(NIR)画像などの可視スペクトル範囲外の移動は、低視認性条件においてはるかに有益であり、NIR画像は物体の材料品質を理解するために非常に有用である。 本研究では,物体検出タスクのサーマルスペクトルとNIRスペクトルの両方を用いて画像撮影を行った。 検出タスクにはサーマルとNIRの両方のマルチスペクトルデータが利用できないため、自分でデータを収集する必要がありました。 データ収集は時間を要するプロセスであり、克服する必要のある多くの障害に直面しました。 YOLO v3ネットワークをゼロからトレーニングし、マルチスペクトル画像から物体を検出する。 また、過剰フィッティングを避けるために、データ拡張とハイパーパラメータのチューニングを行いました。

Object detection in natural scenes can be a challenging task. In many real-life situations, the visible spectrum is not suitable for traditional computer vision tasks. Moving outside the visible spectrum range, such as the thermal spectrum or the near-infrared (NIR) images, is much more beneficial in low visibility conditions, NIR images are very helpful for understanding the object's material quality. In this work, we have taken images with both the Thermal and NIR spectrum for the object detection task. As multi-spectral data with both Thermal and NIR is not available for the detection task, we needed to collect data ourselves. Data collection is a time-consuming process, and we faced many obstacles that we had to overcome. We train the YOLO v3 network from scratch to detect an object from multi-spectral images. Also, to avoid overfitting, we have done data augmentation and tune hyperparameters.
翻訳日:2021-02-08 14:40:45 公開日:2021-02-05
# 物体認識のためのディープニューラルネットワークによるゼロショット学習

Zero-shot Learning with Deep Neural Networks for Object Recognition ( http://arxiv.org/abs/2102.03137v1 )

ライセンス: Link先を確認
Yannick Le Cacheux and Herv\'e Le Borgne and Michel Crucianu(参考訳) ゼロショット学習は、視覚的なトレーニングサンプルなしでオブジェクトを認識する能力を扱う。 この視覚データの欠如を相殺するために、認識する各クラスは、オブジェクトの本質的な特徴を反映したセマンティックプロトタイプに関連付けられている。 一般的なアプローチは、ビジュアルデータからセマンティックプロトタイプへのマッピングを学び、推論時にそれを使って、クラスプロトタイプからのみ視覚サンプルを分類する。 この一般的な設定の異なる設定は、興味のあるユースケース、特にマッピングを学ぶために使われていないオブジェクトのみを分類したいか、ラベルのない視覚的な例を使ってマッピングを学ぶことができるかによって考慮できる。 この章では、ZSL問題に取り組むためのディープニューラルネットワークに基づくアプローチのレビューを紹介します。 我々は、このドメインの進化に大きな影響を与えた発見を強調し、現在の課題をリストアップする。

Zero-shot learning deals with the ability to recognize objects without any visual training sample. To counterbalance this lack of visual data, each class to recognize is associated with a semantic prototype that reflects the essential features of the object. The general approach is to learn a mapping from visual data to semantic prototypes, then use it at inference to classify visual samples from the class prototypes only. Different settings of this general configuration can be considered depending on the use case of interest, in particular whether one only wants to classify objects that have not been employed to learn the mapping or whether one can use unlabelled visual examples to learn the mapping. This chapter presents a review of the approaches based on deep neural networks to tackle the ZSL problem. We highlight findings that had a large impact on the evolution of this domain and list its current challenges.
翻訳日:2021-02-08 14:40:32 公開日:2021-02-05
# プランテーションライン検出のためのグラフに基づく深層学習手法

A Deep Learning Approach Based on Graphs to Detect Plantation Lines ( http://arxiv.org/abs/2102.03213v1 )

ライセンス: Link先を確認
Diogo Nunes Gon\c{c}alves, Mauro dos Santos de Arruda, Hemerson Pistori, Vanessa Jord\~ao Marcato Fernandes, Ana Paula Marques Ramos, Danielle Elis Garcia Furuya, Lucas Prado Osco, Hongjie He, Jonathan Li, Jos\'e Marcato Junior, Wesley Nunes Gon\c{c}alves(参考訳) 深層学習に基づくネットワークは、線形パターンを学習し、多様な画像条件からこの種の情報を抽出する最も顕著な方法の一つである。 本稿では,UAVを用いたRGB画像における植林線検出のためのグラフに基づく深層学習手法を提案する。 本手法の最初のモジュールは、VGG16の初期層からなるバックボーン全体の特徴マップを抽出します。 この特徴マップは、植物の位置を検出するために3つの連結枝で構成された知識推定モジュール(KEM)への入力として使用され、植物間の変位ベクトルのために2つのプランテーションライン、および3。 画像上の各植物位置を頂点としてグラフモデルを適用し、2つの頂点(すなわち、エッジ)間にエッジを形成する。 植物)。 最後に、エッジは、3つの確率(0.5以上)に基づいて特定のプランテーションラインに関連するものとして分類される:i)バックボーンから得られた視覚的特徴、ii)KEMステップから、エッジピクセルがラインに属している可能性、およびiii)KEMからも、エッジへの変位ベクトルのアライメント。 異なる成長段階と空中RGB画像のパターンを持つトウモロコシプランテーションで実験を行った。 256 x 256ピクセルの合計564パッチが使用され、ランダムにトレーニング、検証、テストセットにそれぞれ60\%、20\%、20\%の割合で分割された。 提案手法は最先端の深層学習法と比較し, 98.7\%, 91.9\%, 95.1\%の精度, リコール, F1-スコアをそれぞれ返送し, 有意なマージンで優れた性能を達成した。 このアプローチは、スペーシングされたプランテーションパターンを持つラインを抽出するのに有用であり、プランテーションギャップが発生するシナリオで実装でき、少ない割り込みでラインを生成することができる。

Deep learning-based networks are among the most prominent methods to learn linear patterns and extract this type of information from diverse imagery conditions. Here, we propose a deep learning approach based on graphs to detect plantation lines in UAV-based RGB imagery presenting a challenging scenario containing spaced plants. The first module of our method extracts a feature map throughout the backbone, which consists of the initial layers of the VGG16. This feature map is used as an input to the Knowledge Estimation Module (KEM), organized in three concatenated branches for detecting 1) the plant positions, 2) the plantation lines, and 3) for the displacement vectors between the plants. A graph modeling is applied considering each plant position on the image as vertices, and edges are formed between two vertices (i.e. plants). Finally, the edge is classified as pertaining to a certain plantation line based on three probabilities (higher than 0.5): i) in visual features obtained from the backbone; ii) a chance that the edge pixels belong to a line, from the KEM step; and iii) an alignment of the displacement vectors with the edge, also from KEM. Experiments were conducted in corn plantations with different growth stages and patterns with aerial RGB imagery. A total of 564 patches with 256 x 256 pixels were used and randomly divided into training, validation, and testing sets in a proportion of 60\%, 20\%, and 20\%, respectively. The proposed method was compared against state-of-the-art deep learning methods, and achieved superior performance with a significant margin, returning precision, recall, and F1-score of 98.7\%, 91.9\%, and 95.1\%, respectively. This approach is useful in extracting lines with spaced plantation patterns and could be implemented in scenarios where plantation gaps occur, generating lines with few-to-none interruptions.
翻訳日:2021-02-08 14:40:17 公開日:2021-02-05
# GaitSet: 深いセットとしてのGaitを利用したクロスビュー歩行認識

GaitSet: Cross-view Gait Recognition through Utilizing Gait as a Deep Set ( http://arxiv.org/abs/2102.03247v1 )

ライセンス: Link先を確認
Hanqing Chao, Kun Wang, Yiwei He, Junping Zhang, Jianfeng Feng(参考訳) 歩行は、遠くで認識できるユニークな生体認証機能であり、犯罪防止、法医学的識別、社会保障に広く適用されています。 歩行を表現するために、既存の歩行認識方法は、時間的情報の保存が困難な歩行テンプレート、または不要な連続的な制約を保ち、歩行認識の柔軟性を失う歩行シーケンスを利用する。 本稿では,左半球と右半球が情報を処理し,識別に使用可能な情報を学習する方法に触発されたグローバル局所融合深層ネットワークにより,歩行フレームの集合を統合した深層集合とする新しい視点を提案する。 この深い視点に基づいて、我々の手法はフレームの置換に無害であり、さまざまな視野角、異なる衣服、異なるアイテムの搬送条件など、異なるシナリオで取得された異なるビデオのフレームを自然に統合することができる。 実験の結果,通常の歩行条件下では,CASIA-B歩行データセットの平均ランク1精度は96.1%,OU-MVLP歩行データセットでは87.9%であった。 様々な複雑なシナリオにおいて、我々のモデルは高レベルの堅牢性を示す。 CASIA-Bのバッグ運搬およびコート着用歩行条件における90.8%と70.3%の精度を達成し、既存の最良の方法を大幅に上回っている。 また,本手法は,試験試料中のフレーム数が少ない場合においても精度が良好であり,例えば7フレームのみを使用してもcasia-bでは85.0%を達成した。 ソースコードはhttps://github.com/A bnerHqC/GaitSetで公開されている。

Gait is a unique biometric feature that can be recognized at a distance; thus, it has broad applications in crime prevention, forensic identification, and social security. To portray a gait, existing gait recognition methods utilize either a gait template which makes it difficult to preserve temporal information, or a gait sequence that maintains unnecessary sequential constraints and thus loses the flexibility of gait recognition. In this paper, we present a novel perspective that utilizes gait as a deep set, which means that a set of gait frames are integrated by a global-local fused deep network inspired by the way our left- and right-hemisphere processes information to learn information that can be used in identification. Based on this deep set perspective, our method is immune to frame permutations, and can naturally integrate frames from different videos that have been acquired under different scenarios, such as diverse viewing angles, different clothes, or different item-carrying conditions. Experiments show that under normal walking conditions, our single-model method achieves an average rank-1 accuracy of 96.1% on the CASIA-B gait dataset and an accuracy of 87.9% on the OU-MVLP gait dataset. Under various complex scenarios, our model also exhibits a high level of robustness. It achieves accuracies of 90.8% and 70.3% on CASIA-B under bag-carrying and coat-wearing walking conditions respectively, significantly outperforming the best existing methods. Moreover, the proposed method maintains a satisfactory accuracy even when only small numbers of frames are available in the test samples; for example, it achieves 85.0% on CASIA-B even when using only 7 frames. The source code has been released at https://github.com/A bnerHqC/GaitSet.
翻訳日:2021-02-08 14:39:40 公開日:2021-02-05
# デカップリング特徴生成によるトランスダクティブゼロショット学習

Transductive Zero-Shot Learning by Decoupled Feature Generation ( http://arxiv.org/abs/2102.03266v1 )

ライセンス: Link先を確認
Federico Marmoreo, Jacopo Cavazza, Vittorio Murino(参考訳) 本稿では,ゼロショット学習(ZSL)の課題として,学習中にラベル付き視覚データが利用できないカテゴリ認識の問題について述べる。 我々は,unseenクラスからラベルなしのビジュアルデータを利用可能にするトランスダクティブ設定に注目する。 ZSLの最先端パラダイムは、通常、生成的敵ネットワークを利用してセマンティック属性から視覚的特徴を合成する。 これらのアプローチの主な限界は,1)現実的な視覚的特徴を生成すること,2)意味的属性を視覚的手がかりに変換すること,の2つの問題に直面する単一モデルを採用することである。 別々に、これらのタスクを分離し、個別に解決することを提案する。 特に、非条件ジェネレーターをトレーニングして、視覚データの分布の複雑さのみをキャプチャし、その後、クラス埋め込みのセマンティックコンテンツとデータ分布の以前の知識を豊かにするために専用の条件ジェネレーターとペアリングします。 提案したデカップリング手法の効果を解明する詳細なアブレーション研究を行い、関連した最新技術に対する優位性を実証する。

In this paper, we address zero-shot learning (ZSL), the problem of recognizing categories for which no labeled visual data are available during training. We focus on the transductive setting, in which unlabelled visual data from unseen classes is available. State-of-the-art paradigms in ZSL typically exploit generative adversarial networks to synthesize visual features from semantic attributes. We posit that the main limitation of these approaches is to adopt a single model to face two problems: 1) generating realistic visual features, and 2) translating semantic attributes into visual cues. Differently, we propose to decouple such tasks, solving them separately. In particular, we train an unconditional generator to solely capture the complexity of the distribution of visual data and we subsequently pair it with a conditional generator devoted to enrich the prior knowledge of the data distribution with the semantic content of the class embeddings. We present a detailed ablation study to dissect the effect of our proposed decoupling approach, while demonstrating its superiority over the related state-of-the-art.
翻訳日:2021-02-08 14:39:09 公開日:2021-02-05
# 単一画像からの教師なし新規ビュー合成

Unsupervised Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2102.03285v1 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Alessio Tonioni, Federico Tombari(参考訳) 単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。 いくつかの作業は最近驚くべき結果を達成したが、トレーニング時に何らかの形でマルチビューの監督を必要とするため、実際のシナリオでの展開が制限される。 本研究は,この仮定を緩和し,条件付き生成モデルの学習を可能にすることを目的としている。 まず,ganを用いた純粋生成型デコーダモデルを事前学習し,同時にエンコーダネットワークを訓練し,潜在コードから画像へのマッピングを反転させる。 次に、エンコーダとデコーダを交換し、オートエンコーダのような目的と自己蒸留を混合した条件付きGANとしてネットワークを訓練する。 テスト時に、オブジェクトのビューを考えると、私たちのモデルはまずイメージ内容を潜入コードに埋め込んで、そのポーズをw.r.tに残します。 標準参照システムは、コードを保持し、ポーズを変えることで、それの新しいビューを生成する。 本研究では,本フレームワークがShapeNetの最先端技術に匹敵する結果を達成し,競合する手法を訓練しない自然画像の非制約コレクションに適用可能であることを示す。

Novel view synthesis from a single image aims at generating novel views from a single input image of an object. Several works recently achieved remarkable results, though require some form of multi-view supervision at training time, therefore limiting their deployment in real scenarios. This work aims at relaxing this assumption enabling training of conditional generative model for novel view synthesis in a completely unsupervised manner. We first pre-train a purely generative decoder model using a GAN formulation while at the same time training an encoder network to invert the mapping from latent code to images. Then we swap encoder and decoder and train the network as a conditioned GAN with a mixture of auto-encoder-like objective and self-distillation. At test time, given a view of an object, our model first embeds the image content in a latent code and regresses its pose w.r.t. a canonical reference system, then generates novel views of it by keeping the code and varying the pose. We show that our framework achieves results comparable to the state of the art on ShapeNet and that it can be employed on unconstrained collections of natural images, where no competing method can be trained.
翻訳日:2021-02-08 14:38:49 公開日:2021-02-05
# LIDARに基づく道路マッピングのためのニューラルネットワークの融合

Fusion of neural networks, for LIDAR-based evidential road mapping ( http://arxiv.org/abs/2102.03326v1 )

ライセンス: Link先を確認
Edouard Capellier, Franck Davoine, Veronique Cherfaoui, You Li(参考訳) LIDARセンサーは、通常、環境の3D表現を自動運転車に提供するために使用される。 理想的な条件では、幾何学的モデルは、数値制約の手動チューニングと柔軟性の欠如のコストで、LIDARスキャンの道路を検出することができます。 代わりに,ニューラルネットワークから得られた道路検出結果を蓄積する立証パイプラインを提案する。 まず、LIDARスキャンで道路検出に最適化された新しい畳み込みアーキテクチャであるRoadSegを紹介します。 RoadSegは、個々のLIDARポイントを道路に属するか、そうでないかを分類するために使用される。 しかし、そのような点レベルの分類結果は、自動運転車で使用できる密集した表現に変換する必要がある。 そこで第2に,連続する道路検出結果と融合する道路マッピングアルゴリズムを提案する。 私たちは、単純明快な質量関数の集合を生成すると見ることができるロジスティック分類器の再解釈から利益を得ました。 道路からグリッドセルに分類結果を投影し、コンフリクト解析によって動く物体を処理することにより、道路を描写した実証的なグリッドマップを得ることができる。 システムは実生活データに基づいて訓練され評価された。 python実装は10Hzのフレームレートを維持します。 トレーニングには道路標識が必要であったため、レーンレベルのhdマップに依存したソフトなラベリング手順が、粗いトレーニングと検証セットを生成するために用いられた。 追加のテストセットは評価目的で手動でラベル付けされた。 十分な結果を得るために、システムは3種類のroadegから得られた道路検出結果を融合し、異なるlidar特徴を処理する。

LIDAR sensors are usually used to provide autonomous vehicles with 3D representations of their environment. In ideal conditions, geometrical models could detect the road in LIDAR scans, at the cost of a manual tuning of numerical constraints, and a lack of flexibility. We instead propose an evidential pipeline, to accumulate road detection results obtained from neural networks. First, we introduce RoadSeg, a new convolutional architecture that is optimized for road detection in LIDAR scans. RoadSeg is used to classify individual LIDAR points as either belonging to the road, or not. Yet, such point-level classification results need to be converted into a dense representation, that can be used by an autonomous vehicle. We thus secondly present an evidential road mapping algorithm, that fuses consecutive road detection results. We benefitted from a reinterpretation of logistic classifiers, which can be seen as generating a collection of simple evidential mass functions. An evidential grid map that depicts the road can then be obtained, by projecting the classification results from RoadSeg into grid cells, and by handling moving objects via conflict analysis. The system was trained and evaluated on real-life data. A python implementation maintains a 10 Hz framerate. Since road labels were needed for training, a soft labelling procedure, relying lane-level HD maps, was used to generate coarse training and validation sets. An additional test set was manually labelled for evaluation purposes. So as to reach satisfactory results, the system fuses road detection results obtained from three variants of RoadSeg, processing different LIDAR features.
翻訳日:2021-02-08 14:38:30 公開日:2021-02-05
# (参考訳) 深層学習を用いた胸部腹部骨盤ctテキストレポートのマルチラベルアノテーション [全文訳有]

Multi-Label Annotation of Chest Abdomen Pelvis Computed Tomography Text Reports Using Deep Learning ( http://arxiv.org/abs/2102.02959v1 )

ライセンス: CC BY 4.0
Vincent M. D'Anniballe, Fakrul I. Tushar, Khrystyna Faryna, Songyue Han, Maciej A. Mazurowski, Geoffrey D. Rubin, Joseph Y. Lo(参考訳) さまざまな疾患、臓器、症例に適用可能な体電トモグラフィ(CT)レポート用の高スループットマルチラベルアノテーションを開発する。 まず,放射線学のテキストレポートから病気ラベルを抽出するためのルールベースアルゴリズム(RBA)を開発した。 対象は3つの臓器システム(lungs/pleura, liver/gallbladder, kidneys/ureters)で,各システムごとに4つの疾患を発症した。 事前に定義されたキーワードを超えてアルゴリズムを拡張するために、RBA抽出ラベルを用いて注意誘導型リカレントニューラルネットワーク(RNN)を訓練し、各臓器系に対して1つ以上の疾患や正常な報告を分類した。 トレーニングデータセットのサイズの違いに加えて,ランダムあるいは事前学習した組込みを用いて,モデル性能に対する基礎的効果を評価した。 曲線 (AUC) 下の受信機動作特性 (ROC) を手作業で取得した2,158個のラベルに対して評価した。 症例261,229例から112,501例の疾患ラベルを抽出した。 事前訓練されたモデルは、すべての病気にランダムに埋め込まれた。 トレーニングデータセットのサイズが小さくなるにつれて、比較的少ない症例の病気を除き、パフォーマンスは堅牢であった。 術前分類aucsは3つの臓器システムで5つの疾患の予後を0.95以上達成した。 ラベル抽出パイプラインは,厳格な規則を例外的精度で一般化することにより,さまざまな症例や疾患を包含することができた。 フレームワークとして、このモデルは、画像ベースの疾患分類器を訓練するための病院規模の医療データセットの自動ラベリングを可能にするように容易に適応することができる。

To develop a high throughput multi-label annotator for body Computed Tomography (CT) reports that can be applied to a variety of diseases, organs, and cases. First, we used a dictionary approach to develop a rule-based algorithm (RBA) for extraction of disease labels from radiology text reports. We targeted three organ systems (lungs/pleura, liver/gallbladder, kidneys/ureters) with four diseases per system based on their prevalence in our dataset. To expand the algorithm beyond pre-defined keywords, an attention-guided recurrent neural network (RNN) was trained using the RBA-extracted labels to classify the reports as being positive for one or more diseases or normal for each organ system. Confounding effects on model performance were evaluated using random or pre-trained embedding as well as different sizes of training datasets. Performance was evaluated using the receiver operating characteristic (ROC) area under the curve (AUC) against 2,158 manually obtained labels. Our model extracted disease labels from 261,229 radiology reports of 112,501 unique subjects. Pre-trained models outperformed random embedding across all diseases. As the training dataset size was reduced, performance was robust except for a few diseases with relatively small number of cases. Pre-trained Classification AUCs achieved > 0.95 for all five disease outcomes across all three organ systems. Our label-extracting pipeline was able to encompass a variety of cases and diseases by generalizing beyond strict rules with exceptional accuracy. As a framework, this model can be easily adapted to enable automated labeling of hospital-scale medical data sets for training image-based disease classifiers.
翻訳日:2021-02-08 14:37:39 公開日:2021-02-05
# (参考訳) PipeTransformer: 変圧器の分散トレーニングのための自動弾性パイプライン [全文訳有]

PipeTransformer: Automated Elastic Pipelining for Distributed Training of Transformers ( http://arxiv.org/abs/2102.03161v1 )

ライセンス: CC BY 4.0
Chaoyang He, Shen Li, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) Transformerのモデルのサイズは前例のないペースで成長している。 GPT-3 (175B) のリリースから1年足らずで1兆段階のパラメータに到達した。 このようなモデルのトレーニングには、膨大なエンジニアリング努力と膨大なコンピューティングリソースの両方が必要です。 本論文では,自動および弾性パイプライニングとデータ並列性を利用してトランスフォーマーモデルの効率的な分散トレーニングを行うPipeTransformerを提案する。 PipeTransformerは、トレーニング中にいくつかのレイヤを特定し凍結することで、パイプライニングとデータ並列性を自動的に調整し、残りのアクティブレイヤのトレーニングにリソースを割り当てる。 より具体的には、PipeTransformerはパイプラインから収束したレイヤを動的に排除し、アクティブなレイヤを少ないGPUにパックし、より多くのレプリカをフォークしてデータ並列幅を拡大する。 ImageNetのVision Transformer(ViT)とGLUEおよびSQuADデータセットのBERTを使用してPipeTransformerを評価します。 その結果、pipetransformerは最先端のベースラインと比較して2.4倍のスピードアップを達成した。 また,アルゴリズムやシステム設計をより包括的に理解するために,様々な性能解析を行う。 また,フリーズアルゴリズム,モデル定義,およびトレーニングアクセラレーションをクリーンに分離して,同様のフリーズ戦略を必要とする他のアルゴリズムにも適用可能な,pipetransformer用のフレキシブルapiもオープンソースとして開発した。

The size of Transformer models is growing at an unprecedented pace. It has only taken less than one year to reach trillion-level parameters after the release of GPT-3 (175B). Training such models requires both substantial engineering efforts and enormous computing resources, which are luxuries most research teams cannot afford. In this paper, we propose PipeTransformer, which leverages automated and elastic pipelining and data parallelism for efficient distributed training of Transformer models. PipeTransformer automatically adjusts the pipelining and data parallelism by identifying and freezing some layers during the training, and instead allocates resources for training of the remaining active layers. More specifically, PipeTransformer dynamically excludes converged layers from the pipeline, packs active layers into fewer GPUs, and forks more replicas to increase data-parallel width. We evaluate PipeTransformer using Vision Transformer (ViT) on ImageNet and BERT on GLUE and SQuAD datasets. Our results show that PipeTransformer attains a 2.4 fold speedup compared to the state-of-the-art baseline. We also provide various performance analyses for a more comprehensive understanding of our algorithmic and system-wise design. We also develop open-sourced flexible APIs for PipeTransformer, which offer a clean separation among the freeze algorithm, model definitions, and training accelerations, hence allowing it to be applied to other algorithms that require similar freezing strategies.
翻訳日:2021-02-08 14:25:17 公開日:2021-02-05
# (参考訳) レイヤワイド適応レートスケーリング(LARS)最適化を用いたシステムMLのディープラーニング評価 [全文訳有]

Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer ( http://arxiv.org/abs/2102.03018v1 )

ライセンス: CC0 1.0
Kanchan Chowdhury, Ankita Sharma and Arun Deepak Chandrasekar(参考訳) ディープラーニングモデルのバッチサイズを増加させることは、難しい課題です。 モデルのトレーニングフェーズで利用可能なシステムメモリをフル活用するのに役立つかもしれないが、ほとんどの場合、テスト精度が著しく低下する。 LARSはディープラーニングモデルの各層に対して適応学習率を導入することでこの問題を解決した。 しかし、SystemMLやMLlibのような分散機械学習システムが、このオプティマイザでどのように機能するかには疑問がある。 本研究では, LARSオプティマイザをSystemMLを用いて実装したディープラーニングモデルに適用し, 各種バッチサイズでの実験を行い, LARSオプティマイザの性能を \textit{Stochastic Gradient Descent} と比較した。 実験の結果,分散機械学習フレームワークであるSystemMLでも,LARSオプティマイザはStochastic Gradient Descentよりも大きなバッチサイズを実現していることがわかった。

Increasing the batch size of a deep learning model is a challenging task. Although it might help in utilizing full available system memory during training phase of a model, it results in significant loss of test accuracy most often. LARS solved this issue by introducing an adaptive learning rate for each layer of a deep learning model. However, there are doubts on how popular distributed machine learning systems such as SystemML or MLlib will perform with this optimizer. In this work, we apply LARS optimizer to a deep learning model implemented using SystemML.We perform experiments with various batch sizes and compare the performance of LARS optimizer with \textit{Stochastic Gradient Descent}. Our experimental results show that LARS optimizer performs significantly better than Stochastic Gradient Descent for large batch sizes even with the distributed machine learning framework, SystemML.
翻訳日:2021-02-08 14:07:26 公開日:2021-02-05
# 対向ロバストネスのための多変数ネットワークの学習

Learning Diverse-Structured Networks for Adversarial Robustness ( http://arxiv.org/abs/2102.01886v2 )

ライセンス: Link先を確認
Xuefeng Du, Jingfeng Zhang, Bo Han, Tongliang Liu, Yu Rong, Gang Niu, Junzhou Huang, Masashi Sugiyama(参考訳) 対戦型トレーニング(AT)では、モデルがあまり研究されていない間、客観性と最適化が主な焦点であり、使用しているモデルは標準トレーニング(ST)における古典的なモデルである。 古典的なネットワークアーキテクチャ(NA)は、STで検索されたNAよりも一般的に悪いです。 本稿では、データセットが与えられた場合、STにおける最適なNAはATにおいてもはや最適ではないため、NAとATは独立に処理できないと論じる。 とはいえ、ATは時間を要するので、大規模な検索空間上でATでNAを直接検索すると、計算は事実上不可能になります。 そこで我々は,低レベルな演算ではなく,原子ブロックが残留ブロックのような時間テストされたビルディングブロックであるような,事前定義された原子ブロックのみを考慮し,探索空間の規模を大幅に削減する多様構造ネットワーク(DS-Net)を提案する。 原子ブロックはごくわずかなので、検索されたDS-Netのブロックで最高のものを見つけるのではなく、すべての原子ブロックを重み付けることができます。 実験結果はDS-Netの利点、すなわち原子ブロックの重み付けを示す。

In adversarial training (AT), the main focus has been the objective and optimizer while the model has been less studied, so that the models being used are still those classic ones in standard training (ST). Classic network architectures (NAs) are generally worse than searched NAs in ST, which should be the same in AT. In this paper, we argue that NA and AT cannot be handled independently, since given a dataset, the optimal NA in ST would be no longer optimal in AT. That being said, AT is time-consuming itself; if we directly search NAs in AT over large search spaces, the computation will be practically infeasible. Thus, we propose a diverse-structured network (DS-Net), to significantly reduce the size of the search space: instead of low-level operations, we only consider predefined atomic blocks, where an atomic block is a time-tested building block like the residual block. There are only a few atomic blocks and thus we can weight all atomic blocks rather than find the best one in a searched block of DS-Net, which is an essential trade-off between exploring diverse structures and exploiting the best structures. Empirical results demonstrate the advantages of DS-Net, i.e., weighting the atomic blocks.
翻訳日:2021-02-08 13:06:02 公開日:2021-02-05
# 知的ロボティクスのための運動計画アルゴリズムのレビュー

A review of motion planning algorithms for intelligent robotics ( http://arxiv.org/abs/2102.02376v2 )

ライセンス: Link先を確認
Chengmin Zhou, Bingding Huang, Pasi Fr\"anti(参考訳) 典型的な運動計画アルゴリズムの原理を調査・分析します。 これには、従来の計画アルゴリズム、教師付き学習、最適値強化学習、ポリシー勾配強化学習が含まれる。 従来の計画アルゴリズムには,グラフ探索アルゴリズム,サンプリングベースアルゴリズム,補間曲線アルゴリズムなどがある。 教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。 最適値強化学習アルゴリズムには、Q学習、DQN、double DQN、DQNのデュエルがある。 ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。 解析比較による運動計画アルゴリズムの性能評価と適用を評価するための新たな一般基準も導入されている。 最適値とポリシー勾配アルゴリズムの収束速度と安定性を特別に分析する。 動作計画アルゴリズムの原理と解析比較に基づき,今後の方向性を解析的に提示する。 本稿では,ロボット工学におけるモーションプランニングアルゴリズムの長所,短所,関係,未来について,研究者に明確かつ包括的な理解を与え,より優れたモーションプランニングアルゴリズムを実現する方法を提案する。

We investigate and analyze principles of typical motion planning algorithms. These include traditional planning algorithms, supervised learning, optimal value reinforcement learning, policy gradient reinforcement learning. Traditional planning algorithms we investigated include graph search algorithms, sampling-based algorithms, and interpolating curve algorithms. Supervised learning algorithms include MSVM, LSTM, MCTS and CNN. Optimal value reinforcement learning algorithms include Q learning, DQN, double DQN, dueling DQN. Policy gradient algorithms include policy gradient method, actor-critic algorithm, A3C, A2C, DPG, DDPG, TRPO and PPO. New general criteria are also introduced to evaluate performance and application of motion planning algorithms by analytical comparisons. Convergence speed and stability of optimal value and policy gradient algorithms are specially analyzed. Future directions are presented analytically according to principles and analytical comparisons of motion planning algorithms. This paper provides researchers with a clear and comprehensive understanding about advantages, disadvantages, relationships, and future of motion planning algorithms in robotics, and paves ways for better motion planning algorithms.
翻訳日:2021-02-08 13:05:43 公開日:2021-02-05
# 原子システム導入のためのユニバーサルフレームワーク

A Universal Framework for Featurization of Atomistic Systems ( http://arxiv.org/abs/2102.02390v2 )

ライセンス: Link先を確認
Xiangyun Lei, Andrew J. Medford(参考訳) 分子動力学シミュレーションは、多くの科学分野で貴重なツールです。 しかし、ユビキタス古典力場は反応系を記述することができず、量子分子力学は大きな系や長い時間スケールを扱うのに計算的に要求されすぎる。 物理や機械学習に基づく反応力場は、時間と長さのスケールのギャップを埋めるために用いられるが、これらの力場は構築にかなりの労力を必要とし、与えられた化学組成や応用に非常に特有である。 機械学習モデルの極端な柔軟性は、化学結合のより一般的な記述を提供する反応力場を生み出すことを約束する。 しかし、機械学習モデルの顕著な制限は、要素固有の特徴の使用であり、要素の数に匹敵するスケールの悪いモデルに繋がる。 本研究は、原子周辺の電子密度の物理的関係の多極展開を利用して、要素タイプ間で補間され、存在元素数によらず固定次元を持つ特徴ベクトルを生成するガウス型多極(gmp)実現スキームを導入する。 GMPとニューラルネットワークを組み合わせることで、MD17データセットで広く使用されているBehler-Parinello対称関数と直接比較し、精度と計算効率が向上したことを明らかにしました。 さらに,GMPに基づくモデルではQM9データセットの化学的精度が得られ,新しい要素を外挿してもその精度は妥当であることを示す。 最後に、Open Catalysis Project (OCP)データセットのGMPベースのモデルをテストし、グラフ畳み込みディープラーニングモデルと比較して、同等のパフォーマンスと学習率の改善を明らかにした。 その結果, この破砕法は, 効率的かつ伝達可能な反応力場の構築において重要なギャップを埋めることが示唆された。

Molecular dynamics simulations are an invaluable tool in numerous scientific fields. However, the ubiquitous classical force fields cannot describe reactive systems, and quantum molecular dynamics are too computationally demanding to treat large systems or long timescales. Reactive force fields based on physics or machine learning can be used to bridge the gap in time and length scales, but these force fields require substantial effort to construct and are highly specific to given chemical composition and application. The extreme flexibility of machine learning models promises to yield reactive force fields that provide a more general description of chemical bonding. However, a significant limitation of machine learning models is the use of element-specific features, leading to models that scale poorly with the number of elements. This work introduces the Gaussian multi-pole (GMP) featurization scheme that utilizes physically-relevant multi-pole expansions of the electron density around atoms to yield feature vectors that interpolate between element types and have a fixed dimension regardless of the number of elements present. We combine GMP with neural networks to directly compare it to the widely-used Behler-Parinello symmetry functions for the MD17 dataset, revealing that it exhibits improved accuracy and computational efficiency. Further, we demonstrate that GMP-based models can achieve chemical accuracy for the QM9 dataset, and their accuracy remains reasonable even when extrapolating to new elements. Finally, we test GMP-based models for the Open Catalysis Project (OCP) dataset, revealing comparable performance and improved learning rates when compared to graph convolutional deep learning models. The results indicate that this featurization scheme fills a critical gap in the construction of efficient and transferable reactive force fields.
翻訳日:2021-02-08 13:05:26 公開日:2021-02-05
# リコメンダシステムのためのデュアルエンベディングに基づくニューラルコラボレーティブフィルタリング

Dual-embedding based Neural Collaborative Filtering for Recommender Systems ( http://arxiv.org/abs/2102.02549v2 )

ライセンス: Link先を確認
Gongshan He, Dongxing Zhao, Lixin Ding(参考訳) 様々な推奨技術の中で、協調フィルタリング(CF)が最も成功しています。 そしてCFの重要な問題は、ユーザとアイテムの表現方法だ。 以前の作品は通常、ユーザ(アイテム)を潜在要因(別名)のベクトルとして表現する。 次に、表現に基づいてユーザとアイテム間のインタラクションをモデル化します。 その効果にもかかわらず、協調フィルタリングのための十分な埋め込みを得るには不十分であると主張する。 SVD++のアイデアにインスパイアされ、ユーザ自身と相互作用したアイテムに基づいて、DNCFという、Dual-embeddingベースのニューラルネットワーク協調フィルタリングの略である一般的な協調フィルタリングフレームワークを提案します。 ユーザ(アイテム)に対するプリミティブな埋め込みの学習に加えて,インタラクションされたアイテム(ユーザ)の観点から追加的な埋め込みを導入し,ユーザ(item)表現を拡大する。 提案したDNCFフレームワークの有効性を,従来の行列因数分解モデルや他の最先端のディープラーニングベースレコメンデータモデルと比較することにより,4つの公開データセットに対する大規模な実験により実証した。

Among various recommender techniques, collaborative filtering (CF) is the most successful one. And a key problem in CF is how to represent users and items. Previous works usually represent a user (an item) as a vector of latent factors (aka. \textit{embedding}) and then model the interactions between users and items based on the representations. Despite its effectiveness, we argue that it's insufficient to yield satisfactory embeddings for collaborative filtering. Inspired by the idea of SVD++ that represents users based on themselves and their interacted items, we propose a general collaborative filtering framework named DNCF, short for Dual-embedding based Neural Collaborative Filtering, to utilize historical interactions to enhance the representation. In addition to learning the primitive embedding for a user (an item), we introduce an additional embedding from the perspective of the interacted items (users) to augment the user (item) representation. Extensive experiments on four publicly datasets demonstrated the effectiveness of our proposed DNCF framework by comparing its performance with several traditional matrix factorization models and other state-of-the-art deep learning based recommender models.
翻訳日:2021-02-08 13:04:55 公開日:2021-02-05
# 指数関数型リンクネットワークに基づくロバスト適応フィルタリング

Robust Adaptive Filtering Based on Exponential Functional Link Network ( http://arxiv.org/abs/2102.02952v1 )

ライセンス: Link先を確認
T. Yu, W. Li, Y. Yu and R. C. de Lamare(参考訳) 近年,指数関数リンクネットワーク (EFLN) が非線形フィルタリングに適用されている。 EFLN-ISR(EFLN-ISR)アルゴリズムと呼ばれる新しい逆角根(ISR)コスト関数に基づく適応型EFLNフィルタリングアルゴリズムを提案する。 EFLN-ISRの定常特性は厳密に導出され、数値シミュレーションにより確認される。 さらに,本アルゴリズムの有効性は,実験結果によって検証され,ヒステリック非線形システム同定への応用が期待できる。

The exponential functional link network (EFLN) has been recently investigated and applied to nonlinear filtering. This brief proposes an adaptive EFLN filtering algorithm based on a novel inverse square root (ISR) cost function, called the EFLN-ISR algorithm, whose learning capability is robust under impulsive interference. The steady-state performance of EFLN-ISR is rigorously derived and then confirmed by numerical simulations. Moreover, the validity of the proposed EFLN-ISR algorithm is justified by the actually experimental results with the application to hysteretic nonlinear system identification.
翻訳日:2021-02-08 13:03:56 公開日:2021-02-05
# 表示, 注意, 蒸留:注意に基づく特徴マッチングによる知識蒸留

Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching ( http://arxiv.org/abs/2102.02973v1 )

ライセンス: Link先を確認
Mingi Ji, Byeongho Heo, Sungrae Park(参考訳) 知識蒸留は,教員ネットワークから一般知識を抽出し,対象学生ネットワークへのガイダンスを提供する。 ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。 しかし、手動選択はしばしば蒸留による改善を制限する効果のないリンクを構築する。 この問題に対処する試みはあったが、実用的なシナリオで効果的なリンクを特定することは依然として困難である。 本論文では,教師の全ての特徴レベルを手作業で選択することなく有効かつ効率的な特徴抽出法を提案する。 具体的には,特徴間の相対的類似性を学習し,同一の類似性を適用して,可能な全対の蒸留強度を制御する。 その結果,本手法は従来手法よりも有能なリンクを効率的に決定し,モデル圧縮および転送学習タスクのパフォーマンスを向上する。 さらなる定性分析とアブレーション研究は、私たちの方法がより良い蒸留にどのように貢献するかを説明します。 実装コードはgithub.com/clovaai/a ttention-feature-dis tillationで入手できる。

Knowledge distillation extracts general knowledge from a pre-trained teacher network and provides guidance to a target student network. Most studies manually tie intermediate features of the teacher and student, and transfer knowledge through pre-defined links. However, manual selection often constructs ineffective links that limit the improvement from the distillation. There has been an attempt to address the problem, but it is still challenging to identify effective links under practical scenarios. In this paper, we introduce an effective and efficient feature distillation method utilizing all the feature levels of the teacher without manually selecting the links. Specifically, our method utilizes an attention-based meta-network that learns relative similarities between features, and applies identified similarities to control distillation intensities of all possible pairs. As a result, our method determines competent links more efficiently than the previous approach and provides better performance on model compression and transfer learning tasks. Further qualitative analyses and ablative studies describe how our method contributes to better distillation. The implementation code is available at github.com/clovaai/a ttention-feature-dis tillation.
翻訳日:2021-02-08 13:03:49 公開日:2021-02-05
# 高次元Wasserstein測地学を学ぶ

Learning High DimensionalWasserste in Geodesics ( http://arxiv.org/abs/2102.02992v1 )

ライセンス: Link先を確認
Shu Liu, Shaojun Ma, Yongxin Chen, Hongyuan Zha, Haomin Zhou(参考訳) 2つの確率分布を高次元で計算するための新しい定式化と学習戦略を提案する。 最適輸送(OT)問題の動的定式化にラグランジュ乗算器の手法を適用することにより、サドル点がWasserstein測地線であるミニマックス問題を導出する。 次に,深層ニューラルネットワークを用いて関数をパラメトリ化し,学習のためのサンプルベース双方向学習アルゴリズムを設計する。 訓練されたネットワークは、Wasserstein測地線からのサンプリングを可能にします。 副生成物として、アルゴリズムはワッサーシュタイン距離と限界分布間のOTマップも計算する。 合成データとリアルデータの両方を用いた一連の実験により、アルゴリズムの性能を実証します。

We propose a new formulation and learning strategy for computing the Wasserstein geodesic between two probability distributions in high dimensions. By applying the method of Lagrange multipliers to the dynamic formulation of the optimal transport (OT) problem, we derive a minimax problem whose saddle point is the Wasserstein geodesic. We then parametrize the functions by deep neural networks and design a sample based bidirectional learning algorithm for training. The trained networks enable sampling from the Wasserstein geodesic. As by-products, the algorithm also computes the Wasserstein distance and OT map between the marginal distributions. We demonstrate the performance of our algorithms through a series of experiments with both synthetic and realistic data.
翻訳日:2021-02-08 13:03:34 公開日:2021-02-05
# マルチオミクスデータ統合のための変分的情報ボトルネックアプローチ

A Variational Information Bottleneck Approach to Multi-Omics Data Integration ( http://arxiv.org/abs/2102.03014v1 )

ライセンス: Link先を確認
Changhee Lee and Mihaela van der Schaar(参考訳) バイオメディカル研究において,複数のオミクス技術からのデータの統合がますます重要になっている。 オミクスプラットフォームにおける不均一性や技術的制限のため、複数のオミクスに関する統合的分析は、様々なビューロスパターンによる不完全な観察から学習する。 i)観察されたビュー内の複雑な相互作用を最適な予測力のために適切に対処する必要があること、(ii)さまざまなビューミスパターンを持つ観察を柔軟に統合する必要があるため、これは困難です。 このような課題に対処するため、不完全なマルチビュー観察のための深い変動情報ボトルネック(IB)アプローチを提案します。 本手法は、観察されたビューの限界および共同表現にIBフレームワークを適用し、ターゲットに関連するイントラビューおよびインタービューインタラクションに焦点を当てる。 最も重要なことは、共同表現を限界表現の積としてモデル化することで、さまざまなビューミスパターンで観察されたビューから効率的に学習できるということです。 実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。

Integration of data from multiple omics techniques is becoming increasingly important in biomedical research. Due to non-uniformity and technical limitations in omics platforms, such integrative analyses on multiple omics, which we refer to as views, involve learning from incomplete observations with various view-missing patterns. This is challenging because i) complex interactions within and across observed views need to be properly addressed for optimal predictive power and ii) observations with various view-missing patterns need to be flexibly integrated. To address such challenges, we propose a deep variational information bottleneck (IB) approach for incomplete multi-view observations. Our method applies the IB framework on marginal and joint representations of the observed views to focus on intra-view and inter-view interactions that are relevant for the target. Most importantly, by modeling the joint representations as a product of marginal representations, we can efficiently learn from observed views with various view-missing patterns. Experiments on real-world datasets show that our method consistently achieves gain from data integration and outperforms state-of-the-art benchmarks.
翻訳日:2021-02-08 13:03:23 公開日:2021-02-05
# Boost AI Power: 乱れのないデータとコンフォーマル予測によるデータ拡張戦略 - 電子ノイズによる代替医療の差別の場合

Boost AI Power: Data Augmentation Strategies with unlabelled Data and Conformal Prediction, a Case in Alternative Herbal Medicine Discrimination with Electronic Nose ( http://arxiv.org/abs/2102.03088v1 )

ライセンス: Link先を確認
Li Liu, Xianghao Zhan, Rumeng Wu, Xiaoqing Guan, Zhan Wang, Wei Zhang, You Wang, Zhiyuan Luo, Guang Li(参考訳) 電子鼻は、代替薬の分類において有効性が証明されるが、教師付き学習の性質から、従来の研究はラベル付きトレーニングデータに依存している。 本研究は,実世界の応用におけるトレーニングデータの不十分さを考慮し,データ拡張戦略による分類精度の向上を目的とする。 学習データの不適切な状況下での5つのデータ拡張戦略の有効性を検討するために,2つのシナリオを刺激した。ノイズのないシナリオでは,ラベルなしデータの異なる可用性をシミュレートし,ノイズシナリオではガウス雑音と翻訳シフトの異なるレベルを同調したセンサドリフトを付加した。 拡張戦略:ノイズ付加データ強化,半教師付き学習,分類器に基づくオンライン学習,帰納的共形予測(icp)オンラインラーニング,新しいアンサンブルicpオンラインラーニングを教師付き学習ベースラインと比較し,線形判別分析(lda)とサポートベクターマシン(svm)を分類器とした。 少なくとも1つの戦略がLDA(p<=0.05)による分類精度を有意に向上させ、各タスクにおいてSVMによる非減少分類精度を示した。 さらに、ICPオンライン学習のアンサンブルは、全てのタスクにおいて非遅延的な分類精度を示し、ほとんどのタスク(25/36タスク、p<=0.05)において顕著に改善した。 本研究では,拡張戦略を体系的に分析し,特定の状況下での推奨戦略をユーザに提供する。 さらに,本提案手法は,他の機械学習アプリケーションにも適用可能な分類モデルの一般化性向上の両立と堅牢性を示した。

Electronic nose proves its effectiveness in alternativeherbal medicine classification, but due to the supervised learn-ing nature, previous research relies on the labelled training data,which are time-costly and labor-intensive to collect. Consideringthe training data inadequacy in real-world applications, this studyaims to improve classification accuracy via data augmentationstrategi es. We stimulated two scenarios to investigate the effective-ness of five data augmentation strategies under different trainingdata inadequacy: in the noise-free scenario, different availability ofunlabelled data were simulated, and in the noisy scenario, differentlevels of Gaussian noises and translational shifts were added tosimulate sensor drifts. The augmentation strategies: noise-addingdata augmentation, semi-supervised learning, classifier-based online learning, inductive conformal prediction (ICP) onlinelearning and the novel ensemble ICP online learning proposed in this study, were compared against supervised learningbaseline, with Linear Discriminant Analysis (LDA) and Support Vector Machine (SVM) as the classifiers. We found thatat least one strategies significantly improved the classification accuracy with LDA(p<=0.05) and showed non-decreasingclassi fication accuracy with SVM in each tasks. Moreover, our novel strategy: ensemble ICP online learning outperformedthe others by showing non-decreasing classification accuracy on all tasks and significant improvement on most tasks(25/36 tasks,p<=0.05). This study provides a systematic analysis over augmentation strategies, and we provided userswith recommended strategies under specific circumstances. Furthermore, our newly proposed strategy showed botheffectiveness and robustness in boosting the classification model generalizability, which can also be further employed inother machine learning applications.
翻訳日:2021-02-08 13:03:04 公開日:2021-02-05
# DeepReduce:分散ディープラーニングのためのスパーステンソル通信フレームワーク

DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep Learning ( http://arxiv.org/abs/2102.03112v1 )

ライセンス: Link先を確認
Kelly Kostopoulou, Hang Xu, Aritra Dutta, Xin Li, Alexandros Ntoulas, Panos Kalnis(参考訳) スパーステンソルは、ディープニューラルネットワークの勾配の直接的なアーティファクトとして、あるいは明示的なスパース化プロセスの結果として、分散ディープラーニングで頻繁に現れる。 既存のコミュニケーションプリミティブは、ディープラーニングの特異性に依存しないため、不要な通信オーバーヘッドを課す。 本稿では,分散ディープラーニングに適したスパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。 DeepReduceは2つの集合、値とインデックスでスパーステンソルを分解し、これらの集合の独立圧縮と結合圧縮を可能にする。 我々は、値のdeflateやインデックスのrun-lengthエンコーディングなど、様々な共通圧縮器をサポートしている。 また,値の曲線フィッティングベースとインデックスのブルームフィルタベースの2つの新しい圧縮方式を提案する。 DeepReduceは、既存の勾配スペーサーと直交しており、それらをエンドユーザーに透過的に適用することで、通信オーバーヘッドを大幅に低減することができる。 概念実証として,Tensorflow と PyTorch のアプローチを実装した。 大規模実モデルを用いた実験により、deepreduceは既存の方法よりも少ないデータ転送と計算オーバーヘッドを課し、トレーニング精度に影響を及ぼさないことを示した。

Sparse tensors appear frequently in distributed deep learning, either as a direct artifact of the deep neural network's gradients, or as a result of an explicit sparsification process. Existing communication primitives are agnostic to the peculiarities of deep learning; consequently, they impose unnecessary communication overhead. This paper introduces DeepReduce, a versatile framework for the compressed communication of sparse tensors, tailored for distributed deep learning. DeepReduce decomposes sparse tensors in two sets, values and indices, and allows both independent and combined compression of these sets. We support a variety of common compressors, such as Deflate for values, or run-length encoding for indices. We also propose two novel compression schemes that achieve superior results: curve fitting-based for values and bloom filter-based for indices. DeepReduce is orthogonal to existing gradient sparsifiers and can be applied in conjunction with them, transparently to the end-user, to significantly lower the communication overhead. As proof of concept, we implement our approach on Tensorflow and PyTorch. Our experiments with large real models demonstrate that DeepReduce transmits fewer data and imposes lower computational overhead than existing methods, without affecting the training accuracy.
翻訳日:2021-02-08 13:02:30 公開日:2021-02-05
# グラフジョイントアテンションネットワーク

Graph Joint Attention Networks ( http://arxiv.org/abs/2102.03147v1 )

ライセンス: Link先を確認
Tiantian He, Lu Bai, Yew-Soon Ong(参考訳) グラフの注意ネットワーク(GAT)は、グラフ構造データで学習するための強力なツールとして認識されています。 しかし,GATの注意機構が構造情報と特徴情報の両方を円滑に考慮する方法については,いまだに非常に難しい。 本論文では,上記の課題に対処するために,JAT(Graph Joint Attention Networks)を提案する。 従来のアテンションベースグラフニューラルネットワーク(gnns)とは異なり、jatsはアテンションスコアを計算する際に、ノードの特徴とグラフトポロジーから学習した構造係数の相対的重要性を自動的に決定できる新しいアテンション機構を採用している。 したがって、より構造的な性質に関する表現は、JATによって推測できる。 さらに,JATの表現力を理論的に分析し,JATがすべてのメッセージパスGNNが最終的に達成できる上界の表現力,すなわち1-WLテストに到達できるような共同注意機構の改善戦略を提案する。 これにより、JATは最も強力なメッセージパッシングGNNと見なすことができる。 提案されたニューラルネットワークアーキテクチャは、広く使用されているベンチマークデータセット上で広くテストされており、さまざまな下流予測タスクの最先端のGNNと比較されている。 実験の結果、JATはすべてのテストデータセットで最先端のパフォーマンスを達成することがわかった。

Graph attention networks (GATs) have been recognized as powerful tools for learning in graph structured data. However, how to enable the attention mechanisms in GATs to smoothly consider both structural and feature information is still very challenging. In this paper, we propose Graph Joint Attention Networks (JATs) to address the aforementioned challenge. Different from previous attention-based graph neural networks (GNNs), JATs adopt novel joint attention mechanisms which can automatically determine the relative significance between node features and structural coefficients learned from graph topology, when computing the attention scores. Therefore, representations concerning more structural properties can be inferred by JATs. Besides, we theoretically analyze the expressive power of JATs and further propose an improved strategy for the joint attention mechanisms that enables JATs to reach the upper bound of expressive power which every message-passing GNN can ultimately achieve, i.e., 1-WL test. JATs can thereby be seen as most powerful message-passing GNNs. The proposed neural architecture has been extensively tested on widely used benchmarking datasets, and has been compared with state-of-the-art GNNs for various downstream predictive tasks. Experimental results show that JATs achieve state-of-the-art performance on all the testing datasets.
翻訳日:2021-02-08 13:02:07 公開日:2021-02-05
# 変分オートエンコーダにおけるアモルティゼーションギャップの低減:ベイズランダム関数アプローチ

Reducing the Amortization Gap in Variational Autoencoders: A Bayesian Random Function Approach ( http://arxiv.org/abs/2102.03151v1 )

ライセンス: Link先を確認
Minyoung Kim, Vladimir Pavlovic(参考訳) 可変オートエンコーダ(VAE)は、キー要素がいわゆる償却推論ネットワークである非常に成功した生成モデルであり、単一のフィードフォワードパスを使用してテスト時間推論を実行できます。 残念なことに、これは後続近似の分解精度のコストがかかり、しばしばインスタンス単位の変分最適化を過小評価する。 最新の半修正アプローチは、VAEの償却推論出力から始まるいくつかの変分最適化の更新によって問題を緩和するが、それらは本質的に、テスト時の推論の計算オーバーヘッドに悩まされている。 本稿では,変分後部の平均および分散関数をランダムガウス過程(GP)としてモデル化するランダム推論モデルを考えることにより,問題を完全に異なる方法で解決する。 本研究の動機は,VAEの再生後分布と真の後部分布とのずれをランダムノイズとみなすことができ,原理的に後部近似の不確かさを考慮できる点にある。 特に、我々のモデルはガウス変分密度による後部近似の難しさを定量化することができる。 GPモデルの推論は、セミアモタイズ法よりもはるかに高速な1つのフィードフォワードパスによって行われる。 提案手法は,複数のベンチマークデータセットの最先端データよりも高い確率でテストデータが得られることを示す。

Variational autoencoder (VAE) is a very successful generative model whose key element is the so called amortized inference network, which can perform test time inference using a single feed forward pass. Unfortunately, this comes at the cost of degraded accuracy in posterior approximation, often underperforming the instance-wise variational optimization. Although the latest semi-amortized approaches mitigate the issue by performing a few variational optimization updates starting from the VAE's amortized inference output, they inherently suffer from computational overhead for inference at test time. In this paper, we address the problem in a completely different way by considering a random inference model, where we model the mean and variance functions of the variational posterior as random Gaussian processes (GP). The motivation is that the deviation of the VAE's amortized posterior distribution from the true posterior can be regarded as random noise, which allows us to take into account the uncertainty in posterior approximation in a principled manner. In particular, our model can quantify the difficulty in posterior approximation by a Gaussian variational density. Inference in our GP model is done by a single feed forward pass through the network, significantly faster than semi-amortized methods. We show that our approach attains higher test data likelihood than the state-of-the-arts on several benchmark datasets.
翻訳日:2021-02-08 13:01:48 公開日:2021-02-05
# 多目的競合RLの効率的なアルゴリズム

Provably Efficient Algorithms for Multi-Objective Competitive RL ( http://arxiv.org/abs/2102.03192v1 )

ライセンス: Link先を確認
Tiancheng Yu, Yi Tian, Jingzhao Zhang, Suvrit Sra(参考訳) エージェントの報酬をベクトルとして表現するマルチオブジェクティブ強化学習(RL)について検討する。 エージェントが相手と競合する設定では、そのパフォーマンスは、その平均戻りベクトルとターゲットセットの距離によって測定されます。 統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。 我々の結果はブラックウェルのアプローチ可能性定理(blackwell, 1956)を、戦略的探索が必須となる表式rlに拡張した。 アルゴリズムは適応的であり、その保証はブラックウェルのアプローチ可能性条件なしに保たれる。 対戦相手が固定ポリシーを使用する場合、目標セットに接近する割合が向上し、同時にスカラーコスト関数を最小化するというより野心的な目標にも取り組みます。 本稿では,この特殊な場合について,制約付きrlに関する先行研究と結果を関連づけて解析を行う。 我々の知る限り、この研究はベクトル値のマルコフゲームに対する最初の証明可能な効率的なアルゴリズムを提供し、理論上の保証はほぼ最適である。

We study multi-objective reinforcement learning (RL) where an agent's reward is represented as a vector. In settings where an agent competes against opponents, its performance is measured by the distance of its average return vector to a target set. We develop statistically and computationally efficient algorithms to approach the associated target set. Our results extend Blackwell's approachability theorem (Blackwell, 1956) to tabular RL, where strategic exploration becomes essential. The algorithms presented are adaptive; their guarantees hold even without Blackwell's approachability condition. If the opponents use fixed policies, we give an improved rate of approaching the target set while also tackling the more ambitious goal of simultaneously minimizing a scalar cost function. We discuss our analysis for this special case by relating our results to previous works on constrained RL. To our knowledge, this work provides the first provably efficient algorithms for vector-valued Markov games and our theoretical guarantees are near-optimal.
翻訳日:2021-02-08 13:01:26 公開日:2021-02-05
# Revisiting Prioritized Experience Replay: 価値の視点

Revisiting Prioritized Experience Replay: A Value Perspective ( http://arxiv.org/abs/2102.03261v1 )

ライセンス: Link先を確認
Ang A. Li, Zongqing Lu, Chenglin Miao(参考訳) experience replayは、オフ・ポリシー強化学習(rl)エージェントが過去の経験を利用して累積報酬を最大化することができる。 時間差誤差($|\text{TD}|$)の大きさで経験を量る優先体験リプレイは、学習効率を大幅に改善します。 しかし、いかに$|\text{td}|$が経験の重要性と関係しているかは、よく分かっていない。 我々は経済的な観点から、経験値に$|\text{td}|$をリンクすることでこの問題に対処し、経験にアクセスすることで累積報酬に付加する値として定義される。 理論的には、経験値のメトリクスは、q-learningの$|\text{td}|$で上限されている。 さらに, ソフトq-ラーニングにおけるこれらの価値指標の下限と上限を導出することにより, 理論的な枠組みを最大エントロピーrlに拡張し, 経験の「|\text{td}|$」および「オン・ポリシネス」の積となった。 私たちのフレームワークはRLの2つの重要な数量をリンクします:$|\text{TD}|$と経験値。 また,アタリゲームにおける最大エントロピーrlの優先度が向上し,オーバーバウンドを用いたリプレイを経験できることを実証的に示す。

Experience replay enables off-policy reinforcement learning (RL) agents to utilize past experiences to maximize the cumulative reward. Prioritized experience replay that weighs experiences by the magnitude of their temporal-difference error ($|\text{TD}|$) significantly improves the learning efficiency. But how $|\text{TD}|$ is related to the importance of experience is not well understood. We address this problem from an economic perspective, by linking $|\text{TD}|$ to value of experience, which is defined as the value added to the cumulative reward by accessing the experience. We theoretically show the value metrics of experience are upper-bounded by $|\text{TD}|$ for Q-learning. Furthermore, we successfully extend our theoretical framework to maximum-entropy RL by deriving the lower and upper bounds of these value metrics for soft Q-learning, which turn out to be the product of $|\text{TD}|$ and "on-policyness" of the experiences. Our framework links two important quantities in RL: $|\text{TD}|$ and value of experience. We empirically show that the bounds hold in practice, and experience replay using the upper bound as priority improves maximum-entropy RL in Atari games.
翻訳日:2021-02-08 13:01:13 公開日:2021-02-05
# 勾配調整報酬を用いたループ内メタラーニング

In-Loop Meta-Learning with Gradient-Alignment Reward ( http://arxiv.org/abs/2102.03275v1 )

ライセンス: Link先を確認
Samuel M\"uller, Andr\'e Biedenkapp, Frank Hutter(参考訳) 標準のディープラーニングトレーニングループの中心は、与えられた損失を最小限に抑える、欲深い勾配ステップである。 トレーニングの一般化を最大化する第2のステップを加えることを提案する。 これを行うには、次のトレーニングステップの損失を最適化します。 この勾配の計算は一般的に非常に高価であり、多くの興味深いアプリケーションが微分不能なパラメータ(例えば)を考慮している。 ハードサンプルによる)、我々は最適化を導くことができる安価でメモリ節約の報酬、グラデーションアライメント報酬(GAR)を提示します。 この報酬をモデルトレーニング中に複数のディストリビューションを最適化するために使用します。 まず、GARの応用として、小規模設定で複数のデータセット分割の混合としてデータ分布を選択することを提案する。 第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。

At the heart of the standard deep learning training loop is a greedy gradient step minimizing a given loss. We propose to add a second step to maximize training generalization. To do this, we optimize the loss of the next training step. While computing the gradient for this generally is very expensive and many interesting applications consider non-differentiable parameters (e.g. due to hard samples), we present a cheap-to-compute and memory-saving reward, the gradient-alignment reward (GAR), that can guide the optimization. We use this reward to optimize multiple distributions during model training. First, we present the application of GAR to choosing the data distribution as a mixture of multiple dataset splits in a small scale setting. Second, we show that it can successfully guide learning augmentation strategies competitive with state-of-the-art augmentation strategies on CIFAR-10 and CIFAR-100.
翻訳日:2021-02-08 13:00:50 公開日:2021-02-05
# ニューラルネットワーク予測の再現性について

On the Reproducibility of Neural Network Predictions ( http://arxiv.org/abs/2102.03349v1 )

ライセンス: Link先を確認
Srinadh Bhojanapalli, Kimberly Wilber, Andreas Veit, Ankit Singh Rawat, Seungyeon Kim, Aditya Menon, Sanjiv Kumar(参考訳) ニューラルネットワークの標準的なトレーニング技術には、初期化、ミニバッチ順序付け、場合によってはデータ拡張など、複数のランダム性ソースが含まれる。 ニューラルネットワークが実際には過度にパラメータ化されていることを考えると、そのようなランダム性は"em churn} -- 同じ入力に対して、同じアルゴリズムで独立にトレーニングされた2つのモデルの予測の不一致を引き起こす可能性がある。 本稿では,このチャーン問題について検討し,その原因となる因子を同定し,緩和する2つの簡単な方法を提案する。 まず、標準的な画像分類タスク(CIFARとImageNet)であっても、チャーンが確かに問題であることを示し、チャーンの原因となる異なる訓練ランダム性源の役割を研究します。 チャーンと予測信頼度の関係を解析することにより、チャーン低減のための2つの成分を用いたアプローチを追求する。 まず,予測信頼度を高めるために \emph{minimum entropy regularizers} を提案する。 第2に, モデル合意を増加させチャーンを減少させるために, 共蒸留アプローチの新たな変種を提示する。 両手法の有効性を実証的に示し, 基礎モデルの精度を向上しながら, チャーン低減効果を示す。

Standard training techniques for neural networks involve multiple sources of randomness, e.g., initialization, mini-batch ordering and in some cases data augmentation. Given that neural networks are heavily over-parameterized in practice, such randomness can cause {\em churn} -- for the same input, disagreements between predictions of the two models independently trained by the same algorithm, contributing to the `reproducibility challenges' in modern machine learning. In this paper, we study this problem of churn, identify factors that cause it, and propose two simple means of mitigating it. We first demonstrate that churn is indeed an issue, even for standard image classification tasks (CIFAR and ImageNet), and study the role of the different sources of training randomness that cause churn. By analyzing the relationship between churn and prediction confidences, we pursue an approach with two components for churn reduction. First, we propose using \emph{minimum entropy regularizers} to increase prediction confidences. Second, \changes{we present a novel variant of co-distillation approach~\citep{anil2018large} to increase model agreement and reduce churn}. We present empirical results showing the effectiveness of both techniques in reducing churn while improving the accuracy of the underlying model.
翻訳日:2021-02-08 13:00:37 公開日:2021-02-05
# インクリメンタル学習によるDNNベースのビデオ分析のためのサーバレスクラウドフォグプラットフォーム

A Serverless Cloud-Fog Platform for DNN-Based Video Analytics with Incremental Learning ( http://arxiv.org/abs/2102.03012v1 )

ライセンス: Link先を確認
Huaizheng Zhang, Meng Shen, Yizheng Huang, Yonggang Wen, Yong Luo, Guanyu Gao, Kyle Guan(参考訳) DNNベースのビデオ分析は、多くの新しいアプリケーション(例えば自動小売)に力を与えた。 一方、fogデバイスの普及により、開発者はパフォーマンスを改善し、コストを削減できる設計オプションが増えた。 我々の知る限りでは、クライアント-フォグクラウドのシナジーを最大限に活用し、DNNベースのビデオ分析に役立てる最初のサーバーレスシステムを示す。 具体的には, 1) クライアント, フォグ, クラウド環境に展開する計算資源と帯域幅を定量的に管理することにより, 帯域幅の制限下での最適分析結果と, ラウンドトリップ時間(RTT)の短縮という2つの目標を達成することを目的とする。 2) DNNデプロイメント,クラウド,フォグのリソース管理など,面倒な管理タスクや運用タスクを無償で実施する。 この目的のために,VPaaS(Video-Platfor m-as-a-Service)と呼ばれる総合的なクラウドファグシステムを実装した。 VPaaSはサーバレスコンピューティングを採用しており、開発者が一連の関数(例えばモデル推論)をプログラムするだけでビデオ分析パイプラインを構築することができる。 帯域幅を節約し、RTTを削減するため、VPaaSは低品質のビデオのみをクラウドに送信する新しいビデオストリーミングプロトコルを提供する。 クラウドにデプロイされる最新技術(SOTA)DNNは、霧の端でさらなる処理を必要とするビデオフレームの領域を特定することができる。 霧の終わりには、これらの領域の誤識別ラベルを軽量DNNモデルを用いて修正することができる。 データドリフト問題に対処するため、システムに限られたフィードバックを組み込んで結果を検証し、漸進的な学習を採用し、システムの改善を継続的に進める。 この評価は、VPaaSが複数のSOTAシステムよりも優れていることを示している: 帯域幅を最大21%削減し、RTTを最大62.5%削減し、クラウドの金融コストを最大50%削減する。

DNN-based video analytics have empowered many new applications (e.g., automated retail). Meanwhile, the proliferation of fog devices provides developers with more design options to improve performance and save cost. To the best of our knowledge, this paper presents the first serverless system that takes full advantage of the client-fog-cloud synergy to better serve the DNN-based video analytics. Specifically, the system aims to achieve two goals: 1) Provide the optimal analytics results under the constraints of lower bandwidth usage and shorter round-trip time (RTT) by judiciously managing the computational and bandwidth resources deployed in the client, fog, and cloud environment. 2) Free developers from tedious administration and operation tasks, including DNN deployment, cloud and fog's resource management. To this end, we implement a holistic cloud-fog system referred to as VPaaS (Video-Platform-as-a -Service). VPaaS adopts serverless computing to enable developers to build a video analytics pipeline by simply programming a set of functions (e.g., model inference), which are then orchestrated to process videos through carefully designed modules. To save bandwidth and reduce RTT, VPaaS provides a new video streaming protocol that only sends low-quality video to the cloud. The state-of-the-art (SOTA) DNNs deployed at the cloud can identify regions of video frames that need further processing at the fog ends. At the fog ends, misidentified labels in these regions can be corrected using a light-weight DNN model. To address the data drift issues, we incorporate limited human feedback into the system to verify the results and adopt incremental learning to improve our system continuously. The evaluation demonstrates that VPaaS is superior to several SOTA systems: it maintains high accuracy while reducing bandwidth usage by up to 21%, RTT by up to 62.5%, and cloud monetary cost by up to 50%.
翻訳日:2021-02-08 12:59:47 公開日:2021-02-05
# 経験に基づくヒューリスティック検索 : 深層Q-Learningによるロバストモーション計画

Experience-Based Heuristic Search: Robust Motion Planning with Deep Q-Learning ( http://arxiv.org/abs/2102.03127v1 )

ライセンス: Link先を確認
Julian Bernhard, Robert Gieselmann, Klemens Esterle and Alois Knoll(参考訳) 自律運転のための対話型計画には、従来の探索型または最適化型モーションプランナーを使用する場合、組合せ型ソリューション空間の探索が必要である。 深層強化学習(Deep Reinforcement Learning)では,高次元問題にも最適な運転戦略が導出できる。 しかし、これらの方法は、結果のポリシーの最適性を統計的にのみ保証し、自動運転車などの安全クリティカルなシステムの使用を妨げます。 そこで我々は,深層強化学習に基づくプランナの統計的失敗率を克服し,事前学習した最適ポリシーから計算的に恩恵を受ける経験ベースヒューリスティック探索アルゴリズムを提案する。 具体的には、Deep Q-Networkの形式での経験をヒューリスティックな検索アルゴリズムに統合する方法について述べる。 半構造化valet駐車シナリオにおける経路計画の分野でのアルゴリズムのベンチマークを行った。 そこで、これらの推定の精度を分析し、計算上の利点と手法の堅牢性を実証する。 本手法は、自動運転分野における強化学習型計画の適用可能性のさらなる検討を促す可能性がある。

Interaction-aware planning for autonomous driving requires an exploration of a combinatorial solution space when using conventional search- or optimization-based motion planners. With Deep Reinforcement Learning, optimal driving strategies for such problems can be derived also for higher-dimensional problems. However, these methods guarantee optimality of the resulting policy only in a statistical sense, which impedes their usage in safety critical systems, such as autonomous vehicles. Thus, we propose the Experience-Based-Heu ristic-Search algorithm, which overcomes the statistical failure rate of a Deep-reinforcement-l earning-based planner and still benefits computationally from the pre-learned optimal policy. Specifically, we show how experiences in the form of a Deep Q-Network can be integrated as heuristic into a heuristic search algorithm. We benchmark our algorithm in the field of path planning in semi-structured valet parking scenarios. There, we analyze the accuracy of such estimates and demonstrate the computational advantages and robustness of our method. Our method may encourage further investigation of the applicability of reinforcement-learni ng-based planning in the field of self-driving vehicles.
翻訳日:2021-02-08 12:59:18 公開日:2021-02-05
# 高密度・動的シナリオにおけるロボット運動計画のためのアドバンテージアクタクリティカルアルゴリズム

An advantage actor-critic algorithm for robotic motion planning in dense and dynamic scenarios ( http://arxiv.org/abs/2102.03138v1 )

ライセンス: Link先を確認
Chengmin Zhou, Bingding Huang, Pasi Fr\"anti(参考訳) インテリジェントロボットは、人件費を置き換えるための産業およびサービスシナリオの効率改善に関する新しい洞察を提供します。 しかし、これらのシナリオには、ロボットの運動計画を困難にする高密度でダイナミックな障害物が含まれます。 A*のような従来のアルゴリズムは、静的な環境では衝突のない軌道を計画できるが、その性能は低下し、計算コストは密度と動的シナリオで急上昇する。 最適値強化学習アルゴリズム(RL)はこれらの問題に対処できるが、ネットワーク収束の速度と不安定さに悩まされる。 ポリシー勾配 RL のネットワークは、アクションが離散的で有限であるアタリゲームにおいて急速に収束するが、連続的なアクションと大きなアクション空間を必要とする問題に対処する作業はほとんど行われていない。 本稿では,既存のアドバンテージアクタクリティカルアルゴリズムを変更し,複雑な動作計画に適応させるため,ロボットの最適速度と方向を生成する。 実験の結果,提案アルゴリズムは最適値RLよりも高速で安定であることがわかった。 ロボットが目標に達するまでの処理時間を短くすることで、モーションプランニングの成功率を高める。

Intelligent robots provide a new insight into efficiency improvement in industrial and service scenarios to replace human labor. However, these scenarios include dense and dynamic obstacles that make motion planning of robots challenging. Traditional algorithms like A* can plan collision-free trajectories in static environment, but their performance degrades and computational cost increases steeply in dense and dynamic scenarios. Optimal-value reinforcement learning algorithms (RL) can address these problems but suffer slow speed and instability in network convergence. Network of policy gradient RL converge fast in Atari games where action is discrete and finite, but few works have been done to address problems where continuous actions and large action space are required. In this paper, we modify existing advantage actor-critic algorithm and suit it to complex motion planning, therefore optimal speeds and directions of robot are generated. Experimental results demonstrate that our algorithm converges faster and stable than optimal-value RL. It achieves higher success rate in motion planning with lesser processing time for robot to reach its goal.
翻訳日:2021-02-08 12:59:01 公開日:2021-02-05
# コミュニティディスカバリーのための高次情報融合による自己監督型ディープグラフ埋め込み

Self-Supervised Deep Graph Embedding with High-Order Information Fusion for Community Discovery ( http://arxiv.org/abs/2102.03302v1 )

ライセンス: Link先を確認
Shuliang Xu and Lin Feng(参考訳) ディープグラフ埋め込みは、コミュニティ発見の重要なアプローチである。 自己教師機構を持つディープグラフニューラルネットワークは、ラベルなしおよび非構造化グラフデータからノードの低次元埋め込みベクトルを得ることができる。 グラフの高次情報は、ノードの表現学習により多くの構造情報を提供することができる。 しかし、ほとんどの自己監視型グラフニューラルネットワークは、隣接行列をグラフの入力トポロジ情報としてのみ使用し、グラフニューラルネットワークの層数がかなり限られているため、高階情報を得ることができない。 レイヤーが多すぎると、過度の平滑化の現象が現れます。 したがって、浅層グラフニューラルネットワークによるグラフの高次情報取得と融合は重要な課題である。 本稿では,コミュニティ発見のための自己監視機構を備えたディープグラフ埋め込みアルゴリズムを提案する。 提案アルゴリズムは,複数のディープグラフ畳み込みニューラルネットワークを訓練するために,自己監視機構とグラフの異なる高階情報を用いる。 複数のグラフ畳み込みニューラルネットワークの出力を融合して、グラフの属性と構造情報を含むノードの表現を抽出します。 また、トレーニングプロセスにデータ拡張と負サンプリングを導入することにより、埋め込み結果の改善が容易になる。 提案アルゴリズムと比較アルゴリズムは5つの実験データセット上で実行される。 実験の結果,提案アルゴリズムは,最も実験的なデータセットにおける比較アルゴリズムよりも優れていることがわかった。 実験結果は,提案アルゴリズムがコミュニティ発見に有効なアルゴリズムであることを示した。

Deep graph embedding is an important approach for community discovery. Deep graph neural network with self-supervised mechanism can obtain the low-dimensional embedding vectors of nodes from unlabeled and unstructured graph data. The high-order information of graph can provide more abundant structure information for the representation learning of nodes. However, most self-supervised graph neural networks only use adjacency matrix as the input topology information of graph and cannot obtain too high-order information since the number of layers of graph neural network is fairly limited. If there are too many layers, the phenomenon of over smoothing will appear. Therefore how to obtain and fuse high-order information of graph by a shallow graph neural network is an important problem. In this paper, a deep graph embedding algorithm with self-supervised mechanism for community discovery is proposed. The proposed algorithm uses self-supervised mechanism and different high-order information of graph to train multiple deep graph convolution neural networks. The outputs of multiple graph convolution neural networks are fused to extract the representations of nodes which include the attribute and structure information of a graph. In addition, data augmentation and negative sampling are introduced into the training process to facilitate the improvement of embedding result. The proposed algorithm and the comparison algorithms are conducted on the five experimental data sets. The experimental results show that the proposed algorithm outperforms the comparison algorithms on the most experimental data sets. The experimental results demonstrate that the proposed algorithm is an effective algorithm for community discovery.
翻訳日:2021-02-08 12:58:43 公開日:2021-02-05
# スマートコントラクトによるスマートプルーフ: 分散型市場による簡潔かつ情報的数学的デリベーション

Smart Proofs via Smart Contracts: Succinct and Informative Mathematical Derivations via Decentralized Markets ( http://arxiv.org/abs/2102.03044v1 )

ライセンス: Link先を確認
Sylvain Carr\'e, Franck Gabriel, Cl\'ement Hongler, Gustavo Lacerda, and Gloria Capano(参考訳) 現代の数学は証明を形式的証明に翻訳し、その妥当性は客観的な問題であり、コンピュータによって決定可能であるという考えに基づいている。 しかし実際には、証明は非公式であり、多くの詳細を省略することができる。 エージェントは、機械検証可能な証明に拡張できると信頼できる場合、証明を有効とみなす。 したがって、証明の妥当性は主観的な問題となり、解決が難しい議論につながる可能性がある。 したがって、有効な証明の概念は明確に定義されているが、妥当性を確立するプロセスはそれ自体が複雑なマルチエージェント問題である。 SPRIGプロトコルを紹介します。 SPRIGは、エージェントが簡潔で情報的な証明を分散的に提案し、検証することを可能にする。信頼は、エージェントが証明ステップで詳細を要求できることによって確立される。 バウンティとステークの構造は、誠実に行動するためにエージェントにインセンティブを与えるように設定されています。 本研究では,SPRIGのゲーム理論的議論を提案し,様々な情報を持つエージェントがどのように相互作用するかを示し,適切な詳細レベルの証明木と誤った証明の無効化につながり,様々な攻撃に対するレジリエンスについて議論する。 次に、単純化されたモデルを分析し、その平衡を特徴付け、エージェントの信頼レベルを計算する。 SPRIGはブロックチェーンプラットフォーム上でスマートコントラクトとして動作するように設計されている。 これにより、匿名のエージェントが検証討論に参加し、情報に貢献することができる。 スマートコントラクトはインタラクションを仲介し、議論を解決し、賞金と持分が指定された通りに支払われることを保証します。 SPRIGは、オープン問題に対するバウンティの発行、デリバティブ市場の創出など、新しいアプリケーションを可能にし、証明に関連するより多くの情報をエージェントが注入できるようにします。

Modern mathematics is built on the idea that proofs should be translatable into formal proofs, whose validity is an objective question, decidable by a computer. Yet, in practice, proofs are informal and may omit many details. An agent considers a proof valid if they trust that it could be expanded into a machine-verifiable proof. A proof's validity can thus become a subjective matter and lead to a debate, which may be difficult to settle. Hence, while the concept of valid proof is well-defined, the process to establish validity is itself a complex multi-agent problem. We introduce the SPRIG protocol. SPRIG allows agents to propose and verify succinct and informative proofs in a decentralized fashion; the trust is established by agents being able to request more details in the proof steps; debates, if they arise, must isolate details of proofs and, if they persist, go down to machine-level details, where they are automatically settled. A structure of bounties and stakes is set to incentivize agents to act in good faith. We propose a game-theoretic discussion of SPRIG, showing how agents with various types of information interact, leading to a proof tree with an appropriate level of detail and to the invalidation of wrong proofs, and we discuss resilience against various attacks. We then analyze a simplified model, characterize its equilibria and compute the agents' level of trust. SPRIG is designed to run as a smart contract on a blockchain platform. This allows anonymous agents to participate in the verification debate, and to contribute with their information. The smart contract mediates the interactions, settles debates, and guarantees that bounties and stakes are paid as specified. SPRIG enables new applications, such as the issuance of bounties for open problems, and the creation of derivatives markets, allowing agents to inject more information pertaining to proofs.
翻訳日:2021-02-08 12:58:21 公開日:2021-02-05
# CTCに基づく音声認識における中間損失正規化

Intermediate Loss Regularization for CTC-based Speech Recognition ( http://arxiv.org/abs/2102.03216v1 )

ライセンス: Link先を確認
Jaesong Lee, Shinji Watanabe(参考訳) 本論文では,コネクティスト時間分類(CTC)に基づく自動音声認識(ASR)のための簡便かつ効率的な補助損失関数を提案する。 提案された目的である中間CTC損失は、CTCエンコーダネットワーク内の中間層に接続される。 この中間的なCTC損失は、CTCトレーニングを順調に調整し、コードの小さな修正と、トレーニング中と推論中のオーバーヘッドの少なからぬパフォーマンスを改善する。 さらに,この中間CTC損失を確率的深度学習と組み合わせて,最近提案されたコンバータネットワークに適用することを提案する。 提案手法は,単語誤り率(wer)9.9%をwsjコーパスに,文字誤り率(cer)5.2%をaishell-1コーパスにそれぞれ到達し,ctc greedy searchを言語モデルなしで評価した。 特に、AISHELL-1タスクは、ビームサーチによる自動回帰デコーダに基づく他の最先端のASRシステムと同等です。

We present a simple and efficient auxiliary loss function for automatic speech recognition (ASR) based on the connectionist temporal classification (CTC) objective. The proposed objective, an intermediate CTC loss, is attached to an intermediate layer in the CTC encoder network. This intermediate CTC loss well regularizes CTC training and improves the performance requiring only small modification of the code and small and no overhead during training and inference, respectively. In addition, we propose to combine this intermediate CTC loss with stochastic depth training, and apply this combination to a recently proposed Conformer network. We evaluate the proposed method on various corpora, reaching word error rate (WER) 9.9% on the WSJ corpus and character error rate (CER) 5.2% on the AISHELL-1 corpus respectively, based on CTC greedy search without a language model. Especially, the AISHELL-1 task is comparable to other state-of-the-art ASR systems based on auto-regressive decoder with beam search.
翻訳日:2021-02-08 12:57:54 公開日:2021-02-05
# 非ガウスデータに対するVine copula混合モデルとクラスタリング

Vine copula mixture models and clustering for non-Gaussian data ( http://arxiv.org/abs/2102.03257v1 )

ライセンス: Link先を確認
\"Ozge Sahin, Claudia Czado(参考訳) 有限混合モデルの大部分は、コンポーネント内の非対称テール依存性を許容せず、クラスタリングアプリケーションで非楕円的クラスタをキャプチャしないことに苦しむ。 vine copula はこのような依存を捉えるのに非常に柔軟であるため,連続データに対する新しい vine copula 混合モデルを提案する。 モデル選択とパラメータ推定の問題について議論し、さらに新しいモデルベースクラスタリングアルゴリズムを定式化する。 クラスタリングにおけるVine copulasの使用は、クラスタのさまざまな形状と依存性構造を可能にする。 シミュレーション実験では,成分内の非対称テール依存性や非ガウスマージンが存在する場合,クラスタリング精度が著しく向上することを示す。 実データセットの解析は提案手法に付随する。 vine copula混合モデルを用いたモデルベースクラスタリングアルゴリズムが,他のモデルベースクラスタリング手法,特に非ガウス型多変量データよりも優れていることを示す。

The majority of finite mixture models suffer from not allowing asymmetric tail dependencies within components and not capturing non-elliptical clusters in clustering applications. Since vine copulas are very flexible in capturing these types of dependencies, we propose a novel vine copula mixture model for continuous data. We discuss the model selection and parameter estimation problems and further formulate a new model-based clustering algorithm. The use of vine copulas in clustering allows for a range of shapes and dependency structures for the clusters. Our simulation experiments illustrate a significant gain in clustering accuracy when notably asymmetric tail dependencies or/and non-Gaussian margins within the components exist. The analysis of real data sets accompanies the proposed method. We show that the model-based clustering algorithm with vine copula mixture models outperforms the other model-based clustering techniques, especially for the non-Gaussian multivariate data.
翻訳日:2021-02-08 12:57:38 公開日:2021-02-05
# 歩行者シミュレーション:レビュー

Pedestrian Simulation: A Review ( http://arxiv.org/abs/2102.03289v1 )

ライセンス: Link先を確認
Amir Rasouli(参考訳) 本稿では,歩行者のモデリングとシミュレーションのさまざまな側面に焦点を当てる。 このレビューには、歩行者の行動のモデル化に関わる粒度、技術、要因などの様々なモデリング基準と、交通シーンにおける歩行者の挙動をシミュレートするための2つのアプローチをより詳細に検討した歩行者シミュレーション手法が含まれる。 最後に,様々なシミュレーション手法の利点と欠点について考察し,今後の研究への提言を行う。

This article focuses on different aspects of pedestrian (crowd) modeling and simulation. The review includes: various modeling criteria, such as granularity, techniques, and factors involved in modeling pedestrian behavior, and different pedestrian simulation methods with a more detailed look at two approaches for simulating pedestrian behavior in traffic scenes. At the end, benefits and drawbacks of different simulation techniques are discussed and recommendations are made for future research.
翻訳日:2021-02-08 12:57:24 公開日:2021-02-05
# 合成ゲノムデータの有用性とプライバシーの測定

Measuring Utility and Privacy of Synthetic Genomic Data ( http://arxiv.org/abs/2102.03314v1 )

ライセンス: Link先を確認
Bristena Oprisanu and Georgi Ganev and Emiliano De Cristofaro(参考訳) ゲノムデータは、生物医学研究、パーソナライズされた医学、薬物開発の発展を進めるために、研究者に貴重な情報を提供する。 しかし、同時に、このデータは極めて敏感であり、データ共有を可能とし、その結果、問題が発生します。 その結果、組織は生データを公開せずに、実際のデータの健全な特性を反映した合成データを共有する実験を始めている。 本稿では,合成ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護に関する最初の評価を行う。 まず,アレルや人口統計,連鎖不均衡,主成分分析など,多くの共通課題における合成データの性能を評価する。 そこで, 本研究では, 対象レコードが合成データセットのモデル作成に用いたデータの一部であるか否かを推測し, 会員推論攻撃に対するデータの感受性を検討する。 全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチはありません。 我々は、特に生成モデルの場合、トレーニングデータセットのサイズと性質がいかに重要であるかを示す。 データセットとモデルの組み合わせは、実際のデータに近い分布を持つ合成データを生成するが、しばしばメンバーシップ推論に弱いターゲットデータポイントが存在する。 我々の測定フレームワークは、野生に合成ゲノムデータを展開するリスクを評価するために、研究者や実践者にとって、将来的なベンチマークツールとなるでしょう。

Genomic data provides researchers with an invaluable source of information to advance progress in biomedical research, personalized medicine, and drug development. At the same time, however, this data is extremely sensitive, which makes data sharing, and consequently availability, problematic if not outright impossible. As a result, organizations have begun to experiment with sharing synthetic data, which should mirror the real data's salient characteristics, without exposing it. In this paper, we provide the first evaluation of the utility and the privacy protection of five state-of-the-art models for generating synthetic genomic data. First, we assess the performance of the synthetic data on a number of common tasks, such as allele and population statistics as well as linkage disequilibrium and principal component analysis. Then, we study the susceptibility of the data to membership inference attacks, i.e., inferring whether a target record was part of the data used to train the model producing the synthetic dataset. Overall, there is no single approach for generating synthetic genomic data that performs well across the board. We show how the size and the nature of the training dataset matter, especially in the case of generative models. While some combinations of datasets and models produce synthetic data with distributions close to the real data, there often are target data points that are vulnerable to membership inference. Our measurement framework can be used by practitioners to assess the risks of deploying synthetic genomic data in the wild, and will serve as a benchmark tool for researchers and practitioners in the future.
翻訳日:2021-02-08 12:57:16 公開日:2021-02-05
# サンプリングに基づくシーン空間映像処理

Sampling Based Scene-Space Video Processing ( http://arxiv.org/abs/2102.03011v1 )

ライセンス: Link先を確認
Felix Klose and Oliver Wang and Jean-Charles Bazin and Marcus Magnor and Alexander Sorkine-Hornung(参考訳) ピクセルごとの深度情報と3dカメラのキャリブレーションが知られている場合、多くの魅力的なビデオ処理効果が得られる。 しかし、このような手法の成功は、この「シーン空間」情報の正確さに大きく依存している。 本稿では,深度とカメラのポーズ推定において避けられない誤差が存在する場合に,高品質なシーン空間映像効果を実現する,新しいサンプリングベースの映像処理フレームワークを提案する。 本手法では,3次元シーンの明示的な表現を改善する代わりに,多くのシーンポイントが複数のビデオフレームに複数回可視化されているため,シーン情報に近似した高い冗長性を利用する。 そこで本研究では,新しい画素収集とフィルタリング手法を提案する。 収集ステップは一般的に、シーン空間でピクセルサンプルを収集し、フィルタリングステップはアプリケーション固有であり、収集されたサンプルセットから所望の出力ビデオを計算します。 当社のアプローチは並列化が容易で,GPU上で実装されているので,大量のビデオデータをフル活用し,標準デスクトップコンピュータによるHDビデオの実用的な実行を容易にすることができる。 汎用的なシーン空間定式化は,デノイジング,デブラリング,スーパーレゾリューション,オブジェクト除去,計算シャッター機能,その他のシーン空間カメラ効果など,多数の映像処理アプリケーションを包括的に記述することができる。 そこで本研究では,無制御環境において記録された課題場面を再現した,手持ち・移動・圧縮・単眼映像のカジュアルな撮影結果について報告する。

Many compelling video processing effects can be achieved if per-pixel depth information and 3D camera calibrations are known. However, the success of such methods is highly dependent on the accuracy of this "scene-space" information. We present a novel, sampling-based framework for processing video that enables high-quality scene-space video effects in the presence of inevitable errors in depth and camera pose estimation. Instead of trying to improve the explicit 3D scene representation, the key idea of our method is to exploit the high redundancy of approximate scene information that arises due to most scene points being visible multiple times across many frames of video. Based on this observation, we propose a novel pixel gathering and filtering approach. The gathering step is general and collects pixel samples in scene-space, while the filtering step is application-specific and computes a desired output video from the gathered sample sets. Our approach is easily parallelizable and has been implemented on GPU, allowing us to take full advantage of large volumes of video data and facilitating practical runtimes on HD video using a standard desktop computer. Our generic scene-space formulation is able to comprehensively describe a multitude of video processing applications such as denoising, deblurring, super resolution, object removal, computational shutter functions, and other scene-space camera effects. We present results for various casually captured, hand-held, moving, compressed, monocular videos depicting challenging scenes recorded in uncontrolled environments.
翻訳日:2021-02-08 12:56:34 公開日:2021-02-05
# 条件付き畳み込みを用いたInstance and Panoptic Segmentation

Instance and Panoptic Segmentation Using Conditional Convolutions ( http://arxiv.org/abs/2102.03026v1 )

ライセンス: Link先を確認
Zhi Tian, Bowen Zhang, Hao Chen, Chunhua Shen(参考訳) 本稿では,panoptic segmentationとcondinst (conditional convolutions for instance and panoptic segmentation) という,単純かつ効果的なフレームワークを提案する。 文献では、パフォーマンスの高いインスタンスセグメンテーションメソッドは通常、Mask R-CNNのパラダイムに従い、各インスタンスに出席するためにROIオペレーション(通常ROIAlign)に依存します。 対照的に、動的条件付き畳み込みを伴うインスタンスへの参加を提案する。 インスタンス単位のROIを固定重みのインスタンスマスクヘッドへの入力として使用する代わりに、予測されるインスタンスに条件付けされた動的インスタンス対応マスクヘッドを設計する。 CondInstには3つの利点がある。 インスタンスとパンオプティクスのセグメンテーションは、完全な畳み込みネットワークに統合され、ROIトリミングと機能アライメントが不要になります。 2.) ROIトリミングの排除により、出力インスタンスマスクの解像度も大幅に向上します。 3.) 動的に生成された条件付き畳み込みの容量が大幅に向上するため、マスクヘッドは非常にコンパクトである(例えば3conv)。 いずれのレイヤも8つのチャネルしか持たないため、1インスタンスあたりの推論時間が大幅に速くなり、全体の推論時間はインスタンス数とは無関係にほぼ一定になる。 インスタンスとパンオプティクスのセグメンテーションタスクの両方において、精度と推論速度の向上を達成できるシンプルな方法を示します。 COCOデータセットでは、最先端のメソッドよりも優れています。 CondInstが、例えばパンオプティクスセグメンテーションの強力なベースラインになることを願っています。 コードはhttps://git.io/Adela iDetで入手できる。

We propose a simple yet effective framework for instance and panoptic segmentation, termed CondInst (conditional convolutions for instance and panoptic segmentation). In the literature, top-performing instance segmentation methods typically follow the paradigm of Mask R-CNN and rely on ROI operations (typically ROIAlign) to attend to each instance. In contrast, we propose to attend to the instances with dynamic conditional convolutions. Instead of using instance-wise ROIs as inputs to the instance mask head of fixed weights, we design dynamic instance-aware mask heads, conditioned on the instances to be predicted. CondInst enjoys three advantages: 1.) Instance and panoptic segmentation are unified into a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2.) The elimination of the ROI cropping also significantly improves the output instance mask resolution. 3.) Due to the much improved capacity of dynamically-generate d conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference time per instance and making the overall inference time almost constant, irrelevant to the number of instances. We demonstrate a simpler method that can achieve improved accuracy and inference speed on both instance and panoptic segmentation tasks. On the COCO dataset, we outperform a few state-of-the-art methods. We hope that CondInst can be a strong baseline for instance and panoptic segmentation. Code is available at: https://git.io/Adela iDet
翻訳日:2021-02-08 12:56:08 公開日:2021-02-05
# サービスロボットのための協調型ビジュアルSLAMフレームワーク

A Collaborative Visual SLAM Framework for Service Robots ( http://arxiv.org/abs/2102.03228v1 )

ライセンス: Link先を確認
Ming Ouyang, Xuesong Shi, Yujie Wang, Yuxin Tian, Yingzhe Shen, Dawei Wang, Peng Wang(参考訳) サービスロボットの迅速な展開では、複数のロボットが同じ場所で作業し、空間情報を共同で共有するための方法を確立する必要がある。 そこで本稿では,特にサービスロボットシナリオ用に設計されたslam(visual concurrent localization and mapping)フレームワークを提案する。 エッジサーバがマップデータベースを維持し、グローバル最適化を実行することで、各ロボットは既存のマップに登録したり、マップを更新したり、新しいマップを構築したりすることができます。 リアルタイム情報共有を可能にするために,各ロボットが周囲のランドマークを観測できる効率的なランドマーク検索手法を提案する。 このフレームワークは、RGB-Dと単眼カメラの両方をサポートするのに十分一般的であり、複数のカメラを備えたロボットも、カメラ間の厳格な制約を考慮しています。 提案されたフレームワークは完全に実装され、公開データセットとライブ実験で検証されている。

With the rapid deployment of service robots, a method should be established to allow multiple robots to work in the same place to collaborate and share the spatial information. To this end, we present a collaborative visual simultaneous localization and mapping (SLAM) framework particularly designed for service robot scenarios. With an edge server maintaining a map database and performing global optimization, each robot can register to an existing map, update the map, or build new maps, all with a unified interface and low computation and memory cost. To enable real-time information sharing, an efficient landmark retrieval method is proposed to allow each robot to get nearby landmarks observed by others. The framework is general enough to support both RGB-D and monocular cameras, as well as robots with multiple cameras, taking the rigid constraints between cameras into consideration. The proposed framework has been fully implemented and verified with public datasets and live experiments.
翻訳日:2021-02-08 12:55:41 公開日:2021-02-05
# JLプロジェクションによる高速かつメモリ効率の差分プライベートSGD

Fast and Memory Efficient Differentially Private-SGD via JL Projections ( http://arxiv.org/abs/2102.03013v1 )

ライセンス: Link先を確認
Zhiqi Bu, Sivakanth Gopi, Janardhan Kulkarni, Yin Tat Lee, Judy Hanwen Shen, Uthaipon Tantipongpipat(参考訳) Abadi et al.の異なるプライベートSGD(DP-SGD)。 (2016)とその変種は、大規模ニューラルネットワークのプライベートトレーニングで知られている唯一のアルゴリズムである。 このアルゴリズムはサンプル毎の勾配ノルムの計算を必要とし、実際には非常に遅く、メモリ集約的である。 本稿では,DP-SGD-JLとDP-Adam-JLという差分プライベートオプティマイザを設計するための新しいフレームワークを提案する。 提案手法ではジョンソン・リンデンシュトラウス(JL)プロジェクションを用いて,サンプルごとの勾配ノルムを正確に計算することなく高速に近似することにより,最適化器のトレーニング時間とメモリ要求を非DPバージョンに近いものにする。 DP-SGDをネットワークアーキテクチャのサブセットでのみ動作させたり、コンパイラ技術を使用したりする従来の試みとは異なり、本論文の主な貢献点であるブラックボックス方式で任意のネットワークで動作するアルゴリズムソリューションを提案する。 これを説明するために、IMDbデータセットでは、リカレントニューラルネットワーク(RNN)を訓練して、DP-SGDよりも大幅に高速で、非プライベートSGDと同様のメモリフットプリントで、良好なプライバシvs精度のトレードオフを実現する。 我々のアルゴリズムのプライバシー分析はDP-SGDよりも複雑であり、最近提案されたDongらのf-DPフレームワークを使用している。 (2019) プライバシーを証明するため。

Differentially Private-SGD (DP-SGD) of Abadi et al. (2016) and its variations are the only known algorithms for private training of large scale neural networks. This algorithm requires computation of per-sample gradients norms which is extremely slow and memory intensive in practice. In this paper, we present a new framework to design differentially private optimizers called DP-SGD-JL and DP-Adam-JL. Our approach uses Johnson-Lindenstraus s (JL) projections to quickly approximate the per-sample gradient norms without exactly computing them, thus making the training time and memory requirements of our optimizers closer to that of their non-DP versions. Unlike previous attempts to make DP-SGD faster which work only on a subset of network architectures or use compiler techniques, we propose an algorithmic solution which works for any network in a black-box manner which is the main contribution of this paper. To illustrate this, on IMDb dataset, we train a Recurrent Neural Network (RNN) to achieve good privacy-vs-accuracy tradeoff, while being significantly faster than DP-SGD and with a similar memory footprint as non-private SGD. The privacy analysis of our algorithms is more involved than DP-SGD, we use the recently proposed f-DP framework of Dong et al. (2019) to prove privacy.
翻訳日:2021-02-08 12:54:44 公開日:2021-02-05
# 潜在変数存在下での因果構造学習のための整数プログラミング

Integer Programming for Causal Structure Learning in the Presence of Latent Variables ( http://arxiv.org/abs/2102.03129v1 )

ライセンス: Link先を確認
Rui Chen, Sanjeeb Dash, Tian Gao(参考訳) 変数の集合間の因果関係を表す先祖非周期的有向混合グラフ(ADMG)を見つけることの問題は因果推論のための重要な研究領域である。 しかし,既存のスコアベース構造学習手法の多くは,遅延変数を伴わない有向非巡回グラフ(DAG)の学習に重点を置いている。 近年、ADMG学習にいくつかのスコアベースの手法が提案されているが、本質的にはヒューリスティックであり、最適解を保証していない。 本論文では,整数プログラミング (IP) の定式化を解き,連続変数の集合に対して最大化先祖 ADMG を返す,新たな完全スコアに基づく手法を提案する。 特に,dag学習問題に対する最先端ipモデルを一般化し,ipベースadmg学習モデルを定式化するための有効な不等式の新しいクラスを導出する。 実験によって,我々のモデルは中規模の問題に対して効率的に解け,最新のスコアベース手法やベンチマーク制約ベースの手法よりも精度がよい。

The problem of finding an ancestral acyclic directed mixed graph (ADMG) that represents the causal relationships between a set of variables is an important area of research for causal inference. However, most of existing score-based structure learning methods focus on learning the directed acyclic graph (DAG) without latent variables. A number of score-based methods have recently been proposed for the ADMG learning, yet they are heuristic in nature and do not guarantee an optimal solution. We propose a novel exact score-based method that solves an integer programming (IP) formulation and returns a score-maximizing ancestral ADMG for a set of continuous variables. In particular, we generalize the state-of-the-art IP model for DAG learning problems and derive new classes of valid inequalities to formalize the IP-based ADMG learning model. Empirically our model can be solved efficiently for medium-sized problems and achieves better accuracy than state-of-the-art score-based methods as well as benchmark constraint-based methods.
翻訳日:2021-02-08 12:54:19 公開日:2021-02-05
# 畳み込みニューラルネットワークを用いたcsiベース大規模mimo屋内測位の改善

Improving CSI-based Massive MIMO Indoor Positioning using Convolutional Neural Network ( http://arxiv.org/abs/2102.03130v1 )

ライセンス: Link先を確認
Gregor Cerar, Ale\v{s} \v{S}vigelj, Mihael Mohor\v{c}i\v{c}, Carolina Fortuna, Toma\v{z} Javornik(参考訳) マルチ入力マルチ出力(MIMO)は、多数の端末を持つ無線ネットワークにおける高速で信頼性の高い通信の需要を満たす技術ですが、複数のアンテナからのマルチパス伝搬を利用する端末の位置推定にも適用できます。 本論文では,MIMO ベースのチャネル状態情報 (CSI) を利用した屋内測位改善のための畳み込みニューラルネットワーク (CNN) 構造について検討する。 同一のトレーニング評価データを用いて,提案する3種類のcnn構造と,科学文献で提案されている5種類のnn構造の性能を比較検討した。 その結果,提案した残差畳み込みNN構造は位置推定の精度を向上し,公開NN構造よりも重量の総数を低くすることを示した。 提案するcnn構造は、基準として使用される既知のnn構造よりも2cmから10cm高い位置精度を示す。

Multiple-input multiple-output (MIMO) is an enabling technology to meet the growing demand for faster and more reliable communications in wireless networks with a large number of terminals, but it can also be applied for position estimation of a terminal exploiting multipath propagation from multiple antennas. In this paper, we investigate new convolutional neural network (CNN) structures for exploiting MIMO-based channel state information (CSI) to improve indoor positioning. We evaluate and compare the performance of three variants of the proposed CNN structure to five NN structures proposed in the scientific literature using the same sets of training-evaluation data. The results demonstrate that the proposed residual convolutional NN structure improves the accuracy of position estimation and keeps the total number of weights lower than the published NN structures. The proposed CNN structure yields from 2cm to 10cm better position accuracy than known NN structures used as a reference.
翻訳日:2021-02-08 12:54:02 公開日:2021-02-05
# テンソル特性と分子スペクトルの予測のための等変メッセージパッシング

Equivariant message passing for the prediction of tensorial properties and molecular spectra ( http://arxiv.org/abs/2102.03150v1 )

ライセンス: Link先を確認
Kristof T. Sch\"utt, Oliver T. Unke, Michael Gastegger(参考訳) メッセージパッシングニューラルネットワークは、特に化学特性の予測と分子動力学研究の加速をグラフ上で学習する方法として選択されている。 大規模なトレーニングデータセットに容易にスケールできるが、以前のアプローチでは、カーネルメソッドよりもデータ効率が低いことが証明されている。 不変表現の限界を主要な理由として特定し、メッセージ通過式を回転同値表現に拡張する。 そこで本研究では, 分極性原子間相互作用ニューラルネットワーク (PaiNN) を提案し, 従来のネットワークよりも一般的な分子ベンチマークを改善し, モデルサイズと推論時間を短縮した。 PaiNN によって得られる同値の原子回り表現をテンソル特性の予測に活用する。 最後に、これを分子スペクトルのシミュレーションに適用し、電子構造基準と比較して4-5桁の速度向上を達成する。

Message passing neural networks have become a method of choice for learning on graphs, in particular the prediction of chemical properties and the acceleration of molecular dynamics studies. While they readily scale to large training data sets, previous approaches have proven to be less data efficient than kernel methods. We identify limitations of invariant representations as a major reason and extend the message passing formulation to rotationally equivariant representations. On this basis, we propose the polarizable atom interaction neural network (PaiNN) and improve on common molecule benchmarks over previous networks, while reducing model size and inference time. We leverage the equivariant atomwise representations obtained by PaiNN for the prediction of tensorial properties. Finally, we apply this to the simulation of molecular spectra, achieving speedups of 4-5 orders of magnitude compared to the electronic structure reference.
翻訳日:2021-02-08 12:53:46 公開日:2021-02-05
# 有向ネットワークにおけるクラスタリングのための単純なスペクトルアプローチ

A simpler spectral approach for clustering in directed networks ( http://arxiv.org/abs/2102.03188v1 )

ライセンス: Link先を確認
Simon Coste and Ludovic Stephan(参考訳) 有向ネットワークにおけるクラスタリングの課題について検討する。 隣接行列の固有値/固有ベクトル分解は、データ正規化とSVD切り換えの組み合わせに基づくすべての一般的な方法よりも単純であり、エッジ密度が一定の順序を持つ非常に狭い状態までうまく機能することを示した。 我々の分析は、独立成分を持つスパース非対称行列の孤立固有値/固有ベクトルに対する鋭い漸近を記述するマスター定理に基づいている。 また、これらの固有ベクトルのエントリの制限分布を記述し、スペクトル埋め込みによるダイグラフクラスタリングのタスクでは、広く使用されているk-平均アルゴリズム上のガウス混合クラスタリングの優位性の数値的証拠を提供します。

We study the task of clustering in directed networks. We show that using the eigenvalue/eigenvect or decomposition of the adjacency matrix is simpler than all common methods which are based on a combination of data regularization and SVD truncation, and works well down to the very sparse regime where the edge density has constant order. Our analysis is based on a Master Theorem describing sharp asymptotics for isolated eigenvalues/eigenvec tors of sparse, non-symmetric matrices with independent entries. We also describe the limiting distribution of the entries of these eigenvectors; in the task of digraph clustering with spectral embeddings, we provide numerical evidence for the superiority of Gaussian Mixture clustering over the widely used k-means algorithm.
翻訳日:2021-02-08 12:53:33 公開日:2021-02-05
# グラジングインシデンスX線蛍光における後部再建のための逆ニューラルネットワークとMCMC

Invertible Neural Networks versus MCMC for Posterior Reconstruction in Grazing Incidence X-Ray Fluorescence ( http://arxiv.org/abs/2102.03189v1 )

ライセンス: Link先を確認
Anna Andrle, Nando Farchmin, Paul Hagemann, Sebastian Heidenreich, Victor Soltwisch, Gabriele Steidl(参考訳) グレージングインシデントX線蛍光は、例えば出現するナノ構造の幾何学および組成パラメータを分析する非破壊的手法である。 コンピューターチップで 本論文では,前方モデルが生成する雑音測定から得られた後方パラメータ分布を,適切に学習した可逆ニューラルネットワークを用いて再構成することを提案する。 このネットワークは、参照分布から後方への輸送マップに似ている。 本手法が既存のマルコフチェーンモンテカルロアプローチと競合できることを数値的に比較し、より効率的かつ柔軟であることを示します。

Grazing incidence X-ray fluorescence is a non-destructive technique for analyzing the geometry and compositional parameters of nanostructures appearing e.g. in computer chips. In this paper, we propose to reconstruct the posterior parameter distribution given a noisy measurement generated by the forward model by an appropriately learned invertible neural network. This network resembles the transport map from a reference distribution to the posterior. We demonstrate by numerical comparisons that our method can compete with established Markov Chain Monte Carlo approaches, while being more efficient and flexible in applications.
翻訳日:2021-02-08 12:53:21 公開日:2021-02-05
# 不均質な連合学習のためのバイアス分散低減局所sgd

Bias-Variance Reduced Local SGD for Less Heterogeneous Federated Learning ( http://arxiv.org/abs/2102.03198v1 )

ライセンス: Link先を確認
Tomoya Murata, Taiji Suzuki(参考訳) フェデレーション学習は分散学習における重要な学習シナリオの1つであり、コミュニケーションと計算コストの観点から異種ローカルデータセットを効率的に学習することを目指している。 本稿では,非凸フェデレーション学習のためのBVR-L-SGD(Bias-Varia nce Reduced Local SGD)と呼ばれる新しい局所アルゴリズムについて検討する。 本稿では,局所目標の小さな2次不均一性を十分に活用し,作業者の同期時に平均値を取るのではなく,ランダムに局所モデルの1つをピックアップすることを提案し,バイアスと分散を低減した局所勾配推定器の解析を行う。 局所目的の非均質性が小さい場合,従来の非局所目的と局所目的の双方よりも通信の複雑性が小さいことが示された。 さらに、作業者毎の総通信時間と総計算時間の合計である総実行時間を比較し、不均一性が小さく、単一の通信時間の方が1つの確率勾配計算よりも長い時間を要する場合、既存の方法と比較して、我々の手法の優位性を示す。 理論的知見を検証し,アルゴリズムの優越性に関する実証的証拠を与えるため,数値実験を行った。

Federated learning is one of the important learning scenarios in distributed learning, in which we aim at learning heterogeneous local datasets efficiently in terms of communication and computational cost. In this paper, we study new local algorithms called Bias-Variance Reduced Local SGD (BVR-L-SGD) for nonconvex federated learning. One of the novelties of this paper is in the analysis of our bias and variance reduced local gradient estimators which fully utilize small second-order heterogeneity of local objectives and suggests to randomly pick up one of the local models instead of taking average of them when workers are synchronized. Under small heterogeneity of local objectives, we show that our methods achieve smaller communication complexity than both the previous non-local and local methods for general nonconvex objectives. Furthermore, we also compare the total execution time, that is the sum of total communication time and total computational time per worker, and show the superiority of our methods to the existing methods when the heterogeneity is small and single communication time is more time consuming than single stochastic gradient computation. Numerical results are provided to verify our theoretical findings and give empirical evidence of the superiority of our algorithms.
翻訳日:2021-02-08 12:53:12 公開日:2021-02-05
# SARS-CoV-2の宿主-ウイルス間相互作用の解析

Analyzing Host-Viral Interactome of SARS-CoV-2 for Identifying Vulnerable Host Proteins during COVID-19 Pathogenesis ( http://arxiv.org/abs/2102.03253v1 )

ライセンス: Link先を確認
Jayanta Kumar Das, Swarup Roy, Pietro Hiram Guzzi(参考訳) COVID-19治療のための治療目標の開発は、病因の分子メカニズムの理解に基づいています。 感染機構に関与する遺伝子やタンパク質の同定は、複雑な分子機構に光を放出するための鍵です。 世界中に分布する多くの研究所の努力が組み合わさって、タンパク質と遺伝的相互作用の蓄積を生み出している。 本研究では,これらの結果を統合し,1432個のヒトタンパク質からなる宿主タンパク質相互作用ネットワークを得る。 キータンパク質の同定のためのネットワーク中央度を算出した。 その後、中枢タンパク質の機能強化を行います。 同定されたタンパク質は、主に細胞プロセス、シグナル伝達、神経変性疾患を含むいくつかの重要な経路に関連している。 最後に,ヒト呼吸器疾患の原因となるタンパク質について検討した。 我々は、COVID19は複雑な疾患であると結論付け、RBX1、HSPA5、ITCH、RAB7A、RAB5A、RAB8A、PSMC5、CAPZB、CANX、IGF2R、HSPA1Aなどの多くの潜在的な治療目標を強調しました。

The development of therapeutic targets for COVID-19 treatment is based on the understanding of the molecular mechanism of pathogenesis. The identification of genes and proteins involved in the infection mechanism is the key to shed out light into the complex molecular mechanisms. The combined effort of many laboratories distributed throughout the world has produced the accumulation of both protein and genetic interactions. In this work we integrate these available results and we obtain an host protein-protein interaction network composed by 1432 human proteins. We calculate network centrality measures to identify key proteins. Then we perform functional enrichment of central proteins. We observed that the identified proteins are mostly associated with several crucial pathways, including cellular process, signalling transduction, neurodegenerative disease. Finally, we focused on proteins involved in causing disease in the human respiratory tract. We conclude that COVID19 is a complex disease, and we highlighted many potential therapeutic targets including RBX1, HSPA5, ITCH, RAB7A, RAB5A, RAB8A, PSMC5, CAPZB, CANX, IGF2R, HSPA1A, which are central and also associated with multiple diseases
翻訳日:2021-02-08 12:52:49 公開日:2021-02-05
# baller2vec:マルチエージェント時空間モデリングのためのマルチエンティティトランスフォーマ

baller2vec: A Multi-Entity Transformer For Multi-Agent Spatiotemporal Modeling ( http://arxiv.org/abs/2102.03291v1 )

ライセンス: Link先を確認
Michael A. Alcorn and Anh Nguyen(参考訳) マルチエージェント時空間モデリングは,アルゴリズム設計と計算複雑性の観点からの課題である。 最近の研究は、この領域における従来のディープシーケンシャルモデルの有効性を探っているが、これらのアーキテクチャは、特にモデルのサイズが大きくなるにつれて、訓練が遅く、扱いにくい。 さらに、エージェント間の相互作用を時間にわたってモデル化する以前の試みには、エージェントに順序を与える、あるいはそれらの関係について仮定するといった制限がある。 本稿では,標準的なトランスフォーマの多面的一般化であるballer2vecについて紹介する。 マルチエージェント時空間モデリングにおけるballer2vecの有効性を,(1)コート上のすべての選手の軌跡の同時予測,(2)ボールの軌跡の予測,の2つの異なるバスケットボール関連の課題を訓練することにより検証した。 Baller2vecは、これらのタスクをうまくこなすことを学ぶだけでなく、バスケットボールの試合を「理解」し、プレイヤーの慣用的な質を埋め込みに符号化し、注意を向けてバスケットボール関連機能を実行するようにも見える。

Multi-agent spatiotemporal modeling is a challenging task from both an algorithmic design and computational complexity perspective. Recent work has explored the efficacy of traditional deep sequential models in this domain, but these architectures are slow and cumbersome to train, particularly as model size increases. Further, prior attempts to model interactions between agents across time have limitations, such as imposing an order on the agents, or making assumptions about their relationships. In this paper, we introduce baller2vec, a multi-entity generalization of the standard Transformer that, with minimal assumptions, can simultaneously and efficiently integrate information across entities and time. We test the effectiveness of baller2vec for multi-agent spatiotemporal modeling by training it to perform two different basketball-related tasks: (1) simultaneously forecasting the trajectories of all players on the court and (2) forecasting the trajectory of the ball. Not only does baller2vec learn to perform these tasks well, it also appears to "understand" the game of basketball, encoding idiosyncratic qualities of players in its embeddings, and performing basketball-relevant functions with its attention heads.
翻訳日:2021-02-08 12:52:29 公開日:2021-02-05
# 予測付きオンラインビンパッキング

Online Bin Packing with Predictions ( http://arxiv.org/abs/2102.03311v1 )

ライセンス: Link先を確認
Spyros Angelopoulos and Shahin Kamali and Kimia Shadkami(参考訳) ビンパッキングは、ネットワークのロードバランシングからサプライチェーン管理まで、幅広いアプリケーションを備えた古典的な最適化問題です。 本研究では,様々なサイズの項目の列を,容量が一様である最小のビン数に配置しなければならない,問題のオンライン変種について検討する。 オンラインアルゴリズムは、シーケンス内のアイテムサイズの頻度に関する(潜在的に誤った)予測で拡張される。 整合性(予測誤差のない競合比率)と堅牢性(敵対誤差下の競争比率)を効率的にトレードオフし、その性能がエラーの関数として穏やかに低下するオンラインアルゴリズムを設計・分析します。 この問題に対する以前の取り組みは、予測エラーに関する極端なケースのみに対処し、過度に強力でエラーのない予測オラクルに依存してきた。

Bin packing is a classic optimization problem with a wide range of applications from load balancing in networks to supply chain management. In this work we study the online variant of the problem, in which a sequence of items of various sizes must be placed into a minimum number of bins of uniform capacity. The online algorithm is enhanced with a (potentially erroneous) prediction concerning the frequency of item sizes in the sequence. We design and analyze online algorithms with efficient tradeoffs between their consistency (i.e., the competitive ratio assuming no prediction error) and their robustness (i.e., the competitive ratio under adversarial error), and whose performance degrades gently as a function of the error. Previous work on this problem has only addressed the extreme cases with respect to the prediction error, and has relied on overly powerful and error-free prediction oracles.
翻訳日:2021-02-08 12:52:09 公開日:2021-02-05
# LoRD-Net:低分解能受信機を用いた展開深度検出ネットワーク

LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers ( http://arxiv.org/abs/2102.02993v1 )

ライセンス: Link先を確認
Shahin Khobahi, Nir Shlezinger, Mojtaba Soltanalian and Yonina C. Eldar(参考訳) ノイズの多い低分解能量子化測定から高次元信号を復元する必要性は、通信やセンシングにおいて広く見られる。 本論文では,一ビット量子化器の極端な場合に着目し,一ビット計測から情報シンボルを回復するための深度検出器 LoRD-Net を提案する。 本手法は,一階最適化繰り返しの深部展開に基づくモデル認識型データ駆動アーキテクチャである。 lord-net は、1ビットの計測値を得るチャネル行列の事前知識を必要とせずに、1ビットのノイズ測定から関心のシグナルを回収するタスクベースのアーキテクチャを持つ。 提案したディープ・ディテクターは,アーキテクチャ設計におけるドメイン知識の導入によるブラックボックス・ディープ・ネットワークに比べてパラメータがはるかに少ないため,モデルに基づく最適化手法の柔軟性,汎用性,信頼性を生かしながら,データ駆動方式で動作することが可能である。 LoRD-Netはブラインド方式で動作し、データ取得システムの非線形性に加えて、信号回復のための適切な最適化目標を特定する必要があります。 そこで本研究では,第1段階において最適化プロセスの適切な形態を特定することに専念し,第1段階ではエンドツーエンドでモデルを訓練するロードネットの2段階訓練手法を提案する。 無線通信における1ビット信号回復のためのレシーバアーキテクチャを数値的に評価し,提案手法がデータ駆動方式とモデルベース方式の両方に優れており,訓練用として単に$\sim 500$のサンプルのオーダーで小さなデータセットを活用できることを示した。

The need to recover high-dimensional signals from their noisy low-resolution quantized measurements is widely encountered in communications and sensing. In this paper, we focus on the extreme case of one-bit quantizers, and propose a deep detector entitled LoRD-Net for recovering information symbols from one-bit measurements. Our method is a model-aware data-driven architecture based on deep unfolding of first-order optimization iterations. LoRD-Net has a task-based architecture dedicated to recovering the underlying signal of interest from the one-bit noisy measurements without requiring prior knowledge of the channel matrix through which the one-bit measurements are obtained. The proposed deep detector has much fewer parameters compared to black-box deep networks due to the incorporation of domain-knowledge in the design of its architecture, allowing it to operate in a data-driven fashion while benefiting from the flexibility, versatility, and reliability of model-based optimization methods. LoRD-Net operates in a blind fashion, which requires addressing both the non-linear nature of the data-acquisition system as well as identifying a proper optimization objective for signal recovery. Accordingly, we propose a two-stage training method for LoRD-Net, in which the first stage is dedicated to identifying the proper form of the optimization process to unfold, while the latter trains the resulting model in an end-to-end manner. We numerically evaluate the proposed receiver architecture for one-bit signal recovery in wireless communications and demonstrate that the proposed hybrid methodology outperforms both data-driven and model-based state-of-the-art methods, while utilizing small datasets, on the order of merely $\sim 500$ samples, for training.
翻訳日:2021-02-08 12:51:23 公開日:2021-02-05
# HF_Lung_V1における呼吸相と入射音検出のための8つの繰り返しニューラルネットワークのベンチマーク

Benchmarking of eight recurrent neural network variants for breath phase and adventitious sound detection on a self-developed open-access lung sound database-HF_Lung_V1 ( http://arxiv.org/abs/2102.03049v1 )

ライセンス: Link先を確認
Fu-Shun Hsu, Shang-Ran Huang, Chien-Wen Huang, Chao-Jung Huang, Yuan-Ren Cheng, Chun-Chieh Chen, Jack Hsiao, Chung-Wei Chen, Li-Chin Chen, Yen-Chun Lai, Bi-Fang Hsu, Nian-Jhen Lin, Wan-Lin Tsai, Yi-Lin Wu, Tzu-Ling Tseng, Ching-Ting Tseng, Yi-Tsun Chen, Feipei Lai(参考訳) 従来の聴診を手持ち聴診器で置き換えるには,2019年の新型コロナウイルスの進行状況のモニタリングなど,多くの臨床シナリオにおいて,自動呼吸音解析機能を備えた,信頼性の高い遠隔連続リアルタイム呼吸音モニターが必要である。 しかし,ロバストなコンピュータによる呼吸音解析アルゴリズムが実用化されていない。 本研究では,9,765個の肺音(それぞれ15秒),34,095個の吸入ラベル,18,349個の吸入ラベル,13,883個の連続冒険音(CAS)ラベル(計8,457個のワイズラベル,686個のストリドールラベル,4,740個のホンチラベルを含む肺音データベース(HF_Lung_V1)を開発した。 長期メモリ(LSTM)、ゲートリカレントユニット(GRU)、双方向LSTM(BiLSTM)、双方向GRU(BiGRU)、畳み込みニューラルネットワーク(CNN)-LSTM、CNN-GRU、CNN-BiLSTM、CNN-BiGRUモデルのベンチマークテストを行い、呼吸段階の検出と冒険音検出を行った。 また,LSTMベースモデルとGRUベースモデル,一方向モデルと双方向モデル,CNNの有無による性能比較を行った。 その結果,これらのモデルが肺音解析に十分な性能を示した。 GRUベースのモデルは、F1スコアと受信機の動作特性曲線下の領域の点で、定義されたタスクのほとんどでLSTMベースのモデルよりも優れています。 さらに、全ての双方向モデルは一方向モデルよりも優れていた。 最後に、CNNの追加により、特にCAS検出タスクにおいて、肺の音像解析の精度が向上した。

A reliable, remote, and continuous real-time respiratory sound monitor with automated respiratory sound analysis ability is urgently required in many clinical scenarios-such as in monitoring disease progression of coronavirus disease 2019-to replace conventional auscultation with a handheld stethoscope. However, a robust computerized respiratory sound analysis algorithm has not yet been validated in practical applications. In this study, we developed a lung sound database (HF_Lung_V1) comprising 9,765 audio files of lung sounds (duration of 15 s each), 34,095 inhalation labels, 18,349 exhalation labels, 13,883 continuous adventitious sound (CAS) labels (comprising 8,457 wheeze labels, 686 stridor labels, and 4,740 rhonchi labels), and 15,606 discontinuous adventitious sound labels (all crackles). We conducted benchmark tests for long short-term memory (LSTM), gated recurrent unit (GRU), bidirectional LSTM (BiLSTM), bidirectional GRU (BiGRU), convolutional neural network (CNN)-LSTM, CNN-GRU, CNN-BiLSTM, and CNN-BiGRU models for breath phase detection and adventitious sound detection. We also conducted a performance comparison between the LSTM-based and GRU-based models, between unidirectional and bidirectional models, and between models with and without a CNN. The results revealed that these models exhibited adequate performance in lung sound analysis. The GRU-based models outperformed, in terms of F1 scores and areas under the receiver operating characteristic curves, the LSTM-based models in most of the defined tasks. Furthermore, all bidirectional models outperformed their unidirectional counterparts. Finally, the addition of a CNN improved the accuracy of lung sound analysis, especially in the CAS detection tasks.
翻訳日:2021-02-08 12:50:53 公開日:2021-02-05
# ホワイトボックスオーディオVST効果プログラミング

White-box Audio VST Effect Programming ( http://arxiv.org/abs/2102.03170v1 )

ライセンス: Link先を確認
Christopher Mitcheltree and Hideki Koike(参考訳) オーディオプロダクションVSTプラグインをプログラムする学習は、通常、非効率な試行とエラーによって得られる時間のかかるプロセスであり、広範囲なユーザー体験の後のみマスターされる。 本論文では,ユーザの音声信号を目的の音声に変化させるための音声効果を段階的に指示するホワイトボックス反復システムを提案する。 我々はXfer Records Serumにシステムを適用し、現在オーディオ制作コミュニティで使われている最もポピュラーで複雑なVSTシンセサイザーの1つである。 以上の結果から,本システムは様々な音響効果やシンセサイザー・プリセットに対する有用なフィードバックを一貫して提供できることが示唆された。

Learning to program an audio production VST plugin is a time consuming process, usually obtained through inefficient trial and error and only mastered after extensive user experience. We propose a white-box, iterative system that provides step-by-step instructions for applying audio effects to change a user's audio signal towards a desired sound. We apply our system to Xfer Records Serum: currently one of the most popular and complex VST synthesizers used by the audio production community. Our results indicate that our system is consistently able to provide useful feedback for a variety of different audio effects and synthesizer presets.
翻訳日:2021-02-08 12:50:10 公開日:2021-02-05
# 音楽分類のためのマルチタスク自己監督プリトレーニング

Multi-Task Self-Supervised Pre-Training for Music Classification ( http://arxiv.org/abs/2102.03229v1 )

ライセンス: Link先を確認
Ho-Hsiang Wu, Chieh-Chi Kao, Qingming Tang, Ming Sun, Brian McFee, Juan Pablo Bello, Chao Wang(参考訳) ディープラーニングは非常にデータに飢えており、教師付き学習には特に大量のラベル付きデータが必要になります。 機械リスニング研究は、人間のアノテーション取得にコストがかかり、音声に対するアノテーションは時間がかかり、直感的ではないため、ラベル付きデータの問題に苦しむことが多い。 さらに、ラベル付きデータセットから学んだモデルは、その特定のデータセット固有のバイアスを埋め込むことが多い。 したがって、教師なし学習技術は、機械リスニング問題を解決するための一般的なアプローチとなる。 特に、複数の手作り音声特徴の再構成を利用した自己教師あり学習手法は、感情認識や自動音声認識(asr)などの音声領域に適用すると有望な結果が得られる。 本稿では,音楽エンコーダの事前学習に自己教師とマルチタスク学習手法を適用し,エンコーダアーキテクチャ,複数タスクからの損失を組み合わせる重み付け機構,プリテキストタスクの作業者選択など,さまざまな設計選択について検討する。 これらのデザイン選択が下流の音楽分類課題とどのように相互作用するかを検討する。 プレトレーニング中の損失のバランスをとるための重み付け機構を備えた,さまざまな音楽固有の作業員が,ダウンストリームタスクの改善と一般化に役立ちます。

Deep learning is very data hungry, and supervised learning especially requires massive labeled data to work well. Machine listening research often suffers from limited labeled data problem, as human annotations are costly to acquire, and annotations for audio are time consuming and less intuitive. Besides, models learned from labeled dataset often embed biases specific to that particular dataset. Therefore, unsupervised learning techniques become popular approaches in solving machine listening problems. Particularly, a self-supervised learning technique utilizing reconstructions of multiple hand-crafted audio features has shown promising results when it is applied to speech domain such as emotion recognition and automatic speech recognition (ASR). In this paper, we apply self-supervised and multi-task learning methods for pre-training music encoders, and explore various design choices including encoder architectures, weighting mechanisms to combine losses from multiple tasks, and worker selections of pretext tasks. We investigate how these design choices interact with various downstream music classification tasks. We find that using various music specific workers altogether with weighting mechanisms to balance the losses during pre-training helps improve and generalize to the downstream tasks.
翻訳日:2021-02-08 12:49:59 公開日:2021-02-05
# (参考訳) 自動運転車のリアルタイム最適軌道計画と機械学習によるラップタイムシミュレーション [全文訳有]

Real-Time Optimal Trajectory Planning for Autonomous Vehicles and Lap Time Simulation Using Machine Learning ( http://arxiv.org/abs/2102.02315v2 )

ライセンス: CC BY 4.0
Sam Garlick and Andrew Bradley(参考訳) ドライバーレス車両の広範な開発は、モータースポーツの高速と激しい競争が技術開発を加速するためのテストベッドを提供する自律レース競争の形成をもたらしました。 自動運転車の特に課題は、目標の軌道を識別することである - あるいは、レーシングカーの場合、理想的なレースラインである。 レースラインを特定するための既存のアプローチの多くは、時間最適化ソリューションではないか、あるいは計算コストのかかるソリューション時間を持っているため、オンボード処理ハードウェアを使用したリアルタイムアプリケーションには適さない。 本稿では,デスクトップ処理ハードウェア上でリアルタイムにレースラインを正確に予測する機械学習手法について述べる。 提案アルゴリズムは,従来の最適制御ラップタイムシミュレーションにより計算された多数の回路のレースラインを含むデータセットを用いて学習する,高密度なフィードフォワードニューラルネットワークである。 このネットワークは、平均絶対誤差+/-0.27mでレースラインを予測できるので、精度は人間のドライバーより優れており、自動運転車制御システムの他の部分と同等である。 システムは33ms以内の予測を生成し、最適なレースラインを見つける従来の方法の9000倍以上高速になります。 結果から,データ駆動型アプローチは従来の計算手法よりも,ほぼ最適なレースラインのリアルタイム生成に好適であることが示唆された。

The widespread development of driverless vehicles has led to the formation of autonomous racing competitions, where the high speeds and fierce rivalry in motorsport provide a testbed to accelerate technology development. A particular challenge for an autonomous vehicle is that of identifying a target trajectory - or in the case of a racing car, the ideal racing line. Many existing approaches to identifying the racing line are either not the time-optimal solutions, or have solution times which are computationally expensive, thus rendering them unsuitable for real-time application using on-board processing hardware. This paper describes a machine learning approach to generating an accurate prediction of the racing line in real-time on desktop processing hardware. The proposed algorithm is a dense feed-forward neural network, trained using a dataset comprising racing lines for a large number of circuits calculated via a traditional optimal control lap time simulation. The network is capable of predicting the racing line with a mean absolute error of +/-0.27m, meaning that the accuracy outperforms a human driver, and is comparable to other parts of the autonomous vehicle control system. The system generates predictions within 33ms, making it over 9,000 times faster than traditional methods of finding the optimal racing line. Results suggest that a data-driven approach may therefore be favourable for real-time generation of near-optimal racing lines than traditional computational methods.
翻訳日:2021-02-08 12:49:11 公開日:2021-02-05