このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200626となっている論文です。

PDF登録状況(公開日: 20200626)

TitleAuthorsAbstract論文公表日・翻訳日
# 多目的最適化のための人口分布に基づく2段階適応的知識伝達進化型マルチタスク

A Two stage Adaptive Knowledge Transfer Evolutionary Multi-tasking Based on Population Distribution for Multi/Many-Objective Optimization ( http://arxiv.org/abs/2001.00810v3 )

ライセンス: Link先を確認
Zhengping Liang, Weiqi Liang, Xiuju Xu, Ling Liu and Zexuan Zhu(参考訳) マルチタスク最適化は通常、タスク間の知識伝達を通じて従来のシングルタスク最適化よりも優れたパフォーマンスを達成することができる。 しかし、現在のマルチタスク最適化アルゴリズムにはいくつかの欠点がある。 高類似性問題に対して、タスクの収束率を加速できる知識は、完全には受け取られていない。 類似度が低い場合、負の転送が発生する確率が高いため、最適化性能が劣化する可能性がある。 また, これまでに提案した知識伝達手法では, 住民が地域的最適に陥る状況に対処する方法を十分に考慮していないものもある。 この問題を解決するために,emt-pdと呼ばれる集団分布に基づく2段階適応型知識伝達進化型マルチタスク最適化アルゴリズムを提案する。 EMT-PDは、全人口の探索傾向を反映した確率モデルから抽出した知識に基づいて、タスクの収束性能を加速し改善することができる。 第1の転送段階では、個々の探索のステップサイズを調整するために適応重みが使用され、負の転送の影響を低減することができる。 知識伝達の第2段階では、個体の探索範囲はさらに動的に調整され、個体群の多様性を改善し、局所的最適から飛び出すのに役立つ。 マルチタスク多目的最適化テストスイートの実験結果から,EMT-PDは他の6つの進化的マルチ/シングルタスクアルゴリズムよりも優れていることが示された。 多目的最適化問題に対するemt-pdの有効性をさらに調査するため,マルチタスク多目的テストスイートも設計した。 新しいテストスイートの実験結果もEMT-PDの競争力を示している。

Multi-tasking optimization can usually achieve better performance than traditional single-tasking optimization through knowledge transfer between tasks. However, current multi-tasking optimization algorithms have some deficiencies. For high similarity problems, the knowledge that can accelerate the convergence rate of tasks has not been fully taken advantages of. For low similarity problems, the probability of generating negative transfer is high, which may result in optimization performance degradation. In addition, some knowledge transfer methods proposed previously do not fully consider how to deal with the situation in which the population falls into local optimum. To solve these issues, a two-stage adaptive knowledge transfer evolutionary multi-tasking optimization algorithm based on population distribution, labeled as EMT-PD, is proposed. EMT-PD can accelerate and improve the convergence performance of tasks based on the knowledge extracted from the probability model that reflects the search trend of the whole population. At the first transfer stage, an adaptive weight is used to adjust the step size of individual's search, which can reduce the impact of negative transfer. At the second stage of knowledge transfer, the individual's search range is further adjusted dynamically, which can improve the diversity of population and be beneficial for jumping out of local optimum. Experimental results on multi-tasking multi-objective optimization test suites show that EMT-PD is superior to other six state-of-the-art evolutionary multi/single-tasking algorithms. To further investigate the effectiveness of EMT-PD on many-objective optimization problems, a multi-tasking many-objective test suite is also designed in this paper. The experimental results on the new test suite also demonstrate the competitiveness of EMT-PD.
翻訳日:2023-01-14 17:37:32 公開日:2020-06-26
# 医学画像における不確定逆問題の深層学習に基づく可解性

Deep Learning-Based Solvability of Underdetermined Inverse Problems in Medical Imaging ( http://arxiv.org/abs/2001.01432v3 )

ライセンス: Link先を確認
Chang Min Hyun, Seong Hyeon Baek, Mingyu Lee, Sung Min Lee, and Jin Keun Seo(参考訳) 近年, 深層学習技術の進歩に伴い, 医療画像領域における課題の一つとして, 逆問題の解法が注目されている。 例としては、アンダーサンプリング磁気共鳴イメージング、内部トモグラフィ、深層学習技術が優れたパフォーマンスを達成したスパースビュー計算トモグラフィなどがある。 深層学習法は,未定の諸問題を扱う際の既存の数学的手法の限界を克服しているように思われるが,深層学習法の性能向上の理由を明らかにするための厳密な数学的基礎が欠如している。 本研究では,深層学習に適した学習データの構造に関する因果関係を学習し,高度に不確定な逆問題を解く。 医用画像における不確定な線形系の解法に関する問題の大部分は、高度に非線形である。 さらに、トレーニングデータから所望の再構成マップを学習可能かどうか、過小評価システムから分析する。

Recently, with the significant developments in deep learning techniques, solving underdetermined inverse problems has become one of the major concerns in the medical imaging domain. Typical examples include undersampled magnetic resonance imaging, interior tomography, and sparse-view computed tomography, where deep learning techniques have achieved excellent performances. Although deep learning methods appear to overcome the limitations of existing mathematical methods when handling various underdetermined problems, there is a lack of rigorous mathematical foundations that would allow us to elucidate the reasons for the remarkable performance of deep learning methods. This study focuses on learning the causal relationship regarding the structure of the training data suitable for deep learning, to solve highly underdetermined inverse problems. We observe that a majority of the problems of solving underdetermined linear systems in medical imaging are highly non-linear. Furthermore, we analyze if a desired reconstruction map can be learnable from the training data and underdetermined system.
翻訳日:2023-01-14 02:09:23 公開日:2020-06-26
# 局所地盤認識とシーン表面適応表現を用いた点雲上の3次元物体検出

3D Object Detection on Point Clouds using Local Ground-aware and Adaptive Representation of scenes' surface ( http://arxiv.org/abs/2002.00336v2 )

ライセンス: Link先を確認
Arun CS Kumar, Disha Ahuja, Ashwath Aithal(参考訳) 新規で適応的な地上認識と費用対効果の高い3次元物体検出パイプラインを提案する。 この論文で導入された地上面の表現は、単平面(単平面で3次元シーン全体の表面をモデル化する手法)と比較して、約10倍高速でありながらはるかに正確である。 接地表現の斬新さは、シーンの表面がライダー認識問題で表される方法と、それが計算される(コスト効率のよい)方法の両方にある。 さらに、提案したオブジェクト検出パイプラインは、従来の2段階オブジェクト検出モデルに基づいて、シーンの表面を動的に推論する機能を導入し、最終的に2段階Lidarオブジェクト検出パイプライン間の新しい最先端3Dオブジェクト検出性能を実現する。

A novel, adaptive ground-aware, and cost-effective 3D Object Detection pipeline is proposed. The ground surface representation introduced in this paper, in comparison to its uni-planar counterparts (methods that model the surface of a whole 3D scene using single plane), is far more accurate while being ~10x faster. The novelty of the ground representation lies both in the way in which the ground surface of the scene is represented in Lidar perception problems, as well as in the (cost-efficient) way in which it is computed. Furthermore, the proposed object detection pipeline builds on the traditional two-stage object detection models by incorporating the ability to dynamically reason the surface of the scene, ultimately achieving a new state-of-the-art 3D object detection performance among the two-stage Lidar Object Detection pipelines.
翻訳日:2023-01-04 20:07:04 公開日:2020-06-26
# 関係正規化による自動エンコーダの学習

Learning Autoencoders with Relational Regularization ( http://arxiv.org/abs/2002.02913v4 )

ライセンス: Link先を確認
Hongteng Xu, Dixin Luo, Ricardo Henao, Svati Shah, Lawrence Carin(参考訳) データ分散のオートエンコーダを学習するための新しいアルゴリズムフレームワークを提案する。 モデルと対象分布の差を最小化し、学習可能な潜在性前置値に \emph{relational regularization} を付与する。 この正規化は、潜在前置と対応する後置との間の融合グロモフ=ワッセルシュタイン(fgw)距離をペナルティ化し、生成モデルに関連する構造化前置分布を柔軟に学習することができる。 さらに、不均一なアーキテクチャや非互換な潜在空間を持つ場合でも、複数のオートエンコーダの協調訓練を支援する。 我々は,このフレームワークを2つのスケーラブルなアルゴリズムで実装し,確率的および決定論的オートエンコーダに適用する。 私たちのrelational regularized autoencoder (rae) は、画像生成において既存のメソッド、例えば$、変分オートエンコーダ、waserstein autoencoder、およびそれらの変種よりも優れています。 さらに,自動エンコーダのリレーショナルコトレーニング戦略は,実世界のマルチビュー学習タスクと合成の双方において促進的な結果をもたらす。 コードはhttps://github.com/HongtengXu/ Relational-AutoEncodersにある。

A new algorithmic framework is proposed for learning autoencoders of data distributions. We minimize the discrepancy between the model and target distributions, with a \emph{relational regularization} on the learnable latent prior. This regularization penalizes the fused Gromov-Wasserstein (FGW) distance between the latent prior and its corresponding posterior, allowing one to flexibly learn a structured prior distribution associated with the generative model. Moreover, it helps co-training of multiple autoencoders even if they have heterogeneous architectures and incomparable latent spaces. We implement the framework with two scalable algorithms, making it applicable for both probabilistic and deterministic autoencoders. Our relational regularized autoencoder (RAE) outperforms existing methods, $e.g.$, the variational autoencoder, Wasserstein autoencoder, and their variants, on generating images. Additionally, our relational co-training strategy for autoencoders achieves encouraging results in both synthesis and real-world multi-view learning tasks. The code is at https://github.com/HongtengXu/ Relational-AutoEncoders.
翻訳日:2023-01-03 04:00:24 公開日:2020-06-26
# Kalman Recursion を用いた確率的オンライン最適化

Stochastic Online Optimization using Kalman Recursion ( http://arxiv.org/abs/2002.03636v2 )

ライセンス: Link先を確認
Joseph de Vilmarest (LPSM (UMR\_8001)), Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) 定数力学における拡張カルマンフィルタの研究を行い、確率最適化のベイズ的視点を提供する。 非拘束状態での累積過剰リスクに対する高い確率境界を求める。 投影ステップを回避するために,二相解析を提案する。 まず, 線形回帰とロジスティック回帰に対して, 推定値が最適付近の小さな領域に留まる局所的な位相にアルゴリズムが入ることを証明した。 この収束時間に高い確率で明示的な境界を与える。 第二に, 一般化線形回帰に対して, 局所相における過剰リスクのマルティンゲール解析を行い, 有界確率最適化における既存リスクを改善した。 EKFはパラメータフリーなオンラインアルゴリズムとして出現し、1イテレーションあたりのO(d^2)コストは制約のない最適化問題を最適に解決する。

We study the Extended Kalman Filter in constant dynamics, offering a bayesian perspective of stochastic optimization. We obtain high probability bounds on the cumulative excess risk in an unconstrained setting. In order to avoid any projection step we propose a two-phase analysis. First, for linear and logistic regressions, we prove that the algorithm enters a local phase where the estimate stays in a small region around the optimum. We provide explicit bounds with high probability on this convergence time. Second, for generalized linear regressions, we provide a martingale analysis of the excess risk in the local phase, improving existing ones in bounded stochastic optimization. The EKF appears as a parameter-free online algorithm with O(d^2) cost per iteration that optimally solves some unconstrained optimization problems.
翻訳日:2023-01-02 08:49:27 公開日:2020-06-26
# 正規化情報最大化を伴う畳み込みニューラルネットワークによるスーパーピクセルセグメンテーション

Superpixel Segmentation via Convolutional Neural Networks with Regularized Information Maximization ( http://arxiv.org/abs/2002.06765v3 )

ライセンス: Link先を確認
Teppei Suzuki(参考訳) ランダム初期化畳み込みニューラルネットワーク(CNN)を推論時間で最適化し,教師なしのスーパーピクセルセグメンテーション手法を提案する。 提案手法は,スーパーピクセルセグメンテーションの目的関数を最小化することにより,ラベルのない単一画像からスーパーピクセルを生成する。 本手法には既存の手法に比べて3つの利点がある。 (i)スーパーピクセルのセグメンテーションにcnnより前の画像を利用する。 (二)所定の画像に応じてスーパーピクセルの数を適応的に変更し、 (iii)目的関数に補助コストを加えることにより、スーパーピクセルの特性を制御する。 BSDS500 と SBD のデータセット上で,本手法の利点を定量的かつ質的に検証する。

We propose an unsupervised superpixel segmentation method by optimizing a randomly-initialized convolutional neural network (CNN) in inference time. Our method generates superpixels via CNN from a single image without any labels by minimizing a proposed objective function for superpixel segmentation in inference time. There are three advantages to our method compared with many of existing methods: (i) leverages an image prior of CNN for superpixel segmentation, (ii) adaptively changes the number of superpixels according to the given images, and (iii) controls the property of superpixels by adding an auxiliary cost to the objective function. We verify the advantages of our method quantitatively and qualitatively on BSDS500 and SBD datasets.
翻訳日:2022-12-31 12:16:36 公開日:2020-06-26
# ニューラルネットワークの確率性:実証的研究

Stochasticity in Neural ODEs: An Empirical Study ( http://arxiv.org/abs/2002.09779v2 )

ライセンス: Link先を確認
Viktor Oganesyan, Alexandra Volokhova, Dmitry Vetrov(参考訳) ニューラルネットワークの確率的正則化(例えば、ドロップアウト)は、より高度な一般化を可能にする深層学習の幅広い手法である。 その成功にもかかわらず、ニューラル常微分方程式(ODE)のような連続時間モデルは、通常完全に決定論的フィードフォワード演算に依存する。 この研究は、いくつかの画像分類タスク(cifar-10、cifar-100、tinyimagenet)における確率的正規化ニューラルodeの実証研究を提供する。 確率微分方程式 (SDE) の定式化を基礎として, ニューラルSDEが決定論的に優れていることを示す。 さらに、トレーニング中のデータ拡張により、同じモデルの決定論的および確率的両方のモデルの性能が向上することを示す。 しかし、データ拡張により得られた改善により、確率正規化の実証的な利得は完全に排除され、ニューラルODEとニューラルSDEの性能の差が無視される。

Stochastic regularization of neural networks (e.g. dropout) is a wide-spread technique in deep learning that allows for better generalization. Despite its success, continuous-time models, such as neural ordinary differential equation (ODE), usually rely on a completely deterministic feed-forward operation. This work provides an empirical study of stochastically regularized neural ODE on several image-classification tasks (CIFAR-10, CIFAR-100, TinyImageNet). Building upon the formalism of stochastic differential equations (SDEs), we demonstrate that neural SDE is able to outperform its deterministic counterpart. Further, we show that data augmentation during the training improves the performance of both deterministic and stochastic versions of the same model. However, the improvements obtained by the data augmentation completely eliminate the empirical gains of the stochastic regularization, making the difference in the performance of neural ODE and neural SDE negligible.
翻訳日:2022-12-29 18:51:49 公開日:2020-06-26
# IMUジャイロスコープの深層学習による開ループ姿勢推定

Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude Estimation ( http://arxiv.org/abs/2002.10718v2 )

ライセンス: Link先を確認
Martin Brossard (CAOR), Silvere Bonnabel (UNC), Axel Barrau (CAOR)(参考訳) 本稿では,地上真理データを用いて慣性測定単位(imus)のジャイロスコープを推定し,死推定中のロボットの方向(姿勢)をリアルタイムに推定する学習手法を提案する。 得られたアルゴリズムは、(予期せぬ)テストシーケンスの最先端を上回っている。 得られた性能は、高頻度慣性データを用いたトレーニングにおけるキーポイントの識別により、ウェル・チョーゼンモデル、方位インクリメントの適切な損失関数により達成される。 我々のアプローチは、リカレントニューラルネットワークを必要とせず、拡張畳み込みに基づくニューラルネットワークの上に構築されている。 我々はEuRoCとTUM-VIデータセットの3次元姿勢推定がいかに効果的かを示す。 興味深いことに、我々のデッドリコンシングアルゴリズムは、視覚センサを使用しないにもかかわらず、姿勢推定の観点からトップランクの視覚慣性オドメトリシステムを打ち負かしている。 本稿では,視覚-慣性ローカライゼーションのための新たな視点を提供し,IMUを含むより効率的な学習方法の一歩となると信じている。 当社のオープンソース実装はhttps://github.com/mbrossar/denoise-imu-gyroで利用可能です。

This paper proposes a learning method for denoising gyroscopes of Inertial Measurement Units (IMUs) using ground truth data, and estimating in real time the orientation (attitude) of a robot in dead reckoning. The obtained algorithm outperforms the state-of-the-art on the (unseen) test sequences. The obtained performances are achieved thanks to a well-chosen model, a proper loss function for orientation increments, and through the identification of key points when training with high-frequency inertial data. Our approach builds upon a neural network based on dilated convolutions, without requiring any recurrent neural network. We demonstrate how efficient our strategy is for 3D attitude estimation on the EuRoC and TUM-VI datasets. Interestingly, we observe our dead reckoning algorithm manages to beat top-ranked visual-inertial odometry systems in terms of attitude estimation although it does not use vision sensors. We believe this paper offers new perspectives for visual-inertial localization and constitutes a step toward more efficient learning methods involving IMUs. Our open-source implementation is available at https://github.com/mbrossar/denoise-imu-gyro.
翻訳日:2022-12-28 22:05:32 公開日:2020-06-26
# 説明可能性と逆シャップ学習による公平性

Fairness by Explicability and Adversarial SHAP Learning ( http://arxiv.org/abs/2003.05330v3 )

ライセンス: Link先を確認
James M. Hickey, Pietro G. Di Stefano and Vlasios Vasileiou(参考訳) モデル予測の公平性を理解し信頼する能力、特に特権のないグループの成果を考える場合、機械学習システムの展開と採用には不可欠である。 SHAP値は、モデル予測と特徴属性を解釈する統一的なフレームワークを提供するが、公平性の問題に直接対処しない。 本稿では,外部監査者の役割とモデルの検証可能性を強調した公平性の新しい定義を提案する。 この定義を満たすために、逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。 我々は、単一特権グループによる二項分類タスクに焦点をあて、古典的な統計的公正度指標と公正さの制約を結びつける。 総合データセット、uciアダルトデータセット(census)、現実世界のクレジットスコアデータセットという、グラデーションと適応的なブースティングを用いて、我々のアプローチを実証する。 生産されたモデルはより公正でパフォーマンスが良かった。

The ability to understand and trust the fairness of model predictions, particularly when considering the outcomes of unprivileged groups, is critical to the deployment and adoption of machine learning systems. SHAP values provide a unified framework for interpreting model predictions and feature attribution but do not address the problem of fairness directly. In this work, we propose a new definition of fairness that emphasises the role of an external auditor and model explicability. To satisfy this definition, we develop a framework for mitigating model bias using regularizations constructed from the SHAP values of an adversarial surrogate model. We focus on the binary classification task with a single unprivileged group and link our fairness explicability constraints to classical statistical fairness metrics. We demonstrate our approaches using gradient and adaptive boosting on: a synthetic dataset, the UCI Adult (Census) dataset and a real-world credit scoring dataset. The models produced were fairer and performant.
翻訳日:2022-12-24 13:48:08 公開日:2020-06-26
# GraphNet Zoo: 医用画像分類のためのオールインワングラフベースのDeep Semi-Supervised Framework

The GraphNet Zoo: An All-in-One Graph Based Deep Semi-Supervised Framework for Medical Image Classification ( http://arxiv.org/abs/2003.06451v2 )

ライセンス: Link先を確認
Marianne de Vriendt, Philip Sellars, Angelica I Aviles-Rivero(参考訳) ラベル数が限られている場合,医療画像データセットの分類の問題を考える。 ラベル付きデータは高価であり、収集に時間がかかり、専門家の知識を必要とするため、これは非常に一般的だが困難な設定である。 深い教師付き学習の現在の分類は、そのような問題設定に対処できない。 しかし、半教師付き学習を用いることで、ラベル付きデータの量を大幅に削減して正確な分類を作成できる。 したがって、半教師付き学習は医用画像分類に最適である。 しかし,医療領域では半監督的手法がほとんど採用されていない。 本研究では,グラフに基づくアプローチに着目した深い半教師付き分類のためのオールインワンフレームワークを提案する。 エネルギーモデルとディープネットの組合せとして分類器を定義することによってハイブリッドモデルの概念を導入する。 我々のエネルギー汎関数はグラフ p-ラプラシアンに基づくディリクレエネルギーに基づいている。 我々のフレームワークは$\ell_1$と$\ell_2$ノルムに基づくエネルギーを含んでいる。 このエネルギーモデルをディープネットに接続し、よりリッチな特徴空間を生成してより強力なグラフを構築する。 私たちのフレームワークは、どんな複雑なデータセットにも適応するように設定できます。 本手法は, マラリア細胞, マンモグラム, 胸部X線分類を, ラベルの20%しか使用せず, 完全に監督された最先端技術と容易に競合することを示す。

We consider the problem of classifying a medical image dataset when we have a limited amounts of labels. This is very common yet challenging setting as labelled data is expensive, time consuming to collect and may require expert knowledge. The current classification go-to of deep supervised learning is unable to cope with such a problem setup. However, using semi-supervised learning, one can produce accurate classifications using a significantly reduced amount of labelled data. Therefore, semi-supervised learning is perfectly suited for medical image classification. However, there has almost been no uptake of semi-supervised methods in the medical domain. In this work, we propose an all-in-one framework for deep semi-supervised classification focusing on graph based approaches, which up to our knowledge it is the first time that an approach with minimal labels has been shown to such an unprecedented scale with medical data. We introduce the concept of hybrid models by defining a classifier as a combination between an energy-based model and a deep net. Our energy functional is built on the Dirichlet energy based on the graph p-Laplacian. Our framework includes energies based on the $\ell_1$ and $\ell_2$ norms. We then connected this energy model to a deep net to generate a much richer feature space to construct a stronger graph. Our framework can be set to be adapted to any complex dataset. We demonstrate, through extensive numerical comparisons, that our approach readily compete with fully-supervised state-of-the-art techniques for the applications of Malaria Cells, Mammograms and Chest X-ray classification whilst using only 20% of labels.
翻訳日:2022-12-24 01:59:10 公開日:2020-06-26
# 深部偽画像認識における周波数解析の活用

Leveraging Frequency Analysis for Deep Fake Image Recognition ( http://arxiv.org/abs/2003.08685v3 )

ライセンス: Link先を確認
Joel Frank, Thorsten Eisenhofer, Lea Sch\"onherr, Asja Fischer, Dorothea Kolossa, Thorsten Holz(参考訳) ディープニューラルネットワークは驚くべきほどリアルな画像を生成することができるため、人間が実際の写真と区別するのはしばしば困難である。 これらの成果は主にGAN(Generative Adversarial Networks)によって実現されている。 画像領域(画像鑑定分野からの古典的アプローチ)では、深い偽画像が徹底的に研究されているが、これまで周波数領域における分析が欠落している。 本稿では, この欠点に対処し, 周波数空間において, GAN生成画像は, 容易に識別できる重大アーチファクトを示すことを示した。 包括的な分析を行い、これらのアーティファクトが、異なるニューラルネットワークアーキテクチャ、データセット、解像度にわたって一貫していることを示します。 さらなる調査で、これらのアーティファクトは、現在のGANアーキテクチャのすべてに見られるアップサンプリング操作によって引き起こされていることを実証し、GANによる画像生成における構造的および基本的な問題を示している。 この分析に基づいて, 周波数表現を用いて, 最先端手法を上回って, ディープフェイク画像の自動識別を行う方法を示す。

Deep neural networks can generate images that are astonishingly realistic, so much so that it is often hard for humans to distinguish them from actual photos. These achievements have been largely made possible by Generative Adversarial Networks (GANs). While deep fake images have been thoroughly investigated in the image domain - a classical approach from the area of image forensics - an analysis in the frequency domain has been missing so far. In this paper, we address this shortcoming and our results reveal that in frequency space, GAN-generated images exhibit severe artifacts that can be easily identified. We perform a comprehensive analysis, showing that these artifacts are consistent across different neural network architectures, data sets, and resolutions. In a further investigation, we demonstrate that these artifacts are caused by upsampling operations found in all current GAN architectures, indicating a structural and fundamental problem in the way images are generated via GANs. Based on this analysis, we demonstrate how the frequency representation can be used to identify deep fake images in an automated way, surpassing state-of-the-art methods.
翻訳日:2022-12-22 04:52:22 公開日:2020-06-26
# 一般線形モデルにおける相関データの半解析近似安定性選択

Semi-analytic approximate stability selection for correlated data in generalized linear models ( http://arxiv.org/abs/2003.08670v2 )

ライセンス: Link先を確認
Takashi Takahashi, Yoshiyuki Kabashima(参考訳) 一般化線形モデル(GLM)の変数選択問題を考察する。 安定選択(SS)はこの問題を解決するための有望な手法である。 SSは実用的な変数選択基準を提供するが、多くの再サンプリングデータセットにGLMを適合させる必要があるため、計算的に要求される。 繰り返し適合することなくssを実行できる新しい近似推定アルゴリズムを提案する。 このアルゴリズムは、統計力学のレプリカ法と情報理論のベクトル近似メッセージパッシング法に基づいている。 回転不変行列アンサンブルを特徴とするデータセットに対して,提案アルゴリズムのダイナミクスを大局的に記述した状態進化方程式を導出する。 また、それらの固定点はレプリカ法で得られたレプリカ対称解と一致していることを示す。 数値実験により、このアルゴリズムは合成データと実世界のデータの両方に対して高速収束と高い近似精度を示すことが示された。

We consider the variable selection problem of generalized linear models (GLMs). Stability selection (SS) is a promising method proposed for solving this problem. Although SS provides practical variable selection criteria, it is computationally demanding because it needs to fit GLMs to many re-sampled datasets. We propose a novel approximate inference algorithm that can conduct SS without the repeated fitting. The algorithm is based on the replica method of statistical mechanics and vector approximate message passing of information theory. For datasets characterized by rotation-invariant matrix ensembles, we derive state evolution equations that macroscopically describe the dynamics of the proposed algorithm. We also show that their fixed points are consistent with the replica symmetric solution obtained by the replica method. Numerical experiments indicate that the algorithm exhibits fast convergence and high approximation accuracy for both synthetic and real-world data.
翻訳日:2022-12-22 04:16:24 公開日:2020-06-26
# Squeeze-Excitation Residual Networks を用いた音響シーン分類

Acoustic Scene Classification with Squeeze-Excitation Residual Networks ( http://arxiv.org/abs/2003.09284v3 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Sergi Perez-Castanos, Pedro Zuccarello and Maximo Cobos(参考訳) 音響シーン分類(ASC)は、シーン位置(例えば、公園、空港など)を表す予め定義されたラベルに音声クリップを分類・タグ付けすることを目的とする機械聴取の分野に関する問題である。 ASCの最先端ソリューションの多くは、データ拡張技術とモデルアンサンブルを取り入れている。 しかし、畳み込みニューラルネットワーク(CNN)のアーキテクチャを変更するだけで、大幅な改善が達成できる。 本研究では,残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。 圧縮励磁ブロックの主な考え方は、標準的なCNNと共同で行うのではなく、空間的およびチャネル的特徴写像を独立に学習することである。 これは、いくつかの大域群演算子、線型演算子、ブロックの入力と得られた関係の間の最終的なキャリブレーションによって達成される。 このような演算子を実装し、それゆえニューラルネットワーク全体のブロックの挙動は、ブロックへの入力、確立された残留構成、選択された非線形アクティベーションに応じて変更することができる。 この分析は、DCASEチャレンジの2019年版で発表されたTAU Urban Acoustic Scenes 2019データセット(https://zenodo.org/record/2589280)を使用して実施された。 この文書で議論されたすべての構成は、DCASEの組織によって提案されたベースラインのパフォーマンスを13.5%上回る。 次に,本論文で提案する新規構成は,先行研究で提案されている残存構成を上回っている。

Acoustic scene classification (ASC) is a problem related to the field of machine listening whose objective is to classify/tag an audio clip in a predefined label describing a scene location (e. g. park, airport, etc.). Many state-of-the-art solutions to ASC incorporate data augmentation techniques and model ensembles. However, considerable improvements can also be achieved only by modifying the architecture of convolutional neural networks (CNNs). In this work we propose two novel squeeze-excitation blocks to improve the accuracy of a CNN-based ASC framework based on residual learning. The main idea of squeeze-excitation blocks is to learn spatial and channel-wise feature maps independently instead of jointly as standard CNNs do. This is usually achieved by some global grouping operators, linear operators and a final calibration between the input of the block and its obtained relationships. The behavior of the block that implements such operators and, therefore, the entire neural network, can be modified depending on the input to the block, the established residual configurations and the selected non-linear activations. The analysis has been carried out using the TAU Urban Acoustic Scenes 2019 dataset (https://zenodo.org/record/2589280) presented in the 2019 edition of the DCASE challenge. All configurations discussed in this document exceed the performance of the baseline proposed by the DCASE organization by 13\% percentage points. In turn, the novel configurations proposed in this paper outperform the residual configurations proposed in previous works.
翻訳日:2022-12-21 23:10:08 公開日:2020-06-26
# 論理回路としてのディープネットワーク:一般化と解釈

Deep Networks as Logical Circuits: Generalization and Interpretation ( http://arxiv.org/abs/2003.11619v2 )

ライセンス: Link先を確認
Christopher Snyder, Sriram Vishwanath(参考訳) ディープニューラルネットワーク(dnn)のブラックボックスモデルだけでなく、私たちはそれを概念化することが多い。 入力と出力をリンクするメカニズムのよい解釈が欠けている。 したがって,(1) ネットワークが何を学習したか,(2) ネットワークが学習したか否かを解析することは困難である。 本稿では、DNN離散分類マップを中間(True/False)分類器の論理的(AND/OR)組合せに階層的に分解する。 原子と呼ばれるさらに分解できない分類器は(解釈可能な)線形分類器である。 本研究では,dnnと同じラベルを計算した線形分類器入力を持つ論理回路を得る。 この回路はネットワークアーキテクチャに構造的に似ていないため、重みの構成によってはパラメータを少なくすることができる。 これらの場合、歴史的に研究されてきた2つのフロントを接続する解釈と一般化境界(元のDNNの場合)を同時に取得する。 圧縮技術とは異なり、我々の表現はそうである。 我々はDNNをシンプルかつ制御された設定で研究し、組合せ情報のみを使用しながら優れた一般化境界を得る(例えば、マージン情報なし)ことで、この視点の有用性を動機付けている。 MNISTデータセット上で"ブラックボックスを開く"方法を実証する。 学習された内部論理計算は、意味論的意味のある(ラベルなし)カテゴリーに対応し、平易な英語でのDNN記述を可能にする。 我々は、DNNである論理回路のコンポーネントの解釈、診断、置換により、既に訓練済みのネットワークの一般化を改善する。

Not only are Deep Neural Networks (DNNs) black box models, but also we frequently conceptualize them as such. We lack good interpretations of the mechanisms linking inputs to outputs. Therefore, we find it difficult to analyze in human-meaningful terms (1) what the network learned and (2) whether the network learned. We present a hierarchical decomposition of the DNN discrete classification map into logical (AND/OR) combinations of intermediate (True/False) classifiers of the input. Those classifiers that can not be further decomposed, called atoms, are (interpretable) linear classifiers. Taken together, we obtain a logical circuit with linear classifier inputs that computes the same label as the DNN. This circuit does not structurally resemble the network architecture, and it may require many fewer parameters, depending on the configuration of weights. In these cases, we obtain simultaneously an interpretation and generalization bound (for the original DNN), connecting two fronts which have historically been investigated separately. Unlike compression techniques, our representation is. We motivate the utility of this perspective by studying DNNs in simple, controlled settings, where we obtain superior generalization bounds despite using only combinatorial information (e.g. no margin information). We demonstrate how to "open the black box" on the MNIST dataset. We show that the learned, internal, logical computations correspond to semantically meaningful (unlabeled) categories that allow DNN descriptions in plain English. We improve the generalization of an already trained network by interpreting, diagnosing, and replacing components the logical circuit that is the DNN.
翻訳日:2022-12-20 02:30:57 公開日:2020-06-26
# Uberにおけるユーザターゲット自動化システムにおけるコンセプトドリフト問題に対する逆検証手法

Adversarial Validation Approach to Concept Drift Problem in User Targeting Automation Systems at Uber ( http://arxiv.org/abs/2004.03045v2 )

ライセンス: Link先を確認
Jing Pan, Vincent Pham, Mohan Dorairaj, Huigang Chen, Jeong-Yoon Lee (Uber Technologies, San Francisco, CA, USA)(参考訳) ユーザターゲティング自動化システムでは、入力データのコンセプトドリフトが大きな課題のひとつです。 時間とともに新しいデータのモデルパフォーマンスが低下する。 概念ドリフトに関するこれまでの研究は、ほとんどが性能低下を観測した後のモデル再訓練である。 しかし,本手法は,新しいデータの性能低下に悩まされた後にのみ問題を修正するため,準最適である。 本稿では,ユーザターゲティング自動化システムにおけるドリフト問題に対する逆検証手法を提案する。 提案手法では,推論の前に新たなデータ内の概念ドリフトを検出し,モデルを学習し,新たなデータに適応した予測を生成する。 当社のアプローチでは,AutoML3 Lifelong Machine Learningの課題データと,Uberの内部ユーザターゲティング自動化システムであるMaLTAで,概念の漂流に効果的に対応しています。

In user targeting automation systems, concept drift in input data is one of the main challenges. It deteriorates model performance on new data over time. Previous research on concept drift mostly proposed model retraining after observing performance decreases. However, this approach is suboptimal because the system fixes the problem only after suffering from poor performance on new data. Here, we introduce an adversarial validation approach to concept drift problems in user targeting automation systems. With our approach, the system detects concept drift in new data before making inference, trains a model, and produces predictions adapted to the new data. We show that our approach addresses concept drift effectively with the AutoML3 Lifelong Machine Learning challenge data as well as in Uber's internal user targeting automation system, MaLTA.
翻訳日:2022-12-15 22:52:31 公開日:2020-06-26
# 確率的スペクトル埋め込み

Stochastic spectral embedding ( http://arxiv.org/abs/2004.04480v2 )

ライセンス: Link先を確認
S. Marelli, P.-R. Wagner, C. Lataniotis and B. Sudret(参考訳) 計算コストの低減による複素モデルの挙動を正確に再現する近似の構築は、不確実性定量化の重要な側面である。 柔軟性と効率性にもかかわらず、クリギングや多項式カオス展開のような古典的な代理モデルは、高非線形、局所化または非定常計算モデルと競合する傾向がある。 本稿では,再帰的埋め込み局所スペクトル展開に基づく新しい逐次適応サロゲートモデリング手法を提案する。 入力領域の非連結再帰的分割によって実現され、後者を小さなサブドメインに順次分割し、それぞれにより単純な局所スペクトル展開を構築し、トレードオフ複雑性と局所性を利用する。 結果として得られる拡張は、「確率的スペクトル埋め込み」(stochastic spectral embedded, sse)と呼ばれ、モデル応答の断片的な連続近似であり、有望な近似能力を示し、問題次元とトレーニングセットのサイズの両方で良いスケーリングを示す。 この手法が,複雑性と入力次元の異なるモデルの集合上で,最先端のスパース多項式カオス展開とどのように比較されるかを示す。

Constructing approximations that can accurately mimic the behavior of complex models at reduced computational costs is an important aspect of uncertainty quantification. Despite their flexibility and efficiency, classical surrogate models such as Kriging or polynomial chaos expansions tend to struggle with highly non-linear, localized or non-stationary computational models. We hereby propose a novel sequential adaptive surrogate modeling method based on recursively embedding locally spectral expansions. It is achieved by means of disjoint recursive partitioning of the input domain, which consists in sequentially splitting the latter into smaller subdomains, and constructing a simpler local spectral expansions in each, exploiting the trade-off complexity vs. locality. The resulting expansion, which we refer to as "stochastic spectral embedding" (SSE), is a piece-wise continuous approximation of the model response that shows promising approximation capabilities, and good scaling with both the problem dimension and the size of the training set. We finally show how the method compares favorably against state-of-the-art sparse polynomial chaos expansions on a set of models with different complexity and input dimension.
翻訳日:2022-12-15 03:31:55 公開日:2020-06-26
# 動的プログラミングとシーン分解によるスケーラブルな自動運転車安全検証

Scalable Autonomous Vehicle Safety Validation through Dynamic Programming and Scene Decomposition ( http://arxiv.org/abs/2004.06801v2 )

ライセンス: Link先を確認
Anthony Corso, Ritchie Lee, Mykel J. Kochenderfer(参考訳) 自動運転車の公然の疑問は、シミュレーションを使って自動運転車の安全性を検証する最善の方法だ。 既存のテクニックは、まれな障害イベントを見つけるのに非効率なシミュレーションロールアウトに依存しているが、他のテクニックは、単一障害のみを検出するように設計されている。 本研究では, 近似動的計画法を用いて, 自律的政策の障害に対する分布を推定する新しい安全性検証手法を提案する。 この分布の知識は、多くの障害例の効率的な発見を可能にする。 スケーラビリティの問題に対処するため、複雑な駆動シナリオをエゴ車と他の車両のみからなるサブプロブレムに分解する。 これらの部分問題は近似動的計画法で解くことができ、それらの解は全シナリオの解を近似するために再結合される。 この手法を単純な2車種シナリオに適用して,そのテクニックを実証するとともに,スケーラビリティを示すためにより複雑な5車種シナリオを提示する。 どちらの実験でも,ベースラインアプローチと比較して検出された障害数の増加が観察された。

An open question in autonomous driving is how best to use simulation to validate the safety of autonomous vehicles. Existing techniques rely on simulated rollouts, which can be inefficient for finding rare failure events, while other techniques are designed to only discover a single failure. In this work, we present a new safety validation approach that attempts to estimate the distribution over failures of an autonomous policy using approximate dynamic programming. Knowledge of this distribution allows for the efficient discovery of many failure examples. To address the problem of scalability, we decompose complex driving scenarios into subproblems consisting of only the ego vehicle and one other vehicle. These subproblems can be solved with approximate dynamic programming and their solutions are recombined to approximate the solution to the full scenario. We apply our approach to a simple two-vehicle scenario to demonstrate the technique as well as a more complex five-vehicle scenario to demonstrate scalability. In both experiments, we observed an increase in the number of failures discovered compared to baseline approaches.
翻訳日:2022-12-13 09:31:42 公開日:2020-06-26
# 自動運転車の解釈安全検証

Interpretable Safety Validation for Autonomous Vehicles ( http://arxiv.org/abs/2004.06805v2 )

ライセンス: Link先を確認
Anthony Corso and Mykel J. Kochenderfer(参考訳) 自動運転のオープンな問題は、シミュレーションで自動運転車の安全性を検証する方法である。 自動テストの手順は自律システムの障害を見つけることができるが、これらの障害は高次元のため解釈が困難であり、重要でないほどありそうにない。 この研究は、自律システムの解釈可能な障害を見つけるためのアプローチを説明する。 失敗は、人間によって理解され、高い確率で失敗を発生させるよう最適化された信号時相論理式によって記述される。 本手法は,未保護の左折と歩行者との横断歩道の文脈において,自動運転車の安全性の検証を行う。 ベースラインの重要性をサンプリングする手法と比較すると,解釈可能性を維持しつつ,高い確率でより多くの障害を発見できる。

An open problem for autonomous driving is how to validate the safety of an autonomous vehicle in simulation. Automated testing procedures can find failures of an autonomous system but these failures may be difficult to interpret due to their high dimensionality and may be so unlikely as to not be important. This work describes an approach for finding interpretable failures of an autonomous system. The failures are described by signal temporal logic expressions that can be understood by a human, and are optimized to produce failures that have high likelihood. Our methodology is demonstrated for the safety validation of an autonomous vehicle in the context of an unprotected left turn and a crosswalk with a pedestrian. Compared to a baseline importance sampling approach, our methodology finds more failures with higher likelihood while retaining interpretability.
翻訳日:2022-12-13 09:24:34 公開日:2020-06-26
# トランスベースグラニュムから音素への変換

Transformer based Grapheme-to-Phoneme Conversion ( http://arxiv.org/abs/2004.06338v2 )

ライセンス: Link先を確認
Sevinj Yolchuyeva, G\'eza N\'emeth, B\'alint Gyires-T\'oth(参考訳) 注意機構は、ディープラーニングベースの自然言語処理(NLP)において最も成功した技術の一つである。 トランスフォーマーネットワークアーキテクチャは完全に注意機構に基づいており、リカレント層や畳み込み層を必要とせず、ニューラルネットワーク翻訳におけるシーケンス-シーケンスモデルよりも優れています。 Grapheme-to-phoneme (G2P) 変換は、文字 (grapheme sequence) を発音 (phoneme sequence) に変換するタスクである。 テキスト音声(TTS)と自動音声認識(ASR)システムにおいて重要な役割を果たす。 本稿では,g2p変換へのトランスフォーマティブ・アーキテクチャの適用について検討し,その性能を再帰的および畳み込み型ニューラルネットワークによる手法と比較する。 米国英語のCMUDictデータセットとNetTalkデータセットで,音素と単語の誤り率を評価する。 以上の結果から,トランスフォーマのg2pは,単語誤り率の点で畳み込みに基づくアプローチを上回っており,従来の2つのデータセットにおける単語誤り率と音素誤り率(注意を払わずに)を大きく上回った。 さらに,提案モデルのサイズは,従来のアプローチよりもはるかに小さい。

Attention mechanism is one of the most successful techniques in deep learning based Natural Language Processing (NLP). The transformer network architecture is completely based on attention mechanisms, and it outperforms sequence-to-sequence models in neural machine translation without recurrent and convolutional layers. Grapheme-to-phoneme (G2P) conversion is a task of converting letters (grapheme sequence) to their pronunciations (phoneme sequence). It plays a significant role in text-to-speech (TTS) and automatic speech recognition (ASR) systems. In this paper, we investigate the application of transformer architecture to G2P conversion and compare its performance with recurrent and convolutional neural network based approaches. Phoneme and word error rates are evaluated on the CMUDict dataset for US English and the NetTalk dataset. The results show that transformer based G2P outperforms the convolutional-based approach in terms of word error rate and our results significantly exceeded previous recurrent approaches (without attention) regarding word and phoneme error rates on both datasets. Furthermore, the size of the proposed model is much smaller than the size of the previous approaches.
翻訳日:2022-12-13 09:04:12 公開日:2020-06-26
# アルゴリズムフェアネスに対する攻撃

Poisoning Attacks on Algorithmic Fairness ( http://arxiv.org/abs/2004.07401v3 )

ライセンス: Link先を確認
David Solans, Battista Biggio, Carlos Castillo(参考訳) 敵対的機械学習の研究は、トレーニングデータに少量の毒点を注入することで、機械学習モデルの性能が深刻な損なわれる可能性があることを示した。 このような毒性攻撃のモデル精度への影響は広く研究されているが、他のモデル性能指標に対する潜在的な影響は評価されていない。 本研究では,アルゴリズム的公平性に対する毒殺攻撃の最適化フレームワークを導入し,データ内の異なるグループ間での分類格差を導入することを目的とした,勾配に基づく毒殺攻撃を開発する。 我々は、攻撃者が対象モデルにフルアクセス可能なホワイトボックス設定だけでなく、攻撃が代替モデルに対して最適化され、対象モデルに転送されるより困難なブラックボックスシナリオにおいても、我々の攻撃が有効であることを実証的に示す。 我々の発見は、異なるシナリオにおけるアルゴリズムの公平性をターゲットにした、全く新しい敵対的攻撃セットの定義への道を開くものであり、そのような脆弱性の調査は、将来的により堅牢なアルゴリズムと対策を設計するのに役立つと信じている。

Research in adversarial machine learning has shown how the performance of machine learning models can be seriously compromised by injecting even a small fraction of poisoning points into the training data. While the effects on model accuracy of such poisoning attacks have been widely studied, their potential effects on other model performance metrics remain to be evaluated. In this work, we introduce an optimization framework for poisoning attacks against algorithmic fairness, and develop a gradient-based poisoning attack aimed at introducing classification disparities among different groups in the data. We empirically show that our attack is effective not only in the white-box setting, in which the attacker has full access to the target model, but also in a more challenging black-box scenario in which the attacks are optimized against a substitute model and then transferred to the target model. We believe that our findings pave the way towards the definition of an entirely novel set of adversarial attacks targeting algorithmic fairness in different scenarios, and that investigating such vulnerabilities will help design more robust algorithms and countermeasures in the future.
翻訳日:2022-12-13 03:13:45 公開日:2020-06-26
# 強化拡張現実アプリケーションのためのディープ残留ネットワークに基づく食品認識

Deep Residual Network based food recognition for enhanced Augmented Reality application ( http://arxiv.org/abs/2005.04292v2 )

ライセンス: Link先を確認
Siddarth S, Sainath G, Vignesh S(参考訳) 深層ニューラルネットワークに基づく学習手法は,画像分類や物体検出に広く利用されている。 オブジェクトのリアルタイムオブジェクト状態推定は、現在のフレームのオブジェクトが保持している特徴を、重大な遅延や誤分類を引き起こすことなく追跡し、推定するために使用することができる。 カメラ画像から現在の状態にある物体の特徴を検出できるシステムは、ユーザー体験を改善し、より知覚的な方法で情報を配信するために拡張現実の適用を強化するために使用できる。 本研究の目的は,利用者が消費する食品に関する栄養情報を提供し,より健康的な生活選択を促進することによる,低遅延支援arの作成に最も適したモデルを決定することである。 そのため、このような方法でデータセットを収集し、取得し、パフォーマンスと複雑さの観点から最も適したDNNを特定し、そのような情報をユーザにリアルタイムにレンダリングするシステムを確立するために様々なテストを行う。

Deep neural network based learning approaches is widely utilized for image classification or object detection based problems with remarkable outcomes. Realtime Object state estimation of objects can be used to track and estimate the features that the object of the current frame possesses without causing any significant delay and misclassification. A system that can detect the features of such objects in the present state from camera images can be used to enhance the application of Augmented Reality for improving user experience and delivering information in a much perceptual way. The focus behind this paper is to determine the most suitable model to create a low-latency assistance AR to aid users by providing them nutritional information about the food that they consume in order to promote healthier life choices. Hence the dataset has been collected and acquired in such a manner, and we conduct various tests in order to identify the most suitable DNN in terms of performance and complexity and establish a system that renders such information realtime to the user.
翻訳日:2022-12-05 13:10:43 公開日:2020-06-26
# 野生における歩行者検出のための群集排除とハードネガティブ

Resisting Crowd Occlusion and Hard Negatives for Pedestrian Detection in the Wild ( http://arxiv.org/abs/2005.07344v2 )

ライセンス: Link先を確認
Zhe Wang, Jun Wang, Yezhou Yang(参考訳) 歩行者検出は、その適用範囲が広いため、過去10年間に大きく研究されてきた。 徐々に進歩しているにもかかわらず、群衆の排除と強硬な陰性は、現在最先端の歩行者検出器に挑戦している。 本稿では,これらの課題に取り組むために,一般地域に基づく検出フレームワークに基づく2つのアプローチを提案する。 具体的には, 境界ボックス回帰のレギュレータとして新しいクーロン損失を設計, 提案は対象インスタンスに惹かれ, 隣接した非ターゲットインスタンスに撃退される。 そこで我々は, 難易度判定のための学習段階において, 情報的負のサンプルをサンプリングできる, アンカー位置選択のための効率的な意味駆動戦略を提案する。 これらのメソッドは一般的なオブジェクト検出ドメインにも適用でき、エンドツーエンドでトレーニング可能である点に注意が必要だ。 caltech-usaとcitypersonsベンチマークで一貫して高いパフォーマンスを達成しています。

Pedestrian detection has been heavily studied in the last decade due to its wide application. Despite incremental progress, crowd occlusion and hard negatives are still challenging current state-of-the-art pedestrian detectors. In this paper, we offer two approaches based on the general region-based detection framework to tackle these challenges. Specifically, to address the occlusion, we design a novel coulomb loss as a regulator on bounding box regression, in which proposals are attracted by their target instance and repelled by the adjacent non-target instances. For hard negatives, we propose an efficient semantic-driven strategy for selecting anchor locations, which can sample informative negative examples at training phase for classification refinement. It is worth noting that these methods can also be applied to general object detection domain, and trainable in an end-to-end manner. We achieves consistently high performance on the Caltech-USA and CityPersons benchmarks.
翻訳日:2022-12-02 23:20:10 公開日:2020-06-26
# クラスタリングの再検討

Revisiting Agglomerative Clustering ( http://arxiv.org/abs/2005.07995v2 )

ライセンス: Link先を確認
Eric K. Tokuda, Cesar H. Comin and Luciano da F. Costa(参考訳) クラスタリングにおける重要な問題は、クラスタ検索中に偽陽性を避けることである。 この研究は、単一, 平均, 中央, 完全, 中心, ウォードのアプローチを一様, ガウス的, 指数的, パワーロー分布に従う一様および二様データセットに適用することを考慮してこの問題に対処した。 クラスターのモデルも採用され、より高い密度の核が遷移によって囲まれ、その後に異常値が続く。 これにより、デンドログラムからクラスターを識別するための客観的な手段を定義する方法が整った。 採用されたモデルは、クラスタの妥当性をサブツリーの高さの観点から定量化することを可能にした。 得られた結果は、多くの手法が単調なデータの2つのクラスタを検出することの検証を含む。 単一リンク法は偽陽性に対する耐性が高かった。 また、いくつかの方法で核に直接対応しないクラスターを検出した。 分布のタイプを特定する可能性についても検討した。

An important issue in clustering concerns the avoidance of false positives while searching for clusters. This work addressed this problem considering agglomerative methods, namely single, average, median, complete, centroid and Ward's approaches applied to unimodal and bimodal datasets obeying uniform, gaussian, exponential and power-law distributions. A model of clusters was also adopted, involving a higher density nucleus surrounded by a transition, followed by outliers. This paved the way to defining an objective means for identifying the clusters from dendrograms. The adopted model also allowed the relevance of the clusters to be quantified in terms of the height of their subtrees. The obtained results include the verification that many methods detect two clusters in unimodal data. The single-linkage method was found to be more resilient to false positives. Also, several methods detected clusters not corresponding directly to the nucleus. The possibility of identifying the type of distribution was also investigated.
翻訳日:2022-12-02 12:38:30 公開日:2020-06-26
# 生成前処理による圧縮センシングにおける定数拡大効果

Constant-Expansion Suffices for Compressed Sensing with Generative Priors ( http://arxiv.org/abs/2006.04237v2 )

ライセンス: Link先を確認
Constantinos Daskalakis, Dhruv Rohatgi, Manolis Zampetakis(参考訳) 生成型ニューラルネットワークは、高次元信号空間において低次元のデータ多様体にまたがるように訓練できるため、圧縮センシングに効果的な構造的事前を提供する上で、実証的に非常に有望である。 その結果生じる最適化問題の非凸性にもかかわらず、ランダムなガウス重みを持つニューラルネットワークでは、ネットワークの範囲内の信号が、数回のノイズ測定からほぼ回復できることが理論的に示されている。 しかしながら、これらの理論的保証の大きなボトルネックは、ネットワークの拡張性条件であり、ニューラルネットワークの各層は対数係数によって前よりも大きくなければならない。 当社の主な貢献は、この強力な拡張性仮説を破ることであり、情報理論上必要であるだけでなく、効率的な回復アルゴリズムを得るために一定の拡張性が十分であることを示しています。 既存のアプローチにおける理論的ボトルネックを克服するために、リプシッツではなく「擬似リプシッツ性」と呼ばれる緩和された概念を満たすランダム関数に対する新しい一様集中定理を証明した。 この定理を用いて、以前は対数アスペクト比を持つガウス行列に対してしか持たなかった行列濃度の不等式であるウェイト分布条件(WDC)が、実際には定数アスペクト比でも成り立つことを示すことができる。 WDCは, 既存の理論的保証の根底にある基本行列濃度の不等式であるため, 厳密な境界は, 1ビットの回復, 位相回復, 低ランクの行列回復など, 深部生成前駆体を用いた圧縮センシングに関する文献において, 全ての既知の結果に即時改善をもたらす。

Generative neural networks have been empirically found very promising in providing effective structural priors for compressed sensing, since they can be trained to span low-dimensional data manifolds in high-dimensional signal spaces. Despite the non-convexity of the resulting optimization problem, it has also been shown theoretically that, for neural networks with random Gaussian weights, a signal in the range of the network can be efficiently, approximately recovered from a few noisy measurements. However, a major bottleneck of these theoretical guarantees is a network expansivity condition: that each layer of the neural network must be larger than the previous by a logarithmic factor. Our main contribution is to break this strong expansivity assumption, showing that constant expansivity suffices to get efficient recovery algorithms, besides it also being information-theoretically necessary. To overcome the theoretical bottleneck in existing approaches we prove a novel uniform concentration theorem for random functions that might not be Lipschitz but satisfy a relaxed notion which we call "pseudo-Lipschitzness." Using this theorem we can show that a matrix concentration inequality known as the Weight Distribution Condition (WDC), which was previously only known to hold for Gaussian matrices with logarithmic aspect ratio, in fact holds for constant aspect ratios too. Since the WDC is a fundamental matrix concentration inequality in the heart of all existing theoretical guarantees on this problem, our tighter bound immediately yields improvements in all known results in the literature on compressed sensing with deep generative priors, including one-bit recovery, phase retrieval, low-rank matrix recovery, and more.
翻訳日:2022-11-24 08:38:52 公開日:2020-06-26
# 画像間変換による2次元画像のリライティング

2D Image Relighting with Image-to-Image Translation ( http://arxiv.org/abs/2006.07816v2 )

ライセンス: Link先を確認
Paul Gafton and Erick Maraz(参考訳) gans(generative adversarial network)の出現により、画像の様々な特徴を操作する際のより細かいレベルの制御が可能となった。 このような細かい操作の一例は、シーン内の光源の位置を変更することである。 これは基本的に、適切な照明効果を生み出すためにシーン幾何学を理解する必要があるため、不適切な問題である。 この問題は自明なものではなく、光源の方向を任意の方向から特定の方向に変更したい場合、さらに複雑になる可能性がある。 ここでは、GANを用いてこの問題を解決する試みについて述べる。 具体的には、データセット VIDIT [arXiv:2005.05460] でトレーニングされた pix2pix [arXiv:1611.07004] には、異なるタイプの光温度と8つの異なる光源位置(N, NE, E, SE, S, SW, W, NW)の同じシーンの画像が含まれている。 その結果、8つのニューラルネットワークがトレーニングされ、光源の方向を任意の方向から、前述の8つの方向に変えられるようになった。 さらに、画像中の光源の方向を識別するために訓練された単純なcnnをツールとして提供する。

With the advent of Generative Adversarial Networks (GANs), a finer level of control in manipulating various features of an image has become possible. One example of such fine manipulation is changing the position of the light source in a scene. This is fundamentally an ill-posed problem, since it requires understanding the scene geometry to generate proper lighting effects. This problem is not a trivial one and can become even more complicated if we want to change the direction of the light source from any direction to a specific one. Here we provide our attempt to solve this problem using GANs. Specifically, pix2pix [arXiv:1611.07004] trained with the dataset VIDIT [arXiv:2005.05460] which contains images of the same scene with different types of light temperature and 8 different light source positions (N, NE, E, SE, S, SW, W, NW). The results are 8 neural networks trained to be able to change the direction of the light source from any direction to one of the 8 previously mentioned. Additionally, we provide, as a tool, a simple CNN trained to identify the direction of the light source in an image.
翻訳日:2022-11-21 13:04:22 公開日:2020-06-26
# 入射キューによる深度推定の自己教師付き共同学習フレームワーク

Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues ( http://arxiv.org/abs/2006.09876v3 )

ライセンス: Link先を確認
Jianrong Wang and Ge Zhang and Zhenyu Wu and XueWei Li and Li Liu(参考訳) 自己教師付き単眼深度推定では、深度の不連続性と運動物体のアーティファクトは依然として困難な問題である。 既存の自己管理手法は、通常は1つのビューを使って深さ推定ネットワークを訓練する。 静的なビューと比較すると、ビデオフレーム間の豊富な動的特性は、特に動的オブジェクトの奥行き推定に有用である。 本研究では,単眼映像とステレオ映像の連続フレームを用いた深度推定のための自己教師あり共同学習フレームワークを提案する。 主なアイデアは、動的および静的なキューを活用して有用な深さ提案を生成する暗黙の深さキュー抽出器である。 これらのキューは、区別可能な運動輪郭と幾何学的シーン構造を予測することができる。 さらに,高次元空間における局所記述子の不確実性を効果的に抑制し,より信頼性の高い学習フレームワークを実現するために,新たな高次元アテンションモジュールを導入する。 実験により、提案フレームワークは、KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れていることが示された。

In self-supervised monocular depth estimation, the depth discontinuity and motion objects' artifacts are still challenging problems. Existing self-supervised methods usually utilize a single view to train the depth estimation network. Compared with static views, abundant dynamic properties between video frames are beneficial to refined depth estimation, especially for dynamic objects. In this work, we propose a novel self-supervised joint learning framework for depth estimation using consecutive frames from monocular and stereo videos. The main idea is using an implicit depth cue extractor which leverages dynamic and static cues to generate useful depth proposals. These cues can predict distinguishable motion contours and geometric scene structures. Furthermore, a new high-dimensional attention module is introduced to extract clear global transformation, which effectively suppresses uncertainty of local descriptors in high-dimensional space, resulting in a more reliable optimization in learning framework. Experiments demonstrate that the proposed framework outperforms the state-of-the-art(SOTA) on KITTI and Make3D datasets.
翻訳日:2022-11-19 21:01:58 公開日:2020-06-26
# 投資家の感情と決算発表

Investor Emotions and Earnings Announcements ( http://arxiv.org/abs/2006.13934v2 )

ライセンス: Link先を確認
Domonkos F. Vamossy(参考訳) 10年分のソーシャルメディアデータをもとに、投資家の感情が決算発表に与える影響について調査する。 特に、決算発表の直前にソーシャルメディアに投稿された企業固有のメッセージの感情的内容が、収益と発表のリターンを予測するかどうかを検証します。 投資家は通常、期待を上回る会社に興奮していると思いますが、彼らの熱意は発表のリターンを下げます。 具体的には、興奮の標準偏差増加は、7.8塩基の低い発表リターンと関連付けられ、これは年5.8%の損失となる。 その結果,企業の短期的価値を評価する上で,投資家の感情を考えることが重要であることが明らかとなった。

Armed with a decade of social media data, I explore the impact of investor emotions on earnings announcements. In particular, I test whether the emotional content of firm-specific messages posted on social media just prior to a firm's earnings announcement predicts its earnings and announcement returns. I find that investors are typically excited about firms that end up exceeding expectations, yet their enthusiasm results in lower announcement returns. Specifically, a standard deviation increase in excitement is associated with an 7.8 basis points lower announcement return, which translates into an approximately -5.8% annualized loss. My findings confirm that emotions and market dynamics are closely related and highlight the importance of considering investor emotions when assessing a firm's short-term value.
翻訳日:2022-11-17 13:45:40 公開日:2020-06-26
# 胸部ctスキャンからcovid-19感染を検出する新しい信頼性の高いディープラーニングwebツール

A Novel and Reliable Deep Learning Web-Based Tool to Detect COVID-19 Infection from Chest CT-Scan ( http://arxiv.org/abs/2006.14419v2 )

ライセンス: Link先を確認
Abdolkarim Saeedi, Maryam Saeedi, Arash Maghsoudi(参考訳) コロナウイルスは、多くの国で既に世界中に広がり、多くの命を落としている。 さらに、世界保健機関(WHO)は、新型コロナウイルスが世界的な流行期に達したと発表した。 胸部CTスキャンによる早期かつ信頼性の高い診断は、重要な状況において医療専門家を支援することができる。 本稿では,covid-19をオンライン上で検出するためのcad(computer aided diagnostic) webサービスを紹介する。 この実験では、746人の参加者を含む最大規模の胸部CTスキャンデータベースが使用された。 ResNet、Inception、MobileNetで構成される多くの有名なディープニューラルネットワークアーキテクチャが検査され、ハイブリッドシステムの最も効率的なモデルが見つかった。 画像サイズを減らすためにdensenet(dungly connected convolutional network)と、アンチオーバーフィッティングボトルネックとしてのnu-svmを組み合わせて、covid-19と健全なコントロールを区別した。 提案手法は90.80%のリコール、89.76%の精度、90.61%の精度を達成した。 また、AUCは95.05%である。 最終的には、トレーニングされたモデルを使用して、39ミリ秒で1つの画像を処理できるRESTfulなCOVID-19検出器を提供する。 ソースコードはhttps://github.com/kilj4eden/covid_webでも利用できる。 以上の結果から,提案手法を新型コロナウイルスの診断の自動化ツールとして利用することは可能であると推測できる。

The corona virus is already spread around the world in many countries, and it has taken many lives. Furthermore, the world health organization (WHO) has announced that COVID-19 has reached the global epidemic stage. Early and reliable diagnosis using chest CT-scan can assist medical specialists in vital circumstances. In this work, we introduce a computer aided diagnosis (CAD) web service to detect COVID- 19 online. One of the largest public chest CT-scan databases, containing 746 participants was used in this experiment. A number of well-known deep neural network architectures consisting of ResNet, Inception and MobileNet were inspected to find the most efficient model for the hybrid system. A combination of the Densely connected convolutional network (DenseNet) in order to reduce image dimensions and Nu-SVM as an anti-overfitting bottleneck was chosen to distinguish between COVID-19 and healthy controls. The proposed methodology achieved 90.80% recall, 89.76% precision and 90.61% accuracy. The method also yields an AUC of 95.05%. Ultimately a flask web service is made public through ngrok using the trained models to provide a RESTful COVID-19 detector, which takes only 39 milliseconds to process one image. The source code is also available at https://github.com/KiLJ4EdeN/COVID_WEB. Based on the findings, it can be inferred that it is feasible to use the proposed technique as an automated tool for diagnosis of COVID-19.
翻訳日:2022-11-17 12:42:11 公開日:2020-06-26
# 肺の結節分類と結節分類のための深部残留3次元U-Net

Deep Residual 3D U-Net for Joint Segmentation and Texture Classification of Nodules in Lung ( http://arxiv.org/abs/2006.14215v2 )

ライセンス: Link先を確認
Alexandr G. Rassadin(参考訳) そこで本研究では,肺結節の分節法,そのテクスチャ分類法,および肺ct画像からのフォローアップ推薦法を提案する。 提案手法は, 一般的なU-Netアーキテクチャファミリに基づくニューラルネットワークモデルと, 共同結節分割とそのテクスチャ分類タスクと, フォローアップレコメンデーションのためのアンサンブルベースモデルから構成される。 このソリューションはlndbのmedical imaging challengeで評価され、最終リーダーボード上で最高の結節分画結果が得られた。

In this work we present a method for lung nodules segmentation, their texture classification and subsequent follow-up recommendation from the CT image of lung. Our method consists of neural network model based on popular U-Net architecture family but modified for the joint nodule segmentation and its texture classification tasks and an ensemble-based model for the follow-up recommendation. This solution was evaluated within the LNDb medical imaging challenge and produced the best nodule segmentation result on the final leaderboard.
翻訳日:2022-11-17 03:48:09 公開日:2020-06-26
# BoXHED:動的共変量を持つ強化eXactハザード推定器

BoXHED: Boosted eXact Hazard Estimator with Dynamic covariates ( http://arxiv.org/abs/2006.14218v2 )

ライセンス: Link先を確認
Xiaochen Wang, Arash Pakbin, Bobak J. Mortazavi, Hongyu Zhao, Donald K.K. Lee(参考訳) 医療監視装置の増殖により、高頻度での健康バイタルの追跡が可能となり、基礎となる読書によって変化する動的健康リスクスコアの開発が可能になる。 生存率分析、特にハザード推定は、このデータの流れを分析して病気の発生を予測するのに適しています。 本稿では,非パラメトリックな危険関数推定のためのソフトウェアパッケージBoXHED(box-head)を紹介する。 BoXHED 1.0は、Chen, Ishwaran (2017)で提案された、時間依存共変量を完全に非パラメトリックな方法で扱うために設計された、新しいツリーベースのジェネリック推定器の実装である。 BoXHEDはLee, Chen, Ishwaran (2017)のために公開された最初のソフトウェア実装でもある。 BoXHEDをFramingham Heart Studyの心血管疾患の発症データに適用すると、既知のリスク要因間の新たな相互作用効果が明らかになり、臨床文献で明らかな疑問が解決される可能性がある。

The proliferation of medical monitoring devices makes it possible to track health vitals at high frequency, enabling the development of dynamic health risk scores that change with the underlying readings. Survival analysis, in particular hazard estimation, is well-suited to analyzing this stream of data to predict disease onset as a function of the time-varying vitals. This paper introduces the software package BoXHED (pronounced 'box-head') for nonparametrically estimating hazard functions via gradient boosting. BoXHED 1.0 is a novel tree-based implementation of the generic estimator proposed in Lee, Chen, Ishwaran (2017), which was designed for handling time-dependent covariates in a fully nonparametric manner. BoXHED is also the first publicly available software implementation for Lee, Chen, Ishwaran (2017). Applying BoXHED to cardiovascular disease onset data from the Framingham Heart Study reveals novel interaction effects among known risk factors, potentially resolving an open question in clinical literature.
翻訳日:2022-11-17 03:04:34 公開日:2020-06-26
# データ駆動動的確率計画のためのGRUに基づく混合密度ネットワーク

A GRU-based Mixture Density Network for Data-Driven Dynamic Stochastic Programming ( http://arxiv.org/abs/2006.16845v1 )

ライセンス: Link先を確認
Xiaoming Li, Chun Wang, Xiao Huang, Yimin Nie(参考訳) 長短項メモリ(LSTM)やゲートリカレントユニット(GRU)などの時系列問題を解決するための従来のディープラーニングアプローチでは、時系列データシーケンスを1つの単単位の入力(予測時系列結果)とみなす。 これらの深層学習アプローチは多くの時系列関連問題において大きな成功を収めてきたが、LSTMやGRUの出力は確率分布よりもスカラーであるため、データ駆動確率計画問題には適用できない。 そこで本研究では,GRU,Gaussian Mixture Model(GMM),SPの3つのコンポーネントを含む時系列決定問題に対して,データ駆動型動的確率プログラミング(DD-DSP)フレームワークを提案する。 具体的には、GRUとGMMを統合したディープニューラルネットワークを考案し、GRUを用いて最近の履歴データに基づいて時系列結果の予測を行い、GMMを用いて予測結果の対応する確率分布を抽出し、SPのパラメータとして結果を入力する。 このアプローチを検証するために,カーシェアリングのリロケーション問題に適用する。 実験により, LSTMよりも平均走行速度が低く, LSTMに基づくデータ駆動型最適化よりも優れた結果が得られた。

The conventional deep learning approaches for solving time-series problem such as long-short term memory (LSTM) and gated recurrent unit (GRU) both consider the time-series data sequence as the input with one single unit as the output (predicted time-series result). Those deep learning approaches have made tremendous success in many time-series related problems, however, this cannot be applied in data-driven stochastic programming problems since the output of either LSTM or GRU is a scalar rather than probability distribution which is required by stochastic programming model. To fill the gap, in this work, we propose an innovative data-driven dynamic stochastic programming (DD-DSP) framework for time-series decision-making problem, which involves three components: GRU, Gaussian Mixture Model (GMM) and SP. Specifically, we devise the deep neural network that integrates GRU and GMM which is called GRU-based Mixture Density Network (MDN), where GRU is used to predict the time-series outcomes based on the recent historical data, and GMM is used to extract the corresponding probability distribution of predicted outcomes, then the results will be input as the parameters for SP. To validate our approach, we apply the framework on the car-sharing relocation problem. The experiment validations show that our framework is superior to data-driven optimization based on LSTM with the vehicle average moving lower than LSTM.
翻訳日:2022-11-16 22:20:02 公開日:2020-06-26
# 電磁デジタル情報の基本的な幾何学的構造--spatio-dopplerのディジタル計測とレーダー電磁波の偏波変動の統計的特徴

The Basic Geometric Structures of Electromagnetic Digital Information: Statistical characterization of the digital measurement of spatio-Doppler and polarimetric fluctuations of the radar electromagnetic wave ( http://arxiv.org/abs/2007.00428v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Barbaresco, Yann Cabanes (IMB)(参考訳) The aim is to describe new geometric approaches to define the statistics of spatio-temporal and polarimetric measurements of the states of an electromagnetic wave, using the works of Maurice Fr{\'e}chet, Jean-Louis Koszul and Jean-Marie Souriau, with in particular the notion of 'average' state of this digital measurement as a Fr{\'e}chet barycentre in a metric space and a model derived from statistical mechanics to define and calculate a maximum density of entropy (extension of the notion of Gaussian) to describe the fluctuations of the electromagnetic wave. 本稿は、情報幾何からのフィッシャーの計量に基づいて、電磁デジタル信号の共分散行列の距離を導入することで、ドップラー、時空間および偏光測定のレーダ応用例を用いて、これらの新しいツールを紹介する。

The aim is to describe new geometric approaches to define the statistics of spatio-temporal and polarimetric measurements of the states of an electromagnetic wave, using the works of Maurice Fr{\'e}chet, Jean-Louis Koszul and Jean-Marie Souriau, with in particular the notion of 'average' state of this digital measurement as a Fr{\'e}chet barycentre in a metric space and a model derived from statistical mechanics to define and calculate a maximum density of entropy (extension of the notion of Gaussian) to describe the fluctuations of the electromagnetic wave. The article will illustrate these new tools with examples of radar application for Doppler, spatio-temporal and polarimetric measurement of the electromagnetic wave by introducing a distance on the covariance matrices of the electromagnetic digital signal, based on Fisher's metric from Information Geometry.
翻訳日:2022-11-16 22:19:38 公開日:2020-06-26
# 量子ニューラルネットワークの階層的学習

Layerwise learning for quantum neural networks ( http://arxiv.org/abs/2006.14904v1 )

ライセンス: Link先を確認
Andrea Skolik, Jarrod R. McClean, Masoud Mohseni, Patrick van der Smagt, Martin Leib(参考訳) 量子デバイスへの短期的応用のための量子回路学習への注目が高まり、パラメタライズド量子回路のコスト関数ランドスケープによって提示されるユニークな課題とともに、効果的なトレーニング戦略がますます重要になっている。 これらの課題のいくつかを改善するために、パラメタライズド量子回路の階層的学習戦略を検討する。 回路深さは最適化中に徐々に増加し、各トレーニングステップでパラメータのサブセットのみが更新される。 サンプリングノイズを考慮した場合,本手法は,回路の深さが低く,1ステップでトレーニングされたパラメータ数が少なく,回路全体のトレーニングよりも勾配の大きさが大きいため,誤差面の不規則な高原問題を回避するのに役立つ。 これらの特性により、ノイズの多い中間スケール量子デバイス上での実行に好適なアルゴリズムである。 本研究では,手書き桁による画像分類タスクに対するアプローチを実証し,同じ大きさの量子回路をトレーニングするための標準学習方式と比較して,平均で8%低い一般化誤差が得られることを示す。 さらに、テストエラーの少ないランの割合は、トレーニング中に高原に忍び込む恐れがあるフルサーキットのトレーニングよりも最大40%大きい。

With the increased focus on quantum circuit learning for near-term applications on quantum devices, in conjunction with unique challenges presented by cost function landscapes of parametrized quantum circuits, strategies for effective training are becoming increasingly important. In order to ameliorate some of these challenges, we investigate a layerwise learning strategy for parametrized quantum circuits. The circuit depth is incrementally grown during optimization, and only subsets of parameters are updated in each training step. We show that when considering sampling noise, this strategy can help avoid the problem of barren plateaus of the error surface due to the low depth of circuits, low number of parameters trained in one step, and larger magnitude of gradients compared to training the full circuit. These properties make our algorithm preferable for execution on noisy intermediate-scale quantum devices. We demonstrate our approach on an image-classification task on handwritten digits, and show that layerwise learning attains an 8% lower generalization error on average in comparison to standard learning schemes for training quantum circuits of the same size. Additionally, the percentage of runs that reach lower test errors is up to 40% larger compared to training the full circuit, which is susceptible to creeping onto a plateau during training.
翻訳日:2022-11-16 22:17:15 公開日:2020-06-26
# 自由空間光フロントホールネットワークにおけるグラフニューラルネットワークによる資源配分

Resource Allocation via Graph Neural Networks in Free Space Optical Fronthaul Networks ( http://arxiv.org/abs/2006.15005v1 )

ライセンス: Link先を確認
Zhan Gao and Mark Eisen and Alejandro Ribeiro(参考訳) 本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。 最適割り当ては、電力制限とデータ混雑制約を受ける平均重み付き和容量を最大化する。 適応電力割り当てとノード選択は、リンクの瞬時チャネル状態情報(CSI)に基づいて考慮される。 資源配分ポリシーをパラメータ化することにより,教師なし統計学習問題として問題を定式化する。 ポリシパラメータ化のためのグラフニューラルネットワーク(gnn)を,小規模のトレーニングパラメータを用いたfsoネットワーク構造を活用すべく検討する。 gnnは、ネットワークにおけるリソース割り当てポリシーの置換同分散と一致する置換同分散を保持することが示されている。 システムモデルの知識を必要とせず、モデルフリーな方法でgnnを訓練するために、原始学習アルゴリズムを開発した。 数値シミュレーションにより,同一の電力割当とランダムノード選択を持つベースラインポリシーに対して,gnnの強い性能を示す。

This paper investigates the optimal resource allocation in free space optical (FSO) fronthaul networks. The optimal allocation maximizes an average weighted sum-capacity subject to power limitation and data congestion constraints. Both adaptive power assignment and node selection are considered based on the instantaneous channel state information (CSI) of the links. By parameterizing the resource allocation policy, we formulate the problem as an unsupervised statistical learning problem. We consider the graph neural network (GNN) for the policy parameterization to exploit the FSO network structure with small-scale training parameters. The GNN is shown to retain the permutation equivariance that matches with the permutation equivariance of resource allocation policy in networks. The primal-dual learning algorithm is developed to train the GNN in a model-free manner, where the knowledge of system models is not required. Numerical simulations present the strong performance of the GNN relative to a baseline policy with equal power assignment and random node selection.
翻訳日:2022-11-16 22:16:55 公開日:2020-06-26
# 深い強化学習を改善する自律運転における予測表現の学習

Learning predictive representations in autonomous driving to improve deep reinforcement learning ( http://arxiv.org/abs/2006.15110v1 )

ライセンス: Link先を確認
Daniel Graves, Nhat M. Nguyen, Kimia Hassanzadeh, Jun Jin(参考訳) 新たな予測表現を用いた強化学習を自律運転に適用し、実ジャカルロボットとシミュレーションの両方において、未確認のテスト道路において、性能と一般化のかなりの恩恵が観測される車線標識間の運転を実現する。 この新たな予測表現は、一般値関数(GVF)によって学習され、オンラインおよびオフラインの強化学習において学習を改善するエージェントの状態のコンパクトな表現を形成し、トレーニングデータにない道路に一般化する手法で自動運転車を駆動することを学ぶ、将来の車線中心性および道路角度の予測を提供する。 シミュレーションと実世界の実験の両方において、強化学習における予測表現が学習効率、制御の滑らかさ、および訓練中にエージェントが現れなかった道路への一般化を改善できることが示されている。 その結果,異なる時間スケールでの予測や割引係数を含む予測表現を学習することで,制御の性能と滑らかさを大幅に向上させることがわかった。 ジャッカルロボットは2段階のプロセスで訓練され、まず予測表現を学習し、その後、自動探索と人間誘導探索の両方で収集されたデータからバッチ強化学習アルゴリズム(bcq)を学習した。 我々は,GVFを用いた政治外の予測表現は実世界の問題に多くのメリットをもたらすと結論付けた。

Reinforcement learning using a novel predictive representation is applied to autonomous driving to accomplish the task of driving between lane markings where substantial benefits in performance and generalization are observed on unseen test roads in both simulation and on a real Jackal robot. The novel predictive representation is learned by general value functions (GVFs) to provide out-of-policy, or counter-factual, predictions of future lane centeredness and road angle that form a compact representation of the state of the agent improving learning in both online and offline reinforcement learning to learn to drive an autonomous vehicle with methods that generalizes well to roads not in the training data. Experiments in both simulation and the real-world demonstrate that predictive representations in reinforcement learning improve learning efficiency, smoothness of control and generalization to roads that the agent was never shown during training, including damaged lane markings. It was found that learning a predictive representation that consists of several predictions over different time scales, or discount factors, improves the performance and smoothness of the control substantially. The Jackal robot was trained in a two step process where the predictive representation is learned first followed by a batch reinforcement learning algorithm (BCQ) from data collected through both automated and human-guided exploration in the environment. We conclude that out-of-policy predictive representations with GVFs offer reinforcement learning many benefits in real-world problems.
翻訳日:2022-11-16 22:16:41 公開日:2020-06-26
# E3-targetPred:Deep Latent Space Encodingを用いたE3-targetタンパク質の予測

E3-targetPred: Prediction of E3-Target Proteins Using Deep Latent Space Encoding ( http://arxiv.org/abs/2007.12073v1 )

ライセンス: Link先を確認
Seongyong Park, Shujaat Khan, Abdul Wahab(参考訳) E3リガーゼと標的基質相互作用の理解は細胞生物学と治療の発展に重要である。 しかし,e3目標関係の実験的同定は,実験の労働集約性から,容易な作業ではない。 本稿では, シーケンスに基づくe3目標予測モデルを提案する。 提案するフレームワークは、k-spaced amino acid pairs (CKSAAP) の組成を利用して、E3リガーゼと標的タンパク質の関係を学習する。 特徴空間の圧縮表現を提供するクラス分離可能な潜在空間符号化スキームも考案されている。 cksaapの最適ギャップサイズとe3目標関係を良好に表現できる潜在変数数を明らかにするため,徹底的なアブレーション研究を行った。 提案手法は,様々な標準定量的尺度の独立データセット上で評価される。 特に、独立データセットの平均精度は70.63 %である。 この研究で使用されたソースコードとデータセットは、著者のgithubページ(https://github.com/psychemistz/e3targetpred)で入手できる。

Understanding E3 ligase and target substrate interactions are important for cell biology and therapeutic development. However, experimental identification of E3 target relationships is not an easy task due to the labor-intensive nature of the experiments. In this article, a sequence-based E3-target prediction model is proposed for the first time. The proposed framework utilizes composition of k-spaced amino acid pairs (CKSAAP) to learn the relationship between E3 ligases and their target protein. A class separable latent space encoding scheme is also devised that provides a compressed representation of feature space. A thorough ablation study is performed to identify an optimal gap size for CKSAAP and the number of latent variables that can represent the E3-target relationship successfully. The proposed scheme is evaluated on an independent dataset for a variety of standard quantitative measures. In particular, it achieves an average accuracy of $70.63\%$ on an independent dataset. The source code and datasets used in the study are available at the author's GitHub page (https://github.com/psychemistz/E3targetPred).
翻訳日:2022-11-16 22:15:45 公開日:2020-06-26
# COVID-19におけるモビリティとソシビリティのトレンドを評価するインタラクティブなデータ可視化と分析ツール

An Interactive Data Visualization and Analytics Tool to Evaluate Mobility and Sociability Trends During COVID-19 ( http://arxiv.org/abs/2006.14882v1 )

ライセンス: Link先を確認
Fan Zuo, Jingxing Wang, Jingqin Gao, Kaan Ozbay, Xuegang Jeff Ban, Yubin Shen, Hong Yang, Shri Iyer(参考訳) 新型コロナウイルス(covid-19)の流行は、影響を受けた都市の旅行行動を大きく変えた。 c2smart researchチームは、covid-19がモビリティとソシビリティに与える影響を調査している。 new york city (nyc)とseattleは、米国でcovid-19に最も影響を受けた2つの都市だ。 データマイニングとクラウドコンピューティング機能を備えたオールインワンのダッシュボードが、アウトブレイクの影響と交通システムにおけるソーシャルディスタンシングなどのポリシーの理解を容易にするために、インタラクティブなデータ分析と可視化のために開発された。 このプラットフォームは定期的に更新され、新たなデータの追加、メトリクスの影響、そして公開や意思決定者による情報的な意思決定を支援する視覚化によって進化を続けている。 本稿では,covid-19関連モビリティデータダッシュボードのアーキテクチャと,ニューヨークとシアトルのモビリティとソシビリティ指標について述べる。

The COVID-19 outbreak has dramatically changed travel behavior in affected cities. The C2SMART research team has been investigating the impact of COVID-19 on mobility and sociability. New York City (NYC) and Seattle, two of the cities most affected by COVID-19 in the U.S. were included in our initial study. An all-in-one dashboard with data mining and cloud computing capabilities was developed for interactive data analytics and visualization to facilitate the understanding of the impact of the outbreak and corresponding policies such as social distancing on transportation systems. This platform is updated regularly and continues to evolve with the addition of new data, impact metrics, and visualizations to assist public and decision-makers to make informed decisions. This paper presents the architecture of the COVID related mobility data dashboard and preliminary mobility and sociability metrics for NYC and Seattle.
翻訳日:2022-11-16 22:14:52 公開日:2020-06-26
# DRACO:Systolic Accelerator上でのハードウェア利用の最適化とDNNの性能

DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator ( http://arxiv.org/abs/2006.15103v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Shreyas Ravishankar, Sparsh Mittal, Arvind Kaushik, Dipan Mandal, Mahesh Chandra(参考訳) 固定サイズのシストリック加速器における処理要素(PE)の数は、大きくて計算バウンドなDNNとよく一致しているが、メモリバウンドなDNNはPEの未使用化に悩まされ、ピーク性能とエネルギー効率を達成できない。 これを軽減するため、特殊データフローやマイクロアーキテクチャ技術が提案されている。 しかし、より長い開発サイクルとディープラーニング分野の急速な進化のペースにより、これらのハードウェアベースのソリューションは時代遅れであり、最先端のDNNに対するPEの非利用を扱うのに有効ではない。 本稿では,peのアルゴリズム面での活用の課題に対処し,データ再利用を考慮した協調最適化(draco)を提案する。 これにより、データフロー/マイクロアーキテクチャの変更を必要とせずに、メモリバウンドDNNのPE利用が向上する。 さらに,従来の共同最適化手法とは異なり,DRACOは性能とエネルギー効率を最大化するだけでなく,DNNの予測性能も向上する。 我々の知る限り、DRACOはアルゴリズムレベルで資源未利用の課題を解決し、計算効率、PE利用率、DNNの予測性能のトレードオフを示す最初の研究である。 最先端の行定常データフローと比較すると、DRACOは平均PE使用率と推論遅延(参照)が41.8%と42.6%向上し、6,4\times64$ systolic配列上でMobileNetV1の予測性能が低下した。 DRACOは、シリアルアレイベースのハードウェアアクセラレーションの計算能力を完全に活用できる、利用を意識したDNN設計手法に関する基礎的な洞察を提供する。

The number of processing elements (PEs) in a fixed-sized systolic accelerator is well matched for large and compute-bound DNNs; whereas, memory-bound DNNs suffer from PE underutilization and fail to achieve peak performance and energy efficiency. To mitigate this, specialized dataflow and/or micro-architectural techniques have been proposed. However, due to the longer development cycle and the rapid pace of evolution in the deep learning fields, these hardware-based solutions can be obsolete and ineffective in dealing with PE underutilization for state-of-the-art DNNs. In this work, we address the challenge of PE underutilization at the algorithm front and propose data reuse aware co-optimization (DRACO). This improves the PE utilization of memory-bound DNNs without any additional need for dataflow/micro-architecture modifications. Furthermore, unlike the previous co-optimization methods, DRACO not only maximizes performance and energy efficiency but also improves the predictive performance of DNNs. To the best of our knowledge, DRACO is the first work that resolves the resource underutilization challenge at the algorithm level and demonstrates a trade-off between computational efficiency, PE utilization, and predictive performance of DNN. Compared to the state-of-the-art row stationary dataflow, DRACO achieves 41.8% and 42.6% improvement in average PE utilization and inference latency (respectively) with negligible loss in predictive performance in MobileNetV1 on a $64\times64$ systolic array. DRACO provides seminal insights for utilization-aware DNN design methodologies that can fully leverage the computation power of systolic array-based hardware accelerators.
翻訳日:2022-11-16 22:14:39 公開日:2020-06-26
# 低線量CTにおける知覚損失を有するカスケード畳み込みニューラルネットワーク

Cascaded Convolutional Neural Networks with Perceptual Loss for Low Dose CT Denoising ( http://arxiv.org/abs/2006.14738v1 )

ライセンス: Link先を確認
Sepehr Ataei, Dr. Javad Alirezaie, Dr. Paul Babyn(参考訳) 低線量ct診断研究は、患者への放射線被曝のリスクを減らすことを目的としている。 近年、ディープラーニングを用いて低線量CT画像に有望な結果を与えている。 しかし、平均二乗誤差(MSE)を用いたアプローチでは、画像の低コントラスト領域における微細な構造的詳細が失われる傾向にある。 これらの領域は診断に不可欠であり,低用量CTが実際に有効に使用されるためには保存する必要がある。 本研究では、知覚損失を最小化することで、低線量ctから正常線量ctを再構築することを目的とした2つのニューラルネットワークのカスケードと、知覚損失ネットワークから基底真理と予測との差を予測する2つのニューラルネットワークを用いる。 提案手法は,画像の低コントラスト領域における細かな構造的細部をより効果的に再構築する。

Low Dose CT Denoising research aims to reduce the risks of radiation exposure to patients. Recently researchers have used deep learning to denoise low dose CT images with promising results. However, approaches that use mean-squared-error (MSE) tend to over smooth the image resulting in loss of fine structural details in low contrast regions of the image. These regions are often crucial for diagnosis and must be preserved in order for Low dose CT to be used effectively in practice. In this work we use a cascade of two neural networks, the first of which aims to reconstruct normal dose CT from low dose CT by minimizing perceptual loss, and the second which predicts the difference between the ground truth and prediction from the perceptual loss network. We show that our method outperforms related works and more effectively reconstructs fine structural details in low contrast regions of the image.
翻訳日:2022-11-16 22:08:22 公開日:2020-06-26
# 歩行系列の動的変動解析による人物再同定

Person Re-identification by analyzing Dynamic Variations in Gait Sequences ( http://arxiv.org/abs/2006.15109v1 )

ライセンス: Link先を確認
Sandesh Bharadwaj (1,2) and Kunal Chanda (2) ((1) Indian Institute of Information Technology, Design and Manufacturing, Kancheepuram, (2) Center for Development of Advanced Computing, Kolkata)(参考訳) 歩行認識(英: Gait recognition)は、歩行や手足の動きを分析することで、ビデオシーケンス内の個人を識別する生体計測技術である。 しかし、この識別は外観変化に敏感であり、歩行エネルギー画像(GEI)のような従来の特徴記述子は歩行シーケンスの動的情報が失われる。 Active Energy Image (AEI)はGEIよりもダイナミックな動きの変化に焦点を当てており、外観の変化に対処するのに適している。 本研究では,動的動作の変動を解析し,予測した変化のデータベースを使わずに人物を識別する手法を提案する。 提案手法では,シルエット配列の差分フレームを平均化し,複数のセグメントに分割することにより,能動エネルギー画像を算出する。 アフィンモーメント不変量は各セクションの歩行特徴として計算される。 次に、抽出した特徴とデータベース内の特徴との類似性に基づいてマッチング重みを算出する。 最後に、対象は全セグメントの類似性の重み付き結合によって識別される。 CASIA-B Gait Databaseは実験分析の主要なデータセットとして使用される。

Gait recognition is a biometric technology that identifies individuals in a video sequence by analysing their style of walking or limb movement. However, this identification is generally sensitive to appearance changes and conventional feature descriptors such as Gait Energy Image (GEI) lose some of the dynamic information in the gait sequence. Active Energy Image (AEI) focuses more on dynamic motion changes than GEI and is more suited to deal with appearance changes. We propose a new approach, which allows recognizing people by analysing the dynamic motion variations and identifying people without using a database of predicted changes. In the proposed method, the active energy image is calculated by averaging the difference frames of the silhouette sequence and divided into multiple segments. Affine moment invariants are computed as gait features for each section. Next, matching weights are calculated based on the similarity between extracted features and those in the database. Finally, the subject is identified by the weighted combination of similarities in all segments. The CASIA-B Gait Database is used as the principal dataset for the experimental analysis.
翻訳日:2022-11-16 22:06:58 公開日:2020-06-26
# 3次元製品配置のための広告作成システム

An Advert Creation System for 3D Product Placements ( http://arxiv.org/abs/2006.15131v1 )

ライセンス: Link先を確認
Ivan Bacher, Hossein Javidnia, Soumyabrata Dev, Rahul Agrahari, Murhaf Hossari, Matthew Nicholson, Clare Conran, Jian Tang, Peng Song, David Corrigan, Fran\c{c}ois Piti\'e(参考訳) 過去10年間で、ビデオ共有プラットフォームの進化は、コンテキスト広告に多大な投資をしてきた。 一般的なコンテキスト広告プラットフォームは、ユーザーが提供した情報を利用して2Dビジュアル広告をビデオに統合する。 既存のプラットフォームは、オクルーディングオブジェクトに関する広告統合や3d広告配置など、多くの技術的課題に直面している。 本稿では,映像に3d仮想オブジェクトをブレンドし,現実の錯覚を作り出すために,シーンの3次元形状とカメラの動きを認識できる映像広告配置統合(adverts)フレームワークを提案する。 提案フレームワークは, 単眼深度推定, 物体分割, 背景・地上分離, アルファマッティング, カメラトラッキングなどのモジュールを含む。 コンテクスト広告統合における本システムの有意な可能性を示し,複合現実感技術を用いた広告産業の限界を押し上げる実験を行った。

Over the past decade, the evolution of video-sharing platforms has attracted a significant amount of investments on contextual advertising. The common contextual advertising platforms utilize the information provided by users to integrate 2D visual ads into videos. The existing platforms face many technical challenges such as ad integration with respect to occluding objects and 3D ad placement. This paper presents a Video Advertisement Placement & Integration (Adverts) framework, which is capable of perceiving the 3D geometry of the scene and camera motion to blend 3D virtual objects in videos and create the illusion of reality. The proposed framework contains several modules such as monocular depth estimation, object segmentation, background-foreground separation, alpha matting and camera tracking. Our experiments conducted using Adverts framework indicates the significant potential of this system in contextual ad integration, and pushing the limits of advertising industry using mixed reality technologies.
翻訳日:2022-11-16 22:06:43 公開日:2020-06-26
# GINN:マルチスケール物理のためのグラフインフォームドニューラルネットワーク

GINNs: Graph-Informed Neural Networks for Multiscale Physics ( http://arxiv.org/abs/2006.14807v1 )

ライセンス: Link先を確認
Eric J. Hall and S{\o}ren Taverniers and Markos A. Katsoulakis and Daniel M. Tartakovsky(参考訳) グラフインフォームドニューラルネットワーク(GINN)の概念は、ディープラーニングと確率的グラフィカルモデル(PGM)を組み合わせたハイブリッドアプローチであり、多スケール・多物理系の物理に基づく表現の代用として機能する。 GINNは、物理学に基づくモデルにおける本質的な計算ボトルネックを除去し、高い信頼度で興味の量(QoI)の確率分布を推定するための大きなデータセットを生成するという2つの課題に対処する。 NNが学習した複雑な物理学の選択と、その教師付き学習/予測はPGMによって通知され、それぞれの相互相関を考慮し、物理的に健全なCVとQoI分布を確保するために、可変制御変数(CV)の構造化前の構造を定式化することを含む。 GINNは、物理モデルだけで十分なサンプルデータを生成する場合、シミュレーションベースの意思決定に不可欠なQoIの予測を加速する。 スーパーキャパシタに基づくエネルギー貯蔵を基盤とした実世界のアプリケーションを用いて,スーパーキャパシタダイナミクスのためのベイジアンネットワーク埋め込みホモゲナイズドモデルによるギンの構成と,信頼区間の密接な非ガウシアン・スキューのカーネル密度推定能力について述べる。

We introduce the concept of a Graph-Informed Neural Network (GINN), a hybrid approach combining deep learning with probabilistic graphical models (PGMs) that acts as a surrogate for physics-based representations of multiscale and multiphysics systems. GINNs address the twin challenges of removing intrinsic computational bottlenecks in physics-based models and generating large data sets for estimating probability distributions of quantities of interest (QoIs) with a high degree of confidence. Both the selection of the complex physics learned by the NN and its supervised learning/prediction are informed by the PGM, which includes the formulation of structured priors for tunable control variables (CVs) to account for their mutual correlations and ensure physically sound CV and QoI distributions. GINNs accelerate the prediction of QoIs essential for simulation-based decision-making where generating sufficient sample data using physics-based models alone is often prohibitively expensive. Using a real-world application grounded in supercapacitor-based energy storage, we describe the construction of GINNs from a Bayesian network-embedded homogenized model for supercapacitor dynamics, and demonstrate their ability to produce kernel density estimates of relevant non-Gaussian, skewed QoIs with tight confidence intervals.
翻訳日:2022-11-16 22:06:05 公開日:2020-06-26
# 高速多層フォアグラウンド推定

Fast Multi-Level Foreground Estimation ( http://arxiv.org/abs/2006.14970v1 )

ライセンス: Link先を確認
Thomas Germer, Tobias Uelwer, Stefan Conrad, Stefan Harmeling(参考訳) alpha mattingは、ある画像内のオブジェクトの透過性を推定することを目的としている。 得られたアルファマットは、合成画像の色にどのような前景と背景色が寄与するかをピクセル単位で記述する。 文学におけるほとんどの方法はアルファマットの推定に重点を置いているが、入力画像とアルファマットが与えられた前景色を推定するプロセスはしばしば無視されるが、前景推定は多くの画像編集ワークフローの重要な部分である。 本研究では,アルファマットを用いたフォアグラウンド推定手法を提案する。 高速マルチレベルアプローチは、計算実行時とメモリ使用量でこれらのメソッドを上回りながら、最先端に匹敵する結果をもたらすことを実証する。

Alpha matting aims to estimate the translucency of an object in a given image. The resulting alpha matte describes pixel-wise to what amount foreground and background colors contribute to the color of the composite image. While most methods in literature focus on estimating the alpha matte, the process of estimating the foreground colors given the input image and its alpha matte is often neglected, although foreground estimation is an essential part of many image editing workflows. In this work, we propose a novel method for foreground estimation given the alpha matte. We demonstrate that our fast multi-level approach yields results that are comparable with the state-of-the-art while outperforming those methods in computational runtime and memory usage.
翻訳日:2022-11-16 21:59:06 公開日:2020-06-26
# 合成された顔画像の高分解能ゼロショット領域適応

High Resolution Zero-Shot Domain Adaptation of Synthetically Rendered Face Images ( http://arxiv.org/abs/2006.15031v1 )

ライセンス: Link先を確認
Stephan J. Garbin, Marek Kowalski, Matthew Johnson, and Jamie Shotton(参考訳) 大規模に人間の顔の写実的画像を生成することは、コンピュータグラフィックスのアプローチによる極めて難しい作業である。 これは、光をフォトリアリスティックにシミュレーションする必要があるためであり、頭部と周囲のシーンの両方において、物理的に正確な幾何学、材料、光源のモデリングを必要とする。 しかし、非フォトリアリスティックなレンダリングは生産が容易である。 コンピュータグラフィックスのアプローチとは対照的に、より容易に利用可能な2次元画像データから得られた生成モデルは、実際のデータと区別が難しい人間の顔のサンプルを作成することが示されている。 学習の過程は、通常、生成された画像の形状や外観に対する制御の喪失に対応する。 例えば、顔から独立して髪を整えるといった単純なディスタング作業でさえ、コンピュータグラフィックスアプローチで達成するのは簡単なことですが、オープンリサーチの問題です。 本研究では,非フォトリアリスティックな合成生成画像と事前学習されたstylegan2モデルの潜在ベクトルとをマッチングするアルゴリズムを提案し,そのベクトルを同一ポーズ,表情,髪型,照明の人物のフォトリアリスティック画像にマッピングする。 これまでのほとんどの研究とは対照的に、合成トレーニングデータを必要としない。 私たちの知る限りでは、このアルゴリズムは1Kの解像度で作業する最初のアルゴリズムであり、視覚リアリズムの飛躍的な進歩を表している。

Generating photorealistic images of human faces at scale remains a prohibitively difficult task using computer graphics approaches. This is because these require the simulation of light to be photorealistic, which in turn requires physically accurate modelling of geometry, materials, and light sources, for both the head and the surrounding scene. Non-photorealistic renders however are increasingly easy to produce. In contrast to computer graphics approaches, generative models learned from more readily available 2D image data have been shown to produce samples of human faces that are hard to distinguish from real data. The process of learning usually corresponds to a loss of control over the shape and appearance of the generated images. For instance, even simple disentangling tasks such as modifying the hair independently of the face, which is trivial to accomplish in a computer graphics approach, remains an open research question. In this work, we propose an algorithm that matches a non-photorealistic, synthetically generated image to a latent vector of a pretrained StyleGAN2 model which, in turn, maps the vector to a photorealistic image of a person of the same pose, expression, hair, and lighting. In contrast to most previous work, we require no synthetic training data. To the best of our knowledge, this is the first algorithm of its kind to work at a resolution of 1K and represents a significant leap forward in visual realism.
翻訳日:2022-11-16 21:58:54 公開日:2020-06-26
# 画像分類のためのディープカーネルマップネットワークのエンドツーエンドトレーニング

End-to-end training of deep kernel map networks for image classification ( http://arxiv.org/abs/2006.15088v1 )

ライセンス: Link先を確認
Mingyuan Jiu and Hichem Sahbi(参考訳) 深層カーネルマップネットワークは画像アノテーションを含む様々な分類問題において優れた性能を示した。 彼らの一般的なレシピは、入力空間から高次元空間にデータをマッピングする特異値分解(SVD)の複数の層を集約し、基盤となるカーネルの類似性を保っている。 しかし、これらのディープマップネットワークの可能性は、これらのネットワークの本来の設定がカーネルの近似品質に主眼を置いているため、完全には検討されていない。 本稿では,カーネルの近似品質と識別能力のバランスをとる深層カーネルマップ学習のための「エンドツーエンド」設計を提案する。 提案手法は,まず階層的にSVDを適用して初期深層カーネルマップの近似を構築,次に「エンドツーエンド」教師付き学習を用いて識別能力を向上し,その効率を向上する。 課題である ImageCLEF のベンチマークで実施した大規模な実験では,この2段階プロセスの高効率性と性能を,異なる手法で示す。

Deep kernel map networks have shown excellent performances in various classification problems including image annotation. Their general recipe consists in aggregating several layers of singular value decompositions (SVDs) -- that map data from input spaces into high dimensional spaces -- while preserving the similarity of the underlying kernels. However, the potential of these deep map networks has not been fully explored as the original setting of these networks focuses mainly on the approximation quality of their kernels and ignores their discrimination power. In this paper, we introduce a novel "end-to-end" design for deep kernel map learning that balances the approximation quality of kernels and their discrimination power. Our method proceeds in two steps; first, layerwise SVD is applied in order to build initial deep kernel map approximations and then an "end-to-end" supervised learning is employed to further enhance their discrimination power while maintaining their efficiency. Extensive experiments, conducted on the challenging ImageCLEF annotation benchmark, show the high efficiency and the out-performance of this two-step process with respect to different related methods.
翻訳日:2022-11-16 21:58:18 公開日:2020-06-26
# ULSAM:小型畳み込みニューラルネットワークのための超軽量サブスペースアテンションモジュール

ULSAM: Ultra-Lightweight Subspace Attention Module for Compact Convolutional Neural Networks ( http://arxiv.org/abs/2006.15102v1 )

ライセンス: Link先を確認
Rajat Saini, Nandan Kumar Jha, Bedanta Das, Sparsh Mittal, C. Krishna Mohan(参考訳) 長距離依存をモデル化する自己認識機構の能力は、ビジョンモデルへの展開を触媒している。 畳み込み演算子とは異なり、セルフアテンションは無限受容場を提供し、グローバル依存の計算効率の高いモデリングを可能にする。 しかし、既存の最先端の注意機構は高い計算量やパラメータのオーバーヘッドをもたらすため、コンパクト畳み込みニューラルネットワーク(cnns)には不向きである。 本研究では,各特徴写像部分空間に対して異なる注意マップを推定する,シンプルで効果的なUltra-Lightweight Subspace Attention Mechanism (ULSAM)を提案する。 特徴部分空間毎に異なる注目マップを傾けることで、よりきめ細かな画像分類に好適なマルチスケール・マルチ周波数特徴表現が可能になると論じる。 本手法は視覚モデルにおける既存の注意機構と直交し補完するものである。 ULSAMはエンドツーエンドのトレーニングが可能で、既存のコンパクトCNNのプラグイン・アンド・プレイモジュールとしてデプロイできる。 特に、我々の研究は、小型CNNの効率を高めるためにサブスペースアテンション機構を用いた最初の試みである。 ULSAMの有効性を示すために,ImageNet-1K上のバックボーンアーキテクチャとしてMobileNet-V1とMobileNet-V2を用いて実験を行った。 我々は、imagenet-1kおよび細粒度画像分類データセットの精度が0.27%以上、top-1精度が1%以上向上したmobilenet-v2のフロップ数とパラメータ数をそれぞれ約13%、約25%削減した。 コードとトレーニングされたモデルはhttps://github.com/Nandan91/ULSAMで入手できる。

The capability of the self-attention mechanism to model the long-range dependencies has catapulted its deployment in vision models. Unlike convolution operators, self-attention offers infinite receptive field and enables compute-efficient modeling of global dependencies. However, the existing state-of-the-art attention mechanisms incur high compute and/or parameter overheads, and hence unfit for compact convolutional neural networks (CNNs). In this work, we propose a simple yet effective "Ultra-Lightweight Subspace Attention Mechanism" (ULSAM), which infers different attention maps for each feature map subspace. We argue that leaning separate attention maps for each feature subspace enables multi-scale and multi-frequency feature representation, which is more desirable for fine-grained image classification. Our method of subspace attention is orthogonal and complementary to the existing state-of-the-arts attention mechanisms used in vision models. ULSAM is end-to-end trainable and can be deployed as a plug-and-play module in the pre-existing compact CNNs. Notably, our work is the first attempt that uses a subspace attention mechanism to increase the efficiency of compact CNNs. To show the efficacy of ULSAM, we perform experiments with MobileNet-V1 and MobileNet-V2 as backbone architectures on ImageNet-1K and three fine-grained image classification datasets. We achieve $\approx$13% and $\approx$25% reduction in both the FLOPs and parameter counts of MobileNet-V2 with a 0.27% and more than 1% improvement in top-1 accuracy on the ImageNet-1K and fine-grained image classification datasets (respectively). Code and trained models are available at https://github.com/Nandan91/ULSAM.
翻訳日:2022-11-16 21:58:00 公開日:2020-06-26
# 自己監督用スーパーボクセル塗装

Region-of-interest guided Supervoxel Inpainting for Self-supervision ( http://arxiv.org/abs/2006.15186v1 )

ライセンス: Link先を確認
Subhradeep Kayal, Shuai Chen, Marleen de Bruijne(参考訳) 自己教師付き学習は、バイオメディカルイメージセグメンテーションで利用可能なすべてのデータを最大限に活用する上で有益であることが証明されている。 自己超越を達成するための特にシンプルで効果的なメカニズムは、画像の残りの部分に基づいて、任意の欠落した領域を予測する作業であるインペインティングである。 本研究では,自己監督型プロキシタスクとしてのイメージインパインティングに着目し,より深いニューラルネットワークの性能を高めるために,2つの新しい構造変化を提案する。 我々は、ランダムマスキングの代わりにスーパーボクセルベースのマスキングを用いて、画像を生成する過程をガイドし、また、メインタスクにセグメント化される領域に焦点を当て、関心の領域と呼ぶ。 これらの追加により、ネットワークは主要なタスクに慣れた意味学を学習し、脳腫瘍とホワイトマターの超強度セグメンテーションという2つの応用に関する仮説をテストする必要があると仮定する。 提案手法は,大規模および小規模のトレーニングセットサイズにおいて,自己スーパービジョンを必要とせず,かつ従来のインペインティングベースの自己スーパービジョン手法よりも一貫して優れることを示す。

Self-supervised learning has proven to be invaluable in making best use of all of the available data in biomedical image segmentation. One particularly simple and effective mechanism to achieve self-supervision is inpainting, the task of predicting arbitrary missing areas based on the rest of an image. In this work, we focus on image inpainting as the self-supervised proxy task, and propose two novel structural changes to further enhance the performance of a deep neural network. We guide the process of generating images to inpaint by using supervoxel-based masking instead of random masking, and also by focusing on the area to be segmented in the primary task, which we term as the region-of-interest. We postulate that these additions force the network to learn semantics that are more attuned to the primary task, and test our hypotheses on two applications: brain tumour and white matter hyperintensities segmentation. We empirically show that our proposed approach consistently outperforms both supervised CNNs, without any self-supervision, and conventional inpainting-based self-supervision methods on both large and small training set sizes.
翻訳日:2022-11-16 21:57:13 公開日:2020-06-26
# 集合グラフィカルモデルの漸進的推論

Incremental inference of collective graphical models ( http://arxiv.org/abs/2006.15035v1 )

ライセンス: Link先を確認
Rahul Singh, Isabel Haasler, Qinsheng Zhang, Johan Karlsson, Yongxin Chen(参考訳) 集団動力学のための集約データからの漸進的推論問題を考える。 特に, インクリメンタル(オンライン)な手法で, 雑音を伴う集合観測からマルコフ連鎖の包括限界を推定する問題に対処する。 本稿では,最新のノイズ集約観測のスライディングウインドウフィルタと,破棄された観測からの符号化情報を利用するスライディングウインドウSinkhorn belief propagation (SW-SBP)アルゴリズムを提案する。 本アルゴリズムは,最近提案されているマルチマルジナル最適トランスポートベースsbpアルゴリズムをベースとし,標準信頼度伝播法とシンクホーン法を応用し,集計データから推定問題を解く。 総括観測から人口フローを推定するなど,本アルゴリズムの性能を実演する。

We consider incremental inference problems from aggregate data for collective dynamics. In particular, we address the problem of estimating the aggregate marginals of a Markov chain from noisy aggregate observations in an incremental (online) fashion. We propose a sliding window Sinkhorn belief propagation (SW-SBP) algorithm that utilizes a sliding window filter of the most recent noisy aggregate observations along with encoded information from discarded observations. Our algorithm is built upon the recently proposed multi-marginal optimal transport based SBP algorithm that leverages standard belief propagation and Sinkhorn algorithm to solve inference problems from aggregate data. We demonstrate the performance of our algorithm on applications such as inferring population flow from aggregate observations.
翻訳日:2022-11-16 21:49:39 公開日:2020-06-26
# 生涯学習の手段としてのダイアログ

Dialog as a Vehicle for Lifelong Learning ( http://arxiv.org/abs/2006.14767v1 )

ライセンス: Link先を確認
Aishwarya Padmakumar, Raymond J. Mooney(参考訳) ダイアログシステムの研究は、主に2つの主要なタイプのアプリケーションに焦点を当ててきた。目標を理解するのに明確化の使用を学ぶタスク指向のダイアログシステムと、制約のない「チップチャット」会話を実行することが期待されるオープンエンドのダイアログシステムである。 しかし、ダイアログの相互作用は、基礎となる言語理解システムや、ダイアログが処理する他の機械学習システムを改善するために使用できる様々な種類の知識を得るためにも使用できる。 本稿では,ロボットの身体配置を含むアプリケーションにおいて,生涯学習を重要な課題課題とする対話システムの設計について述べる。 この方向への事前作業の例を取り上げ、対処すべき課題について議論します。

Dialog systems research has primarily been focused around two main types of applications - task-oriented dialog systems that learn to use clarification to aid in understanding a goal, and open-ended dialog systems that are expected to carry out unconstrained "chit chat" conversations. However, dialog interactions can also be used to obtain various types of knowledge that can be used to improve an underlying language understanding system, or other machine learning systems that the dialog acts over. In this position paper, we present the problem of designing dialog systems that enable lifelong learning as an important challenge problem, in particular for applications involving physically situated robots. We include examples of prior work in this direction, and discuss challenges that remain to be addressed.
翻訳日:2022-11-16 21:49:25 公開日:2020-06-26
# マルコフ決定過程によるユークリッドの近似

Approximating Euclidean by Imprecise Markov Decision Processes ( http://arxiv.org/abs/2006.14923v1 )

ライセンス: Link先を確認
Manfred Jaeger, Giorgio Bacci, Giovanni Bacci, Kim Guldstrand Larsen, and Peter Gj{\o}l Jensen(参考訳) ユークリッドマルコフ決定プロセスは、連続領域上の不確実性の下で制御問題をモデル化する強力なツールである。 有限状態不正確性、マルコフ決定過程はこれらの無限モデルの挙動を近似するために用いられる。 本稿では,次の2つの問題に対処する: まず, 連続状態空間の微細な分割によって生じる有限状態近似によりユークリッド過程が近似されたときに, どのような近似保証が得られるかを検討する。 有限時間地平線上のコスト関数に対して近似は任意に正確になることを示す。 第2に,強化学習によって得られたコスト関数と戦略を分析し検証するためのツールとして,不正確なマルコフ決定過程近似を用いる。 一方,提案する強化学習手法の基本的な設計選択を検証した新しい理論結果が得られた。 一方、不正確なマルコフ決定過程近似は、学習コスト関数の不正確さを明らかにした。

Euclidean Markov decision processes are a powerful tool for modeling control problems under uncertainty over continuous domains. Finite state imprecise, Markov decision processes can be used to approximate the behavior of these infinite models. In this paper we address two questions: first, we investigate what kind of approximation guarantees are obtained when the Euclidean process is approximated by finite state approximations induced by increasingly fine partitions of the continuous state space. We show that for cost functions over finite time horizons the approximations become arbitrarily precise. Second, we use imprecise Markov decision process approximations as a tool to analyse and validate cost functions and strategies obtained by reinforcement learning. We find that, on the one hand, our new theoretical results validate basic design choices of a previously proposed reinforcement learning approach. On the other hand, the imprecise Markov decision process approximations reveal some inaccuracies in the learned cost functions.
翻訳日:2022-11-16 21:48:50 公開日:2020-06-26
# メタ変形ネットワーク:形状対応のためのメタ機能

Meta Deformation Network: Meta Functionals for Shape Correspondence ( http://arxiv.org/abs/2006.14758v1 )

ライセンス: Link先を確認
Daohan Lu, Yi Fang(参考訳) 本稿では, 深層ニューラルネットワークが参照形状を第2のニューラルネットワークのパラメータにマッピングし, 学習したテンプレートと問合せ形状との対応性を変形を介して与えるという, 変形による3次元形状マッチングのための「メタ変形ネットワーク」という新しい手法を提案する。 第2のニューラルネットワークをメタ関数、あるいは他の関数によって生成される関数として分類し、そのパラメータは入力ごとに第1のネットワークによって動的に与えられる。 これにより、全体的なアーキテクチャが単純になり、テンプレートの変形の品質が損なわれることなく、実行速度が速くなります。 実験では,メタ変形ネットワークが,非動的パラメータを持つ従来のデコーダ設計を利用したMPI-FAUSTインターチャレンジの改善につながることを示す。

We present a new technique named "Meta Deformation Network" for 3D shape matching via deformation, in which a deep neural network maps a reference shape onto the parameters of a second neural network whose task is to give the correspondence between a learned template and query shape via deformation. We categorize the second neural network as a meta-function, or a function generated by another function, as its parameters are dynamically given by the first network on a per-input basis. This leads to a straightforward overall architecture and faster execution speeds, without loss in the quality of the deformation of the template. We show in our experiments that Meta Deformation Network leads to improvements on the MPI-FAUST Inter Challenge over designs that utilized a conventional decoder design that has non-dynamic parameters.
翻訳日:2022-11-16 21:48:37 公開日:2020-06-26
# 重なり合うグループ間隔を持つ学生のt前のブラインド画像のデコンボリューション

Blind Image Deconvolution using Student's-t Prior with Overlapping Group Sparsity ( http://arxiv.org/abs/2006.14780v1 )

ライセンス: Link先を確認
In S. Jeon, Deokyoung Kang, Suk I. Yoo(参考訳) 本稿では,ぼかしカーネルの知識を必要とせず,信号劣化画像のぼかしを除去するブラインド画像のデコンボリューション問題を解決する。 問題は不適切であるため、画像先行は正確なブラインドデコンボリューションにおいて重要な役割を果たす。 従来のイメージプリエントは、フィルタ領域の係数がスパースであると仮定する。 しかし、ここではスパース係数に付加的な構造が存在すると仮定する。 そこで我々は,学生のt画像と重なり合うグループ空間を結合して構造情報を利用するブラインド画像デコンボリューションの新しい問題定式化を提案する。 提案手法は、他の最先端アルゴリズムよりも優れた効果的なブラインドデコンボリューションアルゴリズムを実現する。

In this paper, we solve blind image deconvolution problem that is to remove blurs form a signal degraded image without any knowledge of the blur kernel. Since the problem is ill-posed, an image prior plays a significant role in accurate blind deconvolution. Traditional image prior assumes coefficients in filtered domains are sparse. However, it is assumed here that there exist additional structures over the sparse coefficients. Accordingly, we propose new problem formulation for the blind image deconvolution, which utilizes the structural information by coupling Student's-t image prior with overlapping group sparsity. The proposed method resulted in an effective blind deconvolution algorithm that outperforms other state-of-the-art algorithms.
翻訳日:2022-11-16 21:48:23 公開日:2020-06-26
# 大腸内視鏡によるポリープフレームのFew-Shot異常検出

Few-Shot Anomaly Detection for Polyp Frames from Colonoscopy ( http://arxiv.org/abs/2006.14811v1 )

ライセンス: Link先を確認
Yu Tian, Gabriel Maicas, Leonardo Zorron Cheng Tao Pu, Rajvinder Singh, Johan W. Verjans, Gustavo Carneiro(参考訳) 異常検出法は通常、正常な画像分布(健康な症例を示す異常値)の学習を対象とし、試験中、学習された分布から比較的遠いサンプルを異常(疾患を示す異常値)に分類する。 これらのアプローチは、異常値に比較的近い異常値(例えば、小さなポリプを持つ大腸内視鏡像)に敏感である傾向がある。 本稿では,外れ値に対する不適切な感度についても,外れ値から学習することで解決する。 本稿では,特徴埋め込みと正規画像の相互情報を最大化するために訓練されたエンコーダに基づく新しい数ショット異常検出法を提案する。 そこで本研究では,大腸内視鏡映像からポリープを含むフレームを検出する手法について検討し,本トレーニングセットの正常画像は13350点(ポリープなし),異常画像は100点未満(ポリープ付き)である。 提案したモデルでは,約40個の異常訓練画像の後に,異常サンプル数による性能が比較的安定であるのに対して,最先端検出結果が得られた。

Anomaly detection methods generally target the learning of a normal image distribution (i.e., inliers showing healthy cases) and during testing, samples relatively far from the learned distribution are classified as anomalies (i.e., outliers showing disease cases). These approaches tend to be sensitive to outliers that lie relatively close to inliers (e.g., a colonoscopy image with a small polyp). In this paper, we address the inappropriate sensitivity to outliers by also learning from inliers. We propose a new few-shot anomaly detection method based on an encoder trained to maximise the mutual information between feature embeddings and normal images, followed by a few-shot score inference network, trained with a large set of inliers and a substantially smaller set of outliers. We evaluate our proposed method on the clinical problem of detecting frames containing polyps from colonoscopy video sequences, where the training set has 13350 normal images (i.e., without polyps) and less than 100 abnormal images (i.e., with polyps). The results of our proposed model on this data set reveal a state-of-the-art detection result, while the performance based on different number of anomaly samples is relatively stable after approximately 40 abnormal training images.
翻訳日:2022-11-16 21:47:54 公開日:2020-06-26
# 拡張可能なYOLO:RGB-D画像からの3次元物体検出

Expandable YOLO: 3D Object Detection from RGB-D Images ( http://arxiv.org/abs/2006.14837v1 )

ライセンス: Link先を確認
Masahiro Takahashi, Alessandro Moro, Yonghoon Ji and Kazunori Umeda(参考訳) 本稿では,ステレオカメラから深度とカラー画像を入力する軽量物体検出器の構築を目的としている。 具体的には、YOLOv3のネットワークアーキテクチャを中央から3Dに拡張することにより、深さ方向の出力が可能となる。 さらに、領域抽出結果の精度を確認するために、3次元空間におけるUninon(IoU)の切断を導入する。 深層学習の分野では、距離情報を入力として利用する物体検出器を積極的に研究し、自動運転を利用する。 しかし、従来の検出器は大きなネットワーク構造を持ち、リアルタイム性が損なわれている。 上記のように構築した検出器の有効性をデータセットを用いて検証する。 この実験の結果,提案モデルは3次元拘束箱を出力し,身体の一部が隠されている人を検出することができる。 さらに、モデルの処理速度は44.35fpsである。

This paper aims at constructing a light-weight object detector that inputs a depth and a color image from a stereo camera. Specifically, by extending the network architecture of YOLOv3 to 3D in the middle, it is possible to output in the depth direction. In addition, Intersection over Uninon (IoU) in 3D space is introduced to confirm the accuracy of region extraction results. In the field of deep learning, object detectors that use distance information as input are actively studied for utilizing automated driving. However, the conventional detector has a large network structure, and the real-time property is impaired. The effectiveness of the detector constructed as described above is verified using datasets. As a result of this experiment, the proposed model is able to output 3D bounding boxes and detect people whose part of the body is hidden. Further, the processing speed of the model is 44.35 fps.
翻訳日:2022-11-16 21:47:32 公開日:2020-06-26
# ニューラルネットワークECGモデルの解釈因子化

Interpretable Factorization for Neural Network ECG Models ( http://arxiv.org/abs/2006.15189v1 )

ライセンス: Link先を確認
Christopher Snyder and Sriram Vishwanath(参考訳) 医学の実践を改善するための深層学習(DL)の能力とその臨床成績は、悲惨な障害に直面している。 アウトプットの生成方法が説明されていないため、協力的な医師は、モデルの結論が自身のものと矛盾している場合、あるいはモデル行動を予測することを学ばない。 現在の研究は、ECG記録を診断するネットワークを解釈することを目的としており、記録がよりパーソナライズされ、広く展開されるようになるにつれて、大きな影響を与える可能性がある。 ECGを超えた一般的な影響は、医学における解釈技術の発展のためのリッチなテストベッドを提供する能力にある。 しかし、ディープニューラルネットワーク(DNN)の解釈技術は、自然界においてヒューリスティックで観察的であり、数学方程式の解析において期待できる数学的厳密さを欠いている。 本稿の動機は,第3の選択肢である科学的アプローチを提供することである。 我々は,モデル出力自体を,その振る舞いを規定する成分部分と方程式を通じて説明すべき現象として扱う。 我々は、これらのコンポーネント部品は、ヒューリスティックに元の機能的接続を明確に解釈するために、追加のターゲットである「ブラックボックス」であるべきだと主張する。 本稿では,dnnをブラックボックス変数からなる階層式に厳密に分解する方法を示す。 これは、生物のような物理的部分の細胞への部分分割ではなく、方程式の1つの選択から抽象的な関数の集合への部分分割である。 しかし、PhyloNet 2017 Challengeデータ上で通常のECG波形を識別する訓練を受けたDNNでは、対応する入力領域におけるECGサンプルの視覚的合成スケッチで識別された解釈可能なコンポーネントモデルが得られる。 さらに、再帰は、この解釈を蒸留する: 成分ブラックボックスのさらなる分解は、より形態的に純粋なECGパーティションに対応する。

The ability of deep learning (DL) to improve the practice of medicine and its clinical outcomes faces a looming obstacle: model interpretation. Without description of how outputs are generated, a collaborating physician can neither resolve when the model's conclusions are in conflict with his or her own, nor learn to anticipate model behavior. Current research aims to interpret networks that diagnose ECG recordings, which has great potential impact as recordings become more personalized and widely deployed. A generalizable impact beyond ECGs lies in the ability to provide a rich test-bed for the development of interpretive techniques in medicine. Interpretive techniques for Deep Neural Networks (DNNs), however, tend to be heuristic and observational in nature, lacking the mathematical rigor one might expect in the analysis of math equations. The motivation of this paper is to offer a third option, a scientific approach. We treat the model output itself as a phenomenon to be explained through component parts and equations governing their behavior. We argue that these component parts should also be "black boxes" --additional targets to interpret heuristically with clear functional connection to the original. We show how to rigorously factor a DNN into a hierarchical equation consisting of black box variables. This is not a subdivision into physical parts, like an organism into its cells; it is but one choice of an equation into a collection of abstract functions. Yet, for DNNs trained to identify normal ECG waveforms on PhysioNet 2017 Challenge data, we demonstrate this choice yields interpretable component models identified with visual composite sketches of ECG samples in corresponding input regions. Moreover, the recursion distills this interpretation: additional factorization of component black boxes corresponds to ECG partitions that are more morphologically pure.
翻訳日:2022-11-16 21:41:17 公開日:2020-06-26
# AutoRec: 自動レコメンダシステム

AutoRec: An Automated Recommender System ( http://arxiv.org/abs/2007.07224v1 )

ライセンス: Link先を確認
Ting-Hsiang Wang, Qingquan Song, Xiaotian Han, Zirui Liu, Haifeng Jin, Xia Hu(参考訳) 現実的なレコメンデーションシステムは、常に変化するデータやタスクに適応したり、異なるモデルを体系的に探索するためにしばしば必要となる。 このニーズに対処するために、私たちは、tensorflowエコシステムから拡張されたオープンソースの自動機械学習(automl)プラットフォームであるautorecと、モデル検索とディープレコメンデーションモデルにおけるハイパーパラメータチューニングにautomlを利用する最初のフレームワークを提示します。 AutoRecはまた、スパースとディープインプットの両方、レーティング予測とクリックスルーレート(CTR)予測タスク、および一連のレコメンデーションモデルに対応する、非常にフレキシブルなパイプラインもサポートする。 最後にAutoRecはシンプルでユーザフレンドリなAPIを提供する。 ベンチマークデータセットで実施した実験では、autorecは信頼性が高く、事前の知識なしに最良のモデルに類似したモデルを識別できる。

Realistic recommender systems are often required to adapt to ever-changing data and tasks or to explore different models systematically. To address the need, we present AutoRec, an open-source automated machine learning (AutoML) platform extended from the TensorFlow ecosystem and, to our knowledge, the first framework to leverage AutoML for model search and hyperparameter tuning in deep recommendation models. AutoRec also supports a highly flexible pipeline that accommodates both sparse and dense inputs, rating prediction and click-through rate (CTR) prediction tasks, and an array of recommendation models. Lastly, AutoRec provides a simple, user-friendly API. Experiments conducted on the benchmark datasets reveal AutoRec is reliable and can identify models which resemble the best model without prior knowledge.
翻訳日:2022-11-16 21:40:01 公開日:2020-06-26
# 時空間畳み込みネットワークを用いたディープフェイク検出

Deepfake Detection using Spatiotemporal Convolutional Networks ( http://arxiv.org/abs/2006.14749v1 )

ライセンス: Link先を確認
Oscar de Lima, Sean Franklin, Shreshtha Basu, Blake Karwoski, Annet George(参考訳) より優れた生成モデルとより大きなデータセットは、人間の目を騙すことができるが、深層学習アプローチが検出できる時間的および空間的アーティファクトを生成する、より現実的なフェイクビデオを生み出した。 現在のディープフェイク検出法のほとんどは、個々のビデオフレームのみを使用しており、時間的情報から学ばない。 celeb-dfデータセットを用いた時空間畳み込み法の性能ベンチマークを作成した。 提案手法は最先端のフレームベース検出手法よりも優れていた。 私たちの論文のコードはhttps://github.com/oidelima/deepfake-detectionで公開されている。

Better generative models and larger datasets have led to more realistic fake videos that can fool the human eye but produce temporal and spatial artifacts that deep learning approaches can detect. Most current Deepfake detection methods only use individual video frames and therefore fail to learn from temporal information. We created a benchmark of the performance of spatiotemporal convolutional methods using the Celeb-DF dataset. Our methods outperformed state-of-the-art frame-based detection methods. Code for our paper is publicly available at https://github.com/oidelima/Deepfake-Detection.
翻訳日:2022-11-16 21:39:46 公開日:2020-06-26
# 他分野データを用いた学習モデルを活用した粗配置書籍のテキスト検出

Text Detection on Roughly Placed Books by Leveraging a Learning-based Model Trained with Another Domain Data ( http://arxiv.org/abs/2006.14808v1 )

ライセンス: Link先を確認
Riku Anegawa and Masayoshi Aritsugi(参考訳) テキスト検出により、画像から豊富な情報を抽出できる。 本稿では,テキストの自動検出を実現するために,書籍のテキスト領域を把握するのに適した境界ボックスを生成する方法に注目する。 対象ドメイン内の十分な量のデータをトレーニングすることで、学習ベースのモデルを改善するのではなく、すでに他のドメインデータでトレーニングされているそれを活用することを試みる。 学習に基づく手法の結果を改善し,活用することで,境界ボックスを構築するアルゴリズムを開発した。 本アルゴリズムは,異なる学習に基づく手法を用いてシーンテキストを検出することができる。 実験的評価により,本が大まかに配置されている様々な状況において,アルゴリズムがうまく機能することが示された。

Text detection enables us to extract rich information from images. In this paper, we focus on how to generate bounding boxes that are appropriate to grasp text areas on books to help implement automatic text detection. We attempt not to improve a learning-based model by training it with an enough amount of data in the target domain but to leverage it, which has been already trained with another domain data. We develop algorithms that construct the bounding boxes by improving and leveraging the results of a learning-based method. Our algorithms can utilize different learning-based approaches to detect scene texts. Experimental evaluations demonstrate that our algorithms work well in various situations where books are roughly placed.
翻訳日:2022-11-16 21:39:36 公開日:2020-06-26
# RPM-Net:ポイントクラウドからの運動と部品の繰り返し予測

RPM-Net: Recurrent Prediction of Motion and Parts from Point Cloud ( http://arxiv.org/abs/2006.14865v1 )

ライセンス: Link先を確認
Zihao Yan, Ruizhen Hu, Xingguang Yan, Luanmin Chen, Oliver van Kaick, Hao Zhang, Hui Huang(参考訳) rpm-netは,可動部を推論し,単一の非セグメント,おそらくは部分的な3dポイントクラウド形状からそれらの動きを幻覚する,深層学習に基づくアプローチである。 RPM-Netは、Long Short-Term Memory (LSTM) コンポーネントをインターリーブしたエンコーダとデコーダのペアで構成される、新しいリカレントニューラルネットワーク(RNN)である。 同時に、変位によってネットワークは可動部分を学ぶことができ、運動に基づく形状のセグメンテーションをもたらす。 得られた部分に対する RPM-Net の帰納的応用は、より微細な部分運動を予測でき、階層的なオブジェクトセグメンテーションをもたらす。 さらに, セグメント化された動き列から, 部分移動率(例えば, 部分移動パラメータ)を推定するネットワークを開発する。 どちらのネットワークも、さまざまなオブジェクトに対するさまざまな移動性を示すトレーニングセットから、深い予測モデルを学ぶ。 複数の可動部品を含む様々な部品移動性を示す3次元物体の合成および実画像からの同時運動と部分予測の結果を示す。

We introduce RPM-Net, a deep learning-based approach which simultaneously infers movable parts and hallucinates their motions from a single, un-segmented, and possibly partial, 3D point cloud shape. RPM-Net is a novel Recurrent Neural Network (RNN), composed of an encoder-decoder pair with interleaved Long Short-Term Memory (LSTM) components, which together predict a temporal sequence of pointwise displacements for the input point cloud. At the same time, the displacements allow the network to learn movable parts, resulting in a motion-based shape segmentation. Recursive applications of RPM-Net on the obtained parts can predict finer-level part motions, resulting in a hierarchical object segmentation. Furthermore, we develop a separate network to estimate part mobilities, e.g., per-part motion parameters, from the segmented motion sequence. Both networks learn deep predictive models from a training set that exemplifies a variety of mobilities for diverse objects. We show results of simultaneous motion and part predictions from synthetic and real scans of 3D objects exhibiting a variety of part mobilities, possibly involving multiple movable parts.
翻訳日:2022-11-16 21:39:11 公開日:2020-06-26
# 随伴法による光輸送勾配の計算

Computing Light Transport Gradients using the Adjoint Method ( http://arxiv.org/abs/2006.15059v1 )

ライセンス: Link先を確認
Jos Stam(参考訳) 本稿では,光の輸送理論によって支配される量の勾配を計算するために,連続随伴理論から新しい方程式を提案する。 コードレベルで働く離散勾配 ala autograd とは異なり、我々はまず連続理論を定式化し、それから離散化する。 この論文の重要な洞察は、輸送理論における勾配の計算が、随伴方程式を満たす放射に付随する量である重要性の計算に類似していることである。 重要性は、重要な光を探す場所を教えてくれる。 これはこの論文の重要な洞察の1つです。 実際、この数学的旅はこれらの随伴者は関連しているかもしれないという気まぐれな考えから始まった。 したがって、グラデーションの計算は重要分野の計算ほど複雑ではない。 この洞察と次の論文は、この複雑な問題に光を当て、既存の経路トレーサにおける勾配計算の実装を容易にすることを願っている。

This paper proposes a new equation from continuous adjoint theory to compute the gradient of quantities governed by the Transport Theory of light. Unlike discrete gradients ala autograd, which work at the code level, we first formulate the continuous theory and then discretize it. The key insight of this paper is that computing gradients in Transport Theory is akin to computing the importance, a quantity adjoint to radiance that satisfies an adjoint equation. Importance tells us where to look for light that matters. This is one of the key insights of this paper. In fact, this mathematical journey started from a whimsical thought that these adjoints might be related. Computing gradients is therefore no more complicated than computing the importance field. This insight and the following paper hopefully will shed some light on this complicated problem and ease the implementations of gradient computations in existing path tracers.
翻訳日:2022-11-16 21:38:32 公開日:2020-06-26
# スパイクニューラルネットワークを用いたテキスト表現の生物学的確率的学習

Biologically Plausible Learning of Text Representation with Spiking Neural Networks ( http://arxiv.org/abs/2006.14894v1 )

ライセンス: Link先を確認
Marcin Bia{\l}as, Marcin Micha{\l} Miro\'nczuk, Jacek Ma\'ndziuk(参考訳) 本研究は,低次元スパイクに基づくテキスト表現を生成するための生物学的に妥当な機構を提案する。 まず、文書を一連のスパイクスパイク列車に変換する方法を示し、その後、スパイクニューラルネットワーク(SNN)のトレーニングプロセスで入力として使用される。 ネットワークは生物学的に有理な要素で構成され、教師なしのヘビー学習規則、スパイク・タイピング依存可塑性(stdp)に従って訓練される。 トレーニング後、SNNはテキスト/文書分類に適した低次元スパイクベースのテキスト表現を生成するために使用できる。 実験の結果、生成されたテキスト表現は、低次元テキスト表現に依存するアプローチにおいて主要な結果である20のnewsgroupsデータセットの過去のバージョンで80.19\%$の精度をもたらすテキスト分類において効果的に使用されることが示されている。

This study proposes a novel biologically plausible mechanism for generating low-dimensional spike-based text representation. First, we demonstrate how to transform documents into series of spikes spike trains which are subsequently used as input in the training process of a spiking neural network (SNN). The network is composed of biologically plausible elements, and trained according to the unsupervised Hebbian learning rule, Spike-Timing-Dependent Plasticity (STDP). After training, the SNN can be used to generate low-dimensional spike-based text representation suitable for text/document classification. Empirical results demonstrate that the generated text representation may be effectively used in text classification leading to an accuracy of $80.19\%$ on the bydate version of the 20 newsgroups data set, which is a leading result amongst approaches that rely on low-dimensional text representations.
翻訳日:2022-11-16 21:32:45 公開日:2020-06-26
# r における高次元非有向グラフ推定のための巨大パッケージ

The huge Package for High-dimensional Undirected Graph Estimation in R ( http://arxiv.org/abs/2006.14781v1 )

ライセンス: Link先を確認
Tuo Zhao, Han Liu, Kathryn Roeder, John Lafferty, Larry Wasserman(参考訳) 本稿では,データから高次元の非方向グラフを推定するための使い勝手の良い関数を提供する。 このパッケージは、Friedman et al. (2007)、Liu et al. (2009, 2012)、Liu et al. (2010)など、最近の文献での結果を実装している。 Compared with the existing graph estimation package glasso, the huge package provides extra features: (1) instead of using Fortan, it is written in C, which makes the code more portable and easier to modify; (2) besides fitting Gaussian graphical models, it also provides functions for fitting high dimensional semiparametric Gaussian copula models; (3) more functions like data-dependent model selection, data generation and graph visualization; (4) a minor convergence problem of the graphical lasso algorithm is corrected; (5) the package allows the user to apply both lossless and lossy screening rules to scale up large-scale problems, making a tradeoff between computational and statistical efficiency.

We describe an R package named huge which provides easy-to-use functions for estimating high dimensional undirected graphs from data. This package implements recent results in the literature, including Friedman et al. (2007), Liu et al. (2009, 2012) and Liu et al. (2010). Compared with the existing graph estimation package glasso, the huge package provides extra features: (1) instead of using Fortan, it is written in C, which makes the code more portable and easier to modify; (2) besides fitting Gaussian graphical models, it also provides functions for fitting high dimensional semiparametric Gaussian copula models; (3) more functions like data-dependent model selection, data generation and graph visualization; (4) a minor convergence problem of the graphical lasso algorithm is corrected; (5) the package allows the user to apply both lossless and lossy screening rules to scale up large-scale problems, making a tradeoff between computational and statistical efficiency.
翻訳日:2022-11-16 21:32:08 公開日:2020-06-26
# 線形計画法による集合の共分散型分類

Covariance-engaged Classification of Sets via Linear Programming ( http://arxiv.org/abs/2006.14831v1 )

ライセンス: Link先を確認
Zhao Ren and Sungkyu Jung and Xingye Qiao(参考訳) 集合分類は、個々の観察を別々に分類するのではなく、一連の観察を全体として分類することを目的としている。 二元集合分類の見慣れない概念を形式的に理解するために,まず,集合の経験的共分散を利用した正規分布の下での最適決定規則について検討する。 ベイズリスクのバウンディングにおいて,集合内の観測回数が重要な役割を果たすことを示す。 この枠組みではさらに,集合分類の新たな手法を提案する。 モデルのパラメータが2つのクラスの違いを駆動する場合、線形プログラミングを用いたパラメータ推定に対する計算効率のよいアプローチを提案し、共分散型LInear Programming Set (CLIPS) 分類器を提案する。 その理論的性質は、各集合内の観測において、独立なケースと様々な(短距離および長距離に依存した)時系列構造の両方について検討される。 推定誤差の収束率とCLIPS分類器のリスクは、セットに複数の観測値を持つことで、セットに1つの観測しか存在しない標準的な分類状況と比較して、より高速な収束率が得られることを示す。 総合シミュレーション研究では、CLIPSが競合相手よりも優れている適用領域が強調されている。 最後に, 病理組織学における実画像データの分類における提案手法の有用性について述べる。

Set classification aims to classify a set of observations as a whole, as opposed to classifying individual observations separately. To formally understand the unfamiliar concept of binary set classification, we first investigate the optimal decision rule under the normal distribution, which utilizes the empirical covariance of the set to be classified. We show that the number of observations in the set plays a critical role in bounding the Bayes risk. Under this framework, we further propose new methods of set classification. For the case where only a few parameters of the model drive the difference between two classes, we propose a computationally-efficient approach to parameter estimation using linear programming, leading to the Covariance-engaged LInear Programming Set (CLIPS) classifier. Its theoretical properties are investigated for both independent case and various (short-range and long-range dependent) time series structures among observations within each set. The convergence rates of estimation errors and risk of the CLIPS classifier are established to show that having multiple observations in a set leads to faster convergence rates, compared to the standard classification situation in which there is only one observation in the set. The applicable domains in which the CLIPS performs better than competitors are highlighted in a comprehensive simulation study. Finally, we illustrate the usefulness of the proposed methods in classification of real image data in histopathology.
翻訳日:2022-11-16 21:31:37 公開日:2020-06-26
# 非スムース最適化における定常性概念の理解

Understanding Notions of Stationarity in Non-Smooth Optimization ( http://arxiv.org/abs/2006.14901v1 )

ライセンス: Link先を確認
Jiajin Li, Anthony Man-Cho So, Wing-Kin Ma(参考訳) 信号処理や機械学習における現代の多くの応用は、構造的非凸非スムース最適化問題を引き起こし、単純な反復的手法によって非常に効果的に対処できる。 このような現象を理解するための鍵の1つは、実際、専門家にとってさえも非常に難しい問題の一つであり、問題の「静止点」の研究に当てはまる。 静止点の定義がかなり標準的な滑らかな最適化とは異なり、非スムース最適化における定常性の定義は無数のものが存在する。 本稿では,非凸非スムース関数の重要なクラスについて,異なる定常性概念の紹介を行い,幾何学的解釈を議論し,これらの概念間の関係をさらに明らかにする。 次に,いくつかの代表的なアプリケーションにおけるこれらの構成の関連性と,それらのアプリケーションに取り組むための反復的手法の性能にどのように影響するかを実証する。

Many contemporary applications in signal processing and machine learning give rise to structured non-convex non-smooth optimization problems that can often be tackled by simple iterative methods quite effectively. One of the keys to understanding such a phenomenon---and, in fact, one of the very difficult conundrums even for experts---lie in the study of "stationary points" of the problem in question. Unlike smooth optimization, for which the definition of a stationary point is rather standard, there is a myriad of definitions of stationarity in non-smooth optimization. In this article, we give an introduction to different stationarity concepts for several important classes of non-convex non-smooth functions and discuss the geometric interpretations and further clarify the relationship among these different concepts. We then demonstrate the relevance of these constructions in some representative applications and how they could affect the performance of iterative methods for tackling these applications.
翻訳日:2022-11-16 21:31:17 公開日:2020-06-26
# E2GC:ディープニューラルネットワークにおけるエネルギー効率の高いグループ畳み込み

E2GC: Energy-efficient Group Convolution in Deep Neural Networks ( http://arxiv.org/abs/2006.15100v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Rajat Saini, Subhrajit Nag, Sparsh Mittal(参考訳) グループ畳み込み(gconv)におけるグループ数(g$)は、計算とパラメータの効率的な方法でディープニューラルネットワーク(dnn)の予測性能を高めるために選択される。 しかし,gconvのnaiveな選択は計算の複雑さとデータ再利用の程度との間に不均衡をもたらし,dnnの最適エネルギー効率を低下させることを示した。 計算コストとデータ移動コストのバランスを両立させ,dnnのエネルギー効率を最適化する最適なグループサイズモデルを考案する。 このモデルから得られた知見に基づき、GConvの以前の実装とは異なり、グループサイズ(G$)は一定である「エネルギー効率のよいグループ畳み込み(E2GC)」モジュールを提案する。 さらに、E2GCモジュールの有効性を示すため、MobileNet-V1とResNeXt-50の設計にこのモジュールを組み込み、P100とP4000の2つのGPUで実験を行う。 計算量に匹敵する複雑性では、一定群サイズ(E2GC)のDNNは、固定数のDNNよりもエネルギー効率が高い(F$g$GC)。 例えば、P100 GPUでは、MobileNet-V1とResNeXt-50のエネルギー効率が10.8%向上し、E2GCモジュールが両方のDNNでF$g$GCモジュールを置き換えると4.73%向上する。 さらに,ImageNet-1KおよびFood-101画像分類データセットを用いた広範な実験により,E2GCモジュールはDNNの一般化能力と表現力のトレードオフを可能にすることを示した。 したがって、DNNの予測性能は、適切な$G$を選択することで最適化できる。 コードとトレーニングされたモデルはhttps://github.com/iithcandle/e2gc-releaseで入手できる。

The number of groups ($g$) in group convolution (GConv) is selected to boost the predictive performance of deep neural networks (DNNs) in a compute and parameter efficient manner. However, we show that naive selection of $g$ in GConv creates an imbalance between the computational complexity and degree of data reuse, which leads to suboptimal energy efficiency in DNNs. We devise an optimum group size model, which enables a balance between computational cost and data movement cost, thus, optimize the energy-efficiency of DNNs. Based on the insights from this model, we propose an "energy-efficient group convolution" (E2GC) module where, unlike the previous implementations of GConv, the group size ($G$) remains constant. Further, to demonstrate the efficacy of the E2GC module, we incorporate this module in the design of MobileNet-V1 and ResNeXt-50 and perform experiments on two GPUs, P100 and P4000. We show that, at comparable computational complexity, DNNs with constant group size (E2GC) are more energy-efficient than DNNs with a fixed number of groups (F$g$GC). For example, on P100 GPU, the energy-efficiency of MobileNet-V1 and ResNeXt-50 is increased by 10.8% and 4.73% (respectively) when E2GC modules substitute the F$g$GC modules in both the DNNs. Furthermore, through our extensive experimentation with ImageNet-1K and Food-101 image classification datasets, we show that the E2GC module enables a trade-off between generalization ability and representational power of DNN. Thus, the predictive performance of DNNs can be optimized by selecting an appropriate $G$. The code and trained models are available at https://github.com/iithcandle/E2GC-release.
翻訳日:2022-11-16 21:30:39 公開日:2020-06-26
# DDPG++: 継続的制御型オフポリティ強化学習におけるシンプルさの追求

DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2006.15199v1 )

ライセンス: Link先を確認
Rasool Fakoor, Pratik Chaudhari, Alexander J. Smola(参考訳) 本稿では,オフ・ポリティカル強化学習(rl)のための一連の手法を概説し,学習プロセスの簡素化とサンプルの複雑さの低減について述べる。 まず、過大評価バイアスが制御される限り、単純な決定論的政策勾配が著しく機能することを示す。 これは、洗練された政治技術を生み出す既存の文献とは対照的である。 第2に、非政治アルゴリズムの典型であるトレーニングの不安定性を、遅れたポリシー更新のような既存のソリューションがこの問題を軽減することはない、という欲求の政策更新ステップに向ける。 第3に,プロペンサリティ推定文献のアイデアをリプレイバッファから重要-サンプル遷移に利用し,ポリシーを選択的に更新することで性能の低下を防止できることを示す。 これらの主張は、挑戦的なmujocoタスクのセットで広範囲な実験を用いて行います。 結果の短いビデオはhttps://tinyurl.com/scs6p5m で見ることができる。

This paper prescribes a suite of techniques for off-policy Reinforcement Learning (RL) that simplify the training process and reduce the sample complexity. First, we show that simple Deterministic Policy Gradient works remarkably well as long as the overestimation bias is controlled. This is contrast to existing literature which creates sophisticated off-policy techniques. Second, we pinpoint training instabilities, typical of off-policy algorithms, to the greedy policy update step; existing solutions such as delayed policy updates do not mitigate this issue. Third, we show that ideas in the propensity estimation literature can be used to importance-sample transitions from the replay buffer and selectively update the policy to prevent deterioration of performance. We make these claims using extensive experimentation on a set of challenging MuJoCo tasks. A short video of our results can be seen at https://tinyurl.com/scs6p5m .
翻訳日:2022-11-16 21:24:06 公開日:2020-06-26
# CheXpert++: 速度、微分可能性、確率出力に対するCheXpertラベルの近似

CheXpert++: Approximating the CheXpert labeler for Speed,Differentiability, and Probabilistic Output ( http://arxiv.org/abs/2006.15229v1 )

ライセンス: Link先を確認
Matthew B. A. McDermott (1), Tzu Ming Harry Hsu (1), Wei-Hung Weng (1), Marzyeh Ghassemi (2), Peter Szolovits (1) ((1) Computer Science and Artificial Intelligence Laboratory, MIT, (2) Department of Computer Science, University of Toronto and Vector Institute)(参考訳) 医療データの真理ラベルを取得することは、しばしば不可能または不可能である。 これを回避するために、ルールベースまたは他の専門家知識駆動のラベラーを構築し、データを取り込み、地上訓練データを持たないシルバーラベルを産出することができる。 そのようなラベルの1つがCheXpertであり、胸部X線ラジオグラフィーレポートの診断ラベルを作成するラベルである。 CheXpertは非常に有用だが、特にエンドツーエンドのニューラルネットワークと統合された場合、比較的計算速度が遅いため、ラベルを流れる勾配を必要とするアプリケーションでは使用できないため、確率的出力は得られないため、アクティブラーニングなどの技術によって銀ラベルの質を向上させる能力は制限される。 本稿では,これら3つの問題を,BERTベースの高忠実なCheXpert近似である$\texttt{CheXpert++}$で解決する。 つまり、chexpertのドロップイン代替として確実に使用できるが、非常に高速で、完全に微分可能で、出力の確率も高い。 また、$\texttt{chexpert++}$のエラー解析では、$\texttt{chexpert++}$は、chexpertラベルの誤りを実際に訂正する傾向が示され、$\texttt{chexpert++}$ラベルは、chexpertラベルよりも臨床医(同意しない場合)が1つの病気以外のタスクで好むことが多い。 このモデルにおけるこれらの利点のさらなる活用を実証するために、我々は、アクティブラーニングインスパイアされた再学習の1イテレーションを用いて、レポート文のランダムなサブセットを、生のCheXpertよりも約8倍の精度で精度を向上できることを示す。 これらの結果は,コラーニングとアクティブラーニングにおける単純な手法が,人間のラベル付け要求を最小かつ制御可能な,高品質なラベラーを生み出すことを示唆する。

It is often infeasible or impossible to obtain ground truth labels for medical data. To circumvent this, one may build rule-based or other expert-knowledge driven labelers to ingest data and yield silver labels absent any ground-truth training data. One popular such labeler is CheXpert, a labeler that produces diagnostic labels for chest X-ray radiology reports. CheXpert is very useful, but is relatively computationally slow, especially when integrated with end-to-end neural pipelines, is non-differentiable so can't be used in any applications that require gradients to flow through the labeler, and does not yield probabilistic outputs, which limits our ability to improve the quality of the silver labeler through techniques such as active learning. In this work, we solve all three of these problems with $\texttt{CheXpert++}$, a BERT-based, high-fidelity approximation to CheXpert. $\texttt{CheXpert++}$ achieves 99.81\% parity with CheXpert, which means it can be reliably used as a drop-in replacement for CheXpert, all while being significantly faster, fully differentiable, and probabilistic in output. Error analysis of $\texttt{CheXpert++}$ also demonstrates that $\texttt{CheXpert++}$ has a tendency to actually correct errors in the CheXpert labels, with $\texttt{CheXpert++}$ labels being more often preferred by a clinician over CheXpert labels (when they disagree) on all but one disease task. To further demonstrate the utility of these advantages in this model, we conduct a proof-of-concept active learning study, demonstrating we can improve accuracy on an expert labeled random subset of report sentences by approximately 8\% over raw, unaltered CheXpert by using one-iteration of active-learning inspired re-training. These findings suggest that simple techniques in co-learning and active learning can yield high-quality labelers under minimal, and controllable human labeling demands.
翻訳日:2022-11-16 21:23:07 公開日:2020-06-26
# 機械学習サバイバルモデルの反事実的説明

Counterfactual explanation of machine learning survival models ( http://arxiv.org/abs/2006.16793v1 )

ライセンス: Link先を確認
Maxim S. Kovalev and Lev V. Utkin(参考訳) 機械学習サバイバルモデルの非現実的説明法を提案する。 対物的説明問題の解決の難しさの1つは、例のクラスが生存関数の形で機械学習サバイバルモデルの結果を通じて暗黙的に定義されることである。 元の例の生存関数と反現実性の違いを確定する条件を導入する。 この条件は、平均時刻からイベントまでの距離を用いている。 ブラックボックスモデルがコックスモデルである場合, 逆実説明問題を線形制約付き標準凸最適化問題に還元できることが示されている。 他のブラックボックスモデルでは、よく知られたParticle Swarm Optimizationアルゴリズムを適用することが提案されている。 実データおよび合成データを用いた数値実験の多くが提案手法を実証している。

A method for counterfactual explanation of machine learning survival models is proposed. One of the difficulties of solving the counterfactual explanation problem is that the classes of examples are implicitly defined through outcomes of a machine learning survival model in the form of survival functions. A condition that establishes the difference between survival functions of the original example and the counterfactual is introduced. This condition is based on using a distance between mean times to event. It is shown that the counterfactual explanation problem can be reduced to a standard convex optimization problem with linear constraints when the explained black-box model is the Cox model. For other black-box models, it is proposed to apply the well-known Particle Swarm Optimization algorithm. A lot of numerical experiments with real and synthetic data demonstrate the proposed method.
翻訳日:2022-11-16 21:22:26 公開日:2020-06-26
# ID文書の自動読取装置

An Automatic Reader of Identity Documents ( http://arxiv.org/abs/2006.14853v1 )

ライセンス: Link先を確認
Filippo Attivissimo, Nicola Giaquinto, Marco Scarpetta, Maurizio Spadavecchia(参考訳) アイデンティティ文書の自動読み取りと検証は、今日ではサービス産業にとって魅力的な技術である。 本稿では,id文書の自動読み出しシステムの試作について述べる。 このシステムは、様々なサービスのオンラインサブスクライバーに通常必要とされるような、許容できる品質の写真から、主要なイタリアのIDドキュメントのデータを抽出すると考えられている。 文書はまず写真内でローカライズされ、次に分類され、最後にテキスト認識が実行される。 ニューラルネットワークのトレーニングとシステムの性能評価の両方に合成データセットが使用されている。 合成データセットは、実際の文書の実際の写真の使用に関連するプライバシー問題を避け、システムの将来の開発に使用される。

Identity documents automatic reading and verification is an appealing technology for nowadays service industry, since this task is still mostly performed manually, leading to waste of economic and time resources. In this paper the prototype of a novel automatic reading system of identity documents is presented. The system has been thought to extract data of the main Italian identity documents from photographs of acceptable quality, like those usually required to online subscribers of various services. The document is first localized inside the photo, and then classified; finally, text recognition is executed. A synthetic dataset has been used, both for neural networks training, and for performance evaluation of the system. The synthetic dataset avoided privacy issues linked to the use of real photos of real documents, which will be used, instead, for future developments of the system.
翻訳日:2022-11-16 21:22:15 公開日:2020-06-26
# AutoSNAP: 計測値推定のためのニューラルネットワークの自動学習

AutoSNAP: Automatically Learning Neural Architectures for Instrument Pose Estimation ( http://arxiv.org/abs/2006.14858v1 )

ライセンス: Link先を確認
David K\"ugler, Marc Uecker, Arjan Kuijper, Anirban Mukhopadhyay(参考訳) 近年の成功にもかかわらず、Deep Learningの進歩は、手術器具のポーズ推定などのコンピュータ支援介入(CAI)問題に完全には翻訳されていない。 現在、分類とセグメンテーションタスクのためのニューラルアーキテクチャが採用されており、CAIとこれらのタスクとの大きな違いを無視している。 本稿では,ニューラルネットワークのアーキテクチャを発見し,学習する機器ポーズ推定問題に対する自動SNAP(AutoSNAP)を提案する。 1)ポーズ推定のための効率的なテスト環境,2)新しい記号型ニューラルネットワークパターン(SNAP)に基づく強力なアーキテクチャ表現,3)効率的な探索手法を用いたアーキテクチャの最適化を紹介する。 AutoSNAPを用いて,手作りのi3PosNetと最先端のアーキテクチャ検索手法DARTSの両方に優れる改良型アーキテクチャ(SNAPNet)を発見した。

Despite recent successes, the advances in Deep Learning have not yet been fully translated to Computer Assisted Intervention (CAI) problems such as pose estimation of surgical instruments. Currently, neural architectures for classification and segmentation tasks are adopted ignoring significant discrepancies between CAI and these tasks. We propose an automatic framework (AutoSNAP) for instrument pose estimation problems, which discovers and learns the architectures for neural networks. We introduce 1)~an efficient testing environment for pose estimation, 2)~a powerful architecture representation based on novel Symbolic Neural Architecture Patterns (SNAPs), and 3)~an optimization of the architecture using an efficient search scheme. Using AutoSNAP, we discover an improved architecture (SNAPNet) which outperforms both the hand-engineered i3PosNet and the state-of-the-art architecture search method DARTS.
翻訳日:2022-11-16 21:22:02 公開日:2020-06-26
# ドメイン適応オブジェクト検出のためのドメインコントラスト

Domain Contrast for Domain Adaptive Object Detection ( http://arxiv.org/abs/2006.14863v1 )

ライセンス: Link先を確認
Feng Liu, Xiaoxong Zhang, Fang Wan, Xiangyang Ji, Qixiang Ye(参考訳) ドメイン適応型検出器を訓練するためのコントラスト学習に触発された,単純かつ効果的なアプローチであるドメインコントラスト(dc)を提案する。 DCは転送モデルの誤差境界最小化の観点から推定され、プラグアンドプレイのクロスドメインコントラストロスで実装される。 ドメイン間のコントラスト損失を最小限にすることで、DCは検出器の転送可能性を保証すると同時に、ターゲットドメインのクラス不均衡問題を自然に軽減する。 dcは画像レベルまたは領域レベルで適用でき、検出器の転送性と識別性が一貫して向上する。 一般的なベンチマーク実験では、DCはベースラインと最先端の技術をかなりのマージンで改善し、大きな領域の分岐の可能性を示している。

We present Domain Contrast (DC), a simple yet effective approach inspired by contrastive learning for training domain adaptive detectors. DC is deduced from the error bound minimization perspective of a transferred model, and is implemented with cross-domain contrast loss which is plug-and-play. By minimizing cross-domain contrast loss, DC guarantees the transferability of detectors while naturally alleviating the class imbalance issue in the target domain. DC can be applied at either image level or region level, consistently improving detectors' transferability and discriminability. Extensive experiments on commonly used benchmarks show that DC improves the baseline and state-of-the-art by significant margins, while demonstrating great potential for large domain divergence.
翻訳日:2022-11-16 21:21:48 公開日:2020-06-26
# 確率勾配降下における騒音の一般化効果について

On the Generalization Benefit of Noise in Stochastic Gradient Descent ( http://arxiv.org/abs/2006.15081v1 )

ライセンス: Link先を確認
Samuel L. Smith, Erich Elsen, Soham De(参考訳) ミニバッチ確率勾配降下はディープニューラルネットワークの大規模バッチ勾配降下よりも一般化できると長い間主張されてきた。 しかし、近年の論文ではこの主張に疑問を呈し、バッチサイズが大きい場合、この効果は単に最適化されたハイパーパラメータチューニングや計算予算不足の結果であると主張している。 本稿では,小型または中規模のバッチサイズがテストセットの非常に大きなバッチを実質的に上回ることを検証し,注意深く設計された実験と厳密なハイパーパラメータスイープを行う。 これは、両方のモデルが同じイテレーション数でトレーニングされ、大きなバッチがトレーニング損失を小さくする場合でも起こります。 その結果,確率勾配の雑音が一般化を促進できることが確認された。 本研究では,SGD力学の確率微分方程式パースペクティブに基づいて,最適学習率のスケジュールがエポック予算の増大とともにどのように変化するかを理論的に考察する。

It has long been argued that minibatch stochastic gradient descent can generalize better than large batch gradient descent in deep neural networks. However recent papers have questioned this claim, arguing that this effect is simply a consequence of suboptimal hyperparameter tuning or insufficient compute budgets when the batch size is large. In this paper, we perform carefully designed experiments and rigorous hyperparameter sweeps on a range of popular models, which verify that small or moderately large batch sizes can substantially outperform very large batches on the test set. This occurs even when both models are trained for the same number of iterations and large batches achieve smaller training losses. Our results confirm that the noise in stochastic gradients can enhance generalization. We study how the optimal learning rate schedule changes as the epoch budget grows, and we provide a theoretical account of our observations based on the stochastic differential equation perspective of SGD dynamics.
翻訳日:2022-11-16 21:15:30 公開日:2020-06-26
# Policy-GNN: グラフニューラルネットワークの集約最適化

Policy-GNN: Aggregation Optimization for Graph Neural Networks ( http://arxiv.org/abs/2006.15097v1 )

ライセンス: Link先を確認
Kwei-Herng Lai, Daochen Zha, Kaixiong Zhou, Xia Hu(参考訳) グラフデータは、多くの現実世界のアプリケーションで広く使われている。 近年,グラフニューラルネットワーク(GNN)に注目が集まっている。これは局所的なグラフ構造をモデル化し,スタック可能なネットワークモジュールで近隣の情報を集約することで階層的なパターンを捉えることを目的としている。 本稿では,異なるノードが構造情報を完全に把握するために,異なるアグリゲーションの反復を必要とすることが多いという観測に動機づけられ,gnnの性能を高めるために,異なるノードのアグリゲーションの多様なイテレーションを明示的にサンプリングすることを提案する。 複雑なグラフとスパースな特徴を与えられた各ノードに対して効果的な集約戦略を開発することは難しい課題である。 さらに、サンプルノードを異なる数のネットワーク層に供給する必要があるため、効率的なアルゴリズムを導出するのは容易ではない。 上記の課題に対処するため,GNNのサンプリング手順とメッセージパッシングを併用した学習プロセスにモデル化したメタ政治フレームワークであるPolicy-GNNを提案する。 具体的には、policy-gnnはメタポリシーを使用して各ノードの集約数を適応的に決定する。 メタポリシーはモデルからのフィードバックを利用して深層強化学習(rl)によって訓練される。 さらに,パラメータ共有とバッファ機構を導入し,トレーニング効率を向上させる。 3つの実世界のベンチマークデータセットの実験結果から、ポリシ-GNNは最先端の代替よりも大幅に優れており、GNNのアグリゲーション最適化の可能性を示唆している。

Graph data are pervasive in many real-world applications. Recently, increasing attention has been paid on graph neural networks (GNNs), which aim to model the local graph structures and capture the hierarchical patterns by aggregating the information from neighbors with stackable network modules. Motivated by the observation that different nodes often require different iterations of aggregation to fully capture the structural information, in this paper, we propose to explicitly sample diverse iterations of aggregation for different nodes to boost the performance of GNNs. It is a challenging task to develop an effective aggregation strategy for each node, given complex graphs and sparse features. Moreover, it is not straightforward to derive an efficient algorithm since we need to feed the sampled nodes into different number of network layers. To address the above challenges, we propose Policy-GNN, a meta-policy framework that models the sampling procedure and message passing of GNNs into a combined learning process. Specifically, Policy-GNN uses a meta-policy to adaptively determine the number of aggregations for each node. The meta-policy is trained with deep reinforcement learning (RL) by exploiting the feedback from the model. We further introduce parameter sharing and a buffer mechanism to boost the training efficiency. Experimental results on three real-world benchmark datasets suggest that Policy-GNN significantly outperforms the state-of-the-art alternatives, showing the promise in aggregation optimization for GNNs.
翻訳日:2022-11-16 21:14:57 公開日:2020-06-26
# ディープニューラルネットワークのコンパクト化の分岐

The Ramifications of Making Deep Neural Networks Compact ( http://arxiv.org/abs/2006.15098v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Sparsh Mittal, Govardhan Mattela(参考訳) 近年のディープニューラルネットワーク(DNN)研究のトレンドは、ネットワークをよりコンパクトにすることだ。 コンパクトDNNの設計の背景にある動機は、メモリフットプリントが低いため、エネルギー効率を向上させるオフチップアクセスが少ないため、エネルギー効率を改善することである。 しかし、DNNをコンパクトにすることは、よく理解されていない間接的かつ微妙な意味を持つことを示す。 DNNにおけるパラメータの数を減らすことでアクティベーション数が増加し、メモリフットプリントが増加する。 我々は、Tesla P100 GPU上で最近提案されたコンパクトDNNを評価し、その"パラメータ比へのアクティベーション"は1.4から32.8の範囲であることを示す。 さらに、「メモリ・フットプリント・モデルサイズ比」は15 - 443の範囲である。 これは、より多くのアクティベーションが大きなメモリフットプリントを引き起こし、オンチップ/オフチップのデータ移動が増加することを示している。 さらに、これらのパラメータ還元技術は、オンチップ/オフチップメモリ帯域幅を増大させる演算強度を低減する。 これらの要因により、コンパクトDNNのエネルギー効率は大幅に低下し、コンパクトDNNを設計する当初の動機に反する可能性がある。

The recent trend in deep neural networks (DNNs) research is to make the networks more compact. The motivation behind designing compact DNNs is to improve energy efficiency since by virtue of having lower memory footprint, compact DNNs have lower number of off-chip accesses which improves energy efficiency. However, we show that making DNNs compact has indirect and subtle implications which are not well-understood. Reducing the number of parameters in DNNs increases the number of activations which, in turn, increases the memory footprint. We evaluate several recently-proposed compact DNNs on Tesla P100 GPU and show that their "activations to parameters ratio" ranges between 1.4 to 32.8. Further, the "memory-footprint to model size ratio" ranges between 15 to 443. This shows that a higher number of activations causes large memory footprint which increases on-chip/off-chip data movements. Furthermore, these parameter-reducing techniques reduce the arithmetic intensity which increases on-chip/off-chip memory bandwidth requirement. Due to these factors, the energy efficiency of compact DNNs may be significantly reduced which is against the original motivation for designing compact DNNs.
翻訳日:2022-11-16 21:14:31 公開日:2020-06-26
# 最適分布ロバスト個別処理規則の学習

Learning Optimal Distributionally Robust Individualized Treatment Rules ( http://arxiv.org/abs/2006.15121v1 )

ライセンス: Link先を確認
Weibin Mo, Zhengling Qi, Yufeng Liu(参考訳) データ駆動型意思決定科学の最近の発展は、個別化意思決定において大きな進歩を遂げている。 個々の共変量、治療課題、成果を含むデータを与えられた政策立案者は、期待される結果、すなわち値関数を最大化する最も個人化された治療規則(ITR)を策定する。 既存の方法の多くは、トレーニングとテストの分布が同じであると仮定している。 しかし、推定最適ITRは、トレーニングとテストの分布が同一でない場合、一般化性が低い可能性がある。 本稿では、トレーニング分布とテスト分布の間に未知の共変量変化が存在する制限付きitrクラスから最適なitrを求める問題を考える。 本稿では,トレーニング分布に"近接"する基礎分布の集合の下で,各値の最悪の値関数を最大化する,新しい分散ロバストなITR(DR-ITR)フレームワークを提案する。 結果のDR-ITRは、これらの分布間の性能を合理的に保証することができる。 さらに,ターゲット集団からの少量の校正データに対してdr-itrを適応的に調整する校正手順を提案する。 このように、校正された dr-itr は、我々の数値研究に基づいて標準の itr よりも優れた一般化性を示すことができる。

Recent development in the data-driven decision science has seen great advances in individualized decision making. Given data with individual covariates, treatment assignments and outcomes, policy makers best individualized treatment rule (ITR) that maximizes the expected outcome, known as the value function. Many existing methods assume that the training and testing distributions are the same. However, the estimated optimal ITR may have poor generalizability when the training and testing distributions are not identical. In this paper, we consider the problem of finding an optimal ITR from a restricted ITR class where there is some unknown covariate changes between the training and testing distributions. We propose a novel distributionally robust ITR (DR-ITR) framework that maximizes the worst-case value function across the values under a set of underlying distributions that are "close" to the training distribution. The resulting DR-ITR can guarantee the performance among all such distributions reasonably well. We further propose a calibrating procedure that tunes the DR-ITR adaptively to a small amount of calibration data from a target population. In this way, the calibrated DR-ITR can be shown to enjoy better generalizability than the standard ITR based on our numerical studies.
翻訳日:2022-11-16 21:13:52 公開日:2020-06-26
# トレインと見逃す - 弱い監督と事前学習された埋め込みを備えたインタラクティブなモデルイテレーション

Train and You'll Miss It: Interactive Model Iteration with Weak Supervision and Pre-Trained Embeddings ( http://arxiv.org/abs/2006.15168v1 )

ライセンス: Link先を確認
Mayee F. Chen, Daniel Y. Fu, Frederic Sala, Sen Wu, Ravi Teja Mullapudi, Fait Poms, Kayvon Fatahalian, Christopher R\'e(参考訳) 私たちの目標は、機械学習システムをインタラクティブにトレーニングできるようにすることです。 これは、大量の手書きデータなしで、よく動作し、迅速にトレーニングするモデルを必要とする。 我々は、弱い監督(WS)から借用して、手書きデータの代わりにノイズの多い信号源でモデルを訓練することで、この方向に一歩前進する。 しかしWSは、ダウンストリームのディープネットワークをトレーニングして、見当たらないデータポイントを外挿し、何時間も何日もかかる可能性がある。 事前トレーニングされた埋め込みは、この要件を取り除くことができる。 組み込みを転送学習(tl)のような機能として使用せず、ハイパフォーマンスには微調整が必要で、代わりにデータの距離関数を定義し、ws source voteを近くのポイントに拡張するために使用します。 理論的には、ソースカバレッジ、ソース精度、埋め込み空間におけるラベル分布のリプシッツ性の変化によってパフォーマンスがどのようにスケールするかを調査し、このレートを拡張なし標準wsと、微調整なしtlと比較する。 6つのベンチマークNLPとビデオタスクにおいて、当社の手法はWSを4.1ポイント、TLを12.8ポイント、従来は13.1ポイント、最先端の弱教師付きディープネットワークの0.7ポイント以内で、トレーニングを半秒未満で行う。

Our goal is to enable machine learning systems to be trained interactively. This requires models that perform well and train quickly, without large amounts of hand-labeled data. We take a step forward in this direction by borrowing from weak supervision (WS), wherein models can be trained with noisy sources of signal instead of hand-labeled data. But WS relies on training downstream deep networks to extrapolate to unseen data points, which can take hours or days. Pre-trained embeddings can remove this requirement. We do not use the embeddings as features as in transfer learning (TL), which requires fine-tuning for high performance, but instead use them to define a distance function on the data and extend WS source votes to nearby points. Theoretically, we provide a series of results studying how performance scales with changes in source coverage, source accuracy, and the Lipschitzness of label distributions in the embedding space, and compare this rate to standard WS without extension and TL without fine-tuning. On six benchmark NLP and video tasks, our method outperforms WS without extension by 4.1 points, TL without fine-tuning by 12.8 points, and traditionally-supervised deep networks by 13.1 points, and comes within 0.7 points of state-of-the-art weakly-supervised deep networks-all while training in less than half a second.
翻訳日:2022-11-16 21:13:33 公開日:2020-06-26
# 崩壊したコンテキストによるオンライン学習 - 崩壊したコンテキストのバンディット

Online learning with Corrupted context: Corrupted Contextual Bandits ( http://arxiv.org/abs/2006.15194v1 )

ライセンス: Link先を確認
Djallel Bouneffouf(参考訳) 我々は,コンテキスト・バンディット問題(つまり,サイド・インフォメーションを伴うマルチアーム・バンディット,あるいは意思決定者が利用可能なコンテキスト)の新たな変種を検討し,各決定で使用されるコンテキストを腐敗させる("useless context")。 この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む、特定のオンライン設定によって動機付けられる。 劣化したコンテキスト設定に対処するため,従来のマルチアームバンディット機構と標準コンテキストバンディットアプローチを組み合わせることを提案する。 標準的なコンテキスト帯域幅法とは異なり、各アームに対する期待値の計算を改善することにより、コンテキストが破損した場合でも全てのイテレーションから学習することができる。 いくつかの実生活データセットで実験結果が得られた。

We consider a novel variant of the contextual bandit problem (i.e., the multi-armed bandit with side-information, or context, available to a decision-maker) where the context used at each decision may be corrupted ("useless context"). This new problem is motivated by certain on-line settings including clinical trial and ad recommendation applications. In order to address the corrupted-context setting,we propose to combine the standard contextual bandit approach with a classical multi-armed bandit mechanism. Unlike standard contextual bandit methods, we are able to learn from all iteration, even those with corrupted context, by improving the computing of the expectation for each arm. Promising empirical results are obtained on several real-life datasets.
翻訳日:2022-11-16 21:12:02 公開日:2020-06-26
# $\ell_1$正規化による転送学習

Transfer Learning via $\ell_1$ Regularization ( http://arxiv.org/abs/2006.14845v1 )

ライセンス: Link先を確認
Masaaki Takada, Hironori Fujisawa(参考訳) 機械学習アルゴリズムは通常、静止環境下で大量のデータを必要とする。 しかし、多くの現実世界のアプリケーションでは環境は非定常である。 重要な問題は、絶えず変化する環境下でモデルを効果的に適応する方法にある。 本稿では,ソースドメインからターゲットドメインへ,$\ell_1$正規化による知識伝達手法を提案する。 通常の$\ell_1$正規化に加えて、ソースパラメータとターゲットパラメータの差分を$\ell_1$正規化します。 したがって,本手法は推定値自体と推定値の変化の両方に空間性をもたらす。 提案手法は定常環境下での厳密な推定誤差を有しており, 少ない残差で推定値から推定値が変化しない。 さらに、情報源推定が非定常性によって誤認された場合でも、推定は基礎関数と一致する。 実験結果から, 本手法は安定性と塑性のバランスを効果的に表す。

Machine learning algorithms typically require abundant data under a stationary environment. However, environments are nonstationary in many real-world applications. Critical issues lie in how to effectively adapt models under an ever-changing environment. We propose a method for transferring knowledge from a source domain to a target domain via $\ell_1$ regularization. We incorporate $\ell_1$ regularization of differences between source parameters and target parameters, in addition to an ordinary $\ell_1$ regularization. Hence, our method yields sparsity for both the estimates themselves and changes of the estimates. The proposed method has a tight estimation error bound under a stationary environment, and the estimate remains unchanged from the source estimate under small residuals. Moreover, the estimate is consistent with the underlying function, even when the source estimate is mistaken due to nonstationarity. Empirical results demonstrate that the proposed method effectively balances stability and plasticity.
翻訳日:2022-11-16 21:05:57 公開日:2020-06-26
# 変分ウィッシュアート拡散をもつ確率微分方程式

Stochastic Differential Equations with Variational Wishart Diffusions ( http://arxiv.org/abs/2006.14895v1 )

ライセンス: Link先を確認
Martin J{\o}rgensen, Marc Peter Deisenroth, Hugh Salimbeni(参考訳) 回帰タスクと連続時間力学モデルの両方に対して確率微分方程式を推論するベイズ非パラメトリックな方法を提案する。 この研究は微分方程式の確率的部分(拡散とも呼ばれる)に重点を置いており、ウィッシュアート過程を用いてモデル化している。 さらに,フレームワークを高次元に拡張する半パラメトリックな手法を提案する。 これにより、条件付きヘテロスケダスティックノイズを伴う潜在時間と自己回帰時間の両方をモデル化する方法が成功しました。 モデル拡散はしばしば性能を向上し、微分方程式のこのランダム性は過度な適合を避けるために不可欠であることを示す実験的な証拠を提供する。

We present a Bayesian non-parametric way of inferring stochastic differential equations for both regression tasks and continuous-time dynamical modelling. The work has high emphasis on the stochastic part of the differential equation, also known as the diffusion, and modelling it by means of Wishart processes. Further, we present a semi-parametric approach that allows the framework to scale to high dimensions. This successfully lead us onto how to model both latent and auto-regressive temporal systems with conditional heteroskedastic noise. We provide experimental evidence that modelling diffusion often improves performance and that this randomness in the differential equation can be essential to avoid overfitting.
翻訳日:2022-11-16 21:05:25 公開日:2020-06-26
# Laplacian Constrained Graphical Modelsの下で$\ell_1$-normはスパースグラフを学ぶか?

Does the $\ell_1$-norm Learn a Sparse Graph under Laplacian Constrained Graphical Models? ( http://arxiv.org/abs/2006.14925v1 )

ライセンス: Link先を確認
Jiaxi Ying, Jos\'e Vin\'icius de M. Cardoso, Daniel P. Palomar(参考訳) ラプラシアン制約付きガウス図形モデルの下でスパースグラフを学習する問題を考える。 この問題は、ラプラシアン構造制約の下での精度行列のペナル化最大推定として定式化することができる。 古典的なグラフィカルラッソ問題と同様に、最近の研究はラプラシア構造精度行列推定のスパーシティを促進する目的で$\ell_1$-norm正規化を利用した。 しかし、広く使われている $\ell_1$-norm は、この問題におけるスパース解を与えるのに有効ではない。 経験的証拠を通して、正規化パラメータの増加に伴って非零グラフ重みの数が増加することを観測する。 理論的には、大きな正規化パラメータが驚くほど完全連結グラフにつながることを証明している。 この問題に対処するために,重み付き$\ell_1$-normのペナルティ化部分問題の列を解いた非凸推定法を提案し,提案する推定器の統計的誤差がminimax下限値に一致することを示す。 各部分問題を解くために,線形収束率を満足する投影勾配降下アルゴリズムを開発した。 近年の新型コロナウイルス(COVID-19)パンデミックと金融市場からの合成および実世界のデータセットを含む数値実験により,提案手法の有効性が示された。 すべての実験のためのコードを含むオープンソース$\mathsf{R}$パッケージはhttps://github.com/mirca/sparseGraphで入手できる。

We consider the problem of learning a sparse graph under Laplacian constrained Gaussian graphical models. This problem can be formulated as a penalized maximum likelihood estimation of the precision matrix under Laplacian structural constraints. Like in the classical graphical lasso problem, recent works made use of the $\ell_1$-norm regularization with the goal of promoting sparsity in Laplacian structural precision matrix estimation. However, we find that the widely used $\ell_1$-norm is not effective in imposing a sparse solution in this problem. Through empirical evidence, we observe that the number of nonzero graph weights grows with the increase of the regularization parameter. From a theoretical perspective, we prove that a large regularization parameter will surprisingly lead to a fully connected graph. To address this issue, we propose a nonconvex estimation method by solving a sequence of weighted $\ell_1$-norm penalized sub-problems and prove that the statistical error of the proposed estimator matches the minimax lower bound. To solve each sub-problem, we develop a projected gradient descent algorithm that enjoys a linear convergence rate. Numerical experiments involving synthetic and real-world data sets from the recent COVID-19 pandemic and financial stock markets demonstrate the effectiveness of the proposed method. An open source $\mathsf{R}$ package containing the code for all the experiments is available at https://github.com/mirca/sparseGraph.
翻訳日:2022-11-16 21:04:45 公開日:2020-06-26
# 共変量シフトによるベイズ不確かさ校正の改善

Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift ( http://arxiv.org/abs/2006.14988v1 )

ライセンス: Link先を確認
Alex J. Chan, Ahmed M. Alaa, Zhaozhi Qian and Mihaela van der Schaar(参考訳) 現代のニューラルネットワークは強力な関数近似器であることが証明されており、多数のアプリケーションで最先端のパフォーマンスを提供する。 しかし、予測に対する信頼度を定量化する能力には不足している - これは重要な意思決定を伴う高リスクアプリケーションにおいて極めて重要である。 ベイズニューラルネットワーク(bnns)は、ネットワークのパラメータに事前分布を配置することにより、予測の不確かさをカプセル化する後方分布を誘導することで、この問題を解決しようとする。 モンテカルロのドロップアウトに基づく既存のBNNの変種は、分布内データに対する信頼性のある(ほぼ)不確実性推定を生成するが、それらは、特徴分布がトレーニングデータと異なるターゲットデータ、すなわち共変量シフト設定に過信を示す傾向にある。 本稿では,ラベルなしの目標データをラベル付きソースデータに対するモデルの損失を正規化するモデル信頼の「pseudo-labels」として用いることで,後続正規化に基づく近似ベイズ推定手法を提案する。 提案手法は,共変量シフトデータセットにおける不確実性定量化の精度を大幅に向上し,基礎となるモデルアーキテクチャの変更を最小限に抑える。 本研究は, 前立腺癌の予後モデルを, グローバルに分布する集団に伝達する手法の有用性を実証する。

Modern neural networks have proven to be powerful function approximators, providing state-of-the-art performance in a multitude of applications. They however fall short in their ability to quantify confidence in their predictions - this is crucial in high-stakes applications that involve critical decision-making. Bayesian neural networks (BNNs) aim at solving this problem by placing a prior distribution over the network's parameters, thereby inducing a posterior distribution that encapsulates predictive uncertainty. While existing variants of BNNs based on Monte Carlo dropout produce reliable (albeit approximate) uncertainty estimates over in-distribution data, they tend to exhibit over-confidence in predictions made on target data whose feature distribution differs from the training data, i.e., the covariate shift setup. In this paper, we develop an approximate Bayesian inference scheme based on posterior regularisation, wherein unlabelled target data are used as "pseudo-labels" of model confidence that are used to regularise the model's loss on labelled source data. We show that this approach significantly improves the accuracy of uncertainty quantification on covariate-shifted data sets, with minimal modification to the underlying model architecture. We demonstrate the utility of our method in the context of transferring prognostic models of prostate cancer across globally diverse populations.
翻訳日:2022-11-16 21:03:51 公開日:2020-06-26
# 多変量二値確率分布の固定順序更新によるメトロポリスアルゴリズムの収束について

On the convergence of the Metropolis algorithm with fixed-order updates for multivariate binary probability distributions ( http://arxiv.org/abs/2006.14999v1 )

ライセンス: Link先を確認
Kai Br\"ugge, Asja Fischer, Christian Igel(参考訳) メトロポリスのアルゴリズムはおそらく最も基本的なマルコフ連鎖モンテカルロ (MCMC) 法である。 しかし、このアルゴリズムは、変数(サイトやニューロン)が一定の順序で更新された場合に、多変量二分分布(例えば、ボルツマン機械のようなイジングモデルや確率的ニューラルネットワーク)の場合、所望の分布に収束することが保証されていない。 理由は、対応するマルコフ連鎖が既約でないかもしれないからである。 本研究では,標準メトロポリス演算子とほぼ同値に振る舞う修正メトロポリス遷移演算子を提案し,固定順序更新を伴う多変量バイナリケースの制限分布に対する既約性と収束性を保証する。 その結果、Metropolis MCMCの設定における振る舞いを説明し、長い間理論的なギャップを閉じた。 モデルに対する標準および修正メトロポリス演算子について実験的に検討した。 標準アルゴリズムも収束すると、修正作用素は収束速度の点で類似した(より良くないが)性能を示す。

The Metropolis algorithm is arguably the most fundamental Markov chain Monte Carlo (MCMC) method. But the algorithm is not guaranteed to converge to the desired distribution in the case of multivariate binary distributions (e.g., Ising models or stochastic neural networks such as Boltzmann machines) if the variables (sites or neurons) are updated in a fixed order, a setting commonly used in practice. The reason is that the corresponding Markov chain may not be irreducible. We propose a modified Metropolis transition operator that behaves almost always identically to the standard Metropolis operator and prove that it ensures irreducibility and convergence to the limiting distribution in the multivariate binary case with fixed-order updates. The result provides an explanation for the behaviour of Metropolis MCMC in that setting and closes a long-standing theoretical gap. We experimentally studied the standard and modified Metropolis operator for models were they actually behave differently. If the standard algorithm also converges, the modified operator exhibits similar (if not better) performance in terms of convergence speed.
翻訳日:2022-11-16 21:03:27 公開日:2020-06-26
# 最寄り近傍の勾配推定:シャープ非漸近境界とその応用

Nearest Neighbour Based Estimates of Gradients: Sharp Nonasymptotic Bounds and Applications ( http://arxiv.org/abs/2006.15043v1 )

ライセンス: Link先を確認
Guillaume Ausset, Stephan Cl\'emen\c{c}on, Fran\c{c}ois Portier(参考訳) 確率最適化から変数選択による次元縮小まで、様々な応用によって動機付けられ、勾配を正確に推定する問題は統計学や学習理論において重要である。 ここでは、実値の平方可積分 r.v.$Y$ が、平均二乗感覚において可能な限り正確に予測関数 $f(X)$ を用いて(おそらく高次元の)ランダムベクトル $X$ を観測し、最適予測関数の勾配の最も近い近傍の点推定、回帰関数 $m(x)=\mathbb{E}[Y\mid X=x]$ を研究する際に予測される古典回帰集合を考える。 古典的滑らか性条件と y-m(x)$ の尾が準ガウス的であるという仮定が組み合わされ、代替推定法で得られるものに対して非漸近境界が改善されることが証明される。 新たに確立された理論的な結果以外にも、いくつかの数値実験が行われている。 後者は, 勾配推定, 次元性低減, 確率的勾配勾配最適化, 数値化等, 様々な統計的問題に対して, 提案手法が有効であることを示す。

Motivated by a wide variety of applications, ranging from stochastic optimization to dimension reduction through variable selection, the problem of estimating gradients accurately is of crucial importance in statistics and learning theory. We consider here the classic regression setup, where a real valued square integrable r.v. $Y$ is to be predicted upon observing a (possibly high dimensional) random vector $X$ by means of a predictive function $f(X)$ as accurately as possible in the mean-squared sense and study a nearest-neighbour-based pointwise estimate of the gradient of the optimal predictive function, the regression function $m(x)=\mathbb{E}[Y\mid X=x]$. Under classic smoothness conditions combined with the assumption that the tails of $Y-m(X)$ are sub-Gaussian, we prove nonasymptotic bounds improving upon those obtained for alternative estimation methods. Beyond the novel theoretical results established, several illustrative numerical experiments have been carried out. The latter provide strong empirical evidence that the estimation method proposed works very well for various statistical problems involving gradient estimation, namely dimensionality reduction, stochastic gradient descent optimization and quantifying disentanglement.
翻訳日:2022-11-16 21:03:09 公開日:2020-06-26
# 深層強化学習のための知覚・予測・反応エージェント

Perception-Prediction-Reaction Agents for Deep Reinforcement Learning ( http://arxiv.org/abs/2006.15223v1 )

ライセンス: Link先を確認
Adam Stooke, Valentin Dalibard, Siddhant M. Jayakumar, Wojciech M. Czarnecki, and Max Jaderberg(参考訳) 長期記憶を必要とする部分的に観察可能なタスクにおける強化学習を改善するために,新たなエージェントアーキテクチャとそれに伴う補助損失を導入する。 テンポラリな階層構造を用いて、情報の流れを長時間にわたってより容易に流すことができるようにし、3つの高速な繰り返しコアを情報非対称性を生成するよう設計した。 emph{reaction} コアは、エージェントのポリシーを生成するために、遅いコアからの入力による新しい観測を組み込む; \emph{perception} コアは短期的な観測のみにアクセスし、遅いコアに通知する; 最後に、\emph{prediction} コアは長期記憶のみにアクセスする。 補助的損失は、3つのコアすべてから引き出されたポリシーを互いに規則化し、ポリシーが最近の記憶と長期記憶のいずれかから表現できることを前倒しする。 DMLab-30の強力なLSTM-エージェントベースライン,特に長期記憶を必要とするタスクにおいて,PPR(emph{Perception-Prediction-Reaction})エージェントが有効であることを示す。 さらに,長期にわたる複雑なスキルの混合をエージェントが要求する環境であるCapture the Flagの大幅な改善を示す。 一連のアブレーション実験において,ppr剤の各成分の重要性を探究し,この興味深い結果に新たな組み合わせが必要であることを確認した。

We introduce a new recurrent agent architecture and associated auxiliary losses which improve reinforcement learning in partially observable tasks requiring long-term memory. We employ a temporal hierarchy, using a slow-ticking recurrent core to allow information to flow more easily over long time spans, and three fast-ticking recurrent cores with connections designed to create an information asymmetry. The \emph{reaction} core incorporates new observations with input from the slow core to produce the agent's policy; the \emph{perception} core accesses only short-term observations and informs the slow core; lastly, the \emph{prediction} core accesses only long-term memory. An auxiliary loss regularizes policies drawn from all three cores against each other, enacting the prior that the policy should be expressible from either recent or long-term memory. We present the resulting \emph{Perception-Prediction-Reaction} (PPR) agent and demonstrate its improved performance over a strong LSTM-agent baseline in DMLab-30, particularly in tasks requiring long-term memory. We further show significant improvements in Capture the Flag, an environment requiring agents to acquire a complicated mixture of skills over long time scales. In a series of ablation experiments, we probe the importance of each component of the PPR agent, establishing that the entire, novel combination is necessary for this intriguing result.
翻訳日:2022-11-16 20:56:32 公開日:2020-06-26
# 確率回路と行列点過程の関係について

On the Relationship Between Probabilistic Circuits and Determinantal Point Processes ( http://arxiv.org/abs/2006.15233v1 )

ライセンス: Link先を確認
Honghua Zhang, Steven Holtzen, Guy Van den Broeck(参考訳) 確率モデルから大規模な現実的な問題やデータセットへのスケールアップは、マシンラーニングの重要な課題である。 この取り組みの中心は、効率的な確率的推論アルゴリズムを保証する構造を持つモデル(TPM)の開発である。 TPMの現在の状況は断片化されており、さまざまな強度と弱点を持つ様々な種類のTPMが存在する。 tpmの最も顕著なクラスは、行列点過程(dpps)と確率回路(pcs)の2つである。 本稿では,その関係に関する最初の体系的研究について述べる。 DPPとPCを議論するための統合分析と共有言語を提案する。 そして、これらの2つの族を統一するための理論的障壁を確立し、dppがpcのクラスとしてコンパクト表現を持たない場合に証明する。 われわれは、これらのトラクタブルモデルを統合するという中心的な問題に対する見解を締めくくっている。

Scaling probabilistic models to large realistic problems and datasets is a key challenge in machine learning. Central to this effort is the development of tractable probabilistic models (TPMs): models whose structure guarantees efficient probabilistic inference algorithms. The current landscape of TPMs is fragmented: there exist various kinds of TPMs with different strengths and weaknesses. Two of the most prominent classes of TPMs are determinantal point processes (DPPs) and probabilistic circuits (PCs). This paper provides the first systematic study of their relationship. We propose a unified analysis and shared language for discussing DPPs and PCs. Then we establish theoretical barriers for the unification of these two families, and prove that there are cases where DPPs have no compact representation as a class of PCs. We close with a perspective on the central problem of unifying these tractable models.
翻訳日:2022-11-16 20:56:07 公開日:2020-06-26
# リスク条件値に対するPAC-Bayesian境界

PAC-Bayesian Bound for the Conditional Value at Risk ( http://arxiv.org/abs/2006.14763v1 )

ライセンス: Link先を確認
Zakaria Mhammedi, Benjamin Guedj, Robert C. Williamson(参考訳) Conditional Value at Risk (CVaR) は、伝統的な数学的な予測を一般化する「コヒーレントなリスク尺度」のファミリーである。 数学ファイナンスで広く使われるようになり、例えば正規化への代替アプローチや公正性の確保手段として機械学習への関心が高まっている。 本稿では,経験的損失のCVaRを最小化する学習アルゴリズムの一般化を提案する。 境界はPAC-Bayesian型であり、経験的CVaRが小さい場合には小さいことが保証される。 CVaRを単に予測値から推定する問題に還元することで、これを実現できる。 これにより,不規則変数が非有界である場合でも,副生成物としてCVaRの濃度不等式が得られる。

Conditional Value at Risk (CVaR) is a family of "coherent risk measures" which generalize the traditional mathematical expectation. Widely used in mathematical finance, it is garnering increasing interest in machine learning, e.g., as an alternate approach to regularization, and as a means for ensuring fairness. This paper presents a generalization bound for learning algorithms that minimize the CVaR of the empirical loss. The bound is of PAC-Bayesian type and is guaranteed to be small when the empirical CVaR is small. We achieve this by reducing the problem of estimating CVaR to that of merely estimating an expectation. This then enables us, as a by-product, to obtain concentration inequalities for CVaR even when the random variable in question is unbounded.
翻訳日:2022-11-16 20:55:27 公開日:2020-06-26
# Q-Tableの微分エントロピーを用いたQ-Learning

Q-Learning with Differential Entropy of Q-Tables ( http://arxiv.org/abs/2006.14795v1 )

ライセンス: Link先を確認
Tung D. Nguyen, Kathryn E. Kasmarik, Hussein A. Abbass(参考訳) 古典的かつ単純なq学習アルゴリズムでは情報損失が発生することが知られている。 エントロピーに基づくポリシー探索手法を導入し,Q学習を代替し,情報損失に対してより堅牢なアルゴリズムを設計した。 q-learningの長期トレーニングセッションにおけるパフォーマンスの低下は,q-learningアルゴリズム自体を変更することなく累積報酬のみを検査する場合に不透明となる情報の損失に起因すると推測する。 本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。 トレーニングエピソードにおけるDEC-QTの挙動を分析し,トレーニング中に適切な停止基準を求める。 その結果、従来のQ-Learningアルゴリズムでは、高い成功率と高い効率のバランスが整う最も適切な停止点をDECが検出できることが判明した。

It is well-known that information loss can occur in the classic and simple Q-learning algorithm. Entropy-based policy search methods were introduced to replace Q-learning and to design algorithms that are more robust against information loss. We conjecture that the reduction in performance during prolonged training sessions of Q-learning is caused by a loss of information, which is non-transparent when only examining the cumulative reward without changing the Q-learning algorithm itself. We introduce Differential Entropy of Q-tables (DE-QT) as an external information loss detector to the Q-learning algorithm. The behaviour of DE-QT over training episodes is analyzed to find an appropriate stopping criterion during training. The results reveal that DE-QT can detect the most appropriate stopping point, where a balance between a high success rate and a high efficiency is met for classic Q-Learning algorithm.
翻訳日:2022-11-16 20:54:11 公開日:2020-06-26
# ここで何ができますか。 強化学習における余裕の理論

What can I do here? A Theory of Affordances in Reinforcement Learning ( http://arxiv.org/abs/2006.15085v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, David Abel, Doina Precup(参考訳) 強化学習アルゴリズムは通常、すべてのアクションがエージェントに常に利用可能であると仮定する。 しかし、人間と動物は、環境の特徴と実行可能な行動との一般的なつながりを理解している。 gibson (1977) は、特定の州が特定の行動を行うことができるという事実を具体化エージェントの文脈で表現するために、"affordances" という用語を作った。 本稿では,マルコフ決定過程を学習し,計画するエージェントに対する費用対効果の理論を考案する。 この場合、倍増は二重の役割を担います。 一方、任意の状況で利用可能なアクションの数を減らすことで、より高速な計画が可能になる。 一方で、特にそのようなモデルが関数近似を必要とする場合、データから遷移モデルのより効率的で正確な学習を促進する。 理論的な結果と説明的な例によってこれらの性質を確立する。 また,それを用いて,よりシンプルで一般化された遷移モデルを推定する手法を提案する。

Reinforcement learning algorithms usually assume that all actions are always available to an agent. However, both people and animals understand the general link between the features of their environment and the actions that are feasible. Gibson (1977) coined the term "affordances" to describe the fact that certain states enable an agent to do certain actions, in the context of embodied agents. In this paper, we develop a theory of affordances for agents who learn and plan in Markov Decision Processes. Affordances play a dual role in this case. On one hand, they allow faster planning, by reducing the number of actions available in any given situation. On the other hand, they facilitate more efficient and precise learning of transition models from data, especially when such models require function approximation. We establish these properties through theoretical results as well as illustrative examples. We also propose an approach to learn affordances and use it to estimate transition models that are simpler and generalize better.
翻訳日:2022-11-16 20:47:55 公開日:2020-06-26
# 超音波画像アーティファクト除去のための教師なし学習の限界

Pushing the Limit of Unsupervised Learning for Ultrasound Image Artifact Removal ( http://arxiv.org/abs/2006.14773v1 )

ライセンス: Link先を確認
Shujaat Khan, Jaeyoung Huh, Jong Chul Ye(参考訳) 超音波(us)イメージングは高速で非侵襲的なイメージングモードであり、放射線ハザードに関わらず、リアルタイムな画像診断に広く用いられている。 残念ながら、スペックルノイズ、ぼかし、マルチライン取得(MLA)、限られたRFチャンネル、平面波画像の場合の視角など、様々な起源の視覚的品質に悩まされることが多い。 これらの問題に対処する古典的な方法は、様々な適応フィルタリングとモデルに基づくアプローチを用いた画像ドメイン信号処理アプローチである。 近年,超音波イメージング分野での深層学習手法が成功している。 しかし,これらの手法の限界の一つとして,教師付きトレーニングのための高品質な画像のペア化が困難である点が挙げられる。 本稿では, 最適輸送駆動サイクルGAN (OT-cycleGAN) を用いた非教師付き学習の最近の理論に着想を得て, 参照データにマッチしない米国人工物除去問題に対する教師なしディープラーニングの適用性を検討した。 デコンボリューション、スペックル除去、限られたデータアーティファクト除去など様々なタスクに関する実験結果から、教師なし学習法は、多くの実用的なアプリケーションで教師付き学習に匹敵する結果を提供していることを確認した。

Ultrasound (US) imaging is a fast and non-invasive imaging modality which is widely used for real-time clinical imaging applications without concerning about radiation hazard. Unfortunately, it often suffers from poor visual quality from various origins, such as speckle noises, blurring, multi-line acquisition (MLA), limited RF channels, small number of view angles for the case of plane wave imaging, etc. Classical methods to deal with these problems include image-domain signal processing approaches using various adaptive filtering and model-based approaches. Recently, deep learning approaches have been successfully used for ultrasound imaging field. However, one of the limitations of these approaches is that paired high quality images for supervised training are difficult to obtain in many practical applications. In this paper, inspired by the recent theory of unsupervised learning using optimal transport driven cycleGAN (OT-cycleGAN), we investigate applicability of unsupervised deep learning for US artifact removal problems without matched reference data. Experimental results for various tasks such as deconvolution, speckle removal, limited data artifact removal, etc. confirmed that our unsupervised learning method provides comparable results to supervised learning for many practical applications.
翻訳日:2022-11-16 20:47:07 公開日:2020-06-26
# ブラックボックス攻撃に対する防御としての直交深層モデル

Orthogonal Deep Models As Defense Against Black-Box Attacks ( http://arxiv.org/abs/2006.14856v1 )

ライセンス: Link先を確認
Mohammad A. A. K. Jalwana, Naveed Akhtar, Mohammed Bennamoun, Ajmal Mian(参考訳) ディープラーニングは、さまざまなコンピュータビジョンタスクで最先端のパフォーマンスを実証している。 一方、深い視覚モデルによって、病気の予後やスマート監視といった重要な応用の道を開くことができる。 一方、深層学習は敵の攻撃に弱いことが分かっており、これらの攻撃に対して深層モデルを保護する新しい技術を求めている。 攻撃アルゴリズムのうち、ブラックボックスのスキームは、ターゲットモデルの公開知識のみを必要とするため、深刻な問題となっている。 我々は、攻撃者がターゲットモデルに似たモデルを用いて攻撃を展開するブラックボックス設定において、深層モデルの固有の弱点を慎重に分析する。 この分析に基づいて,2つのモデルのアーキテクチャが類似していても,深層モデルの内部表現が他のモデルと直交することを奨励する新しい勾配正規化スキームを導入する。 この一意的な制約により、モデルは、参照モデルに対する勾配の直交的アライメントを保ちながら、より高い精度で共役的に努力することができる。 詳細な実証研究は、直交目的の下で勾配の調整ミスアライメントが、移動可能なブラックボックス攻撃に対するモデルの堅牢性を大幅に向上させることを示した。 正規モデルと比較して、直交モデルは$l_p$ノルム有界摂動の範囲に対してはるかに堅牢である。 様々な大規模モデルにおいて,本手法の有効性を検証する。

Deep learning has demonstrated state-of-the-art performance for a variety of challenging computer vision tasks. On one hand, this has enabled deep visual models to pave the way for a plethora of critical applications like disease prognostics and smart surveillance. On the other, deep learning has also been found vulnerable to adversarial attacks, which calls for new techniques to defend deep models against these attacks. Among the attack algorithms, the black-box schemes are of serious practical concern since they only need publicly available knowledge of the targeted model. We carefully analyze the inherent weakness of deep models in black-box settings where the attacker may develop the attack using a model similar to the targeted model. Based on our analysis, we introduce a novel gradient regularization scheme that encourages the internal representation of a deep model to be orthogonal to another, even if the architectures of the two models are similar. Our unique constraint allows a model to concomitantly endeavour for higher accuracy while maintaining near orthogonal alignment of gradients with respect to a reference model. Detailed empirical study verifies that controlled misalignment of gradients under our orthogonality objective significantly boosts a model's robustness against transferable black-box adversarial attacks. In comparison to regular models, the orthogonal models are significantly more robust to a range of $l_p$ norm bounded perturbations. We verify the effectiveness of our technique on a variety of large-scale models.
翻訳日:2022-11-16 20:46:09 公開日:2020-06-26
# 連続学習の概念としてのストリングエンコードエピソード

Storing Encoded Episodes as Concepts for Continual Learning ( http://arxiv.org/abs/2007.06637v1 )

ライセンス: Link先を確認
Ali Ayub, Alan R. Wagner(参考訳) 継続的学習アプローチが直面する2つの大きな課題は、データの保存に関する破滅的な忘れ方とメモリ制限である。 これらの課題に対処するため,ニューラルスタイルトランスファーを用いてオートエンコーダを訓練し,画像のエンコードと保存を行う,認知に触発された新しいアプローチを提案する。 分類器モデルを新しいタスクで訓練する際に、符号化されたエピソードからの再構成画像を再生し、破滅的な忘れを防止する。 再構成画像の損失関数を重み付けし、分類器訓練時の効果を低減し、画像劣化に対処する。 システムがメモリが切れると、符号化されたエピソードはセンタロイドと共分散行列に変換され、分類器のトレーニング中に擬似画像を生成するために使用され、分類器のパフォーマンスを少ないメモリで安定させる。 ベンチマークデータセットの最先端手法に比べて,分類精度は13~17%向上し,ストレージスペースは78%削減した。

The two main challenges faced by continual learning approaches are catastrophic forgetting and memory limitations on the storage of data. To cope with these challenges, we propose a novel, cognitively-inspired approach which trains autoencoders with Neural Style Transfer to encode and store images. Reconstructed images from encoded episodes are replayed when training the classifier model on a new task to avoid catastrophic forgetting. The loss function for the reconstructed images is weighted to reduce its effect during classifier training to cope with image degradation. When the system runs out of memory the encoded episodes are converted into centroids and covariance matrices, which are used to generate pseudo-images during classifier training, keeping classifier performance stable with less memory. Our approach increases classification accuracy by 13-17% over state-of-the-art methods on benchmark datasets, while requiring 78% less storage space.
翻訳日:2022-11-16 20:45:20 公開日:2020-06-26
# 自律走行車における神経進化の応用

Application of Neuroevolution in Autonomous Cars ( http://arxiv.org/abs/2006.15175v1 )

ライセンス: Link先を確認
Sainath G, Vignesh S, Siddarth S, G Suganya(参考訳) 電気自動車の登場と、それらがますます人気になるにつれて、自動運転車は、旅行/運転体験の未来である。 レベル5に達するための障壁は、優れた運転習慣とその欠如を含むデータの収集が困難であることです。 現在の自動運転車の実装の問題点は、巨大なデータセットの必要性と、データセット内の運転評価の必要性である。 トレーニングにデータを必要としないシステムを提案する。 進化モデルは、フィットネス機能に向けて最適化する能力を持つだろう。 我々は、nvidiaのphysx物理エンジンを利用して現実世界の車両のダイナミクスを正確に描写するunreal engine 4を用いて、シミュレーションされた仮想環境で自動運転車を訓練/進化させる遺伝的アルゴリズムであるneuroevolutionを実装した。 私たちは進化のセレンディピティーな性質を観察することができ、最適な解決策に到達するためにそれを利用しました。 また、遺伝的アルゴリズムによってもたらされる属性の一般化の容易さと、他の機械学習技術が運転エクスペリエンス全体を改善するためのボイラープレートとしてどのように使用されるかを示す。

With the onset of Electric vehicles, and them becoming more and more popular, autonomous cars are the future in the travel/driving experience. The barrier to reaching level 5 autonomy is the difficulty in the collection of data that incorporates good driving habits and the lack thereof. The problem with current implementations of self-driving cars is the need for massively large datasets and the need to evaluate the driving in the dataset. We propose a system that requires no data for its training. An evolutionary model would have the capability to optimize itself towards the fitness function. We have implemented Neuroevolution, a form of genetic algorithm, to train/evolve self-driving cars in a simulated virtual environment with the help of Unreal Engine 4, which utilizes Nvidia's PhysX Physics Engine to portray real-world vehicle dynamics accurately. We were able to observe the serendipitous nature of evolution and have exploited it to reach our optimal solution. We also demonstrate the ease in generalizing attributes brought about by genetic algorithms and how they may be used as a boilerplate upon which other machine learning techniques may be used to improve the overall driving experience.
翻訳日:2022-11-16 20:38:45 公開日:2020-06-26
# 圧縮の観点からの継続的な学習

Continual Learning from the Perspective of Compression ( http://arxiv.org/abs/2006.15078v1 )

ライセンス: Link先を確認
Xu He, Min Lin(参考訳) ニューラルネットワークのようなコネクショニストモデルは破滅的な忘れ込みに悩まされる。 本研究では,情報理論の観点からこの問題を考察し,逐次学習モデルを用いて圧縮された場合の先行データの記述長の増加として,忘れ方を定義する。 さらに,変分後近似と生成リプレイに基づく連続学習アプローチは,圧縮における2つの前列符号化法,すなわちベイズ混合符号と最大ラピッド(ml)プラグイン符号の近似と見なすことができることを示した。 これらのアプローチを圧縮と忘れの両方の観点から比較し,変分後近似に基づく連続学習法の性能を制限する要因を実験的に検討した。 これらの制約に対処するため,MLプラグインとベイズ混合符号を組み合わせた連続学習法を提案する。

Connectionist models such as neural networks suffer from catastrophic forgetting. In this work, we study this problem from the perspective of information theory and define forgetting as the increase of description lengths of previous data when they are compressed with a sequentially learned model. In addition, we show that continual learning approaches based on variational posterior approximation and generative replay can be considered as approximations to two prequential coding methods in compression, namely, the Bayesian mixture code and maximum likelihood (ML) plug-in code. We compare these approaches in terms of both compression and forgetting and empirically study the reasons that limit the performance of continual learning methods based on variational posterior approximation. To address these limitations, we propose a new continual learning method that combines ML plug-in and Bayesian mixture codes.
翻訳日:2022-11-16 20:38:29 公開日:2020-06-26
# パラフレージングによる予習

Pre-training via Paraphrasing ( http://arxiv.org/abs/2006.15020v1 )

ライセンス: Link先を確認
Mike Lewis, Marjan Ghazvininejad, Gargi Ghosh, Armen Aghajanyan, Sida Wang, Luke Zettlemoyer(参考訳) 本稿では,教師なし多言語マルチドキュメントパラフレージング目標を用いて学習する,事前学習されたシーケンス・ツー・シーケンスモデルであるmargeを紹介する。 MARGEは支配的なマスク付き言語モデリングのパラダイムに代わるもので、関連するテキスト(多くの言語で)の集合を検索し、それらを条件付けすることで、ターゲットテキストの再構築を自己監督し、原文を生成する可能性を最大化する。 ランダムな初期化のみを前提として,共同して検索と再構築を学べることを示す。 この目的は、パラフレーズ、翻訳、マルチドキュメント要約、情報検索などの側面を巧みに捉え、複数のタスクでゼロショットのパフォーマンスを向上させる。 例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。 さらに,多くの言語における判別タスクや生成タスクにおいて,微調整が強い性能を与え,margeをこれまでに最も広く適用可能な事前学習手法とすることを示した。

We introduce MARGE, a pre-trained sequence-to-sequence model learned with an unsupervised multi-lingual multi-document paraphrasing objective. MARGE provides an alternative to the dominant masked language modeling paradigm, where we self-supervise the reconstruction of target text by retrieving a set of related texts (in many languages) and conditioning on them to maximize the likelihood of generating the original. We show it is possible to jointly learn to do retrieval and reconstruction, given only a random initialization. The objective noisily captures aspects of paraphrase, translation, multi-document summarization, and information retrieval, allowing for strong zero-shot performance on several tasks. For example, with no additional task-specific training we achieve BLEU scores of up to 35.8 for document translation. We further show that fine-tuning gives strong performance on a range of discriminative and generative tasks in many languages, making MARGE the most generally applicable pre-training method to date.
翻訳日:2022-11-16 20:36:57 公開日:2020-06-26