このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200901となっている論文です。

PDF登録状況(公開日: 20200901)

TitleAuthorsAbstract論文公表日・翻訳日
# 埋め込み型テキスト分類の性能向上のためのクラスラベルの利用

Exploiting Class Labels to Boost Performance on Embedding-based Text Classification ( http://arxiv.org/abs/2006.02104v2 )

ライセンス: Link先を確認
Arkaitz Zubiaga(参考訳) テキスト分類はテキストデータを処理するための最も頻繁なタスクの1つであり、大規模なデータセットからの研究を促進する。 異なる種類の埋め込みは最近、テキスト分類に使用される機能としてデファクトスタンダードになっている。 これらの埋め込みは、大規模な外部コレクションで発生した単語の意味を捉える能力を持つ。 これらは外部コレクションから構築されているが、学習データ中のクラス間での単語の分布を含む、手前の分類データセットにおける単語の分布特性を意識していない。 これらの埋め込みを特徴として活用し,それらを用いた分類器の性能を高めるために,単語埋め込みを計算する際に,高頻度,カテゴリー排他的な単語を重み付け可能な重み付けスキームtf-crを導入する。 8つのデータセットを用いた実験により,tf-crの有効性が示され,よく知られた重み付けスキームであるtf-idfとkldよりも性能スコアが向上した。

Text classification is one of the most frequent tasks for processing textual data, facilitating among others research from large-scale datasets. Embeddings of different kinds have recently become the de facto standard as features used for text classification. These embeddings have the capacity to capture meanings of words inferred from occurrences in large external collections. While they are built out of external collections, they are unaware of the distributional characteristics of words in the classification dataset at hand, including most importantly the distribution of words across classes in training data. To make the most of these embeddings as features and to boost the performance of classifiers using them, we introduce a weighting scheme, Term Frequency-Category Ratio (TF-CR), which can weight high-frequency, category-exclusive words higher when computing word embeddings. Our experiments on eight datasets show the effectiveness of TF-CR, leading to improved performance scores over the well-known weighting schemes TF-IDF and KLD as well as over the absence of a weighting scheme in most cases.
翻訳日:2022-11-25 18:22:23 公開日:2020-09-01
# プロダクトレコメンデーションのための広告学習

Adversarial learning for product recommendation ( http://arxiv.org/abs/2007.07269v2 )

ライセンス: Link先を確認
Joel R. Bock and Akhilesh Maewal(参考訳) 製品レコメンデーションは、個人、その行動、および興味のある商品またはサービス間の共同分布をデータ融合推定する際の問題とみなすことができる。 本研究では,極めて疎密な暗黙的フィードバックトレーニングデータから見いだされる行動(ビュー,購入)の連関分布からサンプルを作成することを学ぶ条件付き複合生成対向ネットワーク(RecommenderGAN)を提案する。 ユーザインタラクションは、二値要素を持つ2つの行列によって表現される。 各行列において、0でない値は、ユーザが特定の製品カテゴリの特定のアイテムを見たり購入したかどうかを示す。 この方法でアクションをエンコードすることで、モデルは大規模な製品カタログ全体を表現することができる。 訓練されたGAN出力サンプルで計算された変換率統計は、1.323から1.763%までであった。 これらの統計は、ヌル仮説試験結果と比較すると有意である。 結果は、多くの産業や製品タイプで集計された変換率に匹敵する。 しかし,本モデルが提案する勧告は,消費者やデジタル小売業者に有効である可能性が示唆された。

Product recommendation can be considered as a problem in data fusion-- estimation of the joint distribution between individuals, their behaviors, and goods or services of interest. This work proposes a conditional, coupled generative adversarial network (RecommenderGAN) that learns to produce samples from a joint distribution between (view, buy) behaviors found in extremely sparse implicit feedback training data. User interaction is represented by two matrices having binary-valued elements. In each matrix, nonzero values indicate whether a user viewed or bought a specific item in a given product category, respectively. By encoding actions in this manner, the model is able to represent entire, large scale product catalogs. Conversion rate statistics computed on trained GAN output samples ranged from 1.323 to 1.763 percent. These statistics are found to be significant in comparison to null hypothesis testing results. The results are shown comparable to published conversion rates aggregated across many industries and product types. Our results are preliminary, however they suggest that the recommendations produced by the model may provide utility for consumers and digital retailers.
翻訳日:2022-11-12 20:46:33 公開日:2020-09-01
# LabelEnc: オブジェクト検出のための新しい中間スーパービジョン方法

LabelEnc: A New Intermediate Supervision Method for Object Detection ( http://arxiv.org/abs/2007.03282v3 )

ライセンス: Link先を確認
Miao Hao, Yitao Liu, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間管理手法を提案する。 重要なアイデアは、新しいラベル符号化機能の導入であり、基底ラベルを潜在埋め込みにマッピングし、トレーニング中の検出バックボーンに補助的な中間監督として機能する。 このアプローチは主に2段階のトレーニング手順を含む。 まず,ラベル空間で定義されたAutoEncoderを用いて,対象物体検出器の「希望」中間表現を近似してラベル符号化関数を最適化する。 次に,学習ラベル符号化機能を活用することで,検出バックボーンに新たな補助損失が付加され,検出器の性能が向上することを示す。 実験により,1段階,2段階のフレームワークにかかわらず,COCOデータセット上での検出システムを約2%改善することを確認した。 さらに、補助構造はトレーニング中にのみ存在し、推論時間において完全にコストフリーである。 コードは、https://github.com/megvii-model/LabelEncで入手できる。

In this paper we propose a new intermediate supervision method, named LabelEnc, to boost the training of object detection systems. The key idea is to introduce a novel label encoding function, mapping the ground-truth labels into latent embedding, acting as an auxiliary intermediate supervision to the detection backbone during training. Our approach mainly involves a two-step training procedure. First, we optimize the label encoding function via an AutoEncoder defined in the label space, approximating the "desired" intermediate representations for the target object detector. Second, taking advantage of the learned label encoding function, we introduce a new auxiliary loss attached to the detection backbones, thus benefiting the performance of the derived detector. Experiments show our method improves a variety of detection systems by around 2% on COCO dataset, no matter one-stage or two-stage frameworks. Moreover, the auxiliary structures only exist during training, i.e. it is completely cost-free in inference time. Code is available at: https://github.com/megvii-model/LabelEnc
翻訳日:2022-11-12 20:00:09 公開日:2020-09-01
# 食べ物に関する10年近くにわたるツイートから何が学べるか

What Can We Learn From Almost a Decade of Food Tweets ( http://arxiv.org/abs/2007.05194v2 )

ライセンス: Link先を確認
Uga Spro\c{g}is and Mat\=iss Rikters(参考訳) 私たちはラトビアのTwitter Eater Corpusを紹介します。これは、食べ物、飲み物、食事、飲酒に関連する狭い領域における一連のツイートです。 コーパスは8年以上にわたって収集され、200万以上のツイートに追加の有用なデータが含まれている。 また、質問と回答の2つのサブコーポラを、注釈付きツイートと感情を分ける。 コーパスの内容を分析し,コーパスのデータを用いてドメイン固有の質問応答および感情分析モデルを訓練することにより,サブコーパスのユースケースを示す。

We present the Latvian Twitter Eater Corpus - a set of tweets in the narrow domain related to food, drinks, eating and drinking. The corpus has been collected over time-span of over 8 years and includes over 2 million tweets entailed with additional useful data. We also separate two sub-corpora of question and answer tweets and sentiment annotated tweets. We analyse contents of the corpus and demonstrate use-cases for the sub-corpora by training domain-specific question-answering and sentiment-analysis models using data from the corpus.
翻訳日:2022-11-11 22:00:35 公開日:2020-09-01
# パターン誘導型統合勾配

Pattern-Guided Integrated Gradients ( http://arxiv.org/abs/2007.10685v2 )

ライセンス: Link先を確認
Robert Schwarzenberg, Steffen Castle(参考訳) Integrated Gradients (IG) と PatternAttribution (PA) は、ニューラルネットワークの2つの確立された説明可能性手法である。 どちらの方法も理論上は立派である。 しかし、それらは異なる課題を克服するために設計された。 本研究では,この2つの手法を新しい手法であるPGIG(Pattern-Guided Integrated Gradients)に統合する。 pgigは両方の親メソッドから重要な特性を継承し、オリジナルが失敗するストレステストに合格する。 さらに、大規模画像劣化実験において、PGIGを9つの代替説明可能性アプローチ(親法を含む)に対してベンチマークし、それら全てより優れていることを示す。

Integrated Gradients (IG) and PatternAttribution (PA) are two established explainability methods for neural networks. Both methods are theoretically well-founded. However, they were designed to overcome different challenges. In this work, we combine the two methods into a new method, Pattern-Guided Integrated Gradients (PGIG). PGIG inherits important properties from both parent methods and passes stress tests that the originals fail. In addition, we benchmark PGIG against nine alternative explainability approaches (including its parent methods) in a large-scale image degradation experiment and find that it outperforms all of them.
翻訳日:2022-11-08 04:13:03 公開日:2020-09-01
# 確率勾配の正則化効果が最小方形への適用性について

On the Regularization Effect of Stochastic Gradient Descent applied to Least Squares ( http://arxiv.org/abs/2007.13288v2 )

ライセンス: Link先を確認
Stefan Steinerberger(参考訳) 可逆$A \in \mathbb{R}^{n \times n}$に対して$\|Ax -b \|_2^2 \rightarrow \min$に適用される確率勾配降下の挙動について検討する。 a$ 上の明示的な定数 $c_{a}$ が存在して、$$$ \mathbb{e} ~\left\| ax_{k+1}-b\right\|^2_{2} \leq \left(1 + \frac{c_{a}}{\|a\|_f^2}\right) \left\|a x_k -b \right\|^2_{2}\frac{2}{\|a\|_f^2} \left\|a^t a (x_k - x)\right\|^2_{2} となる。 最後の項は、残余の$u_k - u$よりも1つの行列を持つ:$x_k - x$ が主に大きな特異ベクトルからなる場合、確率勾配勾配は素早く正規化する。 対称行列に対して、この不等式は高階ソボレフ空間の拡張を持つ。 これは(既知の)正規化現象を説明する:大きな特異値から小さな特異値へのエネルギーカスケード。

We study the behavior of stochastic gradient descent applied to $\|Ax -b \|_2^2 \rightarrow \min$ for invertible $A \in \mathbb{R}^{n \times n}$. We show that there is an explicit constant $c_{A}$ depending (mildly) on $A$ such that $$ \mathbb{E} ~\left\| Ax_{k+1}-b\right\|^2_{2} \leq \left(1 + \frac{c_{A}}{\|A\|_F^2}\right) \left\|A x_k -b \right\|^2_{2} - \frac{2}{\|A\|_F^2} \left\|A^T A (x_k - x)\right\|^2_{2}.$$ This is a curious inequality: the last term has one more matrix applied to the residual $u_k - u$ than the remaining terms: if $x_k - x$ is mainly comprised of large singular vectors, stochastic gradient descent leads to a quick regularization. For symmetric matrices, this inequality has an extension to higher-order Sobolev spaces. This explains a (known) regularization phenomenon: an energy cascade from large singular values to small singular values smoothes.
翻訳日:2022-11-06 08:29:47 公開日:2020-09-01
# 確率論理プログラミングのためのMAP推論

MAP Inference for Probabilistic Logic Programming ( http://arxiv.org/abs/2008.01394v3 )

ライセンス: Link先を確認
Elena Bellodi, Marco Alberti, Fabrizio Riguzzi, Riccardo Zese(参考訳) Probabilistic Logic Programming (PLP) では、最もよく研究されている推論タスクは、与えられたクエリの限界確率を計算することである。 本稿では,PLP設定における他の重要なタスクとして,他の変数にエビデンスを与えた確率変数のサブセットに対して最も確率の高い値を決定する最大A-Posteriori(MAP)推論タスクと,クエリ変数がエビデンス変数を補完するMAPのインスタンスである最も確率的説明(MPE)タスクを考える。 本稿では,各問題をバイナリ決定ダイアグラムとして表現し,動的プログラミング手順を適用することで,これらの課題に対処する新しいアルゴリズムを提案する。 本稿では,アノテーション付き解離を認め,MAPおよびMPE推論を行うProbLogのバージョンと比較する。 いくつかの合成データセットの実験では、PITAがProbLogより優れていることが示されている。

In Probabilistic Logic Programming (PLP) the most commonly studied inference task is to compute the marginal probability of a query given a program. In this paper, we consider two other important tasks in the PLP setting: the Maximum-A-Posteriori (MAP) inference task, which determines the most likely values for a subset of the random variables given evidence on other variables, and the Most Probable Explanation (MPE) task, the instance of MAP where the query variables are the complement of the evidence variables. We present a novel algorithm, included in the PITA reasoner, which tackles these tasks by representing each problem as a Binary Decision Diagram and applying a dynamic programming procedure on it. We compare our algorithm with the version of ProbLog that admits annotated disjunctions and can perform MAP and MPE inference. Experiments on several synthetic datasets show that PITA outperforms ProbLog in many cases.
翻訳日:2022-11-03 00:49:21 公開日:2020-09-01
# Few-shot Semantic Segmentationのためのプロトタイプ混合モデル

Prototype Mixture Models for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2008.03898v2 )

ライセンス: Link先を確認
Boyu Yang, Chang Liu, Bohao Li, Jianbin Jiao, and Qixiang Ye(参考訳) サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。 サポートイメージから直接取得した1つのプロトタイプを使用してクエリ画像をセグメント化すると、セマンティックなあいまいさが発生する。 本稿では,様々な画像領域と複数のプロトタイプを関連付けて,プロトタイプに基づく意味表現を実現するプロトタイプ混合モデル(pmms)を提案する。 期待最大化アルゴリズムにより推定されるPMMは、限られたサポート画像からリッチなチャネルワイドおよび空間意味を組み込む。 表現や分類器として利用され、PMMはセマンティクスをフル活用してクエリイメージ内のオブジェクトを活性化し、背景領域を二重に圧縮する。 Pascal VOCとMS-COCOデータセットの大規模な実験は、PMMが最先端の状況において著しく改善されていることを示している。 特に、PMMはモデルサイズと推論速度の適度なコストでMS-COCOの5ショットセグメンテーション性能を最大5.82\%向上させる。

Few-shot segmentation is challenging because objects within the support and query images could significantly differ in appearance and pose. Using a single prototype acquired directly from the support image to segment the query image causes semantic ambiguity. In this paper, we propose prototype mixture models (PMMs), which correlate diverse image regions with multiple prototypes to enforce the prototype-based semantic representation. Estimated by an Expectation-Maximization algorithm, PMMs incorporate rich channel-wised and spatial semantics from limited support images. Utilized as representations as well as classifiers, PMMs fully leverage the semantics to activate objects in the query image while depressing background regions in a duplex manner. Extensive experiments on Pascal VOC and MS-COCO datasets show that PMMs significantly improve upon state-of-the-arts. Particularly, PMMs improve 5-shot segmentation performance on MS-COCO by up to 5.82\% with only a moderate cost for model size and inference speed.
翻訳日:2022-10-31 22:56:15 公開日:2020-09-01
# 時空間平滑化とスカラー化テンソル最適化によるリモートセンシング画像の厚さ雲除去

Thick Cloud Removal of Remote Sensing Images Using Temporal Smoothness and Sparsity-Regularized Tensor Optimization ( http://arxiv.org/abs/2008.04529v2 )

ライセンス: Link先を確認
Chenxi Duan, Jun Pan, Rui Li(参考訳) リモートセンシング画像では、クラウドシャドウに付随する厚い雲の存在は高い確率イベントであり、その後の処理の品質に影響を与え、アプリケーションのシナリオを制限することができる。 したがって、厚い雲と雲の影を除去し、雲に汚染されたピクセルを回収することが、リモートセンシング画像の有効利用に不可欠である。 本稿では,sparsity-regularized tensor optimization (tssto) と時間的平滑さに基づくリモートセンシング画像に対する新しい厚い雲除去法を提案する。 TSSTOの基本的な考え方は、厚い雲と雲の影は、画像の水平方向と垂直方向に沿って滑らかであり、クリーンな画像は画像間の時間方向に沿って滑らかであるということである。 したがって、雲と雲の影のスパーシティを高めるためにスパーシティノルムを用い、一方向全変動調整器(utv)を適用して一方向の滑らか性を確保する。 本稿では,乗算器の交互方向法を用いて,提示したモデルを解き,雲影要素と雲影要素と清浄要素を生成する。 雲と雲の影要素は、雲の領域と雲の影領域を得るために浄化される。 そして、元の雲汚染画像のクリーン領域をクリーン要素の対応する領域に置換する。 最後に、情報クローニング法を用いて、参照画像を選択して、雲領域及び雲影領域の詳細を再構成する。 異なるセンサからのクラウド汚染画像と、異なる解像度の画像の両方について実験を行い、質的および定量的な視点からクラウドシャドウとクラウドシャドウを除去するためのtsto法の可能性を示した。

In remote sensing images, the presence of thick cloud accompanying cloud shadow is a high probability event, which can affect the quality of subsequent processing and limit the scenarios of application. Hence, removing the thick cloud and cloud shadow as well as recovering the cloud-contaminated pixels is indispensable to make good use of remote sensing images. In this paper, a novel thick cloud removal method for remote sensing images based on temporal smoothness and sparsity-regularized tensor optimization (TSSTO) is proposed. The basic idea of TSSTO is that the thick cloud and cloud shadow are not only sparse but also smooth along the horizontal and vertical direction in images while the clean images are smooth along the temporal direction between images. Therefore, the sparsity norm is used to boost the sparsity of the cloud and cloud shadow, and unidirectional total variation (UTV) regularizers are applied to ensure the unidirectional smoothness. This paper utilizes alternation direction method of multipliers to solve the presented model and generate the cloud and cloud shadow element as well as the clean element. The cloud and cloud shadow element is purified to get the cloud area and cloud shadow area. Then, the clean area of the original cloud-contaminated images is replaced to the corresponding area of the clean element. Finally, the reference image is selected to reconstruct details of the cloud area and cloud shadow area using the information cloning method. A series of experiments are conducted both on simulated and real cloud-contaminated images from different sensors and with different resolutions, and the results demonstrate the potential of the proposed TSSTO method for removing cloud and cloud shadow from both qualitative and quantitative viewpoints.
翻訳日:2022-10-31 12:10:58 公開日:2020-09-01
# アンダーディスプレイカメラにおける画像復元のためのディープアラス誘導フィルタ

Deep Atrous Guided Filter for Image Restoration in Under Display Cameras ( http://arxiv.org/abs/2008.06229v2 )

ライセンス: Link先を確認
Varun Sundar, Sumanth Hegde, Divya Kothandaraman and Kaushik Mitra(参考訳) ディスプレイカメラの下では、カメラを半透明のOLEDスクリーンの後ろに置き、ベゼルのないディスプレイを実現することができる。 残念なことに、このような撮像システムは、光減衰と回折効果による画像劣化に苦しむ。 本稿では,UDCシステムにおける画像復元のための2段階のエンドツーエンドアプローチであるDeep Atrous Guided Filter(DAGF)を提案する。 低解像度ネットワークは、まず低解像度で画像品質を復元し、その後、ガイドフィルタネットワークがフィルタ入力として使用して高解像度出力を生成する。 初期ダウンサンプリングに加えて、我々の低解像度ネットワークは、空間分解能を保ち、マルチスケール処理をエミュレートするために複数の並列なアトラス畳み込みを使用する。 提案手法では,メガピクセル画像を直接トレーニングできるため,性能が大幅に向上する。 また,モデルの事前学習と性能向上のための簡単なシミュレーション手法を提案する。 RLQ-TOD'20 UDC Challenge for POLED と TOLED の2位と5位にランクインしている。

Under Display Cameras present a promising opportunity for phone manufacturers to achieve bezel-free displays by positioning the camera behind semi-transparent OLED screens. Unfortunately, such imaging systems suffer from severe image degradation due to light attenuation and diffraction effects. In this work, we present Deep Atrous Guided Filter (DAGF), a two-stage, end-to-end approach for image restoration in UDC systems. A Low-Resolution Network first restores image quality at low-resolution, which is subsequently used by the Guided Filter Network as a filtering input to produce a high-resolution output. Besides the initial downsampling, our low-resolution network uses multiple, parallel atrous convolutions to preserve spatial resolution and emulates multi-scale processing. Our approach's ability to directly train on megapixel images results in significant performance improvement. We additionally propose a simple simulation scheme to pre-train our model and boost performance. Our overall framework ranks 2nd and 5th in the RLQ-TOD'20 UDC Challenge for POLED and TOLED displays, respectively.
翻訳日:2022-10-30 17:30:23 公開日:2020-09-01
# 制約付き多目的ベイズ最適化のための不確かさ認識探索フレームワーク

Uncertainty aware Search Framework for Multi-Objective Bayesian Optimization with Constraints ( http://arxiv.org/abs/2008.07029v2 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal, Janardhan Rao Doppa(参考訳) 本研究では,高機能評価を用いた制約付き多目的(mo)ブラックボックス最適化の問題点を考察し,制約セットを満足する解の真のパレート集合を近似し,関数評価の数を最小化することを目的とした。 本稿では,制約付き多目的最適化のための不確実性認識検索フレームワーク(USeMOC)を提案する。 UeMOCの選択方法は、真の関数のサロゲートモデルを用いて、安価な制約付きMO最適化問題を解くことで、最も有望な候補を特定し、不確実性の尺度に基づいて最適な候補を選択することである。 この枠組みを高コストシミュレーションによる多出力スイッチトキャパシタ電圧レギュレータの設計に応用した。 実験の結果,UeMOCは最適化回路の探索に必要なシミュレーション数を90%以上削減できることがわかった。

We consider the problem of constrained multi-objective (MO) blackbox optimization using expensive function evaluations, where the goal is to approximate the true Pareto set of solutions satisfying a set of constraints while minimizing the number of function evaluations. We propose a novel framework named Uncertainty-aware Search framework for Multi-Objective Optimization with Constraints (USeMOC) to efficiently select the sequence of inputs for evaluation to solve this problem. The selection method of USeMOC consists of solving a cheap constrained MO optimization problem via surrogate models of the true functions to identify the most promising candidates and picking the best candidate based on a measure of uncertainty. We applied this framework to optimize the design of a multi-output switched-capacitor voltage regulator via expensive simulations. Our experimental results show that USeMOC is able to achieve more than 90 % reduction in the number of simulations needed to uncover optimized circuits.
翻訳日:2022-10-28 09:06:54 公開日:2020-09-01
# 翻訳としてのパッチング:データとメタファー

Patching as Translation: the Data and the Metaphor ( http://arxiv.org/abs/2008.10707v2 )

ライセンス: Link先を確認
Yangruibo Ding, Baishakhi Ray, Premkumar Devanbu, Vincent J. Hellendoorn(参考訳) 計算言語学のような他の分野の機械学習モデルは、ソフトウェア工学のタスクに移植され、非常にうまくいった。 しかし、あるタスクで移植されたモデルの最初の成功は、必ずしもそのタスクに適しているとは限らない。 本稿では,この現象の一般的な例として,「ソフトウェアパッチは言語翻訳に似ている」という考えを考察する。 プログラムの修復は、以前の一般的なモデリングアーキテクチャと大きく異なるが、実際には、翻訳精度と多様性の両方の観点から、後者に組み込まれた設計決定に悩まされている。 これらの知見から,我々の経験的知見とソフトウェア開発の一般知識に基づいて,モデル設計に対するより原則的なアプローチが,よりよいソリューションをもたらすことを実証する。 また,バグのある状況下でのコード条件の編集を合成し,バグを修復する最近の傾向を強く支持している。 このようなモデルを“概念の証明(proof-of-concept)”ツールとして実装し、研究対象の翻訳ベースのアーキテクチャとは根本的に異なる、より効果的な方法で振る舞うことを実証的に確認します。 全体として、我々の結果は、ソフトウェア工学における機械学習モデルの複雑さを研究することのメリットを実証している。これは、精度の上昇によって過度に隠蔽される可能性のある潜在的な問題を解明するのに役立つだけでなく、これらのモデルに革新を加えて、最先端の技術をさらに高めるのに役立つ。 レプリケーションデータと資料はhttps://github.com/arise-lab/patch-as-translationで公開します。

Machine Learning models from other fields, like Computational Linguistics, have been transplanted to Software Engineering tasks, often quite successfully. Yet a transplanted model's initial success at a given task does not necessarily mean it is well-suited for the task. In this work, we examine a common example of this phenomenon: the conceit that "software patching is like language translation". We demonstrate empirically that there are subtle, but critical distinctions between sequence-to-sequence models and translation model: while program repair benefits greatly from the former, general modeling architecture, it actually suffers from design decisions built into the latter, both in terms of translation accuracy and diversity. Given these findings, we demonstrate how a more principled approach to model design, based on our empirical findings and general knowledge of software development, can lead to better solutions. Our findings also lend strong support to the recent trend towards synthesizing edits of code conditional on the buggy context, to repair bugs. We implement such models ourselves as "proof-of-concept" tools and empirically confirm that they behave in a fundamentally different, more effective way than the studied translation-based architectures. Overall, our results demonstrate the merit of studying the intricacies of machine learned models in software engineering: not only can this help elucidate potential issues that may be overshadowed by increases in accuracy; it can also help innovate on these models to raise the state-of-the-art further. We will publicly release our replication data and materials at https://github.com/ARiSE-Lab/Patch-as-translation.
翻訳日:2022-10-25 12:54:42 公開日:2020-09-01
# グループ表現学習における識別可能性蒸留

Discriminability Distillation in Group Representation Learning ( http://arxiv.org/abs/2008.10850v2 )

ライセンス: Link先を確認
Manyuan Zhang, Guanglu Song, Hang Zhou, Yu Liu(参考訳) 学習グループ表現は、基本単位がグループ、集合、シーケンスであるタスクにおいて、一般的に懸念される問題である。 従来、研究コミュニティは、品質や塩分などの人間によって定義された指標に基づいてグループ内の要素を集約したり、注意スコアなどのブラックボックスによって生成されたりする。 この記事では、より本質的で説明可能な見解を提供する。 グループ表現がその要素の1つから恩恵を受けられるかどうかを示す最も重要な指標は、品質や説明不能なスコアではなく、モデルの識別可能性w.r.tである。 プロキシセット上の組込みクラスセントロイドを用いて、識別可能性を明確に設計する。 判別可能性に関する知識は, 軽量蒸留ネットワークで蒸留でき, 未確認のターゲットセット上で一般化できる, 優れた性質を有することを示す。 この手順全体を識別性蒸留学習(ddl)と表記する。 提案するddlは、元のトレーニング手順に影響を与えることなく、多くのグループベースの認識タスクに柔軟にプラグインすることができる。 様々なタスクに関する総合的な実験は、精度と効率の両方にDDLの有効性を証明した。 さらに、これらのタスクの最先端の成果を、印象的なマージンで推進する。

Learning group representation is a commonly concerned issue in tasks where the basic unit is a group, set, or sequence. Previously, the research community tries to tackle it by aggregating the elements in a group based on an indicator either defined by humans such as the quality and saliency, or generated by a black box such as the attention score. This article provides a more essential and explicable view. We claim the most significant indicator to show whether the group representation can be benefited from one of its element is not the quality or an inexplicable score, but the discriminability w.r.t. the model. We explicitly design the discrimiability using embedded class centroids on a proxy set. We show the discrimiability knowledge has good properties that can be distilled by a light-weight distillation network and can be generalized on the unseen target set. The whole procedure is denoted as discriminability distillation learning (DDL). The proposed DDL can be flexibly plugged into many group-based recognition tasks without influencing the original training procedures. Comprehensive experiments on various tasks have proven the effectiveness of DDL for both accuracy and efficiency. Moreover, it pushes forward the state-of-the-art results on these tasks by an impressive margin.
翻訳日:2022-10-25 04:02:14 公開日:2020-09-01
# ワンショット3d写真

One Shot 3D Photography ( http://arxiv.org/abs/2008.12298v2 )

ライセンス: Link先を確認
Johannes Kopf, Kevin Matzen, Suhib Alsisan, Ocean Quigley, Francis Ge, Yangming Chong, Josh Patterson, Jan-Michael Frahm, Shu Wu, Matthew Yu, Peizhao Zhang, Zijian He, Peter Vajda, Ayush Saraf, Michael Cohen(参考訳) 3D写真は、視聴者が撮影瞬間をより完全に体験できる新しい媒体だ。 本研究では,3次元写真は視点を移動させることによって引き起こされる視差(固定された視点を持つステレオ対とは対照的に)を表す。 3D写真は、従来の写真と同様、時間内に静的に表示されるが、モバイルやデスクトップの画面では対話的なパララックスで表示され、バーチャルリアリティーデバイスではステレオも表示される。 本稿では,3D画像の作成と閲覧のためのエンドツーエンドシステムを提案する。 私たちの3D写真は1枚の写真で撮影され、モバイルデバイスで直接処理されます。 この手法は,モバイル機器に最適化された新しい単眼深度推定ネットワークを用いて,2次元入力画像から深度を推定することから始める。 最先端と競合して動作するが、レイテンシとピークメモリの消費が低く、パラメータの桁数は桁違いである。 得られた深さは層状深度画像に引き上げられ、新しい幾何学はパララックス領域で合成される。 パララックス領域の色彩テクスチャと構造を,モバイル機器向けに最適化された塗装ネットワークを用いて直接LDI上に合成する。 最後に、その結果をメッシュベースの表現に変換し、ローエンドデバイスやネットワーク接続の貧弱な上でも効率的に送信およびレンダリングすることができる。 総じて、この処理はモバイルデバイス上で数秒しかかからず、その結果を即座に閲覧して共有することができる。 我々は,我々のシステムを検証するための定量的評価を行い,その新しいコンポーネントを現在の最先端技術と比較する。

3D photography is a new medium that allows viewers to more fully experience a captured moment. In this work, we refer to a 3D photo as one that displays parallax induced by moving the viewpoint (as opposed to a stereo pair with a fixed viewpoint). 3D photos are static in time, like traditional photos, but are displayed with interactive parallax on mobile or desktop screens, as well as on Virtual Reality devices, where viewing it also includes stereo. We present an end-to-end system for creating and viewing 3D photos, and the algorithmic and design choices therein. Our 3D photos are captured in a single shot and processed directly on a mobile device. The method starts by estimating depth from the 2D input image using a new monocular depth estimation network that is optimized for mobile devices. It performs competitively to the state-of-the-art, but has lower latency and peak memory consumption and uses an order of magnitude fewer parameters. The resulting depth is lifted to a layered depth image, and new geometry is synthesized in parallax regions. We synthesize color texture and structures in the parallax regions as well, using an inpainting network, also optimized for mobile devices, on the LDI directly. Finally, we convert the result into a mesh-based representation that can be efficiently transmitted and rendered even on low-end devices and over poor network connections. Altogether, the processing takes just a few seconds on a mobile device, and the result can be instantly viewed and shared. We perform extensive quantitative evaluation to validate our system and compare its new components against the current state-of-the-art.
翻訳日:2022-10-24 08:29:30 公開日:2020-09-01
# イメージングバイオマーカーの不確かさ推定のためのベイズニューラルネットワーク

Bayesian Neural Networks for Uncertainty Estimation of Imaging Biomarkers ( http://arxiv.org/abs/2008.12680v2 )

ライセンス: Link先を確認
J. Senapati, A. Guha Roy, S. P\"olsterl, D. Gutmann, S. Gatidis, C. Schlett, A. Peters, F. Bamberg, C. Wachinger(参考訳) イメージセグメンテーションは、病気のバイオマーカーをイメージングするのに役立つスキャンから定量的な測定を抽出することができる。 しかし、セグメンテーションの品質はスキャンによって大きく異なるため、バイオマーカーのフォローアップ統計解析において不適切な推定が得られる。 核となる問題は、セグメンテーションとバイオマーカー分析が独立して行われることである。 本稿では,セグメンテーション信頼度の変化を考慮した統計解析にセグメンテーションの不確実性を導入することを提案する。 そこで本研究では,4つのベイズ型ニューラルネットワークについて,後方分布からサンプルを採取し,不確かさを推定する。 次に、バイオマーカーに信頼度を割り当て、グループ分析と疾患分類の統合のための統計モデルを提案する。 糖尿病患者における肝の分節化成績は, 統計的推測におけるバイオマーカーの不確実性の改善を明らかに示している。

Image segmentation enables to extract quantitative measures from scans that can serve as imaging biomarkers for diseases. However, segmentation quality can vary substantially across scans, and therefore yield unfaithful estimates in the follow-up statistical analysis of biomarkers. The core problem is that segmentation and biomarker analysis are performed independently. We propose to propagate segmentation uncertainty to the statistical analysis to account for variations in segmentation confidence. To this end, we evaluate four Bayesian neural networks to sample from the posterior distribution and estimate the uncertainty. We then assign confidence measures to the biomarker and propose statistical models for its integration in group analysis and disease classification. Our results for segmenting the liver in patients with diabetes mellitus clearly demonstrate the improvement of integrating biomarker uncertainty in the statistical inference.
翻訳日:2022-10-24 02:06:39 公開日:2020-09-01
# ランダムサーフィン再考:PageRankのテレポーテーションモデルを一般化

Random Surfing Revisited: Generalizing PageRank's Teleportation Model ( http://arxiv.org/abs/2008.12916v2 )

ライセンス: Link先を確認
Athanasios N. Nikolakopoulos(参考訳) NCDawareRankは,ネットワークメタ情報の活用を目的とした新しいランキングフレームワークであり,その高次構造機構の側面はPageRankの数学的構造と魅力的な計算特性を保ちながら再検討する。 提案されたモデルの厳密な理論的探索は、堅牢性、計算可能性、およびモデリングの柔軟性と表現性の観点から、具体的な利益をもたらす多くの数学的性質を明らかにしている。 NCDawareRankの理論的に予測された特性を実ネットワークで検証し,ネットワーク中心性尺度としての有効性を示す。

We revisit the Random Surfer model, focusing on its--often overlooked--Teleportation component, and we introduce NCDawareRank; a novel ranking framework designed to exploit network meta-information as well as aspects of its higher-order structural organization in a way that preserves the mathematical structure and the attractive computational characteristics of PageRank. A rigorous theoretical exploration of the proposed model reveals a wealth of mathematical properties that entail tangible benefits in terms of robustness, computability, as well as modeling flexibility and expressiveness. A set of experiments on real-work networks verify the theoretically predicted properties of NCDawareRank, and showcase its effectiveness as a network centrality measure.
翻訳日:2022-10-23 17:28:51 公開日:2020-09-01
# 現代のネットワークにおけるレイテンシとスループットの最適化

Latency and Throughput Optimization in Modern Networks: A Comprehensive Survey ( http://arxiv.org/abs/2009.03715v1 )

ライセンス: Link先を確認
Amir Mirzaeinnia, Mehdi Mirzaeinia, Abdelmounaam Rezgui(参考訳) 現代のアプリケーションは通信遅延やスループットに非常に敏感である。 本稿では,レイテンシ低減とスループット向上に関する主要な試みについて検討する。 これらの方法は、有線ネットワーク、無線ネットワーク、アプリケーション層トランスポート制御、リモートダイレクトメモリアクセス、機械学習ベースのトランスポート制御など、さまざまなネットワークおよび周辺で調査される。

Modern applications are highly sensitive to communication delays and throughput. This paper surveys major attempts on reducing latency and increasing the throughput. These methods are surveyed on different networks and surroundings such as wired networks, wireless networks, application layer transport control, Remote Direct Memory Access, and machine learning based transport control.
翻訳日:2022-10-23 02:06:53 公開日:2020-09-01
# サンプリング攻撃:繰り返しクエリによるメンバシップ推論攻撃の増幅

Sampling Attacks: Amplification of Membership Inference Attacks by Repeated Queries ( http://arxiv.org/abs/2009.00395v1 )

ライセンス: Link先を確認
Shadi Rahimian and Tribhuvanesh Orekondy and Mario Fritz(参考訳) 機械学習モデルは、トレーニングセットのプライバシーを侵害する情報を漏洩することが示されている。 データポイントが被害者モデルのトレーニングに使用されたかどうかを判断する機械学習モデルに対するメンバシップ推論攻撃に注目した。 我々の研究は2つの側面から成り立っている: サンプリング攻撃は、他の標準メンバーシップ敵と異なり、犠牲者モデルのスコアにアクセスできない厳格な制限の下で機能する新しいメンバーシップ推論手法である。 その結果,ラベルのみを発行する被害者モデルはサンプリング攻撃の影響を受けやすく,後進ベクターが提供された場合と比較して,その性能の最大100%を回復できることが分かった。 私たちの研究の別の側面には、最近の2つのメンバーシップ推論攻撃モデルとそれらに対する防御に関する実験結果が含まれています。 防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。 我々は,幅広いデータセットについて実験を行い,敵,防御機構,データセット間の相互作用をよりよく分析する。 提案手法は,提案手法が有用性にほとんど影響を与えないメンバシップ推論攻撃に対して,適切なプライバシ保護を提供する。

Machine learning models have been shown to leak information violating the privacy of their training set. We focus on membership inference attacks on machine learning models which aim to determine whether a data point was used to train the victim model. Our work consists of two sides: We introduce sampling attack, a novel membership inference technique that unlike other standard membership adversaries is able to work under severe restriction of no access to scores of the victim model. We show that a victim model that only publishes the labels is still susceptible to sampling attacks and the adversary can recover up to 100% of its performance compared to when posterior vectors are provided. The other sides of our work includes experimental results on two recent membership inference attack models and the defenses against them. For defense, we choose differential privacy in the form of gradient perturbation during the training of the victim model as well as output perturbation at prediction time. We carry out our experiments on a wide range of datasets which allows us to better analyze the interaction between adversaries, defense mechanism and datasets. We find out that our proposed fast and easy-to-implement output perturbation technique offers good privacy protection for membership inference attacks at little impact on utility.
翻訳日:2022-10-23 02:05:31 公開日:2020-09-01
# TensorDash: 深層ニューラルネットワークトレーニングと推論を加速するスパシティの爆発

TensorDash: Exploiting Sparsity to Accelerate Deep Neural Network Training and Inference ( http://arxiv.org/abs/2009.00748v1 )

ライセンス: Link先を確認
Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Omar Mohamed Awad, Gennady Pekhimenko, Jorge Albericio, and Andreas Moshovos(参考訳) TensorDash(テンソルダッシュ)は、データ並列MACユニットが入力オペランドストリームの空間性を利用することを可能にするハードウェアレベル技術である。 ディープラーニングのためのハードウェアアクセラレータを構成する場合、TensorDashはトレーニングプロセスを高速化し、エネルギー効率も向上する。 TensorDashは、マルチプライヤ入力当たりの8入力多重化器と、面積効率の良いハードウェアスケジューラを組み合わせた低コストでスパースな入力オペランド相互接続である。 インターコネクトはオペランド毎に非常に限られた動きを許容するが、スケジューラは、ニューラルネットワークのアクティベーション、重み、勾配に存在するとき、効果的に空間を抽出できる。 様々なアプリケーションをカバーする広範囲のモデルにおいて、TensorDashはトレーニングプロセスを1.95{\times}$で加速し、さらにエネルギー効率が1.89\times$1.6\times$オンチップとオフチップメモリアクセスを考慮に入れている。 TensorDashはどんなデータタイプでも動作しますが、単精度浮動小数点ユニットとbfloat16でそれを実証します。

TensorDash is a hardware level technique for enabling data-parallel MAC units to take advantage of sparsity in their input operand streams. When used to compose a hardware accelerator for deep learning, TensorDash can speedup the training process while also increasing energy efficiency. TensorDash combines a low-cost, sparse input operand interconnect comprising an 8-input multiplexer per multiplier input, with an area-efficient hardware scheduler. While the interconnect allows a very limited set of movements per operand, the scheduler can effectively extract sparsity when it is present in the activations, weights or gradients of neural networks. Over a wide set of models covering various applications, TensorDash accelerates the training process by $1.95{\times}$ while being $1.89\times$ more energy-efficient, $1.6\times$ more energy efficient when taking on-chip and off-chip memory accesses into account. While TensorDash works with any datatype, we demonstrate it with both single-precision floating-point units and bfloat16.
翻訳日:2022-10-23 02:04:33 公開日:2020-09-01
# 機械学習加速器の調査

Survey of Machine Learning Accelerators ( http://arxiv.org/abs/2009.00993v1 )

ライセンス: Link先を確認
Albert Reuther, Peter Michaleas, Michael Jones, Vijay Gadepally, Siddharth Samsi and Jeremy Kepner(参考訳) 新しい機械学習アクセラレータが毎月発表され、音声認識、ビデオオブジェクト検出、アシスト駆動、多くのデータセンタアプリケーションなど、さまざまなアプリケーション向けにリリースされている。 本稿では,昨年のIEEE-HPEC論文から,AIアクセラレータとプロセッサの調査を更新する。 本稿では,パフォーマンスと消費電力の数値で公表された現在の加速器を収集し,要約する。 性能と電力値は散乱グラフ上にプロットされ、このプロットの傾向から多くの次元と観察が議論され、解析される。 例えば、消費電力、数値精度、推論とトレーニングのプロットには興味深い傾向がある。 今年は、ベクターエンジン、データフローエンジン、ニューロモルフィックデザイン、フラッシュベースのアナログメモリ処理、フォトニックベースの処理など、多くのアーキテクチャや技術で実装された、多くの発表がある。

New machine learning accelerators are being announced and released each month for a variety of applications from speech recognition, video object detection, assisted driving, and many data center applications. This paper updates the survey of of AI accelerators and processors from last year's IEEE-HPEC paper. This paper collects and summarizes the current accelerators that have been publicly announced with performance and power consumption numbers. The performance and power values are plotted on a scatter graph and a number of dimensions and observations from the trends on this plot are discussed and analyzed. For instance, there are interesting trends in the plot regarding power consumption, numerical precision, and inference versus training. This year, there are many more announced accelerators that are implemented with many more architectures and technologies from vector engines, dataflow engines, neuromorphic designs, flash-based analog memory processing, and photonic-based processing.
翻訳日:2022-10-23 02:04:08 公開日:2020-09-01
# A3C学習と残留繰り返しニューラルネットワークを用いた確率エッジクラウド環境の動的スケジューリング

Dynamic Scheduling for Stochastic Edge-Cloud Computing Environments using A3C learning and Residual Recurrent Neural Networks ( http://arxiv.org/abs/2009.02186v1 )

ライセンス: Link先を確認
Shreshth Tuli, Shashikant Ilager, Kotagiri Ramamohanarao and Rajkumar Buyya(参考訳) IoT(Internet-of-Things)ベースのアプリケーションの普及により、モバイルエッジとクラウドリソースの両方をシームレスに活用するFogコンピューティングパラダイムが誕生した。 このような環境でのアプリケーションタスクの効率的なスケジューリングは、制約のあるリソース能力、IoTのモビリティ要因、リソースの不均一性、ネットワーク階層、確率的な振る舞いのために難しい。 xistingヒューリスティックスと強化学習ベースのアプローチは一般化可能性と迅速な適応性に欠けており、この問題を最適に取り組めない。 また、時間的ワークロードパターンを利用できず、集中的なセットアップにのみ適しています。 しかし、非同期アドバンテージ-アクタ-クリティック(a3c)学習は、少ないデータと残留再帰ニューラルネットワーク(r2n2)で動的シナリオに迅速に適応し、モデルパラメータを迅速に更新することが知られている。 そこで我々は,複数のエージェントを並行して分散学習できる,確率的エッジクラウド環境のためのA3Cベースのリアルタイムスケジューラを提案する。 我々はR2N2アーキテクチャを用いて、多数のホストパラメータとタスクパラメータを時間パターンとともにキャプチャし、効率的なスケジューリング決定を提供する。 提案したモデルは適応的であり、アプリケーション要求に応じて異なるハイパーパラメータをチューニングできる。 感度分析によりハイパーパラメータの選択を抽出する。 実世界のデータセットで実施された実験は、最先端のアルゴリズムと比較してエネルギー消費、応答時間、サービスレベルアグリメント、ランニングコストの14.4%、7.74%、31.9%、および4.64%で大幅に改善された。

The ubiquitous adoption of Internet-of-Things (IoT) based applications has resulted in the emergence of the Fog computing paradigm, which allows seamlessly harnessing both mobile-edge and cloud resources. Efficient scheduling of application tasks in such environments is challenging due to constrained resource capabilities, mobility factors in IoT, resource heterogeneity, network hierarchy, and stochastic behaviors. xisting heuristics and Reinforcement Learning based approaches lack generalizability and quick adaptability, thus failing to tackle this problem optimally. They are also unable to utilize the temporal workload patterns and are suitable only for centralized setups. However, Asynchronous-Advantage-Actor-Critic (A3C) learning is known to quickly adapt to dynamic scenarios with less data and Residual Recurrent Neural Network (R2N2) to quickly update model parameters. Thus, we propose an A3C based real-time scheduler for stochastic Edge-Cloud environments allowing decentralized learning, concurrently across multiple agents. We use the R2N2 architecture to capture a large number of host and task parameters together with temporal patterns to provide efficient scheduling decisions. The proposed model is adaptive and able to tune different hyper-parameters based on the application requirements. We explicate our choice of hyper-parameters through sensitivity analysis. The experiments conducted on real-world data set show a significant improvement in terms of energy consumption, response time, Service-Level-Agreement and running cost by 14.4%, 7.74%, 31.9%, and 4.64%, respectively when compared to the state-of-the-art algorithms.
翻訳日:2022-10-23 02:03:53 公開日:2020-09-01
# リニア・クアドラティックゼロ・サム平均場型ゲーム:最適条件と政策最適化

Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions and Policy Optimization ( http://arxiv.org/abs/2009.00578v1 )

ライセンス: Link先を確認
Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun Tan(参考訳) 本稿では,ゼロサム平均場型ゲーム(ZSMFTG)の線形ダイナミクスと2次コストを無限水平割引ユーティリティ関数の下で検討する。 ZSMFTG(ZSMFTG)は、2つの意思決定者によるゲームの一種で、その効用はゼロに等しい。 特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。 ゲームの最適条件は開ループ制御と閉ループ制御の両方で分析され、ナッシュ均衡戦略の明示的な表現が導出される。 さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。 モデルベースの場合、勾配はモデルを用いて正確に計算されるが、サンプルベースではモンテカルロシミュレーションを用いて推定される。 実用関数の収束と2人のプレイヤーの制御を示す数値実験を行った。

In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics and quadratic cost are studied under infinite-horizon discounted utility function. ZSMFTG are a class of games in which two decision makers whose utilities sum to zero, compete to influence a large population of indistinguishable agents. In particular, the case in which the transition and utility functions depend on the state, the action of the controllers, and the mean of the state and the actions, is investigated. The optimality conditions of the game are analysed for both open-loop and closed-loop controls, and explicit expressions for the Nash equilibrium strategies are derived. Moreover, two policy optimization methods that rely on policy gradient are proposed for both model-based and sample-based frameworks. In the model-based case, the gradients are computed exactly using the model, whereas they are estimated using Monte-Carlo simulations in the sample-based case. Numerical experiments are conducted to show the convergence of the utility function as well as the two players' controls.
翻訳日:2022-10-23 02:02:56 公開日:2020-09-01
# 明示的知覚損失を用いた画像超解像

Image Super-Resolution using Explicit Perceptual Loss ( http://arxiv.org/abs/2009.00382v1 )

ライセンス: Link先を確認
Tomoki Yoshida and Kazutoshi Akita and Muhammad Haris and Norimichi Ukita(参考訳) 本稿では,画像生成のための高解像度ネットワークの最適化手法を提案する。 前者のアプローチでは、知覚スコアを改善するために、解釈が困難で暗黙的な関係を持ついくつかの損失関数を使用する。 生成した画像の知覚スコアを提供するために直接訓練された機械学習モデルを利用する方法を示す。 これらのモデルは,解釈が容易な超解像ネットワークの最適化に利用できると考えられる。 さらに,既存の損失の特徴と明確な知覚喪失を解析し,より良い解釈を行う。 実験の結果, 明示的アプローチは他のアプローチよりも高い知覚スコアを示した。 最後に、主観的評価を用いて、視知覚喪失と視覚満足画像の関係を示す。

This paper proposes an explicit way to optimize the super-resolution network for generating visually pleasing images. The previous approaches use several loss functions which is hard to interpret and has the implicit relationships to improve the perceptual score. We show how to exploit the machine learning based model which is directly trained to provide the perceptual score on generated images. It is believed that these models can be used to optimizes the super-resolution network which is easier to interpret. We further analyze the characteristic of the existing loss and our proposed explicit perceptual loss for better interpretation. The experimental results show the explicit approach has a higher perceptual score than other approaches. Finally, we demonstrate the relation of explicit perceptual loss and visually pleasing images using subjective evaluation.
翻訳日:2022-10-23 01:55:59 公開日:2020-09-01
# 知覚深部画像を用いた教師なし単眼反射分離

Unsupervised Single-Image Reflection Separation Using Perceptual Deep Image Priors ( http://arxiv.org/abs/2009.00702v1 )

ライセンス: Link先を確認
Suhong Kim, Hamed RahmaniKhezri, Seyed Mohammad Nourbakhsh and Mohamed Hefeeda(参考訳) 反射はしばしば背景のシーンを妨害することで画質を劣化させる。 これは日常のユーザにとって望ましいものではなく、リフレクションで画像を処理するマルチメディアアプリケーションのパフォーマンスに悪影響を及ぼす。 現在のリフレクション除去法のほとんどは教師付き学習モデルを利用している。 しかし、これらのモデルでは、特に反射を伴う自然画像において、多くの画像ペアをうまく動作させる必要があり、実際は達成が難しい。 本稿では,単像反射分離のための新しい非教師なしフレームワークを提案する。 大きなデータセットから学習する代わりに、ターゲットイメージ上の2つのクロス結合したディープ畳み込みネットワークのパラメータを最適化し、2つの排他的背景層と反射層を生成する。 特に,事前訓練された深層分類ネットワークから抽出した意味的特徴を埋め込み,人間の知覚と類似した意味的分離を行うネットワークの新たなアーキテクチャを設計する。 文献でよく使われているデータセットの定量的および定性的な結果から、我々の手法の性能は少なくとも最先端の教師付き手法と同等であり、時には大規模なトレーニングデータセットを必要としない。 また,本手法は,単一画像からの反射除去に最も近い教師なし手法を有意に上回ることを示した。

Reflections often degrade the quality of the image by obstructing the background scene. This is not desirable for everyday users, and it negatively impacts the performance of multimedia applications that process images with reflections. Most current methods for removing reflections utilize supervised-learning models. However, these models require an extensive number of image pairs to perform well, especially on natural images with reflection, which is difficult to achieve in practice. In this paper, we propose a novel unsupervised framework for single-image reflection separation. Instead of learning from a large dataset, we optimize the parameters of two cross-coupled deep convolutional networks on a target image to generate two exclusive background and reflection layers. In particular, we design a new architecture of the network to embed semantic features extracted from a pre-trained deep classification network, which gives more meaningful separation similar to human perception. Quantitative and qualitative results on commonly used datasets in the literature show that our method's performance is at least on par with the state-of-the-art supervised methods and, occasionally, better without requiring large training datasets. Our results also show that our method significantly outperforms the closest unsupervised method in the literature for removing reflections from single images.
翻訳日:2022-10-23 01:55:29 公開日:2020-09-01
# ラベルなしデータと知識蒸留を用いた糖尿病網膜症の分類

Classification of Diabetic Retinopathy Using Unlabeled Data and Knowledge Distillation ( http://arxiv.org/abs/2009.00982v1 )

ライセンス: Link先を確認
Sajjad Abbasi, Mohsen Hajabdollahi, Pejman Khadivi, Nader Karimi, Roshanak Roshandel, Shahram Shirani, Shadrokh Samavi(参考訳) 知識蒸留は、事前訓練されたモデルから別のモデルへの知識の伝達を可能にする。 しかし、それは制限に悩まされており、2つのモデルに関連する制約はアーキテクチャ的に類似する必要がある。 知識蒸留は、複雑なモデルをより軽いモデルに一般化することで、転送学習に関連するいくつかの欠点に対処する。 しかし、知識の一部は十分な知識蒸留によって蒸留されないことがある。 本稿では,転送学習を用いた新しい知識蒸留手法を提案する。 提案手法は,モデルの全知識をより小さなモデルに転送する。 これを達成するために、ラベルのないデータは教師なしの方法で使われ、知識の最大量を新しいスリムモデルに転送する。 提案手法は,ラベル付きデータが典型的に少ない医療画像解析において有用である。 提案手法は、MessidorとEyePACSを含む2つの公開データセット上で糖尿病網膜症を診断するための画像分類の文脈で評価される。 シミュレーションの結果、このアプローチは複雑なモデルからより軽いモデルに知識を移すのに有効であることが示された。 さらに,非ラベルデータと知識蒸留により,異なる小型モデルの性能が著しく向上することを示す実験結果が得られた。

Knowledge distillation allows transferring knowledge from a pre-trained model to another. However, it suffers from limitations, and constraints related to the two models need to be architecturally similar. Knowledge distillation addresses some of the shortcomings associated with transfer learning by generalizing a complex model to a lighter model. However, some parts of the knowledge may not be distilled by knowledge distillation sufficiently. In this paper, a novel knowledge distillation approach using transfer learning is proposed. The proposed method transfers the entire knowledge of a model to a new smaller one. To accomplish this, unlabeled data are used in an unsupervised manner to transfer the maximum amount of knowledge to the new slimmer model. The proposed method can be beneficial in medical image analysis, where labeled data are typically scarce. The proposed approach is evaluated in the context of classification of images for diagnosing Diabetic Retinopathy on two publicly available datasets, including Messidor and EyePACS. Simulation results demonstrate that the approach is effective in transferring knowledge from a complex model to a lighter one. Furthermore, experimental results illustrate that the performance of different small models is improved significantly using unlabeled data and knowledge distillation.
翻訳日:2022-10-23 01:54:53 公開日:2020-09-01
# 拡張チーム指向問題の複数UAVタスク割り当てのためのベンチマーク

A Benchmark for Multi-UAV Task Assignment of an Extended Team Orienteering Problem ( http://arxiv.org/abs/2009.00363v1 )

ライセンス: Link先を確認
Kun Xiao, Junqi Lu, Ying Nie, Lan Ma, Xiangke Wang, Guohui Wang(参考訳) 異なるアルゴリズムを評価するために,マルチUAVタスク割り当てのベンチマークを示す。 拡張チームオリエンテーリング問題は、ある種のマルチUAVタスク割り当て問題のためにモデル化される。 この問題を解決するために, 遺伝的アルゴリズム, アリコロニー最適化, 粒子群最適化という3つのインテリジェントアルゴリズムが実装されている。 異なる設定の一連の実験を行い、3つのアルゴリズムを評価した。 モデル化された問題と評価結果は、マルチUAVタスク割り当て問題に使用される他のアルゴリズムを評価するために使用されるベンチマークを構成する。

A benchmark for multi-UAV task assignment is presented in order to evaluate different algorithms. An extended Team Orienteering Problem is modeled for a kind of multi-UAV task assignment problem. Three intelligent algorithms, i.e., Genetic Algorithm, Ant Colony Optimization and Particle Swarm Optimization are implemented to solve the problem. A series of experiments with different settings are conducted to evaluate three algorithms. The modeled problem and the evaluation results constitute a benchmark, which can be used to evaluate other algorithms used for multi-UAV task assignment problems.
翻訳日:2022-10-23 01:54:38 公開日:2020-09-01
# 深部強化学習による単線列車スケジューリング問題の解法

Solving the single-track train scheduling problem via Deep Reinforcement Learning ( http://arxiv.org/abs/2009.00433v1 )

ライセンス: Link先を確認
Valerio Agasucci, Giorgio Grani, Leonardo Lamorgese(参考訳) 毎日、鉄道は、鉄道交通の安定性に影響を与えるネットワークと艦隊の両方において、小さな不便を経験する。 障害が発生した場合、遅延はネットワークを伝播し、要求の不一致と、長期的には需要の損失をもたらす。 重大な事態が発生した場合、人間の派遣者は破壊の影響を最小限に抑えるために最善を尽くす義務がある。 残念なことに、人間のオペレーターは、ネットワークの遠い領域で何が起こるかがコントロールゾーンにどう影響するかを限定的に認識している。 近年、意思決定科学は、人間のオペレーターの能力を改善するために、問題を自動解決する手法の開発に注力している。 本稿では,列車発車問題に対処する際の機械学習手法について検討する。 特に2つの異なるQ-Learning法が提案されている。 数値計算の結果,行列に基づく古典線形Q-Learningに対して,これらの手法の優位性を示した。

Every day, railways experience small inconveniences, both on the network and the fleet side, affecting the stability of rail traffic. When a disruption occurs, delays propagate through the network, resulting in demand mismatching and, in the long run, demand loss. When a critical situation arises, human dispatchers distributed over the line have the duty to do their best to minimize the impact of the disruptions. Unfortunately, human operators have a limited depth of perception of how what happens in distant areas of the network may affect their control zone. In recent years, decision science has focused on developing methods to solve the problem automatically, to improve the capabilities of human operators. In this paper, machine learning-based methods are investigated when dealing with the train dispatching problem. In particular, two different Deep Q-Learning methods are proposed. Numerical results show the superiority of these techniques respect to the classical linear Q-Learning based on matrices.
翻訳日:2022-10-23 01:47:25 公開日:2020-09-01
# 容疑者ai:vibraimage、感情認識技術、アルゴリズム不透明性

Suspect AI: Vibraimage, Emotion Recognition Technology, and Algorithmic Opacity ( http://arxiv.org/abs/2009.00502v1 )

ライセンス: Link先を確認
James Wright(参考訳) Vibraimageは、被験者の頭の動きの映像を分析して、被験者の精神的および感情的な状態を定量化するデジタルシステムである。 vibraimageは、ロシア、中国、日本、韓国の警察、原子力発電所運営者、空港警備、精神科医によって使用されており、オリンピック、fifaワールドカップ、g7サミットに配備されている。 しかし、この技術が実際に有効であることを示す確実な証拠は存在しない。 vibraimageは、ロシアとアジアをまたがる最高機密性の高いセキュリティインフラを、どうやって突破する力を得たのか? 最初に感情認識産業の発展を追跡し、vibraimageの開発者やアフィリエイトたちが科学的にこの技術を正当化しようと試みる前に、vibraimageの分離力と企業価値は、透明性を求める社会科学全体の要求の増加とは対照的に、その不透明さによって生み出されていると結論づけた。 疑わしい人や非疑わしい人をアルゴリズムで分類するビブラマジュのようなシステムの増加を表すために、「疑わしいAI」という用語を提案します。 この用語を普及させることは、そのような技術の「読み」に対する還元主義的アプローチに抵抗し、感情、意図、エージェンシーに対する権威を行使するのに役立つかもしれない。

Vibraimage is a digital system that quantifies a subject's mental and emotional state by analysing video footage of the movements of their head. Vibraimage is used by police, nuclear power station operators, airport security and psychiatrists in Russia, China, Japan and South Korea, and has been deployed at an Olympic Games, FIFA World Cup, and G7 Summit. Yet there is no reliable evidence that the technology is actually effective; indeed, many claims made about its effects seem unprovable. What exactly does vibraimage measure, and how has it acquired the power to penetrate the highest profile and most sensitive security infrastructure across Russia and Asia? I first trace the development of the emotion recognition industry, before examining attempts by vibraimage's developers and affiliates scientifically to legitimate the technology, concluding that the disciplining power and corporate value of vibraimage is generated through its very opacity, in contrast to increasing demands across the social sciences for transparency. I propose the term 'suspect AI' to describe the growing number of systems like vibraimage that algorithmically classify suspects / non-suspects, yet are themselves deeply suspect. Popularising this term may help resist such technologies' reductivist approaches to 'reading' -- and exerting authority over -- emotion, intentionality and agency.
翻訳日:2022-10-23 01:47:11 公開日:2020-09-01
# 高等教育データマイニングにおける学生出席データの信頼性の測定

Measuring the Credibility of Student Attendance Data in Higher Education for Data Mining ( http://arxiv.org/abs/2009.00679v1 )

ライセンス: Link先を確認
Mohammed Alsuwaiket, Christian Dawson, Firat Batmaz(参考訳) 教育データマイニング (edm) は、古典データマイニング (dm) の手法を拡大し、教育システムに由来するデータを発見する新しい手法を開発することに関する、発展途上の分野である。 高等教育における学生の出席は、常に古典的な方法で扱われてきたが、教育者は、生徒に関する知識を築き上げている出席や欠席の発生を数えることに頼っている。 この方法は信用できないし、必ずしも生徒のパフォーマンスを示すものではない。 本研究では,抽出した知識を正確かつ信頼性の高い結果の達成を保証する方法で定式化しようとする。 学習システムから収集した学生出席データは,まず無作為性や騒音を取り除くために洗浄され,その後,学生の出席に影響を及ぼす最も重要な特徴を強調するために様々な属性が研究された。 次のステップは、前のステップで選択された属性を考慮に入れた学生参加信頼度(SAC)を測定する方程式を導出することであった。 新たに開発された尺度の信頼性を評価し,その整合性を検討した。 最後に, J48 DM分類法を用いて, SAC値の強度に基づいてモジュールを分類した。 本研究の結果は有望であり, 新たに導出した式を用いて得られた信頼性値は, 学生の出席率の精度, 信頼性, 実測値, およびこれらのモジュールに対する学生の出席率に基づくモジュールの正確な分類を示した。

Educational Data Mining (EDM) is a developing discipline, concerned with expanding the classical Data Mining (DM) methods and developing new methods for discovering the data that originate from educational systems. Student attendance in higher education has always been dealt with in a classical way, educators rely on counting the occurrence of attendance or absence building their knowledge about students as well as modules based on this count. This method is neither credible nor does it necessarily provide a real indication of a student performance. This study tries to formulate the extracted knowledge in a way that guarantees achieving accurate and credible results. Student attendance data, gathered from the educational system, were first cleaned in order to remove any randomness and noise, then various attributes were studied so as to highlight the most significant ones that affect the real attendance of students. The next step was to derive an equation that measures the Student Attendance Credibility (SAC) considering the attributes chosen in the previous step. The reliability of the newly developed measure was then evaluated in order to examine its consistency. Finally, the J48 DM classification technique was utilized in order to classify modules based on the strength of their SAC values. Results of this study were promising, and credibility values achieved using the newly derived formula gave accurate, credible, and real indicators of student attendance, as well as accurate classification of modules based on the credibility of student attendance on those modules.
翻訳日:2022-10-23 01:46:21 公開日:2020-09-01
# クリックから変換へ:長期的な報酬を推奨

From Clicks to Conversions: Recommendation for long-term reward ( http://arxiv.org/abs/2009.00497v1 )

ライセンス: Link先を確認
Philom\`ene Chagniot, Flavian Vasile, David Rohde(参考訳) リコメンダシステムは短期的な報酬のために最適化されることが多く、リコメンデーション(例えばクリック)がリコメンデーションの直後に見られる場合、リコメンデーションは成功と見なされる。 このフレームワークの利点は、合理的な(しかし疑わしい)仮定によって、よく知られた教師付き学習ツールがレコメンデーションタスクに使用できることである。 しかし、売上や保持といった長期的なビジネス指標は無視されることを意味する。 本稿では,recogymシミュレーション環境における長期報酬をモデル化する枠組みを提案する。 我々は,この新しく導入された機能を用いて,コンバージョン最適化推奨の場合にラストクリック帰属スキームによって引き起こされる問題を提示し,最先端の結果をもたらす簡単な拡張を提案する。

Recommender systems are often optimised for short-term reward: a recommendation is considered successful if a reward (e.g. a click) can be observed immediately after the recommendation. The advantage of this framework is that with some reasonable (although questionable) assumptions, it allows familiar supervised learning tools to be used for the recommendation task. However, it means that long-term business metrics, e.g. sales or retention are ignored. In this paper we introduce a framework for modeling long-term rewards in the RecoGym simulation environment. We use this newly introduced functionality to showcase problems introduced by the last-click attribution scheme in the case of conversion-optimized recommendations and propose a simple extension that leads to state-of-the-art results.
翻訳日:2022-10-23 01:45:54 公開日:2020-09-01
# 非構造惑星環境におけるループクロージャー検出のためのガウス過程勾配写像

Gaussian Process Gradient Maps for Loop-Closure Detection in Unstructured Planetary Environments ( http://arxiv.org/abs/2009.00221v1 )

ライセンス: Link先を確認
Cedric Le Gentil, Mallikarjuna Vayugundla, Riccardo Giubilato, Wolfgang St\"urzl, Teresa Vidal-Calleja, Rudolph Triebel(参考訳) 以前にマップされた位置を認識する能力は、自律システムにとって不可欠な機能である。 非構造的な惑星のような環境は、地形の類似性のためにこれらのシステムに大きな課題をもたらす。 その結果、視覚的外観の曖昧さにより、最先端の視覚的位置認識アプローチは、都市や人工環境よりも効果が低い。 本稿では,空間情報のみを用いたループ閉鎖問題の解法を提案する。 重要なアイデアは、地形の標高マップの新たな連続的かつ確率的表現を使用することである。 環境の3次元点雲が与えられると、提案手法はガウス過程(gp)回帰を線形作用素で活用し、地形高度情報の連続勾配マップを生成する。 従来の画像登録技術は、マッチ候補を探すために使われる。 勾配図の空間特性(SE(2)登録)とGP表現の確率的性質を両立させることによりループ閉包を検証する。 サブマップに基づくローカライゼーションとマッピングのフレームワークを用いて,提案手法の有効性を示す。 このパイプラインの性能は、ステレオカメラを搭載し、モロッコとエトナ山で挑戦的で非構造な惑星のような環境をナビゲートするローバーの実際のデータを用いて評価され、ベンチマークされる。

The ability to recognize previously mapped locations is an essential feature for autonomous systems. Unstructured planetary-like environments pose a major challenge to these systems due to the similarity of the terrain. As a result, the ambiguity of the visual appearance makes state-of-the-art visual place recognition approaches less effective than in urban or man-made environments. This paper presents a method to solve the loop closure problem using only spatial information. The key idea is to use a novel continuous and probabilistic representations of terrain elevation maps. Given 3D point clouds of the environment, the proposed approach exploits Gaussian Process (GP) regression with linear operators to generate continuous gradient maps of the terrain elevation information. Traditional image registration techniques are then used to search for potential matches. Loop closures are verified by leveraging both the spatial characteristic of the elevation maps (SE(2) registration) and the probabilistic nature of the GP representation. A submap-based localization and mapping framework is used to demonstrate the validity of the proposed approach. The performance of this pipeline is evaluated and benchmarked using real data from a rover that is equipped with a stereo camera and navigates in challenging, unstructured planetary-like environments in Morocco and on Mt. Etna.
翻訳日:2022-10-23 01:44:57 公開日:2020-09-01
# オフライン手書き線生成のためのテキストとスタイル条件付きGAN

Text and Style Conditioned GAN for Generation of Offline Handwriting Lines ( http://arxiv.org/abs/2009.00678v1 )

ライセンス: Link先を確認
Brian Davis, Chris Tensmeyer, Brian Price, Curtis Wigington, Bryan Morse, Rajiv Jain(参考訳) 本稿では,任意のテキストと潜在型ベクトルに条件付き手書き行の画像を生成するためのGANを提案する。 ストロークポイントやシングルワード画像を生成する以前の作業とは異なり、このモデルはオフライン手書きの全行を生成する。 モデルは、スタイルベクトルを用いて文字幅を決定することにより、可変サイズの画像を生成する。 ジェネレータネットワークはganとオートエンコーダ技術を用いてスタイルを学習し、事前訓練された手書き認識ネットワークを使用して正当性を誘導する。 人間の評価器を用いた研究は、モデルが人間によって書かれたように見える画像を生成することを示した。 訓練後、エンコーダネットワークは画像からスタイルベクトルを抽出し、類似したスタイルの画像を任意のテキストで生成することができる。

This paper presents a GAN for generating images of handwritten lines conditioned on arbitrary text and latent style vectors. Unlike prior work, which produce stroke points or single-word images, this model generates entire lines of offline handwriting. The model produces variable-sized images by using style vectors to determine character widths. A generator network is trained with GAN and autoencoder techniques to learn style, and uses a pre-trained handwriting recognition network to induce legibility. A study using human evaluators demonstrates that the model produces images that appear to be written by a human. After training, the encoder network can extract a style vector from an image, allowing images in a similar style to be generated, but with arbitrary text.
翻訳日:2022-10-23 01:38:12 公開日:2020-09-01
# iris liveness detection competition (livdet-iris) - 2020年版

Iris Liveness Detection Competition (LivDet-Iris) -- The 2020 Edition ( http://arxiv.org/abs/2009.00749v1 )

ライセンス: Link先を確認
Priyanka Das, Joseph McGrath, Zhaoyuan Fang, Aidan Boyd, Ganghee Jang, Amir Mohammadi, Sandip Purnapatra, David Yambay, S\'ebastien Marcel, Mateusz Trokielewicz, Piotr Maciejewicz, Kevin Bowyer, Adam Czajka, Stephanie Schuckers, Juan Tapia, Sebastian Gonzalez, Meiling Fang, Naser Damer, Fadi Boutros, Arjan Kuijper, Renu Sharma, Cunjian Chen, Arun Ross(参考訳) 2013年にスタートしたlivdet-irisは、irisプレゼンテーションアタック検出(pad)の進歩を評価し報告することを目的として、学界と業界に開放された国際コンペティションシリーズである。 本稿では,第4回大会であるLivDet-Iris 2020の結果を紹介する。 今年のコンペティションではいくつかの新しい要素が紹介された。 (a)新しいタイプの攻撃(画面に表示されたサンプル、キャダバー目、義肢目)を組み込んだもの b) livdet-iris は現在,バイオメトリックス評価およびテスト (beat)(https://www.idiap.ch/software/beat/) による,新たなアルゴリズムの再現性とベンチマークを継続的に行うためのオープンソースプラットフォームを通じて,誰でも利用可能なテストプロトコルである。 (c) 提出されたエントリと3つのベースラインメソッド(ノートルダム大学とミシガン州立大学が共同開発した)と、パブリックドメインで利用可能な3つのオープンソースアイリスPADメソッドのパフォーマンス比較。 競技の最高成績は、重量平均apcerが59.10\%、bpcerが0.46\%と5つの攻撃タイプで報告された。 本稿では,多数のプレゼンテーションアタック機器を用いたアイリスパッドの最近の評価について述べる。

Launched in 2013, LivDet-Iris is an international competition series open to academia and industry with the aim to assess and report advances in iris Presentation Attack Detection (PAD). This paper presents results from the fourth competition of the series: LivDet-Iris 2020. This year's competition introduced several novel elements: (a) incorporated new types of attacks (samples displayed on a screen, cadaver eyes and prosthetic eyes), (b) initiated LivDet-Iris as an on-going effort, with a testing protocol available now to everyone via the Biometrics Evaluation and Testing (BEAT)(https://www.idiap.ch/software/beat/) open-source platform to facilitate reproducibility and benchmarking of new algorithms continuously, and (c) performance comparison of the submitted entries with three baseline methods (offered by the University of Notre Dame and Michigan State University), and three open-source iris PAD methods available in the public domain. The best performing entry to the competition reported a weighted average APCER of 59.10\% and a BPCER of 0.46\% over all five attack types. This paper serves as the latest evaluation of iris PAD on a large spectrum of presentation attack instruments.
翻訳日:2022-10-23 01:37:51 公開日:2020-09-01
# ZooBuilder:合成データを用いた四足歩行者の2次元および3次元姿勢推定

ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic Data ( http://arxiv.org/abs/2009.05389v1 )

ライセンス: Link先を確認
Abassin Sourou Fangbemi, Yi Fei Lu, Mao Yuan Xu, Xiao Wu Luo, Alexis Rolland, Chedy Raissi(参考訳) 本研究は,キーフレームアニメーションを用いた動物の2次元および3次元ポーズ推定のための合成トレーニングデータを生成する新しい手法を提案する。 野生動物のためのアニメーション作成プロセスの自動化を目的として,複数の2次元および3次元ポーズ推定モデルを合成データでトレーニングし,zoobuilderと呼ばれるエンドツーエンドパイプラインを設置した。 パイプラインは野生の動物の映像を入力し、動物の骨格の各関節に対して対応する2dおよび3d座標を生成する。 このアプローチでは,野生生物のアニメーション作成に使用できるモーションキャプチャデータを生成する。

This work introduces a novel strategy for generating synthetic training data for 2D and 3D pose estimation of animals using keyframe animations. With the objective to automate the process of creating animations for wildlife, we train several 2D and 3D pose estimation models with synthetic data, and put in place an end-to-end pipeline called ZooBuilder. The pipeline takes as input a video of an animal in the wild, and generates the corresponding 2D and 3D coordinates for each joint of the animal's skeleton. With this approach, we produce motion capture data that can be used to create animations for wildlife.
翻訳日:2022-10-23 01:37:11 公開日:2020-09-01
# 発声・誤聴:発声音声の復号化

Hearings and mishearings: decrypting the spoken word ( http://arxiv.org/abs/2009.00429v1 )

ライセンス: Link先を確認
Anita Mehta, Jean-Marc Luck(参考訳) 本研究では,誤聴の有無を考慮した個々の単語の音声認識モデルを提案する。 この表現論的アプローチは、言語学で使われる概念に基づいており、言語にまたがる普遍的な形式主義を提供する。 本稿では,単語長分布の効率的な2パラメータ形式を提案し,単語認識のモデリングに用いた誤聴の簡単な表現を紹介した。 文脈のないシナリオでは、単語を部分的に入力すると、単語の完全な形を正確に推測することができる。 モデルパラメータの観点から,誤聴が発生しない場合の予測閾値を定量的に推定する。 予想通り、十分な数の誤聴がある場合、予測効果全体が消失する。 音声知覚問題に対する我々の世界的アプローチは、最適化問題の精神にある。 例えば、単語長がしきい値以下で、静的な遷移と同一視でき、そうでなければ難しい場合には、音声認識は容易であることを示す。 これを単語認識のダイナミクスに拡張し、個別、孤立した誤聴と連続した誤聴のクラスターの区別を強調する直感的なアプローチを提案する。 少なくともあるパラメータ範囲では、静的遷移に達する前に動的遷移が現れるが、これは複雑なシステムの他の多くの例と同様である。

We propose a model of the speech perception of individual words in the presence of mishearings. This phenomenological approach is based on concepts used in linguistics, and provides a formalism that is universal across languages. We put forward an efficient two-parameter form for the word length distribution, and introduce a simple representation of mishearings, which we use in our subsequent modelling of word recognition. In a context-free scenario, word recognition often occurs via anticipation when, part-way into a word, we can correctly guess its full form. We give a quantitative estimate of this anticipation threshold when no mishearings occur, in terms of model parameters. As might be expected, the whole anticipation effect disappears when there are sufficiently many mishearings. Our global approach to the problem of speech perception is in the spirit of an optimisation problem. We show for instance that speech perception is easy when the word length is less than a threshold, to be identified with a static transition, and hard otherwise. We extend this to the dynamics of word recognition, proposing an intuitive approach highlighting the distinction between individual, isolated mishearings and clusters of contiguous mishearings. At least in some parameter range, a dynamical transition is manifest well before the static transition is reached, as is the case for many other examples of complex systems.
翻訳日:2022-10-23 01:37:01 公開日:2020-09-01
# ベクトル空間密度からの文書類似性

Document Similarity from Vector Space Densities ( http://arxiv.org/abs/2009.00672v1 )

ライセンス: Link先を確認
Ilia Rushkin(参考訳) 本研究では,密度類似度(ds)法と呼ばれるテキスト文書間の類似度を計算的に推定する手法を提案する。 この方法は、高次元ユークリッド空間に埋め込まれた単語と、カーネル回帰に基づいており、単語間の意味関係を考慮に入れる。 この手法の精度は最先端の手法とほぼ同じであるが,高速化は極めて重要である。 さらに,top-k精度メトリクスの一般化版と,類似度モデル間の合意のjaccardメトリックを導入する。

We propose a computationally light method for estimating similarities between text documents, which we call the density similarity (DS) method. The method is based on a word embedding in a high-dimensional Euclidean space and on kernel regression, and takes into account semantic relations among words. We find that the accuracy of this method is virtually the same as that of a state-of-the-art method, while the gain in speed is very substantial. Additionally, we introduce generalized versions of the top-k accuracy metric and of the Jaccard metric of agreement between similarity models.
翻訳日:2022-10-23 01:36:17 公開日:2020-09-01
# イベントシーケンスデータの視覚的因果分析

Visual Causality Analysis of Event Sequence Data ( http://arxiv.org/abs/2009.00219v1 )

ライセンス: Link先を確認
Zhuochen Jin, Shunan Guo, Nan Chen, Daniel Weiskopf, David Gotz, Nan Cao(参考訳) 因果性は複雑なシステムの背後にあるメカニズムを理解し、意図した結果につながる意思決定に不可欠である。 イベントシーケンスデータは、電子健康記録、Webクリックストリーム、金融取引など、多くの現実世界のプロセスから広く収集され、イベントタイプ間の因果関係を反映した大量の情報を送信する。 残念なことに、観測された事象列から因果関係を回復することは困難であり、不均一かつ高次元の事象変数は、限られた観測から推測しにくい、かなり複雑な事象励起機構としばしば結びついている。 多くの既存の自動因果解析技術は説明性に乏しく、十分な量の人間の知識を含まない。 本稿では,イベントシーケンスデータの因果関係を視覚的に解析する手法を提案する。 我々は,Hawkesプロセス上のGranger因果解析アルゴリズムを拡張し,ユーザフィードバックを因果モデルの改良に組み込む。 この可視化システムは、ボトムアップ因果探索、反復因果検証と精細化、および新しい視覚化と相互作用のセットによる因果比較をサポートする対話型因果分析フレームワークを含む。 システムの有用性を示すために,ユーザフィードバック機構によるモデル改善の定量的評価と,異なるアプリケーション領域におけるケーススタディによる質的評価の2つの形態を報告した。

Causality is crucial to understanding the mechanisms behind complex systems and making decisions that lead to intended outcomes. Event sequence data is widely collected from many real-world processes, such as electronic health records, web clickstreams, and financial transactions, which transmit a great deal of information reflecting the causal relations among event types. Unfortunately, recovering causalities from observational event sequences is challenging, as the heterogeneous and high-dimensional event variables are often connected to rather complex underlying event excitation mechanisms that are hard to infer from limited observations. Many existing automated causal analysis techniques suffer from poor explainability and fail to include an adequate amount of human knowledge. In this paper, we introduce a visual analytics method for recovering causalities in event sequence data. We extend the Granger causality analysis algorithm on Hawkes processes to incorporate user feedback into causal model refinement. The visualization system includes an interactive causal analysis framework that supports bottom-up causal exploration, iterative causal verification and refinement, and causal comparison through a set of novel visualizations and interactions. We report two forms of evaluation: a quantitative evaluation of the model improvements resulting from the user-feedback mechanism, and a qualitative evaluation through case studies in different application domains to demonstrate the usefulness of the system.
翻訳日:2022-10-23 01:36:08 公開日:2020-09-01
# PlotThread: 強化学習による表現力のあるストーリーラインの可視化

PlotThread: Creating Expressive Storyline Visualizations using Reinforcement Learning ( http://arxiv.org/abs/2009.00249v1 )

ライセンス: Link先を確認
Tan Tang, Renzhong Li, Xinke Wu, Shuhan Liu, Johannes Knittel, Steffen Koch, Thomas Ertl, Lingyun Yu, Peiran Ren, and Yingcai Wu(参考訳) ストーリーライン・ヴィジュアライゼーションはプロットの進化を示し、キャラクター間の景色の相互作用を明らかにする効果的な手段である。 しかし、美的目標と物語的制約のバランスをとる必要があるため、ストーリーラインの可視化設計は難しい課題である。 審美的かつ合理的なレイアウトを創出する上で,最適化に基づく手法が大幅に改善されているにもかかわらず,既存の(半)自動手法はいまだに限られている。 1)ストーリーラインデザイン空間の効率的な探索と課題 2)ストーリーラインレイアウトの柔軟なカスタマイズ。 本研究では,デザイン空間を効率的に探索し,最適なストーリーラインを生成するAIエージェントを訓練するための強化学習フレームワークを提案する。 このフレームワークをベースとしたPlotThreadは,フレキシブルなインタラクションセットを統合し,ストーリーラインの可視化を簡単にカスタマイズできるオーサリングツールである。 AIエージェントをオーサリングプロセスにシームレスに統合するために,エージェントとデザイナが同一のキャンバス上で作業することで,ストーリーラインの協調設計を促進する,混合開始型アプローチを採用する。 定性的かつ定量的な実験を通して強化学習モデルを評価し,PlotThread の使用例の集合を実演する。

Storyline visualizations are an effective means to present the evolution of plots and reveal the scenic interactions among characters. However, the design of storyline visualizations is a difficult task as users need to balance between aesthetic goals and narrative constraints. Despite that the optimization-based methods have been improved significantly in terms of producing aesthetic and legible layouts, the existing (semi-) automatic methods are still limited regarding 1) efficient exploration of the storyline design space and 2) flexible customization of storyline layouts. In this work, we propose a reinforcement learning framework to train an AI agent that assists users in exploring the design space efficiently and generating well-optimized storylines. Based on the framework, we introduce PlotThread, an authoring tool that integrates a set of flexible interactions to support easy customization of storyline visualizations. To seamlessly integrate the AI agent into the authoring process, we employ a mixed-initiative approach where both the agent and designers work on the same canvas to boost the collaborative design of storylines. We evaluate the reinforcement learning model through qualitative and quantitative experiments and demonstrate the usage of PlotThread using a collection of use cases.
翻訳日:2022-10-23 01:35:46 公開日:2020-09-01
# LiftFormer:注意モデルを用いた3次元人物姿勢推定

LiftFormer: 3D Human Pose Estimation using attention models ( http://arxiv.org/abs/2009.00348v1 )

ライセンス: Link先を確認
Adrian Llopart(参考訳) 人間の関節の3D位置を推定する手法は近年広く研究されている。 とくに強調されたのは、2次元データ(キーポイント)を3Dに外挿する新しい方法、すなわち人間の骨格に関連する関節の根相対座標を予測することである。 最新の研究トレンドは、Transformer Encoderが時間情報の集約を以前のアプローチよりも大幅にブロックすることを証明している。 そこで本稿では,映像中の人間のポーズの順序付けに注意機構を用いた時間情報を活用することで,これらのモデルを用いてより正確な3次元予測を行う。 本手法は,Human3.6Mにおける2次元キーポイント予測器の0.3 mm (44.8 MPJPE, 0.7%改善) と2mm (MPJPE: 31.9, 8.4%改善) の2次元真理入力の双方を用いた場合,文献の先行結果よりも一貫して優れていた。 また、10.5 P-MPJPE (22.2%の削減)でHumanEva-Iデータセットの最先端のパフォーマンスも達成している。 モデル内のパラメータの数は調整が容易で、現在の手法(16.95Mと11.25M)よりも小さい(9.5M)。 したがって、3dリフトングモデルの精度は他のエンドツーエンドまたはsmpl法よりも高く、多くのマルチビュー法に匹敵する。

Estimating the 3D position of human joints has become a widely researched topic in the last years. Special emphasis has gone into defining novel methods that extrapolate 2-dimensional data (keypoints) into 3D, namely predicting the root-relative coordinates of joints associated to human skeletons. The latest research trends have proven that the Transformer Encoder blocks aggregate temporal information significantly better than previous approaches. Thus, we propose the usage of these models to obtain more accurate 3D predictions by leveraging temporal information using attention mechanisms on ordered sequences human poses in videos. Our method consistently outperforms the previous best results from the literature when using both 2D keypoint predictors by 0.3 mm (44.8 MPJPE, 0.7% improvement) and ground truth inputs by 2mm (MPJPE: 31.9, 8.4% improvement) on Human3.6M. It also achieves state-of-the-art performance on the HumanEva-I dataset with 10.5 P-MPJPE (22.2% reduction). The number of parameters in our model is easily tunable and is smaller (9.5M) than current methodologies (16.95M and 11.25M) whilst still having better performance. Thus, our 3D lifting model's accuracy exceeds that of other end-to-end or SMPL approaches and is comparable to many multi-view methods.
翻訳日:2022-10-23 01:28:38 公開日:2020-09-01
# メタラーニングを用いたメモリビジョンVoice屋内ナビゲーションのためのマルチモーダルアグリゲーション手法

Multimodal Aggregation Approach for Memory Vision-Voice Indoor Navigation with Meta-Learning ( http://arxiv.org/abs/2009.00402v1 )

ライセンス: Link先を確認
Liqi Yan and Dongfang Liu and Yaoxian Song and Changbin Yu(参考訳) 視覚と音声はエージェントの相互作用と学習にとって重要な鍵である。 本稿では,ロボットの環境理解を高めるために,音声コマンドを受信し,視覚的観察のマルチモーダル情報を分析する,新しい室内ナビゲーションモデルである Memory Vision-Voice Indoor Navigation (MVV-IN) を提案する。 単眼カメラで撮影された1枚のrgb画像を利用する。 また,エージェントを重要領域に集中させるために自己注意機構を適用した。 メモリは,特定のタスクを不必要に繰り返すことを避けるために重要であり,新たなシーンに適切に適応するためにはメタラーニングを利用する。 視覚観察から抽出した各種機能について実験を行った。 比較実験により,本手法は最先端のベースラインより優れていることが示された。

Vision and voice are two vital keys for agents' interaction and learning. In this paper, we present a novel indoor navigation model called Memory Vision-Voice Indoor Navigation (MVV-IN), which receives voice commands and analyzes multimodal information of visual observation in order to enhance robots' environment understanding. We make use of single RGB images taken by a first-view monocular camera. We also apply a self-attention mechanism to keep the agent focusing on key areas. Memory is important for the agent to avoid repeating certain tasks unnecessarily and in order for it to adapt adequately to new scenes, therefore, we make use of meta-learning. We have experimented with various functional features extracted from visual observation. Comparative experiments prove that our methods outperform state-of-the-art baselines.
翻訳日:2022-10-23 01:28:12 公開日:2020-09-01
# プル不可視の高レベル記述と性能評価

A High-Level Description and Performance Evaluation of Pupil Invisible ( http://arxiv.org/abs/2009.00508v1 )

ライセンス: Link先を確認
Marc Tonsen, Chris Kay Baumann, Kai Dierkes(参考訳) ヘッドマウントアイトラッカーは、制約のない環境で信頼できる視線データに便利なアクセスを約束する。 しかし、いくつかの制限があるため、多くの場合、彼らはこの約束を部分的にしか達成できない。 以下は以下のとおりである。 (i)アイトラッカーの使用ごとに装置の設定及び校正を行う必要があること。 (二 被検者の頭上の視線追跡者の屋外照明条件、回避不能な滑落等の摂動に対する視線推定結果の頑健さの欠如。) (iii)現在のヘッドマウントアイトラッカーの不自然な外観による社会的ぎこちないによる行動の歪み。 最近、intercent labsは、これらの制限に対処するために設計されたヘッドマウントアイトラッカーである、瞳孔不可視眼鏡をリリースした。 本稿では,視線推定能力の広範な評価を行う。 そこで,我々は,瞳孔視眼鏡の実際の使用を忠実に表現することを目的としたデータ収集プロトコルと評価スキームを設計した。 特に,平均角精度以上の視線推定精度を計測するための幾何学的枠組みを開発した。 瞳孔が見えない眼鏡は、キャリブレーションを必要とせず、屋外の照明条件やヘッドセットの滑りなど、摂動に頑健な視線推定を提供する。

Head-mounted eye trackers promise convenient access to reliable gaze data in unconstrained environments. Due to several limitations, however, often they can only partially deliver on this promise. Among those are the following: (i) the necessity of performing a device setup and calibration prior to every use of the eye tracker, (ii) a lack of robustness of gaze-estimation results against perturbations, such as outdoor lighting conditions and unavoidable slippage of the eye tracker on the head of the subject, and (iii) behavioral distortion resulting from social awkwardness, due to the unnatural appearance of current head-mounted eye trackers. Recently, Pupil Labs released Pupil Invisible glasses, a head-mounted eye tracker engineered to tackle these limitations. Here, we present an extensive evaluation of its gaze-estimation capabilities. To this end, we designed a data-collection protocol and evaluation scheme geared towards providing a faithful portrayal of the real-world usage of Pupil Invisible glasses. In particular, we develop a geometric framework for gauging gaze-estimation accuracy that goes beyond reporting mean angular accuracy. We demonstrate that Pupil Invisible glasses, without the need of a calibration, provide gaze estimates which are robust to perturbations, including outdoor lighting conditions and slippage of the headset.
翻訳日:2022-10-23 01:27:59 公開日:2020-09-01
# ベクトル場データモデリングに関する小特集号によせて

A Short Review on Data Modelling for Vector Fields ( http://arxiv.org/abs/2009.00577v1 )

ライセンス: Link先を確認
Jun Li, Wanrong Hong, Yusheng Xiang(参考訳) 統計原理に基づく機械学習手法は、幅広いデータ分析と分析タスクを扱うことに非常に成功している。 従来のデータモデルは、主に独立した同一分散データに関係している。 近年、畳み込み層やスキップ接続などの効果的な構造を備えたディープニューラルネットワークを用いたエンドツーエンドモデリングスキームの成功により、自然言語、画像、ビデオなど、より高度で構造化された実用的なデータの拡張が可能になる。 アプリケーション側では、ベクトル場は経験的科学において非常に有用なデータであり、例えば3次元ベクトル場を用いた3次元点雲の非パラメトリック変換、地球科学における流体の流れのモデリング、物理場のモデリングなど、信号処理にも有用である。 本稿では,ベクトルデータ表現,空間データの予測モデル,コンピュータビジョン,信号処理,経験科学の応用など,ベクトル場の最近の計算ツールについて述べる。

Machine learning methods based on statistical principles have proven highly successful in dealing with a wide variety of data analysis and analytics tasks. Traditional data models are mostly concerned with independent identically distributed data. The recent success of end-to-end modelling scheme using deep neural networks equipped with effective structures such as convolutional layers or skip connections allows the extension to more sophisticated and structured practical data, such as natural language, images, videos, etc. On the application side, vector fields are an extremely useful type of data in empirical sciences, as well as signal processing, e.g. non-parametric transformations of 3D point clouds using 3D vector fields, the modelling of the fluid flow in earth science, and the modelling of physical fields. This review article is dedicated to recent computational tools of vector fields, including vector data representations, predictive model of spatial data, as well as applications in computer vision, signal processing, and empirical sciences.
翻訳日:2022-10-23 01:27:18 公開日:2020-09-01
# NPRportrait 1.0: ポートレイトの非フォトリアリスティックレンダリングのための3レベルベンチマーク

NPRportrait 1.0: A Three-Level Benchmark for Non-Photorealistic Rendering of Portraits ( http://arxiv.org/abs/2009.00633v1 )

ライセンス: Link先を確認
Paul L. Rosin, Yu-Kun Lai, David Mould, Ran Yi, Itamar Berger, Lars Doyle, Seungyong Lee, Chuan Li, Yong-Jin Liu, Amir Semmo, Ariel Shamir, Minjung Son, Holger Winnemoller(参考訳) 画像ベースの非フォトリアリスティックレンダリング(npr)や、特にポートレート画像のスタイリゼーションにおける近年の活発化にもかかわらず、ニューラルスタイル転送の出現により、この分野のパフォーマンス評価の状況は、特にコンピュータビジョンや機械学習コミュニティの規範と比較して限定されている。 残念ながら、イメージスタイリングを評価するタスクは、主観的、知覚的、審美的な側面を含むため、今のところ明確に定義されていない。 そこで,本研究では,新しい3段階のベンチマークデータセットを,スタイリングされたポートレート画像の評価のために提案する。 厳密な基準が構築に使われ、その一貫性はユーザ研究によって検証された。 さらに、異なるベンチマークレベルと、顔の特徴に関するユーザー研究の注釈を利用するポートレートスタイライゼーションアルゴリズムを評価するための新しい手法が開発されている。 我々は,新しいベンチマークデータセットを用いて,多種多様な画像スタイリング手法(ポートレート固有および汎用の両方,従来のNPRアプローチとニューラルスタイル転送の両方)の評価を行う。

Despite the recent upsurge of activity in image-based non-photorealistic rendering (NPR), and in particular portrait image stylisation, due to the advent of neural style transfer, the state of performance evaluation in this field is limited, especially compared to the norms in the computer vision and machine learning communities. Unfortunately, the task of evaluating image stylisation is thus far not well defined, since it involves subjective, perceptual and aesthetic aspects. To make progress towards a solution, this paper proposes a new structured, three level, benchmark dataset for the evaluation of stylised portrait images. Rigorous criteria were used for its construction, and its consistency was validated by user studies. Moreover, a new methodology has been developed for evaluating portrait stylisation algorithms, which makes use of the different benchmark levels as well as annotations provided by user studies regarding the characteristics of the faces. We perform evaluation for a wide variety of image stylisation methods (both portrait-specific and general purpose, and also both traditional NPR approaches and neural style transfer) using the new benchmark dataset.
翻訳日:2022-10-23 01:26:57 公開日:2020-09-01
# ビュー不変動作認識

View-invariant action recognition ( http://arxiv.org/abs/2009.00638v1 )

ライセンス: Link先を確認
Yogesh S Rawat, Shruti Vyas(参考訳) 人間の行動認識はコンピュータビジョンの重要な問題である。 監視、人間とコンピュータのインタラクション、拡張現実、ビデオインデクシング、検索といった幅広い応用がある。 人間の行動によって生じる時空間的外観の変化パターンは、その動作を識別するための鍵となる。 我々は、人間の行動の視覚的表現を学ぶために、時空間的外観のこのダイナミクスを探索する研究を数多く見てきた。 しかし, 行動認識の研究の多くは, 共通の視点に焦点をあてており, 視点の変化がある場合, これらのアプローチはうまく機能しない。 人間の行動は3次元の環境で行われ、与えられた視点からビデオとして捉えた時に2次元空間に投影される。 したがって、アクションは、異なる視点から異なる時空間的な外観を持つ。 ビュー不変行動認識の研究はこの問題に対処し、目に見えない視点から人間の行動を認識することに焦点を当てている。

Human action recognition is an important problem in computer vision. It has a wide range of applications in surveillance, human-computer interaction, augmented reality, video indexing, and retrieval. The varying pattern of spatio-temporal appearance generated by human action is key for identifying the performed action. We have seen a lot of research exploring this dynamics of spatio-temporal appearance for learning a visual representation of human actions. However, most of the research in action recognition is focused on some common viewpoints, and these approaches do not perform well when there is a change in viewpoint. Human actions are performed in a 3-dimensional environment and are projected to a 2-dimensional space when captured as a video from a given viewpoint. Therefore, an action will have a different spatio-temporal appearance from different viewpoints. The research in view-invariant action recognition addresses this problem and focuses on recognizing human actions from unseen viewpoints.
翻訳日:2022-10-23 01:26:35 公開日:2020-09-01
# 衛星画像データセットと機械学習データモデルを用いた未開発地域のインフラ変化評価

Utilizing Satellite Imagery Datasets and Machine Learning Data Models to Evaluate Infrastructure Change in Undeveloped Regions ( http://arxiv.org/abs/2009.00185v1 )

ライセンス: Link先を確認
Kyle McCullough, Andrew Feng, Meida Chen, Ryan McAlinden(参考訳) グローバル化経済の世界では、地球発展途上国におけるインフラ・建設計画の背景にある目的を理解することが重要である。 このようなプロジェクトの資金がアフリカ大陸の大部分で発生しているように、外部からの資金源でなければならない場合、これは極めて重要である。 画像分析でこれらの領域を研究する場合、地上および空中のカバレッジは存在していないか、一般的に取得されていないかのいずれかである。 しかし、多くの商用、民間、政府の衛星の画像は、グローバルなカバレッジを持つ巨大なデータセットを生成し、機械学習アルゴリズムとニューラルネットワークを使って採掘、処理できる地理空間資源をコンパイルしている。 欠点は、これらの地理空間データ資源の大部分は、衛星画像データを取得する際の要求と処理の計画の迅速な解析と決定が難しいため、技術的な停滞状態にあることである。 この研究の目的は、鉄道などの大規模インフラプロジェクトの自動監視により、建設イニシアチブが行うべき方向を定義し予測する信頼できるメトリクスを判断し、狭義の衛星画像要求による直接監視を可能にすることである。 利用可能な衛星データを用いて3Dメッシュとデジタル表面モデル(DSM)を作成することにより、輸送経路を効果的に予測できることを期待する。 大規模輸送インフラが予測モデリングによって得る潜在的な方向を理解することで、特に画像カバレッジが制限された領域において、進捗の追跡、理解、監視がより容易になる。

In the globalized economic world, it has become important to understand the purpose behind infrastructural and construction initiatives occurring within developing regions of the earth. This is critical when the financing for such projects must be coming from external sources, as is occurring throughout major portions of the African continent. When it comes to imagery analysis to research these regions, ground and aerial coverage is either non-existent or not commonly acquired. However, imagery from a large number of commercial, private, and government satellites have produced enormous datasets with global coverage, compiling geospatial resources that can be mined and processed using machine learning algorithms and neural networks. The downside is that a majority of these geospatial data resources are in a state of technical stasis, as it is difficult to quickly parse and determine a plan for request and processing when acquiring satellite image data. A goal of this research is to allow automated monitoring for largescale infrastructure projects, such as railways, to determine reliable metrics that define and predict the direction construction initiatives could take, allowing for a directed monitoring via narrowed and targeted satellite imagery requests. By utilizing photogrammetric techniques on available satellite data to create 3D Meshes and Digital Surface Models (DSM) we hope to effectively predict transport routes. In understanding the potential directions that largescale transport infrastructure will take through predictive modeling, it becomes much easier to track, understand, and monitor progress, especially in areas with limited imagery coverage.
翻訳日:2022-10-23 01:21:14 公開日:2020-09-01
# 物体検出に基づく可変量子化処理

Object Detection-Based Variable Quantization Processing ( http://arxiv.org/abs/2009.00189v1 )

ライセンス: Link先を確認
Likun Liu, Hua Qi(参考訳) 本稿では,既存のエンコーダをコンテンツ認識できる従来の画像およびビデオエンコーダのプリプロセッシング手法を提案する。 我々のプロセスを通じて、出力サイズを増大させることなく、従来のエンコーダにより高い品質パラメータを設定することができる。 静止フレームまたは画像は、まずオブジェクト検出器を通過します。 検出結果の特性が次の手順のパラメータを決定するか、あるいは与えられたフレームにオブジェクトが検出されていない場合、システムはバイパスされる。 この処理方法は、降下するデータの一部を決定するために適応量子化プロセスを利用する。 この手法は主にJPEG圧縮理論に基づいており、JPEGエンコーダやモーションJPEGエンコーダのようなJPEGベースのエンコーダに最適である。 しかし、MPEG部2、H.264などの他のDCTベースのエンコーダもこの方法の恩恵を受けることができる。 実験では,同じビットレートのMS-SSIMと類似のMS-SSIMとの比較を行った。 この方法は人間の知覚に基づいており、同様のMS-SSIMであっても、全体的な視聴体験は直接符号化されたものよりも優れている。

In this paper, we propose a preprocessing method for conventional image and video encoders that can make these existing encoders content-aware. By going through our process, a higher quality parameter could be set on a traditional encoder without increasing the output size. A still frame or an image will firstly go through an object detector. Either the properties of the detection result will decide the parameters of the following procedures, or the system will be bypassed if no object is detected in the given frame. The processing method utilizes an adaptive quantization process to determine the portion of data to be dropped. This method is primarily based on the JPEG compression theory and is optimum for JPEG-based encoders such as JPEG encoders and the Motion JPEG encoders. However, other DCT-based encoders like MPEG part 2, H.264, etc. can also benefit from this method. In the experiments, we compare the MS-SSIM under the same bitrate as well as similar MS-SSIM but enhanced bitrate. As this method is based on human perception, even with similar MS-SSIM, the overall watching experience will be better than the direct encoded ones.
翻訳日:2022-10-23 01:20:50 公開日:2020-09-01
# 時間連続性に基づく人物再同定のための教師なし学習

Temporal Continuity Based Unsupervised Learning for Person Re-Identification ( http://arxiv.org/abs/2009.00242v1 )

ライセンス: Link先を確認
Usman Ali, Bayram Bayramli, Hongtao Lu(参考訳) 人物再識別(re-id)は、複数のカメラで撮影した画像から同じ人物とマッチングすることを目的としている。 ほとんどの既存の人物再識別法は、表現学習の識別指針として機能するために、大量の識別ラベル付きデータを必要とする。 手動でラベル付きデータを収集することの難しさは、実践シナリオにおける適応性の低下につながる。 この問題を克服するために,カメラ内の時間的連続性から下位のre-id識別情報を段階的に学習し活用可能な,教師なしセンタベースクラスタリング手法を提案する。 我々は,時間連続性に基づく教師なし学習(TCUL)と呼ぶ。 具体的には、tkuは無ラベル(ターゲット)データセットのセンタベースクラスタリングを同時に行い、無関係(ソース)データセットに事前トレーニングされた畳み込みニューラルネットワーク(cnn)を微調整することで、ターゲットデータセットに対するcnnの識別能力を高める。 さらに、カメラ内の画像の時間的連続性と、カメラ間の特徴マップの空間的類似性を利用して、再同定モデルの訓練のための信頼できる擬似ラベルを生成する。 トレーニングが進むにつれて、信頼できるサンプルの数が適応的に増加し続け、CNNの表現能力が向上する。 3つの大規模人物のre-idベンチマークデータセットに対する大規模な実験を行い、我々のフレームワークと最先端技術を比較した。

Person re-identification (re-id) aims to match the same person from images taken across multiple cameras. Most existing person re-id methods generally require a large amount of identity labeled data to act as discriminative guideline for representation learning. Difficulty in manually collecting identity labeled data leads to poor adaptability in practical scenarios. To overcome this problem, we propose an unsupervised center-based clustering approach capable of progressively learning and exploiting the underlying re-id discriminative information from temporal continuity within a camera. We call our framework Temporal Continuity based Unsupervised Learning (TCUL). Specifically, TCUL simultaneously does center based clustering of unlabeled (target) dataset and fine-tunes a convolutional neural network (CNN) pre-trained on irrelevant labeled (source) dataset to enhance discriminative capability of the CNN for the target dataset. Furthermore, it exploits temporally continuous nature of images within-camera jointly with spatial similarity of feature maps across-cameras to generate reliable pseudo-labels for training a re-identification model. As the training progresses, number of reliable samples keep on growing adaptively which in turn boosts representation ability of the CNN. Extensive experiments on three large-scale person re-id benchmark datasets are conducted to compare our framework with state-of-the-art techniques, which demonstrate superiority of TCUL over existing methods.
翻訳日:2022-10-23 01:19:14 公開日:2020-09-01
# 多言語手話翻訳のための多チャンネルトランスフォーマー

Multi-channel Transformers for Multi-articulatory Sign Language Translation ( http://arxiv.org/abs/2009.00299v1 )

ライセンス: Link先を確認
Necati Cihan Camgoz, Oscar Koller, Simon Hadfield, Richard Bowden(参考訳) 手話言語は複数の非同期情報チャネル(articulator)を使用し、手だけでなく顔や体も使う。 本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマーアーキテクチャを提案する。 提案するアーキテクチャにより、異なる符号調音器間のコンテキスト間の関係をトランスフォーマーネットワーク内でモデル化できると同時に、チャネル固有の情報も保持できる。 我々は、RWTH-PHOENIX-Weather-2014Tデータセットに対するアプローチを評価し、競合翻訳性能を報告する。 重要なことは、他の最先端アプローチの基盤となる光沢アノテーションへの依存を克服し、それによって、高価なキュレートされたデータセットの将来的なニーズを取り除くことである。

Sign languages use multiple asynchronous information channels (articulators), not just the hands but also the face and body, which computational approaches often ignore. In this paper we tackle the multi-articulatory sign language translation task and propose a novel multi-channel transformer architecture. The proposed architecture allows both the inter and intra contextual relationships between different sign articulators to be modelled within the transformer network itself, while also maintaining channel specific information. We evaluate our approach on the RWTH-PHOENIX-Weather-2014T dataset and report competitive translation performance. Importantly, we overcome the reliance on gloss annotations which underpin other state-of-the-art approaches, thereby removing future need for expensive curated datasets.
翻訳日:2022-10-23 01:18:33 公開日:2020-09-01
# VAE-Conditioned Generative Flowによる汎用ゼロショット学習

Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow ( http://arxiv.org/abs/2009.00303v1 )

ライセンス: Link先を確認
Yu-Chao Gu, Le Zhang, Yun Liu, Shao-Ping Lu, Ming-Ming Cheng(参考訳) 汎用ゼロショット学習(GZSL)は、意味記述から視覚表現へ知識を移すことによって、目に見えるクラスと見えないクラスの両方を認識することを目的としている。 近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用し、見えないクラスの視覚的特徴を生成する。 しかし、ganはしばしば不安定に陥り、vaesは観測データのログ類似度の下限のみを最適化できる。 上記の制限を克服するために、正確な精度推定の利点を生かした生成モデル群である生成フローを利用する。 具体的には,GZSL,すなわちVAE-Conditioned Generative Flow(VAE-cFlow)の条件付き生成フローを提案する。 VAEを用いることで、意味記述はまず、観測された視覚特徴の正確なログライクな振る舞いを最適化することを条件に、抽出可能な潜在分布に符号化される。 我々は条件付き潜在分布を意味的意味とクラス間識別の両方で保証する。 一 VAE再建の目的を採用すること。 二 VAE後続正則化におけるゼロ平均制約の解除及び 三 潜在変数に分類正規化を加えること。 提案手法は,5つのよく知られたベンチマークデータセットに対して,最新のGZSL結果を実現する。 コードはhttps://github.com/guyuchao/VAE-cFlow-ZSLで公開されている。

Generalized zero-shot learning (GZSL) aims to recognize both seen and unseen classes by transferring knowledge from semantic descriptions to visual representations. Recent generative methods formulate GZSL as a missing data problem, which mainly adopts GANs or VAEs to generate visual features for unseen classes. However, GANs often suffer from instability, and VAEs can only optimize the lower bound on the log-likelihood of observed data. To overcome the above limitations, we resort to generative flows, a family of generative models with the advantage of accurate likelihood estimation. More specifically, we propose a conditional version of generative flows for GZSL, i.e., VAE-Conditioned Generative Flow (VAE-cFlow). By using VAE, the semantic descriptions are firstly encoded into tractable latent distributions, conditioned on that the generative flow optimizes the exact log-likelihood of the observed visual features. We ensure the conditional latent distribution to be both semantic meaningful and inter-class discriminative by i) adopting the VAE reconstruction objective, ii) releasing the zero-mean constraint in VAE posterior regularization, and iii) adding a classification regularization on the latent variables. Our method achieves state-of-the-art GZSL results on five well-known benchmark datasets, especially for the significant improvement in the large-scale setting. Code is released at https://github.com/guyuchao/VAE-cFlow-ZSL.
翻訳日:2022-10-23 01:18:20 公開日:2020-09-01
# PIDNet:動的歩行者侵入検知のための効率的なネットワーク

PIDNet: An Efficient Network for Dynamic Pedestrian Intrusion Detection ( http://arxiv.org/abs/2009.00312v1 )

ライセンス: Link先を確認
Jingchen Sun, Jiming Chen, Tao Chen, Jiayuan Fan, Shibo He(参考訳) 移動カメラによって歩行者が関心領域(AoI)を侵入するかどうかを判断する視覚に基づく動的歩行者侵入検知(PID)は,モバイル監視において重要な課題である。 動的に変化するAoIとビデオフレーム内の多くの歩行者は、AoIを歩行者が侵入するかどうかを判断する難易度と計算の複雑さを増大させる。 本稿では,この問題を解決するために,新しい,効率的なマルチタスクディープニューラルネットワークPIDNetを提案する。 PIDNetは、移動カメラが捉えたビデオフレームから動的に変化するAoIを正確にセグメンテーションし、生成されたAoI含有領域から歩行者を素早く検出する2つの要因を考慮して設計されている。 3つの効率的なネットワーク設計が提案され、計算複雑性を低減するためにPIDNetに組み込まれている。 1)機能共有のための特別なPIDタスクバックボーン。 2 特徴収穫用の特徴収穫モジュール、及び 3)特徴圧縮のためのより軽い検出分岐ネットワーク。 また,この分野に公開データセットやベンチマークが存在しないことを考慮し,提案するネットワークを評価し,対応する評価指標を初めて提示するベンチマークデータセットを構築した。 実験の結果、PIDNetは67.1%のPID精度と9.6fpsの推論速度を実現でき、将来のビジョンベースの動的PID研究のベースラインとして役立つことがわかった。

Vision-based dynamic pedestrian intrusion detection (PID), judging whether pedestrians intrude an area-of-interest (AoI) by a moving camera, is an important task in mobile surveillance. The dynamically changing AoIs and a number of pedestrians in video frames increase the difficulty and computational complexity of determining whether pedestrians intrude the AoI, which makes previous algorithms incapable of this task. In this paper, we propose a novel and efficient multi-task deep neural network, PIDNet, to solve this problem. PIDNet is mainly designed by considering two factors: accurately segmenting the dynamically changing AoIs from a video frame captured by the moving camera and quickly detecting pedestrians from the generated AoI-contained areas. Three efficient network designs are proposed and incorporated into PIDNet to reduce the computational complexity: 1) a special PID task backbone for feature sharing, 2) a feature cropping module for feature cropping, and 3) a lighter detection branch network for feature compression. In addition, considering there are no public datasets and benchmarks in this field, we establish a benchmark dataset to evaluate the proposed network and give the corresponding evaluation metrics for the first time. Experimental results show that PIDNet can achieve 67.1% PID accuracy and 9.6 fps inference speed on the proposed dataset, which serves as a good baseline for the future vision-based dynamic PID study.
翻訳日:2022-10-23 01:17:56 公開日:2020-09-01
# それ以上は必ずしも良いとは限らない: rdf2vec知識グラフ埋め込みに対するa-boxの実体化の負の影響

More is not Always Better: The Negative Impact of A-box Materialization on RDF2vec Knowledge Graph Embeddings ( http://arxiv.org/abs/2009.00318v1 )

ライセンス: Link先を確認
Andreea Iana and Heiko Paulheim(参考訳) rdf2vecは、連続ベクトル空間における知識グラフエンティティを表現する埋め込み技術である。 本稿では,サブプロペラティによって引き起こされる暗黙の a-box 公理と対称的および推移的性質を具現化する効果について検討する。 埋め込みの計算に先立ってそのような物質化がより良い埋め込みにつながるという合理的な仮定であるが、我々はDBpediaで一連の実験を行い、物質化がRDF2vecの性能に悪影響を及ぼすことを示した。 我々の分析では、知識グラフに欠落した情報を完成させることに専心する膨大な努力にもかかわらず、そのような暗黙的な情報は実際には欠陥ではなく信号であり、その仮定を説明する例を示す。

RDF2vec is an embedding technique for representing knowledge graph entities in a continuous vector space. In this paper, we investigate the effect of materializing implicit A-box axioms induced by subproperties, as well as symmetric and transitive properties. While it might be a reasonable assumption that such a materialization before computing embeddings might lead to better embeddings, we conduct a set of experiments on DBpedia which demonstrate that the materialization actually has a negative effect on the performance of RDF2vec. In our analysis, we argue that despite the huge body of work devoted on completing missing information in knowledge graphs, such missing implicit information is actually a signal, not a defect, and we show examples illustrating that assumption.
翻訳日:2022-10-23 01:11:16 公開日:2020-09-01
# 機械による倫理の展望

Landscape of Machine Implemented Ethics ( http://arxiv.org/abs/2009.00335v1 )

ライセンス: Link先を確認
Vivek Nallur(参考訳) 本稿では,ロボット,無人自動運転車,あるいはソフトウェアシステムにおいて,倫理的行動をどのように実装するかという,機械倫理の最先端を考察する。 その重点は、実装者が考慮する倫理理論の広さと、実装技術の使用に関するものである。 倫理理論が特定の領域に最も適しているか、あるいは特定の理論を実装するのにどの技法が最適であるかについての合意は存在しない。 これらの倫理理論の実装におけるもう1つの未解決問題は、実装を客観的に検証する方法である。 本稿は,'whetstones'の検証に使用されるジレンマと,代替的なバリデーションメカニズムが存在するかどうかについて論じる。 最後に、ドメイン固有の倫理を創造する中間のステップは、倫理的な行動を示すマシンを作成するための一歩になり得ると推測する。

This paper surveys the state-of-the-art in machine ethics, that is, considerations of how to implement ethical behaviour in robots, unmanned autonomous vehicles, or software systems. The emphasis is on covering the breadth of ethical theories being considered by implementors, as well as the implementation techniques being used. There is no consensus on which ethical theory is best suited for any particular domain, nor is there any agreement on which technique is best placed to implement a particular theory. Another unresolved problem in these implementations of ethical theories is how to objectively validate the implementations. The paper discusses the dilemmas being used as validating 'whetstones' and whether any alternative validation mechanism exists. Finally, it speculates that an intermediate step of creating domain-specific ethics might be a possible stepping stone towards creating machines that exhibit ethical behaviour.
翻訳日:2022-10-23 01:10:44 公開日:2020-09-01
# 「それは不機嫌で時間がかかります。」 商業ゲームにおけるエージェント作成の課題と機会

"It's Unwieldy and It Takes a Lot of Time." Challenges and Opportunities for Creating Agents in Commercial Games ( http://arxiv.org/abs/2009.00541v1 )

ライセンス: Link先を確認
Mikhail Jacob, Sam Devlin, Katja Hofmann(参考訳) 対戦相手、ノンプレイヤーキャラクタ、チームメイトといったゲームエージェントは、多くのモダンゲームにおけるプレイヤー体験の中心である。 ゲーム産業で使用されるAI技術の展望がより広く機械学習(ML)を採用するように進化するにつれて、研究コミュニティは数十年にわたって業界内で栽培されているベストプラクティスからエージェントを作成することを学ぶことが不可欠である。 しかし、商用ゲームエージェント生成パイプラインはMLに基づくものよりも成熟しているが、改善の機会はまだ多い。 我々はAAAスタジオ、インディースタジオ、産業研究所から17人のゲームエージェント・クリエーターに、彼らがプロフェッショナルなワークフローで経験した課題についてインタビューした。 本研究は,設計から実装,評価まで,いくつかの課題を明らかにした。 我々は,ゲーム産業におけるエージェント作成を支援する将来的な研究の方向性を強調し,その課題に対処する研究コミュニティの文献と比較する。

Game agents such as opponents, non-player characters, and teammates are central to player experiences in many modern games. As the landscape of AI techniques used in the games industry evolves to adopt machine learning (ML) more widely, it is vital that the research community learn from the best practices cultivated within the industry over decades creating agents. However, although commercial game agent creation pipelines are more mature than those based on ML, opportunities for improvement still abound. As a foundation for shared progress identifying research opportunities between researchers and practitioners, we interviewed seventeen game agent creators from AAA studios, indie studios, and industrial research labs about the challenges they experienced with their professional workflows. Our study revealed several open challenges ranging from design to implementation and evaluation. We compare with literature from the research community that address the challenges identified and conclude by highlighting promising directions for future research supporting agent creation in the games industry.
翻訳日:2022-10-23 01:10:23 公開日:2020-09-01
# iCub上に実装されたニューロモルフィックプロセッサのクローズドループスパイク制御

Closed-loop spiking control on a neuromorphic processor implemented on the iCub ( http://arxiv.org/abs/2009.09081v1 )

ライセンス: Link先を確認
Jingyue Zhao, Nicoletta Risi, Marco Monforte, Chiara Bartolozzi, Giacomo Indiveri, and Elisa Donati(参考訳) ニューロモルフィック工学は、真に自律的な人工エージェントの設計につながる低レイテンシ、適応性、低電力システムの展開を約束するが、完全にニューロモルフィックな人工エージェントの開発はいまだに欠けている。 神経形態的センシングと知覚は、意思決定システムと同様に成熟していますが、制御とアクティベーション部分は遅れています。 本稿では、スパイキングニューラルネットワークを用いた混合信号アナログデジタルニューロモルフィックハードウェアに実装した閉ループモータコントローラを提案する。 このネットワークは、スパイキング関係ネットワークを用いてターゲット、フィードバック、エラー信号を符号化して比例制御を行う。 フィードフォワード接続によって3つの変数を関連付ける接続パターンを通じて、連続的にエラーを計算する。 各集団内の繰り返し接続は、収束をスピードアップし、ミスマッチの効果を減少させ、選択性を改善するために使用される。 ニューロモルフィックモータコントローラは、iCubロボットシミュレータとインターフェースされている。 私たちは、スパイクするPコントローラーを1つのジョイントコントロールタスクでテストしました。 スパイキングコントローラは、目標位置を送信し、そのエンコーダからモータ状態を読み取り、モータコマンドをジョイントに送信する。 スパイキング制御装置の性能は、ステップ応答実験および目標追尾作業で試験される。 本研究では,ネットワーク構造を最適化し,ノイズの多い入力やデバイスミスマッチをより堅牢にすることで,制御性能を向上する。

Despite neuromorphic engineering promises the deployment of low latency, adaptive and low power systems that can lead to the design of truly autonomous artificial agents, the development of a fully neuromorphic artificial agent is still missing. While neuromorphic sensing and perception, as well as decision-making systems, are now mature, the control and actuation part is lagging behind. In this paper, we present a closed-loop motor controller implemented on mixed-signal analog-digital neuromorphic hardware using a spiking neural network. The network performs a proportional control action by encoding target, feedback, and error signals using a spiking relational network. It continuously calculates the error through a connectivity pattern, which relates the three variables by means of feed-forward connections. Recurrent connections within each population are used to speed up the convergence, decrease the effect of mismatch and improve selectivity. The neuromorphic motor controller is interfaced with the iCub robot simulator. We tested our spiking P controller in a single joint control task, specifically for the robot head yaw. The spiking controller sends the target positions, reads the motor state from its encoder, and sends back the motor commands to the joint. The performance of the spiking controller is tested in a step response experiment and in a target pursuit task. In this work, we optimize the network structure to make it more robust to noisy inputs and device mismatch, which leads to better control performances.
翻訳日:2022-10-23 01:09:43 公開日:2020-09-01
# LodoNet: 3次元LiDARオドメトリー推定のための2次元キーポイントマッチングを備えたディープニューラルネットワーク

LodoNet: A Deep Neural Network with 2D Keypoint Matchingfor 3D LiDAR Odometry Estimation ( http://arxiv.org/abs/2009.00164v1 )

ライセンス: Link先を確認
Ce Zheng, Yecheng Lyu, Ming Li, Ziming Zhang(参考訳) 深層学習に基づくLiDAR odometry (LO) 推定は、自律運転とロボット工学の分野における研究の関心を高めている。 既存の作業は、連続したLiDARフレームをポイントクラウドとしてニューラルネットワークに供給し、学習された特徴空間内のペアにマッチする。 対照的に,画像特徴抽出器の成功に動機づけられたlidarフレームを画像空間に転送し,その問題を画像特徴抽出として再構成する。 特徴抽出のためのスケール不変特徴変換(SIFT)の助けを借りて、3D空間に正確に返却可能なマッチングキーポイントペア(MKP)を生成することができる。 畳み込みニューラルネットワークパイプラインは,抽出したMKPによるLiDAR計測のために設計されている。 提案手法,すなわちLodoNet は,KITTI odometry 評価ベンチマークで評価され,最先端の手法と同等あるいはそれ以上の結果が得られた。

Deep learning based LiDAR odometry (LO) estimation attracts increasing research interests in the field of autonomous driving and robotics. Existing works feed consecutive LiDAR frames into neural networks as point clouds and match pairs in the learned feature space. In contrast, motivated by the success of image based feature extractors, we propose to transfer the LiDAR frames to image space and reformulate the problem as image feature extraction. With the help of scale-invariant feature transform (SIFT) for feature extraction, we are able to generate matched keypoint pairs (MKPs) that can be precisely returned to the 3D space. A convolutional neural network pipeline is designed for LiDAR odometry estimation by extracted MKPs. The proposed scheme, namely LodoNet, is then evaluated in the KITTI odometry estimation benchmark, achieving on par with or even better results than the state-of-the-art.
翻訳日:2022-10-23 01:09:19 公開日:2020-09-01
# 画像処理技術と機械学習アルゴリズムを用いたラディッシュウィルト自動検出

Automatic Radish Wilt Detection Using Image Processing Based Techniques and Machine Learning Algorithm ( http://arxiv.org/abs/2009.00173v1 )

ライセンス: Link先を確認
Asif Ashraf Patankar and Hyeonjoon Moon(参考訳) 画像処理、コンピュータビジョン、パターン認識は、種検出、認識、分類、識別、植物の成長段階、植物病の検出など、様々な農業用途において重要な役割を担っている。 一方,無人航空機(UAV)による高精細画像の取得や,高精度な精度とポイント結果の獲得のために,より優れたアルゴリズムの開発の必要性が高まっている。 本稿では,ダイコン作物中のフザリウムウラギを検出するセグメンテーションと抽出に基づく手法を提案する。 最近のワイト検出アルゴリズムは、画像処理技術または従来の機械学習アルゴリズムに基づいている。 しかし,本手法は画像処理と機械学習を組み合わせたハイブリッドアルゴリズムに基づいている。 まず、作物イメージを3つのセグメントに分けて、viz., health vegetation, ground and packing materialsを含む。 HSV決定木アルゴリズムに基づいて、3つのセグメントは全て画像から分離される。 次に、抽出されたセグメントを画像と同じ解像度の空のキャンバスにまとめ、1つの新しい画像を生成する。 第3に、この新画像と原画像を比較し、ウィルトの痕跡を含む最終的なノイズ画像を抽出する。 最後に、ノイズを除去し、正確なウィルトを抽出するためにk-meansアルゴリズムを適用する。 また、抽出したウィルトをコントーリング法により原画像にマッピングする。 提案するアルゴリズムの組み合わせは、画像処理技術や機械学習を別々に使用する従来の慣行を超越したワイトを適切に検出する。

Image processing, computer vision, and pattern recognition have been playing a vital role in diverse agricultural applications, such as species detection, recognition, classification, identification, plant growth stages, plant disease detection, and many more. On the other hand, there is a growing need to capture high resolution images using unmanned aerial vehicles (UAV) and to develop better algorithms in order to find highly accurate and to the point results. In this paper, we propose a segmentation and extraction-based technique to detect fusarium wilt in radish crops. Recent wilt detection algorithms are either based on image processing techniques or conventional machine learning algorithms. However, our methodology is based on a hybrid algorithm, which combines image processing and machine learning. First, the crop image is divided into three segments, which include viz., healthy vegetation, ground and packing material. Based on the HSV decision tree algorithm, all the three segments are segregated from the image. Second, the extracted segments are summed together into an empty canvas of the same resolution as the image and one new image is produced. Third, this new image is compared with the original image, and a final noisy image, which contains traces of wilt is extracted. Finally, a k-means algorithm is applied to eliminate the noise and to extract the accurate wilt from it. Moreover, the extracted wilt is mapped on the original image using the contouring method. The proposed combination of algorithms detects the wilt appropriately, which surpasses the traditional practice of separately using the image processing techniques or machine learning.
翻訳日:2022-10-23 01:09:03 公開日:2020-09-01
# 増やすか、増やさないか? モーションセンサを用いたユーザ識別におけるデータ拡張

To augment or not to augment? Data augmentation in user identification based on motion sensors ( http://arxiv.org/abs/2009.00300v1 )

ライセンス: Link先を確認
Cezara Benegui and Radu Tudor Ionescu(参考訳) 今日では、パスワードチェック、顔認識、指紋スキャンなど、モバイルデバイスユーザー向けの一般的な認証システムは、様々な種類の攻撃を受けやすい。 これらの攻撃を回避するため、加速度計やジャイロスコープで捉えたモーションセンサデータの解析に基づいて、第2因子が暗黙の認証システムである2要素認証方式を考慮すれば、これらの明示的な認証システムを強化することができる。 ユーザへの追加的な負担を回避するため、暗黙の認証システムの登録処理を迅速に行う必要がある。 動き信号に基づく暗黙的ユーザ認証のための機械学習モデルを設計するという文脈では、データ拡張が重要な役割を果たす。 本稿では,モーションセンサデータに有用な拡張手法を見つけるために,いくつかのデータ拡張手法について検討する。 本研究では,モーションセンサ信号に基づくユーザ識別におけるデータ拡張に関する4つの研究課題を提案する。 我々は、畳み込みニューラルネットワークとLong Short-Term Memory Networkという2つのディープラーニングアーキテクチャを用いて、ベンチマークデータセット上で実験を行い、データ拡張手法が正確性の向上をもたらすことを示す。 ユーザを識別するのに有用な信号パターンは、特定のデータ拡張技術によってもたらされる変換にあまりにも敏感だからです。 この結果は、データ拡張が機械学習モデルの精度を高めることが期待されるという一般的な信念とは多少矛盾している。

Nowadays, commonly-used authentication systems for mobile device users, e.g. password checking, face recognition or fingerprint scanning, are susceptible to various kinds of attacks. In order to prevent some of the possible attacks, these explicit authentication systems can be enhanced by considering a two-factor authentication scheme, in which the second factor is an implicit authentication system based on analyzing motion sensor data captured by accelerometers or gyroscopes. In order to avoid any additional burdens to the user, the registration process of the implicit authentication system must be performed quickly, i.e. the number of data samples collected from the user is typically small. In the context of designing a machine learning model for implicit user authentication based on motion signals, data augmentation can play an important role. In this paper, we study several data augmentation techniques in the quest of finding useful augmentation methods for motion sensor data. We propose a set of four research questions related to data augmentation in the context of few-shot user identification based on motion sensor signals. We conduct experiments on a benchmark data set, using two deep learning architectures, convolutional neural networks and Long Short-Term Memory networks, showing which and when data augmentation methods bring accuracy improvements. Interestingly, we find that data augmentation is not very helpful, most likely because the signal patterns useful to discriminate users are too sensitive to the transformations brought by certain data augmentation techniques. This result is somewhat contradictory to the common belief that data augmentation is expected to increase the accuracy of machine learning models.
翻訳日:2022-10-23 01:02:37 公開日:2020-09-01
# cmrセグメンテーションのための品質認識半教師付き学習

Quality-aware semi-supervised learning for CMR segmentation ( http://arxiv.org/abs/2009.00584v1 )

ライセンス: Link先を確認
Bram Ruijsink, Esther Puyol-Anton, Ye Li, Wenja Bai, Eric Kerfoot, Reza Razavi, and Andrew P. King(参考訳) 医学画像分割のためのディープラーニングアルゴリズムを開発する上での課題のひとつは、注釈付きトレーニングデータの不足である。 この制限を克服するため、データ拡張と半教師付き学習法(SSL)が開発された。 しかし、これらの手法は、既存のデータセットのみを利用するか(データ拡張)、トレーニング例(ssl)の貧弱な追加による悪影響を危険にさらすため、効果が限られている。 セグメンテーションは医療画像解析の最終産物となることは滅多になく、通常は下流のタスクで病気を評価するために高次パターンを推測するために使用される。 臨床医は、画像分析の結果を評価する際に、生物物理学や生理学に関する豊富な知識を考慮に入れる。 我々は,これらの臨床評価を先行研究で活用し,ロバスト品質制御(qc)分類器(automated heart magnetic resonance, cmr)の開発を行った。 本稿では、下流タスクのQCを用いてCMRセグメンテーションネットワークの高品質な出力を同定し、その後のネットワークトレーニングに活用する新しいスキームを提案する。 本質的にこれは、セグメンテーションネットワーク(semiQCSeg)用のSSLの変種におけるトレーニングデータの品質向上を提供する。 我々は,英国バイオバンクのデータとU-netとFully Convolutional Networkの2つの一般的なネットワークアーキテクチャを用いて,2つのCMRセグメンテーションタスク(大動脈・短軸心容積セグメンテーション)におけるアプローチを評価し,教師付きおよびSSL戦略との比較を行った。 セミQCSegはセグメンテーションネットワークのトレーニングを改善することを示す。 ラベル付きデータの必要性を減らし、Diceや臨床メトリクスの点で他の手法よりも優れています。 semiqcsegは、ラベル付きデータセットの不足時に医療画像データのセグメンテーションネットワークをトレーニングするための効率的なアプローチである。

One of the challenges in developing deep learning algorithms for medical image segmentation is the scarcity of annotated training data. To overcome this limitation, data augmentation and semi-supervised learning (SSL) methods have been developed. However, these methods have limited effectiveness as they either exploit the existing data set only (data augmentation) or risk negative impact by adding poor training examples (SSL). Segmentations are rarely the final product of medical image analysis - they are typically used in downstream tasks to infer higher-order patterns to evaluate diseases. Clinicians take into account a wealth of prior knowledge on biophysics and physiology when evaluating image analysis results. We have used these clinical assessments in previous works to create robust quality-control (QC) classifiers for automated cardiac magnetic resonance (CMR) analysis. In this paper, we propose a novel scheme that uses QC of the downstream task to identify high quality outputs of CMR segmentation networks, that are subsequently utilised for further network training. In essence, this provides quality-aware augmentation of training data in a variant of SSL for segmentation networks (semiQCSeg). We evaluate our approach in two CMR segmentation tasks (aortic and short axis cardiac volume segmentation) using UK Biobank data and two commonly used network architectures (U-net and a Fully Convolutional Network) and compare against supervised and SSL strategies. We show that semiQCSeg improves training of the segmentation networks. It decreases the need for labelled data, while outperforming the other methods in terms of Dice and clinical metrics. SemiQCSeg can be an efficient approach for training segmentation networks for medical image data when labelled datasets are scarce.
翻訳日:2022-10-23 01:02:04 公開日:2020-09-01
# Fed-Sim: 医用画像のフェデレーションシミュレーション

Fed-Sim: Federated Simulation for Medical Imaging ( http://arxiv.org/abs/2009.00668v1 )

ライセンス: Link先を確認
Daiqing Li, Amlan Kar, Nishant Ravikumar, Alejandro F Frangi, Sanja Fidler(参考訳) ラベル付けデータは高価で、特にボリューム画像データを含み、専門知識を必要とする医療画像などの領域では時間がかかります。 フェデレーション学習など、複数のセンタにまたがるラベル付きデータのプールを活用することで、現在のディープラーニングアプローチでは、さまざまなメーカから取得したスキャナで取得したイメージにうまく一般化できないため、成功率も低かった。 我々は,これらの問題に対して,フェデレーションシミュレーション(federated simulation)と呼ぶ,一般的な学習ベースのイメージシミュレーションフレームワークを用いて対処することを目指している。 2つの学習可能な神経モジュールからなる物理駆動生成手法を提案する。 1) 素材と共に3次元心臓形状を合成するモジュール、及び 2)これらをアノテーションで現実的な3次元ctボリュームに描画するctシミュレータ。 形状と素材のモデルは撮像センサから切り離されているため、複数の医療センターで効果的に訓練することができる。 データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。 プロジェクトページ: https://nv-tlabs.github.io/fed-sim/

Labelling data is expensive and time consuming especially for domains such as medical imaging that contain volumetric imaging data and require expert knowledge. Exploiting a larger pool of labeled data available across multiple centers, such as in federated learning, has also seen limited success since current deep learning approaches do not generalize well to images acquired with scanners from different manufacturers. We aim to address these problems in a common, learning-based image simulation framework which we refer to as Federated Simulation. We introduce a physics-driven generative approach that consists of two learnable neural modules: 1) a module that synthesizes 3D cardiac shapes along with their materials, and 2) a CT simulator that renders these into realistic 3D CT Volumes, with annotations. Since the model of geometry and material is disentangled from the imaging sensor, it can effectively be trained across multiple medical centers. We show that our data synthesis framework improves the downstream segmentation performance on several datasets. Project Page: https://nv-tlabs.github.io/fed-sim/ .
翻訳日:2022-10-23 01:01:36 公開日:2020-09-01
# CT画像を用いた胃癌患者の腹膜転移予測のためのランダムプロジェクションアルゴリズムの適用

Applying a random projection algorithm to optimize machine learning model for predicting peritoneal metastasis in gastric cancer patients using CT images ( http://arxiv.org/abs/2009.00675v1 )

ライセンス: Link先を確認
Seyedehnafiseh Mirniaharikandehei (1), Morteza Heidari (1), Gopichandh Danala (1), Sivaramakrishnan Lakshmivarahan (2), Bin Zheng (1) ((1) School of Electrical and Computer Engineering, University of Oklahoma, Norman, OK, USA, (2) School of Computer Sciences, University of Oklahoma, Norman, OK, USA)(参考訳) 背景と目的:手術前の癌転移のリスクを非侵襲的に予測することは、がん患者の最適な治療方法を決定する上で重要な役割を果たす。 放射能ベースの機械学習(ML)モデルの開発は、この目的のために幅広い研究の関心を集めているが、小型で不均衡な画像データセットを使用して高パフォーマンスで堅牢なMLモデルをどうやって構築するかという課題に直面していることが多い。 方法:本研究では,最適なMLモデルを構築するための新しいアプローチを検討する。 胃癌と診断された159例から得られた腹部CT画像を含む振り返りデータセットを作成した。 そのうち121例は腹膜転移(PM)、38例はPM(PM)である。 computer-aided detection (cad) スキームはまず胃原発腫瘍の分画量に応用され、315の画像特徴を最初に計算する。 次に、主成分分析(pca)とランダム投影アルゴリズム(rpa)と合成マイノリティオーバーサンプリング(synthetic minority oversamping)という2つの異なる特徴次元低減法を組み込んだ2つの勾配ブースティングマシン(gbm)モデルを構築し、pmを有する患者のリスクを予測する。 すべてのGBMモデルは、ケースアウトのクロスバリデーション手法を用いてトレーニングされ、テストされる。 結果: RPAに埋め込まれたGBMはPCA (65.2%) (p<0.05) よりも予測精度(71.2%)が有意に高かった。 結論: 原発性胃癌のCT画像はPMのリスクを予測するための識別情報を含んでおり, RPAは最適な特徴ベクトルを生成するための有望な方法であり, 医療画像のMLモデルの性能を向上させる。

Background and Objective: Non-invasively predicting the risk of cancer metastasis before surgery plays an essential role in determining optimal treatment methods for cancer patients (including who can benefit from neoadjuvant chemotherapy). Although developing radiomics based machine learning (ML) models has attracted broad research interest for this purpose, it often faces a challenge of how to build a highly performed and robust ML model using small and imbalanced image datasets. Methods: In this study, we explore a new approach to build an optimal ML model. A retrospective dataset involving abdominal computed tomography (CT) images acquired from 159 patients diagnosed with gastric cancer is assembled. Among them, 121 cases have peritoneal metastasis (PM), while 38 cases do not have PM. A computer-aided detection (CAD) scheme is first applied to segment primary gastric tumor volumes and initially computes 315 image features. Then, two Gradient Boosting Machine (GBM) models embedded with two different feature dimensionality reduction methods, namely, the principal component analysis (PCA) and a random projection algorithm (RPA) and a synthetic minority oversampling technique, are built to predict the risk of the patients having PM. All GBM models are trained and tested using a leave-one-case-out cross-validation method. Results: Results show that the GBM embedded with RPA yielded a significantly higher prediction accuracy (71.2%) than using PCA (65.2%) (p<0.05). Conclusions: The study demonstrated that CT images of the primary gastric tumors contain discriminatory information to predict the risk of PM, and RPA is a promising method to generate optimal feature vector, improving the performance of ML models of medical images.
翻訳日:2022-10-23 01:01:23 公開日:2020-09-01
# スマートグリッドにおけるサイバー攻撃の発生・検出・軽減における機械学習

Machine Learning in Generation, Detection, and Mitigation of Cyberattacks in Smart Grid: A Survey ( http://arxiv.org/abs/2010.00661v1 )

ライセンス: Link先を確認
Nur Imtiazul Haque, Md Hasan Shahriar, Md Golam Dastgir, Anjan Debnath, Imtiaz Parvez, Arif Sarwat, Mohammad Ashiqur Rahman(参考訳) smart grid (sg) は複雑なサイバー物理システムであり、現代のサイバー機器と物理機器を最適な操作ポイントで動作させる。 サイバー攻撃は最先端のシステムの使用と進歩に直面する主要な脅威である。 sgの進歩により、システムの信頼性、効率性、コスト効率を高めるために、幅広い技術、機器、ツールが追加された。 これらの目標を達成したにもかかわらず、サイバーネットワークの広範な実装のため、敵攻撃の脅威空間も拡大された。 有望な計算能力と推論能力のため、機械学習(ML)は攻撃者とシステムオペレーターによるSGのサイバー攻撃をそれぞれ利用し、防御するために使用されている。 本稿では,sgドメインにおける最先端の研究を概観し,サイバー攻撃の発生,検出,緩和に関する包括的概要を述べる。 さらに,本研究を表形式を用いて構造化した方法で要約した。 また,既存の研究の欠点と今後の研究の方向性についても検討した。

Smart grid (SG) is a complex cyber-physical system that utilizes modern cyber and physical equipment to run at an optimal operating point. Cyberattacks are the principal threats confronting the usage and advancement of the state-of-the-art systems. The advancement of SG has added a wide range of technologies, equipment, and tools to make the system more reliable, efficient, and cost-effective. Despite attaining these goals, the threat space for the adversarial attacks has also been expanded because of the extensive implementation of the cyber networks. Due to the promising computational and reasoning capability, machine learning (ML) is being used to exploit and defend the cyberattacks in SG by the attackers and system operators, respectively. In this paper, we perform a comprehensive summary of cyberattacks generation, detection, and mitigation schemes by reviewing state-of-the-art research in the SG domain. Additionally, we have summarized the current research in a structured way using tabular format. We also present the shortcomings of the existing works and possible future research direction based on our investigation.
翻訳日:2022-10-23 01:00:39 公開日:2020-09-01
# 原子プローブ結晶学のオープン・ストレッチツールについて:結晶構造と配向をインデクシングするための高出力法

On Open and Strong-Scaling Tools for Atom Probe Crystallography: High-Throughput Methods for Indexing Crystal Structure and Orientation ( http://arxiv.org/abs/2009.00735v1 )

ライセンス: Link先を確認
Markus K\"uhbach and Matthew Kasemer and Baptiste Gault and Andrew Breen(参考訳) 体積結晶構造インデクシングと配向マッピングは、局所化学と材料のミクロ構造の間の空間的相関を定量的に研究するための重要なデータ処理ステップである。 電子およびX線回折法では、測定されたパターンと解析的に計算されたパターンを比較して、興味のある局所領域の構造と相対配向をデコードするインデックスツールを開発することができる。 その結果、上記の特徴化タスクを解決するために、数値的に効率的で自動化されたソフトウェアツールが多数存在する。 しかし、原子プローブトモグラフィー(APT)実験では、多くのAPTデータセットにかなりのノイズがあるため、測定されたパターンと解析されたパターンの比較戦略はより堅牢である。 このようなノイズの予測モデルが一般的であることを考慮すると、aptの結晶学ツールにはいくつかの制限がある: ノイズに対する堅牢性、したがって異なる結晶構造と配向を識別し識別する能力は限られている。 さらに、ツールはシーケンシャルであり、相当な手動操作を必要とする。 これにより、潜在結晶情報の高スループット自動解析によるロバストな不確実性定量化とaptデータとの併用が困難となる。 現状を改善するため,既存の手法を見直し,回折コミュニティの手法とどのようにリンクするかを考察する。 これにより、APT法の一部を修正し、原子配列のより堅牢な記述子を得る。 複数の位相を持つナノ結晶APTデータセットにおける結晶構造と結晶配向の同定と自動同定のためのオープンソースソフトウェアツールの開発を可能にする方法について報告する。

Volumetric crystal structure indexing and orientation mapping are key data processing steps for virtually any quantitative study of spatial correlations between the local chemistry and the microstructure of a material. For electron and X-ray diffraction methods it is possible to develop indexing tools which compare measured and analytically computed patterns to decode the structure and relative orientation within local regions of interest. Consequently, a number of numerically efficient and automated software tools exist to solve the above characterisation tasks. For atom probe tomography (APT) experiments, however, the strategy of making comparisons between measured and analytically computed patterns is less robust because many APT datasets may contain substantial noise. Given that general enough predictive models for such noise remain elusive, crystallography tools for APT face several limitations: Their robustness to noise, and therefore, their capability to identify and distinguish different crystal structures and orientation is limited. In addition, the tools are sequential and demand substantial manual interaction. In combination, this makes robust uncertainty quantifying with automated high-throughput studies of the latent crystallographic information a difficult task with APT data. To improve the situation, we review the existent methods and discuss how they link to those in the diffraction communities. With this we modify some of the APT methods to yield more robust descriptors of the atomic arrangement. We report how this enables the development of an open-source software tool for strong-scaling and automated identifying of crystal structure and mapping crystal orientation in nanocrystalline APT datasets with multiple phases.
翻訳日:2022-10-23 00:53:59 公開日:2020-09-01
# 組換え最適化のための高速免疫システムによるハイパーミューテーション演算子

Fast Immune System Inspired Hypermutation Operators for Combinatorial Optimisation ( http://arxiv.org/abs/2009.00990v1 )

ライセンス: Link先を確認
D. Corus, P. S. Oliveto, D. Yazdani(参考訳) 様々な研究により、免疫系がインスパイアされた過変化オペレーターは、人工免疫システム(ais)がマルチモーダル最適化問題の局所的オプティマを逃がすのに非常に効率的であることが示されている。 しかし、この効率性は、標準的な進化アルゴリズムと比較して、エクスプロイションフェーズではかなり遅いランタイムを犠牲にしている。 本研究では,従来のHMP(Hymermutation with mutation potential)を改良し,それらの有効爆発特性の維持と有効利用を可能にした。 ハイパーミューテーションの各ビットフリップ後の適合度を決定的に評価する代わりに、HMPの'第一構成突然変異' (FCM) 変種を許容する「パラボリックな」分布を用いてフィットネス関数を確率的にサンプリングし、改善が見つからなかった場合の無駄関数評価の線形量を削減する。 確率分布は、もともとHMP演算子の設計において望まれていたように、FCM機構を完全に除去することを可能にする。 hmpの性能が文献で厳密に理解されているすべてのベンチマーク関数に対して,提案手法の有効性を厳密に証明し,得られた知見を検証し,組合せ最適化によるnp-hard問題に対する高品質近似解の同定のための線形速度アップを示す。 次に,HMP演算子と従来の演算子との優位性を示すとともに,確率的評価法によりHMP演算子と老化演算子が調和して動作することを示す。 論文から得られた他の「高速突然変異」演算子の比較実験を通じて、パラボリック評価スキームのパワーロー分布は、ほとんど問題知識が得られないブラックボックスのシナリオにおいて最良の妥協である、と結論付けている。

Various studies have shown that immune system inspired hypermutation operators can allow artificial immune systems (AIS) to be very efficient at escaping local optima of multimodal optimisation problems. However, this efficiency comes at the expense of considerably slower runtimes during the exploitation phase compared to standard evolutionary algorithms. We propose modifications to the traditional `hypermutations with mutation potential' (HMP) that allow them to be efficient at exploitation as well as maintaining their effective explorative characteristics. Rather than deterministically evaluating fitness after each bit-flip of a hypermutation, we sample the fitness function stochastically with a `parabolic' distribution which allows the `stop at first constructive mutation' (FCM) variant of HMP to reduce the linear amount of wasted function evaluations when no improvement is found to a constant. The stochastic distribution also allows the removal of the FCM mechanism altogether as originally desired in the design of the HMP operators. We rigorously prove the effectiveness of the proposed operators for all the benchmark functions where the performance of HMP is rigorously understood in the literature and validating the gained insights to show linear speed-ups for the identification of high quality approximate solutions to classical NP-Hard problems from combinatorial optimisation. We then show the superiority of the HMP operators to the traditional ones in an analysis of the complete standard Opt-IA AIS, where the stochastic evaluation scheme allows HMP and ageing operators to work in harmony. Through a comparative performance study of other `fast mutation' operators from the literature, we conclude that a power-law distribution for the parabolic evaluation scheme is the best compromise in black box scenarios where little problem knowledge is available.
翻訳日:2022-10-23 00:53:36 公開日:2020-09-01
# シンドロミックサーベイランス技術としての連続人工予測市場

Continuous Artificial Prediction Markets as a Syndromic Surveillance Technique ( http://arxiv.org/abs/2009.00394v1 )

ライセンス: Link先を確認
Fatemeh Jahedpari(参考訳) シンドロミック監視システムの主な目標は、利用可能なデータソースを使用して、社会におけるアウトブレイクを早期に検出することである。 本稿では,シンドローム監視システムの課題と,相互予測市場(jahedpari et al., 2017)が,シンドローム監視の課題に効果的に適用可能かどうかについて議論する。 有名な2つのモデルを使って (i)Google Fluトレンド、および (ii)gp[lampos et al., 2015]と名づけられたgoogle flu trendsモデルの最近の改善は、ケーススタディとして、c-apmがパフォーマンスをどのように改善できるかを示します。 この結果から,c-APMは毎年Google Flu TrendsよりもMAEが低いことが示唆された。 この差は2004年から2007年の間は比較的小さいが、ほとんどの年で比較的大きく、2011年から2013年の間は極めて大きい。

The main goal of syndromic surveillance systems is early detection of an outbreak in a society using available data sources. In this paper, we discuss what are the challenges of syndromic surveillance systems and how continuous Artificial Prediction Market [Jahedpari et al., 2017] can effectively be applied to the problem of syndromic surveillance. We use two well-known models of (i) Google Flu Trends, and (ii) the latest improvement of Google Flu Trends model, named as GP [Lampos et al., 2015], as our case study and we show how c-APM can improve upon their performance. Our results demonstrate that c-APM typically has a lower MAE to that of Google Flu Trends in each year. Though this difference is relatively small in some years like 2004 and 2007, it is relatively large in most years and very large between 2011 and 2013.
翻訳日:2022-10-23 00:52:48 公開日:2020-09-01
# GAN(Generative Adversarial Nets)の数学的紹介

A Mathematical Introduction to Generative Adversarial Nets (GAN) ( http://arxiv.org/abs/2009.00169v1 )

ライセンス: Link先を確認
Yang Wang(参考訳) GAN(Generative Adversarial Nets)は、Goodfellowらによる2014年の画期的な研究以来、かなりの注目を集めている。 このような注目がGANの新しいアイデア、技術、応用の爆発を引き起こした。 GANをより深く理解するには、それらの背後にある数学的基盤を理解する必要がある。 本稿では,数学的な観点からGANの概要を述べる。 数学の多くの学生は、ganに関する論文がコンピュータサイエンスやエンジニアの観点から書かれているため、より理解が難しいと感じるかもしれない。 本論文の目的は,より数学的指向の学生に,より親しみやすい言語におけるgans入門を与えることである。

Generative Adversarial Nets (GAN) have received considerable attention since the 2014 groundbreaking work by Goodfellow et al. Such attention has led to an explosion in new ideas, techniques and applications of GANs. To better understand GANs we need to understand the mathematical foundation behind them. This paper attempts to provide an overview of GANs from a mathematical point of view. Many students in mathematics may find the papers on GANs more difficulty to fully understand because most of them are written from computer science and engineer point of view. The aim of this paper is to give more mathematically oriented students an introduction to GANs in a language that is more familiar to them.
翻訳日:2022-10-23 00:52:31 公開日:2020-09-01
# RNA二次構造予測のための機械学習手法の検討

Review of Machine-Learning Methods for RNA Secondary Structure Prediction ( http://arxiv.org/abs/2009.08868v1 )

ライセンス: Link先を確認
Qi Zhao, Zheng Zhao, Xiaoya Fan, Zhengwei Yuan, Qian Mao, Yudong Yao(参考訳) 二次構造は非コードrnaの機能を決定する上で重要な役割を果たす。 したがって、RNA二次構造を同定することは研究にとって非常に重要である。 計算予測はRNA二次構造を予測する主要なアプローチである。 残念ながら、過去40年間に新しい手法が提案されてきたが、計算予測手法の性能は過去10年間に停滞している。 近年、RNA構造データの利用が増加し、機械学習技術、特にディープラーニングに基づく新しい手法が問題を軽減するようになった。 本稿では,機械学習技術に基づくrna二次構造予測手法の包括的概要と,この分野で最も重要な手法の表化概要について述べる。 RNA二次構造予測の分野で現在進行中の課題と今後の動向についても論じる。

Secondary structure plays an important role in determining the function of non-coding RNAs. Hence, identifying RNA secondary structures is of great value to research. Computational prediction is a mainstream approach for predicting RNA secondary structure. Unfortunately, even though new methods have been proposed over the past 40 years, the performance of computational prediction methods has stagnated in the last decade. Recently, with the increasing availability of RNA structure data, new methods based on machine-learning technologies, especially deep learning, have alleviated the issue. In this review, we provide a comprehensive overview of RNA secondary structure prediction methods based on machine-learning technologies and a tabularized summary of the most important methods in this field. The current pending issues in the field of RNA secondary structure prediction and future trends are also discussed.
翻訳日:2022-10-23 00:51:29 公開日:2020-09-01
# 2段階レコメンデーションシステムにおける探索

Exploration in two-stage recommender systems ( http://arxiv.org/abs/2009.08956v1 )

ライセンス: Link先を確認
Jiri Hron and Karl Krauth and Michael I. Jordan and Niki Kilbertus(参考訳) 2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。 これらのシステムは2つのステップで推奨する。 (i)複数名詞は、安価で計算可能な項目の埋め込みを用いて、大プールから少数の項目を選別する。 (ii) よりリッチな機能セットにより、ランク付け者が指定項目を並べ替え、ユーザに提供する。 この設定の鍵となる課題は、各ステージの最適性能が最適グローバルパフォーマンスを意味するものではないことである。 この問題への対応として、Ma et al. (2020) は、各項目を推薦するランクの確率によって重み付けられた、名詞の訓練目標を提案した。 本研究では,探索の補完的な問題に焦点をあてる。 文脈的バンディット問題としてモデル化されたLinUCB(単段システムにおけるほぼ最適探索戦略)は、2段リコメンデータにデプロイした場合に線形後悔を引き起こす可能性がある。 そこで本稿では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。 我々のアルゴリズムは、各段階で標準LinUCBで計算された量にのみ依存しており、3行の追加コードで実装できる。 最後に,アルゴリズムの有効性を実験的に実証する。

Two-stage recommender systems are widely adopted in industry due to their scalability and maintainability. These systems produce recommendations in two steps: (i) multiple nominators preselect a small number of items from a large pool using cheap-to-compute item embeddings; (ii) with a richer set of features, a ranker rearranges the nominated items and serves them to the user. A key challenge of this setup is that optimal performance of each stage in isolation does not imply optimal global performance. In response to this issue, Ma et al. (2020) proposed a nominator training objective importance weighted by the ranker's probability of recommending each item. In this work, we focus on the complementary issue of exploration. Modeled as a contextual bandit problem, we find LinUCB (a near optimal exploration strategy for single-stage systems) may lead to linear regret when deployed in two-stage recommenders. We therefore propose a method of synchronising the exploration strategies between the ranker and the nominators. Our algorithm only relies on quantities already computed by standard LinUCB at each stage and can be implemented in three lines of additional code. We end by demonstrating the effectiveness of our algorithm experimentally.
翻訳日:2022-10-23 00:51:19 公開日:2020-09-01
# rank-oneパーティショニング:形式化、例示的例、新しいクラスタ強化戦略

Rank-one partitioning: formalization, illustrative examples, and a new cluster enhancing strategy ( http://arxiv.org/abs/2009.00365v1 )

ライセンス: Link先を確認
Charlotte Laclau, Franck Iutzeler, Ievgen Redko(参考訳) 本稿では,最終的なクラスタリング分割を導出するためにさらに用いられる単一のベクトルを用いてデータセットを要約して行う分割方法を統一するランクワン分割学習パラダイムを導入する。 この一元化を出発点として,階数1行列の分解と分節定数信号のデノージングに基づく分割問題に対する新しいアルゴリズム的解法を提案する。 最後に,本研究の成果を実証的に示すとともに,提案手法の頑健さを実証する。 我々の研究は、データパーティショニングの一般的なメカニズムについてより深く理解するために、教師なしの学習技術に対する新たな視点を提供すると考えている。

In this paper, we introduce and formalize a rank-one partitioning learning paradigm that unifies partitioning methods that proceed by summarizing a data set using a single vector that is further used to derive the final clustering partition. Using this unification as a starting point, we propose a novel algorithmic solution for the partitioning problem based on rank-one matrix factorization and denoising of piecewise constant signals. Finally, we propose an empirical demonstration of our findings and demonstrate the robustness of the proposed denoising step. We believe that our work provides a new point of view for several unsupervised learning techniques that helps to gain a deeper understanding about the general mechanisms of data partitioning.
翻訳日:2022-10-23 00:44:51 公開日:2020-09-01
# 分類問題に対する改良型ランダムフォレスト

Improved Weighted Random Forest for Classification Problems ( http://arxiv.org/abs/2009.00534v1 )

ライセンス: Link先を確認
Mohsen Shahhosseini, Guiping Hu(参考訳) いくつかの研究では、機械学習モデルを適切な方法で組み合わせることで、ベースモデルによる個々の予測を改善することが示されている。 優れたアンサンブルモデルを作るための鍵は、ベースモデルの多様性にある。 決定木に多様性を導入する最も一般的な解決策は、バグングとランダムな森林である。 Baggingは、多くのトレーニングデータセットをリプレースして生成することで多様性を高め、ランダムフォレストはランダムな数の特徴も追加する。 これにより、ランダムフォレストは多くの機械学習アプリケーションの勝者候補となった。 しかしながら、全てのベース決定木に対して等しい重みを仮定することは、サンプリングと入力特徴の選択のランダム化がベース決定木全体の意思決定能力の異なるレベルをもたらす可能性があるため、合理的ではないように思える。 そこで本研究では,ランダム林の重み付け戦略を改良し,予測精度を向上させるアルゴリズムを提案する。 設計された重み付けフレームワークには、アク精度に基づく最適重み付けランダム林、曲線(AUC)に基づく最適重み付けランダム林、性能に基づく重み付けランダム林、およびいくつかの積み重ねベースの重み付けランダム林モデルが含まれる。 数値的な結果から,提案モデルでは,通常のランダム林に比べ,大幅な改善が期待できることがわかった。

Several studies have shown that combining machine learning models in an appropriate way will introduce improvements in the individual predictions made by the base models. The key to make well-performing ensemble model is in the diversity of the base models. Of the most common solutions for introducing diversity into the decision trees are bagging and random forest. Bagging enhances the diversity by sampling with replacement and generating many training data sets, while random forest adds selecting a random number of features as well. This has made the random forest a winning candidate for many machine learning applications. However, assuming equal weights for all base decision trees does not seem reasonable as the randomization of sampling and input feature selection may lead to different levels of decision-making abilities across base decision trees. Therefore, we propose several algorithms that intend to modify the weighting strategy of regular random forest and consequently make better predictions. The designed weighting frameworks include optimal weighted random forest based on ac-curacy, optimal weighted random forest based on the area under the curve (AUC), performance-based weighted random forest, and several stacking-based weighted random forest models. The numerical results show that the proposed models are able to introduce significant improvements compared to regular random forest.
翻訳日:2022-10-23 00:44:19 公開日:2020-09-01
# 確率グラフリカレントニューラルネットワーク

Stochastic Graph Recurrent Neural Network ( http://arxiv.org/abs/2009.00538v1 )

ライセンス: Link先を確認
Tijin Yan, Hongwei Zhang, Zirui Li, Yuanqing Xia(参考訳) グラフ構造データによる表現学習は、その幅広い応用可能性から広く研究されている。 しかし、従来の手法は主に静的グラフに焦点を当て、実際のグラフの多くは時間とともに進化する。 このような進化のモデル化は、未知のネットワークの特性を予測するのに重要である。 この課題を解決するために、ノード属性とトポロジーの進化を同時に捉えるために確率的潜在変数を適用する新しいニューラルネットワークsgrnnを提案する。 具体的には、決定論的状態は、相互干渉を抑制する反復過程において確率的状態から分離される。 半単純変分推論をSGRNNに統合することにより、非ガウス変分分布を提案し、さらなる性能向上に寄与する。 さらに、SGRNNにおけるKLの消滅問題を緩和するために、KL分割の低い境界に基づいて、単純かつ解釈可能な構造を提案する。 実世界のデータセットに対する大規模な実験により,提案モデルの有効性が示された。 コードはhttps://github.com/StochasticGRNN/SGRNNで入手できる。

Representation learning over graph structure data has been widely studied due to its wide application prospects. However, previous methods mainly focus on static graphs while many real-world graphs evolve over time. Modeling such evolution is important for predicting properties of unseen networks. To resolve this challenge, we propose SGRNN, a novel neural architecture that applies stochastic latent variables to simultaneously capture the evolution in node attributes and topology. Specifically, deterministic states are separated from stochastic states in the iterative process to suppress mutual interference. With semi-implicit variational inference integrated to SGRNN, a non-Gaussian variational distribution is proposed to help further improve the performance. In addition, to alleviate KL-vanishing problem in SGRNN, a simple and interpretable structure is proposed based on the lower bound of KL-divergence. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed model. Code is available at https://github.com/StochasticGRNN/SGRNN.
翻訳日:2022-10-23 00:43:56 公開日:2020-09-01
# 確率的分類器出力の性能非依存融合

Performance-Agnostic Fusion of Probabilistic Classifier Outputs ( http://arxiv.org/abs/2009.00565v1 )

ライセンス: Link先を確認
Jordan F. Masakuna, Simukai W. Utete, Steve Kroon(参考訳) そこで本研究では,個別の分類器に関する情報が得られない場合に,分類器の確率的出力を組み合わせて単一のコンセンサスクラス予測を行う手法を提案する。 関連する事前情報の欠如はベイズ法やデンプスター・シェーファー法の典型的な応用を除外し、ここでの既定のアプローチは和や積規則のような無関心の原理に基づく手法であり、これは本質的にすべての分類器を等しく重み付けするものである。 対照的に,提案手法では,様々な分類器の出力間の多様性を検討し,予測がコンセンサス決定に収束するまで,他の予測との対応に基づいて予測を反復的に更新する。 このアプローチの背景にある直感は、同じタスクのために訓練された分類器は、通常、新しいタスクの出力に正規性を示すべきであるということである。 このアプローチは、様々な予測誤差の相対コストが考慮されないような対称損失関数を暗黙的に仮定する。 モデルのパフォーマンスは、さまざまなベンチマークデータセットで実証される。 提案手法は,精度が性能指標である状況では有効であるが,キャリブレーションされた確率を出力しないため,さらなる処理にそのような確率が必要な状況では適さない。

We propose a method for combining probabilistic outputs of classifiers to make a single consensus class prediction when no further information about the individual classifiers is available, beyond that they have been trained for the same task. The lack of relevant prior information rules out typical applications of Bayesian or Dempster-Shafer methods, and the default approach here would be methods based on the principle of indifference, such as the sum or product rule, which essentially weight all classifiers equally. In contrast, our approach considers the diversity between the outputs of the various classifiers, iteratively updating predictions based on their correspondence with other predictions until the predictions converge to a consensus decision. The intuition behind this approach is that classifiers trained for the same task should typically exhibit regularities in their outputs on a new task; the predictions of classifiers which differ significantly from those of others are thus given less credence using our approach. The approach implicitly assumes a symmetric loss function, in that the relative cost of various prediction errors are not taken into account. Performance of the model is demonstrated on different benchmark datasets. Our proposed method works well in situations where accuracy is the performance metric; however, it does not output calibrated probabilities, so it is not suitable in situations where such probabilities are required for further processing.
翻訳日:2022-10-23 00:43:42 公開日:2020-09-01
# 正規化流れの変分混合

Variational Mixture of Normalizing Flows ( http://arxiv.org/abs/2009.00585v1 )

ライセンス: Link先を確認
Guilherme G. P. Freitas Pires, M\'ario A. T. Figueiredo(参考訳) 過去数年間、生成型adversarial networks \autocite{gan}、変分オートエンコーダ \autocite{vaepaper}などの深層生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されてきた。 これらの初期手法によって達成された顕著なサンプル品質にもかかわらず、それらによって誘導される確率密度関数が明示的にアクセスできないという意味で、ターゲット分布 \emph{implicitly} をモデル化する。 この事実により、これらのメソッドは、例えば、学習した分布で新しいデータインスタンスをスコアリングする必要のあるタスクには不適している。 正規化フローはこの制限を克服し、確率密度関数に変数の変化公式を利用し、トラクタブルで安価に計算可能なヤコビアンを持つように設計された変換を用いている。 柔軟性はあったが、このフレームワークには(最近になって \autocites{semisuplearning_nflows, RAD} まで)非教師なしのシナリオで構築できるモデルに独立した構造(ミックスに見られるものなど)を導入する方法が欠けていた。 本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。 この手順は変分推論に基づいており、ニューラルネットワークによってパラメータ化された変分後段を使用する。 明らかになるが、このモデルは自然に(マルチモーダルな)密度推定、半教師付き学習、クラスタリングに寄与する。 提案したモデルは、2つの合成データセットと、実世界のデータセットで示される。 キーワード: 深層生成モデル、正規化フロー、変分推論、確率的モデリング、混合モデル。

In the past few years, deep generative models, such as generative adversarial networks \autocite{GAN}, variational autoencoders \autocite{vaepaper}, and their variants, have seen wide adoption for the task of modelling complex data distributions. In spite of the outstanding sample quality achieved by those early methods, they model the target distributions \emph{implicitly}, in the sense that the probability density functions induced by them are not explicitly accessible. This fact renders those methods unfit for tasks that require, for example, scoring new instances of data with the learned distributions. Normalizing flows have overcome this limitation by leveraging the change-of-variables formula for probability density functions, and by using transformations designed to have tractable and cheaply computable Jacobians. Although flexible, this framework lacked (until recently \autocites{semisuplearning_nflows, RAD}) a way to introduce discrete structure (such as the one found in mixtures) in the models it allows to construct, in an unsupervised scenario. The present work overcomes this by using normalizing flows as components in a mixture model and devising an end-to-end training procedure for such a model. This procedure is based on variational inference, and uses a variational posterior parameterized by a neural network. As will become clear, this model naturally lends itself to (multimodal) density estimation, semi-supervised learning, and clustering. The proposed model is illustrated on two synthetic datasets, as well as on a real-world dataset. Keywords: Deep generative models, normalizing flows, variational inference, probabilistic modelling, mixture models.
翻訳日:2022-10-23 00:43:19 公開日:2020-09-01
# 人間活動認識におけるパーソナライズ

Personalization in Human Activity Recognition ( http://arxiv.org/abs/2009.00268v1 )

ライセンス: Link先を確認
Anna Ferrari, Daniela Micucci, Marco Mobilio, Paolo Napoletano(参考訳) 近年,人々の行動を自動的に認識できる技術への関心が高まっている。 この分野はHuman Activity Recognition(HAR)として知られている。 harは高齢者や変性状態の影響を受ける人々について、人々の健康状態を監視する上で非常に重要である。 主な課題の1つは、人口の多様性と、身体的特徴や生活様式によって、同じ活動がどのように異なる方法で行われるかである。 本稿では,この情報に依存しない深層学習分類器に対して,物理特性と信号類似性を活用してよりよい結果を得る可能性について検討する。

In the recent years there has been a growing interest in techniques able to automatically recognize activities performed by people. This field is known as Human Activity recognition (HAR). HAR can be crucial in monitoring the wellbeing of the people, with special regard to the elder population and those people affected by degenerative conditions. One of the main challenges concerns the diversity of the population and how the same activities can be performed in different ways due to physical characteristics and life-style. In this paper we explore the possibility of exploiting physical characteristics and signal similarity to achieve better results with respect to deep learning classifiers that do not rely on this information.
翻訳日:2022-10-23 00:42:34 公開日:2020-09-01
# 顔認識における予測不確かさ推定の導入

Inducing Predictive Uncertainty Estimation for Face Recognition ( http://arxiv.org/abs/2009.00603v1 )

ライセンス: Link先を確認
Weidi Xie, Jeffrey Byrne, Andrew Zisserman(参考訳) 顔認識システムを確実に使用するためには、アウトプットがいつ信頼できるかを知ることが重要である。 顔認証の性能向上に関する最近の研究には大きな取り組みがあったが、モデルの予測がいつ信頼されるべきかを理解することは、はるかに少ない関心を集めている。 我々のゴールは、認識可能な情報の観点からその品質を反映した顔画像に信頼スコアを割り当てることである。 そこで本研究では,顔画像の「マッドペア」から画像品質トレーニングデータを自動的に生成し,生成したデータを用いて,PCNetと呼ばれる軽量予測信頼ネットワークをトレーニングし,顔画像の信頼度を推定する手法を提案する。 我々は,pcnetの有用性とその誤りと拒絶性能を体系的に評価し,検証モデルのロバスト性の向上と普遍的なペアリングが可能であることを示す。 IJB-C顔認証ベンチマークの3つのユースケースについて述べる。 i) 画質の低い顔画像の拒絶による1:1画像による検証誤差率の向上 (ii)1:1設定ベースの検証ベンチマークで品質スコアに基づく融合性能を改善すること。 (iii)コレクションから、例えば自動エンロルメントや表示のために、高品質な(ぼろぼろ、よい照明、より前面の)顔を選択するための品質尺度としての使用。

Knowing when an output can be trusted is critical for reliably using face recognition systems. While there has been enormous effort in recent research on improving face verification performance, understanding when a model's predictions should or should not be trusted has received far less attention. Our goal is to assign a confidence score for a face image that reflects its quality in terms of recognizable information. To this end, we propose a method for generating image quality training data automatically from 'mated-pairs' of face images, and use the generated data to train a lightweight Predictive Confidence Network, termed as PCNet, for estimating the confidence score of a face image. We systematically evaluate the usefulness of PCNet with its error versus reject performance, and demonstrate that it can be universally paired with and improve the robustness of any verification model. We describe three use cases on the public IJB-C face verification benchmark: (i) to improve 1:1 image-based verification error rates by rejecting low-quality face images; (ii) to improve quality score based fusion performance on the 1:1 set-based verification benchmark; and (iii) its use as a quality measure for selecting high quality (unblurred, good lighting, more frontal) faces from a collection, e.g. for automatic enrolment or display.
翻訳日:2022-10-23 00:42:26 公開日:2020-09-01
# 部分空間のプログレッシブ適応による教師なし領域適応

Unsupervised Domain Adaptation with Progressive Adaptation of Subspaces ( http://arxiv.org/abs/2009.00520v1 )

ライセンス: Link先を確認
Weikai Li and Songcan Chen(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからの知識をドメインシフトで転送することで、ラベル付きターゲットドメインを分類することを目的としている。 既存のUDA手法の多くは、ドメインの差を減らし、シフトによって引き起こされる悪影響を緩和しようとする。 しかし、そのようなアプローチは、ターゲットドメインにラベルがないため、悪名高いモード崩壊の問題に容易に直面する。 当然、この問題を軽減する効果的な方法の1つは、ターゲットドメインの擬似ラベルを確実に見積もることである。 これを解決するために,我々は,信頼度の高い擬似ラベルを段階的に取得する上で,より合理的と思われる直観を生かした,Progressive Adaptation of Subspaces approach (PAS) と呼ばれる新しいUDA手法を提案する。 概略的に、我々は、これらのターゲットサンプルを信頼できる擬似ラベルで適応的にアンカー/選択し、活用することにより、知識伝達の橋渡しとして、段階的に、着実に共有サブスペースを洗練する。 その後、洗練された部分空間はターゲット領域のより信頼性の高い擬似ラベルを提供することができ、モードの崩壊を軽減できる。 我々の徹底的な評価は、PASが一般的なUDAに有効であるだけでなく、ソースラベルセットが対象とするPDA(Partial Domain Adaptation)の状況において、最先端の技術よりも優れていることを示している。

Unsupervised Domain Adaptation (UDA) aims to classify unlabeled target domain by transferring knowledge from labeled source domain with domain shift. Most of the existing UDA methods try to mitigate the adverse impact induced by the shift via reducing domain discrepancy. However, such approaches easily suffer a notorious mode collapse issue due to the lack of labels in target domain. Naturally, one of the effective ways to mitigate this issue is to reliably estimate the pseudo labels for target domain, which itself is hard. To overcome this, we propose a novel UDA method named Progressive Adaptation of Subspaces approach (PAS) in which we utilize such an intuition that appears much reasonable to gradually obtain reliable pseudo labels. Speci fically, we progressively and steadily refine the shared subspaces as bridge of knowledge transfer by adaptively anchoring/selecting and leveraging those target samples with reliable pseudo labels. Subsequently, the refined subspaces can in turn provide more reliable pseudo-labels of the target domain, making the mode collapse highly mitigated. Our thorough evaluation demonstrates that PAS is not only effective for common UDA, but also outperforms the state-of-the arts for more challenging Partial Domain Adaptation (PDA) situation, where the source label set subsumes the target one.
翻訳日:2022-10-23 00:36:43 公開日:2020-09-01
# 制約付き学習パラメータを用いたディープニューラルネットワークのトレーニング

Training Deep Neural Networks with Constrained Learning Parameters ( http://arxiv.org/abs/2009.00540v1 )

ライセンス: Link先を確認
Prasanna Date, Christopher D. Carothers, John E. Mitchell, James A. Hendler, Malik Magdon-Ismail(参考訳) 今日のディープラーニングモデルは、主にCPUとGPUでトレーニングされています。 これらのモデルは誤差が低い傾向にあるが、二重精度浮動小数点学習パラメータにより高電力を消費し、大量のメモリを使用する。 ムーアの法則を超えて、ディープラーニングタスクの大部分はエッジコンピューティングシステム上で実行され、計算ファブリック全体において不可欠な部分を形成する。 その後、このようなシステムのディープラーニングモデルをトレーニングするには、以下の望ましい特性:低エラー、低メモリ、低電力のモデルを生成するように調整し、採用する必要がある。 学習パラメータが有限個の離散値を持つように制約されたディープニューラルネットワーク(DNN)は,これらの望ましい特徴を持つインテリジェントエッジコンピューティングシステムにおいて,ニューロモルフィックコンピューティングシステム上で動作することが有効であると考えている。 そこで我々は,有限個の離散学習パラメータを持つディープラーニングモデルの学習に座標勾配勾配に基づくアプローチを利用する,コンビネータニューラルネットワークトレーニングアルゴリズム(CoNNTrA)を提案する。 次に、理論的基盤について詳述し、CNNTrAの計算複雑性を評価する。 概念実証として,mnist,iris,imagenetのデータセット上で3次学習パラメータを用いたディープラーニングモデルをトレーニングし,そのパフォーマンスをバックプロパゲーションを用いてトレーニングしたモデルと比較する。 比較には以下のパフォーマンス指標を使用します。 (i)訓練ミス (ii)検証エラー (iii)メモリ使用量、及び (iv)訓練時間。 以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。

Today's deep learning models are primarily trained on CPUs and GPUs. Although these models tend to have low error, they consume high power and utilize large amount of memory owing to double precision floating point learning parameters. Beyond the Moore's law, a significant portion of deep learning tasks would run on edge computing systems, which will form an indispensable part of the entire computation fabric. Subsequently, training deep learning models for such systems will have to be tailored and adopted to generate models that have the following desirable characteristics: low error, low memory, and low power. We believe that deep neural networks (DNNs), where learning parameters are constrained to have a set of finite discrete values, running on neuromorphic computing systems would be instrumental for intelligent edge computing systems having these desirable characteristics. To this extent, we propose the Combinatorial Neural Network Training Algorithm (CoNNTrA), that leverages a coordinate gradient descent-based approach for training deep learning models with finite discrete learning parameters. Next, we elaborate on the theoretical underpinnings and evaluate the computational complexity of CoNNTrA. As a proof of concept, we use CoNNTrA to train deep learning models with ternary learning parameters on the MNIST, Iris and ImageNet data sets and compare their performance to the same models trained using Backpropagation. We use following performance metrics for the comparison: (i) Training error; (ii) Validation error; (iii) Memory usage; and (iv) Training time. Our results indicate that CoNNTrA models use 32x less memory and have errors at par with the Backpropagation models.
翻訳日:2022-10-23 00:36:18 公開日:2020-09-01
# 接地言語のための実践的クロスモーダルマニフォールドアライメント

Practical Cross-modal Manifold Alignment for Grounded Language ( http://arxiv.org/abs/2009.05147v1 )

ライセンス: Link先を確認
Andre T. Nguyen, Luke E. Richards, Gaoussou Youssouf Kebe, Edward Raff, Kasra Darvish, Frank Ferraro, Cynthia Matuszek(参考訳) 本稿では,三重項の損失を利用して,実世界のアイテムの言語に基づく概念の一貫性のある多モード埋め込みを共同で学習する。 rgb深度画像と自然言語記述からアンカー、ポジティブ、負のデータポイントをサンプリングすることで、これらの埋め込みを学習する。 私たちのアプローチは、合理的なパフォーマンスのためにそれを必要とするいくつかのベースラインとは対照的に、プロクセス分析のような後処理ステップの恩恵を受けるが、不要であることを示している。 本手法は,5つの評価指標において,最先端のアプローチを含む4つのベースラインを上回り,ロボットベースグラウンドド言語学習システムの開発に一般的に使用される2つのデータセットに対して,本手法の有効性を実証する。

We propose a cross-modality manifold alignment procedure that leverages triplet loss to jointly learn consistent, multi-modal embeddings of language-based concepts of real-world items. Our approach learns these embeddings by sampling triples of anchor, positive, and negative data points from RGB-depth images and their natural language descriptions. We show that our approach can benefit from, but does not require, post-processing steps such as Procrustes analysis, in contrast to some of our baselines which require it for reasonable performance. We demonstrate the effectiveness of our approach on two datasets commonly used to develop robotic-based grounded language learning systems, where our approach outperforms four baselines, including a state-of-the-art approach, across five evaluation metrics.
翻訳日:2022-10-23 00:35:50 公開日:2020-09-01
# 分子設計のための条件制約付きグラフ変分オートエンコーダ

Conditional Constrained Graph Variational Autoencoders for Molecule Design ( http://arxiv.org/abs/2009.00725v1 )

ライセンス: Link先を確認
Davide Rigoni, Nicol\`o Navarin and Alessandro Sperduti(参考訳) 近年では、グラフの深い生成モデルが新しい分子の生成に用いられている。 これらのモデルは良い結果をもたらし、文献にいくつかの提案がなされた。 しかし、これらのモデルは化学世界を支配する複雑な法則を学ぶのに苦労しているかもしれない。 本研究では、原子価のヒストグラムを用いて、そのようなモデルにおける分子の生成を促進する。 条件制約付きグラフ変分オートエンコーダ (CCGVAE) は、このキーイデアを最先端のモデルで実装したモデルであり、分子生成のために広く採用されている2つのデータセットに対するいくつかの評価指標の改善結果を示す。

In recent years, deep generative models for graphs have been used to generate new molecules. These models have produced good results, leading to several proposals in the literature. However, these models may have troubles learning some of the complex laws governing the chemical world. In this work, we explore the usage of the histogram of atom valences to drive the generation of molecules in such models. We present Conditional Constrained Graph Variational Autoencoder (CCGVAE), a model that implements this key-idea in a state-of-the-art model, and shows improved results on several evaluation metrics on two commonly adopted datasets for molecule generation.
翻訳日:2022-10-23 00:34:51 公開日:2020-09-01
# 一般ファジィmin-maxニューラルネットワークにおける混合属性データ処理手法の詳細な比較

An in-depth comparison of methods handling mixed-attribute data for general fuzzy min-max neural network ( http://arxiv.org/abs/2009.00237v1 )

ライセンス: Link先を確認
Thanh Tung Khuat and Bogdan Gabrys(参考訳) 一般ファジィmin-max(GFMM)ニューラルネットワークは、分類問題に対する効率的な神経ファジィシステムの一つである。 しかし、GFMMの現在の学習アルゴリズムの多くの欠点は、効果的に数値化された特徴しか扱えないことである。 そこで本論文では, gfmm学習アルゴリズムを, 実用上非常に一般的であり, 有用な情報を持っているため, 混合型, カテゴリー的特徴のみを用いた分類問題に適用する可能性について述べる。 我々は、符号化手法の使用、GFMMモデルと他の分類器の組み合わせ、両方の特徴に対して特定の学習アルゴリズムの使用など、データセットを混合特徴で扱う3つの主要な手法を比較し、評価する。 実験の結果,ターゲットとJames-SteinはGFMMモデルのアルゴリズムを学習するための適切な分類的符号化法であり,GFMMニューラルネットワークと決定木の組み合わせは,データセット上のGFMMモデルの分類性能と混合特徴との相関性を高める柔軟な方法であることがわかった。 混合型特徴量を持つ学習アルゴリズムは,混合属性データを自然に扱うための潜在的なアプローチであるが,より正確な分類精度を達成するためにはさらなる改善が必要である。 分析により,異なる手法の強い点と弱い点を同定し,潜在的研究の方向性を提案する。

A general fuzzy min-max (GFMM) neural network is one of the efficient neuro-fuzzy systems for classification problems. However, a disadvantage of most of the current learning algorithms for GFMM is that they can handle effectively numerical valued features only. Therefore, this paper provides some potential approaches to adapting GFMM learning algorithms for classification problems with mixed-type or only categorical features as they are very common in practical applications and often carry very useful information. We will compare and assess three main methods of handling datasets with mixed features, including the use of encoding methods, the combination of the GFMM model with other classifiers, and employing the specific learning algorithms for both types of features. The experimental results showed that the target and James-Stein are appropriate categorical encoding methods for learning algorithms of GFMM models, while the combination of GFMM neural networks and decision trees is a flexible way to enhance the classification performance of GFMM models on datasets with the mixed features. The learning algorithms with the mixed-type feature abilities are potential approaches to deal with mixed-attribute data in a natural way, but they need further improvement to achieve a better classification accuracy. Based on the analysis, we also identify the strong and weak points of different methods and propose potential research directions.
翻訳日:2022-10-23 00:34:39 公開日:2020-09-01
# 地理空間ネットワークを用いた住宅価格予測

Boosting House Price Predictions using Geo-Spatial Network Embedding ( http://arxiv.org/abs/2009.00254v1 )

ライセンス: Link先を確認
Sarkar Snigdha Sarathi Das, Mohammed Eunus Ali, Yuan-Fang Li, Yong-Bin Kang, Timos Sellis(参考訳) 不動産は世界中の主要経済に大きく貢献している。 特に住宅価格は、住宅購入者から金融会社まで、利害関係者に直接的な影響を与える。 このように不動産価格予測のための様々な手法が開発されている。 既存の技術のほとんどは、住宅価格を予測する様々な予測モデルを構築するために、異なる住宅機能に依存している。 住宅価格に空間依存が及ぼす影響を把握し、予測性能を向上させるための空間回帰モデルの導入に焦点をあてた研究もある。 しかし、駅や高ランクの学校、ショッピングセンターへの住宅の近さなど、近隣のアメニティの地理空間的文脈を考慮に入れていない。 このような文脈情報は、住宅におけるユーザーの興味に重要な役割を担い、価格に直接影響する可能性がある。 本稿では,住宅近傍の地理空間的文脈を捉えるために,グラフニューラルネットワークの概念を活用することを提案する。 特に,住宅の埋め込みと様々な種類の興味点(pois)を多部ネットワークとして学習する新しい手法gsne(geo-spatial network embedded)を提案し,住宅とpoisを属性ノードとして表現し,それらの関係をエッジとして表現する。 多数の回帰手法を用いた大規模実験により,提案手法による組込みが一貫して行われ,下流回帰モデルによらず住宅価格予測タスクの性能が著しく向上することを示した。

Real estate contributes significantly to all major economies around the world. In particular, house prices have a direct impact on stakeholders, ranging from house buyers to financing companies. Thus, a plethora of techniques have been developed for real estate price prediction. Most of the existing techniques rely on different house features to build a variety of prediction models to predict house prices. Perceiving the effect of spatial dependence on house prices, some later works focused on introducing spatial regression models for improving prediction performance. However, they fail to take into account the geo-spatial context of the neighborhood amenities such as how close a house is to a train station, or a highly-ranked school, or a shopping center. Such contextual information may play a vital role in users' interests in a house and thereby has a direct influence on its price. In this paper, we propose to leverage the concept of graph neural networks to capture the geo-spatial context of the neighborhood of a house. In particular, we present a novel method, the Geo-Spatial Network Embedding (GSNE), that learns the embeddings of houses and various types of Points of Interest (POIs) in the form of multipartite networks, where the houses and the POIs are represented as attributed nodes and the relationships between them as edges. Extensive experiments with a large number of regression techniques show that the embeddings produced by our proposed GSNE technique consistently and significantly improve the performance of the house price prediction task regardless of the downstream regression model.
翻訳日:2022-10-23 00:34:19 公開日:2020-09-01
# 時間とともに制約された神経ユニットの開発

Developing Constrained Neural Units Over Time ( http://arxiv.org/abs/2009.00296v1 )

ライセンス: Link先を確認
Alessandro Betti, Marco Gori, Simone Marullo, Stefano Melacci(参考訳) 本稿では,最小認知行動原理の文脈において,ニューラルネットワークを用いた学習問題を定義する制約付き手法に関する基礎的検討を行う。 この研究は、学習のダイナミックな法則に制約を強制する一般的なアプローチから始まり、既存のほとんどのアプローチとは異なるニューラルネットワークを定義する代替方法に焦点を当てている。 特に、ニューラルネットワークの構造は、データとの相互作用にも拡張される特別な制約のクラスによって定義され、それぞれ「アーキテクチャ」と「インプット関連」の制約をもたらす。 提案する理論は、データを順序づけられた方法でネットワークに提示する時間領域に投入され、ニューラルネットワークを用いて連続的なデータストリームを処理する方法の代替として重要なステップとなる。 従来のバックプロパゲーションに基づくネットワーク重みの更新規則との関係について論じ,提案手法がバックプロパゲーションに退化する条件が存在することを示す。 さらに、この理論は、理論のいくつかの側面を深く研究し、モデルの健全性を示すための単純な問題に基づいて実験的に評価される。

In this paper we present a foundational study on a constrained method that defines learning problems with Neural Networks in the context of the principle of least cognitive action, which very much resembles the principle of least action in mechanics. Starting from a general approach to enforce constraints into the dynamical laws of learning, this work focuses on an alternative way of defining Neural Networks, that is different from the majority of existing approaches. In particular, the structure of the neural architecture is defined by means of a special class of constraints that are extended also to the interaction with data, leading to "architectural" and "input-related" constraints, respectively. The proposed theory is cast into the time domain, in which data are presented to the network in an ordered manner, that makes this study an important step toward alternative ways of processing continuous streams of data with Neural Networks. The connection with the classic Backpropagation-based update rule of the weights of networks is discussed, showing that there are conditions under which our approach degenerates to Backpropagation. Moreover, the theory is experimentally evaluated on a simple problem that allows us to deeply study several aspects of the theory itself and to show the soundness of the model.
翻訳日:2022-10-23 00:33:29 公開日:2020-09-01
# STDPを用いた時間符号化のための深部2次元動的スパイク神経ネットワーク

A Deep 2-Dimensional Dynamical Spiking Neuronal Network for Temporal Encoding trained with STDP ( http://arxiv.org/abs/2009.00581v1 )

ライセンス: Link先を確認
Matthew Evanusa and Cornelia Fermuller and Yiannis Aloimonos(参考訳) 脳は高度に複雑で非同期な力学系であり、時間的情報をエンコードするために高度に調整されている。 しかし、近年のディープラーニングアプローチでは、この時間的コーディングを利用できない。 スパイキングニューラルネットワーク(SNN)は、生物学的に現実的な学習メカニズムを用いて訓練することができ、生物学的に関係のあるニューロン活性化規則を持つことができる。 このタイプのネットワークは、時間遅延電圧更新(現在のレートエンコーディングネットワークでは困難である入力の一種)を通じて時間情報の受信を基本として構成されている。 そこで本研究では,stdpなどの生体学習規則を用いて,哺乳類大脳皮質を模倣する動的・カオス的活動を有する,大きな層状snが,時間的データから情報をエンコードできることを示す。 ネットワーク重みに内在するランダム性は、stdpによる自己組織化後に入力される時間データをエンコードする群をニューロンが形成することを可能にする。 我々は,入力刺激の正確なタイミングが,階層ネットワークにおける同期ニューラルネットワークの形成に重要であることを示す。 情報伝達の指標として,ネットワークエントロピーの観点からネットワークを解析する。 私たちは、一度に2つの問題に取り組むことを望んでいます。人工知能のための人工側頭神経システムの作成と、脳内のコーディングメカニズムの解決です。

The brain is known to be a highly complex, asynchronous dynamical system that is highly tailored to encode temporal information. However, recent deep learning approaches to not take advantage of this temporal coding. Spiking Neural Networks (SNNs) can be trained using biologically-realistic learning mechanisms, and can have neuronal activation rules that are biologically relevant. This type of network is also structured fundamentally around accepting temporal information through a time-decaying voltage update, a kind of input that current rate-encoding networks have difficulty with. Here we show that a large, deep layered SNN with dynamical, chaotic activity mimicking the mammalian cortex with biologically-inspired learning rules, such as STDP, is capable of encoding information from temporal data. We argue that the randomness inherent in the network weights allow the neurons to form groups that encode the temporal data being inputted after self-organizing with STDP. We aim to show that precise timing of input stimulus is critical in forming synchronous neural groups in a layered network. We analyze the network in terms of network entropy as a metric of information transfer. We hope to tackle two problems at once: the creation of artificial temporal neural systems for artificial intelligence, as well as solving coding mechanisms in the brain.
翻訳日:2022-10-23 00:27:17 公開日:2020-09-01
# 画像デノイジングのためのオペレーショナル対畳み込みニューラルネットワーク

Operational vs Convolutional Neural Networks for Image Denoising ( http://arxiv.org/abs/2009.00612v1 )

ライセンス: Link先を確認
Junaid Malik, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 畳み込みニューラルネットワーク(CNN)は、適応学習能力、特に深い構成により、画像のデノナイズに好まれる技術となっている。 しかしながら、それらの効果は本質的には、線形畳み込みのユニークな使用による均質なネットワーク形成によって制限される。 本研究では,データ変換のコアに追加の非線形性を埋め込むための柔軟性を高める異種ネットワークモデルを提案する。 そこで本研究では,層間および層内ニューロンの多様性を生かした,柔軟性のある非線形・不均質な構成を実現するオペレーショナルニューロンまたはオペレーショナルニューラルネットワーク(onn)のアイデアを提案する。 さらに,任意のアーキテクチャにおいて非線型性に対してデータ駆動型選択を行うことができるシンナプティック可塑性モニタリング(spm)と呼ばれる,ヒュービアン理論に触発されたロバストな演算子探索戦略を提案する。 ONNとCNNの比較評価は、線形演算子に富んだONNが等価かつよく知られた深層構成のCNNに対して優れたノイズ発生性能を達成できるという決定的な証拠が得られる。

Convolutional Neural Networks (CNNs) have recently become a favored technique for image denoising due to its adaptive learning ability, especially with a deep configuration. However, their efficacy is inherently limited owing to their homogenous network formation with the unique use of linear convolution. In this study, we propose a heterogeneous network model which allows greater flexibility for embedding additional non-linearity at the core of the data transformation. To this end, we propose the idea of an operational neuron or Operational Neural Networks (ONN), which enables a flexible non-linear and heterogeneous configuration employing both inter and intra-layer neuronal diversity. Furthermore, we propose a robust operator search strategy inspired by the Hebbian theory, called the Synaptic Plasticity Monitoring (SPM) which can make data-driven choices for non-linearities in any architecture. An extensive set of comparative evaluations of ONNs and CNNs over two severe image denoising problems yield conclusive evidence that ONNs enriched by non-linear operators can achieve a superior denoising performance against CNNs with both equivalent and well-known deep configurations.
翻訳日:2022-10-23 00:26:55 公開日:2020-09-01
# サイバーいじめ検出の一般化

Generalisation of Cyberbullying Detection ( http://arxiv.org/abs/2009.01046v1 )

ライセンス: Link先を確認
Khoury Richard and Larochelle Marc-Andr\'e(参考訳) サイバーいじめは、今日のユビキタスオンラインコミュニティで問題となっている。 オンライン会話からそれをフィルタリングすることは困難であることが証明され、さまざまなデータセットが作成され、すべて分類器を訓練するためのリソースとして提供されている。 これらのデータセットを通じて、サイバーいじめ行動の定義の多様性と、その違いが別のコミュニティへの分類器の移植性に与える影響について検討する。 また,データセット間の類似性を解析することにより,学習した分類器の一般化能力について考察する。 これらの分類器を組み合わせたアンサンブルモデルの研究は、相互にどのように相互作用するかを理解するのに役立ちます。

Cyberbullying is a problem in today's ubiquitous online communities. Filtering it out of online conversations has proven a challenge, and efforts have led to the creation of many different datasets, all offered as resources to train classifiers. Through these datasets, we will explore the variety of definitions of cyberbullying behaviors and the impact of these differences on the portability of one classifier to another community. By analyzing the similarities between datasets, we also gain insight on the generalization power of the classifiers trained from them. A study of ensemble models combining these classifiers will help us understand how they interact with each other.
翻訳日:2022-10-23 00:26:37 公開日:2020-09-01
# AIとIIoTによる予測メンテナンスからインテリジェントメンテナンスへの進化

Advancing from Predictive Maintenance to Intelligent Maintenance with AI and IIoT ( http://arxiv.org/abs/2009.00351v1 )

ライセンス: Link先を確認
Haining Zheng and Antonio R. Paiva and Chris S. Gurciullo(参考訳) 人工知能(AI)技術が進歩し、さまざまな産業用IoT(Industrial Internet of Things, IIoT)プロジェクトを通じて、大量のデータが利用可能になるにつれて、予測メンテナンスの手法の現状を評価し、現在の実践を改善する革新的なフレームワークを提案する。 本稿は,過去90年間の信頼性モデリング技術の進化を概観し,産学界における主要な技術について述べる。 次に,次世代メンテナンスフレームワークであるインテリジェントメンテナンスを紹介し,その重要なコンポーネントについて論じる。 このAIおよびIIoTベースのインテリジェントメンテナンスフレームワークは、(1)ディープラーニングによる確率的信頼性モデリングを含む最新の機械学習アルゴリズム、(2)ワイヤレススマートセンサーによるリアルタイムデータ収集、転送、ストレージ、(3)ビッグデータ技術、(4)機械学習モデルの継続的インテグレーションとデプロイ、(5)モバイルデバイスとAR/VRアプリケーションの分野における高速かつより良い意思決定を含む。 特に,新しい確率論的深層学習信頼性モデリング手法を提案し,Turbofan Engine Degradation Datasetで実証した。

As Artificial Intelligent (AI) technology advances and increasingly large amounts of data become readily available via various Industrial Internet of Things (IIoT) projects, we evaluate the state of the art of predictive maintenance approaches and propose our innovative framework to improve the current practice. The paper first reviews the evolution of reliability modelling technology in the past 90 years and discusses major technologies developed in industry and academia. We then introduce the next generation maintenance framework - Intelligent Maintenance, and discuss its key components. This AI and IIoT based Intelligent Maintenance framework is composed of (1) latest machine learning algorithms including probabilistic reliability modelling with deep learning, (2) real-time data collection, transfer, and storage through wireless smart sensors, (3) Big Data technologies, (4) continuously integration and deployment of machine learning models, (5) mobile device and AR/VR applications for fast and better decision-making in the field. Particularly, we proposed a novel probabilistic deep learning reliability modelling approach and demonstrate it in the Turbofan Engine Degradation Dataset.
翻訳日:2022-10-23 00:25:52 公開日:2020-09-01
# データ不確実性によるグラフ埋め込み

Graph Embedding with Data Uncertainty ( http://arxiv.org/abs/2009.00505v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Nikolaos Passalis, Alexandros Iosifidis, Moncef Gabbouj(参考訳) スペクトルベースのサブスペース学習は、多くの機械学習パイプラインで一般的なデータ前処理ステップである。 主な目的は、データの有意義な低次元埋め込みを学ぶことである。 しかし、ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確性やアーティファクトを考慮していない。 したがって、生データから直接学習することは誤解を招く可能性があり、精度に悪影響を及ぼす可能性がある。 本稿では,各データポイントを元のデータポイントを中心とするガウス分布で表現し,その不確かさをモデル化する分散分布を持つ確率分布を用いて,トレーニングデータ内のアーチファクトをモデル化する。 グラフ埋め込みフレームワークを再構成して,分布から学習するのに適したものにし,特に線形識別分析法とマージナルフィッシャー分析法について検討する。 さらに,教師なしコンテキストと教師なしコンテキストのペア間距離に基づくデータ不確実性をモデル化するための2つのスキームを提案する。

spectral-based subspace learning is a common data preprocessing step in many machine learning pipelines. The main aim is to learn a meaningful low dimensional embedding of the data. However, most subspace learning methods do not take into consideration possible measurement inaccuracies or artifacts that can lead to data with high uncertainty. Thus, learning directly from raw data can be misleading and can negatively impact the accuracy. In this paper, we propose to model artifacts in training data using probability distributions; each data point is represented by a Gaussian distribution centered at the original data point and having a variance modeling its uncertainty. We reformulate the Graph Embedding framework to make it suitable for learning from distributions and we study as special cases the Linear Discriminant Analysis and the Marginal Fisher Analysis techniques. Furthermore, we propose two schemes for modeling data uncertainty based on pair-wise distances in an unsupervised and a supervised contexts.
翻訳日:2022-10-23 00:25:30 公開日:2020-09-01
# 改良された二レベルモデル:理論的保証による高速最適アルゴリズム

Improved Bilevel Model: Fast and Optimal Algorithm with Theoretical Guarantee ( http://arxiv.org/abs/2009.00690v1 )

ライセンス: Link先を確認
Junyi Li, Bin Gu, Heng Huang(参考訳) 多くの機械学習問題の階層構造のため、近年は二段階プログラミングがますます重要になっているが、内部問題と外部問題との複雑な相関が解決を極めて困難にしている。 自動微分に基づくいくつかの直感的なアルゴリズムが提案され、いくつかの応用で成功したが、双レベルモデルの最適定式化にはあまり注意が払われていない。 より良い定式化が存在するかどうかはまだ未解決の問題だ。 本稿では,現在の定式化よりも高速に収束する改良された2レベルモデルを提案する。 データハイパークリーニングとハイパー表現学習という2つのタスクに関する理論的保証と評価結果を提供する。 実験結果から,本モデルが現行のバイレベルモデルより優れた性能を示した。 \emph{これは \citet{liu2020generic} との同時研究であり、我々は icml 2020 に提出した。 そして今、記録のためにarxivに載せた。 }

Due to the hierarchical structure of many machine learning problems, bilevel programming is becoming more and more important recently, however, the complicated correlation between the inner and outer problem makes it extremely challenging to solve. Although several intuitive algorithms based on the automatic differentiation have been proposed and obtained success in some applications, not much attention has been paid to finding the optimal formulation of the bilevel model. Whether there exists a better formulation is still an open problem. In this paper, we propose an improved bilevel model which converges faster and better compared to the current formulation. We provide theoretical guarantee and evaluation results over two tasks: Data Hyper-Cleaning and Hyper Representation Learning. The empirical results show that our model outperforms the current bilevel model with a great margin. \emph{This is a concurrent work with \citet{liu2020generic} and we submitted to ICML 2020. Now we put it on the arxiv for record.}
翻訳日:2022-10-23 00:25:17 公開日:2020-09-01
# 代替型ブラックボックス攻撃に対する01損失による防御

Defending against substitute model black box adversarial attacks with the 01 loss ( http://arxiv.org/abs/2009.09803v1 )

ライセンス: Link先を確認
Yunzhe Xue, Meiyan Xie, Usman Roshan(参考訳) 代替モデルブラックボックス攻撃は、出力ラベルにアクセスするだけでターゲットモデルの逆例を作成することができる。 これは機械学習モデル、特にセキュリティに敏感なアプリケーションにとって大きな課題となる。 01損失モデルは、一般的に使用される凸モデルよりも、異常値やノイズに対して頑健であることが知られている。 これらの特性により、転送ベース代替モデルブラックボックス攻撃に対する防御として、01損失線形と01損失二重層ニューラルネットワークモデルを示す。 我々は,我々の01損失モデルを対象にした代替モデルのブラックボックス攻撃と,人気のある画像ベンチマークにおけるバイナリ分類のための凸攻撃の精度を比較した。 我々の01損失二重層ニューラルネットワークは、MNIST、CIFAR10、STL10、ImageNetでそれぞれ66.2%、58%、60.5%、および57%の逆精度を持つが、シグモノイド活性化ロジスティック損失は63.5%、19.3%、14.9%、27.6%である。 MNISTを除いて、凸部は逆境の精度が著しく低い。 我々は,交通標識や顔認識の攻撃を抑えるために,我々のモデルの実用的応用を示す。 GTSRBの道路標識とCelebAの顔検出では、01損失ネットワークはそれぞれ34.6%と37.1%の精度で、凸ロジスティックなネットワークは24%と1.9%である。 最後に、我々の01損失ネットワークは、単純な畳み込みニューラルネットワークと同等の堅牢性を達成でき、畳み込みネットワーク代用モデルで攻撃しても、その畳み込みネットワークよりもはるかに高くなることを示す。 我々の研究は、01損失モデルが代替モデルブラックボックス攻撃に対する強力な防御を提供することを示している。

Substitute model black box attacks can create adversarial examples for a target model just by accessing its output labels. This poses a major challenge to machine learning models in practice, particularly in security sensitive applications. The 01 loss model is known to be more robust to outliers and noise than convex models that are typically used in practice. Motivated by these properties we present 01 loss linear and 01 loss dual layer neural network models as a defense against transfer based substitute model black box attacks. We compare the accuracy of adversarial examples from substitute model black box attacks targeting our 01 loss models and their convex counterparts for binary classification on popular image benchmarks. Our 01 loss dual layer neural network has an adversarial accuracy of 66.2%, 58%, 60.5%, and 57% on MNIST, CIFAR10, STL10, and ImageNet respectively whereas the sigmoid activated logistic loss counterpart has accuracies of 63.5%, 19.3%, 14.9%, and 27.6%. Except for MNIST the convex counterparts have substantially lower adversarial accuracies. We show practical applications of our models to deter traffic sign and facial recognition adversarial attacks. On GTSRB street sign and CelebA facial detection our 01 loss network has 34.6% and 37.1% adversarial accuracy respectively whereas the convex logistic counterpart has accuracy 24% and 1.9%. Finally we show that our 01 loss network can attain robustness on par with simple convolutional neural networks and much higher than its convex counterpart even when attacked with a convolutional network substitute model. Our work shows that 01 loss models offer a powerful defense against substitute model black box attacks.
翻訳日:2022-10-23 00:24:47 公開日:2020-09-01