このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210115となっている論文です。

PDF登録状況(公開日: 20210115)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 適応型オンライン学習に基づく確率的負荷予測 [全文訳有]

Probabilistic Load Forecasting Based on Adaptive Online Learning ( http://arxiv.org/abs/2011.14721v3 )

ライセンス: CC BY 4.0
Ver\'onica \'Alvarez, Santiago Mazuelas, and Jos\'e A. Lozano(参考訳) 負荷予測は、生産能力のスケジューリング、需給計画、エネルギー貿易コストの最小化など、複数のエネルギー管理タスクにおいて不可欠である。 このような関連性は近年、再生可能エネルギー、電気自動車、マイクログリッドの統合によってさらに高まっている。 従来の負荷予測手法は、過去の負荷需要の消費パターンを利用して単価負荷予測を得る。 しかし,このような手法では負荷需要の固有不確かさを評価できず,消費パターンの動的変化を捉えることができない。 本稿では,隠れマルコフモデルの適応的オンライン学習に基づく確率的負荷予測手法を提案する。 本稿では,理論的保証のある学習予測手法を提案し,その性能を複数のシナリオで実験的に評価する。 特に,モデルパラメータを再帰的に更新する適応型オンライン学習手法と,最新のパラメータを用いて確率的予測を得る逐次予測手法を開発する。 本手法の性能は,異なる大きさの領域に対応する複数のデータセットを用いて評価し,時間変化による消費パターンを表示する。 その結果,提案手法は幅広いシナリオにおいて既存の手法の性能を大幅に向上できることがわかった。

Load forecasting is crucial for multiple energy management tasks such as scheduling generation capacity, planning supply and demand, and minimizing energy trade costs. Such relevance has increased even more in recent years due to the integration of renewable energies, electric cars, and microgrids. Conventional load forecasting techniques obtain single-value load forecasts by exploiting consumption patterns of past load demand. However, such techniques cannot assess intrinsic uncertainties in load demand, and cannot capture dynamic changes in consumption patterns. To address these problems, this paper presents a method for probabilistic load forecasting based on the adaptive online learning of hidden Markov models. We propose learning and forecasting techniques with theoretical guarantees, and experimentally assess their performance in multiple scenarios. In particular, we develop adaptive online learning techniques that update model parameters recursively, and sequential prediction techniques that obtain probabilistic forecasts using the most recent parameters. The performance of the method is evaluated using multiple datasets corresponding with regions that have different sizes and display assorted time-varying consumption patterns. The results show that the proposed method can significantly improve the performance of existing techniques for a wide range of scenarios.
翻訳日:2021-06-07 03:05:51 公開日:2021-01-15
# 不均質多層ネットワークにおけるグローバルおよび個別化コミュニティ検出

Global and Individualized Community Detection in Inhomogeneous Multilayer Networks ( http://arxiv.org/abs/2012.00933v2 )

ライセンス: Link先を確認
Shuxiao Chen, Sifan Liu, Zongming Ma(参考訳) ネットワークアプリケーションでは、同じ対象の集合上で観測される複数のネットワークの形式でデータセットを取得することが一般的になり、各ネットワークは関連するが異なる実験条件やアプリケーションシナリオで取得される。 このようなデータセットは、各レイヤが別々のネットワークであり、異なるレイヤが関連付けられ、共通の情報を共有する多層ネットワークによってモデル化することができる。 本稿では,非均一な多層ネットワークモデルによるコミュニティ検出について検討する。 我々のモデルでは、異なる確率ブロックモデルによって層が生成され、それらのコミュニティ構造は共通の大域構造の摂動であり、異なる層における接続確率は関連しない。 対称な2ブロックの場合に着目して,共通構造のemph{global estimation} と層別コミュニティ構造のemph{individualized estimation} の両方の最小化率を定式化する。 両方のミニマックスレートは鋭い指数を持つ。 さらに,軽度条件下での両推定タスクに最適な漸近的ミニマックスである効率的なアルゴリズムを提案する。 最適速度は最も情報性の高い層の数である「emph{parity}」に依存し、これは層間の不均一性によって引き起こされる現象である。

In network applications, it has become increasingly common to obtain datasets in the form of multiple networks observed on the same set of subjects, where each network is obtained in a related but different experiment condition or application scenario. Such datasets can be modeled by multilayer networks where each layer is a separate network itself while different layers are associated and share some common information. The present paper studies community detection in a stylized yet informative inhomogeneous multilayer network model. In our model, layers are generated by different stochastic block models, the community structures of which are (random) perturbations of a common global structure while the connecting probabilities in different layers are not related. Focusing on the symmetric two block case, we establish minimax rates for both \emph{global estimation} of the common structure and \emph{individualized estimation} of layer-wise community structures. Both minimax rates have sharp exponents. In addition, we provide an efficient algorithm that is simultaneously asymptotic minimax optimal for both estimation tasks under mild conditions. The optimal rates depend on the \emph{parity} of the number of most informative layers, a phenomenon that is caused by inhomogeneity across layers.
翻訳日:2021-05-25 03:40:10 公開日:2021-01-15
# (参考訳) ニューラルネットワークの分散トレーニングと最適化 [全文訳有]

Distributed Training and Optimization Of Neural Networks ( http://arxiv.org/abs/2012.01839v2 )

ライセンス: CC BY 4.0
Jean-Roch Vlimant, Junqi Yin(参考訳) ディープラーニングモデルは、複数の要因のおかげで、パフォーマンスがますます向上しています。 成功させるために、モデルは多数のパラメータや複雑なアーキテクチャを持ち、大きなデータセットでトレーニングされる。 これにより、計算リソースの要求が大きくなり、さらにハイパーパラメータ最適化を行う場合(例えばモデルアーキテクチャを探索する)に時間を反転させる。 これは粒子物理学を超えた課題であるが、必要な計算を並列に行うための様々な方法をレビューし、それを高エネルギー物理学の文脈に配置する。

Deep learning models are yielding increasingly better performances thanks to multiple factors. To be successful, model may have large number of parameters or complex architectures and be trained on large dataset. This leads to large requirements on computing resource and turn around time, even more so when hyper-parameter optimization is done (e.g search over model architectures). While this is a challenge that goes beyond particle physics, we review the various ways to do the necessary computations in parallel, and put it in the context of high energy physics.
翻訳日:2021-05-23 22:48:11 公開日:2021-01-15
# FOMC記者会見におけるリスクとリターン : コンピュータビジョンからの新しい視点

Risk & returns around FOMC press conferences: a novel perspective from computer vision ( http://arxiv.org/abs/2012.06573v2 )

ライセンス: Link先を確認
Alexis Marchal(参考訳) FOMC記者会見における不確実性の解消を特徴付ける新しいツールを提案する。 これは、Q&Aセッション中のFRB議長と記者の間の議論の複雑さのレベルを計測する尺度の構築に依存している。 複雑な議論は、より高い株式リターンと実現可能なボラティリティの低下に関連していることを示す。 この方法は、質問に答えるために、椅子が内部文書を読むことに依存する必要があるかを定量化することによって注意スコアを生成する。 これは、記者会見のビデオ画像の新しいデータセットを構築し、コンピュータビジョンから最新のディープラーニングアルゴリズムを活用することで実現されている。 この代替データは、広く分析されたFOMC転写から抽出できない非言語コミュニケーションに関する新しい情報を提供する。 本論文は,金融市場研究に有用な情報を含むビデオが,ある概念の証明であると考えられる。

I propose a new tool to characterize the resolution of uncertainty around FOMC press conferences. It relies on the construction of a measure capturing the level of discussion complexity between the Fed Chair and reporters during the Q&A sessions. I show that complex discussions are associated with higher equity returns and a drop in realized volatility. The method creates an attention score by quantifying how much the Chair needs to rely on reading internal documents to be able to answer a question. This is accomplished by building a novel dataset of video images of the press conferences and leveraging recent deep learning algorithms from computer vision. This alternative data provides new information on nonverbal communication that cannot be extracted from the widely analyzed FOMC transcripts. This paper can be seen as a proof of concept that certain videos contain valuable information for the study of financial markets.
翻訳日:2021-05-11 03:13:29 公開日:2021-01-15
# 植生分類タスクにおける三重項損失を用いたワンショット学習

One-Shot Learning with Triplet Loss for Vegetation Classification Tasks ( http://arxiv.org/abs/2012.07403v2 )

ライセンス: Link先を確認
Alexander Uzhinskiy (1), Gennady Ososkov (1), Pavel Goncharov (1), Andrey Nechaevskiy (1), Artem Smetanin (2) ((1) Joint Institute for Nuclear Research, Dubna, Moscow region, Russia, (2) ITMO University, Saint Petersburg, Russia)(参考訳) 三重項損失関数は、ワンショット学習タスクの精度を大幅に向上できる選択肢の1つである。 2015年からは、多くのプロジェクトがシームズネットワークとこの種の損失を顔認識とオブジェクト分類に使っている。 本研究では,植生に関する2つの課題に着目した。 1つ目は5種の作物(穀物、綿花、小麦、キュウリ、トウモロコシ)の25種類の植物病の検出である。 この課題は、大きな農業施設と農村の双方にとって、病気による収穫の損失が深刻な問題であるからである。 第2のタスクは、moss種(5つのクラス)の同定である。 ムースは汚染物質の天然の生物蓄積物であり、環境モニタリングプログラムで使用される。 モス種の同定は、サンプル前処理において重要なステップである。 どちらのタスクでも、自己収集画像データベースを使用しました。 いくつかのディープラーニングアーキテクチャとアプローチを試しました。 三重項損失関数を持つsiameseネットワークアーキテクチャとベースネットワークとしてのmobilenetv2は,上記の2つのタスクにおいて最も印象的な結果を示した。 植物病検出の平均精度は97.8%以上であり、moss種分類では97.6%であった。

Triplet loss function is one of the options that can significantly improve the accuracy of the One-shot Learning tasks. Starting from 2015, many projects use Siamese networks and this kind of loss for face recognition and object classification. In our research, we focused on two tasks related to vegetation. The first one is plant disease detection on 25 classes of five crops (grape, cotton, wheat, cucumbers, and corn). This task is motivated because harvest losses due to diseases is a serious problem for both large farming structures and rural families. The second task is the identification of moss species (5 classes). Mosses are natural bioaccumulators of pollutants; therefore, they are used in environmental monitoring programs. The identification of moss species is an important step in the sample preprocessing. In both tasks, we used self-collected image databases. We tried several deep learning architectures and approaches. Our Siamese network architecture with a triplet loss function and MobileNetV2 as a base network showed the most impressive results in both above-mentioned tasks. The average accuracy for plant disease detection amounted to over 97.8% and 97.6% for moss species classification.
翻訳日:2021-05-08 14:31:06 公開日:2021-01-15
# GLISTER:効率的なロバスト学習のための一般化に基づくデータセット選択

GLISTER: Generalization based Data Subset Selection for Efficient and Robust Learning ( http://arxiv.org/abs/2012.10630v3 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Durga Sivasubramanian, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) 大規模機械学習と深層モデルは非常にデータ量が多い。 残念なことに、大量のラベル付きデータを取得するのは高価であり、最先端モデルのトレーニング(ハイパーパラメータチューニング)には、かなりの計算資源と時間が必要である。 第二に、現実世界のデータは騒々しく不均衡です。 その結果、最近のいくつかの論文は、トレーニングプロセスをより効率的で堅牢なものにしようと試みている。 しかし、既存の仕事の多くは堅牢性か効率性に重点を置いているが、両方ではない。 本稿では、GeneraLIzationをベースとしたデータSubset selecTion for Efficient and Robust Learning frameworkであるGlisterを紹介する。 我々はglisterを混合離散連続二レベル最適化問題として定式化し、トレーニングデータのサブセットを選択し、ホールドアウト検証セットのログライク度を最大化する。 次に、パラメータ更新と共に反復的にデータ選択を行い、損失ベースの学習アルゴリズムに適用可能な反復オンラインアルゴリズムglister-onlineを提案する。 次に、クロスエントロピー、ヒンジロス、二乗ロス、ロジスティックロスを含む豊富な損失関数に対して、内部離散データ選択は(弱い)部分モジュラー最適化の例であり、Glister-Onlineが検証損失と収束を減少させる条件を分析する。 最後に,バッチアクティブ学習の拡張であるGlister-Activeを提案し,(a)学習時間を削減するためのデータ選択,(b)ラベルノイズと不均衡条件下での堅牢な学習,(c)深層モデルと浅層モデルを用いたバッチアクティブ学習など,幅広いタスクにおけるGlisterの性能を実証的に示す。 提案手法は,(a) と(c) の場合に)効率と精度の両面で向上し,(b) の場合には他の最先端の頑健な学習アルゴリズムよりも効率的であることを示す。

Large scale machine learning and deep models are extremely data-hungry. Unfortunately, obtaining large amounts of labeled data is expensive, and training state-of-the-art models (with hyperparameter tuning) requires significant computing resources and time. Secondly, real-world data is noisy and imbalanced. As a result, several recent papers try to make the training process more efficient and robust. However, most existing work either focuses on robustness or efficiency, but not both. In this work, we introduce Glister, a GeneraLIzation based data Subset selecTion for Efficient and Robust learning framework. We formulate Glister as a mixed discrete-continuous bi-level optimization problem to select a subset of the training data, which maximizes the log-likelihood on a held-out validation set. Next, we propose an iterative online algorithm Glister-Online, which performs data selection iteratively along with the parameter updates and can be applied to any loss-based learning algorithm. We then show that for a rich class of loss functions including cross-entropy, hinge-loss, squared-loss, and logistic-loss, the inner discrete data selection is an instance of (weakly) submodular optimization, and we analyze conditions for which Glister-Online reduces the validation loss and converges. Finally, we propose Glister-Active, an extension to batch active learning, and we empirically demonstrate the performance of Glister on a wide range of tasks including, (a) data selection to reduce training time, (b) robust learning under label noise and imbalance settings, and (c) batch-active learning with several deep and shallow models. We show that our framework improves upon state of the art both in efficiency and accuracy (in cases (a) and (c)) and is more efficient compared to other state-of-the-art robust learning algorithms in case (b).
翻訳日:2021-05-01 11:16:53 公開日:2021-01-15
# 確率フリー推論のためのスコアマッチング条件付指数関数族

Score Matched Conditional Exponential Families for Likelihood-Free Inference ( http://arxiv.org/abs/2012.10903v2 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Ritabrata Dutta(参考訳) 確率的シミュレーターモデルに対するベイズ推論を行うために、LFI (Likelihood-Free Inference) はモデルからのシミュレーションに依存する。 標準的なLFI法は、これらのシミュレーションがどのように使われるかに応じて分割することができる: 明示的なサロゲート様相を構築するか、または観測からの距離(近似ベイズ計算(ABC))に応じてパラメータ値を受け入れ/削除する。 どちらの場合も、シミュレーションは観測値に適応的に調整される。 そこで本研究では,観測から独立にモデルからパラメータ-シミュレーションペアを生成し,条件付き指数関数的家族確率近似を学習するために利用し,それをパラメータ化するために,重みをスコアマッチングで調整したニューラルネットワークを用いる。 確率近似により、MCMCを2重に抽出可能な分布に利用して、追加のモデルシミュレーションを使わずに後部からサンプルを引き出すことができ、性能は同等のアプローチに匹敵する。 さらに、指数族に関する十分な統計はABCの要約として利用でき、既知の5つのモデルにおいて最先端の手法よりも優れている。 最後に,本手法を気象学の課題モデルに適用する。

To perform Bayesian inference for stochastic simulator models for which the likelihood is not accessible, Likelihood-Free Inference (LFI) relies on simulations from the model. Standard LFI methods can be split according to how these simulations are used: to build an explicit Surrogate Likelihood, or to accept/reject parameter values according to a measure of distance from the observations (Approximate Bayesian Computation (ABC)). In both cases, simulations are adaptively tailored to the value of the observation. Here, we generate parameter-simulation pairs from the model independently on the observation, and use them to learn a conditional exponential family likelihood approximation; to parametrize it, we use Neural Networks whose weights are tuned with Score Matching. With our likelihood approximation, we can employ MCMC for doubly intractable distributions to draw samples from the posterior for any number of observations without additional model simulations, with performance competitive to comparable approaches. Further, the sufficient statistics of the exponential family can be used as summaries in ABC, outperforming the state-of-the-art method in five different models with known likelihood. Finally, we apply our method to a challenging model from meteorology.
翻訳日:2021-05-01 04:39:51 公開日:2021-01-15
# カスタマイズ事前学習によるマルチターン応答選択のためのグラフ推論ネットワーク

A Graph Reasoning Network for Multi-turn Response Selection via Customized Pre-training ( http://arxiv.org/abs/2012.11099v2 )

ライセンス: Link先を確認
Yongkang Liu, Shi Feng, Daling Wang, Kaisong Song, Feiliang Ren, Yifei Zhang(参考訳) 検索型チャットボットにおけるマルチターン会話に対する応答選択について検討する。 既存の研究は、学習特徴に基づくマッチングスコアを計算することにより、発話と応答のマッチングにより多くの注意を払っており、モデル推論能力は不十分である。 本稿では,この問題に対処するグラフ推論ネットワーク(GRN)を提案する。 GRNはまず, ALBERTに基づく事前学習を行い, 次の発話予測と, 応答選択のために特別に考案された発話順序予測タスクを用いる。 これら2つのカスタマイズされた事前学習タスクは、発話間の意味的および時間的依存関係をキャプチャする能力によって、私たちのモデルに役立てることができる。 次に、シーケンス推論とグラフ推論構造を備えた統合ネットワーク上でモデルを微調整する。 シーケンス推論モジュールは、大域的な視点から発話-応答対の高度に要約された文脈ベクトルに基づいて推論を行う。 グラフ推論モジュールは、局所的な視点から発話レベルグラフニューラルネットワーク上で推論を行う。 2つの会話推論データセットの実験により、我々のモデルは強力なベースライン手法を劇的に上回り、人間に近い性能を達成できることが示された。

We investigate response selection for multi-turn conversation in retrieval-based chatbots. Existing studies pay more attention to the matching between utterances and responses by calculating the matching score based on learned features, leading to insufficient model reasoning ability. In this paper, we propose a graph-reasoning network (GRN) to address the problem. GRN first conducts pre-training based on ALBERT using next utterance prediction and utterance order prediction tasks specifically devised for response selection. These two customized pre-training tasks can endow our model with the ability of capturing semantical and chronological dependency between utterances. We then fine-tune the model on an integrated network with sequence reasoning and graph reasoning structures. The sequence reasoning module conducts inference based on the highly summarized context vector of utterance-response pairs from the global perspective. The graph reasoning module conducts the reasoning on the utterance-level graph neural network from the local perspective. Experiments on two conversational reasoning datasets show that our model can dramatically outperform the strong baseline methods and can achieve performance which is close to human-level.
翻訳日:2021-04-27 06:46:22 公開日:2021-01-15
# 大域的線形収束率をもつ$\ell_1$-minimizatio nのための反復重み付き最小方形

Iteratively Reweighted Least Squares for $\ell_1$-minimizatio n with Global Linear Convergence Rate ( http://arxiv.org/abs/2012.12250v2 )

ライセンス: Link先を確認
Christian K\"ummerle, Claudio Mayrink Verdun, Dominik St\"oger(参考訳) 繰り返し再重み付き最小広場(IRLS)は80年以上の歴史を遡るが、線形系の列を解くことでこれらの問題を最適化できるため、非滑らかな最適化のための重要なアルゴリズム群である。 2010年、daubechies、devore、fornasier、g\"unt\"urkは、圧縮センシングの分野でユビキタスな最適化プログラムである$\ell_1$-minimizatio nのirlsが、グローバルに疎解に収束することを示した。 このアルゴリズムは工学や統計学の分野で人気があるが、基本的なアルゴリズムの問題は未解決のままである。 実のところ、既存の収束は、基礎となる信号の支持が既に特定されている場合を除いて、いかなるレートも持たないグローバル収束のみを保証している。 本稿では,$\ell_1$-minimizati on に対する irls が大域的線形率のスパース解に収束することを示す。 我々は線形速度が本質的に正しい次元依存を捉えることを示す数値実験によって理論を支持する。

Iteratively Reweighted Least Squares (IRLS), whose history goes back more than 80 years, represents an important family of algorithms for non-smooth optimization as it is able to optimize these problems by solving a sequence of linear systems. In 2010, Daubechies, DeVore, Fornasier, and G\"unt\"urk proved that IRLS for $\ell_1$-minimizatio n, an optimization program ubiquitous in the field of compressed sensing, globally converges to a sparse solution. While this algorithm has been popular in applications in engineering and statistics, fundamental algorithmic questions have remained unanswered. As a matter of fact, existing convergence guarantees only provide global convergence without any rate, except for the case that the support of the underlying signal has already been identified. In this paper, we prove that IRLS for $\ell_1$-minimizatio n converges to a sparse solution with a global linear rate. We support our theory by numerical experiments indicating that our linear rate essentially captures the correct dimension dependence.
翻訳日:2021-04-26 07:12:30 公開日:2021-01-15
# データ効率のよい画像変換器の訓練と注意による蒸留

Training data-efficient image transformers & distillation through attention ( http://arxiv.org/abs/2012.12877v2 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Herv\'e J\'egou(参考訳) 近年,注意に基づくニューラルネットワークは,画像分類などの画像理解課題に対処することが示されている。 しかし、これらのビジュアルトランスフォーマーは、高価なインフラストラクチャを使って、数億の画像で事前訓練されているため、採用が制限される。 本研究では,imagenet上でのみトレーニングすることにより,コンボリューションフリートランスフォーマを作成する。 3日以内で1台のコンピューターでトレーニングします。 参照ビジョン変換器(86Mパラメータ)は、外部データを持たないImageNet上で、83.1%のトップ1精度を達成する。 さらに,トランスフォーマーに特有な教師教育戦略を提案する。 生徒が注意を通して教師から学ぶことを保証する蒸留トークンに依存している。 特にconvnetを教師として使用する場合,このトークンベースの蒸留の興味を示す。 これにより、Imagenet(85.2%の精度で取得できる)と他のタスクへの転送時に、コンブネットと競合する結果を報告できる。 私たちはコードとモデルを共有します。

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.
翻訳日:2021-04-25 18:07:00 公開日:2021-01-15
# 確率比指数関数族

Likelihood Ratio Exponential Families ( http://arxiv.org/abs/2012.15480v2 )

ライセンス: Link先を確認
Rob Brekelmans, Frank Nielsen, Alireza Makhzani, Aram Galstyan, Greg Ver Steeg(参考訳) 指数族は機械学習や統計物理学において、観測された一連の制約に対する最大エントロピー分布として知られており、幾何学的混合経路は、アニールされた重要性サンプリングのようなMCMC法で一般的である。 これら2つのアイデアをリンクして、最近の研究は、幾何学的混合経路を熱力学的変動目標(TVO)を分析する指数関数的な分布の族として解釈している。 我々は、これら指数関数列を、RD最適化、情報ボトルネック(IB)法、RDとIBを組み合わせた最近のレート歪み分類手法を含むように拡張する。 これは指数関数族と仮説検定の共役双対性を通じてこれらの方法を理解する共通の数学的枠組みを提供する。 さらに、既存の結果を収集し、KLの発散の期待を最小化するため、中間RDまたはTVO分布の変動表現を提供する。 この解はラピッド比検定とニーマン・ピアソン補題を用いた大容量トレードオフにも対応している。 また,TVOのような熱力学積分境界では,ログ分割関数と十分な統計値が一致した中間分布を同定する。

The exponential family is well known in machine learning and statistical physics as the maximum entropy distribution subject to a set of observed constraints, while the geometric mixture path is common in MCMC methods such as annealed importance sampling. Linking these two ideas, recent work has interpreted the geometric mixture path as an exponential family of distributions to analyze the thermodynamic variational objective (TVO). We extend these likelihood ratio exponential families to include solutions to rate-distortion (RD) optimization, the information bottleneck (IB) method, and recent rate-distortion-clas sification approaches which combine RD and IB. This provides a common mathematical framework for understanding these methods via the conjugate duality of exponential families and hypothesis testing. Further, we collect existing results to provide a variational representation of intermediate RD or TVO distributions as a minimizing an expectation of KL divergences. This solution also corresponds to a size-power tradeoff using the likelihood ratio test and the Neyman Pearson lemma. In thermodynamic integration bounds such as the TVO, we identify the intermediate distribution whose expected sufficient statistics match the log partition function.
翻訳日:2021-04-17 17:21:46 公開日:2021-01-15
# DeepTake:マルチモーダルデータを用いたドライバの乗っ取り挙動の予測

DeepTake: Prediction of Driver Takeover Behavior using Multimodal Data ( http://arxiv.org/abs/2012.15441v2 )

ライセンス: Link先を確認
Erfan Pakdamanian, Shili Sheng, Sonia Baee, Seongkook Heo, Sarit Kraus, Lu Feng(参考訳) 自動運転車は、ドライバーが長時間ハンドルを握らずに非自動運転タスクをこなせる未来を約束している。 それでも、テクノロジーの制限と法的要件のために、自動運転車は時々ドライバーに制御を戻す必要があるかもしれない。 一部のシステムは、ドライバーの状況と道路条件を用いてドライバーの乗っ取り要求を開始する必要があると判断するが、研究はドライバーがその要求に反応しないことを示唆している。 筆者はdeeptakeという、新しいディープニューラルネットワークベースのフレームワークで、乗っ取り行動の複数の側面を予測し、ドライバーが非運転タスクに携わるときに安全に制御を乗っ取ることができるようにする。 車両データ、ドライバーバイオメトリックス、主観的測定からの特徴を用いて、deeptakeはドライバーの意図、時間、乗っ取りの質を予測する。 複数の評価指標を用いてDeepTakeの性能を評価する。 その結果,deeptakeは96%,93%,83%の精度で買収意図,時間,品質を確実に予測できることがわかった。 また、DeepTakeはドライバーの乗っ取り時間と品質を予測する従来の最先端手法よりも優れていた。 本研究は,運転監視と状態検出のアルゴリズム開発に影響を及ぼす。

Automated vehicles promise a future where drivers can engage in non-driving tasks without hands on the steering wheels for a prolonged period. Nevertheless, automated vehicles may still need to occasionally hand the control back to drivers due to technology limitations and legal requirements. While some systems determine the need for driver takeover using driver context and road condition to initiate a takeover request, studies show that the driver may not react to it. We present DeepTake, a novel deep neural network-based framework that predicts multiple aspects of takeover behavior to ensure that the driver is able to safely take over the control when engaged in non-driving tasks. Using features from vehicle data, driver biometrics, and subjective measurements, DeepTake predicts the driver's intention, time, and quality of takeover. We evaluate DeepTake performance using multiple evaluation metrics. Results show that DeepTake reliably predicts the takeover intention, time, and quality, with an accuracy of 96%, 93%, and 83%, respectively. Results also indicate that DeepTake outperforms previous state-of-the-art methods on predicting driver takeover time and quality. Our findings have implications for the algorithm development of driver monitoring and state detection.
翻訳日:2021-04-17 16:58:38 公開日:2021-01-15
# Multistage BiCross Encoder: MLIA Multilingual Semantic Search Task 2 のチーム GATE エントリ

Multistage BiCross Encoder: Team GATE Entry for MLIA Multilingual Semantic Search Task 2 ( http://arxiv.org/abs/2101.03013v2 )

ライセンス: Link先を確認
Iknoor Singh, Carolina Scarton, Kalina Bontcheva(参考訳) コロナウイルス(COVID-19)のパンデミックにより、オンラインでの「インフォデミック」が急速に増加している。 このように、新型コロナウイルスに関する何百万もの文書から信頼できる関連データの正確な検索が、一般人や利害関係者にも緊急に求められている。 COVID-19 Multilingual Information Access(MLIA)イニシアチブは、研究やコミュニティ参加を通じてアプリケーションやサービスを開発することで、新型コロナウイルス関連の情報の交換を改善するための共同取り組みである。 本研究では,mliaタスク2の多言語意味検索のためにteam gateが開発した多段バイクロスエンコーダという検索システムを提案する。 マルチステージビクロスエンコーダ(Multistage BiCross-Encoder)は、Okapi BM25アルゴリズムとトランスフォーマーベースのバイエンコーダとクロスエンコーダを用いて、クエリに関するドキュメントを効果的にランク付けする3段階パイプラインである。 第1ラウンドの結果から,モノリンガルとバイリンガルの両方で,各ランキング指標の最先端性能が得られた。

The Coronavirus (COVID-19) pandemic has led to a rapidly growing `infodemic' online. Thus, the accurate retrieval of reliable relevant data from millions of documents about COVID-19 has become urgently needed for the general public as well as for other stakeholders. The COVID-19 Multilingual Information Access (MLIA) initiative is a joint effort to ameliorate exchange of COVID-19 related information by developing applications and services through research and community participation. In this work, we present a search system called Multistage BiCross Encoder, developed by team GATE for the MLIA task 2 Multilingual Semantic Search. Multistage BiCross-Encoder is a sequential three stage pipeline which uses the Okapi BM25 algorithm and a transformer based bi-encoder and cross-encoder to effectively rank the documents with respect to the query. The results of round 1 show that our models achieve state-of-the-art performance for all ranking metrics for both monolingual and bilingual runs.
翻訳日:2021-04-10 05:10:13 公開日:2021-01-15
# 長期短期記憶ニューラルネットを用いた商品価格予測

Forecasting Commodity Prices Using Long Short-Term Memory Neural Networks ( http://arxiv.org/abs/2101.03087v2 )

ライセンス: Link先を確認
Racine Ly, Fousseini Traore, Khadim Dia(参考訳) 本稿では,綿と油の価格の予測にリカレントニューラルネットワーク(RNN)を適用した。 機械学習、特にLong-Short Term Memory(LSTM)モデルによるこれらの新しいツールが、従来の手法を補完する様子を示す。 この結果から,機械学習手法はデータに適切に適合するが,ARIMA(Autoregressiv e Integrated Integrated Average)モデルのような体系的な古典的手法では,サンプル予測から外れて性能が良くないことがわかった。 しかし、2種類のモデルから予測を平均化すれば、どちらの手法よりも良い結果が得られる。 ARIMAとLSTMと比較すると、平均予測のルート平均正方形誤差(RMSE)はそれぞれ0.21と21.49パーセント低い。 原油については、平均値の上昇はRMSEでは改善しない。 予測平均化手法を用いて、分析を幅広い商品価格にまで拡張することを提案する。

This paper applies a recurrent neural network (RNN) method to forecast cotton and oil prices. We show how these new tools from machine learning, particularly Long-Short Term Memory (LSTM) models, complement traditional methods. Our results show that machine learning methods fit reasonably well the data but do not outperform systematically classical methods such as Autoregressive Integrated Moving Average (ARIMA) models in terms of out of sample forecasts. However, averaging the forecasts from the two type of models provide better results compared to either method. Compared to the ARIMA and the LSTM, the Root Mean Squared Error (RMSE) of the average forecast was 0.21 and 21.49 percent lower respectively for cotton. For oil, the forecast averaging does not provide improvements in terms of RMSE. We suggest using a forecast averaging method and extending our analysis to a wide range of commodity prices.
翻訳日:2021-04-10 05:00:36 公開日:2021-01-15
# lesion2vec: deep metric learning for few-shot multiple lesions recognition in wireless capsule endoscopy video

Lesion2Vec: Deep Metric Learning for Few-Shot Multiple Lesions Recognition in Wireless Capsule Endoscopy Video ( http://arxiv.org/abs/2101.04240v2 )

ライセンス: Link先を確認
Sodiq Adewole, Philip Fernandez, Michelle Yeghyayan, James Jablonski, Andrew Copland, Michael Porter, Sana Syed, Donald Brown(参考訳) 消化管病変の迅速かつ効果的検出は, 消化器科医の生命予後評価に重要である。 wireless capsule endoscopy (wce) は、消化管全体を非侵襲的に可視化することで、従来の内視鏡手術に革命をもたらした。 小さなカプセルが飲み込まれると、GIトラクションの画像を毎秒2〜6フレーム(fps)で順次キャプチャする。 単一のビデオは最大8時間で3万から10万の画像を生成できる。 WCEビデオの特定の病変を含むフレームの検出を自動化することで、胃科医は診断に先立ってビデオ全体をレビューする難しい作業が軽減される。 wceは大量の画像を生成するが、診断過程を補助する病変はフレームの約5対%に過ぎなかった。 畳み込みニューラルネットワーク(CNN)ベースのモデルは、様々な画像分類タスクで非常に成功した。 しかし、過度なパラメータに苦しめられ、サンプル効率が悪く、非常に大量のトレーニングデータに依存している。 病変検出タスクのためにCNN分類器をデプロイするには、予期せぬカテゴリに一般化するために、時間と時間の微調整が必要である。 本稿では,WCEデータにおける数発の病変認識に続いて,メトリックベースの学習フレームワークを提案する。 メトリックベースの学習は概念間の類似性や相違性を確立するために設計されたメタラーニングフレームワークであり、少数ショットラーニング(FSL)は少数の例から新しい概念を特定することを目的としている。 特徴抽出器を訓練し,メートル法学習を用いて異なる小腸病変の表現を学習する。 テスト段階では、未発見のサンプルのカテゴリはいくつかのサポート例から予測され、モデルがこれまで見たことのない新しいカテゴリに一般化できる。 本法の有効性を実患者カプセル内視鏡データに示す。

Effective and rapid detection of lesions in the Gastrointestinal tract is critical to gastroenterologist&# x27;s response to some life-threatening diseases. Wireless Capsule Endoscopy (WCE) has revolutionized traditional endoscopy procedure by allowing gastroenterologists visualize the entire GI tract non-invasively. Once the tiny capsule is swallowed, it sequentially capture images of the GI tract at about 2 to 6 frames per second (fps). A single video can last up to 8 hours producing between 30,000 to 100,000 images. Automating the detection of frames containing specific lesion in WCE video would relieve gastroenterologists the arduous task of reviewing the entire video before making diagnosis. While the WCE produces large volume of images, only about 5\% of the frames contain lesions that aid the diagnosis process. Convolutional Neural Network (CNN) based models have been very successful in various image classification tasks. However, they suffer excessive parameters, are sample inefficient and rely on very large amount of training data. Deploying a CNN classifier for lesion detection task will require time-to-time fine-tuning to generalize to any unforeseen category. In this paper, we propose a metric-based learning framework followed by a few-shot lesion recognition in WCE data. Metric-based learning is a meta-learning framework designed to establish similarity or dissimilarity between concepts while few-shot learning (FSL) aims to identify new concepts from only a small number of examples. We train a feature extractor to learn a representation for different small bowel lesions using metric-based learning. At the testing stage, the category of an unseen sample is predicted from only a few support examples, thereby allowing the model to generalize to a new category that has never been seen before. We demonstrated the efficacy of this method on real patient capsule endoscopy data.
翻訳日:2021-04-04 14:38:05 公開日:2021-01-15
# (参考訳) 完全畳み込みニューラルネットワークを用いた一方向繊維層上の大規模繊維セグメンテーションのための再利用可能なパイプライン [全文訳有]

A reusable pipeline for large-scale fiber segmentation on unidirectional fiber beds using fully convolutional neural networks ( http://arxiv.org/abs/2101.04823v2 )

ライセンス: CC BY 4.0
Alexandre Fioravante de Siqueira and Daniela Mayumi Ushizima and St\'efan van der Walt(参考訳) 繊維強化セラミック-マトリクス複合材料は高温に耐性があり、航空宇宙工学への応用がある。 これらの分析は埋め込まれた繊維の検出に依存するが、半教師ありの手法は通常繊維層内の繊維を分離するために用いられる。 本稿では,x線ctファイバベッド内のファイバを検出するための開計算パイプラインを提案する。 これらのサンプルの繊維を分離するために、完全畳み込みニューラルネットワークの4つの異なるアーキテクチャをテストした。 ニューラルネットワークのアプローチを半教師付きのものと比較すると、Dice と Matthews の係数が 92.28 \pm 9.65\%$ 以上になり、最大 98.42 \pm 0.03 \%$ に達し、ネットワークの結果がこれらのファイバー層内の人間の監督されたものに近いことを示す。 このプロジェクトで私たちが生成したソフトウェアはオープンソースで、許容ライセンスの下でリリースされています。 ダウンロードおよび使用方法に関するすべてのデータと指示も利用可能である。

Fiber-reinforced ceramic-matrix composites are advanced materials resistant to high temperatures, with application to aerospace engineering. Their analysis depends on the detection of embedded fibers, with semi-supervised techniques usually employed to separate fibers within the fiber beds. Here we present an open computational pipeline to detect fibers in ex-situ X-ray computed tomography fiber beds. To separate the fibers in these samples, we tested four different architectures of fully convolutional neural networks. When comparing our neural network approach to a semi-supervised one, we obtained Dice and Matthews coefficients greater than $92.28 \pm 9.65\%$, reaching up to $98.42 \pm 0.03 \%$, showing that the network results are close to the human-supervised ones in these fiber beds, in some cases separating fibers that human-curated algorithms could not find. The software we generated in this project is open source, released under a permissive license, and can be freely adapted and re-used in other domains. All data and instructions on how to download and use it are also available.
翻訳日:2021-04-03 23:16:29 公開日:2021-01-15
# (参考訳) Hamilton-Jacobi Reachability を用いた自律システムの安全保証のスケーラブルな学習 [全文訳有]

Scalable Learning of Safety Guarantees for Autonomous Systems using Hamilton-Jacobi Reachability ( http://arxiv.org/abs/2101.05916v1 )

ライセンス: CC BY 4.0
Sylvia Herbert, Jason J. Choi, Suvansh Qazi, Marsalis Gibson, Koushil Sreenath, Claire J. Tomlin(参考訳) 航空機や補助ロボットのような自律システムは、安全性を保証することが重要なシナリオでしばしば機能する。 Hamilton-Jacobiリーチビリティのような手法は、そのようなシステムに対して保証された安全な集合とコントローラを提供することができる。 しかし、これらのシナリオは未知あるいは不確実な環境、システムダイナミクス、あるいは他のエージェントの予測を持つことが多い。 システムが稼働中は、これらの不確実性に関する新たな知識を学習し、それに従って安全性分析を更新する必要がある。 しかしながら、安全性分析の学習と更新は、解析の計算複雑性のため、およそ2次元の小さなシステムに限られる。 本稿では,分解,ウォームスタート,適応グリッドなど,計算を高速化するいくつかの手法を合成する。 この新しいフレームワークを使用すると、セーフセットを以前の作業よりも1桁以上早く更新でき、このテクニックを多くの現実的なシステムで実用的なものにします。 風環境下で作動する2Dおよび10D近接ホバークワッドコプターのシミュレーション実験を行った。

Autonomous systems like aircraft and assistive robots often operate in scenarios where guaranteeing safety is critical. Methods like Hamilton-Jacobi reachability can provide guaranteed safe sets and controllers for such systems. However, often these same scenarios have unknown or uncertain environments, system dynamics, or predictions of other agents. As the system is operating, it may learn new knowledge about these uncertainties and should therefore update its safety analysis accordingly. However, work to learn and update safety analysis is limited to small systems of about two dimensions due to the computational complexity of the analysis. In this paper we synthesize several techniques to speed up computation: decomposition, warm-starting, and adaptive grids. Using this new framework we can update safe sets by one or more orders of magnitude faster than prior work, making this technique practical for many realistic systems. We demonstrate our results on simulated 2D and 10D near-hover quadcopters operating in a windy environment.
翻訳日:2021-03-29 00:11:18 公開日:2021-01-15
# (参考訳) 異種ネットワークにおける植栽コミュニティの実践的テスト [全文訳有]

A practical test for a planted community in heterogeneous networks ( http://arxiv.org/abs/2101.05928v1 )

ライセンス: CC BY 4.0
Mingao Yuan and Qian Wen(参考訳) グラフデータマイニングにおける基本的なタスクの1つは、生物学、ファイナンス、スパム検出などに広く応用されている、植栽されたコミュニティ(dense subgraph)を見つけることである。 実際のネットワークデータでは、密度の高い部分グラフの存在は一般に不明である。 統計的テストは、均質なランダムグラフにおける密な部分グラフの存在をテストするために考案された。 しかし、多くのネットワークは極端な不均一性を示し、すなわちノードや頂点の次数は典型的な値に集中しない。 均質なランダムグラフ用に設計された既存のテストは、不均質なケースに簡単には適用できない。 近年,不均質(不均質)グラフ(\cite{BCHV19})中の高密度部分グラフを検出するための走査試験が提案されている。 しかし、スキャンテストの計算複雑性は一般にグラフサイズの多項式ではないため、大規模なネットワークや中程度のネットワークでは実用的ではない。 本稿では,標準正規分布をヌル極限分布とする多項式時間テストを提案する。 実験のパワーを理論的に検討し,シミュレーションと実データを用いて実験の性能評価を行った。

One of the fundamental task in graph data mining is to find a planted community(dense subgraph), which has wide application in biology, finance, spam detection and so on. For a real network data, the existence of a dense subgraph is generally unknown. Statistical tests have been devised to testing the existence of dense subgraph in a homogeneous random graph. However, many networks present extreme heterogeneity, that is, the degrees of nodes or vertexes don't concentrate on a typical value. The existing tests designed for homogeneous random graph are not straightforwardly applicable to the heterogeneous case. Recently, scan test was proposed for detecting a dense subgraph in heterogeneous(inhomo geneous) graph(\cite{BCHV19}). However, the computational complexity of the scan test is generally not polynomial in the graph size, which makes the test impractical for large or moderate networks. In this paper, we propose a polynomial-time test that has the standard normal distribution as the null limiting distribution. The power of the test is theoretically investigated and we evaluate the performance of the test by simulation and real data example.
翻訳日:2021-03-28 23:58:54 公開日:2021-01-15
# (参考訳) ソーシャルメディアにおけるホステリティ検出とCovid-19フェイクニュース検出 [全文訳有]

Hostility Detection and Covid-19 Fake News Detection in Social Media ( http://arxiv.org/abs/2101.05953v1 )

ライセンス: CC BY 4.0
Ayush Gupta, Rohan Sukumaran, Kevin John, Sundeep Teki(参考訳) Withtheadventofsocia lmedia,therehasbeena nextremely increased of the content shared online。 その結果、ソーシャルメディアプラットフォーム上でのフェイクニュースや敵対的なメッセージの拡散も急増した。 本稿では,マルチクラス・マルチラベル問題として,devanagari(hindi)スクリプトの敵意や偽のコンテンツを検出する問題に対処する。 NLP 技術を用いて,Hindi BERT と Hindi FastText モデルとメタデータから抽出した特徴と,乱用言語検知器を併用したモデルを構築した。 本モデルは,ホスト性検出タスクにおける粗粒度評価における0.97F1スコアを達成する。 さらに、英語のツイートでCovid-19に関連する偽ニュースを特定するモデルを構築しました。 ツイートから抽出されたエンティティ情報と、単語埋め込みから学習したテキスト表現を活用し、英語の偽ニュース検出タスクで0.93 f1のスコアを得る。

Withtheadventofsocia lmedia,therehasbeena nextremely rapid increase in the content shared online. Consequently, the propagation of fake news and hostile messages on social media platforms has also skyrocketed. In this paper, we address the problem of detecting hostile and fake content in the Devanagari (Hindi) script as a multi-class, multi-label problem. Using NLP techniques, we build a model that makes use of an abusive language detector coupled with features extracted via Hindi BERT and Hindi FastText models and metadata. Our model achieves a 0.97 F1 score on coarse grain evaluation on Hostility detection task. Additionally, we built models to identify fake news related to Covid-19 in English tweets. We leverage entity information extracted from the tweets along with textual representations learned from word embeddings and achieve a 0.93 F1 score on the English fake news detection task.
翻訳日:2021-03-28 22:43:19 公開日:2021-01-15
# (参考訳) エンドツーエンド機械学習における責任あるAIチャレンジ [全文訳有]

Responsible AI Challenges in End-to-end Machine Learning ( http://arxiv.org/abs/2101.05967v1 )

ライセンス: CC BY 4.0
Steven Euijong Whang, Ki Hyun Tae, Yuji Roh, Geon Heo(参考訳) AIは私たちの日常生活で広く使われているので、責任あるAIは批判的になっています。 AIを公に展開する企業の多くは、モデルをトレーニングする場合、その正確性を向上するだけでなく、モデルがユーザ(フェアネス)を差別しないこと、ノイズや有毒なデータ(ロバストネス)に耐性があることを保証する必要がある、と説明している。 さらに、これらの目的はモデルトレーニングだけでなく、データ収集、データクリーニングとバリデーション、モデルトレーニング、モデル評価、モデル管理とサービスを含む、エンドツーエンドの機械学習のすべてのステップにも関係している。 最後に、責任あるAIは概念的に挑戦的であり、すべての目的をサポートすることは可能な限り簡単でなければならない。 そこで我々は,このビジョンに向けた3つの重要な研究方向 – 深さ,幅,ユーザビリティ – を提案し,進捗を計測し,現在進行中の研究を紹介する。 第一に、責任あるAIは、公平さや堅牢さといった複数の目標を一緒に扱わなければならないように、深くサポートされなければならない。 そこで本研究では,データバイアスと中毒の存在下で,公平かつロバストなモデルトレーニングのための総合的なフレームワークfr-trainを提案する。 第2に、責任あるAIは、機械学習のあらゆるステップにおいて、広くサポートされなければならない。 現在,データの事前処理ステップに注目し,公平かつ正確なモデルをトレーニングするための選択的データ取得フレームワークであるslice tunerと,公平性と堅牢性も向上したデータクリーニングフレームワークであるmlcleanを提案する。 最後に、責任あるAIは、デプロイが簡単で実行可能でなければならない。 本稿では,フェアネスのためのバッチ選択手法であるfairbatchと,問題のあるスライスを自動的に発見するモデル評価ツールであるslice finderを提案する。 私たちは、エンドツーエンドの機械学習のために責任あるAIの表面をひっかいたと信じており、今後の研究課題を提案する。

Responsible AI is becoming critical as AI is widely used in our everyday lives. Many companies that deploy AI publicly state that when training a model, we not only need to improve its accuracy, but also need to guarantee that the model does not discriminate against users (fairness), is resilient to noisy or poisoned data (robustness), is explainable, and more. In addition, these objectives are not only relevant to model training, but to all steps of end-to-end machine learning, which include data collection, data cleaning and validation, model training, model evaluation, and model management and serving. Finally, responsible AI is conceptually challenging, and supporting all the objectives must be as easy as possible. We thus propose three key research directions towards this vision - depth, breadth, and usability - to measure progress and introduce our ongoing research. First, responsible AI must be deeply supported where multiple objectives like fairness and robust must be handled together. To this end, we propose FR-Train, a holistic framework for fair and robust model training in the presence of data bias and poisoning. Second, responsible AI must be broadly supported, preferably in all steps of machine learning. Currently we focus on the data pre-processing steps and propose Slice Tuner, a selective data acquisition framework for training fair and accurate models, and MLClean, a data cleaning framework that also improves fairness and robustness. Finally, responsible AI must be usable where the techniques must be easy to deploy and actionable. We propose FairBatch, a batch selection approach for fairness that is effective and simple to use, and Slice Finder, a model evaluation tool that automatically finds problematic slices. We believe we scratched the surface of responsible AI for end-to-end machine learning and suggest research challenges moving forward.
翻訳日:2021-03-28 22:19:36 公開日:2021-01-15
# (参考訳) 都市走行のためのアプライアンスに基づく強化学習 [全文訳有]

Affordance-based Reinforcement Learning for Urban Driving ( http://arxiv.org/abs/2101.05970v1 )

ライセンス: CC BY 4.0
Tanmay Agarwal, Hitesh Arora, Jeff Schneider(参考訳) モジュラーアプローチを踏襲する従来の自動運転車パイプラインは、学界と産業の両方で過去に成功しており、道路に展開する自律性につながっている。 このアプローチは解釈の容易さを提供するが、見えない環境への一般化は限られており、多くのパラメータのハンドエンジニアリング、特に予測と計画システムが必要である。 近年、深層強化学習は複雑な戦略ゲームを学び、挑戦的なロボットタスクを実行することが示されている。 本研究では,waypoints と low-dimensional visual representations を用いた最適制御方針を学習するための深層強化学習フレームワークを提案する。 スクラッチから訓練されたエージェントは、車線追従のタスクを学習し、区間間を走り回り、密集した交通状況でも他のアクターや信号機の前で立ち止まることを実証する。 提案手法は,CARLAシミュレータのオリジナルベンチマークとNoCrashベンチマークのベースライン手法と比較して,同等あるいは優れた性能を実現する。

Traditional autonomous vehicle pipelines that follow a modular approach have been very successful in the past both in academia and industry, which has led to autonomy deployed on road. Though this approach provides ease of interpretation, its generalizability to unseen environments is limited and hand-engineering of numerous parameters is required, especially in the prediction and planning systems. Recently, deep reinforcement learning has been shown to learn complex strategic games and perform challenging robotic tasks, which provides an appealing framework for learning to drive. In this work, we propose a deep reinforcement learning framework to learn optimal control policy using waypoints and low-dimensional visual representations, also known as affordances. We demonstrate that our agents when trained from scratch learn the tasks of lane-following, driving around inter-sections as well as stopping in front of other actors or traffic lights even in the dense traffic setting. We note that our method achieves comparable or better performance than the baseline methods on the original and NoCrash benchmarks on the CARLA simulator.
翻訳日:2021-03-28 22:03:34 公開日:2021-01-15
# (参考訳) マルチホップ質問応答における粒度分解と粒度相互作用 [全文訳有]

Coarse-grained decomposition and fine-grained interaction for multi-hop question answering ( http://arxiv.org/abs/2101.05988v1 )

ライセンス: CC BY 4.0
Xing Cao, Yun Liu(参考訳) 質問応答と読解に関する最近の進歩は、回答が1つの連続的なテキストの通過に含まれるとき、人間のパフォーマンスを上回るモデルとなり、シングルホップ推論のみを必要とする。 しかし、実際のシナリオでは、多くの複雑なクエリはマルチホップ推論を必要とする。 質問応答タスクの鍵は文書と質問の間の意味的特徴の相互作用であり、双方向の注意フロー(bi-daf)によって広く処理されるが、bi-dafは一般に複雑な質問における単語の表面的意味のみを捉え、中間的回答の意味的特徴を暗黙的に捉えることができない。 その結果、Bi-DAFは問題に関連するコンテキストの一部を部分的に無視し、複数の文書の最も重要な部分を抽出することができない。 本稿では,(1)粗粒複合質問分解(cgde)戦略を導入して,追加アノテーションなしで複雑な質問を単純な質問に分解する(2)細粒度インタラクション(fgin)戦略を導入し,文書中の各単語をよりよく表現し,推論パスに関連するより包括的で正確な文を抽出する。 以上の2つの戦略をSQuADとHotpotQAデータセットで組み合わせ,実験した結果,本手法が最先端のベースラインより優れていることが示された。

Recent advances regarding question answering and reading comprehension have resulted in models that surpass human performance when the answer is contained in a single, continuous passage of text, requiring only single-hop reasoning. However, in actual scenarios, lots of complex queries require multi-hop reasoning. The key to the Question Answering task is semantic feature interaction between documents and questions, which is widely processed by Bi-directional Attention Flow (Bi-DAF), but Bi-DAF generally captures only the surface semantics of words in complex questions and fails to capture implied semantic feature of intermediate answers. As a result, Bi-DAF partially ignores part of the contexts related to the question and cannot extract the most important parts of multiple documents. In this paper we propose a new model architecture for multi-hop question answering, by applying two completion strategies: (1) Coarse-Grain complex question Decomposition (CGDe) strategy are introduced to decompose complex question into simple ones under the condition of without any additional annotations (2) Fine-Grained Interaction (FGIn) strategy are introduced to better represent each word in the document and extract more comprehensive and accurate sentences related to the inference path. The above two strategies are combined and tested on the SQuAD and HotpotQA datasets, and the experimental results show that our method outperforms state-of-the-art baselines.
翻訳日:2021-03-28 20:14:18 公開日:2021-01-15
# (参考訳) インドコホートにおけるCOVID-19患者の死亡予測モデルの適用上の課題 [全文訳有]

Challenges in the application of a mortality prediction model for COVID-19 patients on an Indian cohort ( http://arxiv.org/abs/2101.07215v1 )

ライセンス: CC BY 4.0
Yukti Makhija (1), Samarth Bhatia (1), Shalendra Singh (2), Sneha Kumar Jayaswal (1), Prabhat Singh Malik (3), Pallavi Gupta (4), Shreyas N. Samaga (1), Shreya Johri (1), Sri Krishna Venigalla (2), Rabi Narayan Hota (2), Surinder Singh Bhatia (5), Ishaan Gupta (1) ((1) Indian Institute of Technology Delhi, (2) Armed forces Medical College Pune, (3) All India Institute of Medical Sciences Delhi, (4) Indian institute of Science Education and Research Bhopal, (5) DGAFMS office Ministry of Defence Delhi)(参考訳) 多くの国が、新型コロナウイルス(covid-19)のパンデミックの第3波で医療資源を圧迫し、重篤な患者のために病院のベッドや人工呼吸器が急性に不足している。 この状況はインドでは特に悪化しており、新型コロナウイルスの感染者が2番目に多い。 したがって、病気の重症度に基づいて患者をトリアージし、重篤な患者に資源を注ぐことが重要である。 ヤンなど。 新型コロナウイルス(covid-19)患者の入院日の臨床パラメータに基づいて、機械学習(ml)の手法で結果を予測する、非常に関連する研究が1.1で公開されている。 彼らはxgboostアルゴリズム(アンサンブルモデルの一種)を使用して死亡予測モデルを構築した。 最終的な分類器は、複数の弱い分類器の逐次追加によって構築される。 Single-tree XGBoost' と Lactic dehydrogenase (LDH) , リンパ球, 高感度C-reactive protein (hs-CRP) 値を用いた。 この決定木は100%生存予測と81%死亡予測を達成した。 しかし、これらのモデルにはいくつかの技術的課題があり、Yan et al の "Matters Aising" セクションで報告されているように、他の人口に対してデプロイ可能なアウトオブボックスソリューションを提供していない。 ここでは、インドから収集した詳細な臨床パラメータを含む新型コロナウイルス患者の最大のデータセットの1つにデプロイすることで、このモデルの限界を示す。

Many countries are now experiencing the third wave of the COVID-19 pandemic straining the healthcare resources with an acute shortage of hospital beds and ventilators for the critically ill patients. This situation is especially worse in India with the second largest load of COVID-19 cases and a relatively resource-scarce medical infrastructure. Therefore, it becomes essential to triage the patients based on the severity of their disease and devote resources towards critically ill patients. Yan et al. 1 have published a very pertinent research that uses Machine learning (ML) methods to predict the outcome of COVID-19 patients based on their clinical parameters at the day of admission. They used the XGBoost algorithm, a type of ensemble model, to build the mortality prediction model. The final classifier is built through the sequential addition of multiple weak classifiers. The clinically operable decision rule was obtained from a 'single-tree XGBoost' and used lactic dehydrogenase (LDH), lymphocyte and high-sensitivity C-reactive protein (hs-CRP) values. This decision tree achieved a 100% survival prediction and 81% mortality prediction. However, these models have several technical challenges and do not provide an out of the box solution that can be deployed for other populations as has been reported in the "Matters Arising" section of Yan et al. Here, we show the limitations of this model by deploying it on one of the largest datasets of COVID-19 patients containing detailed clinical parameters collected from India.
翻訳日:2021-03-28 20:00:27 公開日:2021-01-15
# (参考訳) 平面形状に基づく単眼視覚オドメトリの高精度かつロバストなスケールリカバリ [全文訳有]

Accurate and Robust Scale Recovery for Monocular Visual Odometry Based on Plane Geometry ( http://arxiv.org/abs/2101.05995v1 )

ライセンス: CC BY 4.0
Rui Tian, Yunzhou Zhang, Delong Zhu, Shiwen Liang, Sonya Coleman, Dermot Kerr(参考訳) スケールあいまいさは単眼視覚のオドメトリーにおける根本的な問題である。 典型的なソリューションはループクロージャ検出と環境情報マイニングである。 自動運転車のようなアプリケーションでは、ループクロージャは必ずしも利用できないため、環境からの事前知識のマイニングがより有望なアプローチになる。 本稿では,地上のカメラの高さを一定と仮定して,高精度でロバストな地上面推定を用いた軽量スケールリカバリフレームワークを開発した。 本フレームワークは、地上面上の高品質な点を選択するための接地点抽出アルゴリズムと、抽出した接地点を局所滑り窓で接合する接地点集約アルゴリズムとを含む。 集約されたデータに基づいて、RANSACベースのオプティマイザを用いて最小二乗問題を解くことで、最終的にスケールが回復する。 十分なデータと堅牢なオプティマイザにより、高精度なスケールリカバリが可能になる。 KITTIデータセットの実験により,提案フレームワークは回転誤差の競合性能を維持しつつ,翻訳誤差の観点から最先端の精度を達成可能であることが示された。 軽量な設計のため、我々のフレームワークはデータセット上で20Hzの高周波数を示す。

Scale ambiguity is a fundamental problem in monocular visual odometry. Typical solutions include loop closure detection and environment information mining. For applications like self-driving cars, loop closure is not always available, hence mining prior knowledge from the environment becomes a more promising approach. In this paper, with the assumption of a constant height of the camera above the ground, we develop a light-weight scale recovery framework leveraging an accurate and robust estimation of the ground plane. The framework includes a ground point extraction algorithm for selecting high-quality points on the ground plane, and a ground point aggregation algorithm for joining the extracted ground points in a local sliding window. Based on the aggregated data, the scale is finally recovered by solving a least-squares problem using a RANSAC-based optimizer. Sufficient data and robust optimizer enable a highly accurate scale recovery. Experiments on the KITTI dataset show that the proposed framework can achieve state-of-the-art accuracy in terms of translation errors, while maintaining competitive performance on the rotation error. Due to the light-weight design, our framework also demonstrates a high frequency of 20Hz on the dataset.
翻訳日:2021-03-28 19:54:04 公開日:2021-01-15
# (参考訳) 動きに基づく手書き認識 [全文訳有]

Motion-Based Handwriting Recognition ( http://arxiv.org/abs/2101.06022v1 )

ライセンス: CC BY 4.0
Junshen Kevin Chen, Wanze Xie, Yutong He(参考訳) 我々は手書き文字認識に書面を必要とする制限を克服しようと試みている。 本研究では,モーションセンサを備えたスタイラスのプロトタイプをデザインし,ジャイロスコープと加速度センサによる読み出しを利用して,cnnやrnnなどの様々な深層学習手法を用いた文字分類を行う。 また,様々なデータ拡張手法とその効果について検討し,最大86%の精度に到達した。

We attempt to overcome the restriction of requiring a writing surface for handwriting recognition. In this study, we design a prototype of a stylus equipped with motion sensor, and utilizes gyroscopic and acceleration sensor reading to perform written letter classification using various deep learning techniques such as CNN and RNNs. We also explore various data augmentation techniques and their effects, reaching up to 86% accuracy.
翻訳日:2021-03-28 18:53:38 公開日:2021-01-15
# (参考訳) 動きに基づく手書き認識と単語再構成 [全文訳有]

Motion-Based Handwriting Recognition and Word Reconstruction ( http://arxiv.org/abs/2101.06025v1 )

ライセンス: CC BY 4.0
Junshen Kevin Chen, Wanze Xie, Yutong He(参考訳) 本プロジェクトでは,動的プログラミングアルゴリズムと自動修正モデルからなる単語再構成パイプラインを設計し,学習した単文字分類器を用いて,連続的に書き込まれた単語列から単語を予測する。 我々は、このパイプラインでモデルを最適化するための実験を行い、その後、このパイプラインを見えないデータ分布で利用するためにドメイン適応を利用する。

In this project, we leverage a trained single-letter classifier to predict the written word from a continuously written word sequence, by designing a word reconstruction pipeline consisting of a dynamic-programming algorithm and an auto-correction model. We conduct experiments to optimize models in this pipeline, then employ domain adaptation to explore using this pipeline on unseen data distributions.
翻訳日:2021-03-28 18:44:56 公開日:2021-01-15
# (参考訳) gnssカメラセンサ融合の完全性リスクのための粒子フィルタリングフレームワーク [全文訳有]

A Particle Filtering Framework for Integrity Risk of GNSS-Camera Sensor Fusion ( http://arxiv.org/abs/2101.06044v1 )

ライセンス: CC BY 4.0
Adyasha Mohanty, Shubh Gupta and Grace Xingxin Gao(参考訳) 状態推定と整合性監視への共同アプローチを採用すると、従来のアプローチとは異なり、不偏整性監視が実現する。 これまでのGNSS測定では,Particle RAIM [l] にジョイントアプローチを用いた。 本研究では,粒子RAIMをGNSSカメラ融合システムに拡張し,連立状態推定と整合性監視を行う。 視覚障害を考慮し,地図マッチングを用いたカメラ画像から位置上の確率分布を導出する。 我々は,GNSSとカメラ計測の整合性を評価し,センサ融合時の故障を軽減するために,Kullback-Leibler Divergence尺度を定式化する。 得られた完全性リスクは、HMI(Hazardously Misleading Information)の確率を上限とする。 実世界のデータセットに対する実験的な検証により,我々のアルゴリズムは11m未満の位置誤差を発生し,都市シナリオにおけるHMIの確率を0.11の故障率で制限する可能性が示された。

Adopting a joint approach towards state estimation and integrity monitoring results in unbiased integrity monitoring unlike traditional approaches. So far, a joint approach was used in Particle RAIM [l] for GNSS measurements only. In our work, we extend Particle RAIM to a GNSS-camera fused system for joint state estimation and integrity monitoring. To account for vision faults, we derive a probability distribution over position from camera images using map-matching. We formulate a Kullback-Leibler Divergence metric to assess the consistency of GNSS and camera measurements and mitigate faults during sensor fusion. The derived integrity risk upper bounds the probability of Hazardously Misleading Information (HMI). Experimental validation on a real-world dataset shows that our algorithm produces less than 11 m position error and the integrity risk over bounds the probability of HMI with 0.11 failure rate for an 8 m Alert Limit in an urban scenario.
翻訳日:2021-03-28 18:34:33 公開日:2021-01-15
# (参考訳) 決定境界の加熱:等容量飽和、逆境シナリオ、一般化境界

Heating up decision boundaries: isocapacitory saturation, adversarial scenarios and generalization bounds ( http://arxiv.org/abs/2101.06061v1 )

ライセンス: CC BY 4.0
Bogdan Georgiev, Lukas Franken, Mayukh Mukherjee(参考訳) 本研究では,周辺データ空間におけるブラウン運動過程と関連する確率的手法を用いて分類器の判断境界について検討する。 直感的には、私たちのアイデアは熱源を決定境界に配置し、サンプルポイントがいかに効果的にウォームアップするかを観察します。 我々は、決定境界の幾何学にさらなる光を放つ柔らかい測度を求めることに、主に動機づけられている。 途中、ポテンシャル理論と幾何解析(Mazya, 2011, Grigoryan-Saloff-Cos te, 2002)の側面を敵対例や一般化境界といったML研究の活発な分野に橋渡しする。 まず, 敵の攻撃・防御機構に照らして, 決定境界の幾何学的挙動に着目する。 決定境界は局所的に等視的不等式によって測定されるにつれて平坦になる(ford et al, 2019)が、より敏感な熱拡散測定はこの分析を拡張し、平滑な距離ベース法に見えない非自明な幾何学が残っていることをさらに明らかにする。 直感的には、決定境界は多くの永続的な「かつ曖昧な」領域をより微細なスケールで保持していることを示す。 第2に、Brownian hit probabilities が、圧縮や雑音安定性と交互に結びつくソフト一般化境界(Arora et al, 2018)にどのように変換されるかを示し、決定境界が幾何学的特徴を制御する場合、これらの境界は著しく強い。

In the present work we study classifiers' decision boundaries via Brownian motion processes in ambient data space and associated probabilistic techniques. Intuitively, our ideas correspond to placing a heat source at the decision boundary and observing how effectively the sample points warm up. We are largely motivated by the search for a soft measure that sheds further light on the decision boundary's geometry. En route, we bridge aspects of potential theory and geometric analysis (Mazya, 2011, Grigoryan-Saloff-Cos te, 2002) with active fields of ML research such as adversarial examples and generalization bounds. First, we focus on the geometric behavior of decision boundaries in the light of adversarial attack/defense mechanisms. Experimentally, we observe a certain capacitory trend over different adversarial defense strategies: decision boundaries locally become flatter as measured by isoperimetric inequalities (Ford et al, 2019); however, our more sensitive heat-diffusion metrics extend this analysis and further reveal that some non-trivial geometry invisible to plain distance-based methods is still preserved. Intuitively, we provide evidence that the decision boundaries nevertheless retain many persistent "wiggly and fuzzy" regions on a finer scale. Second, we show how Brownian hitting probabilities translate to soft generalization bounds which are in turn connected to compression and noise stability (Arora et al, 2018), and these bounds are significantly stronger if the decision boundary has controlled geometric features.
翻訳日:2021-03-28 18:20:26 公開日:2021-01-15
# (参考訳) dtControl 2.0: 専門家による決定木学習による説明可能な戦略表現

dtControl 2.0: Explainable Strategy Representation via Decision Tree Learning Steered by Experts ( http://arxiv.org/abs/2101.07202v1 )

ライセンス: CC BY 4.0
Pranav Ashok, Mathias Jackermeier, Jan K\v{r}et\'insk\'y, Christoph Weinhuber, Maximilian Weininger, Mayank Yadav(参考訳) 近年の進歩は、様々な目的を満足する戦略(またはコントローラ)を簡潔に表現するための決定木が適切なデータ構造であることを示す。 さらに、戦略をより説明しやすいものにしている。 最近のツールdtControlは、SCOTSやUppaal Strategoといったハイブリッドシステムの戦略合成をサポートするツールを備えたパイプラインを提供している。 dtcontrol 2.0は,いくつかの基本的な新機能を備えた新バージョンである。 最も重要なのは、ユーザが決定木学習プロセスで悪用されるドメイン知識を提供し、動的に提供された情報に基づいてプロセスを対話的に制御できることだ。 この目的のために、グラフィカルユーザインタフェースも提供します。 これにより、結果の一部の検査と再計算が可能になり、述語に対するアドバイスの受け付け、意思決定プロセスの視覚的なシミュレーションが可能になる。 さらに、確率システムのモデルチェッカー、すなわちStormとPRISMをインターフェースし、分類列挙型状態変数の専用サポートを提供する。 その結果、コントローラはより説明しやすく、小さくなる。

Recent advances have shown how decision trees are apt data structures for concisely representing strategies (or controllers) satisfying various objectives. Moreover, they also make the strategy more explainable. The recent tool dtControl had provided pipelines with tools supporting strategy synthesis for hybrid systems, such as SCOTS and Uppaal Stratego. We present dtControl 2.0, a new version with several fundamentally novel features. Most importantly, the user can now provide domain knowledge to be exploited in the decision tree learning process and can also interactively steer the process based on the dynamically provided information. To this end, we also provide a graphical user interface. It allows for inspection and re-computation of parts of the result, suggesting as well as receiving advice on predicates, and visual simulation of the decision-making process. Besides, we interface model checkers of probabilistic systems, namely Storm and PRISM and provide dedicated support for categorical enumeration-type state variables. Consequently, the controllers are more explainable and smaller.
翻訳日:2021-03-28 18:19:12 公開日:2021-01-15
# (参考訳) 新しいクラスター分類レグレッシブモデル予測制御器ccr-mpc

A Novel Cluster Classify Regress Model Predictive Controller Formulation; CCR-MPC ( http://arxiv.org/abs/2101.07655v1 )

ライセンス: CC BY 4.0
Clement Etienam, Siying Shen, Edward J O'Dwyer and Joshua Sykes(参考訳) 本研究では,機械学習の分野における高度な技術を用いた新しいデータ駆動モデル予測制御器を開発する。 目的は、外部の気象状態によって間接的に影響を受ける、所望の室内設定温度を調整するための制御信号を調整することである。 この手法は、Long Short Term Memory Model (LSTM) または Gradient Boosting Algorithm (XGboost) を用いて時系列機械学習モデルを開発することを含み、任意の時間的地平線に対してこの気象状態を予測し、制御信号を所望のセットポイントに同時最適化することができる。 気象状態を制御信号とともに室温にマッピングする教師付き学習モデルは、CCR(Cluster Classify regress)と呼ばれる以前に開発された手法を用いて構築される。 CCR-MPCと呼ばれる全体的な手法は、天気予報のための時系列モデル、転送のためのCCR、逆問題を解決するための数値最適化手法を組み合わせたものである。 前向きの不確実性定量化(フォワード-UQ)は、CCRの回帰モデルに傾き、ベイズディープニューラルネットワークまたはガウスプロセス(GP)を用いて達成可能である。 このために, ccr変調では, クラスタリングにはk平均クラスタリング, 分類にはxgboost分類器, 回帰には5次多項式回帰を用いる。 逆UQは、逆問題やよく知られたマルコフ連鎖モンテカルロ(MCMC)アプローチを解くためにI-ESアプローチを用いても得られる。 開発されたCCR-MPCはエレガントであり、数値実験で見られるように、コントローラを最適化して所望のセットポイント温度を達成することができる。

In this work, we develop a novel data-driven model predictive controller using advanced techniques in the field of machine learning. The objective is to regulate control signals to adjust the desired internal room setpoint temperature, affected indirectly by the external weather states. The methodology involves developing a time-series machine learning model with either a Long Short Term Memory model (LSTM) or a Gradient Boosting Algorithm (XGboost), capable of forecasting this weather states for any desired time horizon and concurrently optimising the control signals to the desired set point. The supervised learning model for mapping the weather states together with the control signals to the room temperature is constructed using a previously developed methodology called Cluster Classify regress (CCR), which is similar in style but scales better to high dimensional dataset than the well-known Mixture-of-Experts. The overall method called CCR-MPC involves a combination of a time series model for weather states prediction, CCR for forwarding and any numerical optimisation method for solving the inverse problem. Forward uncertainty quantification (Forward-UQ) leans towards the regression model in the CCR and is attainable using a Bayesian deep neural network or a Gaussian process (GP). For this work, in the CCR modulation, we employ K-means clustering for Clustering, XGboost classifier for Classification and 5th order polynomial regression for Regression. Inverse UQ can also be obtained by using an I-ES approach for solving the inverse problem or even the well-known Markov chain Monte Carlo (MCMC) approach. The developed CCR-MPC is elegant, and as seen on the numerical experiments is able to optimise the controller to attain the desired setpoint temperature.
翻訳日:2021-03-28 18:18:24 公開日:2021-01-15
# (参考訳) AIナビゲーションアルゴリズムの検証と検証について [全文訳有]

On the Verification and Validation of AI Navigation Algorithms ( http://arxiv.org/abs/2101.06091v1 )

ライセンス: CC BY 4.0
Ivan Porres, Sepinoud Azimi, S\'ebastien Lafond, Johan Lilius, Johanna Salokannel, Mirva Salokorpi(参考訳) 本稿では,自律型水上船におけるナビゲーションアルゴリズムの検証と検証を行う手法の現状について検討する。 自律ナビゲーションと衝突回避のための新しいアルゴリズムを提案するため,過去10年間に発表された研究成果を体系的マッピング研究により探索し,これらのアルゴリズムに適用した検証と検証のアプローチを抽出した。 ほとんどの研究はシミュレーションを使ってアルゴリズムを検証している。 しかしながら、これらのシミュレーションは、しばしば手動で設計されたいくつかのシナリオを含む。 これはアルゴリズムが正しく検証されているかどうかという疑問を提起する。 そこで本研究では,ナビゲーションアルゴリズムを広範囲に検証するための体系的シナリオベーステスト手法を提案する。

This paper explores the state of the art on to methods to verify and validate navigation algorithms for autonomous surface ships. We perform a systematic mapping study to find research works published in the last 10 years proposing new algorithms for autonomous navigation and collision avoidance and we have extracted what verification and validation approaches have been applied on these algorithms. We observe that most research works use simulations to validate their algorithms. However, these simulations often involve just a few scenarios designed manually. This raises the question if the algorithms have been validated properly. To remedy this, we propose the use of a systematic scenario-based testing approach to validate navigation algorithms extensively.
翻訳日:2021-03-28 18:17:12 公開日:2021-01-15
# (参考訳) 自動運転技術におけるブラックボックス攻撃 [全文訳有]

Black-box Adversarial Attacks in Autonomous Vehicle Technology ( http://arxiv.org/abs/2101.06092v1 )

ライセンス: CC BY 4.0
K Naveen Kumar, C Vishnu, Reshmi Mitra, C Krishna Mohan(参考訳) 現実世界のアプリケーションにおけるディープニューラルネットワークの性能は高いが、敵攻撃の小さな摂動の影響を受けやすい。 これは人間の視覚では検出できない。 このような攻撃の影響は、リアルタイムの「安全」を懸念する自動運転車にとって極めて有害なものとなっている。 ブラックボックスの逆襲は、道路標識や信号などの重要なシーンで、自動運転車が他の車両や歩行者に衝突する原因となった。 本稿では,トランスファーベース攻撃法におけるWhite-box Sourceの使用を克服するために,Modified Simple Black-box attack (M-SimBA) と呼ばれる新しいクエリベースの攻撃手法を提案する。 また、単純なブラックボックス攻撃(simba)における遅延収束の問題は、正しいクラスの損失を最大化しようとするのではなく、モデルが予測する最も誤ったクラスである最も混乱したクラスの損失を最小化することで解決される。 本稿では,ドイツ交通信号認識ベンチマーク(GTSRB)データセットに対する提案手法の性能評価を行う。 提案モデルは, 伝達型投影勾配降下(t-pgd), simbaといった既存モデルよりも収束時間, 混乱したクラス確率分布の平坦化, 真のクラスに対する信頼度の低い逆サンプルの生成に優れることを示した。

Despite the high quality performance of the deep neural network in real-world applications, they are susceptible to minor perturbations of adversarial attacks. This is mostly undetectable to human vision. The impact of such attacks has become extremely detrimental in autonomous vehicles with real-time "safety" concerns. The black-box adversarial attacks cause drastic misclassification in critical scene elements such as road signs and traffic lights leading the autonomous vehicle to crash into other vehicles or pedestrians. In this paper, we propose a novel query-based attack method called Modified Simple black-box attack (M-SimBA) to overcome the use of a white-box source in transfer based attack method. Also, the issue of late convergence in a Simple black-box attack (SimBA) is addressed by minimizing the loss of the most confused class which is the incorrect class predicted by the model with the highest probability, instead of trying to maximize the loss of the correct class. We evaluate the performance of the proposed approach to the German Traffic Sign Recognition Benchmark (GTSRB) dataset. We show that the proposed model outperforms the existing models like Transfer-based projected gradient descent (T-PGD), SimBA in terms of convergence time, flattening the distribution of confused class probability, and producing adversarial samples with least confidence on the true class.
翻訳日:2021-03-28 18:03:11 公開日:2021-01-15
# (参考訳) 偉大な自律FXトレーディング戦略なのか、それとも自分自身をだますのか? [全文訳有]

Is it a great Autonomous FX Trading Strategy or you are just fooling yourself ( http://arxiv.org/abs/2101.07217v1 )

ライセンス: CC BY-SA 4.0
Murilo Sibrao Bernardini and Paulo Andre Lima de Castro(参考訳) 金融資産を自律的に売買するソフトウェアを開発する実践者がたくさんいます。 シミュレーションや現実の市場で取引業者(またはロボット)の開発、テスト、展開を可能にするデジタルプラットフォームがいくつか存在する。 これらの作業のいくつかは、非常に短い期間の投資に重点を置いている。 金融分野で使われるAI技術の範囲は広い。 開発者が歴史的価格シリーズ(いわゆるバックテスト)で優れたパフォーマンスのロボットを開発することに成功しているケースは多い。 さらに、一部のプラットフォームでは、現実の市場で利益を上げることができる何千ものロボットが利用可能になっている。 これらの戦略は、単純なアイデアや複雑な機械学習スキームで作成することができる。 それでも、実際の市場で使われる場合や、トレーニングや評価に使用されていないデータが頻繁に使用される場合、パフォーマンスは非常に低い。 本稿では,外国為替取引戦略(fx)の戦略評価手法を提案する。 この方法は、実践者や研究者を騙すことができる多くの落とし穴に対処する。 本稿では,多くの金融資産において,このような手法をいくつかの有名な自律戦略に適用した結果について述べる。 これらの結果を分析すると、信頼できる戦略を構築することは極めて困難であり、多くの公開戦略が信頼できる投資手段とは程遠いことに気づく。 これらの事実は、そのような素晴らしい(かつ繰り返しない)結果を宣伝し、悪いが意味のある結果を隠して、そのようなロボットを売ろうとする人々によって悪用される。 提案手法は, 潜在的なロボットの中から選択し, 最小限の期間とテスト実行要件を確立するために使用できる。 このようにして、この手法は、本当に素晴らしい取引戦略を持っているか、単に自分を騙しているだけかを判断するのに役立ちます。

There are many practitioners that create software to buy and sell financial assets in an autonomous way. There are some digital platforms that allow the development, test and deployment of trading agents (or robots) in simulated or real markets. Some of these work focus on very short horizons of investment, while others deal with longer periods. The spectrum of used AI techniques in finance field is wide. There are many cases, where the developers are successful in creating robots with great performance in historical price series (so called backtesting). Furthermore, some platforms make available thousands of robots that [allegedly] are able to be profitable in real markets. These strategies may be created with some simple idea or using complex machine learning schemes. Nevertheless, when they are used in real markets or with data not used in their training or evaluation frequently they present very poor performance. In this paper, we propose a method for testing Foreign Exchange (FX) trading strategies that can provide realistic expectations about strategy's performance. This method addresses many pitfalls that can fool even experience practitioners and researchers. We present the results of applying such method in several famous autonomous strategies in many different financial assets. Analyzing these results, we can realize that it is very hard to build a reliable strategy and many published strategies are far from being reliable vehicles of investment. These facts can be maliciously used by those who try to sell such robots, by advertising such great (and non repetitive) results, while hiding the bad but meaningful results. The proposed method can be used to select among potential robots, establishes minimal periods and requirements for the test executions. In this way, the method helps to tell if you really have a great trading strategy or you are just fooling yourself.
翻訳日:2021-03-28 17:54:12 公開日:2021-01-15
# (参考訳) hyperspectral image classification -- traditional to deep models: a survey for future prospects [全文訳有]

Hyperspectral Image Classification -- Traditional to Deep Models: A Survey for Future Prospects ( http://arxiv.org/abs/2101.06116v1 )

ライセンス: CC BY 4.0
Sidrah Shabbir and Muhammad Ahmad(参考訳) ハイパースペクトルイメージング(HSI)は、各ピクセルに含まれる詳細なスペクトル情報の恩恵を受け、多くの実写アプリケーションで広く利用されている。 特に、捕獲されたスペクトル情報とhsiデータの対応する対象との非線形関係という複雑な特性は、従来の手法では正確な分類に挑戦する。 近年,多くのコンピュータビジョンタスクに現れる非線形問題に効果的に対処する強力な特徴抽出器として,ディープラーニング(DL)が確立されている。 これによりhsi分類(hsic)用のdlがデプロイされ、パフォーマンスが向上した。 本調査では,HSICにおけるDLの体系的概要と,そのトピックの最先端戦略の比較を行った。 主に、HSICにおける従来の機械学習の主な課題をカプセル化し、これらの問題に対処するためのDLの優位性を知る。 本調査では,最新のDLフレームワークをスペクトル特徴,空間特徴,空間スペクトルの特徴に分類し,HSICにおけるこれらのフレームワークの成果(将来方向など)を体系的に分析する。 さらに,本論文では,HSICの取得には時間とコストの面で困難であるのに対して,DLには多数のラベル付きトレーニング例が必要であることを考察する。 そこで本研究では,今後のガイドラインを提供するためのDL戦略の一般化性能向上策について論じる。

Hyperspectral Imaging (HSI) has been extensively utilized in many real-life applications because it benefits from the detailed spectral information contained in each pixel. Notably, the complex characteristics i.e., the nonlinear relation among the captured spectral information and the corresponding object of HSI data make accurate classification challenging for traditional methods. In the last few years, deep learning (DL) has been substantiated as a powerful feature extractor that effectively addresses the nonlinear problems that appeared in a number of computer vision tasks. This prompts the deployment of DL for HSI classification (HSIC) which revealed good performance. This survey enlists a systematic overview of DL for HSIC and compared state-of-the-art strategies of the said topic. Primarily, we will encapsulate the main challenges of traditional machine learning for HSIC and then we will acquaint the superiority of DL to address these problems. This survey breakdown the state-of-the-art DL frameworks into spectral-features, spatial-features, and together spatial-spectral features to systematically analyze the achievements (future directions as well) of these frameworks for HSIC. Moreover, we will consider the fact that DL requires a large number of labeled training examples whereas acquiring such a number for HSIC is challenging in terms of time and cost. Therefore, this survey discusses some strategies to improve the generalization performance of DL strategies which can provide some future guidelines.
翻訳日:2021-03-28 17:11:49 公開日:2021-01-15
# (参考訳) EAGER:知識グラフのための埋め込み支援エンティティ解決 [全文訳有]

EAGER: Embedding-Assisted Entity Resolution for Knowledge Graphs ( http://arxiv.org/abs/2101.06126v1 )

ライセンス: CC BY 4.0
Daniel Obraczka, Jonathan Schuchart, Erhard Rahm(参考訳) エンティティ分解(ER)は、同じ現実世界のオブジェクトを参照するエンティティを特定するために異なる知識グラフを統合するための構成的な部分である。 有望なアプローチは、そのグラフ近傍の類似性に基づいてエンティティの類似性を決定するために、ERに対するグラフ埋め込みを使用することである。 そのような埋め込みに対する類似性計算は、比較的単純な埋め込み空間におけるそれらの間の距離を計算することを意味する。 しかし,従来の研究では,グラフ埋め込みだけでは高いER品質を実現するには不十分であることが示されている。 そこで我々は,教師付き機械学習手法におけるグラフ埋め込みと属性値の類似性を柔軟に活用するために,eager(embedding-ass isted knowledge graph entity resolution)と呼ばれる知識グラフに対するより包括的なerアプローチを提案する。 異なる大きさで構造化された知識グラフを持つ23のベンチマークデータセットに対するアプローチを評価し、仮説テストを用いて結果の統計的意義を確かめる。 さらに,我々のアプローチを最先端erソリューションと比較し,テーブル指向er問題と浅い知識グラフの競合結果をもたらすが,より深い知識グラフではずっと良い結果が得られる。

Entity Resolution (ER) is a constitutional part for integrating different knowledge graphs in order to identify entities referring to the same real-world object. A promising approach is the use of graph embeddings for ER in order to determine the similarity of entities based on the similarity of their graph neighborhood. The similarity computations for such embeddings translates to calculating the distance between them in the embedding space which is comparatively simple. However, previous work has shown that the use of graph embeddings alone is not sufficient to achieve high ER quality. We therefore propose a more comprehensive ER approach for knowledge graphs called EAGER (Embedding-Assisted Knowledge Graph Entity Resolution) to flexibly utilize both the similarity of graph embeddings and attribute values within a supervised machine learning approach. We evaluate our approach on 23 benchmark datasets with differently sized and structured knowledge graphs and use hypothesis tests to ensure statistical significance of our results. Furthermore we compare our approach with state-of-the-art ER solutions, where our approach yields competitive results for table-oriented ER problems and shallow knowledge graphs but much better results for deeper knowledge graphs.
翻訳日:2021-03-28 16:13:24 公開日:2021-01-15
# (参考訳) 情報エージェントと協力し [全文訳有]

Teaming up with information agents ( http://arxiv.org/abs/2101.06133v1 )

ライセンス: CC BY 4.0
Jurriaan van Diggelen, Wiard Jorritsma, Bob van der Vecht(参考訳) コンピュータをチームパートナとして設計する作業は複雑ですが、チームの振る舞いのパターンを観察することで、AIシステムが人間とどのように協力するかを一般的なレベルで記述することができます。 ヒューマンマシン・チームで働くほとんどの作業は物理的エージェント(例:物理エージェント)に焦点を当てている。 ロボットシステム)の目的は、人間が情報エージェントとどのように協力するかを研究することです。 我々は、適切なチームデザインパターンを提案し、コラボレーティブインテリジェンス分析(CIA)ツールを使ってそれらをテストします。

Despite the intricacies involved in designing a computer as a teampartner, we can observe patterns in team behavior which allow us to describe at a general level how AI systems are to collaborate with humans. Whereas most work on human-machine teaming has focused on physical agents (e.g. robotic systems), our aim is to study how humans can collaborate with information agents. We propose some appropriate team design patterns, and test them using our Collaborative Intelligence Analysis (CIA) tool.
翻訳日:2021-03-28 15:55:18 公開日:2021-01-15
# (参考訳) 動物疾患関連ニュース記事における疫学情報の注記:ガイドライン [全文訳有]

Annotation of epidemiological information in animal disease-related news articles: guidelines ( http://arxiv.org/abs/2101.06150v1 )

ライセンス: CC BY 4.0
Sarah Valentin, Elena Arsevska, Aline Vilain, Val\'erie De Waele, Renaud Lancelot, Mathieu Roche(参考訳) 本稿では,動物病関連ニュース記事の疫学的情報アノテーションについて述べる。 アノテーションガイドラインは汎用的であり、病原体やその感染方法に関係なく、すべての動物または動物性感染症を受け入れることを目的としている(例)。 ベクターベース、空中、接触による)。 このフレームワークは、ニュース記事の全文の連続したアノテーションに依存している。 注釈者は、ニュース記事の公開に対応する特定の疫学的な文脈で文章を評価する。

This paper describes a method for annotation of epidemiological information in animal disease-related news articles. The annotation guidelines are generic and aim to embrace all animal or zoonotic infectious diseases, regardless of the pathogen involved or its way of transmission (e.g. vector-borne, airborne, by contact). The framework relies on the successive annotation of all the sentences from a news article. The annotator evaluates the sentences in a specific epidemiological context, corresponding to the publication of the news article.
翻訳日:2021-03-28 15:52:37 公開日:2021-01-15
# (参考訳) 信頼できない情報源から学ぶ確率的推論 [全文訳有]

Probabilistic Inference for Learning from Untrusted Sources ( http://arxiv.org/abs/2101.06171v1 )

ライセンス: CC BY 4.0
Duc Thien Nguyen, Shiau Hoong Lim, Laura Wynter and Desmond Cai(参考訳) フェデレーション学習は、より高速な学習、より良いソリューション、そして異なるパーティからの不均一なデータが多様性を増すときの転送の確率を高める。 しかし、連合学習タスクは大規模で複雑であり、訓練時間も無視できないため、集約アルゴリズムは非IIDデータや腐敗した当事者に対して堅牢であることが重要である。 この堅牢性は、互換性のない当事者を識別し、適切に重み付けする能力に依存している。 最近の研究は、識別を実行するために \textit{reference dataset} が利用可能であると仮定している。 このような参照データセットが利用できないような設定を考えるのではなく、パーティの品質と適合性は \textit{inferred} である必要があります。 クラウドソーシングによる予測と協調フィルタリングからアイデアを導き、未知の品質の参加者の提案に対して未知の根拠を推論しなければならない。 本稿では,パーティの品質に適応したベイズ推論に基づく新しい連合学習集約アルゴリズムを提案する。 実験により,合成データと実データの両方における連合学習において,アルゴリズムが標準的かつ頑健なアグリゲーションよりも優れていることを示す。

Federated learning brings potential benefits of faster learning, better solutions, and a greater propensity to transfer when heterogeneous data from different parties increases diversity. However, because federated learning tasks tend to be large and complex, and training times non-negligible, it is important for the aggregation algorithm to be robust to non-IID data and corrupted parties. This robustness relies on the ability to identify, and appropriately weight, incompatible parties. Recent work assumes that a \textit{reference dataset} is available through which to perform the identification. We consider settings where no such reference dataset is available; rather, the quality and suitability of the parties needs to be \textit{inferred}. We do so by bringing ideas from crowdsourced predictions and collaborative filtering, where one must infer an unknown ground truth given proposals from participants with unknown quality. We propose novel federated learning aggregation algorithms based on Bayesian inference that adapt to the quality of the parties. Empirically, we show that the algorithms outperform standard and robust aggregation in federated learning on both synthetic and real data.
翻訳日:2021-03-28 15:46:59 公開日:2021-01-15
# (参考訳) スタイル伝達モデルにおける監督信号の実証評価 [全文訳有]

Empirical Evaluation of Supervision Signals for Style Transfer Models ( http://arxiv.org/abs/2101.06172v1 )

ライセンス: CC BY-SA 4.0
Yevgeniy Puzikov, Simoes Stanley, Iryna Gurevych and Immanuel Schweizer(参考訳) 近年,テキスト・スタイル・トランスファーが研究コミュニティから注目を集めている。 しかし、提案されたアプローチは様々な方法で異なり、モデルコンポーネントの個々の貢献を評価するのが困難である。 スタイル転送において最も重要な要素は、並列トレーニングデータがない場合の学習を導くための最適化技術である。 本研究は、バックトランスレーション、逆行訓練、強化学習という、トレーニング中の監視信号を提供する支配的な最適化パラダイムを実証的に比較する。 バックトランスレーションにはモデル固有の制限があり、トレーニングスタイルの転送モデルを妨げる。 強化学習は最高のパフォーマンス向上を示すが、敵の訓練はその人気にもかかわらず、後者の代替よりも有利ではない。 本研究では,機械翻訳コミュニティで人気の手法である最小リスクトレーニング(Minimum Risk Training)についても実験を行った。 この研究のギャップを埋め、その効果を実証的に示す。

Text style transfer has gained increasing attention from the research community over the recent years. However, the proposed approaches vary in many ways, which makes it hard to assess the individual contribution of the model components. In style transfer, the most important component is the optimization technique used to guide the learning in the absence of parallel training data. In this work we empirically compare the dominant optimization paradigms which provide supervision signals during training: backtranslation, adversarial training and reinforcement learning. We find that backtranslation has model-specific limitations, which inhibits training style transfer models. Reinforcement learning shows the best performance gains, while adversarial training, despite its popularity, does not offer an advantage over the latter alternative. In this work we also experiment with Minimum Risk Training, a popular technique in the machine translation community, which, to our knowledge, has not been empirically evaluated in the task of style transfer. We fill this research gap and empirically show its efficacy.
翻訳日:2021-03-28 15:28:10 公開日:2021-01-15
# (参考訳) 畳み込み再帰型ニューラルネットワークに基づくPM2.5時空間伝播の新しい予測手法 [全文訳有]

A Novel Prediction Approach for Exploring PM2.5 Spatiotemporal Propagation Based on Convolutional Recursive Neural Networks ( http://arxiv.org/abs/2101.06213v1 )

ライセンス: CC BY 4.0
Hsing-Chung Chen, Karisma Trinanda Putra, Jerry Chun-WeiLin(参考訳) 健康を脅かすPM2.5汚染物質の普及は、多くの大気変数を含むため予測が難しい。 これらのミクロン粒子は源から住宅地まで急速に拡散し、長時間露光すると呼吸器疾患のリスクが高まる。 PM2.5の伝播予測システムは、地域社会への健康影響を減らす早期警戒システムとして、より詳細で正確な情報を提供する。 本論文で提案するトランスフォーメーションコンピューティングの考え方により,大規模pm2.5センサノードから取得したデータセットを無線センサネットワークで計算できる。 このスキームでは、深層学習モデルをサーバノードに実装し、これらのデータセットの時空間的特徴を抽出する。 本研究は,台湾の大気質モニタリングシステムのデータセットを用いて行った。 本研究では,畳み込み再帰型ニューラルネットワークに基づく予測マップを生成する新しいモデルを提案する。 一般に、測定ノード間の結合を空間的および時間的に考慮し、正確な予測結果を提供できる。 そこで, 本論文では, PM2.5の粒子状汚染物質伝播をモデルを用いて正確に観測する。

The spread of PM2.5 pollutants that endanger health is difficult to predict because it involves many atmospheric variables. These micron particles can spread rapidly from their source to residential areas, increasing the risk of respiratory disease if exposed for long periods. The prediction system of PM2.5 propagation provides more detailed and accurate information as an early warning system to reduce health impacts on the community. According to the idea of transformative computing, the approach we propose in this paper allows computation on the dataset obtained from massive-scale PM2.5 sensor nodes via wireless sensor network. In the scheme, the deep learning model is implemented on the server nodes to extract spatiotemporal features on these datasets. This research was conducted by using dataset of air quality monitoring systems in Taiwan. This study presents a new model based on the convolutional recursive neural network to generate the prediction map. In general, the model is able to provide accurate predictive results by considering the bonds among measurement nodes in both spatially and temporally. Therefore, the particulate pollutant propagation of PM2.5 could be precisely monitored by using the model we propose in this paper.
翻訳日:2021-03-28 14:29:44 公開日:2021-01-15
# (参考訳) LIME:数学的推論の原始者のためのインダクティブバイアスの学習 [全文訳有]

LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning ( http://arxiv.org/abs/2101.06223v1 )

ライセンス: CC BY 4.0
Yuhuai Wu, Markus Rabe, Wenda Li, Jimmy Ba, Roger Grosse, Christian Szegedy(参考訳) ニューラルアーキテクチャにおける帰納バイアスの設計は広く研究されているが、トランスフォーマーネットワークは適切な汎用タスクから帰納バイアスを学ぶのに十分な柔軟性があるという仮説を立てている。 ここでは,インダクティブバイアスをデータセット形式でエンコードすることで,アーキテクチャ工学を置き換える。 推論、帰納、帰納は推論プリミティブの既約集合を形成するというパースの見解に触発され、これらの3つの能力を持つためにモデルを必要とする3つの合成タスクを設計する。 我々は、これらのタスクから基本的な推論バイアスのみが学べるように、数学的知識を欠くように、これらの合成タスクを特別に設計する。 これは「LIME(Learning Inductive bias for Mathematical rEasoning)」と呼ばれる新しい事前学習手法を定義する。 limeでトレーニングされたモデルは、3つの異なる大きな数学的推論ベンチマークでバニラトランスを著しく上回っている。 従来の事前学習アプローチとして計算コストを支配するのとは異なり、LIMEは典型的な下流タスクの計算コストのごく一部しか必要としない。

While designing inductive bias in neural architectures has been widely studied, we hypothesize that transformer networks are flexible enough to learn inductive bias from suitable generic tasks. Here, we replace architecture engineering by encoding inductive bias in the form of datasets. Inspired by Peirce's view that deduction, induction, and abduction form an irreducible set of reasoning primitives, we design three synthetic tasks that are intended to require the model to have these three abilities. We specifically design these synthetic tasks in a way that they are devoid of mathematical knowledge to ensure that only the fundamental reasoning biases can be learned from these tasks. This defines a new pre-training methodology called "LIME" (Learning Inductive bias for Mathematical rEasoning). Models trained with LIME significantly outperform vanilla transformers on three very different large mathematical reasoning benchmarks. Unlike dominating the computation cost as traditional pre-training approaches, LIME requires only a small fraction of the computation cost of the typical downstream task.
翻訳日:2021-03-28 13:27:22 公開日:2021-01-15
# (参考訳) カーネル混合によるブラインド画像の劣化 [全文訳有]

Blind Image Deblurring based on Kernel Mixture ( http://arxiv.org/abs/2101.06241v1 )

ライセンス: CC BY 4.0
Sajjad Amrollahi Biyouki, Hoon Hwangbo(参考訳) Blind Image deblurringは、ぼやけた画像からぼやけた画像と潜像を推定しようとする。 この推定は、不適切な問題であるとして、潜在イメージやぼやけ性を表すぼやけカーネルに制限を課す必要がある。 遅延画像にいくつかの先行を課す最近の研究とは異なり、この論文はぼやけたカーネルの構造を規制している。 本稿では,ガウスカーネルをベースカーネルとするカーネル混合構造を提案する。 スケールと中心で構造的に強化された複数のガウス核を組み合わせることで、核混合はほぼ非パラメトリックな曖昧さの形状をモデル化することができる。 データ駆動による基本カーネルの数の決定により、構造はさらに柔軟になる。 このアプローチをリモートセンシング問題に適用し,衛星のぼやけた画像から画像を復元する。 本研究は,潜像を制御した最先端手法と比較して,ぼけカーネルを制御した提案手法の優越性を示す。

Blind Image deblurring tries to estimate blurriness and a latent image out of a blurred image. This estimation, as being an ill-posed problem, requires imposing restrictions on the latent image or a blur kernel that represents blurriness. Different from recent studies that impose some priors on the latent image, this paper regulates the structure of the blur kernel. We propose a kernel mixture structure while using the Gaussian kernel as a base kernel. By combining multiple Gaussian kernels structurally enhanced in terms of scales and centers, the kernel mixture becomes capable of modeling nearly non-parametric shape of blurriness. A data-driven decision for the number of base kernels to combine makes the structure even more flexible. We apply this approach to a remote sensing problem to recover images from blurry images of satellite. This case study shows the superiority of the proposed method regulating the blur kernel in comparison with state-of-the-art methods that regulates the latent image.
翻訳日:2021-03-28 13:07:19 公開日:2021-01-15
# (参考訳) 局所サロゲートモデリングのための感度プレワーピング [全文訳有]

Sensitivity Prewarping for Local Surrogate Modeling ( http://arxiv.org/abs/2101.06296v1 )

ライセンス: CC BY 4.0
Nathan Wycoff, Micka\"el Binois, Robert B. Gramacy(参考訳) 製品の品質向上と運用コストの削減という継続的な取り組みの中で、製品設計や構成の実現可能性を決定するために、計算モデリングがますます実施されている。 短距離相互作用のみを考慮した局所モデルによるこれらの計算機実験のサロゲートモデリングは、複雑な入出力関係の巨大な解析に取り組むことができる。 しかし、地域規模に焦点を絞るということは、グローバルなトレンドを何度も繰り返し学ぶ必要があることを意味する。 本稿では,グローバル感度解析からサロゲートモデルへの情報を入力回転および再スケーリング前処理ステップとして組み込むためのフレームワークを提案する。 本稿では,カーネル回帰に基づく複数の感度解析手法の関係を考察し,入力変数の変換をいかに生み出すかを説明する。 具体的には、"warped simulator"が全ての入力方向に対して等しく敏感であるように入力ワーピングを行い、ローカルモデルが局所ダイナミクスに焦点を合わせられるようにした。 自動車産業の高次元計算機シミュレータを含む観測データおよびベンチマークテスト関数に関する数値実験は、実証的検証を提供する。

In the continual effort to improve product quality and decrease operations costs, computational modeling is increasingly being deployed to determine feasibility of product designs or configurations. Surrogate modeling of these computer experiments via local models, which induce sparsity by only considering short range interactions, can tackle huge analyses of complicated input-output relationships. However, narrowing focus to local scale means that global trends must be re-learned over and over again. In this article, we propose a framework for incorporating information from a global sensitivity analysis into the surrogate model as an input rotation and rescaling preprocessing step. We discuss the relationship between several sensitivity analysis methods based on kernel regression before describing how they give rise to a transformation of the input variables. Specifically, we perform an input warping such that the "warped simulator" is equally sensitive to all input directions, freeing local models to focus on local dynamics. Numerical experiments on observational data and benchmark test functions, including a high-dimensional computer simulator from the automotive industry, provide empirical validation.
翻訳日:2021-03-28 12:43:57 公開日:2021-01-15
# (参考訳) 機械学習数学的構造

Machine-Learning Mathematical Structures ( http://arxiv.org/abs/2101.06317v1 )

ライセンス: CC BY 4.0
Yang-Hui He(参考訳) 本稿では,近年,長年に渡り蓄積された機械学習数学データから構造を抽出する実験について概観する。 幾何学から表現論,コンビネータ論から数論まで,さまざまな分野のラベル付きデータに基づく教師付き機械学習に着目し,異なる問題に対する精度の比較研究を行った。 このパラダイムは、予想の定式化、より効率的な計算方法の発見、数学における特定の構造階層の探索に有用である。

We review, for a general audience, a variety of recent experiments on extracting structure from machine-learning mathematical data that have been compiled over the years. Focusing on supervised machine-learning on labeled data from different fields ranging from geometry to representation theory, from combinatorics to number theory, we present a comparative study of the accuracies on different problems. The paradigm should be useful for conjecture formulation, finding more efficient methods of computation, as well as probing into certain hierarchy of structures in mathematics.
翻訳日:2021-03-28 12:15:20 公開日:2021-01-15
# (参考訳) SIMPLEが複雑よりも優れている場合--Bugzilla問題近距離予測のためのディープラーニングのケーススタディ [全文訳有]

When SIMPLE is better than complex: A case study on deep learning for predicting Bugzilla issue close time ( http://arxiv.org/abs/2101.06319v1 )

ライセンス: CC BY-SA 4.0
Rahul Yedida, Xueqi Yang, Tim Menzies(参考訳) ディープラーニングは過大評価されているか? 最先端のディープラーニングとシンプルな選択肢を比較するケーススタディはどこにあるのか? 本稿は,本論文におけるこのギャップに対応するため,バグジラのクローズタイム予測にディープラーニングを用いた場合のケーススタディを提案する。 ここでは、何十年も前からあるfeedforwardニューラルネットワークのシンプルな拡張が、より最近でより精巧な"long-short term memory"深層学習(現在se文学で人気がある)よりもうまく機能していることを報告する。 SIMPLEは高速フィードフォワードネットワークとハイパーパラメータオプティマイザの組み合わせである。 SIMPLEは3秒で実行され、新しいアルゴリズムは終了まで6時間かかる。 実行速度が非常に速いので、オプティマイザによってチューニングされる方が適しています。 この記事は、2010年1月から2016年3月までにChromium、Eclipse、Firefoxプロジェクトで発生した45,364件のクローズタイムデータでSIMPLEを実行した後の結果を報告する。 実験では, このSIMPLErチューニング手法により, より複雑な深層学習者よりも, 問題近接時間の予測精度が有意に向上した。 この良くてシンプルな結果は、最先端のディープラーナーを使用する場合よりも2,700倍高速に生成できる。 この結果から、2つの結論が得られた。 まず,問題近接時間を予測するため,複雑な深層学習者に対してSIMPLEを推奨する。 第二に、アナリストが非常に洗練された(しかし非常に遅い)アルゴリズムを試す前に、単純な(しかし非常に速い)アルゴリズムにハイパーパラメータ最適化を適用することで、より早くより良い結果が得られるかもしれない。

Is deep learning over-hyped? Where are the case studies that compare state-of-the-art deep learners with simpler options? In response to this gap in the literature, this paper offers one case study on using deep learning to predict issue close time in Bugzilla. We report here that a SIMPLE extension to a decades-old feedforward neural network works better than the more recent, and more elaborate, "long-short term memory" deep learning (which are currently popular in the SE literature). SIMPLE is a combination of a fast feedforward network and a hyper-parameter optimizer. SIMPLE runs in 3 seconds while the newer algorithms take 6 hours to terminate. Since it runs so fast, it is more amenable to being tuned by our optimizer. This paper reports results seen after running SIMPLE on issue close time data from 45,364 issues raised in Chromium, Eclipse, and Firefox projects from January 2010 to March 2016. In our experiments, this SIMPLEr tuning approach achieves significantly better predictors for issue close time than the more complex deep learner. These better and SIMPLEr results can be generated 2,700 times faster than if using a state-of-the-art deep learner. From this result, we make two conclusions. Firstly, for predicting issue close time, we would recommend SIMPLE over complex deep learners. Secondly, before analysts try very sophisticated (but very slow) algorithms, they might achieve better results, much sooner, by applying hyper-parameter optimization to simple (but very fast) algorithms.
翻訳日:2021-03-28 12:14:31 公開日:2021-01-15
# (参考訳) 注意に基づくライブオンラインズーム授業のビデオ要約

Attention Based Video Summaries of Live Online Zoom Classes ( http://arxiv.org/abs/2101.06328v1 )

ライセンス: CC BY 4.0
Hyowon Lee, Mingming Liu, Hamza Riaz, Navaneethan Rajasekaren, Michael Scriney, Alan F. Smeaton(参考訳) 本稿では,大学生がオンライン講義,チュートリアル,実験室,その他のライブセッションからより多くの情報を得るためのシステムについて述べる。 私たちは、ライブZoomセッション中にラップトップ上の注意レベルをログし、それらのライブセッションのパーソナライズされたビデオ要約を提供する。 顔の注意分析ソフトウェアを用いて、学生の注意が一定の閾値以下である部分のみからなる個人化されたビデオ要約を作成する。 また, 生徒が注意を払わない部分や, 生徒が意識していない部分, 留学生が広く再生した映像の一部など, 映像要約生成に他の基準を組み込むこともできる。 注意と利用に基づくライブクラスのビデオ要約は、パーソナライズされたコンテンツの一形態であり、ライブセッションの重要な部分を強調するために推奨される教育ビデオセグメントであり、トピック理解と試験準備の両方に有用である。 このシステムにより、教授は、ライブセッションに出席し、注意レベルをログしたクラスの参加者の集中した注意レベルをレビューできる。 これにより、ライブ活動の学生のどの部分が、少なくとも最も注意を払っているかを知ることができる。 Help-Me-Watchシステムは、GDPRに準拠した方法で、学生の個人情報を保護する方法で、私たちの大学にデプロイおよび使用されています。

This paper describes a system developed to help University students get more from their online lectures, tutorials, laboratory and other live sessions. We do this by logging their attention levels on their laptops during live Zoom sessions and providing them with personalised video summaries of those live sessions. Using facial attention analysis software we create personalised video summaries composed of just the parts where a student's attention was below some threshold. We can also factor in other criteria into video summary generation such as parts where the student was not paying attention while others in the class were, and parts of the video that other students have replayed extensively which a given student has not. Attention and usage based video summaries of live classes are a form of personalised content, they are educational video segments recommended to highlight important parts of live sessions, useful in both topic understanding and in exam preparation. The system also allows a Professor to review the aggregated attention levels of those in a class who attended a live session and logged their attention levels. This allows her to see which parts of the live activity students were paying most, and least, attention to. The Help-Me-Watch system is deployed and in use at our University in a way that protects student's personal data, operating in a GDPR-compliant way.
翻訳日:2021-03-28 11:40:30 公開日:2021-01-15
# KDLSQ-BERT:知識蒸留と学習ステップサイズ量子化を組み合わせた量子ベルト

KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization ( http://arxiv.org/abs/2101.05938v1 )

ライセンス: Link先を確認
Jing Jin, Cai Liang, Tiancheng Wu, Liqin Zou, Zhiliang Gan(参考訳) 近年,BERTのようなトランスフォーマーベースの言語モデルでは,自然言語処理タスクの処理性能が大幅に向上している。 しかし、これらの言語モデルは一般的に計算コストが高く、推論中にメモリが集中する。 その結果、リソース制限されたデバイスにデプロイすることは困難である。 モデル精度を維持しつつモデルサイズを小さくし、推論性能を向上させるため、言語モデル量子化のための知識蒸留(kd)と学習ステップサイズ量子化(lsq)を組み合わせたkdlsq-bertという新しい量子化法を提案する。 本手法の主な考え方は、量子化学習過程において、LSQを利用して「学習者」モデルから「学習者」モデルへ知識を伝達するために、KD手法を利用することである。 GLUEベンチマークとSQuADの大規模な実験結果から、提案したKDLSQ-BERTは、異なるビット(例えば、)を実行する場合にのみ有効であることを示す。 2-bit $\sim$ 8-bit) 量子化は既存のBERT量子化法よりも優れており、14.9倍の圧縮比を得ながら、完全精度のベースラインモデルと同等のパフォーマンスを達成している。 私たちのコードは公開されます。

Recently, transformer-based language models such as BERT have shown tremendous performance improvement for a range of natural language processing tasks. However, these language models usually are computation expensive and memory intensive during inference. As a result, it is difficult to deploy them on resource-restricted devices. To improve the inference performance, as well as reduce the model size while maintaining the model accuracy, we propose a novel quantization method named KDLSQ-BERT that combines knowledge distillation (KD) with learned step size quantization (LSQ) for language model quantization. The main idea of our method is that the KD technique is leveraged to transfer the knowledge from a "teacher" model to a "student" model when exploiting LSQ to quantize that "student" model during the quantization training process. Extensive experiment results on GLUE benchmark and SQuAD demonstrate that our proposed KDLSQ-BERT not only performs effectively when doing different bit (e.g. 2-bit $\sim$ 8-bit) quantization, but also outperforms the existing BERT quantization methods, and even achieves comparable performance as the full-precision base-line model while obtaining 14.9x compression ratio. Our code will be public available.
翻訳日:2021-03-28 11:29:06 公開日:2021-01-15
# 連続学習のための不変表現の学習

Learning Invariant Representation for Continual Learning ( http://arxiv.org/abs/2101.06162v1 )

ライセンス: Link先を確認
Ghada Sokar, Decebal Constantin Mocanu, Mykola Pechenizkiy(参考訳) 継続的学習は、事前に学習した知識に基づいて、一連のタスクを継続的に学習できるインテリジェントエージェントを提供することを目的としている。 この学習パラダイムの重要な課題は、エージェントが新しいタスクに直面すると、それまで学んだタスクを壊滅的に忘れてしまうことだ。 現在のリハーサルベースの手法は、新しいタスクの学習中に前のタスクからサンプルを再生することで、破滅的な忘れ問題の緩和に成功していることを示している。 しかし、これらの手法は、以前のタスクのデータにアクセスできない場合に有効ではない。 本研究では,条件付き生成モデルからクラス不変表現を分離し,クラス固有表現と協調してシーケンシャルタスクを学習する,連続学習のための学習不変表現(ircl)と呼ばれる新しい擬似リハーサルベース手法を提案する。 共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。 推論中にタスクアイデンティティに関する知識がないクラスインクリメンタルな学習に重点を置いています。 MNIST 分割と Fashion MNIST 分割という2つのよく知られた連続学習ベンチマークで提案手法を実証的に評価した。 実験の結果,提案手法は正則化法よりも大きなマージンで優れており,従来の擬似リハーサル法よりも優れていることがわかった。 最後に,前回のタスクで再生されたサンプル数が少ない場合の忘れ問題緩和における共有不変表現の役割を解析する。

Continual learning aims to provide intelligent agents that are capable of learning continually a sequence of tasks, building on previously learned knowledge. A key challenge in this learning paradigm is catastrophically forgetting previously learned tasks when the agent faces a new one. Current rehearsal-based methods show their success in mitigating the catastrophic forgetting problem by replaying samples from previous tasks during learning a new one. However, these methods are infeasible when the data of previous tasks is not accessible. In this work, we propose a new pseudo-rehearsal-bas ed method, named learning Invariant Representation for Continual Learning (IRCL), in which class-invariant representation is disentangled from a conditional generative model and jointly used with class-specific representation to learn the sequential tasks. Disentangling the shared invariant representation helps to learn continually a sequence of tasks, while being more robust to forgetting and having better knowledge transfer. We focus on class incremental learning where there is no knowledge about task identity during inference. We empirically evaluate our proposed method on two well-known benchmarks for continual learning: split MNIST and split Fashion MNIST. The experimental results show that our proposed method outperforms regularization-based methods by a big margin and is better than the state-of-the-art pseudo-rehearsal-bas ed method. Finally, we analyze the role of the shared invariant representation in mitigating the forgetting problem especially when the number of replayed samples for each previous task is small.
翻訳日:2021-03-28 11:28:45 公開日:2021-01-15
# データインプレッション:データフリーアプリケーションのためのサンプル抽出のための深層モデルマイニング

Data Impressions: Mining Deep Models to Extract Samples for Data-free Applications ( http://arxiv.org/abs/2101.06069v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Konda Reddy Mopuri, Saksham Jain, Anirban Chakraborty(参考訳) 事前訓練された深層モデルは、モデルパラメータの形で学習した知識を保持する。 これらのパラメータは、トレーニングされたモデルのメモリとして機能し、見えないデータにうまく一般化するのに役立ちます。 しかし、トレーニングデータがない場合、訓練されたモデルの効用は単に推論か目標タスクへのより良い初期化に限られる。 本稿では、学習したモデルパラメータを利用して、さらに進化して合成データを抽出する。 トレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用できる“Data Impressions”をダブしています。 これらは、事前トレーニングされたモデルのみが利用可能で、トレーニングデータが共有されていないシナリオ(プライバシや感度の懸念など)で有効です。 本研究では,教師なし領域適応,連続学習,知識蒸留などのコンピュータビジョン課題に対するデータ印象の適用性を示す。 また, これらのデータインプレッションを用いて, 知識蒸留により訓練した軽量モデルの逆強靭性について検討した。 さらに,データインプレッションが,不正率の高いuap生成に有効であることを示す。 いくつかのベンチマークデータセットで実施された広範囲な実験は、元のトレーニングデータがない場合のデータインプレッションを使用して、競争力のあるパフォーマンスを示す。

Pretrained deep models hold their learnt knowledge in the form of the model parameters. These parameters act as memory for the trained models and help them generalize well on unseen data. However, in absence of training data, the utility of a trained model is merely limited to either inference or better initialization towards a target task. In this paper, we go further and extract synthetic data by leveraging the learnt model parameters. We dub them "Data Impressions", which act as proxy to the training data and can be used to realize a variety of tasks. These are useful in scenarios where only the pretrained models are available and the training data is not shared (e.g., due to privacy or sensitivity concerns). We show the applicability of data impressions in solving several computer vision tasks such as unsupervised domain adaptation, continual learning as well as knowledge distillation. We also study the adversarial robustness of the lightweight models trained via knowledge distillation using these data impressions. Further, we demonstrate the efficacy of data impressions in generating UAPs with better fooling rates. Extensive experiments performed on several benchmark datasets demonstrate competitive performance achieved using data impressions in absence of the original training data.
翻訳日:2021-03-28 11:28:21 公開日:2021-01-15
# Harmonization と Worst Scanner 症候群

Harmonization and the Worst Scanner Syndrome ( http://arxiv.org/abs/2101.06255v1 )

ライセンス: Link先を確認
Daniel Moyer and Polina Golland(参考訳) 広い種類の調和化/ドメイン不変性スキームに対して、いくつかの望ましくない性質は避けられないことを示す。 予測マシンが一連のドメインに不変であれば、出力予測(相互情報によって測定される)の精度は、開始すべき情報の最小限の領域によって制限される。 実ラベル値がソース領域について非常に有益であれば、不変予測器によって正確に予測することはできない。 これらの結果は単純で直感的だが,医用画像の調和に有用であると考えられる。

We show that for a wide class of harmonization/domain -invariance schemes several undesirable properties are unavoidable. If a predictive machine is made invariant to a set of domains, the accuracy of the output predictions (as measured by mutual information) is limited by the domain with the least amount of information to begin with. If a real label value is highly informative about the source domain, it cannot be accurately predicted by an invariant predictor. These results are simple and intuitive, but we believe that it is beneficial to state them for medical imaging harmonization.
翻訳日:2021-03-28 11:28:04 公開日:2021-01-15
# 言語推論、知識検索、知識統合応答生成を用いたタスク指向ダイアログモデリングにおける非構造化知識アクセス

Unstructured Knowledge Access in Task-oriented Dialog Modeling using Language Inference, Knowledge Retrieval and Knowledge-Integrativ e Response Generation ( http://arxiv.org/abs/2101.06066v1 )

ライセンス: Link先を確認
Mudit Chaudhary, Borislav Dzodzo, Sida Huang, Chun Hei Lo, Mingzhi Lyu, Lun Yiu Nie, Jinbo Xing, Tianhua Zhang, Xiaoying Zhang, Jingyan Zhou, Hong Cheng, Wai Lam, Helen Meng(参考訳) 外部知識に富んだダイアログシステムは、サポートするデータベース/APIの範囲外にあるユーザクエリを処理できる。 本稿では,DSTC9 Track 1のベースラインに従って,非構造化知識にアクセス可能なタスク指向対話システムのためのパイプラインを構成する,KDEAK,KnowleDgEFact or,Ens-GPTの3つのサブシステムを提案する。 特に、KDEAKは、ダイアログ、データベース、FAQからの知識を用いて、自然言語推論として問題を定式化し、知識探索のターン検出を行う。 KnowleDgEFactorは、ドメイン、エンティティ、および知識レベルの分析を行う3つのモジュールを用いて、因子化された知識/文書検索問題を定式化する。 Ens-GPTは、まず複数の知識スニペットを処理し、次に、応答がGPT2-XLモデルからのみ派生するか、上位レベルの知識スニペットと組み合わせて再生すべきかを決定するアンサンブルアルゴリズムを生成する。 実験結果から,提案したパイプラインシステムはベースラインより優れ,高品質な応答が得られ,BLEU-4スコアに対して少なくとも58.77%の改善が得られた。

Dialog systems enriched with external knowledge can handle user queries that are outside the scope of the supporting databases/APIs. In this paper, we follow the baseline provided in DSTC9 Track 1 and propose three subsystems, KDEAK, KnowleDgEFactor, and Ens-GPT, which form the pipeline for a task-oriented dialog system capable of accessing unstructured knowledge. Specifically, KDEAK performs knowledge-seeking turn detection by formulating the problem as natural language inference using knowledge from dialogs, databases and FAQs. KnowleDgEFactor accomplishes the knowledge selection task by formulating a factorized knowledge/document retrieval problem with three modules performing domain, entity and knowledge level analyses. Ens-GPT generates a response by first processing multiple knowledge snippets, followed by an ensemble algorithm that decides if the response should be solely derived from a GPT2-XL model, or regenerated in combination with the top-ranking knowledge snippet. Experimental results demonstrate that the proposed pipeline system outperforms the baseline and generates high-quality responses, achieving at least 58.77% improvement on BLEU-4 score.
翻訳日:2021-03-28 11:27:55 公開日:2021-01-15
# DuoRC上のBERT, ALBERT, LongFormerの格子探索ハイパーパラメータベンチマーク

Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer on DuoRC ( http://arxiv.org/abs/2101.06326v1 )

ライセンス: Link先を確認
Alex John Quijano, Sam Nguyen, and Juanita Ordonez(参考訳) このプロジェクトの目的は、DuoRCと呼ばれる質問応答データセット上でBERT、ALBERT、LongFormerという3つの言語モデルを評価することである。 言語モデルタスクには、質問とコンテキストという2つの入力がある。 文脈は段落または文書全体であり、出力は文脈に基づいた回答である。 目的は、DuoRCを使ってグリッド探索ハイパーパラメータの微調整を行うことである。 モデルの事前トレーニングされた重みは、hughingfaceライブラリから取得する。 モデルの微調整には、 selfrc と paraphraserc の2つのバージョンの duorc を用いて異なるハイパーパラメータが使用される。 その結果、ALBERT(SQuAD1データセットを使用した事前トレーニング)のF1スコアは76.4、精度スコアは68.52であることがわかった。 Longformerモデル(SQuADとSelfRCデータセットで事前訓練)はF1スコアが52.58、ParaphraseRCデータセットを微調整した後の精度スコアが46.60である。 現在の結果は、DuoRCによる以前のモデルよりも優れていた。

The purpose of this project is to evaluate three language models named BERT, ALBERT, and LongFormer on the Question Answering dataset called DuoRC. The language model task has two inputs, a question, and a context. The context is a paragraph or an entire document while the output is the answer based on the context. The goal is to perform grid search hyperparameter fine-tuning using DuoRC. Pretrained weights of the models are taken from the Huggingface library. Different sets of hyperparameters are used to fine-tune the models using two versions of DuoRC which are the SelfRC and the ParaphraseRC. The results show that the ALBERT (pretrained using the SQuAD1 dataset) has an F1 score of 76.4 and an accuracy score of 68.52 after fine-tuning on the SelfRC dataset. The Longformer model (pretrained using the SQuAD and SelfRC datasets) has an F1 score of 52.58 and an accuracy score of 46.60 after fine-tuning on the ParaphraseRC dataset. The current results outperformed the results from the previous model by DuoRC.
翻訳日:2021-03-28 11:27:11 公開日:2021-01-15
# Robusta: 強化学習による機能選択のためのロバストオートML

Robusta: Robust AutoML for Feature Selection via Reinforcement Learning ( http://arxiv.org/abs/2101.05950v1 )

ライセンス: Link先を確認
Xiaoyang Wang, Bo Li, Yibo Zhang, Bhavya Kailkhura, Klara Nahrstedt(参考訳) 機械学習(ML)プロセスを自動化するために、MLモデルアーキテクチャやハイパーパラメータの検索など、いくつかのAutoMLアプローチが提案されている。 しかし、これらのAutoMLパイプラインは、敵攻撃下でのMLモデルの堅牢性を無視しながら、良質なサンプルの学習精度を改善することのみに焦点を当てている。 MLシステムは、ミッションクリティカルな様々なアプリケーションでますます使われているため、MLシステムの堅牢性を向上させることが最も重要になっている。 本稿では,強化学習(RL)に基づく最初の堅牢なAutoMLフレームワークであるRobostaを提案する。 特徴選択シナリオにおいて,0-1ロバスト損失の変動はRLに基づく組合せ探索により直接最適化可能であることを示す。 さらに,相互情報スコアである特徴スコア,木に基づく分類器の重要度スコア,Fスコア,統合勾配(IG)スコア,およびそれらの組み合わせに基づいて,探索手順を高速化するためにヒューリスティックスを採用している。 広範な実験を行い,提案手法は,他の特徴選択法と比較して,良性試料の競合精度を維持しつつ,最大22%の頑健性向上が期待できることを示した。

Several AutoML approaches have been proposed to automate the machine learning (ML) process, such as searching for the ML model architectures and hyper-parameters. However, these AutoML pipelines only focus on improving the learning accuracy of benign samples while ignoring the ML model robustness under adversarial attacks. As ML systems are increasingly being used in a variety of mission-critical applications, improving the robustness of ML systems has become of utmost importance. In this paper, we propose the first robust AutoML framework, Robusta--based on reinforcement learning (RL)--to perform feature selection, aiming to select features that lead to both accurate and robust ML systems. We show that a variation of the 0-1 robust loss can be directly optimized via an RL-based combinatorial search in the feature selection scenario. In addition, we employ heuristics to accelerate the search procedure based on feature scoring metrics, which are mutual information scores, tree-based classifiers feature importance scores, F scores, and Integrated Gradient (IG) scores, as well as their combinations. We conduct extensive experiments and show that the proposed framework is able to improve the model robustness by up to 22% while maintaining competitive accuracy on benign samples compared with other feature selection methods.
翻訳日:2021-03-28 11:26:32 公開日:2021-01-15
# ゼロショット領域適応による予測最適化

Predictive Optimization with Zero-Shot Domain Adaptation ( http://arxiv.org/abs/2101.06233v1 )

ライセンス: Link先を確認
Tomoya Sakai, Naoto Ohsaka(参考訳) ゼロショットドメイン適応(ZSDA)と呼ばれるトレーニングサンプルのない新しいドメインでの予測は、ドメイン適応において重要なタスクである。 近年,新たな領域の予測が注目されているが,本稿ではZSDAの新たな可能性について検討する。 具体的には、新しいドメインで応答を予測する代わりに、予測が与えられた新しいドメインの説明を見つける。 このタスクは予測最適化と見なされるが、既存の予測最適化手法は複数のドメインを扱うために拡張されていない。 本稿では,ZSDAを用いた予測最適化のための簡単なフレームワークを提案し,その最適化問題が凸最適化となる条件を解析する。 また,予測最適化における領域の特性の相互作用の扱いについても論じる。 数値実験により,提案手法の有効性を実証した。

Prediction in a new domain without any training sample, called zero-shot domain adaptation (ZSDA), is an important task in domain adaptation. While prediction in a new domain has gained much attention in recent years, in this paper, we investigate another potential of ZSDA. Specifically, instead of predicting responses in a new domain, we find a description of a new domain given a prediction. The task is regarded as predictive optimization, but existing predictive optimization methods have not been extended to handling multiple domains. We propose a simple framework for predictive optimization with ZSDA and analyze the condition in which the optimization problem becomes convex optimization. We also discuss how to handle the interaction of characteristics of a domain in predictive optimization. Through numerical experiments, we demonstrate the potential usefulness of our proposed framework.
翻訳日:2021-03-28 11:25:53 公開日:2021-01-15
# 視覚と言語に関する推論:補足的知識の利点を探る

Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge ( http://arxiv.org/abs/2101.06013v1 )

ライセンス: Link先を確認
Violetta Shevchenko, Damien Teney, Anthony Dick, Anton van den Hengel(参考訳) 視覚・言語モデルの適用可能性の限界は、トレーニングデータのカバレッジによって定義される。 視覚質問応答(VQA)のようなタスクは、タスク固有のデータセットから何が学べるかを超えて、常識と事実の情報を必要とすることが多い。 本稿では、汎用知識ベース(KB)から視覚・言語変換器への知識注入について検討する。 我々は,学習表現を補助的な学習目標として,kb 内のマッチングエンティティのグラフ埋め込みと整合させる。 我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。 この技術は、既存のモデルにない意味的知識と関係的知識をキャプチャすることで、知識要求型質問応答タスク(OK-VQA、FVQA)に明確な利点をもたらす。 さらに驚くべきことに、この技術は視覚的推論タスク(NLVR2、SNLI-VE)にも役立つ。 探索実験を行い,追加知識の注入が埋め込み空間を定式化し,語彙的および意味的類似性の表現を改善することを示す。 この技術はモデルに依存しず、最小の計算オーバーヘッドを持つ任意の視覚・言語変換器の適用性を拡張することができる。

The limits of applicability of vision-and-language models are defined by the coverage of their training data. Tasks like vision question answering (VQA) often require commonsense and factual information beyond what can be learned from task-specific datasets. This paper investigates the injection of knowledge from general-purpose knowledge bases (KBs) into vision-and-language transformers. We use an auxiliary training objective that encourages the learned representations to align with graph embeddings of matching entities in a KB. We empirically study the relevance of various KBs to multiple tasks and benchmarks. The technique brings clear benefits to knowledge-demanding question answering tasks (OK-VQA, FVQA) by capturing semantic and relational knowledge absent from existing models. More surprisingly, the technique also benefits visual reasoning tasks (NLVR2, SNLI-VE). We perform probing experiments and show that the injection of additional knowledge regularizes the space of embeddings, which improves the representation of lexical and semantic similarities. The technique is model-agnostic and can expand the applicability of any vision-and-language transformer with minimal computational overhead.
翻訳日:2021-03-28 11:25:43 公開日:2021-01-15
# 大腸内視鏡におけるCT診断システムに向けて:畳み込みニューラルネットワークを用いた自動ポリープ分割

Towards a Computed-Aided Diagnosis System in Colonoscopy: Automatic Polyp Segmentation Using Convolution Neural Networks ( http://arxiv.org/abs/2101.06040v1 )

ライセンス: Link先を確認
Patrick Brandao, Odysseas Zisimopoulos, Evangelos Mazomenos, Gastone Ciuti, Jorge Bernal, Marco Visentini-Scarzanell a, Arianna Menciassi, Paolo Dario, Anastasios Koulaouzidis, Alberto Arezzo, David J Hawkes, Danail Stoyanov(参考訳) 早期診断は大腸癌 (crc) を含む腸癌の治療に不可欠であり, 自動画像解析と組み合わせることで, カプセル内視鏡画像診断とロボット作動による診断が有用である。 大腸内視鏡およびカプセル内視鏡画像の病変を認識するためのディープラーニングによる根本検出・分節フレームワークを提案する。 我々は、VGGやResNetsのような確立された畳み込みアーキテクチャを再構成し、それらを完全連結畳み込みネットワーク(FCN)に変換し、それらを微調整し、ポリプのセグメンテーションと検出の能力を研究する。 また,SfS(Shading-Shading )を用いて深度を回復し,大腸内視鏡像における組織構造のより豊かな表現を提供する。 RGB情報に付加的な入力チャネルとして,ネットワークモデルに奥行きを組み込んだ結果,ネットワークの性能が向上したことを示す。 我々のネットワークは、公開データセットでテストされており、最も正確なセグメンテーションモデルは、ETIS-LaribデータセットとCVC-Colonデータセットでそれぞれ47.78%と56.95%の平均セグメンテーションIUを達成した。 ポリープ検出では,提案する最上位のモデルが,テスト対象データセットの90%以上のリコール率で現在の技術を超えている。 我々の知る限り、我々は、性能を高める新しいSfSとRGBの組み合わせを提案することに加えて、ポリープセグメンテーションにFCNを使用する最初の研究を示す。

Early diagnosis is essential for the successful treatment of bowel cancers including colorectal cancer (CRC) and capsule endoscopic imaging with robotic actuation can be a valuable diagnostic tool when combined with automated image analysis. We present a deep learning rooted detection and segmentation framework for recognizing lesions in colonoscopy and capsule endoscopy images. We restructure established convolution architectures, such as VGG and ResNets, by converting them into fully-connected convolution networks (FCNs), fine-tune them and study their capabilities for polyp segmentation and detection. We additionally use Shape from-Shading (SfS) to recover depth and provide a richer representation of the tissue's structure in colonoscopy images. Depth is incorporated into our network models as an additional input channel to the RGB information and we demonstrate that the resulting network yields improved performance. Our networks are tested on publicly available datasets and the most accurate segmentation model achieved a mean segmentation IU of 47.78% and 56.95% on the ETIS-Larib and CVC-Colon datasets, respectively. For polyp detection, the top performing models we propose surpass the current state of the art with detection recalls superior to 90% for all datasets tested. To our knowledge, we present the first work to use FCNs for polyp segmentation in addition to proposing a novel combination of SfS and RGB that boosts performance
翻訳日:2021-03-28 11:25:26 公開日:2021-01-15
# 反事実生成ネットワーク

Counterfactual Generative Networks ( http://arxiv.org/abs/2101.06046v1 )

ライセンス: Link先を確認
Axel Sauer, Andreas Geiger(参考訳) ニューラルネットワークはショートカットを学ぶ傾向がある -- 彼らはしばしば単純な相関をモデル化し、より良い一般化をもたらすより複雑なものを無視している。 画像分類に関する以前の研究は、物体形状への接続を学ぶ代わりに、深層分類器は低レベルのテクスチャや背景との急激な相関を利用して分類タスクを解く傾向があることを示している。 本研究では,タスクの因果構造を明確に明らかにする,より堅牢で解釈可能な分類器への一歩を踏み出した。 深層生成モデリングの最近の進歩を踏まえて,画像生成プロセスを直接監視することなく学習する独立した因果機構に分解する手法を提案する。 適切な帰納バイアスを利用することで、これらのメカニズムは物体の形状、物体のテクスチャ、背景を歪めてしまう。 MNIST と ImageNet でこのような画像を生成する能力を示す。 また,偽画像は,合成されているにもかかわらず,元の分類タスクにおける性能をわずかに低下させることなく,分散的ロバスト性を向上させることができることを示した。 最後に、私たちの生成モデルは単一のgpu上で効率的にトレーニングでき、一般的な事前学習されたモデルを帰納バイアスとして活用できます。

Neural networks are prone to learning shortcuts -- they often model simple correlations, ignoring more complex ones that potentially generalize better. Prior works on image classification show that instead of learning a connection to object shape, deep classifiers tend to exploit spurious correlations with low-level texture or the background for solving the classification task. In this work, we take a step towards more robust and interpretable classifiers that explicitly expose the task's causal structure. Building on current advances in deep generative modeling, we propose to decompose the image generation process into independent causal mechanisms that we train without direct supervision. By exploiting appropriate inductive biases, these mechanisms disentangle object shape, object texture, and background; hence, they allow for generating counterfactual images. We demonstrate the ability of our model to generate such images on MNIST and ImageNet. Further, we show that the counterfactual images can improve out-of-distribution robustness with a marginal drop in performance on the original classification task, despite being synthetic. Lastly, our generative model can be trained efficiently on a single GPU, exploiting common pre-trained models as inductive biases.
翻訳日:2021-03-28 11:25:01 公開日:2021-01-15
# 動的正規化

Dynamic Normalization ( http://arxiv.org/abs/2101.06073v1 )

ライセンス: Link先を確認
Chuan Liu, Yi Gao, Jiancheng Lv(参考訳) バッチ正規化はCNNの重要なコンポーネントのひとつになっている。 これによりネットワークは、より高い学習率とトレーニングのスピードアップが可能になる。 ネットワークは慎重に初期化される必要はありません しかし,本研究では,BNの単純な拡張によりネットワークの性能が向上することが判明した。 まず、BNを拡張して、DN-C(Batch-shared and Channel-wise)と呼ばれる各ミニバッチデータのスケールおよびシフトパラメータを適応的に生成する。 SCモジュールの入力としてミニバッチデータの統計特性(E[X], Std[X]\in\mathbb{R}^{c}$)を用いる。 次に、BNを拡張して、DN-B(Batch and Channel-wise)と呼ばれる各サンプルの各チャネルのスケールおよびシフトパラメータを適応的に生成する。 実験の結果,DN-Cモデルは正常に訓練できないが,DN-Bモデルは非常に堅牢であることがわかった。 分類タスクでは、DN-BはImageNet-100上のMobileNetV2の精度を2%以上改善でき、Mult-Addsはわずか0.6%である。 検出タスクでは、DN-Bは同じ設定でMS-COCO上のSSDLiteの精度を約4%改善できる。 BNと比較して、DN-Bは高い学習率またはより小さいバッチサイズを使用する場合、安定した性能を持つ。

Batch Normalization has become one of the essential components in CNN. It allows the network to use a higher learning rate and speed up training. And the network doesn't need to be initialized carefully. However, in our work, we find that a simple extension of BN can increase the performance of the network. First, we extend BN to adaptively generate scale and shift parameters for each mini-batch data, called DN-C (Batch-shared and Channel-wise). We use the statistical characteristics of mini-batch data ($E[X], Std[X]\in\mathbb{R}^{c}$) as the input of SC module. Then we extend BN to adaptively generate scale and shift parameters for each channel of each sample, called DN-B (Batch and Channel-wise). Our experiments show that DN-C model can't train normally, but DN-B model has very good robustness. In classification task, DN-B can improve the accuracy of the MobileNetV2 on ImageNet-100 more than 2% with only 0.6% additional Mult-Adds. In detection task, DN-B can improve the accuracy of the SSDLite on MS-COCO nearly 4% mAP with the same settings. Compared with BN, DN-B has stable performance when using higher learning rate or smaller batch size.
翻訳日:2021-03-28 11:24:41 公開日:2021-01-15
# ビジョンに基づくITSの速度推定:サーベイ

Vision-based Vehicle Speed Estimation for ITS: A Survey ( http://arxiv.org/abs/2101.06159v1 )

ライセンス: Link先を確認
David Fern\'andez Llorca, Antonio Hern\'andez Mart\'inez, Iv\'an Garc\'ia Daza(参考訳) 少なくとも2つの主な理由から、車両の速度を正確に推定する必要性がますます重要になっている。 スピード制限の導入・実施は道路の安全性向上に最も有効な手段の1つと考えられるため、世界規模で設置されるスピードカメラの数は近年増加している。 第2に、道路ネットワークにおける交通の監視と予測は、スマートシティにおける交通、排出、エネルギー消費を増大させる基本的な役割を担っており、自動車の速度は交通状態の最も関連するパラメータの1つである。 車両の速度を正確に検出する技術の中には、視覚ベースのシステムを使用することで解決すべき大きな課題が伴うが、高価な距離センサーの欠如によるコストの大幅な削減や、車両の正確な識別の可能性など、潜在的なメリットもある。 本稿では,視覚に基づく車両速度推定について概観する。 我々は、アプリケーションドメインという用語を説明し、関連するすべての段階を分類する多数の作品の完全な分類法を提案する。 パフォーマンス評価指標と利用可能なデータセットの概要を提供する。 最後に,現在の限界と今後の方向性について論じる。

The need to accurately estimate the speed of road vehicles is becoming increasingly important for at least two main reasons. First, the number of speed cameras installed worldwide has been growing in recent years, as the introduction and enforcement of appropriate speed limits is considered one of the most effective means to increase the road safety. Second, traffic monitoring and forecasting in road networks plays a fundamental role to enhance traffic, emissions and energy consumption in smart cities, being the speed of the vehicles one of the most relevant parameters of the traffic state. Among the technologies available for the accurate detection of vehicle speed, the use of vision-based systems brings great challenges to be solved, but also great potential advantages, such as the drastic reduction of costs due to the absence of expensive range sensors, and the possibility of identifying vehicles accurately. This paper provides a review of vision-based vehicle speed estimation. We describe the terminology, the application domains, and propose a complete taxonomy of a large selection of works that categorizes all stages involved. An overview of performance evaluation metrics and available datasets is provided. Finally, we discuss current limitations and future directions.
翻訳日:2021-03-28 11:23:59 公開日:2021-01-15
# インシデントレポートからの知識グラフのマイニング

Mining Knowledge Graphs From Incident Reports ( http://arxiv.org/abs/2101.05961v1 )

ライセンス: Link先を確認
Manish Shetty, Chetan Bansal(参考訳) インシデント管理は、クラウド上の大規模サービスの開発と運用において、DevOpsプロセスの重要な部分です。 顧客が提出したインシデント報告は、ほとんど構造化されていないため、自動診断や緩和は簡単ではない。 問題を理解し、重要な情報を見つけるために、レポートを解析するオンコールエンジニアが必要です。 以前の作業では、キー属性やエラーコード、テナントID、スタックトレースなどのエンティティの抽出が検討されていた。 インシデントやバグ報告から フラットなエンティティのリストは情報的だが、知識抽出の可能性を最大限に活用するには、これらのエンティティにコンテキストを提供する必要がある。 例えば、これらのエンティティが非構造化データで表す現実世界の概念やオブジェクトの関係は、インシデントリンク、トリアージ、緩和といった下流タスクに役立ちます。 この追加のコンテキストでは、エンティティは"Strings"から"Things"に変換される。 本研究では,共起エンティティペアからバイナリエンティティ関係を抽出し,評価する手法を提案する。 抽出した二項関係を評価し,この手法の精度は0.9。 さらに、知識グラフを自動構築し、グラフ内の暗黙の知識が、エンティティをインシデントタイトルのクラスタにマッピングすることで、個々のインシデントに関する関連エンティティのマイニングとランク付けに使用できることを示す。

Incident management is a critical part of the DevOps processes for developing and operating large-scale services in the cloud. Incident reports filed by customers are largely unstructured making any automated diagnosis or mitigation non-trivial. It requires on-call engineers to parse verbose reports to understand the issue and locate key information. Prior work has looked into extraction of key attributes or entities like error codes, tenant Ids, stack traces, etc. from incident and bug reports. Although a flat list of entities is informative, to unlock the full potential of knowledge extraction, it is necessary to provide context to these entities. For instance, the relations between the real-world concepts or objects that these entities represent in otherwise unstructured data is useful for downstream tasks like incident linking, triaging and mitigation. With this additional context, entities are transformed from "Strings" to "Things". In this work, we present an approach to mine and score binary entity relations from co-occurring entity pairs. We evaluate binary relations extracted and show that our approach has a high precision of 0.9. Further, we construct knowledge graphs automatically and show that the implicit knowledge in the graph can be used to mine and rank relevant entities for distinct incidents, by mapping entities to clusters of incident titles.
翻訳日:2021-03-28 11:23:42 公開日:2021-01-15
# 品質が多様性を満たす - コンピュータによる適応テストのためのモデル非依存フレームワーク

Quality meets Diversity: A Model-Agnostic Framework for Computerized Adaptive Testing ( http://arxiv.org/abs/2101.05986v1 )

ライセンス: Link先を確認
Haoyang Bi, Haiping Ma, Zhenya Huang, Yu Yin, Qi Liu, Enhong Chen, Yu Su, Shijin Wang(参考訳) コンピュータ適応テスト(Computerized Adaptive Testing, CAT)は、教育、ゲーム、採用など多くのシナリオにおいて有望なテストアプリケーションとして登場している。 それぞれの検査に対してパーソナライズされたテスト手順を調整し、パフォーマンスに応じて質問をステップごとに選択する利点を示す。 CATシステムの開発には多くの取り組みがあるが、既存のソリューションは通常、柔軟性のないモデル固有の方法に従う。 すなわち、被験者の知識レベルを推定できる特定の認知モデルを観察し、モデル推定に従って選択戦略を設計する必要がある。 本稿では,異なる認知モデルに適応可能な柔軟なフレームワークを提案する。 一方,本研究では,質の高い質問と多様な質問を同時に生成する方法という課題に対処し,各受験者に包括的知識診断を提供する。 そこで我々は,猫ソリューションのためのモデル非依存適応テスト(maat)という新しいフレームワークを提案し,品質モジュール,多様性モジュール,重要モジュールという3つの高度なモジュールを設計した。 2つの実世界のデータセットに対する大規模な実験結果から、MAATが品質と多様性の両方の観点でCATをサポートできることが明らかになりました。

Computerized Adaptive Testing (CAT) is emerging as a promising testing application in many scenarios, such as education, game and recruitment, which targets at diagnosing the knowledge mastery levels of examinees on required concepts. It shows the advantage of tailoring a personalized testing procedure for each examinee, which selects questions step by step, depending on her performance. While there are many efforts on developing CAT systems, existing solutions generally follow an inflexible model-specific fashion. That is, they need to observe a specific cognitive model which can estimate examinee's knowledge levels and design the selection strategy according to the model estimation. In this paper, we study a novel model-agnostic CAT problem, where we aim to propose a flexible framework that can adapt to different cognitive models. Meanwhile, this work also figures out CAT solution with addressing the problem of how to generate both high-quality and diverse questions simultaneously, which can give a comprehensive knowledge diagnosis for each examinee. Inspired by Active Learning, we propose a novel framework, namely Model-Agnostic Adaptive Testing (MAAT) for CAT solution, where we design three sophisticated modules including Quality Module, Diversity Module and Importance Module. Extensive experimental results on two real-world datasets clearly demonstrate that our MAAT can support CAT with guaranteeing both quality and diversity perspectives.
翻訳日:2021-03-28 11:23:20 公開日:2021-01-15
# 量子回路の統計複雑性について

On the statistical complexity of quantum circuits ( http://arxiv.org/abs/2101.06154v1 )

ライセンス: Link先を確認
Kaifeng Bu, Dax Enshan Koh, Lu Li, Qingxian Luo, Yaobo Zhang(参考訳) 理論的機械学習において、統計複雑性は仮説空間の豊かさを測定する概念である。 本研究では、量子計算における量子回路モデルに対して、統計複雑性の特定の尺度、すなわちラデマッハ複雑性を適用し、統計複雑性が様々な量子回路パラメータに依存するかを研究する。 特に,量子回路のリソース,深さ,幅,入出力レジスタ数に対する統計複雑性の依存性について検討する。 回路内の資源と統計複雑性がどのようにスケールするかを研究するために、回路に関連する量子チャネルにおけるマジックの量を定量化する$(p,q)$グループノルムに基づくマジックのリソース測度を導入する。 これらの依存関係は、(i)量子回路全体が単一の量子チャネルとして扱われる、(ii)量子回路の各層が別々の量子チャネルとして扱われる、という2つの設定で調査される。 我々が得た境界は、その深さと幅、およびネットワーク内のリソースの観点から量子ニューラルネットワークの容量を制限するのに使うことができる。

In theoretical machine learning, the statistical complexity is a notion that measures the richness of a hypothesis space. In this work, we apply a particular measure of statistical complexity, namely the Rademacher complexity, to the quantum circuit model in quantum computation and study how the statistical complexity depends on various quantum circuit parameters. In particular, we investigate the dependence of the statistical complexity on the resources, depth, width, and the number of input and output registers of a quantum circuit. To study how the statistical complexity scales with resources in the circuit, we introduce a resource measure of magic based on the $(p,q)$ group norm, which quantifies the amount of magic in the quantum channels associated with the circuit. These dependencies are investigated in the following two settings: (i) where the entire quantum circuit is treated as a single quantum channel, and (ii) where each layer of the quantum circuit is treated as a separate quantum channel. The bounds we obtain can be used to constrain the capacity of quantum neural networks in terms of their depths and widths as well as the resources in the network.
翻訳日:2021-03-28 11:22:56 公開日:2021-01-15
# 分散教育における基本的トレードオフ

Fundamental Tradeoffs in Distributionally Adversarial Training ( http://arxiv.org/abs/2101.06309v1 )

ライセンス: Link先を確認
Mohammad Mehrabi, Adel Javanmard, Ryan A. Rossi, Anup Rao and Tung Mai(参考訳) 対向訓練は、対向的摂動に対するモデルの堅牢性を改善するための最も効果的な手法の1つである。 しかし、モデルに対するこのアプローチの完全な影響はよく理解されていない。 例えば、敵意トレーニングは敵意的リスク(敵意に対する予測誤差)を低減できるが、時には標準的リスク(敵意がない場合の一般化誤差)を増加させることがある。 さらに、そのような行動は、トレーニングデータのサイズや品質、入力における特定の逆方向の摂動形態、モデルの過パラメータ化、敵の力など、学習問題の様々な要素に影響される。 本稿では, 学習データ分布の近傍におけるテスト分布を変化させることのできる, \emph{distribution perturbing} 敵フレームワークに着目した。 近傍は分布と近傍半径の間のワッサースタイン距離によって定義され、敵のマニピュレーション力の尺度である。 本研究では,標準リスクと敵的リスクのトレードオフについて検討し,特定のモデルのクラス上で達成可能なパレート最適トレードオフを,特徴次元を固定した無限のデータ制限で導出する。 1)線形モデルのクラスによる回帰、2)ガウス混合データモデルに基づく二元分類、3)ランダム特徴モデルのクラスによる回帰、3)ランダムな第1層重みを持つ2層ニューラルネットワークとして等価に表現できる)。 標準リスクと敵リスクのトレードオフが3つの設定すべてに現れていることを示す。 さらに、パレート最適トレードオフ曲線を特徴づけ、特徴相関、敵の力、二層ニューラルネットワークの幅などの様々な要因がこのトレードオフにどのように影響するかについて議論する。

Adversarial training is among the most effective techniques to improve the robustness of models against adversarial perturbations. However, the full effect of this approach on models is not well understood. For example, while adversarial training can reduce the adversarial risk (prediction error against an adversary), it sometimes increase standard risk (generalization error when there is no adversary). Even more, such behavior is impacted by various elements of the learning problem, including the size and quality of training data, specific forms of adversarial perturbations in the input, model overparameterization , and adversary's power, among others. In this paper, we focus on \emph{distribution perturbing} adversary framework wherein the adversary can change the test distribution within a neighborhood of the training data distribution. The neighborhood is defined via Wasserstein distance between distributions and the radius of the neighborhood is a measure of adversary's manipulative power. We study the tradeoff between standard risk and adversarial risk and derive the Pareto-optimal tradeoff, achievable over specific classes of models, in the infinite data limit with features dimension kept fixed. We consider three learning settings: 1) Regression with the class of linear models; 2) Binary classification under the Gaussian mixtures data model, with the class of linear classifiers; 3) Regression with the class of random features model (which can be equivalently represented as two-layer neural network with random first-layer weights). We show that a tradeoff between standard and adversarial risk is manifested in all three settings. We further characterize the Pareto-optimal tradeoff curves and discuss how a variety of factors, such as features correlation, adversary's power or the width of two-layer neural network would affect this tradeoff.
翻訳日:2021-03-28 11:22:40 公開日:2021-01-15
# ディープニューラルネットワークを用いたビデオ要約:調査

Video Summarization Using Deep Neural Networks: A Survey ( http://arxiv.org/abs/2101.06072v1 )

ライセンス: Link先を確認
Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, Ioannis Patras(参考訳) 映像要約技術は、映像コンテンツの最も情報性の高い部分を選択することによって、簡潔で完全な合成を作ることを目的としている。 過去数十年間、いくつかのアプローチが開発されてきたが、現在の技術は、現代のディープニューラルネットワークアーキテクチャに依存する方法によって表現されている。 本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。 ビデオ要約技術開発の背景にある動機を提示し,映像要約タスクを定式化し,一般的なディープラーニング分析パイプラインの主な特徴について考察する。 そこで我々は,既存のアルゴリズムの分類法を提案し,深層学習に基づく映像要約技術の進化を示す関連文献の体系的レビューを行い,今後の発展を示唆する。 次に,映像要約アルゴリズムの客観的評価のためのプロトコルについて報告し,いくつかのディープラーニング手法の性能比較を行った。 これらの比較の結果から,評価プロトコルの適合性に関する文献的考察とともに,今後の研究の方向性を示唆する。

Video summarization technologies aim to create a concise and complete synopsis by selecting the most informative parts of the video content. Several approaches have been developed over the last couple of decades and the current state of the art is represented by methods that rely on modern deep neural network architectures. This work focuses on the recent advances in the area and provides a comprehensive survey of the existing deep-learning-based methods for generic video summarization. After presenting the motivation behind the development of technologies for video summarization, we formulate the video summarization task and discuss the main characteristics of a typical deep-learning-based analysis pipeline. Then, we suggest a taxonomy of the existing algorithms and provide a systematic review of the relevant literature that shows the evolution of the deep-learning-based video summarization technologies and leads to suggestions for future developments. We then report on protocols for the objective evaluation of video summarization algorithms and we compare the performance of several deep-learning-based approaches. Based on the outcomes of these comparisons, as well as some documented considerations about the suitability of evaluation protocols, we indicate potential future research directions.
翻訳日:2021-03-28 11:22:12 公開日:2021-01-15
# ハイブリッド量子古典グラフ畳み込みネットワーク

Hybrid Quantum-Classical Graph Convolutional Network ( http://arxiv.org/abs/2101.06189v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Tzu-Chieh Wei, Chao Zhang, Haiwang Yu, Shinjae Yoo(参考訳) 高エネルギー物理学(HEP)コミュニティは、大規模なデータセットを扱う長い歴史がある。 このような光沢なデータを管理するために、物理発見を加速するために古典的な機械学習とディープラーニング技術が用いられている。 量子機械学習(QML)の最近の進歩は、これらの技術をHEPに適用する可能性を示している。 しかし、現在利用可能なQMLアプリケーションには限られた結果しかありません。 特に、HEPデータセットに共通するスパースデータ処理の課題は、QMLモデルで広く研究されていない。 本研究は、HEPデータを学習するためのハイブリッド量子古典グラフ畳み込みネットワーク(QGCNN)を提供する。 提案フレームワークは,パラメータ数の観点から,古典的多層パーセプトロンと畳み込みニューラルネットワークの優位性を示す。 さらに、テスト精度の面では、QGCNNは、同じHEPデータセット上の量子畳み込みニューラルネットワークと同等のパフォーマンスを示し、パラメータの50セント未満を要求している。 数値シミュレーションの結果から,グラフ畳み込み操作やその他のQMLモデルの応用を研究すれば,HEP研究や他の科学分野の進展に有望であることが証明できる。

The high energy physics (HEP) community has a long history of dealing with large-scale datasets. To manage such voluminous data, classical machine learning and deep learning techniques have been employed to accelerate physics discovery. Recent advances in quantum machine learning (QML) have indicated the potential of applying these techniques in HEP. However, there are only limited results in QML applications currently available. In particular, the challenge of processing sparse data, common in HEP datasets, has not been extensively studied in QML models. This research provides a hybrid quantum-classical graph convolutional network (QGCNN) for learning HEP data. The proposed framework demonstrates an advantage over classical multilayer perceptron and convolutional neural networks in the aspect of number of parameters. Moreover, in terms of testing accuracy, the QGCNN shows comparable performance to a quantum convolutional neural network on the same HEP dataset while requiring less than $50\%$ of the parameters. Based on numerical simulation results, studying the application of graph convolutional operations and other QML models may prove promising in advancing HEP research and other scientific fields.
翻訳日:2021-03-28 11:21:57 公開日:2021-01-15
# 「Killing Me」はスポイラーではない:依存関係認識機構を持つグラフニューラルネットワークを用いたスポイラー検出モデル

"Killing Me" Is Not a Spoiler: Spoiler Detection Model using Graph Neural Networks with Dependency Relation-Aware Attention Mechanism ( http://arxiv.org/abs/2101.05972v1 )

ライセンス: Link先を確認
Buru Chang, Inggeol Lee, Hyunjae Kim, Jaewoo Kang(参考訳) レビューwebサイトのスポイラーからユーザを保護するために、機械学習ベースのスポイラー検出モデルが最近提案されている。 文脈語間の依存関係関係はスポイラーの検出には重要であるが,現在の注意に基づくスポイラー検出モデルは依存関係の活用には不十分である。 この問題に対処するために,構文認識型グラフニューラルネットワークに基づくSDGNNと呼ばれる新しいスポイラー検出モデルを提案する。 実世界の2つのベンチマークデータセットの実験において、SDGNNは既存のスポイラー検出モデルよりも優れていることを示す。

Several machine learning-based spoiler detection models have been proposed recently to protect users from spoilers on review websites. Although dependency relations between context words are important for detecting spoilers, current attention-based spoiler detection models are insufficient for utilizing dependency relations. To address this problem, we propose a new spoiler detection model called SDGNN that is based on syntax-aware graph neural networks. In the experiments on two real-world benchmark datasets, we show that our SDGNN outperforms the existing spoiler detection models.
翻訳日:2021-03-28 11:21:44 公開日:2021-01-15
# 野生でのウォーク:ヒンディー教ポストにおけるホスト性検出のためのアンサンブルアプローチ

Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi Posts ( http://arxiv.org/abs/2101.06004v1 )

ライセンス: Link先を確認
Chander Shekhar, Bhavya Bagla, Kaushal Kumar Maurya, Maunendra Sankar Desarkar(参考訳) インターネットが普及するにつれて、軽率な言葉がソーシャルメディアプラットフォームに溢れ始めた。 これにより、ソーシャルメディアプラットフォーム上で敵対的なコンテンツを特定する必要がある。 ヒンディー語のような低リソース言語における敵対的な内容の識別は、英語に比べて多様な構文構造のため、異なる課題をもたらす。 本稿では,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを開発する。 この問題を二進分類(ホストクラスと非ホストクラス)とマルチラベルマルチクラス分類問題(よりきめ細かい敵対クラス)として定式化した。 F1スコアは2進数と複数ラベルの多クラス分類タスクでそれぞれ0.969と0.61と重み付けされた。

As the reach of the internet increases, pejorative terms started flooding over social media platforms. This leads to the necessity of identifying hostile content on social media platforms. Identification of hostile contents on low-resource languages like Hindi poses different challenges due to its diverse syntactic structure compared to English. In this paper, we develop a simple ensemble based model on pre-trained mBERT and popular classification algorithms like Artificial Neural Network (ANN) and XGBoost for hostility detection in Hindi posts. We formulated this problem as binary classification (hostile and non-hostile class) and multi-label multi-class classification problem (for more fine-grained hostile classes). We received third overall rank in the competition and weighted F1-scores of ~0.969 and ~0.61 on the binary and multi-label multi-class classification tasks respectively.
翻訳日:2021-03-28 11:21:32 公開日:2021-01-15
# ポスト編集と機械翻訳が創造性と読書体験に及ぼす影響

The Impact of Post-editing and Machine Translation on Creativity and Reading Experience ( http://arxiv.org/abs/2101.06125v1 )

ライセンス: Link先を確認
Ana Guerberof Arenas and Antonio Toral(参考訳) 本稿では、機械翻訳(MT)、後編集(MTPE)、非援助(HT)の3つのモードで、英語からカタルーニャ語への架空の物語の翻訳に関する研究結果を紹介する。 各翻訳はクリエイティビティを評価するために分析された。 その後、88人のカタルーニャ人参加者がランダムに割り当てられたモダリティで物語を読み、調査を完了した。 その結果,HTはMTPEやMTと比較して高い創造性を示した。 HTは物語のエンゲージメントと翻訳のレセプションで上位に、MTPEは楽しさで下位にランクした。 HTとMTPEはどのカテゴリーでも統計的に有意な差は見られなかったが、MTは全ての変数で試験を行った。 プロの翻訳者がプロセスに介入する場合、特に援助なしで働く場合、創造性が最も高いと結論づける。 我々は、翻訳における創造性が、読解活動と翻訳文の受容を促進する要因になり得ると仮定する。

This article presents the results of a study involving the translation of a fictional story from English into Catalan in three modalities: machine-translated (MT), post-edited (MTPE) and translated without aid (HT). Each translation was analysed to evaluate its creativity. Subsequently, a cohort of 88 Catalan participants read the story in a randomly assigned modality and completed a survey. The results show that HT presented a higher creativity score if compared to MTPE and MT. HT also ranked higher in narrative engagement, and translation reception, while MTPE ranked marginally higher in enjoyment. HT and MTPE show no statistically significant differences in any category, whereas MT does in all variables tested. We conclude that creativity is highest when professional translators intervene in the process, especially when working without any aid. We hypothesize that creativity in translation could be the factor that enhances reading engagement and the reception of translated literary texts.
翻訳日:2021-03-28 11:21:09 公開日:2021-01-15
# ファジィインテンシティ測定と適応クリッピングヒストグラム等化を用いた画像強調

Image Enhancement using Fuzzy Intensity Measure and Adaptive Clipping Histogram Equalization ( http://arxiv.org/abs/2101.05922v1 )

ライセンス: Link先を確認
Xiangyuan Zhu, Xiaoming Xiao, Tardi Tjahjadi, Zhihu Wu, Jin Tang(参考訳) 画像強調は、入力画像を処理することを目的としており、出力画像の視覚的内容が特定のアプリケーションでより面白く、より有用である。 ヒストグラムの等化は、その単純さと有効性から画像強調に広く用いられているが、強調画像の平均輝度を変化させ、高レベルのノイズや歪みをもたらす。 本稿では,ファジィ強度測定と適応クリッピングヒストグラム等化(FIMHE)を用いた画像強調手法を提案する。 FIMHEはファジィ強度測定を用いて、元の画像のヒストグラムをまず分割し、過剰な画像強調を防ぐために、ヒストグラムを適応的にクリップする。 バークレー・データベースとCVF-UGR-Imageデータベースの実験により、FIMHEは最先端のヒストグラム等化法よりも優れていることが示された。

Image enhancement aims at processing an input image so that the visual content of the output image is more pleasing or more useful for certain applications. Although histogram equalization is widely used in image enhancement due to its simplicity and effectiveness, it changes the mean brightness of the enhanced image and introduces a high level of noise and distortion. To address these problems, this paper proposes image enhancement using fuzzy intensity measure and adaptive clipping histogram equalization (FIMHE). FIMHE uses fuzzy intensity measure to first segment the histogram of the original image, and then clip the histogram adaptively in order to prevent excessive image enhancement. Experiments on the Berkeley database and CVF-UGR-Image database show that FIMHE outperforms state-of-the-art histogram equalization based methods.
翻訳日:2021-03-28 11:20:36 公開日:2021-01-15
# ぼやけた成分分割誘導による非一様運動デブラリング

Non-uniform Motion Deblurring with Blurry Component Divided Guidance ( http://arxiv.org/abs/2101.06021v1 )

ライセンス: Link先を確認
Pei Wang, Wei Sun, Qingsen Yan, Axi Niu, Rui Li, Yu Zhu, Jinqiu Sun, Yanning Zhang(参考訳) ブラインド画像デブラリングは、ぼやけたカーネルと潜在的なシャープ画像の両方をぼやけた観察から回復することを目的としている、基本的なコンピュータビジョンの問題である。 画像劣化における深層学習手法の優位性は示されているが、様々な不均一な動きのぼかしには大きな課題がある。 以前の方法は、すべての画像特徴をデコーダへの入力として、異なる次数(例えば)を扱うだけでした。 大きくぼやけた、小さなぼやけ)同時に、シャープな画像生成の課題に繋がる。 上記の問題に対処するため,コンポーネント分割モジュールを介してぼやけた画像に対処するディープ2分岐ネットワークを提案し,ぼやけた度合いの表現に基づいて画像を2つのコンポーネントに分割する。 具体的には,2つの成分注意ブロックを用いて注意図を学習し,大小のぼやけた領域で有用な特徴表現を利用する。 そして、ぼやけた特徴を2分岐再構成復号器にそれぞれ供給する。 さらに,両枝の鋭い特徴を融合させるため,新たな特徴融合機構である配向型特徴融合を提案する。 定性的かつ定量的な実験結果から,本手法は最先端の手法に好適に作用することが示された。

Blind image deblurring is a fundamental and challenging computer vision problem, which aims to recover both the blur kernel and the latent sharp image from only a blurry observation. Despite the superiority of deep learning methods in image deblurring have displayed, there still exists major challenge with various non-uniform motion blur. Previous methods simply take all the image features as the input to the decoder, which handles different degrees (e.g. large blur, small blur) simultaneously, leading to challenges for sharp image generation. To tackle the above problems, we present a deep two-branch network to deal with blurry images via a component divided module, which divides an image into two components based on the representation of blurry degree. Specifically, two component attentive blocks are employed to learn attention maps to exploit useful deblurring feature representations on both large and small blurry regions. Then, the blur-aware features are fed into two-branch reconstruction decoders respectively. In addition, a new feature fusion mechanism, orientation-based feature fusion, is proposed to merge sharp features of the two branches. Both qualitative and quantitative experimental results show that our method performs favorably against the state-of-the-art approaches.
翻訳日:2021-03-28 11:20:18 公開日:2021-01-15
# 道路シーンのリアルタイム・高精度セグメンテーションのためのディープ・デュアルレゾリューションネットワーク

Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes ( http://arxiv.org/abs/2101.06085v1 )

ライセンス: Link先を確認
Yuanduo Hong, Huihui Pan, Weichao Sun, Senior Member, IEEE, Yisong Jia(参考訳) セマンティックセグメンテーションは、自動運転車が周囲のシーンを理解するための重要な技術である。 実用的な自動運転車では、高い精度のセグメンテーション結果を達成するためにかなりの量の推論時間を費やすことは望ましくない。 軽量アーキテクチャ(エンコーダデコーダまたは2経路)や低解像度画像の推論を用いて、最近の手法では、100 FPS以上のシーン解析を単一の1080Ti GPU上で行うことができる。 しかしながら、これらのリアルタイムメソッドとダイレーションバックボーンに基づくモデルの間には、依然として明らかなギャップがある。 そこで本稿では,道路シーンのリアルタイムセマンティクスセグメンテーションのためのディープ・デュアルレゾリューション・ネットワーク(ddrnets)を提案する。 さらに,DAPPM(Deep Aggregation Pyramid Pooling Module)と呼ばれる新しいコンテキスト情報抽出器を設計し,有効受容領域を拡大し,マルチスケールコンテキストを融合する。 提案手法は,CityscapesとCamVidのデータセットの精度と速度の新たなトレードオフを実現する。 特にシングル2080Ti GPUでは、DDRNet-23-slimはCityscapesテストセットで109 FPSで77.4% mIoU、CamVidテストセットで230 FPSで74.4% mIoUとなる。 アテンション機構や、より大きなセマンティクスセグメンテーションデータセットや推論アクセラレーションを事前トレーニングすることなく、ddrnet-39は23fpsで80.4%のテストmiouを達成する。 広く使われているテスト拡張では、この手法は最先端モデルよりも優れており、計算量もはるかに少ない。 コードとトレーニングされたモデルは公開されます。

Semantic segmentation is a critical technology for autonomous vehicles to understand surrounding scenes. For practical autonomous vehicles, it is undesirable to spend a considerable amount of inference time to achieve high-accuracy segmentation results. Using light-weight architectures (encoder-decoder or two-pathway) or reasoning on low-resolution images, recent methods realize very fast scene parsing which even run at more than 100 FPS on single 1080Ti GPU. However, there are still evident gaps in performance between these real-time methods and models based on dilation backbones. To tackle this problem, we propose novel deep dual-resolution networks (DDRNets) for real-time semantic segmentation of road scenes. Besides, we design a new contextual information extractor named Deep Aggregation Pyramid Pooling Module (DAPPM) to enlarge effective receptive fields and fuse multi-scale context. Our method achieves new state-of-the-art trade-off between accuracy and speed on both Cityscapes and CamVid dataset. Specially, on single 2080Ti GPU, DDRNet-23-slim yields 77.4% mIoU at 109 FPS on Cityscapes test set and 74.4% mIoU at 230 FPS on CamVid test set. Without utilizing attention mechanism, pre-training on larger semantic segmentation dataset or inference acceleration, DDRNet-39 attains 80.4% test mIoU at 23 FPS on Cityscapes. With widely used test augmentation, our method is still superior to most state-of-the-art models, requiring much less computation. Codes and trained models will be made publicly available.
翻訳日:2021-03-28 11:19:57 公開日:2021-01-15
# PaddleSeg:画像セグメンテーションのための高効率開発ツールキット

PaddleSeg: A High-Efficient Development Toolkit for Image Segmentation ( http://arxiv.org/abs/2101.06175v1 )

ライセンス: Link先を確認
Yi Liu, Lutao Chu, Guowei Chen, Zewu Wu, Zeyu Chen, Baohua Lai, Yuying Hao(参考訳) 画像分割は、医療診断から自動運転車の運転まで様々な応用を含むコンピュータビジョンと画像処理において重要な役割を果たす。 特定の問題に対処するための多くのセグメンテーションアルゴリズムが提案されている。 近年,ディープラーニング技術の成功は幅広いコンピュータビジョン領域に大きな影響を与え,ディープラーニングに基づく画像分割の現代的アプローチが普及しつつある。 本稿では,画像セグメンテーションのための高効率開発ツールキットPaddleSegを紹介する。 このツールキットは、セグメンテーションモデルを設計し、モデルをトレーニングし、パフォーマンスと推論速度を最適化し、モデルをデプロイするプロセス全体の開発者と研究者を支援することを目的としている。 現在paddlesegは、約20の人気のあるセグメンテーションモデルと50以上の事前訓練済みモデルをサポートしている。 モジュラーコンポーネントとバックボーンネットワークにより、ユーザーは異なる要求に対して100以上のモデルを簡単に構築できる。 さらに,これらのセグメンテーションアルゴリズムがより競争力のある精度を持つことを示すために,包括的なベンチマークと評価を提供する。 また,PaddleSegをベースとした各種産業応用や実践事例も提供する。 PaddleSegのコードと例はhttps://github.com/P addlePaddle/PaddleSe gで公開されている。

Image Segmentation plays an essential role in computer vision and image processing with various applications from medical diagnosis to autonomous car driving. A lot of segmentation algorithms have been proposed for addressing specific problems. In recent years, the success of deep learning techniques has tremendously influenced a wide range of computer vision areas, and the modern approaches of image segmentation based on deep learning are becoming prevalent. In this article, we introduce a high-efficient development toolkit for image segmentation, named PaddleSeg. The toolkit aims to help both developers and researchers in the whole process of designing segmentation models, training models, optimizing performance and inference speed, and deploying models. Currently, PaddleSeg supports around 20 popular segmentation models and more than 50 pre-trained models from real-time and high-accuracy levels. With modular components and backbone networks, users can easily build over one hundred models for different requirements. Furthermore, we provide comprehensive benchmarks and evaluations to show that these segmentation algorithms trained on our toolkit have more competitive accuracy. Also, we provide various real industrial applications and practical cases based on PaddleSeg. All codes and examples of PaddleSeg are available at https://github.com/P addlePaddle/PaddleSe g.
翻訳日:2021-03-28 11:19:25 公開日:2021-01-15
# プロジェクションレイアウトの信頼性向上のための多点次元削減

Multi-point dimensionality reduction to improve projection layout reliability ( http://arxiv.org/abs/2101.06224v1 )

ライセンス: Link先を確認
Farshad Barahimi and Fernando Paulovich(参考訳) 通常の次元還元(dr)では、m-次元空間(原空間)内の各データインスタンスはd-次元空間(視覚空間)内の一点にマッピングされ、可能な限り距離と近傍の関係を保つ。 その人気にもかかわらず、単純なデータセットであっても、既存のDR技術は必然的に誤解を招く視覚表現を生み出す可能性がある。 問題は既存のソリューションではなく、問題定式化にある。 2次元の視覚空間では、データインスタンスがコプラナーでない場合や、2次元多様体上にない場合、問題に対する解決策はなく、可能な近似は通常、距離保存と重複した近傍における不正確なレイアウトをもたらす。 本稿では,この問題を緩和するための第1の一般解を提供することにより,各データインスタンスを可視空間内の複数の点にマッピングできる多点次元縮小の概念を詳述する。 点を重複させることで、元の空間に忠実な視覚空間内の局所的な近傍を視覚表現に背景情報を加える。 私たちのソリューションはred gray plusと呼ばれ、通常のdrとグラフ描画技術を組み合わせて構築されています。 本研究は,DRレイアウトの信頼性向上に寄与する可能性の1つとして,多点次元削減法が有効であるだけでなく,一般のDR手法を定量的に比較した。

In ordinary Dimensionality Reduction (DR), each data instance in an m-dimensional space (original space) is mapped to one point in a d-dimensional space (visual space), preserving as much as possible distance and/or neighborhood relationships. Despite their popularity, even for simple datasets, the existing DR techniques unavoidably may produce misleading visual representations. The problem is not with the existing solutions but with problem formulation. For two dimensional visual space, if data instances are not co-planar or do not lie on a 2D manifold, there is no solution for the problem, and the possible approximations usually result in layouts with inaccuracies in the distance preservation and overlapped neighborhoods. In this paper, we elaborate on the concept of Multi-point Dimensionality Reduction where each data instance can be mapped to possibly more than one point in the visual space by providing the first general solution to it as a step toward mitigating this issue. By duplicating points, background information is added to the visual representation making local neighborhoods in the visual space more faithful to the original space. Our solution, named Red Gray Plus, is built upon and extends a combination of ordinary DR and graph drawing techniques. We show that not only Multi-point Dimensionality Reduction can be one of the potential directions to improve DR layouts' reliability but also that our initial solution to the problem outperforms popular ordinary DR methods quantitatively.
翻訳日:2021-03-28 11:19:09 公開日:2021-01-15
# カーレビュー(MuSe-CaR)データセットにおけるマルチモーダル感性分析:収集,洞察,改善

The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements ( http://arxiv.org/abs/2101.06053v1 )

ライセンス: Link先を確認
Lukas Stappen, Alice Baird, Lea Schumann, Bj\"orn Schuller(参考訳) 真に現実的なデータは、感情研究や感情研究には強力だがエキサイティングな課題だ。 可能な ‘in-the-wild' プロパティの多種多様さによって、堅牢な機械学習モデルの構築には、これらのような大きなデータセットが不可欠になる。 すべてのモダリティの相互作用の探索分析を強制するために各モダリティの課題において、深い多様性をカバーする十分な量のデータが、この文脈ではまだ利用できない。 この貢献の中で、我々はその種類のマルチモーダルデータセットの第1号である MuSe-CaR を提示する。 このデータは、最近、第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして提供され、音声・視覚・言語モダリティを包括的に統合することで、感情、感情目標のエンゲージメント、信頼度認識のタスクに焦点を当てている。 さらに、今年の MuSe 2020 で使用されていないアノテーションティアを含む、コレクションとアノテーションの観点から、データセットの概要を詳しく説明します。 さらに, 信頼度を推定するサブチャレンジの1つに対して, 参加者はベースラインモデルよりも優れていなかったので, ベースラインを0.2CCC(約50%改善)程度で多モード融合を超越した, 単純かつ高効率なマルチヘッドアテンションネットワークを提案する。

Truly real-life data presents a strong, but exciting challenge for sentiment and emotion research. The high variety of possible `in-the-wild' properties makes large datasets such as these indispensable with respect to building robust machine learning models. A sufficient quantity of data covering a deep variety in the challenges of each modality to force the exploratory analysis of the interplay of all modalities has not yet been made available in this context. In this contribution, we present MuSe-CaR, a first of its kind multimodal dataset. The data is publicly available as it recently served as the testing bed for the 1st Multimodal Sentiment Analysis Challenge, and focused on the tasks of emotion, emotion-target engagement, and trustworthiness recognition by means of comprehensively integrating the audio-visual and language modalities. Furthermore, we give a thorough overview of the dataset in terms of collection and annotation, including annotation tiers not used in this year's MuSe 2020. In addition, for one of the sub-challenges - predicting the level of trustworthiness - no participant outperformed the baseline model, and so we propose a simple, but highly efficient Multi-Head-Attention network that exceeds using multimodal fusion the baseline by around 0.2 CCC (almost 50 % improvement).
翻訳日:2021-03-28 11:18:45 公開日:2021-01-15
# DeepWaste: 持続可能な惑星の分類にディープラーニングを適用する

DeepWaste: Applying Deep Learning to Waste Classification for a Sustainable Planet ( http://arxiv.org/abs/2101.05960v1 )

ライセンス: Link先を確認
Yash Narayan(参考訳) 正確な廃棄物処理は、廃棄の観点からは、気候変動対策に不可欠である。 リサイクルやコンポスト化できる物質が埋立地に流用されると、メタンのような強力な温室効果ガスが排出される。 誤った廃棄物処理を減らす試みは、高価で不正確で混乱している。 本研究では,高度に最適化されたディープラーニング技術を利用して,廃棄物をゴミ,リサイクル,コンポストに即時分類する,使いやすいモバイルアプリDeepWasteを提案する。 我々は,複数の畳み込みニューラルネットワークアーキテクチャを用いて,廃棄物の検出と分類を行う。 我々の最良のモデルは、50層からなるディープラーニング残留ニューラルネットワークであり、テストセットの平均精度は0.881である。 実世界の画像に対して,アプリケーションの性能と効率を実証する。

Accurate waste disposal, at the point of disposal, is crucial to fighting climate change. When materials that could be recycled or composted get diverted into landfills, they cause the emission of potent greenhouse gases such as methane. Current attempts to reduce erroneous waste disposal are expensive, inaccurate, and confusing. In this work, we propose DeepWaste, an easy-to-use mobile app, that utilizes highly optimized deep learning techniques to provide users instantaneous waste classification into trash, recycling, and compost. We experiment with several convolution neural network architectures to detect and classify waste items. Our best model, a deep learning residual neural network with 50 layers, achieves an average precision of 0.881 on the test set. We demonstrate the performance and efficiency of our app on a set of real-world images.
翻訳日:2021-03-28 11:18:21 公開日:2021-01-15
# 効率的な半単純変分推論

Efficient Semi-Implicit Variational Inference ( http://arxiv.org/abs/2101.06070v1 )

ライセンス: Link先を確認
Vincent Moens, Hang Ren, Alexandre Maraval, Rasul Tutunov, Jun Wang, Haitham Ammar(参考訳) 本稿では,半単純変分推論(SIVI)のための効率よくスケーラブルな解法としてCI-VIを提案する。 提案手法は,まずsiviのエビデンス下限(elbo)を,期待値の非線形関数ネストを含む形式にマッピングし,次に勾配スケッチと組み合わされた外挿スモーシング機構を用いて,非線形ネスト期待に固有のバイアスを正しく処理可能な厳密なオプティマイザーを開発する。 本理論は, 深層ネットワークモデルを用いた場合, 一般に発生する非凸状態におけるelboの定常点への収束と,$o(t^{-\frac{4}{5}})$勾配-バイアス-バニッシュレートのオーダーを示す。 これらの結果はSIVIから他の形態への特定の営巣を超えて一般化されていると信じている。 最後に,一連の実験において,自然言語処理を含む各種データセットの複雑な後方を近似するアルゴリズムの有効性を実証する。

In this paper, we propose CI-VI an efficient and scalable solver for semi-implicit variational inference (SIVI). Our method, first, maps SIVI's evidence lower bound (ELBO) to a form involving a nonlinear functional nesting of expected values and then develops a rigorous optimiser capable of correctly handling bias inherent to nonlinear nested expectations using an extrapolation-smooth ing mechanism coupled with gradient sketching. Our theoretical results demonstrate convergence to a stationary point of the ELBO in general non-convex settings typically arising when using deep network models and an order of $O(t^{-\frac{4}{5}})$ gradient-bias-vanish ing rate. We believe these results generalise beyond the specific nesting arising from SIVI to other forms. Finally, in a set of experiments, we demonstrate the effectiveness of our algorithm in approximating complex posteriors on various data-sets including those from natural language processing.
翻訳日:2021-03-28 11:18:09 公開日:2021-01-15
# 超複素値極限学習マシンの汎用フレームワーク

A General Framework for Hypercomplex-valued Extreme Learning Machines ( http://arxiv.org/abs/2101.06166v1 )

ライセンス: Link先を確認
Guilherme Vieira and Marcos Eduardo Valle(参考訳) 本稿では,汎用超複素代数上での極端学習機械(ELM)の枠組みを確立することを目的とする。 ハイパーコンプレックスニューラルネットワーク(hypercomplex neural network)は、パラメータ、入力、出力として高次元数を特徴とする機械学習モデルである。 まず、広範超複素代数を概観し、実数値線形代数演算を頑健に行う枠組みを示す。 我々は、よく知られた4次元の例をいくつか探求する。 次に,超複素数値EMMを提案し,超複素数値最小二乗問題を用いてそれらの学習を導出する。 最後に,時系列予測実験とカラー画像の自動エンコーディング実験において,実数と超複素値のelmモデルの性能を比較した。 計算実験では、異常な超複素代数に基づくモデルを含む高次元データを扱うための超複素数値EMMの優れた性能を強調した。

This paper aims to establish a framework for extreme learning machines (ELMs) on general hypercomplex algebras. Hypercomplex neural networks are machine learning models that feature higher-dimension numbers as parameters, inputs, and outputs. Firstly, we review broad hypercomplex algebras and show a framework to operate in these algebras through real-valued linear algebra operations in a robust manner. We proceed to explore a handful of well-known four-dimensional examples. Then, we propose the hypercomplex-valued ELMs and derive their learning using a hypercomplex-valued least-squares problem. Finally, we compare real and hypercomplex-valued ELM models' performance in an experiment on time-series prediction and another on color image auto-encoding. The computational experiments highlight the excellent performance of hypercomplex-valued ELMs to treat high-dimensional data, including models based on unusual hypercomplex algebras.
翻訳日:2021-03-28 11:17:52 公開日:2021-01-15
# 検閲されたマルコフ確率場からのサンプルへの学習

Learning to Sample from Censored Markov Random Fields ( http://arxiv.org/abs/2101.06178v1 )

ライセンス: Link先を確認
Ankur Moitra and Elchanan Mossel and Colin Sandon(参考訳) 我々は,Censor Markov Random Fields(CMRF)を学習する。 これらはマルコフ確率場であり、ノードのいくつかは検閲されている(観察されない)。 O(n)輸送距離内で高温CMRFを学習するためのアルゴリズムを提案する。 重要なことは、我々のアルゴリズムはグラフの構造や観測されたノードの数や位置について仮定しない。 我々は,高温CMRFと計算下界について,定性的に改善できないことを示す強力な結果を得た。

We study learning Censor Markov Random Fields (abbreviated CMRFs). These are Markov Random Fields where some of the nodes are censored (not observed). We present an algorithm for learning high-temperature CMRFs within o(n) transportation distance. Crucially our algorithm makes no assumption about the structure of the graph or the number or location of the observed nodes. We obtain stronger results for high girth high-temperature CMRFs as well as computational lower bounds indicating that our results can not be qualitatively improved.
翻訳日:2021-03-28 11:17:38 公開日:2021-01-15
# ランク付き凸最適化のための局所探索アルゴリズム

Local Search Algorithms for Rank-Constrained Convex Optimization ( http://arxiv.org/abs/2101.06262v1 )

ライセンス: Link先を確認
Kyriakos Axiotis and Maxim Sviridenko(参考訳) 階数制約付き凸最適化のための欲望と局所探索アルゴリズム,すなわち$\underset{\mathrm{rank}(a)\leq r^*}{\min}\, r(a)$ 与えられた凸関数 $r:\mathbb{r}^{m\times n}\rightarrow \mathbb{r}$ とパラメータ $r^*$ の解法を提案する。 これらのアルゴリズムは2つのステップを繰り返す: (a) 新たな rank-1 行列を $a$ に追加し、 (b) ランク制約を $a$ で強制する。 我々はshalev-shwartzらの理論解析を洗練し改善する。 (2011) で、ランク制限された条件数 $r$ が $\kappa$ であれば、ランク $o(r^*\cdot \min\{\kappa \log \frac{r(\mathbf{0})-r(a^*)}{\epsilon}, \kappa^2\})$ と $r(a) \leq r(a^*) + \epsilon$ の解は、$a^*$ が最適解である。 このことはスパース凸最適化とスムーズ関数に対する階数制約付き凸最適化の関連結果を著しく一般化する。 次に,これらのアルゴリズムの実用的変種を新たに導入し,優れた実行環境と,実際に優れた解を回収する。 行列補完とロバストな主成分分析を含む広範囲のアプリケーションにおいて,これらの手法の汎用性を示す。

We propose greedy and local search algorithms for rank-constrained convex optimization, namely solving $\underset{\mathrm{rank}(A)\leq r^*}{\min}\, R(A)$ given a convex function $R:\mathbb{R}^{m\times n}\rightarrow \mathbb{R}$ and a parameter $r^*$. These algorithms consist of repeating two steps: (a) adding a new rank-1 matrix to $A$ and (b) enforcing the rank constraint on $A$. We refine and improve the theoretical analysis of Shalev-Shwartz et al. (2011), and show that if the rank-restricted condition number of $R$ is $\kappa$, a solution $A$ with rank $O(r^*\cdot \min\{\kappa \log \frac{R(\mathbf{0})-R(A^*)}{\epsilon}, \kappa^2\})$ and $R(A) \leq R(A^*) + \epsilon$ can be recovered, where $A^*$ is the optimal solution. This significantly generalizes associated results on sparse convex optimization, as well as rank-constrained convex optimization for smooth functions. We then introduce new practical variants of these algorithms that have superior runtime and recover better solutions in practice. We demonstrate the versatility of these methods on a wide range of applications involving matrix completion and robust principal component analysis.
翻訳日:2021-03-28 11:17:32 公開日:2021-01-15
# 記述型AI倫理 - 公開意見の収集と理解

Descriptive AI Ethics: Collecting and Understanding the Public Opinion ( http://arxiv.org/abs/2101.05957v1 )

ライセンス: Link先を確認
Gabriel Lima, Meeyoung Cha(参考訳) 自律型AIシステムの倫理的、道徳的、法的問題をどのように認識するかについて、データ駆動型研究の取り組みがますます必要になる。 これらのシステムによって引き起こされる責任ギャップに関する現在の議論はそのような例である。 本研究は,一般から収集したデータを用いて学術的な議論を支援することにより,規範的かつ記述的研究を補完するai倫理モデルを提案する。 本稿では,AIシステムの展開に対する楽観的視点と悲観的視点のギャップを埋めることの意味について論じる。

There is a growing need for data-driven research efforts on how the public perceives the ethical, moral, and legal issues of autonomous AI systems. The current debate on the responsibility gap posed by these systems is one such example. This work proposes a mixed AI ethics model that allows normative and descriptive research to complement each other, by aiding scholarly discussion with data gathered from the public. We discuss its implications on bridging the gap between optimistic and pessimistic views towards AI systems' deployment.
翻訳日:2021-03-28 11:16:52 公開日:2021-01-15
# ブロックチェーンと機械学習によるグリッドユーザデータのプライバシ保護

Privacy Protection of Grid Users Data with Blockchain and Adversarial Machine Learning ( http://arxiv.org/abs/2101.06308v1 )

ライセンス: Link先を確認
Ibrahim Yilmaz, Kavish Kapoor, Ambareen Siraj, Mahmoud Abouyoussef(参考訳) 世界中のユーティリティーは、3億以上のスマートメーターの設置のために、今後数年間で約300億ドルを投資し、従来のアナログメーターを置き換えると報告されている [1]。 ディケード半ばまでには、全国規模の展開で、およそ13億のスマートメーターが配置されます[1]。 これらのスマートメーターによる微細なエネルギー利用データの収集は、需要最適化による顧客への省エネ、動的価格設定プログラムによる高精度な請求システム、エンドユーザー間の双方向情報交換機能など、多くの利点を提供している。 しかし、詳細なエネルギー利用データ収集に関連するこれらすべてのパークは、ユーザのプライバシーを脅かす。 この技術により、利用者の睡眠サイクル、占有者数、さらには家電製品の種類や数といった個人情報が、事業者の手中に流れ込み、誤用される可能性がある。 本研究では、スマートメーターから収集した消費者のエネルギー利用データのプライバシー侵害に対処し、エネルギーデータ分析の利点を享受しながら、プライバシ保護のための新しいソリューションを提供する。 まず,高い精度が得られる深層ニューラルネットワークを用いた占有検知攻撃の応用例を示す。 次に、Long Short Term Memory(LSTM)モデルに基づくアルゴリズムを標準化されたスマート計測基盤に展開し、消費者個人情報の漏洩を防止することで、ブロックチェーン(AMLODA-B)フレームワークによる敵攻撃を回避する。 当社のプライバシー対応アプローチは,請求の正確性を損なうことなく消費者のプライバシを保護し,権威的仲介を使わずに運用効率を維持する。

Utilities around the world are reported to invest a total of around 30 billion over the next few years for installation of more than 300 million smart meters, replacing traditional analog meters [1]. By mid-decade, with full country wide deployment, there will be almost 1.3 billion smart meters in place [1]. Collection of fine grained energy usage data by these smart meters provides numerous advantages such as energy savings for customers with use of demand optimization, a billing system of higher accuracy with dynamic pricing programs, bidirectional information exchange ability between end-users for better consumer-operator interaction, and so on. However, all these perks associated with fine grained energy usage data collection threaten the privacy of users. With this technology, customers' personal data such as sleeping cycle, number of occupants, and even type and number of appliances stream into the hands of the utility companies and can be subject to misuse. This research paper addresses privacy violation of consumers' energy usage data collected from smart meters and provides a novel solution for the privacy protection while allowing benefits of energy data analytics. First, we demonstrate the successful application of occupancy detection attacks using a deep neural network method that yields high accuracy results. We then introduce Adversarial Machine Learning Occupancy Detection Avoidance with Blockchain (AMLODA-B) framework as a counter-attack by deploying an algorithm based on the Long Short Term Memory (LSTM) model into the standardized smart metering infrastructure to prevent leakage of consumers personal information. Our privacy-aware approach protects consumers' privacy without compromising the correctness of billing and preserves operational efficiency without use of authoritative intermediaries.
翻訳日:2021-03-28 11:16:42 公開日:2021-01-15
# Causal Gradient Boosting: Boosted Instrumental Variable Regression

Causal Gradient Boosting: Boosted Instrumental Variable Regression ( http://arxiv.org/abs/2101.06078v1 )

ライセンス: Link先を確認
Edvard Bakhitov and Amandeep Singh(参考訳) 文献の最近の進歩は、標準教師付き学習アルゴリズムが内因性説明変数の問題に不適であることを証明している。 内在性バイアスを補正するために、非パラメータの機器変数回帰法の多くの変種が開発された。 本稿では,従来の勾配ブースティングアルゴリズムを基盤とし,内在性バイアスを補正するboostivと呼ばれる代替アルゴリズムを提案する。 アルゴリズムは非常に直感的で、標準的な2SLS推定器の反復バージョンに似ている。 さらに,本手法はデータ駆動型であり,対象関数近似の形式や楽器の選択にスタンスを取らなくてもよい。 温和な条件下では, 推定値が一定であることを示す。 モンテカルロシミュレーションを行い,本アルゴリズムの有限サンプル性能を,最近開発された他の手法と比較した。 boostIVは既存の方法と同等に最悪であり、平均するとそれらの方法よりもはるかに優れています。

Recent advances in the literature have demonstrated that standard supervised learning algorithms are ill-suited for problems with endogenous explanatory variables. To correct for the endogeneity bias, many variants of nonparameteric instrumental variable regression methods have been developed. In this paper, we propose an alternative algorithm called boostIV that builds on the traditional gradient boosting algorithm and corrects for the endogeneity bias. The algorithm is very intuitive and resembles an iterative version of the standard 2SLS estimator. Moreover, our approach is data driven, meaning that the researcher does not have to make a stance on neither the form of the target function approximation nor the choice of instruments. We demonstrate that our estimator is consistent under mild conditions. We carry out extensive Monte Carlo simulations to demonstrate the finite sample performance of our algorithm compared to other recently developed methods. We show that boostIV is at worst on par with the existing methods and on average significantly outperforms them.
翻訳日:2021-03-28 11:16:12 公開日:2021-01-15
# EC-SAGINs: エッジコンピューティングによる自動車用宇宙空間統合ネットワーク

EC-SAGINs: Edge Computing-enhanced Space-Air-Ground Integrated Networks for Internet of Vehicles ( http://arxiv.org/abs/2101.06056v1 )

ライセンス: Link先を確認
Shuai Yu and Xiaowen Gong and Qian Shi and Xiaofei Wang and Xu Chen(参考訳) エッジコンピューティングによる車両のインターネット(ec-iov)は、ユビキタスなデータ処理と、車と地上エッジコンピューティング(tec)インフラストラクチャ(例えば5gベースステーションと道路サイドユニット)間のコンテンツ共有を可能にする。 しかし、EC-IoVは車両とTECインフラ間の接続と相互作用に大きく依存しているため、TECインフラが利用できない遠隔地(砂漠、孤立した島、災害に苦しむ地域など)で崩壊する。 ユビキタス接続とグローバルエリアカバレッジによって駆動される宇宙地上統合ネットワーク(SAGIN)は、シームレスなカバレッジと効率的なリソース管理をサポートし、エッジコンピューティングの次のフロンティアである。 そこで本稿では,SAGINの最先端エッジコンピューティング研究について概説する。 既存の軌道および空中エッジコンピューティングアーキテクチャについて議論した後、遠隔地における車両の様々なIoVサービスをサポートするためにエッジコンピューティング対応の宇宙空間統合ネットワーク(EC-SAGIN)のフレームワークを提案する。 このフレームワークの主な目的は、タスク完了時間と衛星リソースの使用を最小化することである。 この目的のために,アクション空間のサイズを減らすための事前分類方式を提案し,リアルタイムな意思決定を実現するために,深層模倣学習(DIL)によるオフロードとキャッシュアルゴリズムを提案する。 シミュレーションの結果,提案手法の有効性が示された。 最後に,技術的な課題と今後の方向性についても論じる。

Edge computing-enhanced Internet of Vehicles (EC-IoV) enables ubiquitous data processing and content sharing among vehicles and terrestrial edge computing (TEC) infrastructures (e.g., 5G base stations and roadside units) with little or no human intervention, plays a key role in the intelligent transportation systems. However, EC-IoV is heavily dependent on the connections and interactions between vehicles and TEC infrastructures, thus will break down in some remote areas where TEC infrastructures are unavailable (e.g., desert, isolated islands and disaster-stricken areas). Driven by the ubiquitous connections and global-area coverage, space-air-ground integrated networks (SAGINs) efficiently support seamless coverage and efficient resource management, represent the next frontier for edge computing. In light of this, we first review the state-of-the-art edge computing research for SAGINs in this article. After discussing several existing orbital and aerial edge computing architectures, we propose a framework of edge computing-enabled space-air-ground integrated networks (EC-SAGINs) to support various IoV services for the vehicles in remote areas. The main objective of the framework is to minimize the task completion time and satellite resource usage. To this end, a pre-classification scheme is presented to reduce the size of action space, and a deep imitation learning (DIL) driven offloading and caching algorithm is proposed to achieve real-time decision making. Simulation results show the effectiveness of our proposed scheme. At last, we also discuss some technology challenges and future directions.
翻訳日:2021-03-28 11:15:57 公開日:2021-01-15
# 急性虚血性脳梗塞患者におけるCT灌流のモデル無しアプローチ

Neural Network-derived perfusion maps: a Model-free approach to computed tomography perfusion in patients with acute ischemic stroke ( http://arxiv.org/abs/2101.05992v1 )

ライセンス: Link先を確認
Umberto A. Gava, Federico D'Agata, Enzo Tartaglione, Marco Grangetto, Francesca Bertolino, Ambra Santonocito, Edwin Bennink, Mauro Bergui(参考訳) 目的: 急性期脳梗塞患者におけるCT灌流データから, 畳み込みニューラルネットワーク(CNN)が臨床的に関連性のあるパラメトリックマップを作成できるかどうかを検討する。 方法: CNNのトレーニングは100の灌流データのサブセットで行われ、15のサンプルがバリデーションとして使用された。 ネットワークのトレーニング/バリデーションと、最先端のデコンボリューションアルゴリズムを使用して、地上の真実(GT)マップを生成するために使用されるすべてのデータは、以前は標準パイプラインを使用して前処理されていた。 検証はcnnマップとgtマップの両方で梗塞コアと陰茎の手動セグメンテーションによって行われた。 病変量間でのDiceとPearson相関係数を用いて,部分的病変の一致を評価した。 結果: 2 つの異なるレートラーと gt マップの平均サイススコアは 0.70 以上 (良い一致) であった。 また,CNNマップの病変量とGTマップ(0.99,0.98)との間に強い相関が認められた。 結論:cnnに基づくアプローチは,データのデコンボリューションに基づく最先端のパーフュージョン解析法に匹敵する臨床関連パーフュージョンマップを作成した。 さらに,本手法では虚血コアを推定するための情報が少ないため,放射線線量が少ない新しい灌流プロトコルの開発が可能である可能性がある。

Purpose: In this study we investigate whether a Convolutional Neural Network (CNN) can generate clinically relevant parametric maps from CT perfusion data in a clinical setting of patients with acute ischemic stroke. Methods: Training of the CNN was done on a subset of 100 perfusion data, while 15 samples were used as validation. All the data used for the training/validation of the network and to generate ground truth (GT) maps, using a state-of-the-art deconvolution-algori thm, were previously pre-processed using a standard pipeline. Validation was carried out through manual segmentation of infarct core and penumbra on both CNN-derived maps and GT maps. Concordance among segmented lesions was assessed using the Dice and the Pearson correlation coefficients across lesion volumes. Results: Mean Dice scores from two different raters and the GT maps were > 0.70 (good-matching). Inter-rater concordance was also high and strong correlation was found between lesion volumes of CNN maps and GT maps (0.99, 0.98). Conclusion: Our CNN-based approach generated clinically relevant perfusion maps that are comparable to state-of-the-art perfusion analysis methods based on deconvolution of the data. Moreover, the proposed technique requires less information to estimate the ischemic core and thus might allow the development of novel perfusion protocols with lower radiation dose.
翻訳日:2021-03-28 11:15:27 公開日:2021-01-15
# 手書き桁認識のためのプルーニング法による畳み込みニューラルネットワーク

Convolutional Neural Network with Pruning Method for Handwritten Digit Recognition ( http://arxiv.org/abs/2101.05996v1 )

ライセンス: Link先を確認
Mengyu Chen(参考訳) CNNモデルは画像解析の一般的な手法であるため、MNISTデータセットに基づいて手書き桁を認識できる。 認識精度の向上のために,cnnの完全結合層サイズと認識精度の関係を明らかにするために,cnnの完全結合層サイズが異なる様々なcnnモデルが活用されている。 従来の刈り取り作業に触発されて,cnnモデルにおける刈り出し性能をnnモデルと比較した。 CNNの打抜き性能を改善するため, 打抜き性能に対する角度閾値の影響を検討した。 評価の結果, 完全連結層サイズでは, 層サイズが大きくなると認識精度が向上し, 層サイズがしきい値より小さいと低下し, 層サイズが閾値より大きくなると認識精度が向上するしきい値が存在すること, cnn上でのプルーニング性能がnnよりも低下すること, プルーニング角閾値が増加すると, 完全連結層サイズと認識精度が低下することがわかった。 また,mnistデータセットでトレーニングされたcnnモデルでは,手書き文字認識が可能であり,完全連結層サイズ400で最大認識精度が得られることを示した。 さらに、同じデータセットMNISTでは、CNNモデルは、大きな、深い、単純なNNモデルよりもうまく動作する。

CNN model is a popular method for imagery analysis, so it could be utilized to recognize handwritten digits based on MNIST datasets. For higher recognition accuracy, various CNN models with different fully connected layer sizes are exploited to figure out the relationship between the CNN fully connected layer size and the recognition accuracy. Inspired by previous pruning work, we performed pruning methods of distinctiveness on CNN models and compared the pruning performance with NN models. For better pruning performances on CNN, the effect of angle threshold on the pruning performance was explored. The evaluation results show that: for the fully connected layer size, there is a threshold, so that when the layer size increases, the recognition accuracy grows if the layer size smaller than the threshold, and falls if the layer size larger than the threshold; the performance of pruning performed on CNN is worse than on NN; as pruning angle threshold increases, the fully connected layer size and the recognition accuracy decreases. This paper also shows that for CNN models trained by the MNIST dataset, they are capable of handwritten digit recognition and achieve the highest recognition accuracy with fully connected layer size 400. In addition, for same dataset MNIST, CNN models work better than big, deep, simple NN models in a published paper.
翻訳日:2021-03-28 11:15:05 公開日:2021-01-15
# マンモグラフィによる乳癌診断のためのタスク駆動型自己教師付きバイチャネルネットワーク学習

Task-driven Self-supervised Bi-channel Networks Learning for Diagnosis of Breast Cancers with Mammography ( http://arxiv.org/abs/2101.06228v1 )

ライセンス: Link先を確認
Ronglin Gong, Zhiyang Lu and Jun Shi(参考訳) 深層学習は乳がんに対するマンモグラフィーに基づくコンピュータ支援診断(CAD)を促進することができるが、一般的に小さなサンプル問題に悩まされる。 本稿では,マンモグラムを限定した分類ネットワークの性能向上のために,タスク駆動型自己教師付きバイチャネルネットワーク(tsbnl)フレームワークを提案する。 特に、画像復元のための新しいグレースケール画像マッピング(GSIM)タスクをプリテキストタスクとして設計し、マンモグラムのラベル情報による特徴表現の識別を改善する。 TSBNLは、この画像復元ネットワークと下流分類ネットワークを統一SSLフレームワークに統合し、診断精度を向上して、プリテキストネットワークから分類ネットワークに知識を転送する。 提案アルゴリズムはパブリックなInbreast Mammogramデータセットを用いて評価する。 実験の結果,乳がんの診断には従来のsslアルゴリズムを上回っており,サンプルが限られていた。

Deep learning can promote the mammography-based computer-aided diagnosis (CAD) for breast cancers, but it generally suffers from the small size sample problem. In this work, a task-driven self-supervised bi-channel networks (TSBNL) framework is proposed to improve the performance of classification network with limited mammograms. In particular, a new gray-scale image mapping (GSIM) task for image restoration is designed as the pretext task to improve discriminate feature representation with label information of mammograms. The TSBNL then innovatively integrates this image restoration network and the downstream classification network into a unified SSL framework, and transfers the knowledge from the pretext network to the classification network with improved diagnostic accuracy. The proposed algorithm is evaluated on a public INbreast mammogram dataset. The experimental results indicate that it outperforms the conventional SSL algorithms for diagnosis of breast cancers with limited samples.
翻訳日:2021-03-28 11:14:42 公開日:2021-01-15
# DiffPD: 接触による可微分射影ダイナミクス

DiffPD: Differentiable Projective Dynamics with Contact ( http://arxiv.org/abs/2101.05917v1 )

ライセンス: Link先を確認
Tao Du, Kui Wu, Pingchuan Ma, Sebastien Wah, Andrew Spielberg, Daniela Rus, Wojciech Matusik(参考訳) ソフトボディ学習と制御のための新しい高速微分可能シミュレータを提案する。 既存のソフトボディシミュレータは時間積分法に基づいて2つのカテゴリに分類される。 明示的な時間ステッピングスキームを用いたシミュレータは、勾配計算の数値的な不安定さを避けるために小さな時間ステップを必要とし、暗黙の時間積分を用いたシミュレータは、高価な線形化力学を解くために随伴法を用いる。 Projective Dynamics (PD) にインスパイアされたDiffPDは、暗黙の時間積分を持つ効率的な微分可能なソフトボディシミュレータである。 DiffPD の鍵となるアイデアは、PD の既約コレスキー分解を利用して超線形収束率を達成することで、バックプロパゲーションを高速化することである。 接触に対処するため、DiffPDは線形相補性問題(LCP)とその勾配を分析して接触力を解く。 接点が少数のノードで発生すると仮定し,線形動力学の低ランク構造を探索し,勾配計算の効率的な方法を開発した。 DiffPDの性能を評価し,システム識別,逆設計問題,軌道最適化,閉ループ制御など,標準的なNewton法と比較して4~19倍の高速化を実現した。

We present a novel, fast differentiable simulator for soft-body learning and control applications. Existing differentiable soft-body simulators can be classified into two categories based on their time integration methods. Simulators using explicit time-stepping scheme require tiny time steps to avoid numerical instabilities in gradient computation, and simulators using implicit time integration typically compute gradients by employing the adjoint method to solve the expensive linearized dynamics. Inspired by Projective Dynamics (PD), we present DiffPD, an efficient differentiable soft-body simulator with implicit time integration. The key idea in DiffPD is to speed up backpropagation by exploiting the prefactorized Cholesky decomposition in PD to achieve a super-linear convergence rate. To handle contacts, DiffPD solves contact forces by analyzing a linear complementarity problem (LCP) and its gradients. With the assumption that contacts occur on a small number of nodes, we develop an efficient method for gradient computation by exploring the low-rank structure in the linearized dynamics. We evaluate the performance of DiffPD and observe a speedup of 4-19 times compared to the standard Newton's method in various applications including system identification, inverse design problems, trajectory optimization, and closed-loop control.
翻訳日:2021-03-28 11:14:26 公開日:2021-01-15
# 実験最適設計のための二元最適化への確率的学習アプローチ

Stochastic Learning Approach to Binary Optimization for Optimal Design of Experiments ( http://arxiv.org/abs/2101.05958v1 )

ライセンス: Link先を確認
Ahmed Attia and Sven Leyffer and Todd Munson(参考訳) 偏微分方程式のような数学的モデルによって支配されるベイズ逆問題に対する最適実験設計(OED)のための二項最適化の新しい確率的アプローチを提案する。 OEDユーティリティ関数、すなわち正規化された最適性基準は、多変量ベルヌーイ分布に対する期待の形で確率的目的関数にキャストされる。 次に確率的最適化ルーチンを用いて確率論的目的を解き、最適観測ポリシーを求める。 提案手法は,最適化の観点からも,政策勾配強化学習に対応する機械学習の観点からも解析される。 本手法は, 2次元ベイズ線形逆問題を用いて数値計算を行い, パラメータ同定設定におけるセンサ配置に関する広範囲な数値実験により検証した。

We present a novel stochastic approach to binary optimization for optimal experimental design (OED) for Bayesian inverse problems governed by mathematical models such as partial differential equations. The OED utility function, namely, the regularized optimality criterion, is cast into a stochastic objective function in the form of an expectation over a multivariate Bernoulli distribution. The probabilistic objective is then solved by using a stochastic optimization routine to find an optimal observational policy. The proposed approach is analyzed from an optimization perspective and also from a machine learning perspective with correspondence to policy gradient reinforcement learning. The approach is demonstrated numerically by using an idealized two-dimensional Bayesian linear inverse problem, and validated by extensive numerical experiments carried out for sensor placement in a parameter identification setup.
翻訳日:2021-03-28 11:13:46 公開日:2021-01-15
# アンサンブル学習に基づく分類アルゴリズムの勧告

Ensemble Learning Based Classification Algorithm Recommendation ( http://arxiv.org/abs/2101.05993v1 )

ライセンス: Link先を確認
Guangtao Wang, Qinbao Song and Xiaoyan Zhu(参考訳) 分類問題に対する適切なアルゴリズムの再検討は、データマイニングの分野で最も難しい問題の1つである。 既存のアルゴリズムレコメンデーションモデルは通常、単一の学習者による1種類のメタ機能のみに基づいて構築される。 i) アンサンブル学習者は、通常、パフォーマンスが良く、ii)異なる種類のメタ特徴は、異なる視点で個別に分類問題を特徴づけ、さらに、異なるメタ特徴セットで構築されたモデルは、互いに相補的で、アンサンブルに適用できる。 本稿では,アンサンブル学習に基づくアルゴリズム推薦手法を提案する。 提案手法を評価するために,13の既知の候補分類アルゴリズムと5種類のメタ特徴を用いた1090のベンチマーク分類問題に関する広範な実験を行った。 その結果,アンサンブル学習に基づく推薦手法の有効性が示された。

Recommending appropriate algorithms to a classification problem is one of the most challenging issues in the field of data mining. The existing algorithm recommendation models are generally constructed on only one kind of meta-features by single learners. Considering that i) ensemble learners usually show better performance and ii) different kinds of meta-features characterize the classification problems in different viewpoints independently, and further the models constructed with different sets of meta-features will be complementary with each other and applicable for ensemble. This paper proposes an ensemble learning-based algorithm recommendation method. To evaluate the proposed recommendation method, extensive experiments with 13 well-known candidate classification algorithms and five different kinds of meta-features are conducted on 1090 benchmark classification problems. The results show the effectiveness of the proposed ensemble learning based recommendation method.
翻訳日:2021-03-28 11:13:35 公開日:2021-01-15
# IT運用のための人工知能(AIOPS)ワークショップホワイトペーパー

Artificial Intelligence for IT Operations (AIOPS) Workshop White Paper ( http://arxiv.org/abs/2101.06054v1 )

ライセンス: Link先を確認
Jasmin Bogatinovski, Sasho Nedelkoski, Alexander Acker, Florian Schmidt, Thorsten Wittkopp, Soeren Becker, Jorge Cardoso, and Odej Kao(参考訳) AIOps(Artificial Intelligence for IT Operations)は、マシンラーニング、ビッグデータ、ストリーミング分析、IT運用管理といった研究領域の交差点で発生する、新たな学際分野である。 AIOpsは、分野として、将来のIT運用管理の標準を作成する候補である。 そのため、aiopsにはいくつかの課題がある。 まず、ソフトウェア信頼性工学のような他の研究分野とは別の研究分野を組み合わせる必要がある。 第二に、異なるシステムの力学を理解するために新しいモデリング技術が必要である。 さらに、時間的地平線と差し迫ったSLA違反の不確実性、出現する問題の早期発見、自律的な修復、意思決定、さまざまな最適化目標のサポートといった評価の基盤を定める必要がある。 さらに、これらの補助モデルの理解と解釈性は、採用ツールとドメインエキスパートの間の信頼を構築する上で重要である。 最後に、これらすべてがAIOpsの採用を早くし、この研究分野への関心をさらに高め、完全に自律的なITシステムへのギャップを埋めることに貢献します。 AIOPSワークショップの主な目的は、学術と産業の両方の研究者を集めて、この分野での経験、成果、研究成果を提示することである。 このワークショップは、コミュニティの強化と、フィールドが現在直面している主な課題を解決する取り組みに参加するという目標に向けて、団結することを目的としている。 オープン性と再現性の原則のコンセンサスと採用により、この新興分野の研究は大幅に加速する。

Artificial Intelligence for IT Operations (AIOps) is an emerging interdisciplinary field arising in the intersection between the research areas of machine learning, big data, streaming analytics, and the management of IT operations. AIOps, as a field, is a candidate to produce the future standard for IT operation management. To that end, AIOps has several challenges. First, it needs to combine separate research branches from other research fields like software reliability engineering. Second, novel modelling techniques are needed to understand the dynamics of different systems. Furthermore, it requires to lay out the basis for assessing: time horizons and uncertainty for imminent SLA violations, the early detection of emerging problems, autonomous remediation, decision making, support of various optimization objectives. Moreover, a good understanding and interpretability of these aiding models are important for building trust between the employed tools and the domain experts. Finally, all this will result in faster adoption of AIOps, further increase the interest in this research field and contribute to bridging the gap towards fully-autonomous operating IT systems. The main aim of the AIOPS workshop is to bring together researchers from both academia and industry to present their experiences, results, and work in progress in this field. The workshop aims to strengthen the community and unite it towards the goal of joining the efforts for solving the main challenges the field is currently facing. A consensus and adoption of the principles of openness and reproducibility will boost the research in this emerging area significantly.
翻訳日:2021-03-28 11:13:21 公開日:2021-01-15
# 学習可能な局所的および大域的活性化機能を有する新しい人工ニューロンの提案

A New Artificial Neuron Proposal with Trainable Simultaneous Local and Global Activation Function ( http://arxiv.org/abs/2101.06100v1 )

ライセンス: Link先を確認
Tiago A. E. Ferreira and Marios Mattheakis and Pavlos Protopapas(参考訳) 活性化関数は、ニューラルネットワーク学習プロセスにおいて基本的な役割を果たす。 しかし、最適なアクティベーション関数を決定するための明確な選択や手順は、問題によって異なる。 本研究は,グローバルニューロンとローカルニューロンの2成分からなる学習可能な活性化機能を持つ,新しい人工ニューロンであるglobal-local neuronを提案する。 ここで用いられる大域的成分項は、すべての問題領域に存在する一般的な特徴を記述する数学的関数に対して相対的である。 ローカルコンポーネントは、過渡性や摂動のような局所的な振る舞いを表現できる関数である。 この新しいニューロンは、学習段階における各活性化関数コンポーネントの重要性を定義することができる。 問題によっては、純粋なグローバル、または純粋にローカル、あるいはトレーニングフェーズ後のグローバルとローカルのアクティベーション関数が混在する。 ここでは, 大域成分には三角関数, 局所成分には双曲接を用いていた。 提案するニューロンは,対象が純粋に大域的な機能,あるいは純粋に局所的な機能,あるいは二つの大域的機能と局所的な機能の組み合わせである問題に対してテストを行った。 回帰問題と微分方程式解の2つのクラスについて検討した。 実験により、Global-Local Neuron Networkは、正弦あるいは双曲的タンジェント活性化機能を持つ単純なニューラルネットワークと、これら2つの単純なニューラルネットワークを組み合わせたハイブリッドネットワークと比較して、優れた性能を示した。

The activation function plays a fundamental role in the artificial neural network learning process. However, there is no obvious choice or procedure to determine the best activation function, which depends on the problem. This study proposes a new artificial neuron, named global-local neuron, with a trainable activation function composed of two components, a global and a local. The global component term used here is relative to a mathematical function to describe a general feature present in all problem domain. The local component is a function that can represent a localized behavior, like a transient or a perturbation. This new neuron can define the importance of each activation function component in the learning phase. Depending on the problem, it results in a purely global, or purely local, or a mixed global and local activation function after the training phase. Here, the trigonometric sine function was employed for the global component and the hyperbolic tangent for the local component. The proposed neuron was tested for problems where the target was a purely global function, or purely local function, or a composition of two global and local functions. Two classes of test problems were investigated, regression problems and differential equations solving. The experimental tests demonstrated the Global-Local Neuron network's superior performance, compared with simple neural networks with sine or hyperbolic tangent activation function, and with a hybrid network that combines these two simple neural networks.
翻訳日:2021-03-28 11:12:58 公開日:2021-01-15
# 未知課題における触覚共有制御のための深層強化学習

Deep Reinforcement Learning for Haptic Shared Control in Unknown Tasks ( http://arxiv.org/abs/2101.06227v1 )

ライセンス: Link先を確認
Franklin Carde\~noso Fernandez and Wouter Caarls(参考訳) 近年,遠隔操作システムにおける触覚共有制御(HSC)への関心が高まっている。 HSCでは、仮想誘導力の適用により、ユーザの制御労力が減少し、様々なタスクの実行時間が改善され、直接遠隔操作と比較して優れた代替手段が提示される。 hscは、優れたパフォーマンスを示しているにもかかわらず、新たなギャップを開く。 このため、この課題は、実行中のタスクに対して最適な誘導力を提供するためのコントローラの開発にある。 この研究は、支援を提供するためのDeep Deterministic Policy gradient(DDPG)アルゴリズムと、タスク検出を行う畳み込みニューラルネットワーク(CNN)に基づいて、TAHSC(Task Agnostic Haptic Shared Controller)と呼ばれるコントローラを設計することで、この問題に対処する。 エージェントは、人間が所望のタスクを実行するのに要する時間を最小化し、同時に提供されたフィードバックに対する抵抗を最小化する。 この抵抗により、学習アルゴリズムは、人間が追跡しようとしている方向、この場合、ピック・アンド・プレイス・タスクに関する情報を提供する。 様々な結果から,システムテストの依頼を受けたユーザ毎に独自のポリシーを学習することで,提案手法の適用性が実証された。 安定した収束を示し、最小限の時間でタスクを完了させるのに役立つ。

Recent years have shown a growing interest in using haptic shared control (HSC) in teleoperated systems. In HSC, the application of virtual guiding forces decreases the user's control effort and improves execution time in various tasks, presenting a good alternative in comparison with direct teleoperation. HSC, despite demonstrating good performance, opens a new gap: how to design the guiding forces. For this reason, the challenge lies in developing controllers to provide the optimal guiding forces for the tasks that are being performed. This work addresses this challenge by designing a controller based on the deep deterministic policy gradient (DDPG) algorithm to provide the assistance, and a convolutional neural network (CNN) to perform the task detection, called TAHSC (Task Agnostic Haptic Shared Controller). The agent learns to minimize the time it takes the human to execute the desired task, while simultaneously minimizing their resistance to the provided feedback. This resistance thus provides the learning algorithm with information about which direction the human is trying to follow, in this case, the pick-and-place task. Diverse results demonstrate the successful application of the proposed approach by learning custom policies for each user who was asked to test the system. It exhibits stable convergence and aids the user in completing the task with the least amount of time possible.
翻訳日:2021-03-28 11:12:35 公開日:2021-01-15
# mlに基づくマルウェア自動検出モデルの解釈に向けて

Towards interpreting ML-based automated malware detection models: a survey ( http://arxiv.org/abs/2101.06232v1 )

ライセンス: Link先を確認
Yuzhou Lin, Xiaolin Chang(参考訳) マルウェアはますます脅威になりつつあり、従来のシグネチャベースの分析に基づくマルウェア検出は、現在のマルウェア検出には適していない。 近年,未知のマルウェアの変異を予測し,人的強度を抑える機械学習(ML)モデルが開発されている。 しかし、既存のmlモデルのほとんどはブラックボックスであり、事前のディクショニング結果には依存せず、ワイルドに効果的にデプロイするにはさらなる解釈が必要である。 本稿では,MLベースのマルウェア検出器の解釈可能性に関する既存の研究を検証し,分類することを目的とする。 まず,先行研究である共通mlモデル間プレタビリティについて,原則,属性,評価インディケータ,および共通ml解釈可能性の分類法を導入し,その比較を行った。 次に,マルウェア検出に対する解釈手法について,マルウェア検出者の解釈の重要性,本分野が直面する課題,これらの課題を模倣するための解決法,近年のマルウェア検出の課題を分類する新しい分類法について検討した。 本調査のハイライトは, 従来の再調査で要約された共通分類法に基づいて, マルウェア検出のための新しい分類法を提供することである。 さらに,我々は,解釈可能性の定量化に関する洞察を与えるために,まず,解釈法属性による最新手法の評価を行い,最終スコアを生成する。 最近の研究結果をまとめることで、MLベースのマルウェア検出モデルにおける解釈可能性に関心のある研究者に提案できることを期待します。

Malware is being increasingly threatening and malware detectors based on traditional signature-based analysis are no longer suitable for current malware detection. Recently, the models based on machine learning (ML) are developed for predicting unknown malware variants and saving human strength. However, most of the existing ML models are black-box, which made their pre-diction results undependable, and therefore need further interpretation in order to be effectively deployed in the wild. This paper aims to examine and categorize the existing researches on ML-based malware detector interpretability. We first give a detailed comparison over the previous work on common ML model inter-pretability in groups after introducing the principles, attributes, evaluation indi-cators and taxonomy of common ML interpretability. Then we investigate the interpretation methods towards malware detection, by addressing the importance of interpreting malware detectors, challenges faced by this field, solutions for migitating these challenges, and a new taxonomy for classifying all the state-of-the-art malware detection interpretability work in recent years. The highlight of our survey is providing a new taxonomy towards malware detection interpreta-tion methods based on the common taxonomy summarized by previous re-searches in the common field. In addition, we are the first to evaluate the state-of-the-art approaches by interpretation method attributes to generate the final score so as to give insight to quantifying the interpretability. By concluding the results of the recent researches, we hope our work can provide suggestions for researchers who are interested in the interpretability on ML-based malware de-tection models.
翻訳日:2021-03-28 11:12:12 公開日:2021-01-15
# ベイズパラメータ推定の文脈におけるガンマ分散精度パラメータとそれに伴う標準偏差の関係について

On the relationship between a Gamma distributed precision parameter and the associated standard deviation in the context of Bayesian parameter inference ( http://arxiv.org/abs/2101.06289v1 )

ライセンス: Link先を確認
Manuel M. Eichenlaub(参考訳) ベイズ推定では、未知の測定の不確かさをガンマ分布の精度パラメータを用いて定量化することがしばしばあり、測定の不確かさの標準偏差に関する事前情報が推論中に活用される場合、実用的でない。 本稿では,ガンマ分布の精度パラメータとそれに伴う標準偏差の分布を変換する手法を提案する。 提案手法は数値最適化に基づいて,幅広いシナリオに対して適切な結果を示す。

In Bayesian inference, an unknown measurement uncertainty is often quantified in terms of a Gamma distributed precision parameter, which is impractical when prior information on the standard deviation of the measurement uncertainty shall be utilised during inference. This paper thus introduces a method for transforming between a gamma distributed precision parameter and the distribution of the associated standard deviation. The proposed method is based on numerical optimisation and shows adequate results for a wide range of scenarios.
翻訳日:2021-03-28 11:11:49 公開日:2021-01-15
# プログラム構造分類の自動化

Automating Program Structure Classification ( http://arxiv.org/abs/2101.10087v1 )

ライセンス: Link先を確認
Will Crichton, Georgia Gabriela Sampaio, Pat Hanrahan(参考訳) 学生がプログラムを書くとき、プログラムの構造は学習過程に関する洞察を与える。 しかし,プログラム構造を手作業で解析するには時間を要するため,コンピュータ支援による学生ソリューション探索のためのより良いツールが必要である。 教育指向プログラム分析ツールキットに向けた第一歩として,教師付き機械学習手法が,学生プログラムを所定の高レベル構造に自動的に分類できることを示す。 降雨問題に対する学生ソリューションの分類に関する2つのモデルについて評価した。構文木編集距離と再帰的ニューラルネットワークを用いた最寄り-neighbors分類器である。 108プログラムでトレーニングすると,これらのモデルが91%の分類精度が得られることを示す。 さらに,各モデルの汎用性やトレードオフ,障害事例についても検討する。

When students write programs, their program structure provides insight into their learning process. However, analyzing program structure by hand is time-consuming, and teachers need better tools for computer-assisted exploration of student solutions. As a first step towards an education-oriented program analysis toolkit, we show how supervised machine learning methods can automatically classify student programs into a predetermined set of high-level structures. We evaluate two models on classifying student solutions to the Rainfall problem: a nearest-neighbors classifier using syntax tree edit distance and a recurrent neural network. We demonstrate that these models can achieve 91% classification accuracy when trained on 108 programs. We further explore the generality, trade-offs, and failure cases of each model.
翻訳日:2021-03-28 11:11:40 公開日:2021-01-15
# 損失のない相乗的推論のための動的DNN分解

Dynamic DNN Decomposition for Lossless Synergistic Inference ( http://arxiv.org/abs/2101.05952v1 )

ライセンス: Link先を確認
Beibei Zhang, Tian Xiang, Hongxuan Zhang, Te Li, Shiqiang Zhu, Jianjun Gu(参考訳) ディープニューラルネットワーク(DNN)は、今日のデータ処理アプリケーションで高性能を維持している。 DNN推論はリソース集約型であるため、モバイルデバイスに適合することは困難である。 別の方法は、DNN推論をクラウドサーバにオフロードすることだ。 しかし、このようなアプローチはモバイルデバイスとクラウドサーバの間で大量の生データ通信を必要とするため、オートパイロットのようなミッションクリティカルでプライバシに敏感なアプリケーションには適さない。 この問題を解決するために、エッジコンピューティングパラダイムを用いてDNNサービスを解き放つ。 既存のアプローチでは、DNNを2つに分割し、2つのパーティションを2つのエッジコンピューティング層で計算ノードにデプロイする。 それにもかかわらず、これらの手法は、コラボレーティブなデバイス-クラウド計算資源を見落としている。 さらに、従来のアルゴリズムでは、計算リソースの変更やネットワークのダイナミクスに適応するために、DNN全体を分割する必要がある。 さらに、リソース要求の畳み込み層では、事前の作業はエッジ側で精度を失うことなく並列処理戦略を提供しない。 そこで本研究では,相乗的推論のための動的dnn分解システムd3を提案する。 提案システムでは,DNNを3つの部分に分割する水平分割アルゴリズムを提案する。 アルゴリズムは、処理時間とネットワーク条件に応じて、実行時のパーティションを部分的に調整することができる。 エッジ側では、垂直分離モジュールがフィーチャーマップをタイルに分離し、異なるエッジノード上で独立して並列に実行できる。 5つの人気DNNの大規模な定量的評価は、D3が最先端のDNN推論時間で最大3.4倍、バックボーンネットワーク通信オーバヘッドが最大3.68倍に向上していることを示している。

Deep neural networks (DNNs) sustain high performance in today's data processing applications. DNN inference is resource-intensive thus is difficult to fit into a mobile device. An alternative is to offload the DNN inference to a cloud server. However, such an approach requires heavy raw data transmission between the mobile device and the cloud server, which is not suitable for mission-critical and privacy-sensitive applications such as autopilot. To solve this problem, recent advances unleash DNN services using the edge computing paradigm. The existing approaches split a DNN into two parts and deploy the two partitions to computation nodes at two edge computing tiers. Nonetheless, these methods overlook collaborative device-edge-cloud computation resources. Besides, previous algorithms demand the whole DNN re-partitioning to adapt to computation resource changes and network dynamics. Moreover, for resource-demanding convolutional layers, prior works do not give a parallel processing strategy without loss of accuracy at the edge side. To tackle these issues, we propose D3, a dynamic DNN decomposition system for synergistic inference without precision loss. The proposed system introduces a heuristic algorithm named horizontal partition algorithm to split a DNN into three parts. The algorithm can partially adjust the partitions at run time according to processing time and network conditions. At the edge side, a vertical separation module separates feature maps into tiles that can be independently run on different edge nodes in parallel. Extensive quantitative evaluation of five popular DNNs illustrates that D3 outperforms the state-of-the-art counterparts up to 3.4 times in end-to-end DNN inference time and reduces backbone network communication overhead up to 3.68 times.
翻訳日:2021-03-28 11:11:29 公開日:2021-01-15
# 何を学ぶか決定する:レートゆがみアプローチ

Deciding What to Learn: A Rate-Distortion Approach ( http://arxiv.org/abs/2101.06197v1 )

ライセンス: Link先を確認
Dilip Arumugam and Benjamin Van Roy(参考訳) 最適な行動を選択することを学ぶエージェントは、シーケンシャルな意思決定文献の顕著な焦点である。 しかし、複雑な環境や時間や資源の制約に直面した場合、このような最適な政策を合成しようとすることは不可能となる。 これらのシナリオは、エージェントが学習するために取得しなければならない情報と、結果として得られるポリシーの準最適性の間に重要なトレードオフをもたらす。 エージェントデザイナは、このトレードオフを解決する方法を好むが、既存のアプローチでは、デザイナがこれらの好みをエージェントの固定的な学習ターゲットに変換する必要がある。 本研究は、レート歪み理論を利用して、設計者が1つのハイパーパラメータを通してのみ好みを表現できるように自動化し、エージェントに最適なトレードオフを達成するための学習目標を計算する能力を与える。 この方法で何を学ぶかを決めるエージェントに対して、デザイナーの好みの表現性を示し、最適なポリシーを特定する際にトンプソンサンプリングよりも改善を示す計算実験を行うことで、期待された割引された後悔の限界を確立する。

Agents that learn to select optimal actions represent a prominent focus of the sequential decision-making literature. In the face of a complex environment or constraints on time and resources, however, aiming to synthesize such an optimal policy can become infeasible. These scenarios give rise to an important trade-off between the information an agent must acquire to learn and the sub-optimality of the resulting policy. While an agent designer has a preference for how this trade-off is resolved, existing approaches further require that the designer translate these preferences into a fixed learning target for the agent. In this work, leveraging rate-distortion theory, we automate this process such that the designer need only express their preferences via a single hyperparameter and the agent is endowed with the ability to compute its own learning targets that best achieve the desired trade-off. We establish a general bound on expected discounted regret for an agent that decides what to learn in this manner along with computational experiments that illustrate the expressiveness of designer preferences and even show improvements over Thompson sampling in identifying an optimal policy.
翻訳日:2021-03-28 11:10:34 公開日:2021-01-15
# パーソナライズ・プロファイリング・意思決定システムにおける目的制限の復活とデータ最小化

Reviving Purpose Limitation and Data Minimisation in Personalisation, Profiling and Decision-Making Systems ( http://arxiv.org/abs/2101.06203v1 )

ライセンス: Link先を確認
Mich\`ele Finck and Asia Biega(参考訳) 本稿では,分野間法とコンピュータサイエンスレンズを用いて,パーソナライズ,プロファイリング,意思決定システムなどデータ駆動型アルゴリズムシステムにおいて,データ最小化と目的制限が有意義に実装可能かどうかを判定する。 分析の結果、個人データ処理のリスクを軽減する上で、2つの法的原則が引き続き重要な役割を担っていることが明らかになりました。 しかし、この論文はこの発見を超えている。 We highlight that even though these principles are important safeguards in the systems under consideration, there are important limits to their practical implementation, namely, (i) the difficulties of measuring law and the resulting open computational research questions as well as a lack of concrete guidelines for practitioners; (ii) the unacknowledged trade-offs between various GDPR principles, notably between data minimisation on the one hand and accuracy or fairness on the other; (iii) the lack of practical means of removing personal data from trained models in order to ensure legal compliance; and (iv) the insufficient enforcement of data protection law.

This paper determines, through an interdisciplinary law and computer science lens, whether data minimisation and purpose limitation can be meaningfully implemented in data-driven algorithmic systems, including personalisation, profiling and decision-making systems. Our analysis reveals that the two legal principles continue to play an important role in mitigating the risks of personal data processing, allowing us to rebut claims that they have become obsolete. The paper goes beyond this finding, however. We highlight that even though these principles are important safeguards in the systems under consideration, there are important limits to their practical implementation, namely, (i) the difficulties of measuring law and the resulting open computational research questions as well as a lack of concrete guidelines for practitioners; (ii) the unacknowledged trade-offs between various GDPR principles, notably between data minimisation on the one hand and accuracy or fairness on the other; (iii) the lack of practical means of removing personal data from trained models in order to ensure legal compliance; and (iv) the insufficient enforcement of data protection law.
翻訳日:2021-03-28 11:10:16 公開日:2021-01-15
# 非常に柔軟なモデル:多数のパラメータを持つ線形回帰

Fitting very flexible models: Linear regression with large numbers of parameters ( http://arxiv.org/abs/2101.07256v1 )

ライセンス: Link先を確認
David W. Hogg (NYU) and Soledad Villar (JHU)(参考訳) ここでのコンテキストはデータの補間と分極であり、キャリブレーションデータを持ち、それらのデータにスムーズで柔軟な関数を適合させたい場合のようにである。 あるいは、時系列を非トレーディングしたり、スペクトルを正規化するために柔軟な関数をフィットさせたい。 これらの文脈では、研究者はしばしば多項式基底、フーリエ基底、ウェーブレット、あるいは等しく一般的なものを選択する。 それらはまた、適合する順序や基底関数の数、そして(しばしば)ある種の正規化を選択する。 この基底関数のフィッティングについて, 通常の最小二乗とその拡張を用いて論じる。 膨大な数のパラメータを持つ適切な正規化モデルが適切に一般化し、保留データに対して良い予測をする;過剰適合は(主に)多くのパラメータを持つ問題ではない。 無限パラメータの極限を取ることも可能であり、基底と正則化が正しく選択されると、最小二乗はガウス過程の平均となる。 モデル選択のための優れた経験的手法(例えば、パラメータの数と正規化の形式を設定する)としてのクロスバリデーションと、モデルによる予測の不確かさを推定するための優れた経験的手法としてjackknifeの再サンプリングを推奨する。 また,安定な計算実装の構築についてもアドバイスする。

There are many uses for linear fitting; the context here is interpolation and denoising of data, as when you have calibration data and you want to fit a smooth, flexible function to those data. Or you want to fit a flexible function to de-trend a time series or normalize a spectrum. In these contexts, investigators often choose a polynomial basis, or a Fourier basis, or wavelets, or something equally general. They also choose an order, or number of basis functions to fit, and (often) some kind of regularization. We discuss how this basis-function fitting is done, with ordinary least squares and extensions thereof. We emphasize that it is often valuable to choose far more parameters than data points, despite folk rules to the contrary: Suitably regularized models with enormous numbers of parameters generalize well and make good predictions for held-out data; over-fitting is not (mainly) a problem of having too many parameters. It is even possible to take the limit of infinite parameters, at which, if the basis and regularization are chosen correctly, the least-squares fit becomes the mean of a Gaussian process. We recommend cross-validation as a good empirical method for model selection (for example, setting the number of parameters and the form of the regularization), and jackknife resampling as a good empirical method for estimating the uncertainties of the predictions made by the model. We also give advice for building stable computational implementations.
翻訳日:2021-03-28 11:10:00 公開日:2021-01-15
# 友達が誰なのか: ニュースソースのveracity検出にコンテンツ共有の動作を使う

Tell Me Who Your Friends Are: Using Content Sharing Behavior for News Source Veracity Detection ( http://arxiv.org/abs/2101.10973v1 )

ライセンス: Link先を確認
Maur\'icio Gruppi, Benjamin D. Horne, Sibel Adal{\i}(参考訳) 悪質な拡散と誤解を招くニュースの制作を止めることが、研究者にとって最優先事項となっている。 この傾向から,低品質情報の自動検出法が数多く導入されている。 これらの手法の大半は、その書き込みスタイルのような記事レベルの特徴を使って、正確性を検出する。 スタイルモデルは実験室でうまく機能することが示されているが、一般化可能性や堅牢性には懸念がある。 本稿では,ネットワークとして定式化されたニュースソースのコンテンツ共有行動を利用した新しいロバストなニュース検証モデルを提案することで,これらの懸念に対処し始める。 本稿では,これらのコンテンツ共有ネットワーク(csn)を,ネットワーク空間と記事テキスト空間の類似性を考慮したディープウォークに基づくグラフ埋め込み手法を用いて表現する。 美術書記スタイルとCSNの特徴は,予測時に多種多様な誤りを犯し,両者が分類作業において異なる役割を担っていることを示す。 さらに,CSN機能の追加により書式モデルの精度が向上し,ランダムフォレストを用いた場合の精度が最大14\%向上することを示した。 同様に、手作りの記事レベル機能とCSN機能の組み合わせは、コンセプトドリフトに対して堅牢であり、10ヶ月の時間枠で一貫して良好に機能することを示す。

Stopping the malicious spread and production of false and misleading news has become a top priority for researchers. Due to this prevalence, many automated methods for detecting low quality information have been introduced. The majority of these methods have used article-level features, such as their writing style, to detect veracity. While writing style models have been shown to work well in lab-settings, there are concerns of generalizability and robustness. In this paper, we begin to address these concerns by proposing a novel and robust news veracity detection model that uses the content sharing behavior of news sources formulated as a network. We represent these content sharing networks (CSN) using a deep walk based method for embedding graphs that accounts for similarity in both the network space and the article text space. We show that state of the art writing style and CSN features make diverse mistakes when predicting, meaning that they both play different roles in the classification task. Moreover, we show that the addition of CSN features increases the accuracy of writing style models, boosting accuracy as much as 14\% when using Random Forests. Similarly, we show that the combination of hand-crafted article-level features and CSN features is robust to concept drift, performing consistently well over a 10-month time frame.
翻訳日:2021-03-28 11:09:39 公開日:2021-01-15