このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210113となっている論文です。

PDF登録状況(公開日: 20210113)

TitleAuthorsAbstract論文公表日・翻訳日
# CUED_speech at TREC 2020 Podcast Summarisation Track

CUED_speech at TREC 2020 Podcast Summarisation Track ( http://arxiv.org/abs/2012.02535v2 )

ライセンス: Link先を確認
Potsawee Manakul and Mark Gales(参考訳) 本稿では,trac 2020におけるポッドキャスト要約チャレンジのアプローチについて述べる。 ポッドキャストのエピソードが書き起こされ、そのゴールはコンテンツの中で最も重要な情報をキャプチャする要約を生成することである。 提案手法は,(1)階層的モデルに着目して書き起こし中の冗長文や情報の少ない文をフィルタリングすること,(2)シーケンスレベルの報酬関数を用いたPodcastデータに最先端のテキスト要約システム(BART)を適用すること,の2段階からなる。 さらに,提案方式では3モデルと9モデルのアンサンブルを行う。 また、PodcastデータのBARTモデルをベースラインとして微調整します。 NISTによる人間による評価では,EGFB尺度では1.777,クリエーターによる記述スコアは1.291であった。 本研究では, TREC2020 Podcast Track におけるSpotify Podcast Summarisation Challenge を人的および自動評価で獲得した。

In this paper, we describe our approach for the Podcast Summarisation challenge in TREC 2020. Given a podcast episode with its transcription, the goal is to generate a summary that captures the most important information in the content. Our approach consists of two steps: (1) Filtering redundant or less informative sentences in the transcription using the attention of a hierarchical model; (2) Applying a state-of-the-art text summarisation system (BART) fine-tuned on the Podcast data using a sequence-level reward function. Furthermore, we perform ensembles of three and nine models for our submission runs. We also fine-tune the BART model on the Podcast data as our baseline. The human evaluation by NIST shows that our best submission achieves 1.777 in the EGFB scale, while the score of creator-provided description is 1.291. Our system won the Spotify Podcast Summarisation Challenge in the TREC2020 Podcast Track in both human and automatic evaluation.
翻訳日:2021-05-22 20:44:28 公開日:2021-01-13
# 射影ロバスト・ワッサーシュタイン距離計算のためのリーマンブロック座標Descent法

A Riemannian Block Coordinate Descent Method for Computing the Projection Robust Wasserstein Distance ( http://arxiv.org/abs/2012.05199v3 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma and Lifeng Lai(参考訳) wasserstein距離は、機械学習とディープラーニングにおいてますます重要になっている。 その人気にもかかわらず、ワッサーシュタイン距離は次元の呪いのために近似が難しい。 最近提案された次元の呪いを緩和するためのアプローチは、サンプルデータを高次元確率分布から低次元部分空間に投影し、投影されたデータ間のワッサースタイン距離を計算することである。 しかし、このアプローチはスティフェル多様体上の極小問題を解く必要があり、これは実際は非常に難しい。 この問題を直接解く既存の仕事は、rgas(riemannian gradient ascent with sinkhorn iteration)アルゴリズムのみであり、各イテレーションでエントロピー正規化された最適輸送問題を解く必要があるため、大規模な問題にはコストがかかる。 本稿では,この問題をStiefel多様体上の正規化最大ミン問題の新たな再定式化に基づく,リーマンブロック座標降下法(RBCD)を提案する。 RBCDの算術演算の複雑さから、$\epsilon$-stationar y point は$O(\epsilon^{-3})$であることが示される。 これは RGAS の複雑性を大幅に改善し、これは$O(\epsilon^{-12})$である。 さらに,我々のRBCDは点数当たりの複雑性が非常に低く,大規模な問題に適している。 合成データと実データの両方における数値的な結果から,本手法は既存の手法よりも効率的であることが明らかとなった。

The Wasserstein distance has become increasingly important in machine learning and deep learning. Despite its popularity, the Wasserstein distance is hard to approximate because of the curse of dimensionality. A recently proposed approach to alleviate the curse of dimensionality is to project the sampled data from the high dimensional probability distribution onto a lower-dimensional subspace, and then compute the Wasserstein distance between the projected data. However, this approach requires to solve a max-min problem over the Stiefel manifold, which is very challenging in practice. The only existing work that solves this problem directly is the RGAS (Riemannian Gradient Ascent with Sinkhorn Iteration) algorithm, which requires to solve an entropy-regularized optimal transport problem in each iteration, and thus can be costly for large-scale problems. In this paper, we propose a Riemannian block coordinate descent (RBCD) method to solve this problem, which is based on a novel reformulation of the regularized max-min problem over the Stiefel manifold. We show that the complexity of arithmetic operations for RBCD to obtain an $\epsilon$-stationar y point is $O(\epsilon^{-3})$. This significantly improves the corresponding complexity of RGAS, which is $O(\epsilon^{-12})$. Moreover, our RBCD has very low per-iteration complexity, and hence is suitable for large-scale problems. Numerical results on both synthetic and real datasets demonstrate that our method is more efficient than existing methods, especially when the number of sampled data is very large.
翻訳日:2021-05-16 02:08:48 公開日:2021-01-13
# ヒューマン・コンピュータインタラクション改善のための心理言語特性のベンチマーク自動検出

Benchmarking Automatic Detection of Psycholinguistic Characteristics for Better Human-Computer Interaction ( http://arxiv.org/abs/2012.09692v4 )

ライセンス: Link先を確認
Sanja \v{S}tajner, Seren Yenikent and Marc Franco-Salvador(参考訳) 2人がお互いに注意を払って、相手が言うべきことや書くことに興味がある場合、互いに一致するように書き書き書きスタイルにほぼ即座に適応します。 ユーザとの対話を成功させるためには、チャットボットと対話システムも同じように行う必要がある。 本稿では,人間とコンピュータの相互作用を改善するための5つの心理言語学的テキスト特徴からなる枠組みを提案する。 データ収集に使用されるアノテーションプロセスを説明し,5つのバイナリ分類タスクをベンチマークし,異なるトレーニングサイズとモデルアーキテクチャを実験する。 英語、スペイン語、ドイツ語、中国語、アラビア語で実験を行います。 最高のアーキテクチャはいくつかのベースラインを著しく上回り、言語とタスクによって72%から96%のマクロ平均F1スコアを達成する。 トレーニングデータが少ない場合でも、同様の結果が得られる。 提案するフレームワークは,適切なアーキテクチャを使用すれば,手動でアノテートしたデータが少ない場合でも,さまざまな言語でモデル化が比較的容易であることが証明された。 同時に、既存のチャットボットに適用すれば、ユーザー満足度を向上させる可能性を示した。

When two people pay attention to each other and are interested in what the other has to say or write, they almost instantly adapt their writing/speaking style to match the other. For a successful interaction with a user, chatbots and dialogue systems should be able to do the same. We propose a framework consisting of five psycholinguistic textual characteristics for better human-computer interaction. We describe the annotation processes used for collecting the data, and benchmark five binary classification tasks, experimenting with different training sizes and model architectures. We perform experiments in English, Spanish, German, Chinese, and Arabic. The best architectures noticeably outperform several baselines and achieve macro-averaged F1-scores between 72% and 96% depending on the language and the task. Similar results are achieved even with a small amount of training data. The proposed framework proved to be fairly easy to model for various languages even with small amount of manually annotated data if right architectures are used. At the same time, it showed potential for improving user satisfaction if applied in existing commercial chatbots.
翻訳日:2021-05-02 07:30:14 公開日:2021-01-13
# ShineOn:実用的なビデオベースの仮想衣料試着のためのデザイン選択

ShineOn: Illuminating Design Choices for Practical Video-based Virtual Clothing Try-on ( http://arxiv.org/abs/2012.10495v2 )

ライセンス: Link先を確認
Gaurav Kuppa, Andrew Jong, Vera Liu, Ziwei Liu, and Teng-Sheng Moh(参考訳) 仮想試行は、複雑なオブジェクト転送とシーン構成を評価するニューラルネットワークベンチマークタスクとして関心を集めている。 仮想衣料品の試着に関する最近の研究には、アーキテクチャとデータ表現の選択肢が多数含まれている。 しかし、それぞれの選択の孤立した視覚効果の定量化についてはほとんど明確ではないし、実験的な再現の鍵となるハイパーパラメータの詳細を特定できない。 ShineOnはボトムアップアプローチから試行課題にアプローチし、それぞれの実験の視覚的および定量的効果に光を当てることを目的としています。 仮想衣料試着のためのビデオ合成における効果的な設計選択を分離するための一連の科学的実験を構築した。 具体的には,ビデオ仮想トライオンの定量的・質的性能に及ぼす異なるポーズアノテーション,セルフアテンション層配置,アクティベーション機能の影響について検討した。 DensePoseアノテーションは顔の詳細を向上するだけでなく、メモリ使用量やトレーニング時間を短縮する。 次に、注意層は顔と首の品質を改善する。 最後に,swish や sine のような新しい活性化の魅力にもかかわらず,gelu と relu の活性化関数は実験において最も効果的であることを示した。 結果の再現性をサポートするために、よく組織されたコードベース、ハイパーパラメータ、モデルチェックポイントをリリースします。 われわれの広範な実験とコードは、ビデオ仮想トライオンにおける将来の設計選択に大きな影響を与えることを期待している。 私たちのコードはhttps://github.com/a ndrewjong/ShineOn-Vi rtual-Tryonでアクセスできます。

Virtual try-on has garnered interest as a neural rendering benchmark task to evaluate complex object transfer and scene composition. Recent works in virtual clothing try-on feature a plethora of possible architectural and data representation choices. However, they present little clarity on quantifying the isolated visual effect of each choice, nor do they specify the hyperparameter details that are key to experimental reproduction. Our work, ShineOn, approaches the try-on task from a bottom-up approach and aims to shine light on the visual and quantitative effects of each experiment. We build a series of scientific experiments to isolate effective design choices in video synthesis for virtual clothing try-on. Specifically, we investigate the effect of different pose annotations, self-attention layer placement, and activation functions on the quantitative and qualitative performance of video virtual try-on. We find that DensePose annotations not only enhance face details but also decrease memory usage and training time. Next, we find that attention layers improve face and neck quality. Finally, we show that GELU and ReLU activation functions are the most effective in our experiments despite the appeal of newer activations such as Swish and Sine. We will release a well-organized code base, hyperparameters, and model checkpoints to support the reproducibility of our results. We expect our extensive experiments and code to greatly inform future design choices in video virtual try-on. Our code may be accessed at https://github.com/a ndrewjong/ShineOn-Vi rtual-Tryon.
翻訳日:2021-05-01 18:21:35 公開日:2021-01-13
# (参考訳) 連続作用空間における量子強化学習 [全文訳有]

Quantum reinforcement learning in continuous action space ( http://arxiv.org/abs/2012.10711v2 )

ライセンス: CC BY 4.0
Shaojun Wu, Shan Jin, Dingding Wen, Xiaoting Wang(参考訳) 量子力学は強化学習(RL)を含む機械学習アルゴリズムを高速化する可能性がある。 前回の研究では、量子アルゴリズムは離散的作用空間におけるrl問題を効率的に解くことができるが、連続領域では難解となり、特に離散化による次元の呪いに苦しむことがある。 本研究では,連続行動空間におけるRL問題を次元問題なしで解くことのできる量子回路設計を提案する。 具体的には,量子ニューラルネットワークを用いた決定論的ポリシ勾配法(deep deterministic policy gradient method)の量子バージョンを提案する。 応用として,固有値問題や量子状態生成を含む量子制御タスクを逐次決定問題として定式化し,その解法によって解決できることを実証する。

Quantum mechanics has the potential to speedup machine learning algorithms, including reinforcement learning(RL). Previous works have shown that quantum algorithms can efficiently solve RL problems in discrete action space, but could become intractable in continuous domain, suffering notably from the curse of dimensionality due to discretization. In this work, we propose an alternative quantum circuit design that can solve RL problems in continuous action space without the dimensionality problem. Specifically, we propose a quantum version of the Deep Deterministic Policy Gradient method constructed from quantum neural networks, with the potential advantage of obtaining an exponential speedup in gate complexity for each iteration. As applications, we demonstrate that quantum control tasks, including the eigenvalue problem and quantum state generation, can be formulated as sequential decision problems and solved by our method.
翻訳日:2021-05-01 14:44:44 公開日:2021-01-13
# (参考訳) g2tmn at Constraint@AAAI2021: Exploiting CT-BERT and Ensembling Learning for COVID-19 Fake News Detection [全文訳有]

g2tmn at Constraint@AAAI2021: Exploiting CT-BERT and Ensembling Learning for COVID-19 Fake News Detection ( http://arxiv.org/abs/2012.11967v3 )

ライセンス: CC BY 4.0
Anna Glazkova, Maksim Glazkov, Timofey Trifonov(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、さまざまな人間の生活に多大な影響を与えた。 そのため、新型コロナウイルスのパンデミックとその影響はソーシャルメディア上で積極的に議論されている。 しかし、すべてのソーシャルメディア投稿が真実であるわけではない。 多くは偽ニュースを拡散し、読者の間でパニックを引き起こし、不信感を抱き、パンデミックの影響を悪化させた。 本稿では,Constraint@AAAI2021 Shared Task: COVID-19 Fake News Detection in Englishについて述べる。 特に,トランスフォーマーを用いた COVID-Twitter-BERT (CT-BERT) モデルのアンサンブルを用いたアプローチを提案する。 使用するモデル、テキスト前処理の方法、追加データの追加について説明する。 その結果、最善のモデルは166チームが参加したこの共有タスクのテストセット(リーダボードの第1位)で、重み付きf1-scoreを98.69で達成しました。

The COVID-19 pandemic has had a huge impact on various areas of human life. Hence, the coronavirus pandemic and its consequences are being actively discussed on social media. However, not all social media posts are truthful. Many of them spread fake news that cause panic among readers, misinform people and thus exacerbate the effect of the pandemic. In this paper, we present our results at the Constraint@AAAI2021 Shared Task: COVID-19 Fake News Detection in English. In particular, we propose our approach using the transformer-based ensemble of COVID-Twitter-BERT (CT-BERT) models. We describe the models used, the ways of text preprocessing and adding extra data. As a result, our best model achieved the weighted F1-score of 98.69 on the test set (the first place in the leaderboard) of this shared task that attracted 166 submitted teams in total.
翻訳日:2021-04-26 22:11:57 公開日:2021-01-13
# 選択ラベルによる良いモデルの集合上の公正性の評価

Characterizing Fairness Over the Set of Good Models Under Selective Labels ( http://arxiv.org/abs/2101.00352v2 )

ライセンス: Link先を確認
Amanda Coston and Ashesh Rambachan and Alexandra Chouldechova(参考訳) アルゴリズムによるリスクアセスメントは、さまざまな高リスク設定で意思決定を行い、通知するためにますます使われています。 実際には、「羅生門効果」として知られる経験的現象である同様の総合的な性能をもたらす予測モデルが多数存在することが多い。 多くの競合モデルも同様に振る舞うが、それらは様々な部分群に対して異なる性質を持ち、従って予測的公正性が著しく異なる。 本稿では,同様の全体的な性能を提供するモデル群,すなわち「良いモデルの集合」に対して,予測的公平性特性を特徴付けるフレームワークを開発した。 我々は、到達可能なグループレベルの予測格差の範囲を計算するための抽出可能なアルゴリズムと、良いモデルの集合上での差最小化モデルを提供する。 我々は、観測データの特徴から、選択決定と結果が未確立の環境で、選択的にラベル付けされたデータに対処するために、我々のフレームワークを拡張した。 本手法を実証的な2つの応用例で説明する。 実世界の信用評価タスクでは,ベンチマークモデルよりも予測格差の低いモデルを構築し,選択ラベル問題を適切に考慮する利点を実証する。 recidivism risk predictionタスクでは、既存のリスクスコアを監査し、良質なモデルセットのどのモデルよりも大きな予測の不一致を生み出すことを確認します。

Algorithmic risk assessments are increasingly used to make and inform decisions in a wide variety of high-stakes settings. In practice, there is often a multitude of predictive models that deliver similar overall performance, an empirical phenomenon commonly known as the "Rashomon Effect." While many competing models may perform similarly overall, they may have different properties over various subgroups, and therefore have drastically different predictive fairness properties. In this paper, we develop a framework for characterizing predictive fairness properties over the set of models that deliver similar overall performance, or "the set of good models." We provide tractable algorithms to compute the range of attainable group-level predictive disparities and the disparity minimizing model over the set of good models. We extend our framework to address the empirically relevant challenge of selectively labelled data in the setting where the selection decision and outcome are unconfounded given the observed data features. We illustrate our methods in two empirical applications. In a real world credit-scoring task, we build a model with lower predictive disparities than the benchmark model, and demonstrate the benefits of properly accounting for the selective labels problem. In a recidivism risk prediction task, we audit an existing risk score, and find that it generates larger predictive disparities than any model in the set of good models.
翻訳日:2021-04-13 07:21:33 公開日:2021-01-13
# (参考訳) 否定言語のためのローカル翻訳サービス [全文訳有]

Local Translation Services for Neglected Languages ( http://arxiv.org/abs/2101.01628v2 )

ライセンス: CC BY 4.0
David Noever, Josh Kalin, Matt Ciolino, Dom Hambrick, and Gerry Dozier(参考訳) 計算量的に軽量だが高品質な翻訳者を利用すると、無視された言語を扱う新しいアプリケーションを考えることができる。 人気の低い言語でローカルに実行される翻訳者は、公開翻訳apiに投稿する前に特定のコンプライアンスチェックが必要な保護されたデータや個人データを持つデータプロジェクトを支援することができる。 専門家の方言を扱うのと同様に、この研究は歴史的に興味深いが難解な2つの言語を翻訳している: 1) ハッカーピーク(l33t)と2) レオナルド・ダ・ヴィンチが実践した逆(または「ミラー」)である。 この研究は、lite、medium、hard vocabularyで翻訳可能なhacker-speakにディープラーニングアーキテクチャを一般化している。 オリジナルのコントリビュートでは、50メガバイト未満のハッカー講演の流行った翻訳者が強調され、100万以上のバイリンガル文ペアで将来のデータセットを補完するジェネレータが示されている。 長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。 この研究はさらに26の言語で同等の翻訳問題を解決し、それらのモデルをランク付けし、イタリア語を最も成功し、中国語を最も挑戦的な言語とした。 無視された言語に対しては、Kabyle(アルジェ方言)のようなより小さなニッチな翻訳のための新しいサービスのプロトタイプが作成されている。 1つは、技術的な(医学的または法的)用語の翻訳や健康記録の処理など、他の重要な方言へのこのアプローチの拡張を予想している。

Taking advantage of computationally lightweight, but high-quality translators prompt consideration of new applications that address neglected languages. Locally run translators for less popular languages may assist data projects with protected or personal data that may require specific compliance checks before posting to a public translation API, but which could render reasonable, cost-effective solutions if done with an army of local, small-scale pair translators. Like handling a specialist's dialect, this research illustrates translating two historically interesting, but obfuscated languages: 1) hacker-speak ("l33t") and 2) reverse (or "mirror") writing as practiced by Leonardo da Vinci. The work generalizes a deep learning architecture to translatable variants of hacker-speak with lite, medium, and hard vocabularies. The original contribution highlights a fluent translator of hacker-speak in under 50 megabytes and demonstrates a generator for augmenting future datasets with greater than a million bilingual sentence pairs. The long short-term memory, recurrent neural network (LSTM-RNN) extends previous work demonstrating an English-to-foreign translation service built from as little as 10,000 bilingual sentence pairs. This work further solves the equivalent translation problem in twenty-six additional (non-obfuscated) languages and rank orders those models and their proficiency quantitatively with Italian as the most successful and Mandarin Chinese as the most challenging. For neglected languages, the method prototypes novel services for smaller niche translations such as Kabyle (Algerian dialect) which covers between 5-7 million speakers but one which for most enterprise translators, has not yet reached development. One anticipates the extension of this approach to other important dialects, such as translating technical (medical or legal) jargon and processing health records.
翻訳日:2021-04-11 14:38:45 公開日:2021-01-13
# (参考訳) Constraint 2021: COVID-19フェイクニュース検出共有タスクのための機械学習モデル [全文訳有]

Constraint 2021: Machine Learning Models for COVID-19 Fake News Detection Shared Task ( http://arxiv.org/abs/2101.03717v2 )

ライセンス: CC BY 4.0
Thomas Felber(参考訳) 本稿では,新型コロナウイルス関連ソーシャルメディア投稿を偽か偽かのどちらかに分類する上での課題となる,2021年の「Fake News Detection Shared Task」への貢献について述べる。 本システムでは,古典的機械学習アルゴリズムと,n-gram,可読性,感情的トーン,句読点などの言語的特徴を組み合わせることで,この課題を解決する。 プリプロセッシングの観点からは,ストップワードの除去,ストーミング/レンマティゼーション,リンクの除去など,さまざまなステップを試す。 テストデータから平均95.19%の重み付け平均f1スコアを得られる線形svmをベースとし、リードボードの中央に位置する場所(167箇所中80箇所)に配置した。

In this system paper we present our contribution to the Constraint 2021 COVID-19 Fake News Detection Shared Task, which poses the challenge of classifying COVID-19 related social media posts as either fake or real. In our system, we address this challenge by applying classical machine learning algorithms together with several linguistic features, such as n-grams, readability, emotional tone and punctuation. In terms of pre-processing, we experiment with various steps like stop word removal, stemming/lemmatizati on, link removal and more. We find our best performing system to be based on a linear SVM, which obtains a weighted average F1 score of 95.19% on test data, which lands a place in the middle of the leaderboard (place 80 of 167).
翻訳日:2021-04-04 20:26:44 公開日:2021-01-13
# Deeplite Neutrino: 制約付きディープラーニングモデル最適化のためのエンドツーエンドフレームワーク

Deeplite Neutrino: An End-to-End Framework for Constrained Deep Learning Model Optimization ( http://arxiv.org/abs/2101.04073v2 )

ライセンス: Link先を確認
Anush Sankaran, Olivier Mastropietro, Ehsan Saboori, Yasser Idris, Davis Sawyer, MohammadHossein AskariHemmat, Ghouthi Boukli Hacene(参考訳) ディープラーニングベースのソリューションの設計は、より多くのレイヤを持つより深いモデルをトレーニングするためのレースになりつつある。 大規模な深層モデルは、競合の正確さをもたらす可能性があるが、開発とデプロイメントの間に多くのロジスティックな課題と不合理なリソース要件を生み出している。 これは、ディープラーニングモデルがさまざまなプロダクション環境、特にエッジデバイスで過剰に使われていない主な理由の1つです。 デバイス上のインテリジェンスを実現するために、これらのディープラーニングモデルを最適化し、圧縮する必要がある。 本研究では,ディープラーニングモデルのプロダクション対応最適化のためのブラックボックスフレームワークであるDeeplite Neutrinoを紹介する。 このフレームワークは、最適化されたモデルの精度の低下やターゲットサイズなどの制約をエンドユーザが簡単に提供し、最適化プロセス全体をガイドするメカニズムを提供する。 フレームワークは既存のプロダクションパイプラインに簡単に組み込むことができ、Python Packageとして利用可能で、PyTorchとTensorflowライブラリをサポートする。 フレームワークの最適化性能は、複数のベンチマークデータセットと人気のあるディープラーニングモデルで示されている。 さらに、このフレームワークは現在本番環境で使用されており、いくつかのクライアントによる結果と証言が要約されている。

Designing deep learning-based solutions is becoming a race for training deeper models with a greater number of layers. While a large-size deeper model could provide competitive accuracy, it creates a lot of logistical challenges and unreasonable resource requirements during development and deployment. This has been one of the key reasons for deep learning models not being excessively used in various production environments, especially in edge devices. There is an immediate requirement for optimizing and compressing these deep learning models, to enable on-device intelligence. In this research, we introduce a black-box framework, Deeplite Neutrino for production-ready optimization of deep learning models. The framework provides an easy mechanism for the end-users to provide constraints such as a tolerable drop in accuracy or target size of the optimized models, to guide the whole optimization process. The framework is easy to include in an existing production pipeline and is available as a Python Package, supporting PyTorch and Tensorflow libraries. The optimization performance of the framework is shown across multiple benchmark datasets and popular deep learning models. Further, the framework is currently used in production and the results and testimonials from several clients are summarized.
翻訳日:2021-04-04 14:51:14 公開日:2021-01-13
# 多視点プログレッシブサブスペースクラスタリングのための深い対立的不整合認知サンプリング

Deep Adversarial Inconsistent Cognitive Sampling for Multi-view Progressive Subspace Clustering ( http://arxiv.org/abs/2101.03783v2 )

ライセンス: Link先を確認
Renhao Sun, Yang Wang, Zhao Zhang, Richang Hong, and Meng Wang(参考訳) ディープマルチビュークラスタリングは驚くべきパフォーマンスを達成している。 しかし、これら全てはマルチビューサンプルの難易度ラベル(トレーニングサンプルの真偽の確認)を考慮せず、トレーニングプロセス中に悪いローカルオプティマに固執する非理想的クラスタリングネットワークになる可能性があり、さらに悪いことに、マルチビューサンプルからの難易度ラベルは常に一貫性に欠けるため、処理がさらに困難になる。 本稿では,多視点プログレッシブ・サブスペースクラスタリングのための新しい深層非整合認知サンプリング(daics)法を提案する。 マルチビュー一貫したサンプルの難易度ラベルを克服する対向ミニマックスゲームを通して、バイナリ分類器と深い一貫した特徴埋め込みネットワークを共同学習するために、多視点二分分類(容易か困難か)損失と特徴類似性損失を提案する。 マルチビュークラスタリングネットワークトレーニングにおいて,入力サンプルを容易から困難に選択するための多視点認知サンプリング戦略を開発した。 しかし、簡単で難しいサンプルの分布は混ざり合っており、目的を達成するのに簡単なものではない。 これを解決するため,理論的保証付きサンプリング確率を定義した。 これに基づいてゴールデンセクション機構はさらにサンプルセット境界を生成し、ゲートユニットを介して様々な難易度ラベルを持つサンプルを段階的に選択し、より効率的なクラスタリングのためにマルチビュー共通プログレッシブサブスペースとクラスタリングネットワークを共同学習する。 4つの実世界のデータセットの実験結果は、最先端の手法よりもDAICSの方が優れていることを示している。

Deep multi-view clustering methods have achieved remarkable performance. However, all of them failed to consider the difficulty labels (uncertainty of ground-truth for training samples) over multi-view samples, which may result into a nonideal clustering network for getting stuck into poor local optima during training process; worse still, the difficulty labels from multi-view samples are always inconsistent, such fact makes it even more challenging to handle. In this paper, we propose a novel Deep Adversarial Inconsistent Cognitive Sampling (DAICS) method for multi-view progressive subspace clustering. A multiview binary classification (easy or difficult) loss and a feature similarity loss are proposed to jointly learn a binary classifier and a deep consistent feature embedding network, throughout an adversarial minimax game over difficulty labels of multiview consistent samples. We develop a multi-view cognitive sampling strategy to select the input samples from easy to difficult for multi-view clustering network training. However, the distributions of easy and difficult samples are mixed together, hence not trivial to achieve the goal. To resolve it, we define a sampling probability with theoretical guarantee. Based on that, a golden section mechanism is further designed to generate a sample set boundary to progressively select the samples with varied difficulty labels via a gate unit, which is utilized to jointly learn a multi-view common progressive subspace and clustering network for more efficient clustering. Experimental results on four real-world datasets demonstrate the superiority of DAICS over the state-of-the-art methods.
翻訳日:2021-04-04 14:42:38 公開日:2021-01-13
# 自律運転における対向攻撃に対する意味セグメンテーションネットワークの脆弱性:広範な環境センシングの強化

The Vulnerability of Semantic Segmentation Networks to Adversarial Attacks in Autonomous Driving: Enhancing Extensive Environment Sensing ( http://arxiv.org/abs/2101.03924v2 )

ライセンス: Link先を確認
Andreas B\"ar, Jonas L\"ohdefink, Nikhil Kapoor, Serin J. Varghese, Fabian H\"uger, Peter Schlicht, Tim Fingscheidt(参考訳) 自律運転(AD)の実現は,今日のテクノロジにおける最大の課題のひとつだと考えることができる。 ADはいくつかの機能によって達成される複雑なタスクであり、環境認識はその中核機能の一つである。 環境認識は通常、複数のセンサー、すなわちライダーやカメラが捉えた意味情報を組み合わせることで行われる。 各センサからのセマンティック情報は、畳み込みニューラルネットワーク(CNN)を用いて高密度予測により抽出することができる。 これまでcnnは、カメラが提供した赤緑色(rgb)画像のみを使用してトラフィックシーンをセマンティクスセグメンテーションするなど、視覚関連のタスクで常に最先端のパフォーマンスを見せていた。 CNNはクリーンな画像で最先端のパフォーマンスを得るが、逆境の摂動と呼ばれる入力に対するほとんど知覚できない変化は致命的な騙しにつながる可能性がある。 この記事の目的は、敵の攻撃に関して意味セグメンテーションに使用されるcnnの脆弱性側面を照らし、既存の敵防御戦略に関する洞察を共有することである。 今後の研究のモチベーションとして,ADにおける環境認識にCNNを適用することのメリットとデメリットを明らかにすることを目的とする。

Enabling autonomous driving (AD) can be considered one of the biggest challenges in today's technology. AD is a complex task accomplished by several functionalities, with environment perception being one of its core functions. Environment perception is usually performed by combining the semantic information captured by several sensors, i.e., lidar or camera. The semantic information from the respective sensor can be extracted by using convolutional neural networks (CNNs) for dense prediction. In the past, CNNs constantly showed state-of-the-art performance on several vision-related tasks, such as semantic segmentation of traffic scenes using nothing but the red-green-blue (RGB) images provided by a camera. Although CNNs obtain state-of-the-art performance on clean images, almost imperceptible changes to the input, referred to as adversarial perturbations, may lead to fatal deception. The goal of this article is to illuminate the vulnerability aspects of CNNs used for semantic segmentation with respect to adversarial attacks, and share insights into some of the existing known adversarial defense strategies. We aim to clarify the advantages and disadvantages associated with applying CNNs for environment perception in AD to serve as a motivation for future research in this field.
翻訳日:2021-04-04 14:40:25 公開日:2021-01-13
# Covid19フェイクニュース検出のためのディープラーニング手法の評価

Evaluating Deep Learning Approaches for Covid19 Fake News Detection ( http://arxiv.org/abs/2101.04012v2 )

ライセンス: Link先を確認
Apurva Wani, Isha Joshi, Snehal Khandve, Vedangi Wagh, Raviraj Joshi(参考訳) facebook、twitter、instagramなどのソーシャルメディアプラットフォームは、大規模な接続とコミュニケーションを可能にした。 情報の共有率に革命をもたらし、そのリーチを拡大した。 しかし、硬貨の別の側面は不安な話を起こさせる。 これらのプラットフォームはフェイクニュースの作成と拡散に繋がった。 この偽ニュースは、間違った方向の人々に影響を与えただけでなく、人間の生活にも影響を与えた。 コビッド19のパンデミックにおいて、人々を誤解させ、致命的な情報を信じさせるのは容易である。 したがって、情報源で偽ニュースを抑え、大観衆に広まるのを防ぐことが重要である。 データマイニングの観点から,偽ニュース検出のための自動化手法を検討する。 contraint@aaai 2021 covid-19 偽ニュース検出データセット上で,様々な教師付きテキスト分類アルゴリズムを評価した。 分類アルゴリズムは、畳み込みニューラルネットワーク(CNN)、長短記憶(LSTM)、および変換器からの双方向エンコーダ表現(BERT)に基づいている。 また,教師なし学習の重要性を,未ラベルのcovid-19ツイートコーパスを用いた言語モデルの事前学習と分散表現の形で評価した。 我々は、Covid-19 Fakeニュース検出データセットで98.41\%の最高の精度を報告した。

Social media platforms like Facebook, Twitter, and Instagram have enabled connection and communication on a large scale. It has revolutionized the rate at which information is shared and enhanced its reach. However, another side of the coin dictates an alarming story. These platforms have led to an increase in the creation and spread of fake news. The fake news has not only influenced people in the wrong direction but also claimed human lives. During these critical times of the Covid19 pandemic, it is easy to mislead people and make them believe in fatal information. Therefore it is important to curb fake news at source and prevent it from spreading to a larger audience. We look at automated techniques for fake news detection from a data mining perspective. We evaluate different supervised text classification algorithms on Contraint@AAAI 2021 Covid-19 Fake news detection dataset. The classification algorithms are based on Convolutional Neural Networks (CNN), Long Short Term Memory (LSTM), and Bidirectional Encoder Representations from Transformers (BERT). We also evaluate the importance of unsupervised learning in the form of language model pre-training and distributed word representations using unlabelled covid tweets corpus. We report the best accuracy of 98.41\% on the Covid-19 Fake news detection dataset.
翻訳日:2021-04-04 14:30:25 公開日:2021-01-13
# (参考訳) 救急車位置問題を解決する深層強化学習エージェントのテストのためのopenaiジム対応フレームワークとシミュレーション環境の開発 [全文訳有]

Developing an OpenAI Gym-compatible framework and simulation environment for testing Deep Reinforcement Learning agents solving the Ambulance Location Problem ( http://arxiv.org/abs/2101.04434v2 )

ライセンス: CC BY 4.0
Michael Allen, Kerry Pearn and Tom Monks(参考訳) 背景と動機: 深層強化学習(Deep RL)は急速に発展している分野です。 歴史的に、ほとんどの応用はゲーム(チェス、atariゲーム、goなど)に行われている。 Deep RLは現在、医療システムの最適化など、現実世界の問題に価値を提供する段階に達している。 そのような問題の1つは、緊急呼び出しから救急車への緊急呼び出しまでの時間を最小化するために、呼び出し間の救急車の配置がどこにあるかである。 これは救急車の場所問題として知られている。 Aim: Deep RLエージェントをテストするためのOpenAI Gym互換フレームワークとシミュレーション環境を開発する。 方法: OpenAI Gym と SimPy を用いた独自の救急搬送シミュレーション環境を開発した。 ディープRLエージェントはPyTorchを使用して構築された。 環境は現実世界を単純化したものですが、インシデント場所のクラスタ数、送信可能な場所の数、病院の数、そして毎日異なる場所で発生したインシデントの生成を制御できます。 結果: このカスタム環境では,深いqネットワークに基づく深いrlエージェントがテストされた。 緊急呼び出しに応答する時間はすべて、ディスパッチポイントへのランダムな割り当てに比べます。 Bagging Noisy Duelling Deep Q ネットワークは最も構成性能が高かった。 すべてのメソッドは、トレーニングが長すぎるとパフォーマンスが低下する傾向があり、エージェントは最適なパフォーマンスで保存され、独立したシミュレーション実行でテストされた。 結論: シミュレーション環境を用いて開発された深層rlエージェントは, 救急車位置問題を最適化するための新しいアプローチを提供する可能性がある。 オープンシミュレーション環境の構築は、この分野のより迅速な進展を可能にするだろう。

Background and motivation: Deep Reinforcement Learning (Deep RL) is a rapidly developing field. Historically most application has been made to games (such as chess, Atari games, and go). Deep RL is now reaching the stage where it may offer value in real world problems, including optimisation of healthcare systems. One such problem is where to locate ambulances between calls in order to minimise time from emergency call to ambulance on-scene. This is known as the Ambulance Location problem. Aim: To develop an OpenAI Gym-compatible framework and simulation environment for testing Deep RL agents. Methods: A custom ambulance dispatch simulation environment was developed using OpenAI Gym and SimPy. Deep RL agents were built using PyTorch. The environment is a simplification of the real world, but allows control over the number of clusters of incident locations, number of possible dispatch locations, number of hospitals, and creating incidents that occur at different locations throughout each day. Results: A range of Deep RL agents based on Deep Q networks were tested in this custom environment. All reduced time to respond to emergency calls compared with random allocation to dispatch points. Bagging Noisy Duelling Deep Q networks gave the most consistence performance. All methods had a tendency to lose performance if trained for too long, and so agents were saved at their optimal performance (and tested on independent simulation runs). Conclusions: Deep RL agents, developed using simulated environments, have the potential to offer a novel approach to optimise the Ambulance Location problem. Creating open simulation environments should allow more rapid progress in this field.
翻訳日:2021-04-04 08:36:57 公開日:2021-01-13
# FaceX-Zoo:顔認識のためのPyTorchツールボックス

FaceX-Zoo: A PyTorch Toolbox for Face Recognition ( http://arxiv.org/abs/2101.04407v2 )

ライセンス: Link先を確認
Jun Wang, Yinglu Liu, Yibo Hu, Hailin Shi and Tao Mei(参考訳) 近年,ディープラーニングに基づく顔認識は大きな進歩を遂げている。 しかし、実際のモデル作成と深層顔認識のさらなる研究は、対応する公的支援を大いに必要としている。 For example, the production of face representation network desires a modular training scheme to consider the proper choice from various candidates of state-of-the-art backbone and training supervision subject to the real-world face recognition demand; for performance analysis and comparison, the standard and automatic evaluation with a bunch of models on multiple benchmarks will be a desired tool as well; besides, a public groundwork is welcomed for deploying the face recognition in the shape of holistic pipeline. さらに、新型コロナウイルス(covid-19)の世界的なパンデミックによるマスク付き顔認識など、実用化に注目が集まっている新たな課題もある。 実現可能でエレガントな解決策は、上記の要求を満たすために簡単に使える統一フレームワークを構築することです。 そこで我々は,顔認識の研究開発コミュニティを指向した,新たなオープンソースフレームワークFaceX-Zooを紹介した。 高度にモジュール化されたスケーラブルな設計に代わり、FaceX-Zooは、最先端の顔認識に向けた様々なスーパーバイザリーヘッドとバックボーンを備えたトレーニングモジュールと、単純な構成を編集するだけで、人気のあるベンチマークのほとんどのモデルを評価するための標準化された評価モジュールを提供する。 また、訓練されたモデルの検証と主要な応用のために、シンプルで完全に機能するface sdkが提供されている。 従来のテクニックを可能な限り多く含めるのではなく、顔関連ドメインの開発とともに、FaceX-Zooを簡単にアップグレードおよび拡張できるようにします。 ソースコードとモデルはhttps://github.com/j dai-cv/facex-zooで入手できる。

Deep learning based face recognition has achieved significant progress in recent years. Yet, the practical model production and further research of deep face recognition are in great need of corresponding public support. For example, the production of face representation network desires a modular training scheme to consider the proper choice from various candidates of state-of-the-art backbone and training supervision subject to the real-world face recognition demand; for performance analysis and comparison, the standard and automatic evaluation with a bunch of models on multiple benchmarks will be a desired tool as well; besides, a public groundwork is welcomed for deploying the face recognition in the shape of holistic pipeline. Furthermore, there are some newly-emerged challenges, such as the masked face recognition caused by the recent world-wide COVID-19 pandemic, which draws increasing attention in practical applications. A feasible and elegant solution is to build an easy-to-use unified framework to meet the above demands. To this end, we introduce a novel open-source framework, named FaceX-Zoo, which is oriented to the research-development community of face recognition. Resorting to the highly modular and scalable design, FaceX-Zoo provides a training module with various supervisory heads and backbones towards state-of-the-art face recognition, as well as a standardized evaluation module which enables to evaluate the models in most of the popular benchmarks just by editing a simple configuration. Also, a simple yet fully functional face SDK is provided for the validation and primary application of the trained models. Rather than including as many as possible of the prior techniques, we enable FaceX-Zoo to easily upgrade and extend along with the development of face related domains. The source code and models are available at https://github.com/J DAI-CV/FaceX-Zoo.
翻訳日:2021-04-04 01:44:15 公開日:2021-01-13
# (参考訳) mlgo: 機械学習によるコンパイラ最適化フレームワーク [全文訳有]

MLGO: a Machine Learning Guided Compiler Optimizations Framework ( http://arxiv.org/abs/2101.04808v1 )

ライセンス: CC BY 4.0
Mircea Trofin (1), Yundi Qian (1), Eugene Brevdo (1), Zinan Lin (2), Krzysztof Choromanski (1), David Li (1) ((1) Google, Inc., (2) Carnegie Mellon University)(参考訳) コンパイラ最適化のための機械学習(ML)技術の導入は、学界で広く研究され研究されている。 しかし、MLを汎用的で産業力のあるコンパイラに採用することは、まだない。 産業用コンパイラLLVMにMLテクニックを体系的に統合するフレームワークであるMLGOを提案する。 ケーススタディでは、LLVMにおけるヒューリスティックスに基づくインライン・フォー・サイズ最適化を機械学習モデルに置き換える詳細と結果を示す。 私たちの知る限りでは、この作業は、複雑なコンパイラにおけるMLの完全な統合を現実の環境で実現した初めてのものです。 これは、メインのLLVMリポジトリで利用できる。 我々は、ポリシーグラディエントと進化戦略の2つの異なるMLアルゴリズムを使用して、インライン・フォー・サイズモデルをトレーニングし、アートLLVM-Ozの状態と比較して最大7倍のサイズの縮小を実現しています。 1つのコーパスでトレーニングされた同じモデルは、現実世界のターゲットの多様性と、数ヶ月のアクティブな開発後に同じターゲットのセットを一般化する。 トレーニングされたモデルのこの特性は、実世界の設定でMLテクニックをデプロイする上で有益である。

Leveraging machine-learning (ML) techniques for compiler optimizations has been widely studied and explored in academia. However, the adoption of ML in general-purpose, industry strength compilers has yet to happen. We propose MLGO, a framework for integrating ML techniques systematically in an industrial compiler -- LLVM. As a case study, we present the details and results of replacing the heuristics-based inlining-for-size optimization in LLVM with machine learned models. To the best of our knowledge, this work is the first full integration of ML in a complex compiler pass in a real-world setting. It is available in the main LLVM repository. We use two different ML algorithms: Policy Gradient and Evolution Strategies, to train the inlining-for-size model, and achieve up to 7\% size reduction, when compared to state of the art LLVM -Oz. The same model, trained on one corpus, generalizes well to a diversity of real-world targets, as well as to the same set of targets after months of active development. This property of the trained models is beneficial to deploy ML techniques in real-world settings.
翻訳日:2021-04-03 23:34:56 公開日:2021-01-13
# (参考訳) AutoMLは? 機械学習ワークフローにおけるオートメーションの役割を理解する [全文訳有]

Whither AutoML? Understanding the Role of Automation in Machine Learning Workflows ( http://arxiv.org/abs/2101.04834v1 )

ライセンス: CC BY 4.0
Doris Xin, Eva Yiwei Wu, Doris Jung-Lin Lee, Niloufar Salehi, Aditya Parameswaran(参考訳) 機械学習をより広く利用できるようにする努力は、機械学習のトレーニングとデプロイのプロセスを自動化することを目的としたAuto-MLツールの急速な増加につながった。 今日、Auto-MLツールが実際にどのように使われているかを理解するために、初心者ホビーストからAuto-MLツールを使用する業界研究者まで、参加者と質的研究を行った。 我々は、既存のツールの利点と欠陥に関する洞察と、MLワークフローにおける人間と自動化の役割について述べる。 最後に,Auto-MLツール開発の将来について考察する。 完全な自動化がAuto-MLの究極の目標である代わりに、これらのツールの設計者は、ユーザとAuto-MLツールとのパートナーシップをサポートすることに集中する必要があります。 つまり、シンプルさ、再現性、信頼性など、さまざまなユーザ目標をサポートするために、さまざまなAuto-MLツールを開発する必要がある。

Efforts to make machine learning more widely accessible have led to a rapid increase in Auto-ML tools that aim to automate the process of training and deploying machine learning. To understand how Auto-ML tools are used in practice today, we performed a qualitative study with participants ranging from novice hobbyists to industry researchers who use Auto-ML tools. We present insights into the benefits and deficiencies of existing tools, as well as the respective roles of the human and automation in ML workflows. Finally, we discuss design implications for the future of Auto-ML tool development. We argue that instead of full automation being the ultimate goal of Auto-ML, designers of these tools should focus on supporting a partnership between the user and the Auto-ML tool. This means that a range of Auto-ML tools will need to be developed to support varying user goals such as simplicity, reproducibility, and reliability.
翻訳日:2021-04-03 23:00:51 公開日:2021-01-13
# (参考訳) 積分型ランドマーク注意によるロバストGPSビジョン位置決め [全文訳有]

Robust GPS-Vision Localization via Integrity-Driven Landmark Attention ( http://arxiv.org/abs/2101.04836v1 )

ライセンス: CC BY 4.0
Sriramya Bhamidipati and Grace Xingxin Gao(参考訳) 都市部におけるロバストGPSビジョンナビゲーションのために,確率的到達性を利用した統合性駆動型ランドマーク注意(ILA)手法を提案する。 ヒトの認知的注意に刺激されて、GPSと視力測定からランドマークのサブセットを選択するために凸最適化を行い、完全性駆動性能を最大化する。 非デフォルト条件での既知の測定誤差を考慮に入れれば、我々のIAAはGPSと視覚の両方に対処するための統一的なアプローチに従っており、市販の推定装置と互換性がある。 確率的ゾノトープ (p-Zonotope) によりパラメータ化されるランドマーク毎の確率的到達可能な位置のセットを推定するために, 測定偏差を分析した。 ランドマーク包含/排他性に基づく位置境界の大きさを表すp-ゾノトピーコストを定式化するために集合結合を適用する。 p-Zonotopicコストを最小化し,凸緩和によるランドマーク数を最大化する。 都市域のデータセットに対して,事前定義された警報限界に対する局所化精度の向上とロバストな予測可用性を示す。

For robust GPS-vision navigation in urban areas, we propose an Integrity-driven Landmark Attention (ILA) technique via stochastic reachability. Inspired by cognitive attention in humans, we perform convex optimization to select a subset of landmarks from GPS and vision measurements that maximizes integrity-driven performance. Given known measurement error bounds in non-faulty conditions, our ILA follows a unified approach to address both GPS and vision faults and is compatible with any off-the-shelf estimator. We analyze measurement deviation to estimate the stochastic reachable set of expected position for each landmark, which is parameterized via probabilistic zonotope (p-Zonotope). We apply set union to formulate a p-Zonotopic cost that represents the size of position bounds based on landmark inclusion/exclusion. We jointly minimize the p-Zonotopic cost and maximize the number of landmarks via convex relaxation. For an urban dataset, we demonstrate improved localization accuracy and robust predicted availability for a pre-defined alert limit.
翻訳日:2021-04-03 22:31:06 公開日:2021-01-13
# (参考訳) top-kレコメンデーションのための適応マージンを用いた確率的メトリック学習 [全文訳有]

Probabilistic Metric Learning with Adaptive Margin for Top-K Recommendation ( http://arxiv.org/abs/2101.04849v1 )

ライセンス: CC BY 4.0
Chen Ma, Liheng Ma, Yingxue Zhang, Ruiming Tang, Xue Liu and Mark Coates(参考訳) パーソナライズされたレコメンデーションシステムは、より多くのコンテンツやサービスが利用可能になり、ユーザーが関心のあるものを特定するのに苦労するにつれて、ますます重要な役割を担っている。 行列分解と深層学習に基づく手法は, ユーザの嗜好モデリングに有効であることが証明されているが, 三角形の不等式に反し, きめ細かい選好情報の取得に失敗している。 この課題を解決するために,各ユーザと項目がガウス分布によってパラメータ化され,学習の不確実性を捉えること,(ii)異なるトレーニング三重項に関するマージンを生成する適応的マージン生成スキームを提案すること,(iii)明示的なユーザ・ユーザ・イテム類似性モデリングを目的関数に組み込むこと,の2つの新しい側面を持つ距離ベースレコメンデーションモデルを開発する。 ワッサースタイン距離は三角不等式に従い確率分布間の距離を測定するため、選好を決定するために用いられる。 提案したモデルでは,5つの実世界のデータセットと最先端の手法を比較して,Top-Kレコメンデーションにおけるリコール@Kで,最高の既存モデルを4~22%上回った。

Personalized recommender systems are playing an increasingly important role as more content and services become available and users struggle to identify what might interest them. Although matrix factorization and deep learning based methods have proved effective in user preference modeling, they violate the triangle inequality and fail to capture fine-grained preference information. To tackle this, we develop a distance-based recommendation model with several novel aspects: (i) each user and item are parameterized by Gaussian distributions to capture the learning uncertainties; (ii) an adaptive margin generation scheme is proposed to generate the margins regarding different training triplets; (iii) explicit user-user/item-item similarity modeling is incorporated in the objective function. The Wasserstein distance is employed to determine preferences because it obeys the triangle inequality and can measure the distance between probabilistic distributions. Via a comparison using five real-world datasets with state-of-the-art methods, the proposed model outperforms the best existing models by 4-22% in terms of recall@K on Top-K recommendation.
翻訳日:2021-04-03 22:08:58 公開日:2021-01-13
# (参考訳) 対立サンプル強化ドメイン適応 : 電子健康記録を用いた予測モデリングの一事例 [全文訳有]

Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records ( http://arxiv.org/abs/2101.04853v1 )

ライセンス: CC0 1.0
Yiqin Yu, Pin-Yu Chen, Yuan Zhou, Jing Mei(参考訳) 電子健康記録(EHR)における機械学習の採用が成功し、様々な臨床問題に対処するために多くの計算モデルが導入された。 しかし, EHRsの不均一性のため, 異なる患者群で訓練されたモデルは, 一般化性に乏しい。 モデルが構築されているソース患者グループと、モデルがデプロイされるターゲットグループとのドメインシフトを緩和する方法は、重要な問題になります。 本稿では,対象者に対するトレーニングモデルにおいて,ソース患者グループからの知識を活用する,ドメイン適応を容易にするデータ拡張手法を提案する。 具体的には、2つの患者群間の一般化ギャップを埋めるために、ドメイン適応中に逆向きに生成されたサンプルを使用する。 提案手法はMIMIC-III EHRデータセット上での様々な予測モデルタスクのケーススタディにより評価される。 その結果,提案手法の有効性と課題に対する一般性が確認された。

With the successful adoption of machine learning on electronic health records (EHRs), numerous computational models have been deployed to address a variety of clinical problems. However, due to the heterogeneity of EHRs, models trained on different patient groups suffer from poor generalizability. How to mitigate domain shifts between the source patient group where the model is built upon and the target one where the model will be deployed becomes a critical issue. In this paper, we propose a data augmentation method to facilitate domain adaptation, which leverages knowledge from the source patient group when training model on the target one. Specifically, adversarially generated samples are used during domain adaptation to fill the generalization gap between the two patient groups. The proposed method is evaluated by a case study on different predictive modeling tasks on MIMIC-III EHR dataset. Results confirm the effectiveness of our method and the generality on different tasks.
翻訳日:2021-04-03 21:33:44 公開日:2021-01-13
# (参考訳) 針ステアリングにおける繰り返しニューラルネットワークによるロール推定 [全文訳有]

A Recurrent Neural Network Approach to Roll Estimation for Needle Steering ( http://arxiv.org/abs/2101.04856v1 )

ライセンス: CC BY 4.0
Maxwell Emerson, James M. Ferguson, Tayfun Efe Ertop, Margaret Rox, Josephine Granna, Michael Lester, Fabien Maldonado, Erin A. Gillaspie, Ron Alterovitz, Robert J. Webster III., and Alan Kuntz(参考訳) ステアブル・ニードル(steerable needles)は、解剖学的障害の周りを曲がり、解剖学的標的にぶつかることができるため、最小限の侵襲的な方法で身体に標的治療を提供する有望な技術である。 正確に操縦するためには、制御装置は針先の位置を十分に知る必要がある。 しかし、現在のセンサーは完全な向き情報を提供していないか、針が治療を行う能力に干渉する。 さらに、ねじれのダイナミクスは、操作可能な針を正確にモデル化することが難しい多くのパラメータに依存し、従来のオブザーバー法の有効性を制限できる。 これらの制限を克服するために,LSTMニューラルネットワークを利用して針先方向をオンラインで推定するモデルレス学習手法を提案する。 本手法はスライディングモードコントローラに統合し,ゼラチンおよび卵子外脳組織の標的に針を操ることで検証する。 提案手法の性能をモデルベースオブザーバである拡張カルマンフィルタと比較し,ターゲット誤差を大幅に低減した。

Steerable needles are a promising technology for delivering targeted therapies in the body in a minimally-invasive fashion, as they can curve around anatomical obstacles and hone in on anatomical targets. In order to accurately steer them, controllers must have full knowledge of the needle tip's orientation. However, current sensors either do not provide full orientation information or interfere with the needle's ability to deliver therapy. Further, torsional dynamics can vary and depend on many parameters making steerable needles difficult to accurately model, limiting the effectiveness of traditional observer methods. To overcome these limitations, we propose a model-free, learned-method that leverages LSTM neural networks to estimate the needle tip's orientation online. We validate our method by integrating it into a sliding-mode controller and steering the needle to targets in gelatin and ex vivo ovine brain tissue. We compare our method's performance against an Extended Kalman Filter, a model-based observer, achieving significantly lower targeting errors.
翻訳日:2021-04-03 21:21:30 公開日:2021-01-13
# (参考訳) A*HAR: クラス不均衡な人間活動認識のための半教師あり学習のための新しいベンチマーク [全文訳有]

A*HAR: A New Benchmark towards Semi-supervised learning for Class-imbalanced Human Activity Recognition ( http://arxiv.org/abs/2101.04859v1 )

ライセンス: CC BY 4.0
Govind Narasimman, Kangkang Lu, Arun Raja, Chuan Sheng Foo, Mohamed Sabry Aly, Jie Lin, Vijay Chandrasekhar(参考訳) ウェアラブル慣性センサーデータを用いたHAR(Human Activity Recognition)に関する膨大な文献があるにもかかわらず、HARのための半教師付き学習の研究は、特にクラス不均衡の問題のある挑戦的なシナリオにおいて、おそらく少ないだろう。 本研究では,クラス不均衡HARの半教師付き学習に向けて,A*HARと呼ばれる新しいベンチマークを提案する。 平均教師と畳み込みニューラルネットワークを組み合わせることで,A*HARにおける最先端半教師付き学習手法の評価を行った。 興味深いことに,比較的少ないラベル付きサンプルと大量のラベル付きサンプルで分類器を訓練する場合,平均教師は全体的な性能を向上させるが,非バランスなアクティビティを扱う場合には分類器は不足する。 これらの発見は興味深いオープン問題、すなわちラベルなしサンプルのクラス分布に関する事前の知識なしにクラス不均衡を認識できる半教師付きharアルゴリズムの開発に繋がる。 データセットとベンチマーク評価は、将来の研究のためにhttps://github.com/I 2RDL2/ASTAR-HARでリリースされている。

Despite the vast literature on Human Activity Recognition (HAR) with wearable inertial sensor data, it is perhaps surprising that there are few studies investigating semisupervised learning for HAR, particularly in a challenging scenario with class imbalance problem. In this work, we present a new benchmark, called A*HAR, towards semisupervised learning for class-imbalanced HAR. We evaluate state-of-the-art semi-supervised learning method on A*HAR, by combining Mean Teacher and Convolutional Neural Network. Interestingly, we find that Mean Teacher boosts the overall performance when training the classifier with fewer labelled samples and a large amount of unlabeled samples, but the classifier falls short in handling unbalanced activities. These findings lead to an interesting open problem, i.e., development of semi-supervised HAR algorithms that are class-imbalance aware without any prior knowledge on the class distribution for unlabeled samples. The dataset and benchmark evaluation are released at https://github.com/I 2RDL2/ASTAR-HAR for future research.
翻訳日:2021-04-03 21:12:19 公開日:2021-01-13
# (参考訳) 5g+モバイル端末上でのエネルギー効率のよい連合学習に向けて [全文訳有]

Towards Energy Efficient Federated Learning over 5G+ Mobile Devices ( http://arxiv.org/abs/2101.04866v1 )

ライセンス: CC BY 4.0
Dian Shi, Liang Li, Rui Chen, Pavana Prakash, Miao Pan, Yuguang Fang(参考訳) 機械学習アルゴリズム、5G以降の(5G+)無線通信、人工知能(AI)ハードウェア実装の継続的な収束により、5G以上のモバイルデバイス上でのフェデレーション学習(FL)の誕生が促進され、AI機能をモバイルデバイスにプッシュし、デバイス上でAIアプリケーションの新しい時代が始まる。 FLの顕著な進歩にもかかわらず、巨大なエネルギー消費は、電池に制約された5G以上のモバイルデバイスよりもFLの開発を制限する最も重要な障害の1つである。 本稿では,5g+モバイル端末上でのエネルギー効率の向上を図るために,「作業」(すなわちローカルコンピューティング)と「会話」(すなわち無線通信)のトレードオフを行うことにより,エネルギー効率の高いflを5g+モバイル端末上で開発する方法を検討する。 具体的には,グラフィックス処理ユニット(GPU)計算と無線伝送のエネルギー消費モデルについて検討する。 次に,FL法とエネルギー効率の学習技術(勾配スペーシング,重み量子化,プルーニングなど)を統合する技術の現状について概説する。 最後に, エネルギー効率の観点から, 5g以上のモバイルデバイスにおけるflの将来研究の方向性について述べる。

The continuous convergence of machine learning algorithms, 5G and beyond (5G+) wireless communications, and artificial intelligence (AI) hardware implementation hastens the birth of federated learning (FL) over 5G+ mobile devices, which pushes AI functions to mobile devices and initiates a new era of on-device AI applications. Despite the remarkable progress made in FL, huge energy consumption is one of the most significant obstacles restricting the development of FL over battery-constrained 5G+ mobile devices. To address this issue, in this paper, we investigate how to develop energy efficient FL over 5G+ mobile devices by making a trade-off between energy consumption for "working" (i.e., local computing) and that for "talking" (i.e., wireless communications) in order to boost the overall energy efficiency. Specifically, we first examine energy consumption models for graphics processing unit (GPU) computation and wireless transmissions. Then, we overview the state of the art of integrating FL procedure with energy-efficient learning techniques (e.g., gradient sparsification, weight quantization, pruning, etc.). Finally, we present several potential future research directions for FL over 5G+ mobile devices from the perspective of energy efficiency.
翻訳日:2021-04-03 21:04:58 公開日:2021-01-13
# (参考訳) 畳み込みニューラルネットワークの基礎,計算,新しい応用

Convolutional Neural Nets: Foundations, Computations, and New Applications ( http://arxiv.org/abs/2101.04869v1 )

ライセンス: CC BY 4.0
Shengli Jiang and Victor M. Zavala(参考訳) 我々は,畳み込みニューラルネット(CNN)の数学的基礎を,統計学,信号処理,線形代数,微分方程式,最適化,基礎となる計算のデミスティフィケーション,および新しいタイプの応用の特定といった技術との連携を強調した。 CNNは、グリッドデータから予測(回帰と分類)を行う特徴を強調する強力な機械学習モデルである。 グリッドデータオブジェクトはベクトル(1D)、行列(2D)、テンソル(3D以上)として表現することができ、複数のチャネル(入力データ表現に高い柔軟性を提供するため)を組み込むことができる。 例えば、画像は赤、緑、青(RBG)チャネルを含む2Dグリッドデータオブジェクトとして表現することができる(各チャネルは2Dマトリックスである)。 同様に、ビデオはRGBチャンネル(各チャンネルは3Dテンソル)を持つ3Dグリッドデータオブジェクト(空間次元と時間)として表現することができる。 CNNは、異なるタイプの演算子で畳み込み操作を実行することで、グリッドデータから特徴を強調する。 演算子は異なるタイプの特徴(例えばパターン、勾配、幾何学的特徴)を強調し、最適化手法を用いて学習する。 言い換えれば、CNNは入力データを出力データに最もよくマッピングする最適な演算子を見つけ出そうとする。 よくある誤解は、cnnは画像やビデオのデータしか処理できないが、アプリケーションの範囲は広く、特に多様なアプリケーションで発生するデータセットはグリッドデータとして表現できるということである。 本稿では,CNNを最適制御,フローサイトメトリー,多変量プロセスモニタリング,分子シミュレーションといった新しいタイプのアプリケーションに適用する方法を示す。

We review mathematical foundations of convolutional neural nets (CNNs) with the goals of: i) highlighting connections with techniques from statistics, signal processing, linear algebra, differential equations, and optimization, ii) demystifying underlying computations, and iii) identifying new types of applications. CNNs are powerful machine learning models that highlight features from grid data to make predictions (regression and classification). The grid data object can be represented as vectors (in 1D), matrices (in 2D), or tensors (in 3D or higher dimensions) and can incorporate multiple channels (thus providing high flexibility in the input data representation). For example, an image can be represented as a 2D grid data object that contains red, green, and blue (RBG) channels (each channel is a 2D matrix). Similarly, a video can be represented as a 3D grid data object (two spatial dimensions plus time) with RGB channels (each channel is a 3D tensor). CNNs highlight features from the grid data by performing convolution operations with different types of operators. The operators highlight different types of features (e.g., patterns, gradients, geometrical features) and are learned by using optimization techniques. In other words, CNNs seek to identify optimal operators that best map the input data to the output data. A common misconception is that CNNs are only capable of processing image or video data but their application scope is much wider; specifically, datasets encountered in diverse applications can be expressed as grid data. Here, we show how to apply CNNs to new types of applications such as optimal control, flow cytometry, multivariate process monitoring, and molecular simulations.
翻訳日:2021-04-03 20:53:45 公開日:2021-01-13
# (参考訳) ピアノスキル評価 [全文訳有]

Piano Skills Assessment ( http://arxiv.org/abs/2101.04884v1 )

ライセンス: CC BY 4.0
Paritosh Parmar, Jaiden Reddy, Brendan Morris(参考訳) コンピュータはピアノ奏者のスキルレベルを決定できるのか? この評価を選手のパフォーマンスの視覚的分析に基づくのが望ましいのか、それとも耳を目の上から信頼すべきなのか。 現在のCNNは長いビデオの処理が難しいので、どのようにして短いクリップをサンプリングしてプレイヤーのスキルレベルを最もよく反映できるか? 本研究では,ピアノ演奏者のスキルレベル評価に着目したマルチモーダルスキル評価のための初歩的なデータセットを収集,リリースし,質問に答え,ピアノ演奏スキルの自動評価作業を開始するとともに,今後の作業のベースラインを提供する。

Can a computer determine a piano player's skill level? Is it preferable to base this assessment on visual analysis of the player's performance or should we trust our ears over our eyes? Since current CNNs have difficulty processing long video videos, how can shorter clips be sampled to best reflect the players skill level? In this work, we collect and release a first-of-its-kind dataset for multimodal skill assessment focusing on assessing piano player's skill level, answer the asked questions, initiate work in automated evaluation of piano playing skills and provide baselines for future work.
翻訳日:2021-04-03 20:52:18 公開日:2021-01-13
# (参考訳) 記号規則学習のためのニューラルシーケンス-グリッドモジュール [全文訳有]

Neural Sequence-to-grid Module for Learning Symbolic Rules ( http://arxiv.org/abs/2101.04921v1 )

ライセンス: CC BY 4.0
Segwang Kim, Hyoungwook Nam, Joonyoung Kim, Kyomin Jung(参考訳) 算術演算やコンピュータプログラム評価などの記号に対する論理的推論タスクは、深層学習の課題となっている。 特に、最先端のニューラルネットワークでさえ、シンボリック推論タスクの一般化である \textit{out-of-distribution} (ood) を達成することができない。 そこで本研究では,入力列をグリッドに自動的に分割調整する入力プリプロセッサであるneural sequence-to-grid (seq2grid)モジュールを提案する。 我々のモジュールは、新しい微分可能マッピングを通じてグリッドを出力するので、ResNetやTextCNNのようなグリッド入力を受信するニューラルネットワーク構造は、エンドツーエンドで、我々のモジュールと共同でトレーニングすることができる。 入力前処理系としてモジュールを持つニューラルネットワークは,数列予測問題,代数語問題,コンピュータプログラム評価問題など,様々な算術的およびアルゴリズム的な問題に対してOOD一般化を実現する一方で,他の最先端のシーケンス変換モデルでは実現できないことを示す。 さらに,外部メモリを使わずにbAbIのQAタスクを解くために,我々のモジュールがTextCNNを強化することを確認した。

Logical reasoning tasks over symbols, such as learning arithmetic operations and computer program evaluations, have become challenges to deep learning. In particular, even state-of-the-art neural networks fail to achieve \textit{out-of-distribution} (OOD) generalization of symbolic reasoning tasks, whereas humans can easily extend learned symbolic rules. To resolve this difficulty, we propose a neural sequence-to-grid (seq2grid) module, an input preprocessor that automatically segments and aligns an input sequence into a grid. As our module outputs a grid via a novel differentiable mapping, any neural network structure taking a grid input, such as ResNet or TextCNN, can be jointly trained with our module in an end-to-end fashion. Extensive experiments show that neural networks having our module as an input preprocessor achieve OOD generalization on various arithmetic and algorithmic problems including number sequence prediction problems, algebraic word problems, and computer program evaluation problems while other state-of-the-art sequence transduction models cannot. Moreover, we verify that our module enhances TextCNN to solve the bAbI QA tasks without external memory.
翻訳日:2021-04-03 19:39:01 公開日:2021-01-13
# (参考訳) EventPlus: 一時的なイベント理解パイプライン [全文訳有]

EventPlus: A Temporal Event Understanding Pipeline ( http://arxiv.org/abs/2101.04922v1 )

ライセンス: CC BY 4.0
Mingyu Derek Ma, Jiao Sun, Mu Yang, Kung-Hsiang Huang, Nuan Wen, Shikhar Singh, Rujun Han and Nanyun Peng(参考訳) イベントトリガと型検出,イベント引数検出,イベント継続時間,時間関係抽出など,さまざまな最先端イベント理解コンポーネントを統合する,時間的イベント理解パイプラインであるeventplusを提案する。 イベント情報、特に事象の時間的知識は、人々がストーリーがどのように進化するかを理解し、将来の出来事に予測的なヒントを提供するのに役立つ常識知識の一種である。 EventPlusは、最初の包括的な時間的イベント理解パイプラインであり、ユーザがイベントに関するアノテーションと、ユーザが提供するドキュメントの時間的情報を簡単に取得するための便利なツールを提供する。 さらに、eventplusが他のドメイン(例えばバイオメディカルドメイン)に容易に適応できることを示した。 EventPlusを公開して、イベント関連の情報抽出とダウンストリームアプリケーションを容易にします。

We present EventPlus, a temporal event understanding pipeline that integrates various state-of-the-art event understanding components including event trigger and type detection, event argument detection, event duration and temporal relation extraction. Event information, especially event temporal knowledge, is a type of common sense knowledge that helps people understand how stories evolve and provides predictive hints for future events. EventPlus as the first comprehensive temporal event understanding pipeline provides a convenient tool for users to quickly obtain annotations about events and their temporal information for any user-provided document. Furthermore, we show EventPlus can be easily adapted to other domains (e.g., biomedical domain). We make EventPlus publicly available to facilitate event-related information extraction and downstream applications.
翻訳日:2021-04-03 19:22:26 公開日:2021-01-13
# (参考訳) 曲線の形状空間上の弾性SRV距離の教師付き深度学習 [全文訳有]

Supervised deep learning of elastic SRV distances on the shape space of curves ( http://arxiv.org/abs/2101.04929v1 )

ライセンス: CC BY 4.0
Emmanuel Hartman, Yashil Sukurdeep, Nicolas Charon, Eric Klassen, Martin Bauer(参考訳) コンピュータビジョンからバイオインフォマティクスへの応用によって動機づけられた形状解析の分野は、曲線のような幾何学的対象を解析したいという問題を扱う一方で、翻訳、回転、再パラメータ化などの形状を保存する行動を無視している。 幾何学的対象に対する距離、平均、最適な変形の概念を定義するために数学的ツールが開発された。 このようなフレームワークは、多くのアプリケーションで成功したことが証明されており、正方根速度(SRV)変換に基づいており、どのようにパラメータ化されているかに関わらず、空間曲線間の計算可能な距離を定義することができる。 本稿では,曲線間のSRV距離を直接計算するための教師付きディープラーニングフレームワークを提案する。 本手法の計算速度と精度の点での利点は,いくつかの数値実験によって示される。

Motivated by applications from computer vision to bioinformatics, the field of shape analysis deals with problems where one wants to analyze geometric objects, such as curves, while ignoring actions that preserve their shape, such as translations, rotations, or reparametrizations. Mathematical tools have been developed to define notions of distances, averages, and optimal deformations for geometric objects. One such framework, which has proven to be successful in many applications, is based on the square root velocity (SRV) transform, which allows one to define a computable distance between spatial curves regardless of how they are parametrized. This paper introduces a supervised deep learning framework for the direct computation of SRV distances between curves, which usually requires an optimization over the group of reparametrizations that act on the curves. The benefits of our approach in terms of computational speed and accuracy are illustrated via several numerical experiments.
翻訳日:2021-04-03 19:10:25 公開日:2021-01-13
# (参考訳) 非パラメトリック部分空間解析手法と異常検出アンサンブルへの応用

A Non-Parametric Subspace Analysis Approach with Application to Anomaly Detection Ensembles ( http://arxiv.org/abs/2101.04932v1 )

ライセンス: CC BY 4.0
Marcelo Bacher, Irad Ben-Gal, Erez Shmueli(参考訳) 多次元データセットにおける異常の特定は、多くの実世界のアプリケーションにおいて重要なタスクである。 特別なケースは、異常が小さな属性の集合(通常は部分空間と呼ばれる)に閉じ込められ、必ずしもデータ空間全体に留まらないときに発生する。 本稿では,aag(agglomerative attribute grouping)と呼ばれる新しい部分空間分析手法を提案する。 このような属性間の相関は、通常の観測の振る舞いをよりよく反映できる属性間の体系的な相互作用を表しており、従って、特に興味深い2つのデータサンプルの識別を改善するために用いられる:属性の比較的小さなサブセットに隠された異常と、新しいデータクラスを表す異常である。 AAGは、データ属性のグループ間の「情報距離」を評価するために、分割の情報理論測度から派生した、新しいマルチ属性測度に依存している。 使用すべき部分空間の集合を決定するために、AAGは、よく知られた集約的クラスタリングアルゴリズムと、提案したマルチ属性測度を基礎となる距離関数として適用する。 最後に、サブスペースの集合は異常検出のためのアンサンブルで使用される。 広範囲な評価の結果,提案手法は異常検出アンサンブルにおいて古典的および最先端のサブスペース解析手法よりも優れており,また, (ii) 個々の属性数が少ないサブスペースがより少ない(平均)ため,異常検出アンサンブルの訓練時間が短縮されることがわかった。 さらに,既存の手法とは対照的に,提案手法ではパラメータのチューニングは不要である。

Identifying anomalies in multi-dimensional datasets is an important task in many real-world applications. A special case arises when anomalies are occluded in a small set of attributes, typically referred to as a subspace, and not necessarily over the entire data space. In this paper, we propose a new subspace analysis approach named Agglomerative Attribute Grouping (AAG) that aims to address this challenge by searching for subspaces that are comprised of highly correlative attributes. Such correlations among attributes represent a systematic interaction among the attributes that can better reflect the behavior of normal observations and hence can be used to improve the identification of two particularly interesting types of abnormal data samples: anomalies that are occluded in relatively small subsets of the attributes and anomalies that represent a new data class. AAG relies on a novel multi-attribute measure, which is derived from information theory measures of partitions, for evaluating the "information distance" between groups of data attributes. To determine the set of subspaces to use, AAG applies a variation of the well-known agglomerative clustering algorithm with the proposed multi-attribute measure as the underlying distance function. Finally, the set of subspaces is used in an ensemble for anomaly detection. Extensive evaluation demonstrates that, in the vast majority of cases, the proposed AAG method (i) outperforms classical and state-of-the-art subspace analysis methods when used in anomaly detection ensembles, and (ii) generates fewer subspaces with a fewer number of attributes each (on average), thus resulting in a faster training time for the anomaly detection ensemble. Furthermore, in contrast to existing methods, the proposed AAG method does not require any tuning of parameters.
翻訳日:2021-04-03 18:33:01 公開日:2021-01-13
# (参考訳) 機械学習ツールボックスの設計:概念、原則、パターン

Designing Machine Learning Toolboxes: Concepts, Principles and Patterns ( http://arxiv.org/abs/2101.04938v1 )

ライセンス: CC BY 4.0
Franz J. Kir\'aly, Markus L\"oning, Anthony Blaom, Ahmed Guecioueur, Raphael Sonabend(参考訳) 機械学習(ML)と、Scikit-learnやWekaといったAIツールボックスは、現代のデータサイエンスプラクティスの成果物である。 しかし、その普遍的な成功にもかかわらず、その建設における重要な設計原則は完全には分析されていない。 本稿では,AIモデリングツールボックスの設計における重要なパターンの概要について,ソフトウェア工学の分野,現代のツールボックスに見られる実装パターン,MLツールボックスの開発経験から,インスピレーションを等しく受けながら概説する。 特に、我々はAI/MLドメインの概念モデルを開発し、その中核に科学型と呼ばれる新しい型システムを構築している。 科学的なタイプは、私たちが通常実行する操作のセット(すなわち、MLワークフローにおける共通要素の科学的意味を捉えます。 それらのインターフェース)とその統計特性。 概念分析から、デザインの原則とパターンのセットを導き出します。 我々は,既存のツールボックスの設計を説明するだけでなく,新しいツールボックスの開発を導くことができることを示す。 私たちは、将来のツールボックスエンジニアに対する最先端のリファレンス、ベストプラクティスの要約、将来の研究に役立つmlデザインパターンのコレクション、そしてai構築のための高レベルプログラミングパラダイムへの第一歩として、私たちの貢献を意図しています。

Machine learning (ML) and AI toolboxes such as scikit-learn or Weka are workhorses of contemporary data scientific practice -- their central role being enabled by usable yet powerful designs that allow to easily specify, train and validate complex modeling pipelines. However, despite their universal success, the key design principles in their construction have never been fully analyzed. In this paper, we attempt to provide an overview of key patterns in the design of AI modeling toolboxes, taking inspiration, in equal parts, from the field of software engineering, implementation patterns found in contemporary toolboxes, and our own experience from developing ML toolboxes. In particular, we develop a conceptual model for the AI/ML domain, with a new type system, called scientific types, at its core. Scientific types capture the scientific meaning of common elements in ML workflows based on the set of operations that we usually perform with them (i.e. their interface) and their statistical properties. From our conceptual analysis, we derive a set of design principles and patterns. We illustrate that our analysis can not only explain the design of existing toolboxes, but also guide the development of new ones. We intend our contribution to be a state-of-art reference for future toolbox engineers, a summary of best practices, a collection of ML design patterns which may become useful for future research, and, potentially, the first steps towards a higher-level programming paradigm for constructing AI.
翻訳日:2021-04-03 18:03:44 公開日:2021-01-13
# (参考訳) 一部注釈付き全スライド画像を用いた気管支喘息の正確な細胞検出法 [全文訳有]

Learning to be EXACT, Cell Detection for Asthma on Partially Annotated Whole Slide Images ( http://arxiv.org/abs/2101.04943v1 )

ライセンス: CC BY 4.0
Christian Marzahl, Christof A. Bertram, Frauke Wilm, J\"orn Voigt, Ann K. Barton, Robert Klopfleisch, Katharina Breininger, Andreas Maier, Marc Aubreville(参考訳) 喘息は下気道の慢性炎症性疾患であり、自然にヒトや馬を含む動物に発生する。 喘息顕微鏡全スライド画像(WSI)のアノテーションは、WSI当たり数十万の細胞のために非常に労働集約的な作業である。 非完全なWSIアノテーションの制限を克服するため,WSIを部分的にアノテートした深層学習に基づくオブジェクト検出モデルを訓練し,クラス不均衡を補う訓練パイプラインを開発した。 このアプローチでは、アノテーション付きの WSI 領域から自由にサンプルをサンプリングすることができ、古典的なアプローチと同様に、WSI の完全アノテーション付きサブイメージに制限されない。 我々は,6馬wsisのデータセットを部分的にアノテーションし,トレーニングに使用し,検証とテストに完全にアノテーションされたwsiを2つ使用する固定トレーニングセットを用いて,パイプラインをクロスバリデーション設定で評価した。 我々のWSIベースのトレーニングアプローチは、従来のサブイメージベースのトレーニング手法を最大15 %$mAP$で上回り、訓練された10人の病理医のアノテーションと比較して人間のようなパフォーマンスを得た。

Asthma is a chronic inflammatory disorder of the lower respiratory tract and naturally occurs in humans and animals including horses. The annotation of an asthma microscopy whole slide image (WSI) is an extremely labour-intensive task due to the hundreds of thousands of cells per WSI. To overcome the limitation of annotating WSI incompletely, we developed a training pipeline which can train a deep learning-based object detection model with partially annotated WSIs and compensate class imbalances on the fly. With this approach we can freely sample from annotated WSIs areas and are not restricted to fully annotated extracted sub-images of the WSI as with classical approaches. We evaluated our pipeline in a cross-validation setup with a fixed training set using a dataset of six equine WSIs of which four are partially annotated and used for training, and two fully annotated WSI are used for validation and testing. Our WSI-based training approach outperformed classical sub-image-based training methods by up to 15\% $mAP$ and yielded human-like performance when compared to the annotations of ten trained pathologists.
翻訳日:2021-04-03 18:02:35 公開日:2021-01-13
# (参考訳) LaDiff ULMFiT: ULMFiTの層差学習手法 [全文訳有]

LaDiff ULMFiT: A Layer Differentiated training approach for ULMFiT ( http://arxiv.org/abs/2101.04965v1 )

ライセンス: CC BY 4.0
Mohammed Azhan, Mohammad Ahmad(参考訳) 本稿では,英語におけるタスク@制約2021サブタスクcovid-19偽ニュース検出と,ヒンズー語における敵対的なポスト検出に使用される層別トレーニング手法を用いたディープラーニングモデルを提案する。 本稿では,事前学習したULMFiT arXiv:1801.06146モデルの層差分訓練手法を提案する。 ツイートの特定の部分に注釈をつけるために特別なトークンを使用して、言語理解を改善し、ツイートをより解釈しやすいものにするためのモデルに関する洞察を得ました。 他の2つの提案には、改良されたRoBERTaモデルと単純なランダムフォレスト分類器が含まれていた。 提案手法の精度は0.96728972と0.967324832であり、それぞれサブタスク「COVID19 Fake News Detection in English」である。 また, ヒンディー語では, 粗粒度f1得点, 重み付き細粒度f1得点は0.908648, 0.533907であった。 提案手法はサブタスク164中61位、「英語における偽ニュース検出covid19」とヒンディー語におけるサブタスク敵対的なポスト検出45中18位」でランク付けされた。

In our paper, we present Deep Learning models with a layer differentiated training method which were used for the SHARED TASK@ CONSTRAINT 2021 sub-tasks COVID19 Fake News Detection in English and Hostile Post Detection in Hindi. We propose a Layer Differentiated training procedure for training a pre-trained ULMFiT arXiv:1801.06146 model. We used special tokens to annotate specific parts of the tweets to improve language understanding and gain insights on the model making the tweets more interpretable. The other two submissions included a modified RoBERTa model and a simple Random Forest Classifier. The proposed approach scored a precision and f1 score of 0.96728972 and 0.967324832 respectively for sub-task "COVID19 Fake News Detection in English". Also, Coarse-Grained Hostility f1 Score and Weighted FineGrained f1 score of 0.908648 and 0.533907 respectively for sub-task Hostile Post Detection in Hindi. The proposed approach ranked 61st out of 164 in the sub-task "COVID19 Fake News Detection in English and 18th out of 45 in the sub-task Hostile Post Detection in Hindi".
翻訳日:2021-04-03 17:36:59 公開日:2021-01-13
# (参考訳) グラディエントDescentとWakly Convex Lossesによる学習

Learning with Gradient Descent and Weakly Convex Losses ( http://arxiv.org/abs/2101.04968v1 )

ライセンス: CC0 1.0
Dominic Richards, Mike Rabbat(参考訳) 本研究では,経験的リスクが弱凸である場合の勾配降下の学習性能,すなわち経験的リスクのヘッシアンの最小負の固有値について検討する。 この固有値が勾配降下の安定性を制御できることを示せば、一般化誤差境界は以前の研究よりも広いステップサイズで保持できることが証明される。 サンプル保証のうち、テストエラーを一般化、最適化、近似誤差に分解し、それぞれがアルゴリズムパラメータ、サンプルサイズ、この固有値の大きさに関して有界かつトレードオフできる。 2層ニューラルネットワークの場合、経験的リスクは局所的弱凸の概念を満たすことが示され、特に、トレーニング中のヘッセンの最小固有値は、ネットワークスケーリングと呼ばれるレイヤの正規化によって制御できる。 これにより、人口リスクの最小化者が複雑性の仮定を満たすと、テストエラーの保証が達成される。 ネットワークの複雑さとスケーリングのトレードオフによって、ニューラルネットワークのスケーリングの暗黙のバイアスに洞察が入り込む。

We study the learning performance of gradient descent when the empirical risk is weakly convex, namely, the smallest negative eigenvalue of the empirical risk's Hessian is bounded in magnitude. By showing that this eigenvalue can control the stability of gradient descent, generalisation error bounds are proven that hold under a wider range of step sizes compared to previous work. Out of sample guarantees are then achieved by decomposing the test error into generalisation, optimisation and approximation errors, each of which can be bounded and traded off with respect to algorithmic parameters, sample size and magnitude of this eigenvalue. In the case of a two layer neural network, we demonstrate that the empirical risk can satisfy a notion of local weak convexity, specifically, the Hessian's smallest eigenvalue during training can be controlled by the normalisation of the layers, i.e., network scaling. This allows test error guarantees to then be achieved when the population risk minimiser satisfies a complexity assumption. By trading off the network complexity and scaling, insights are gained into the implicit bias of neural network scaling, which are further supported by experimental findings.
翻訳日:2021-04-03 17:31:17 公開日:2021-01-13
# (参考訳) 微調整多言語埋め込みを用いたヒンディー語ポストの粗大および細粒度の敵意検出 [全文訳有]

Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine Tuned Multilingual Embeddings ( http://arxiv.org/abs/2101.04998v1 )

ライセンス: CC BY 4.0
Arkadipta De, Venkatesh E, Kaushal Kumar Maurya, Maunendra Sankar Desarkar(参考訳) facebookやtwitterなどのソーシャルメディアプラットフォームが広く採用されているため、コミュニティの受け入れ基準に反し得るオンライン投稿を検出する必要性が高まっている。 敵意検出タスクは英語のようなリソース豊富な言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。 我々は、この敵意検出をマルチラベルのマルチクラス分類問題と見なしている。 ヒンディー語投稿における敵意検出に有効なニューラルネットワーク技術を提案する。 我々は,Hindiポストの文脈表現を得るために,事前学習した多言語双方向トランスフォーマー表現(mBERT)を利用する。 我々は,様々な前処理技術,事前学習モデル,ニューラルアーキテクチャ,ハイブリッド戦略などを含む広範な実験を行った。 我々の最も優れた神経分類モデルには、1つのvs-the-restアプローチがあり、それぞれ92.60%、81.14%、69.59%、75.29%、73.01%のf1スコアを敵意、偽、憎悪、嫌悪、不名誉のラベルで獲得した。 提案モデルは,既存のベースラインモデルよりも優れており,ヒンディー語ポストの敵意を検出するための最先端モデルとして出現した。

Due to the wide adoption of social media platforms like Facebook, Twitter, etc., there is an emerging need of detecting online posts that can go against the community acceptance standards. The hostility detection task has been well explored for resource-rich languages like English, but is unexplored for resource-constrained languages like Hindidue to the unavailability of large suitable data. We view this hostility detection as a multi-label multi-class classification problem. We propose an effective neural network-based technique for hostility detection in Hindi posts. We leverage pre-trained multilingual Bidirectional Encoder Representations of Transformer (mBERT) to obtain the contextual representations of Hindi posts. We have performed extensive experiments including different pre-processing techniques, pre-trained models, neural architectures, hybrid strategies, etc. Our best performing neural classifier model includes One-vs-the-Rest approach where we obtained 92.60%, 81.14%,69.59%, 75.29% and 73.01% F1 scores for hostile, fake, hate, offensive, and defamation labels respectively. The proposed model outperformed the existing baseline models and emerged as the state-of-the-art model for detecting hostility in the Hindi posts.
翻訳日:2021-04-03 17:30:04 公開日:2021-01-13
# (参考訳) Generative Adversarial Networks を用いた逐次IoTデータ拡張 [全文訳有]

Sequential IoT Data Augmentation using Generative Adversarial Networks ( http://arxiv.org/abs/2101.05003v1 )

ライセンス: CC BY-SA 4.0
Maximilian Ernst Tschuchnig and Cornelia Ferner and Stefan Wegenkittl(参考訳) 産業アプリケーションにおけるシーケンシャルデータは、機械学習モデルのトレーニングと評価に使用することができる(例)。 分類器) 代表的なデータの収集は困難で時間がかかるため、小さな根拠からそれを生成するインセンティブがある。 データ拡張は、1つの特定の方法で事前知識を通じてより多くのデータを生成する一般的な方法であり、gans(generative adversarial networks)と呼ばれ、ノイズからデータを生成する。 本稿では,水泳プールの有無に関わらず家庭のエネルギー消費データを生成する例として,モノのインターネット(iot)データを逐次的に強化するためにgansを使用する可能性について検討する。 サンプル実装の結果は、元のデータと主観的に類似しているように見える。 この主観評価に加えて,ラベルが提供される場合のGANの定量的評価手法も導入する。 評価による肯定的な結果は、小さな基底真理から逐次データを生成することができるという初期仮定を支持する。 これは、シーケンシャルデータの退屈なデータ取得を短縮できることを意味する。 将来、この論文の結果は、小さなデータ課題に対処する機械学習のツールとして含められるかもしれない。

Sequential data in industrial applications can be used to train and evaluate machine learning models (e.g. classifiers). Since gathering representative amounts of data is difficult and time consuming, there is an incentive to generate it from a small ground truth. Data augmentation is a common method to generate more data through a priori knowledge with one specific method, so called generative adversarial networks (GANs), enabling data generation from noise. This paper investigates the possibility of using GANs in order to augment sequential Internet of Things (IoT) data, with an example implementation that generates household energy consumption data with and without swimming pools. The results of the example implementation seem subjectively similar to the original data. Additionally to this subjective evaluation, the paper also introduces a quantitative evaluation technique for GANs if labels are provided. The positive results from the evaluation support the initial assumption that generating sequential data from a small ground truth is possible. This means that tedious data acquisition of sequential data can be shortened. In the future, the results of this paper may be included as a tool in machine learning, tackling the small data challenge.
翻訳日:2021-04-03 17:15:36 公開日:2021-01-13
# (参考訳) 焦点を合わせる学習:わずかな画像認識のためのカスケード特徴マッチングネットワーク [全文訳有]

Learning to Focus: Cascaded Feature Matching Network for Few-shot Image Recognition ( http://arxiv.org/abs/2101.05018v1 )

ライセンス: CC BY 4.0
Mengting Chen and Xinggang Wang and Heng Luo and Yifeng Geng and Wenyu Liu(参考訳) ディープネットワークは、多数の注釈付き画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。 しかし、ローショット画像認識タスクとして知られるメタラーニングの課題は、あるカテゴリの認識モデルを学ぶためにアノテーション付きの少数の画像しか利用できないことである。 テスト/クエリおよびトレーニング/サポートイメージのオブジェクトは、サイズ、ロケーション、スタイルなどによって異なる可能性が高い。 提案手法はCFMN (Cascaded Feature Matching Network) と呼ばれ,この問題を解決する。 我々は,比較画像間の相関度が高い特徴に着目し,それらの特徴を整合させ,非識別的特徴を自然に無視できる特徴マッチングブロックを用いて,メタリーナーを訓練し,より細粒度で適応的な深層距離計測法を学ぶ。 提案する特徴マッチングブロックをマイナショット認識ネットワークの異なる層に適用することにより、比較画像間のマルチスケール情報を最終カスケードマッチング機能に組み込むことができ、認識性能をさらに高め、関係を学習することでより一般化することができる。 2つの標準データセットである \emph{mini}imagenet と omniglot を用いた短時間学習実験を行い,本手法の有効性を確認した。 さらに,複数ラベルのマイトショットタスクをまずcocoの新たなデータ分割について検討し,複雑な画像でマイトショット学習を行う際に,提案する特徴マッチングネットワークの優位性を示す。 コードは公開される予定だ。

Deep networks can learn to accurately recognize objects of a category by training on a large number of annotated images. However, a meta-learning challenge known as a low-shot image recognition task comes when only a few images with annotations are available for learning a recognition model for one category. The objects in testing/query and training/support images are likely to be different in size, location, style, and so on. Our method, called Cascaded Feature Matching Network (CFMN), is proposed to solve this problem. We train the meta-learner to learn a more fine-grained and adaptive deep distance metric by focusing more on the features that have high correlations between compared images by the feature matching block which can align associated features together and naturally ignore those non-discriminative features. By applying the proposed feature matching block in different layers of the few-shot recognition network, multi-scale information among the compared images can be incorporated into the final cascaded matching feature, which boosts the recognition performance further and generalizes better by learning on relationships. The experiments for few-shot learning on two standard datasets, \emph{mini}ImageNet and Omniglot, have confirmed the effectiveness of our method. Besides, the multi-label few-shot task is first studied on a new data split of COCO which further shows the superiority of the proposed feature matching network when performing few-shot learning in complex images. The code will be made publicly available.
翻訳日:2021-04-03 17:07:55 公開日:2021-01-13
# (参考訳) imagenetの再ラベル:シングルからマルチラベル、グローバルからローカライズラベル [全文訳有]

Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels ( http://arxiv.org/abs/2101.05022v1 )

ライセンス: CC BY-SA 4.0
Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, Sanghyuk Chun(参考訳) ImageNetは間違いなく最も人気のある画像分類ベンチマークであるが、ラベルノイズがかなり高いベンチマークでもある。 近年の研究では、シングルラベルベンチマークと仮定されているにもかかわらず、多くのサンプルが複数のクラスを含んでいることが示されている。 そのため、イメージネットの評価を、画像毎に徹底的な複数ラベルアノテーションを備えたマルチラベルタスクにすることを提案している。 しかし、おそらくアノテーションコストがひどいため、トレーニングセットは修正されていない。 単一ラベルのアノテーションと効果的に複数ラベルのイメージのミスマッチは、ランダムな作物が適用されるトレーニング設定において問題となる。 シングルラベルアノテーションでは、画像のランダムな収穫物は、基礎的な真実とは全く異なるオブジェクトを含んでいて、トレーニング中にノイズや不正な監視を導入する。 そこで我々は,imagenet トレーニングセットをマルチラベルで再ラベルする。 我々は,強固な画像分類器を,余分なデータソースに基づいて訓練し,マルチラベルを生成することで,アノテーションコストの障壁に対処する。 最終プーリング層に先立って,画素単位のマルチラベル予測を行い,付加的な位置特異的監視信号を利用する。 再ラベルされたサンプルのトレーニングにより、ボード全体のモデルパフォーマンスが改善される。 ResNet-50は、当社のローカライズされたマルチラベルでImageNetで78.9%のトップ1の分類精度を獲得し、CutMix正規化によってさらに80.2%に向上できる。 ローカライズされたマルチラベルでトレーニングされたモデルは、オブジェクト検出やインスタンスセグメンテーションタスクへの転送学習のベースラインや、さまざまなロバスト性ベンチマークよりも優れています。 re-labeled imagenet training set, pre-trained weights, and the source codeは、{https://github.com/n aver-ai/relabel_imag enet}で入手できる。

ImageNet has been arguably the most popular image classification benchmark, but it is also the one with a significant level of label noise. Recent studies have shown that many samples contain multiple classes, despite being assumed to be a single-label benchmark. They have thus proposed to turn ImageNet evaluation into a multi-label task, with exhaustive multi-label annotations per image. However, they have not fixed the training set, presumably because of a formidable annotation cost. We argue that the mismatch between single-label annotations and effectively multi-label images is equally, if not more, problematic in the training setup, where random crops are applied. With the single-label annotations, a random crop of an image may contain an entirely different object from the ground truth, introducing noisy or even incorrect supervision during training. We thus re-label the ImageNet training set with multi-labels. We address the annotation cost barrier by letting a strong image classifier, trained on an extra source of data, generate the multi-labels. We utilize the pixel-wise multi-label predictions before the final pooling layer, in order to exploit the additional location-specific supervision signals. Training on the re-labeled samples results in improved model performances across the board. ResNet-50 attains the top-1 classification accuracy of 78.9% on ImageNet with our localized multi-labels, which can be further boosted to 80.2% with the CutMix regularization. We show that the models trained with localized multi-labels also outperforms the baselines on transfer learning to object detection and instance segmentation tasks, and various robustness benchmarks. The re-labeled ImageNet training set, pre-trained weights, and the source code are available at {https://github.com/n aver-ai/relabel_imag enet}.
翻訳日:2021-03-30 14:24:25 公開日:2021-01-13
# (参考訳) LSTM-RNNを用いたアテンションメカニズムによる話者の高さと年齢推定 [全文訳有]

End-to-End Speaker Height and age estimation using Attention Mechanism with LSTM-RNN ( http://arxiv.org/abs/2101.05056v1 )

ライセンス: CC BY 4.0
Manav Kaushik, Van Tung Pham, Eng Siong Chng(参考訳) 音響的特徴を用いた話者の自動高さ・年齢推定は,人間とコンピュータの相互作用,法医学などのために広く用いられている。 本研究では,アテンション機構を用いて,身長と年齢推定のためのエンドツーエンド・アーキテクチャを構築する新しい手法を提案する。 注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。 我々は、エンコーダユニット全体の注意を考慮に入れた修正されたコンテキストベクトルを導入することで、コンテキストベクトルが時間枠をまたいでのみ注意の総和を計算する、従来の注意を変更できる。 これとは別に、話者の高さと年齢を同時推定するマルチタスク学習手法についても検討する。 TIMITコーパスでモデルをトレーニングし、テストします。 我々のモデルは文学のいくつかのアプローチを上回っている。 男性では根平均二乗誤差 (rmse) が6.92cm, 女性では6.34cm, 男性では7.85年, 女性では8.75年であった。 異なる電話機に割り当てられた注意重みを追跡することで、母音電話は最も重要なホイッスルストップ電話であり、推定作業において重要でないことが分かる。

Automatic height and age estimation of speakers using acoustic features is widely used for the purpose of human-computer interaction, forensics, etc. In this work, we propose a novel approach of using attention mechanism to build an end-to-end architecture for height and age estimation. The attention mechanism is combined with Long Short-Term Memory(LSTM) encoder which is able to capture long-term dependencies in the input acoustic features. We modify the conventionally used Attention -- which calculates context vectors the sum of attention only across timeframes -- by introducing a modified context vector which takes into account total attention across encoder units as well, giving us a new cross-attention mechanism. Apart from this, we also investigate a multi-task learning approach for jointly estimating speaker height and age. We train and test our model on the TIMIT corpus. Our model outperforms several approaches in the literature. We achieve a root mean square error (RMSE) of 6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years and 8.75years for male and females ages respectively. By tracking the attention weights allocated to different phones, we find that Vowel phones are most important whistlestop phones are least important for the estimation task.
翻訳日:2021-03-30 13:41:02 公開日:2021-01-13
# (参考訳) beyond procrustes:非対称低ランクマトリクスセンシングのためのバランスフリー勾配降下 [全文訳有]

Beyond Procrustes: Balancing-Free Gradient Descent for Asymmetric Low-Rank Matrix Sensing ( http://arxiv.org/abs/2101.05113v1 )

ライセンス: CC BY 4.0
Cong Ma, Yuanxin Li, Yuejie Chi(参考訳) 低位行列の推定は、科学と工学の様々な応用において中心的な役割を果たす。 近年, 行列分解に基づく非凸定式化は, 計算量および統計量の強い単純な勾配降下アルゴリズムによって実現可能である。 しかし、低ランク行列が非対称である場合、既存のアプローチでは、スペクトル法による初期化時に性能を損なうことなく安全に除去できる2つの行列因子のスケールのバランスをとるために正規化項を追加することに依存している。 本稿では,少数の線形測定値から低ランク行列を回収することを目的とした,行列センシング問題に対する理論的正当性について述べる。 測定アンサンブルが制限された等尺性を満たす限り、スペクトル初期化とともに勾配降下は、因子のバランス性を明確に促進することなく線形に収束する。 我々の分析は、可逆変換によるあいまいさを直接考慮し、独立した関心を持つ新しい距離計量の進化を分析することに基づいている。

Low-rank matrix estimation plays a central role in various applications across science and engineering. Recently, nonconvex formulations based on matrix factorization are provably solved by simple gradient descent algorithms with strong computational and statistical guarantees. However, when the low-rank matrices are asymmetric, existing approaches rely on adding a regularization term to balance the scale of the two matrix factors which in practice can be removed safely without hurting the performance when initialized via the spectral method. In this paper, we provide a theoretical justification to this for the matrix sensing problem, which aims to recover a low-rank matrix from a small number of linear measurements. As long as the measurement ensemble satisfies the restricted isometry property, gradient descent -- in conjunction with spectral initialization -- converges linearly without the need of explicitly promoting balancedness of the factors; in fact, the factors stay balanced automatically throughout the execution of the algorithm. Our analysis is based on analyzing the evolution of a new distance metric that directly accounts for the ambiguity due to invertible transforms, and might be of independent interest.
翻訳日:2021-03-30 13:32:27 公開日:2021-01-13
# (参考訳) VoxelHop:構造MRIを用いたALS疾患分類のための逐次サブスペース学習 [全文訳有]

VoxelHop: Successive Subspace Learning for ALS Disease Classification Using Structural MRI ( http://arxiv.org/abs/2101.05131v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Chao Yang, C.-C. Jay Kuo, Suma Babu, Georges El Fakhri, Thomas Jenkins, Jonghye Woo(参考訳) 深層学習は、医療画像データを用いて病気の正確な検出と分類を行う大きな可能性を持っているが、その性能はトレーニングデータセットの数とメモリ要件によって制限されることが多い。 さらに、多くの深層学習モデルは「ブラックボックス」と見なされ、臨床応用における導入を制限することがしばしばある。 そこで本研究では,T2重み付き構造MRIデータを用いた筋萎縮性側索硬化症(ALS)の正確な分類法として,VoxelHopというサブスペース学習モデルを提案する。 一般的な畳み込みニューラルネットワーク(CNN)アーキテクチャと比較して、VoxelHopは、バックプロパゲーションのないパラメータが少なく、モジュール的で透明な構造であるため、小さなデータセットサイズと3Dイメージングデータに適している。 ボクセルホップは,(1)多チャンネル3次元データに対する近距離近傍の逐次展開,(2)教師なし次元減少のための部分空間近似,(3)教師付き次元減少のためのラベル支援回帰,(4)特徴の結合,コントロールと患者間の分類,の4つの重要な構成要素を有する。 実験の結果,本研究の枠組みは20個のコントロールセットと26個の患者を用いて93.48$\%$,aucスコア0.9394の精度を実現し,比較的少ないデータセットでもそのロバスト性と有効性を示している。 また,最新の3D CNN分類法の有効性と優位性を示した。 我々のフレームワークは、異なる画像モダリティを用いて、他の分類タスクに容易に一般化できる。

Deep learning has great potential for accurate detection and classification of diseases with medical imaging data, but the performance is often limited by the number of training datasets and memory requirements. In addition, many deep learning models are considered a "black-box," thereby often limiting their adoption in clinical applications. To address this, we present a successive subspace learning model, termed VoxelHop, for accurate classification of Amyotrophic Lateral Sclerosis (ALS) using T2-weighted structural MRI data. Compared with popular convolutional neural network (CNN) architectures, VoxelHop has modular and transparent structures with fewer parameters without any backpropagation, so it is well-suited to small dataset size and 3D imaging data. Our VoxelHop has four key components, including (1) sequential expansion of near-to-far neighborhood for multi-channel 3D data; (2) subspace approximation for unsupervised dimension reduction; (3) label-assisted regression for supervised dimension reduction; and (4) concatenation of features and classification between controls and patients. Our experimental results demonstrate that our framework using a total of 20 controls and 26 patients achieves an accuracy of 93.48$\%$ and an AUC score of 0.9394 in differentiating patients from controls, even with a relatively small number of datasets, showing its robustness and effectiveness. Our thorough evaluations also show its validity and superiority to the state-of-the-art 3D CNN classification methods. Our framework can easily be generalized to other classification tasks using different imaging modalities.
翻訳日:2021-03-30 12:50:48 公開日:2021-01-13
# (参考訳) 収益管理システムへの改善の影響を推定する:航空会社の申請 [全文訳有]

Estimating the Impact of an Improvement to a Revenue Management System: An Airline Application ( http://arxiv.org/abs/2101.10249v1 )

ライセンス: CC BY 4.0
Greta Laage, Emma Frejinger, William L. Hamilton, Andrea Lodi and Guillaume Rabusseau(参考訳) 航空会社は数十年間、収益を最大化するために非常に複雑な収益管理システムを利用している。 収益など重要な結果に対するシステムの1つのコンポーネントの変更の影響を見積もることは重要ですが、非常に難しいのです。 これは、生成した値と、通常通りビジネスを維持するために生成された値との違いであり、観測不可能である。 本稿では, 対物予測モデルの概要を概観し, エア・カナダのデータに基づく広範な計算研究に利用して, その影響を推定する。 我々は、対物収益を予測することに集中し、影響の観測された収益と比較する。 当社のマイクロエコノミクス応用と軽微な治療効果は,通常の合成制御応用と異なる。 本稿では, 誤差の1.1%, 1%を精度良く予測し, シミュレーション効果を正確に推定できる線形および深層学習対実予測モデルを提案する。

Airlines have been making use of highly complex Revenue Management Systems to maximize revenue for decades. Estimating the impact of changing one component of those systems on an important outcome such as revenue is crucial, yet very challenging. It is indeed the difference between the generated value and the value that would have been generated keeping business as usual, which is not observable. We provide a comprehensive overview of counterfactual prediction models and use them in an extensive computational study based on data from Air Canada to estimate such impact. We focus on predicting the counterfactual revenue and compare it to the observed revenue subject to the impact. Our microeconomic application and small expected treatment impact stand out from the usual synthetic control applications. We present accurate linear and deep-learning counterfactual prediction models which achieve respectively 1.1% and 1% of error and allow to estimate a simulated effect quite accurately.
翻訳日:2021-03-30 12:16:36 公開日:2021-01-13
# (参考訳) 同期指向サブイメージの逐次逆サンプルに基づく画像ステガノグラフィー [全文訳有]

Image Steganography based on Iteratively Adversarial Samples of A Synchronized-directi ons Sub-image ( http://arxiv.org/abs/2101.05209v1 )

ライセンス: CC BY 4.0
Xinghong Qin, Shunquan Tan, Bin Li, Weixuan Tang and Jiwu Huang(参考訳) 現在、ステガノグラフィーは、特徴ベースのスタアナリシスと畳み込みニューラルネットワーク(CNN)ベースのステガナリシスの両方の課題に直面している。 本稿では, ite-syn(同期指向サブイメージへの反復的逆摂動に基づく)と呼ばれる新しいステガノグラフィスキームを提案する。そこで, セキュリティデータを同期修正方向に埋め込み, セキュリティを強化し, サブイメージに反復的に増加する摂動を付加し, 対象のcnn分類器のカバークラスラベルによる損失を低減する。 第一に、初期コストを計算するために既存のステガノグラフィー関数が用いられる。 そして、カバー画像をいくつかの非オーバーラップサブイメージに分解する。 各サブイメージを埋め込んだ後、クラスタリング修正方向プロファイルに従ってコストが調整される。 そして次のサブイメージは、すべての秘密データが埋め込まれるまで、調整されたコストで埋め込まれる。 対象のCNN分類器が、調整コストに基づいてステゴ画像をカバーイメージとして識別しない場合、CNN分類器から逆転した勾配の兆候に応じて、逆方向のコストを変更する。 その後、サブイメージが選択され、コストが変わる。 敵のステゴ画像がターゲットのCNN分類器を騙すまで、敵の強度は反復的に増大する。 実験により,提案手法は,従来の特徴ベース分類器とCNN分類器,さらには他のターゲットでないCNN分類器の両方に対処するセキュリティを効果的に向上することを示した。

Nowadays a steganography has to face challenges of both feature based staganalysis and convolutional neural network (CNN) based steganalysis. In this paper, we present a novel steganography scheme denoted as ITE-SYN (based on ITEratively adversarial perturbations onto a SYNchronized-directi ons sub-image), by which security data is embedded with synchronizing modification directions to enhance security and then iteratively increased perturbations are added onto a sub-image to reduce loss with cover class label of the target CNN classifier. Firstly an exist steganographic function is employed to compute initial costs. Then the cover image is decomposed into some non-overlapped sub-images. After each sub-image is embedded, costs will be adjusted following clustering modification directions profile. And then the next sub-image will be embedded with adjusted costs until all secret data has been embedded. If the target CNN classifier does not discriminate the stego image as a cover image, based on adjusted costs, we change costs with adversarial manners according to signs of gradients back-propagated from the CNN classifier. And then a sub-image is chosen to be re-embedded with changed costs. Adversarial intensity will be iteratively increased until the adversarial stego image can fool the target CNN classifier. Experiments demonstrate that the proposed method effectively enhances security to counter both conventional feature-based classifiers and CNN classifiers, even other non-target CNN classifiers.
翻訳日:2021-03-30 11:40:14 公開日:2021-01-13
# (参考訳) Rの実装によるテキストデータの一貫性スコアについて [全文訳有]

On consistency scores in text data with an implementation in R ( http://arxiv.org/abs/2101.05225v1 )

ライセンス: CC BY 4.0
Ke-Li Chiu and Rohan Alexander(参考訳) 本稿では,n-gramモデルを用いてPDFから抽出したテキストの再現可能なクリーニングプロセスを提案する。 提案手法は,従来のテキストを刺激として用いたこれらのモデルから生成された,あるいは予想されるテキストと比較する。 このプロセスを導くために,モデルが期待するテキストの割合を示す一貫性スコアの概念を導入する。 これは、クリーニングプロセス中、および異なるコーパス間での変化を監視するために使用される。 私たちは、Jane Eyreという本からテキストでプロセスを説明し、S ShinyアプリケーションとRパッケージの両方を導入して、プロセスを他の人が簡単に採用できるようにします。

In this paper, we introduce a reproducible cleaning process for the text extracted from PDFs using n-gram models. Our approach compares the originally extracted text with the text generated from, or expected by, these models using earlier text as stimulus. To guide this process, we introduce the notion of a consistency score, which refers to the proportion of text that is expected by the model. This is used to monitor changes during the cleaning process, and across different corpuses. We illustrate our process on text from the book Jane Eyre and introduce both a Shiny application and an R package to make our process easier for others to adopt.
翻訳日:2021-03-30 11:16:46 公開日:2021-01-13
# (参考訳) ランダムフーリエ機能を用いたスコアマッチング [全文訳有]

Denoising Score Matching with Random Fourier Features ( http://arxiv.org/abs/2101.05239v1 )

ライセンス: CC BY 4.0
Tsimboy Olga, Yermek Kapushev, Evgeny Burnaev, Ivan Oseledets(参考訳) 密度推定は統計学における主要な問題の一つである。 それにもかかわらず、最大確率推定のような既存の手法は正規化定数の難解性のために計算効率が良くない。 このため、スコアマッチングに対する関心は正規化定数上で独立性を高めている。 しかし、そのような推定器は完全な空間サポートを持つ分布に対してのみ一貫性がある。 一貫性を持たせるアプローチの1つは、Denoising Score Matchingと呼ばれる入力データにノイズを加えることである。 本研究は,カーネル指数関数群をモデル分布として用い,発声スコアマッチングの解析的表現を導出する。 核指数族の使用は、このクラスの密度の豊かさによって動機付けられる。 計算複雑性に取り組むために、カーネル関数の近似に基づくランダムフーリエ特徴を用いる。 解析式は、既に暗黙的に含まれているため、高階微分に基づくさらなる正規化項を下げることができる。 さらに、得られた式はノイズ分散に明示的に依存するため、ノイズレベルの調整にバリデーション損失を直接使用することができる。 ベンチマーク実験とともに、モデルが様々な場合におけるモデルの挙動を研究するために、様々な合成分布で試験された。 実験により,提案手法は計算処理が高速であるのに対し,競合手法に匹敵する品質を示した。 後者は複雑な高次元データへのスケールアップを可能にする。

The density estimation is one of the core problems in statistics. Despite this, existing techniques like maximum likelihood estimation are computationally inefficient due to the intractability of the normalizing constant. For this reason an interest to score matching has increased being independent on the normalizing constant. However, such estimator is consistent only for distributions with the full space support. One of the approaches to make it consistent is to add noise to the input data which is called Denoising Score Matching. In this work we derive analytical expression for the Denoising Score matching using the Kernel Exponential Family as a model distribution. The usage of the kernel exponential family is motivated by the richness of this class of densities. To tackle the computational complexity we use Random Fourier Features based approximation of the kernel function. The analytical expression allows to drop additional regularization terms based on the higher-order derivatives as they are already implicitly included. Moreover, the obtained expression explicitly depends on the noise variance, so the validation loss can be straightforwardly used to tune the noise level. Along with benchmark experiments, the model was tested on various synthetic distributions to study the behaviour of the model in different cases. The empirical study shows comparable quality to the competing approaches, while the proposed method being computationally faster. The latter one enables scaling up to complex high-dimensional data.
翻訳日:2021-03-30 11:03:59 公開日:2021-01-13
# (参考訳) グラディエントDescent Ascentによる隠れ構造による最小最適化の解法

Solving Min-Max Optimization with Hidden Structure via Gradient Descent Ascent ( http://arxiv.org/abs/2101.05248v1 )

ライセンス: CC BY 4.0
Lampros Flokas, Emmanouil-Vasileios Vlatakis-Gkaragkouni s, Georgios Piliouras(参考訳) 最近のaiアーキテクチャの多くはゼロサムゲームにインスパイアされているが、ダイナミクスの振る舞いはまだよく分かっていない。 これに触発されて、非凸なゼロサムゲームの特定のクラスにおいて、隠れゼロサムゲームと呼ばれる標準勾配降下(GDA)ダイナミクスを研究する。 このクラスでは、プレイヤーは凸凹ゲームへの入力として出力が適用される滑らかだが、おそらく非線形関数の入力を制御する。 一般的なゼロサムゲームとは異なり、これらのゲームは解の概念をよく定義しており、"隠れた"凸凸凸ゲームにおけるフォン・ノイマン均衡を実装する結果である。 隠れたゲームが厳密な凸凸であれば、バニラ GDA は局所ナッシュに限らず、通常フォン・ノイマン解に収束する。 ゲームに厳密な凸性がなければ、GDAは任意の平衡に収束しないかもしれないが、標準的な正規化手法を適用することで、わずかに摂動したゼロサムゲームのフォン・ノイマン解への収束を証明できる。 我々の収束保証は非局所的であり、これは我々が知る限り、非凸な非凸ゲームにおける第一種の結果である。 最後に,当社のフレームワークとジェネレイティブ・アドバーサリー・ネットワークとの関連について論じる。

Many recent AI architectures are inspired by zero-sum games, however, the behavior of their dynamics is still not well understood. Inspired by this, we study standard gradient descent ascent (GDA) dynamics in a specific class of non-convex non-concave zero-sum games, that we call hidden zero-sum games. In this class, players control the inputs of smooth but possibly non-linear functions whose outputs are being applied as inputs to a convex-concave game. Unlike general zero-sum games, these games have a well-defined notion of solution; outcomes that implement the von-Neumann equilibrium of the "hidden" convex-concave game. We prove that if the hidden game is strictly convex-concave then vanilla GDA converges not merely to local Nash, but typically to the von-Neumann solution. If the game lacks strict convexity properties, GDA may fail to converge to any equilibrium, however, by applying standard regularization techniques we can prove convergence to a von-Neumann solution of a slightly perturbed zero-sum game. Our convergence guarantees are non-local, which as far as we know is a first-of-its-kind type of result in non-convex non-concave games. Finally, we discuss connections of our framework with generative adversarial networks.
翻訳日:2021-03-30 10:36:54 公開日:2021-01-13
# (参考訳) 深層学習コンピュータビジョンを用いた好酸球性食道炎の診断と表現型評価 [全文訳有]

Advancing Eosinophilic Esophagitis Diagnosis and Phenotype Assessment with Deep Learning Computer Vision ( http://arxiv.org/abs/2101.05326v1 )

ライセンス: CC BY 4.0
William Adorno III, Alexis Catalano, Lubaina Ehsan, Hans Vitzhum von Eckstaedt, Barrett Barnes, Emily McGowan, Sana Syed, Donald E. Brown(参考訳) 好酸球性食道炎(英: eosinophilic esophagitis, eoe)は炎症性食道疾患である。 診断用ゴールドスタンダードは、臨床病理医が患者の生検組織サンプルを手動で検査し、1つの高出力フィールド(400倍倍)内に15以上の好酸球が存在することを含む。 EoEの診断は、病気の重症度と進行度を評価するのに困難である。 深部画像分割を用いた好酸球定量化のための自動手法を提案する。 U-Netモデルと後処理システムを適用して、EoEを診断し、疾患の重症度と進行を記述できる好酸球統計を生成する。 これらの統計は、初期EoE診断の生検で取得され、患者メタデータ(臨床および治療表現型)と比較される。 目標は、新しい患者の初期診断における治療計画を導く可能性のある連鎖を見つけることである。 さらに、EoEの診断に使用できる好酸球以外の特徴を発見するために、深層画像分類モデルを適用する。 本研究は,EoE診断にディープラーニングコンピュータビジョンアプローチを利用した最初の研究であり,疾患の重症度と進行を自動追跡するプロセスを提供する。

Eosinophilic Esophagitis (EoE) is an inflammatory esophageal disease which is increasing in prevalence. The diagnostic gold-standard involves manual review of a patient's biopsy tissue sample by a clinical pathologist for the presence of 15 or greater eosinophils within a single high-power field (400x magnification). Diagnosing EoE can be a cumbersome process with added difficulty for assessing the severity and progression of disease. We propose an automated approach for quantifying eosinophils using deep image segmentation. A U-Net model and post-processing system are applied to generate eosinophil-based statistics that can diagnose EoE as well as describe disease severity and progression. These statistics are captured in biopsies at the initial EoE diagnosis and are then compared with patient metadata: clinical and treatment phenotypes. The goal is to find linkages that could potentially guide treatment plans for new patients at their initial disease diagnosis. A deep image classification model is further applied to discover features other than eosinophils that can be used to diagnose EoE. This is the first study to utilize a deep learning computer vision approach for EoE diagnosis and to provide an automated process for tracking disease severity and progression.
翻訳日:2021-03-30 10:00:13 公開日:2021-01-13
# (参考訳) X-CAL: 生存分析のための明確な校正 [全文訳有]

X-CAL: Explicit Calibration for Survival Analysis ( http://arxiv.org/abs/2101.05346v1 )

ライセンス: CC BY 4.0
Mark Goldstein, Xintian Han, Aahlad Puli, Adler J. Perotte and Rajesh Ranganath(参考訳) 生存分析は、病院からの退院やICUへの入院など、興味のある出来事までの時間分布をモデル化する。 モデルが任意の時間間隔内で予測した事象の数を観測値に類似させると、それを well-calibrated と呼ぶ。 サバイバルモデルのキャリブレーションは、例えば分布キャリブレーション(d-キャリブレーション) [haider et al., 2020] を用いて測定でき、異なる時間間隔内で観測された事象数と予測された事象数の2乗差を計算することができる。 古典的には、キャリブレーションはトレーニング後の分析で対処される。 我々は,D-CALIBrationを,最大推定値と他の目的値と並行して生存モデルに使用可能な,識別可能な目的に転換する明示的キャリブレーション(X-CAL)を開発する。 X-CALにより、実践者はキャリブレーションを直接最適化し、予測パワーとキャリブレーションのバランスを望ましいものにすることができる。 実験では, シミュレーションデータ, mnistに基づくサバイバルデータセット, mimic-iiiデータを用いた長寿命予測, 癌ゲノムアトラスからの脳がんデータに, 様々な浅層モデルと深層モデルを適用した。 研究対象のモデルは誤校正可能であることを示す。 X-CALによるD-CALIBationの改善は, 一致や可能性の大きな低下を伴わずに, 実験的な証拠を提示する。

Survival analysis models the distribution of time until an event of interest, such as discharge from the hospital or admission to the ICU. When a model's predicted number of events within any time interval is similar to the observed number, it is called well-calibrated. A survival model's calibration can be measured using, for instance, distributional calibration (D-CALIBRATION) [Haider et al., 2020] which computes the squared difference between the observed and predicted number of events within different time intervals. Classically, calibration is addressed in post-training analysis. We develop explicit calibration (X-CAL), which turns D-CALIBRATION into a differentiable objective that can be used in survival modeling alongside maximum likelihood estimation and other objectives. X-CAL allows practitioners to directly optimize calibration and strike a desired balance between predictive power and calibration. In our experiments, we fit a variety of shallow and deep models on simulated data, a survival dataset based on MNIST, on length-of-stay prediction using MIMIC-III data, and on brain cancer data from The Cancer Genome Atlas. We show that the models we study can be miscalibrated. We give experimental evidence on these datasets that X-CAL improves D-CALIBRATION without a large decrease in concordance or likelihood.
翻訳日:2021-03-30 09:44:42 公開日:2021-01-13
# (参考訳) 優先的混合--人間の知識を最大限に活用する解釈可能なモデル [全文訳有]

Preferential Mixture-of-Experts: Interpretable Models that Rely on Human Expertise as much as Possible ( http://arxiv.org/abs/2101.05360v1 )

ライセンス: CC BY 4.0
Melanie F. Pradier, Javier Zazo, Sonali Parbhoo, Roy H. Perlis, Maurizio Zazzi, Finale Doshi-Velez(参考訳) 予測性能に必要な場合にのみ、データに基づく分類器を用いて意思決定における人間の専門知識を高める新しい人間-ML混合専門家モデルであるPreferential MoEを提案する。 我々のモデルは、人間のルールをいつ守るべきか、あるいは避けるべきかの情報を提供する解釈可能なゲーティング機能を示す。 ゲーティング関数は、人間ベースのルールを使用するために最大化され、分類エラーが最小化される。 本稿では,凸部分問題を用いた多目的結合問題の解法を提案する。 近似アルゴリズムを開発し,その性能と収束について検討する。 最後に,ヒト免疫不全ウイルス(hiv)治療と大うつ病性障害(mdd)治療における2つの臨床応用における優先的moeの有用性を示す。

We propose Preferential MoE, a novel human-ML mixture-of-experts model that augments human expertise in decision making with a data-based classifier only when necessary for predictive performance. Our model exhibits an interpretable gating function that provides information on when human rules should be followed or avoided. The gating function is maximized for using human-based rules, and classification errors are minimized. We propose solving a coupled multi-objective problem with convex subproblems. We develop approximate algorithms and study their performance and convergence. Finally, we demonstrate the utility of Preferential MoE on two clinical applications for the treatment of Human Immunodeficiency Virus (HIV) and management of Major Depressive Disorder (MDD).
翻訳日:2021-03-30 09:21:13 公開日:2021-01-13
# (参考訳) サッカー選手の評価:ライブカメラから深層強化学習へ [全文訳有]

Evaluating Soccer Player: from Live Camera to Deep Reinforcement Learning ( http://arxiv.org/abs/2101.05388v1 )

ライセンス: CC BY 4.0
Paul Garnier, Th\'eophane Gregoir(参考訳) 科学的にサッカー選手を評価することは、難しい機械学習の問題である。 残念ながら、既存の回答のほとんどは、非常に不透明なアルゴリズムのトレーニング手順を持っています。 本稿では,オープンソースのプレイヤー追跡モデルと,人間のデータトレーニングや指導なしに,深層強化学習のみに基づいてプレイヤーを評価する新しい手法を提案する。 私たちの追跡モデルは、リリース予定のデータセットに基づいて教師ありの方法でトレーニングされ、評価モデルは仮想サッカーの試合のシミュレーションのみに依存しています。 これら2つのアーキテクチャを組み合わせることで、大きなデータセットの制約なしに、ライブカメラから直接サッカー選手を評価することができる。 私たちは、チームが特定の状態から得点または譲歩できるゴールの数を表わすため、新しいアプローチであるEDG(Expeded Discounted Goal)を表現します。 このアプローチは、現実世界のデータに基づいており、他のスポーツにも容易に拡張できる既存のデータよりも有意義な結果をもたらす。

Scientifically evaluating soccer players represents a challenging Machine Learning problem. Unfortunately, most existing answers have very opaque algorithm training procedures; relevant data are scarcely accessible and almost impossible to generate. In this paper, we will introduce a two-part solution: an open-source Player Tracking model and a new approach to evaluate these players based solely on Deep Reinforcement Learning, without human data training nor guidance. Our tracking model was trained in a supervised fashion on datasets we will also release, and our Evaluation Model relies only on simulations of virtual soccer games. Combining those two architectures allows one to evaluate Soccer Players directly from a live camera without large datasets constraints. We term our new approach Expected Discounted Goal (EDG), as it represents the number of goals a team can score or concede from a particular state. This approach leads to more meaningful results than the existing ones that are based on real-world data, and could easily be extended to other sports.
翻訳日:2021-03-30 09:02:42 公開日:2021-01-13
# (参考訳) 貯留層コンピュータのモード分解と最適化 [全文訳有]

Reservoir Computers Modal Decomposition and Optimization ( http://arxiv.org/abs/2101.07219v1 )

ライセンス: CC BY 4.0
Chad Nathe, Enrico Del Frate, Thomas Carroll, Louis Pecora, Afroza Shirin, Francesco Sorrentino(参考訳) 貯水池コンピュータに関連付けられたネットワークのトポロジーは、接続と重みがランダムに選択されるようにしばしば取られる。 パラメータ空間が大きすぎるので最適化を考えることはほとんどない。 本稿では, 貯水池の動的分解をモードに分解し, 互いに独立して計算できる貯水池コンピュータのクラスについて, この問題を考察する。 各モードは、ネットワーク隣接行列の固有値に依存する。 次に、固有値は適切な設計と最適化が可能なパラメータであるパラメトリックなアプローチをとる。 さらに,各モードへのタイムシフトの適用についても紹介する。 固有値や時間シフトの観点から個々のモードの操作が、トレーニングエラーの劇的な削減につながることを示す。

The topology of a network associated with a reservoir computer is often taken so that the connectivity and the weights are chosen randomly. Optimization is hardly considered as the parameter space is typically too large. Here we investigate this problem for a class of reservoir computers for which we obtain a decomposition of the reservoir dynamics into modes, which can be computed independently of one another. Each mode depends on an eigenvalue of the network adjacency matrix. We then take a parametric approach in which the eigenvalues are parameters that can be appropriately designed and optimized. In addition, we introduce the application of a time shift to each individual mode. We show that manipulations of the individual modes, either in terms of the eigenvalues or the time shifts, can lead to dramatic reductions in the training error.
翻訳日:2021-03-30 08:46:42 公開日:2021-01-13
# Robustness Gym: NLP評価ランドスケープの統合

Robustness Gym: Unifying the NLP Evaluation Landscape ( http://arxiv.org/abs/2101.04840v1 )

ライセンス: Link先を確認
Karan Goel, Nazneen Rajani, Jesse Vig, Samson Tan, Jason Wu, Stephan Zheng, Caiming Xiong, Mohit Bansal, Christopher R\'e(参考訳) 標準ベンチマークでの印象的なパフォーマンスにもかかわらず、深層ニューラルネットワークは現実世界のシステムにデプロイすると不安定になることが多い。 その結果、近年の研究は、このようなモデルの堅牢性をテストすることに集中し、敵対的攻撃からルールベースのデータ変換まで、様々な評価手法を生み出した。 本研究では,NLPシステム評価における課題を特定し,サブポピュレーション,変換,評価セット,敵攻撃という4つの標準評価パラダイムを統一した,シンプルで拡張可能な評価ツールキットであるRobustness Gym (RG) の形でソリューションを提案する。 評価のための共通のプラットフォームを提供することで、ロバストネスジムは4つの評価パラダイムすべての結果をほんの数クリックで比較し、ビルトインされた抽象セットを使って新しい評価方法を簡単に開発し共有することができる。 実践者に対するロバストネスジムの有用性を検証するために,感情モデリングチームと実世界のケーススタディを行い,パフォーマンスが18%以上低下したことを明らかにした。 ロバストネス・ガイムが新しい研究分析に役立つことを検証するため、我々は最先端の商業的および学術的な名前付きエンティティリンク(NEL)システムの研究と、最先端の要約モデルのきめ細かい分析を行う。 nelの場合、商用システムはレアエンティティのリンクに苦労し、学術的なエンティティの10%以上遅れるが、最先端の要約モデルは抽象化と蒸留を必要とする例で苦労し、9%以上低下する。 Robustness Gymはhttps://robustnessgy m.com/にある。

Despite impressive performance on standard benchmarks, deep neural networks are often brittle when deployed in real-world systems. Consequently, recent research has focused on testing the robustness of such models, resulting in a diverse set of evaluation methodologies ranging from adversarial attacks to rule-based data transformations. In this work, we identify challenges with evaluating NLP systems and propose a solution in the form of Robustness Gym (RG), a simple and extensible evaluation toolkit that unifies 4 standard evaluation paradigms: subpopulations, transformations, evaluation sets, and adversarial attacks. By providing a common platform for evaluation, Robustness Gym enables practitioners to compare results from all 4 evaluation paradigms with just a few clicks, and to easily develop and share novel evaluation methods using a built-in set of abstractions. To validate Robustness Gym's utility to practitioners, we conducted a real-world case study with a sentiment-modeling team, revealing performance degradations of 18%+. To verify that Robustness Gym can aid novel research analyses, we perform the first study of state-of-the-art commercial and academic named entity linking (NEL) systems, as well as a fine-grained analysis of state-of-the-art summarization models. For NEL, commercial systems struggle to link rare entities and lag their academic counterparts by 10%+, while state-of-the-art summarization models struggle on examples that require abstraction and distillation, degrading by 9%+. Robustness Gym can be found at https://robustnessgy m.com/
翻訳日:2021-03-30 08:09:19 公開日:2021-01-13
# 離散最適化に基づく離散知識グラフ埋め込み

Discrete Knowledge Graph Embedding based on Discrete Optimization ( http://arxiv.org/abs/2101.04817v1 )

ライセンス: Link先を確認
Yunqi Li, Shuyuan Xu, Bo Liu, Zuohui Fu, Shuchang Liu, Xu Chen, Yongfeng Zhang(参考訳) 本稿では,従来の連続グラフ埋め込み法において,計算的に抽出可能な離散最適化アルゴリズムに基づいて,KGエンティティと関係をハミング空間に投影する離散知識グラフ埋め込み(DKGE)法を提案する。 DKGEの収束は理論的に保証できる。 大規模な実験により、DKGEは、有効な連続埋め込みを離散コードにマッピングする古典的なハッシュ関数よりも優れた精度を達成することが示された。 さらに、DKGEは、多くの連続グラフ埋め込み法と比較して計算量や記憶量が少なく、同等の精度に達する。

This paper proposes a discrete knowledge graph (KG) embedding (DKGE) method, which projects KG entities and relations into the Hamming space based on a computationally tractable discrete optimization algorithm, to solve the formidable storage and computation cost challenges in traditional continuous graph embedding methods. The convergence of DKGE can be guaranteed theoretically. Extensive experiments demonstrate that DKGE achieves superior accuracy than classical hashing functions that map the effective continuous embeddings into discrete codes. Besides, DKGE reaches comparable accuracy with much lower computational complexity and storage compared to many continuous graph embedding methods.
翻訳日:2021-03-30 08:08:49 公開日:2021-01-13
# ロボットマニピュレーションにおける目標自動発見のための非対称自己再生

Asymmetric self-play for automatic goal discovery in robotic manipulation ( http://arxiv.org/abs/2101.04882v1 )

ライセンス: Link先を確認
OpenAI OpenAI, Matthias Plappert, Raul Sampedro, Tao Xu, Ilge Akkaya, Vineet Kosaraju, Peter Welinder, Ruben D'Sa, Arthur Petron, Henrique P. d.O. Pinto, Alex Paino, Hyeonwoo Noh, Lilian Weng, Qiming Yuan, Casey Chu, Wojciech Zaremba(参考訳) 私たちは、これまで見つからなかったゴールやオブジェクトを含む多くのロボット操作タスクを解決できる、単一の目標条件のポリシーをトレーニングします。 ゴール発見には、アリスとボブという2人のエージェントがゲームをする非対称なセルフプレイに依存しています。 アリスは挑戦的な目標を提案し、ボブはそれを解決しようとする。 この手法は,人間の事前知識を必要とせずに,高度に多様で複雑な目標を発見できることを示す。 なぜなら、アリスとボブの相互作用は自然のカリキュラムとなり、ボブはゴール条件のデモンストレーションとしてリラベルされたときにアリスの軌道から学ぶことができるからである。 その結果、テーブルの設定、ブロックの積み重ね、単純なパズルの解法など、目に見えない多くのタスクに一般化できる単一のポリシーが得られた。 学習したポリシーのビデオはhttps://robotics-sel f-play.github.ioで閲覧できる。

We train a single, goal-conditioned policy that can solve many robotic manipulation tasks, including tasks with previously unseen goals and objects. We rely on asymmetric self-play for goal discovery, where two agents, Alice and Bob, play a game. Alice is asked to propose challenging goals and Bob aims to solve them. We show that this method can discover highly diverse and complex goals without any human priors. Bob can be trained with only sparse rewards, because the interaction between Alice and Bob results in a natural curriculum and Bob can learn from Alice's trajectory when relabeled as a goal-conditioned demonstration. Finally, our method scales, resulting in a single policy that can generalize to many unseen tasks such as setting a table, stacking blocks, and solving simple puzzles. Videos of a learned policy is available at https://robotics-sel f-play.github.io.
翻訳日:2021-03-30 08:08:22 公開日:2021-01-13
# ビジョンに基づく自律運転システムの説明可能性:レビューと課題

Explainability of vision-based autonomous driving systems: Review and challenges ( http://arxiv.org/abs/2101.05307v1 )

ライセンス: Link先を確認
\'Eloi Zablocki, H\'edi Ben-Younes, Patrick P\'erez, Matthieu Cord(参考訳) 本調査は,視覚に基づく自動運転システムの説明可能性について検討する。 説明可能性の概念にはいくつかの側面があり、説明可能性の必要性は運転において強い。 コンピュータビジョン、ディープラーニング、自動運転、説明可能なAI(X-AI)など、いくつかの研究分野からのコントリビューションを集め、この調査はいくつかの点に取り組む。 まず、自動運転システムからより解釈可能性と説明可能性を得るための定義、文脈、モチベーションについて論じる。 第2に、自動運転システムを開発するための最先端のアプローチが、すぐに紹介される。 第3に、ポストホック方式でブラックボックス自動運転システムに説明を提供する手法を包括的に整理し、詳述する。 第4に、より解釈可能な自動運転システムを設計により構築することを目的とした文献からのアプローチを提示し、詳述する。 最後に, 残りの開水路と今後の研究方向性を特定し, 検討した。

This survey reviews explainability methods for vision-based self-driving systems. The concept of explainability has several facets and the need for explainability is strong in driving, a safety-critical application. Gathering contributions from several research fields, namely computer vision, deep learning, autonomous driving, explainable AI (X-AI), this survey tackles several points. First, it discusses definitions, context, and motivation for gaining more interpretability and explainability from self-driving systems. Second, major recent state-of-the-art approaches to develop self-driving systems are quickly presented. Third, methods providing explanations to a black-box self-driving system in a post-hoc fashion are comprehensively organized and detailed. Fourth, approaches from the literature that aim at building more interpretable self-driving systems by design are presented and discussed in detail. Finally, remaining open-challenges and potential future research directions are identified and examined.
翻訳日:2021-03-30 08:08:07 公開日:2021-01-13
# hls4mlを用いたFPGA上の高速畳み込みニューラルネットワーク

Fast convolutional neural networks on FPGAs with hls4ml ( http://arxiv.org/abs/2101.05108v1 )

ライセンス: Link先を確認
Thea Aarrestad, Vladimir Loncar, Maurizio Pierini, Sioni Summers, Jennifer Ngadiuba, Christoffer Petersson, Hampus Linander, Yutaro Iiyama, Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Dylan Rankin, Sergo Jindariani, Kevin Pedro, Nhan Tran, Mia Liu, Edward Kreinar, Zhenbin Wu, and Duc Hoang(参考訳) FPGA上に大きな畳み込み層を持つ超低レイテンシで低消費電力のディープニューラルネットワークをデプロイする自動化ツールを導入する。 hls4mlライブラリを拡張することで、畳み込みアーキテクチャを用いて5\,\mu$sの推論遅延を達成し、最先端のモデル性能を維持する方法を示す。 ストリートビューハウス番号データセットで訓練されたベンチマークモデルを考えると、典型的なFPGAデバイスの計算制約に適合するために、モデル圧縮の様々な方法を示す。 特に,プルーニングと量子化対応トレーニングについて論じ,元のモデルの精度を維持しながら資源利用率を90%以上削減できることを示す。

We introduce an automated tool for deploying ultra low-latency, low-power deep neural networks with large convolutional layers on FPGAs. By extending the hls4ml library, we demonstrate how to achieve inference latency of $5\,\mu$s using convolutional architectures, while preserving state-of-the-art model performance. Considering benchmark models trained on the Street View House Numbers Dataset, we demonstrate various methods for model compression in order to fit the computational constraints of a typical FPGA device. In particular, we discuss pruning and quantization-aware training, and demonstrate how resource utilization can be reduced by over 90% while maintaining the original model accuracy.
翻訳日:2021-03-30 08:07:55 公開日:2021-01-13
# 階層型マルチラベル分類のための双曲ラベル埋め込みの合同学習

Joint Learning of Hyperbolic Label Embeddings for Hierarchical Multi-label Classification ( http://arxiv.org/abs/2101.04997v1 )

ライセンス: Link先を確認
Soumya Chatterjee, Ayush Maheshwari, Ganesh Ramakrishnan, Saketha Nath Jagaralpudi(参考訳) ラベルが階層構造にあるマルチラベル分類の問題を考える。 しかしながら、階層的マルチラベル分類の既存の作品の多くとは異なり、ラベル階層性が知られているとは考えていない。 階層的関係を捉えた双曲的埋め込みが最近成功したことを踏まえ,分類器パラメータとラベル埋め込みを共同で学習することを提案する。 このような共同学習は、2つの利点をもたらすことが期待されている: i) 分類器はラベル上の階層の存在に関する事前の知識を活用し、ii) ラベル共起情報に加えて、ラベル埋め込みは入力データポイントの多様体構造から恩恵を受け、ラベル階層に対してより忠実な埋め込みをもたらす。 共同学習のための新しい定式化を提案し,その効果を実証的に評価する。 その結果,共同学習はラベル共起に基づく事前学習型双曲埋め込みを用いたベースラインよりも改善した。 さらに,提案した分類器は標準ベンチマークの最先端の一般化を実現する。 また,共同学習によって得られる双曲的埋め込みの評価を行い,それらが他の方法よりも正確に階層を表すことを示す。

We consider the problem of multi-label classification where the labels lie in a hierarchy. However, unlike most existing works in hierarchical multi-label classification, we do not assume that the label-hierarchy is known. Encouraged by the recent success of hyperbolic embeddings in capturing hierarchical relations, we propose to jointly learn the classifier parameters as well as the label embeddings. Such a joint learning is expected to provide a twofold advantage: i) the classifier generalizes better as it leverages the prior knowledge of existence of a hierarchy over the labels, and ii) in addition to the label co-occurrence information, the label-embedding may benefit from the manifold structure of the input datapoints, leading to embeddings that are more faithful to the label hierarchy. We propose a novel formulation for the joint learning and empirically evaluate its efficacy. The results show that the joint learning improves over the baseline that employs label co-occurrence based pre-trained hyperbolic embeddings. Moreover, the proposed classifiers achieve state-of-the-art generalization on standard benchmarks. We also present evaluation of the hyperbolic embeddings obtained by joint learning and show that they represent the hierarchy more accurately than the other alternatives.
翻訳日:2021-03-30 08:07:29 公開日:2021-01-13
# ニューラルodeを用いた時間知識グラフ予測

Temporal Knowledge Graph Forecasting with Neural ODE ( http://arxiv.org/abs/2101.05151v1 )

ライセンス: Link先を確認
Zifeng Ding, Zhen Han, Yunpu Ma, Volker Tresp(参考訳) 動的に進化するマルチリレーショナルグラフデータに対するノード表現の学習は、大きな研究関心を集めている。 しかし、時間的知識グラフ予測のための既存のモデルのほとんどは、時間的情報を取得するために離散的な深度を持つリカレントニューラルネットワーク(RNN)を使用している。 NODE(Neural Ordinary Differential Equation)に着想を得て,連続体深度モデルの概念を時間発展型マルチリレーショナルグラフデータに拡張し,NODEを用いた新しい時間知識グラフ予測モデルを提案する。 本モデルでは, 時間的情報をNODEおよび構造的情報をグラフニューラルネットワーク(GNN)で取得する。 このように,グラフodeモデルでは連続モデルが実現され,将来予測のためのノード表現を効率的に学習する。 リンク予測を行い、6つの時間的知識グラフデータセット上でモデルを評価する。 実験結果から,本モデルの優位性を示した。

Learning node representation on dynamically-evolving , multi-relational graph data has gained great research interest. However, most of the existing models for temporal knowledge graph forecasting use Recurrent Neural Network (RNN) with discrete depth to capture temporal information, while time is a continuous variable. Inspired by Neural Ordinary Differential Equation (NODE), we extend the idea of continuum-depth models to time-evolving multi-relational graph data, and propose a novel Temporal Knowledge Graph Forecasting model with NODE. Our model captures temporal information through NODE and structural information through a Graph Neural Network (GNN). Thus, our graph ODE model achieves a continuous model in time and efficiently learns node representation for future prediction. We evaluate our model on six temporal knowledge graph datasets by performing link forecasting. Experiment results show the superiority of our model.
翻訳日:2021-03-30 08:07:09 公開日:2021-01-13
# ユーザは会話を楽しみますか? 報酬機能への影響に関する事例研究

Is the User Enjoying the Conversation? A Case Study on the Impact on the Reward Function ( http://arxiv.org/abs/2101.05004v1 )

ライセンス: Link先を確認
Lina M. Rojas-Barahona(参考訳) 政策学習課題指向対話システムにおけるユーザ満足度の影響は、長い間研究対象とされてきた。 ユーザ満足度を推定するための現在のモデルの多くは、(i)製品レビューのようなコンテキスト外のショートテキストを扱うか、(ii)分散意味表現ではなくターン機能に依存している。 本研究では,会話中のユーザの満足度を推定するために,分散意味表現学習を用いたディープニューラルネットワークを採用する。 これらのネットワークにおけるコンテキスト長のモデル化の影響を評価する。 さらに,提案する階層ネットワークが最先端品質推定器を上回っていることを示す。 さらに,これらのネットワークを用いて部分観測可能マルコフ決定プロセス(POMDP)の報酬関数を推定することにより,タスク成功率を大幅に向上することを示す。

The impact of user satisfaction in policy learning task-oriented dialogue systems has long been a subject of research interest. Most current models for estimating the user satisfaction either (i) treat out-of-context short-texts, such as product reviews, or (ii) rely on turn features instead of on distributed semantic representations. In this work we adopt deep neural networks that use distributed semantic representation learning for estimating the user satisfaction in conversations. We evaluate the impact of modelling context length in these networks. Moreover, we show that the proposed hierarchical network outperforms state-of-the-art quality estimators. Furthermore, we show that applying these networks to infer the reward function in a Partial Observable Markov Decision Process (POMDP) yields to a great improvement in the task success rate.
翻訳日:2021-03-30 08:06:55 公開日:2021-01-13
# アンサンブルメンバーは校正されるべきか?

Should Ensemble Members Be Calibrated? ( http://arxiv.org/abs/2101.05397v1 )

ライセンス: Link先を確認
Xixin Wu and Mark Gales(参考訳) 幅広い応用に統計的アプローチを用いることは、統計モデルから得られる確率が、事象または結果が生じる「真の」確率を表すという仮定である。 残念なことに、現代のディープニューラルネットワークでは、これはそうではない。 さらに、これらの深層学習手法は多数のモデルパラメータを使用し、ベイズ近似(英語版)やアンサンブル近似(英語版)を用いてパラメータ推定の問題に対処する。 本稿では,CIFAR-100という標準画像分類タスクにおいて,理論的にも経験的にも深層アンサンブルへのキャリブレーション手法の適用について検討する。 キャリブレーションの基本的な理論的要件と関連するキャリブレーション基準について最初に述べる。 適切に校正されたアンサンブル部材は必ずしも十分に校正されたアンサンブル予測を得られず、もしアンサンブル予測が十分に校正されたとしても、その性能は校正されたアンサンブル部材の平均性能を上回ることはできない。 CIFAR-100では、アンサンブル予測と関連するキャリブレーションに対するキャリブレーションの影響を評価する。 さらに、複数の異なるトポロジを組み合わせる状況についても論じる。

Underlying the use of statistical approaches for a wide range of applications is the assumption that the probabilities obtained from a statistical model are representative of the "true" probability that event, or outcome, will occur. Unfortunately, for modern deep neural networks this is not the case, they are often observed to be poorly calibrated. Additionally, these deep learning approaches make use of large numbers of model parameters, motivating the use of Bayesian, or ensemble approximation, approaches to handle issues with parameter estimation. This paper explores the application of calibration schemes to deep ensembles from both a theoretical perspective and empirically on a standard image classification task, CIFAR-100. The underlying theoretical requirements for calibration, and associated calibration criteria, are first described. It is shown that well calibrated ensemble members will not necessarily yield a well calibrated ensemble prediction, and if the ensemble prediction is well calibrated its performance cannot exceed that of the average performance of the calibrated ensemble members. On CIFAR-100 the impact of calibration for ensemble prediction, and associated calibration is evaluated. Additionally the situation where multiple different topologies are combined together is discussed.
翻訳日:2021-03-30 08:06:01 公開日:2021-01-13
# 車線変化分類のための映像行動認識と周辺車両の予測

Video action recognition for lane-change classification and prediction of surrounding vehicles ( http://arxiv.org/abs/2101.05043v1 )

ライセンス: Link先を確認
Mahdi Biparva, David Fern\'andez-Llorca, Rub\'en Izquierdo-Gonzalo, John K. Tsotsos(参考訳) 高速道路のシナリオでは、アラートの人間ドライバーは、主に視覚情報を使用して、周囲の車両の早期のカット/カットアウト操作を予想する。 自動運転車は安全性と効率を高めるために、これらの状況を早期に予測する必要がある。 本研究では,車線変化認識と予測タスクを映像行動認識問題として提示する。 人間の行動認識に成功している最大4つの異なる2ストリームベースのアプローチは、前方ビデオカメラからの視覚的手がかりを積み重ねて、目標車両の車線変化を認識し予測することによって、ここで適用される。 文脈と観測地平線が性能に及ぼす影響について検討し,予測地平線の違いを分析した。 異なるモデルをトレーニングし、PreVENTIONデータセットを使用して評価する。 その結果, これらの手法が, 1~2秒間の時間地平線において90%以上の精度で周囲車両の車線変化を予測できる可能性を明らかにした。

In highway scenarios, an alert human driver will typically anticipate early cut-in/cut-out maneuvers of surrounding vehicles using visual cues mainly. Autonomous vehicles must anticipate these situations at an early stage too, to increase their safety and efficiency. In this work, lane-change recognition and prediction tasks are posed as video action recognition problems. Up to four different two-stream-based approaches, that have been successfully applied to address human action recognition, are adapted here by stacking visual cues from forward-looking video cameras to recognize and anticipate lane-changes of target vehicles. We study the influence of context and observation horizons on performance, and different prediction horizons are analyzed. The different models are trained and evaluated using the PREVENTION dataset. The obtained results clearly demonstrate the potential of these methodologies to serve as robust predictors of future lane-changes of surrounding vehicles proving an accuracy higher than 90% in time horizons of between 1-2 seconds.
翻訳日:2021-03-30 08:05:07 公開日:2021-01-13
# ウィスパードとロンバルドのニューラル音声合成

Whispered and Lombard Neural Speech Synthesis ( http://arxiv.org/abs/2101.05313v1 )

ライセンス: Link先を確認
Qiong Hu, Tobias Bleisch, Petko Petkov, Tuomo Raitio, Erik Marchi, Varun Lakshminarasimhan(参考訳) 合成音声が提示される環境を考慮し、適切な文脈依存出力をユーザに提供することは、テキスト対音声システムにとって望ましい。 本稿では, 限られたデータのみを用いて, 話し方, 正常, ロンバルド, ささやき声など, 異なる発話スタイルを生成するための様々なアプローチを提示, 比較する。 1) 各スタイルを事前学習し,微調整するシステムを提案する。 2)信号処理に基づくアプローチによるロンバルドとささやき声の変換 3)話者検証モデルに基づく単一モデルを用いたマルチスタイル生成 平均世論スコアとAB選好聴取テストは,(1)すべての話し方に対する事前学習/微調整アプローチにより,高品質な音声を生成できることを示している。 2)我々の話者照合(sv)モデルは,異なる発話スタイルを識別するために明示的に訓練されていないが,このシステムの事前学習にはロンバルドやささやき声は用いられていないが,タコトロンシステムの入力として異なるスタイル埋め込みを生成するためのスタイルエンコーダとして使用できる。 また, 合成ロンバルド音声は, 明瞭度向上に有意な影響を与えることが示された。

It is desirable for a text-to-speech system to take into account the environment where synthetic speech is presented, and provide appropriate context-dependent output to the user. In this paper, we present and compare various approaches for generating different speaking styles, namely, normal, Lombard, and whisper speech, using only limited data. The following systems are proposed and assessed: 1) Pre-training and fine-tuning a model for each style. 2) Lombard and whisper speech conversion through a signal processing based approach. 3) Multi-style generation using a single model based on a speaker verification model. Our mean opinion score and AB preference listening tests show that 1) we can generate high quality speech through the pre-training/fine-tu ning approach for all speaking styles. 2) Although our speaker verification (SV) model is not explicitly trained to discriminate different speaking styles, and no Lombard and whisper voice is used for pre-training this system, the SV model can be used as a style encoder for generating different style embeddings as input for the Tacotron system. We also show that the resulting synthetic Lombard speech has a significant positive impact on intelligibility gain.
翻訳日:2021-03-30 08:04:50 公開日:2021-01-13
# 対物推論のための構造化生物学的知識の活用 : ウイルス発生の事例研究

Leveraging Structured Biological Knowledge for Counterfactual Inference: a Case Study of Viral Pathogenesis ( http://arxiv.org/abs/2101.05136v1 )

ライセンス: Link先を確認
Jeremy Zucker, Kaushal Paneri, Sara Mohammad-Taheri, Somya Bhargava, Pallavi Kolambkar, Craig Bakker, Jeremy Teuton, Charles Tapley Hoyt, Kristie Oxford, Robert Ness and Olga Vitek(参考訳) カウンターファクト推論は、複雑なシステムにおける介入の結果を比較するのに有用なツールである。 システムを構造的因果モデルとして表現し、因果図、外因性変数の確率的仮定、機能的代入を完備する必要がある。 このようなモデルを特定することは、実際は非常に困難である。 このプロセスには相当な専門知識が必要で、大規模システムや複数のシステム、新しいシステム修正に容易にスケールできない。 同時に、分子生物学のような多くの応用領域は、自然界で定性的である構造化因果知識に富んでいる。 本書では,因果的生物学的知識グラフを問合せし,質的結果を定量的構造的因果モデルに変換し,その質問に答えるためにデータから学習する手法を提案する。 システム生物学における2つのケーススタディを用いて,本手法の実現可能性,正確性,汎用性を示す。 まず、基礎となる仮定の適切性と結果の正確性を示す。 第2に、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)誘発サイトカイン嵐の分子的決定因子に関する知識ベースを問合せ、重篤な患者に対する医療対策の因果効果を推定する反実的推論を行うことにより、アプローチの汎用性を示す。

Counterfactual inference is a useful tool for comparing outcomes of interventions on complex systems. It requires us to represent the system in form of a structural causal model, complete with a causal diagram, probabilistic assumptions on exogenous variables, and functional assignments. Specifying such models can be extremely difficult in practice. The process requires substantial domain expertise, and does not scale easily to large systems, multiple systems, or novel system modifications. At the same time, many application domains, such as molecular biology, are rich in structured causal knowledge that is qualitative in nature. This manuscript proposes a general approach for querying a causal biological knowledge graph, and converting the qualitative result into a quantitative structural causal model that can learn from data to answer the question. We demonstrate the feasibility, accuracy and versatility of this approach using two case studies in systems biology. The first demonstrates the appropriateness of the underlying assumptions and the accuracy of the results. The second demonstrates the versatility of the approach by querying a knowledge base for the molecular determinants of a severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)-induced cytokine storm, and performing counterfactual inference to estimate the causal effect of medical countermeasures for severely ill patients.
翻訳日:2021-03-30 08:04:29 公開日:2021-01-13
# 分子動力学シミュレーションにおけるランダム・システマティック誤差低減のための学習によるアモルファス高分子電解質のスクリーニングの促進

Accelerating the screening of amorphous polymer electrolytes by learning to reduce random and systematic errors in molecular dynamics simulations ( http://arxiv.org/abs/2101.05339v1 )

ライセンス: Link先を確認
Tian Xie, Arthur France-Lanord, Yanming Wang, Jeffrey Lopez, Michael Austin Stolberg, Megan Hill, Graham Michael Leverick, Rafael Gomez-Bombarelli, Jeremiah A. Johnson, Yang Shao-Horn, Jeffrey C. Grossman(参考訳) 機械学習は材料のスクリーニングを加速するために広く採用されている。 既存の研究の多くは、トレーニングデータは決定論的で偏見のないプロセスによって生成されると暗黙的に仮定しているが、この仮定は複雑な物質のシミュレーションには当てはまらないかもしれない。 本研究では,次世代リチウムイオン電池の候補として有望なアモルファス高分子電解質の遮蔽を目的としているが,その構造的複雑さからシミュレートするコストは極めて高い。 マルチタスクグラフニューラルネットワークは,ノイズの多いバイアスデータと少数の非バイアスデータから学習し,高分子電解質の輸送特性を予測する際にランダムな誤差と系統的な誤差を低減できることを実証する。 この観察により, シミュレーション誤差を低減させるために, 繰り返し高価なシミュレーションを行うのではなく, トレーニングデータの誤差を低減し, 複雑な材料の特性を正確に予測することができる。 このアプローチでは、以前の計算結果よりも桁違いに大きい6247個の高分子電解質の空間をスクリーン化する。 また, 53362 ポリマーと 31 個の実験的実現ポリマーの広い空間から, トップポリマーの補間性能も良好であることがわかった。 この研究で採用された戦略は、複雑な非晶質材料のシミュレーションを含む幅広い種類の物質発見問題に適用できるかもしれない。

Machine learning has been widely adopted to accelerate the screening of materials. Most existing studies implicitly assume that the training data are generated through a deterministic, unbiased process, but this assumption might not hold for the simulation of some complex materials. In this work, we aim to screen amorphous polymer electrolytes which are promising candidates for the next generation lithium-ion battery technology but extremely expensive to simulate due to their structural complexity. We demonstrate that a multi-task graph neural network can learn from a large amount of noisy, biased data and a small number of unbiased data and reduce both random and systematic errors in predicting the transport properties of polymer electrolytes. This observation allows us to achieve accurate predictions on the properties of complex materials by learning to reduce errors in the training data, instead of running repetitive, expensive simulations which is conventionally used to reduce simulation errors. With this approach, we screen a space of 6247 polymer electrolytes, orders of magnitude larger than previous computational studies. We also find a good extrapolation performance to the top polymers from a larger space of 53362 polymers and 31 experimentally-reali zed polymers. The strategy employed in this work may be applicable to a broad class of material discovery problems that involve the simulation of complex, amorphous materials.
翻訳日:2021-03-30 08:03:46 公開日:2021-01-13
# 未知多様体上のマルチスケール回帰

Multiscale regression on unknown manifolds ( http://arxiv.org/abs/2101.05119v1 )

ライセンス: Link先を確認
Wenjing Liao, Mauro Maggioni and Stefano Vigogna(参考訳) 我々は、$\mathbb{r}^d$ で関数を推定する回帰問題を考えるが、$d$-次元多様体 $ \mathcal{m} \subset \mathbb{r}^d $ でサポートされ、$d \ll d $ である。 多分解能解析と非線形近似からアイデアを導き、$\mathcal{M}$の低次元座標を複数スケールで構築し、局所多項式フィッティングによるマルチスケール回帰を行う。 本研究では,関数の未知の規則性に自動的に適応するデータ駆動型ウェーブレットしきい値決定手法を提案し,異なる位置とスケールで不均一な規則性を示す関数を効率的に推定する。 本手法は,事前のリッチクラスに対して高い確率で有限サンプル境界を証明し,一般化誤差を解析した。 我々の推定器は、函数が既知の次元$d$のユークリッド領域上で定義されているような最適学習率(対数因子まで)を、$\mathbb{R}^D$に埋め込まれた未知多様体の代わりに達成する。 実装されたアルゴリズムはサンプルサイズが準線形で、定数は$D$、指数は$d$である。 そこで本研究では,高次元に埋め込まれた低次元集合に対する回帰のための新しい枠組みを確立し,高速実装と強い理論的保証を実現した。

We consider the regression problem of estimating functions on $\mathbb{R}^D$ but supported on a $d$-dimensional manifold $ \mathcal{M} \subset \mathbb{R}^D $ with $ d \ll D $. Drawing ideas from multi-resolution analysis and nonlinear approximation, we construct low-dimensional coordinates on $\mathcal{M}$ at multiple scales, and perform multiscale regression by local polynomial fitting. We propose a data-driven wavelet thresholding scheme that automatically adapts to the unknown regularity of the function, allowing for efficient estimation of functions exhibiting nonuniform regularity at different locations and scales. We analyze the generalization error of our method by proving finite sample bounds in high probability on rich classes of priors. Our estimator attains optimal learning rates (up to logarithmic factors) as if the function was defined on a known Euclidean domain of dimension $d$, instead of an unknown manifold embedded in $\mathbb{R}^D$. The implemented algorithm has quasilinear complexity in the sample size, with constants linear in $D$ and exponential in $d$. Our work therefore establishes a new framework for regression on low-dimensional sets embedded in high dimensions, with fast implementation and strong theoretical guarantees.
翻訳日:2021-03-30 08:03:25 公開日:2021-01-13
# ガウス過程回帰のための一様誤差と後変境界と安全制御への応用

Uniform Error and Posterior Variance Bounds for Gaussian Process Regression with Application to Safe Control ( http://arxiv.org/abs/2101.05328v1 )

ライセンス: Link先を確認
Armin Lederer, Jonas Umlauft, Sandra Hirche(参考訳) データ生成が高価であるアプリケーション領域では、ガウスプロセスはデータ効率が高いため、教師あり学習モデルが望ましい。 特にモデルベース制御において、ガウス過程は確率的モデル誤差境界を用いた性能保証の導出を可能にする。 これらのアプローチを実際に適用するには、2つのオープンな課題を解決しなければなりません i) 既存のエラー境界は、多くの現実世界のタスクでは利用できない、事前の知識に依存します。 (ii)主にエラーバウンドを駆動するトレーニングデータと後方分散の関係はよく理解されておらず、漸近解析を妨げている。 本稿では、リプシッツ連続性を用いた新しい一様誤差と、大規模カーネルの後方分散関数の解析により、これらの問題に対処する。 さらに,未知力学系の安全な制御を保証するためにこれらの結果をどのように利用できるかを示し,数値的な例を示す。

In application areas where data generation is expensive, Gaussian processes are a preferred supervised learning model due to their high data-efficiency. Particularly in model-based control, Gaussian processes allow the derivation of performance guarantees using probabilistic model error bounds. To make these approaches applicable in practice, two open challenges must be solved i) Existing error bounds rely on prior knowledge, which might not be available for many real-world tasks. (ii) The relationship between training data and the posterior variance, which mainly drives the error bound, is not well understood and prevents the asymptotic analysis. This article addresses these issues by presenting a novel uniform error bound using Lipschitz continuity and an analysis of the posterior variance function for a large class of kernels. Additionally, we show how these results can be used to guarantee safe control of an unknown dynamical system and provide numerical illustration examples.
翻訳日:2021-03-30 08:03:02 公開日:2021-01-13
# 不確定離散時間系の安定化のためのシミュレータを用いた連続Q-Learning

Continuous Deep Q-Learning with Simulator for Stabilization of Uncertain Discrete-Time Systems ( http://arxiv.org/abs/2101.05640v1 )

ライセンス: Link先を確認
Junya Ikemoto and Toshimitsu Ushio(参考訳) 実システムの安定化問題に対する強化学習(RL)の適用は、エージェントが最適な政策を学ぶために多くの経験を必要とし、探索中に危険な行動を決定するため制限される。 実システムの数学的モデルを知っている場合、与えられたシステムパラメータベクトルを持つ数学的モデルを用いて実システムの振る舞いを述語するのでシミュレータは有用である。 実際のシステムとのインタラクションよりも、多くの経験を効率的に収集することができる。 しかし,システムパラメータベクトルを正確に同定することは困難である。 識別エラーが発生した場合、シミュレータによって得られた経験は、学習したポリシーのパフォーマンスを低下させる可能性がある。 そこで本研究では,2段階からなる実用的なRLアルゴリズムを提案する。 最初の段階では、複数のシステムパラメータベクトルを選択する。 次に,仮想システムと呼ばれる各システムパラメータベクトルの数学的モデルを構築する。 連続深層q学習アルゴリズムを用いて,複数の仮想システムに対して最適なq関数を求める。 第2段階では、基底関数が第1段階で学習された最適Q関数である線形近似関数により実システムのQ関数を表現する。 エージェントは実際のシステムとのインタラクションを通じてq関数を学習する。 数値シミュレーションにより,提案手法の有用性を示す。

Applications of reinforcement learning (RL) to stabilization problems of real systems are restricted since an agent needs many experiences to learn an optimal policy and may determine dangerous actions during its exploration. If we know a mathematical model of a real system, a simulator is useful because it predicates behaviors of the real system using the mathematical model with a given system parameter vector. We can collect many experiences more efficiently than interactions with the real system. However, it is difficult to identify the system parameter vector accurately. If we have an identification error, experiences obtained by the simulator may degrade the performance of the learned policy. Thus, we propose a practical RL algorithm that consists of two stages. At the first stage, we choose multiple system parameter vectors. Then, we have a mathematical model for each system parameter vector, which is called a virtual system. We obtain optimal Q-functions for multiple virtual systems using the continuous deep Q-learning algorithm. At the second stage, we represent a Q-function for the real system by a linear approximated function whose basis functions are optimal Q-functions learned at the first stage. The agent learns the Q-function through interactions with the real system online. By numerical simulations, we show the usefulness of our proposed method.
翻訳日:2021-03-30 08:02:48 公開日:2021-01-13
# 深層学習を用いたディジタル標高モデルの強化

Digital Elevation Model enhancement using Deep Learning ( http://arxiv.org/abs/2101.04812v1 )

ライセンス: Link先を確認
Casey Handmer(参考訳) 我々は、光学画像と畳み込みニューラルネットワークを用いた深層学習を用いて、惑星デジタル標高モデル(DEM)の高忠実性向上を示す。 拡張は利用可能な光学データの限界に再帰的に適用することができ、地球規模の火星DEMの90倍の解像度向上を示す。 深層学習に基づくフォトクリノメトリは、非理想的な照明条件によって不明瞭に特徴を回復する。 方法はグローバルスケールで自動化できる。 解析の結果,DEM傾斜誤差は従来の労働集約手法を用いた高分解能マップに匹敵することがわかった。

We demonstrate high fidelity enhancement of planetary digital elevation models (DEMs) using optical images and deep learning with convolutional neural networks. Enhancement can be applied recursively to the limit of available optical data, representing a 90x resolution improvement in global Mars DEMs. Deep learning-based photoclinometry robustly recovers features obscured by non-ideal lighting conditions. Method can be automated at global scale. Analysis shows enhanced DEM slope errors are comparable with high resolution maps using conventional, labor intensive methods.
翻訳日:2021-03-30 08:02:34 公開日:2021-01-13
# 小さな入力ノイズはクエリベースのブラックボックス攻撃を防御するのに十分である

Small Input Noise is Enough to Defend Against Query-based Black-box Attacks ( http://arxiv.org/abs/2101.04829v1 )

ライセンス: Link先を確認
Junyoung Byun, Hyojun Go, Changick Kim(参考訳) ディープニューラルネットワークは、さまざまなタスクで前例のないパフォーマンスを示すが、敵の例に対する脆弱性は、安全クリティカルなシステムへのデプロイを妨げる。 多くの研究により、敵がターゲットモデルの内部情報にアクセスできないブラックボックス設定でも攻撃が可能であることが示されている。 ほとんどのブラックボックス攻撃はクエリに基づいており、それぞれが入力に対するターゲットモデルの出力を取得し、近年では要求されるクエリの数を減らすことに重点を置いている。 本稿では,対象モデルの出力がクエリ入力と正確に一致するという,これらの攻撃の暗黙の仮定に注意する。 この仮定を破るためにモデルにランダム性を導入すると、クエリベースの攻撃は勾配推定と局所探索の両方において非常に困難になる可能性がある。 このモチベーションから、小さな付加的な入力ノイズでもほとんどのクエリベースの攻撃を中和でき、この単純で効果的なアプローチをSND(Small Noise Defense)と呼ぶ。 SNDがクエリベースのブラックボックス攻撃に対してどのように防御できるかを分析し、CIFAR-10とImageNetデータセットによる8種類の最先端攻撃に対してその効果を示す。 強力な防御能力があるにもかかわらず、SNDは元のクリーンな精度と計算速度をほぼ維持している。 SNDは、推論段階で1行のコードのみを追加することで、事前訓練されたモデルに容易に適用できるので、将来的にはクエリベースのブラックボックス攻撃に対する防御のベースラインとして使用されることを期待します。

While deep neural networks show unprecedented performance in various tasks, the vulnerability to adversarial examples hinders their deployment in safety-critical systems. Many studies have shown that attacks are also possible even in a black-box setting where an adversary cannot access the target model's internal information. Most black-box attacks are based on queries, each of which obtains the target model's output for an input, and many recent studies focus on reducing the number of required queries. In this paper, we pay attention to an implicit assumption of these attacks that the target model's output exactly corresponds to the query input. If some randomness is introduced into the model to break this assumption, query-based attacks may have tremendous difficulty in both gradient estimation and local search, which are the core of their attack process. From this motivation, we observe even a small additive input noise can neutralize most query-based attacks and name this simple yet effective approach Small Noise Defense (SND). We analyze how SND can defend against query-based black-box attacks and demonstrate its effectiveness against eight different state-of-the-art attacks with CIFAR-10 and ImageNet datasets. Even with strong defense ability, SND almost maintains the original clean accuracy and computational speed. SND is readily applicable to pre-trained models by adding only one line of code at the inference stage, so we hope that it will be used as a baseline of defense against query-based black-box attacks in the future.
翻訳日:2021-03-30 08:02:27 公開日:2021-01-13
# 画像に基づくマルウェア検出のための解釈型アンサンブル学習に向けて

Towards Interpretable Ensemble Learning for Image-based Malware Detection ( http://arxiv.org/abs/2101.04889v1 )

ライセンス: Link先を確認
Yuzhou Lin, Xiaolin Chang(参考訳) 画像に基づくマルウェア検出のためのディープラーニング(DL)モデルは、高い予測精度を生み出す能力を示した。 しかし、モデル解釈性は、セキュリティおよび安全クリティカルなアプリケーションドメインにおいて、広く応用される上で課題を提起している。 本稿では,画像に基づくマルウェア検出(IEMD)のための解釈可能なアンサンブル学習手法の設計を目的とする。 まず,選択型深絞り学習(SDEL)検出器を提案し,次にEnsemble Deep Taylor Decomposition(EDTD)アプローチを設計し,SDEL検出器の出力にピクセルレベルの説明を与える。 さらに,画素レベルのヒートマップに対する忠実性,ロバスト性,表現性を計算する式を開発し,edtd説明の質を評価する。 EDTD の説明により,SDEL 検出器のトレーニングにより IEMD を確立する新しい解釈型ドロップアウト手法 (IDrop) を開発した。 実験結果は、画像に基づくマルウェア検出の従来の説明方法よりも、EDTDのより良い説明を示す。 さらに実験の結果,IEMDの精度は99.87%まで向上し,高い精度の予測結果が得られた。 さらに,IEMD構築時の検出精度の向上に伴い,IEMDの解釈可能性の向上が示唆された。 この一貫性は、IDropがモデルの解釈可能性と検出精度のトレードオフを軽減することを示唆している。

Deep learning (DL) models for image-based malware detection have exhibited their capability in producing high prediction accuracy. But model interpretability is posing challenges to their widespread application in security and safety-critical application domains. This paper aims for designing an Interpretable Ensemble learning approach for image-based Malware Detection (IEMD). We first propose a Selective Deep Ensemble Learning-based (SDEL) detector and then design an Ensemble Deep Taylor Decomposition (EDTD) approach, which can give the pixel-level explanation to SDEL detector outputs. Furthermore, we develop formulas for calculating fidelity, robustness and expressiveness on pixel-level heatmaps in order to assess the quality of EDTD explanation. With EDTD explanation, we develop a novel Interpretable Dropout approach (IDrop), which establishes IEMD by training SDEL detector. Experiment results exhibit the better explanation of our EDTD than the previous explanation methods for image-based malware detection. Besides, experiment results indicate that IEMD achieves a higher detection accuracy up to 99.87% while exhibiting interpretability with high quality of prediction results. Moreover, experiment results indicate that IEMD interpretability increases with the increasing detection accuracy during the construction of IEMD. This consistency suggests that IDrop can mitigate the tradeoff between model interpretability and detection accuracy.
翻訳日:2021-03-30 08:01:43 公開日:2021-01-13
# 好酸球性食道炎の生検に基づく機械学習による同定と世界的特徴の重要性

Machine learning approach for biopsy-based identification of eosinophilic esophagitis reveals importance of global features ( http://arxiv.org/abs/2101.04989v1 )

ライセンス: Link先を確認
Tomer Czyzewski, Nati Daniel, Mark Rochman, Julie M. Caldwell, Garrett A. Osswald, Margaret H. Collins, Marc E. Rothenberg, and Yonatan Savir(参考訳) ゴール:好酸球性食道炎(EoE)は食道粘膜に好酸球の蓄積を特徴とするアレルギー性炎症性疾患である。 eoe診断には、粘膜生検における好酸球レベルを手動で評価することが含まれる。 このプロセスの自動化における大きな課題の1つは、他の多くの生検ベースの診断と同様に、生検のサイズに対して小さい特徴を検出することである。 結果: 本研究では, 活性型EoE患者の食道生検からヘマトキシリンおよびエオシン含有スライドを用いて, 85%の精度, 82.5%の感度, 87%の感度で食道生検を分類できるディープ畳み込みニューラルネットワーク(DCNN)に基づくプラットフォームを開発した。 さらに,いくつかのダウンスケーリング戦略とクロッピング戦略を組み合わせることで,適切な分類に寄与するいくつかの機能は,特定の局所的特徴よりもグローバルであることを示す。 結論: 食道生検スライドのコンピュータビジョン解析を用いて, 人工知能によるEoEの同定能力について報告する。 さらに、EoEに関連するDCNNの特徴は、局所好酸球だけでなく、グローバルな組織学的変化にも基づいている。 本手法は生検による組織診断に依存する他の病態にも応用できる。

Goal: Eosinophilic esophagitis (EoE) is an allergic inflammatory condition characterized by eosinophil accumulation in the esophageal mucosa. EoE diagnosis includes a manual assessment of eosinophil levels in mucosal biopsies - a time-consuming, laborious task that is difficult to standardize. One of the main challenges in automating this process, like many other biopsy-based diagnostics, is detecting features that are small relative to the size of the biopsy. Results: In this work, we utilized hematoxylin- and eosin-stained slides from esophageal biopsies from patients with active EoE and control subjects to develop a platform based on a deep convolutional neural network (DCNN) that can classify esophageal biopsies with an accuracy of 85%, sensitivity of 82.5%, and specificity of 87%. Moreover, by combining several downscaling and cropping strategies, we show that some of the features contributing to the correct classification are global rather than specific, local features. Conclusions: We report the ability of artificial intelligence to identify EoE using computer vision analysis of esophageal biopsy slides. Further, the DCNN features associated with EoE are based on not only local eosinophils but also global histologic changes. Our approach can be used for other conditions that rely on biopsy-based histologic diagnostics.
翻訳日:2021-03-30 08:01:23 公開日:2021-01-13
# 線形逆問題に対するdaes:証明可能保証による回復の改善

DAEs for Linear Inverse Problems: Improved Recovery with Provable Guarantees ( http://arxiv.org/abs/2101.05130v1 )

ライセンス: Link先を確認
Jasjeet Dhaliwal, Kyle Hambrook(参考訳) 生成先行は線形逆問題における疎度先行よりも改善された結果をもたらすことが示されている。 しかし, (a) 回復速度が遅い, (b) 再建品質が不十分, (c) 再構成品質が計算に高価なハイパーパラメータのチューニングプロセスに付随している,といった欠点が, 現状ではある。 そこで本研究では,denoizing auto encoder (daes) をプリエントとして活用し,元の信号回復のための投影勾配降下アルゴリズムを提案する。 我々は,本手法の厳密な理論的保証と,圧縮センシング,塗布,超解像における工法の現状に対する優位性を実験的に実証する。 我々のアルゴリズムは2桁(100倍以上)のリカバリを高速化し、コンストラクションの質を1桁(10倍以上)向上させ、ハイパーパラメータのチューニングを必要としない。

Generative priors have been shown to provide improved results over sparsity priors in linear inverse problems. However, current state of the art methods suffer from one or more of the following drawbacks: (a) speed of recovery is slow; (b) reconstruction quality is deficient; (c) reconstruction quality is contingent on a computationally expensive process of tuning hyperparameters. In this work, we address these issues by utilizing Denoising Auto Encoders (DAEs) as priors and a projected gradient descent algorithm for recovering the original signal. We provide rigorous theoretical guarantees for our method and experimentally demonstrate its superiority over existing state of the art methods in compressive sensing, inpainting, and super-resolution. We find that our algorithm speeds up recovery by two orders of magnitude (over 100x), improves quality of reconstruction by an order of magnitude (over 10x), and does not require tuning hyperparameters.
翻訳日:2021-03-30 08:01:01 公開日:2021-01-13
# 大規模自己教師モデルによる医用画像分類

Big Self-Supervised Models Advance Medical Image Classification ( http://arxiv.org/abs/2101.05224v1 )

ライセンス: Link先を確認
Shekoofeh Azizi, Basil Mustafa, Fiona Ryan, Zachary Beaver, Jan Freyberg, Jonathan Deaton, Aaron Loh, Alan Karthikesalingam, Simon Kornblith, Ting Chen, Vivek Natarajan, Mohammad Norouzi(参考訳) 自己監督型プレトレーニングと教師付き微調整は、特にラベル付き例が乏しい場合には画像認識に成功しているが、医学的画像分析では注目されていない。 本稿では,医用画像分類のための事前学習戦略として,自己指導型学習の有効性について検討する。 デジタルカメラ画像からの皮膚科皮膚状態分類とマルチラベル胸部x線分類の2つの異なる課題について実験を行い,imagenet上での自己教師付き学習と,ラベルなし領域特異的医用画像に対する自己教師付き学習が医療画像分類器の精度を大幅に向上させることを示した。 本稿では,患者1人あたりの病態の複数の画像を用いて,より情報に富んだポジティブなペアを自己教師型学習のために構築するMICLe法を提案する。 コントリビューションを合わせると,トップ1の精度が6.7%,AUCが1.1%,胸部X線分類が1.1%向上し,ImageNetで事前訓練した強い教師付きベースラインを上回った。 さらに,大規模な自己教師型モデルでは分布シフトに頑健であり,少数のラベル付き医療画像を用いて効率よく学習できることを示す。

Self-supervised pretraining followed by supervised fine-tuning has seen success in image recognition, especially when labeled examples are scarce, but has received limited attention in medical image analysis. This paper studies the effectiveness of self-supervised learning as a pretraining strategy for medical image classification. We conduct experiments on two distinct tasks: dermatology skin condition classification from digital camera images and multi-label chest X-ray classification, and demonstrate that self-supervised learning on ImageNet, followed by additional self-supervised learning on unlabeled domain-specific medical images significantly improves the accuracy of medical image classifiers. We introduce a novel Multi-Instance Contrastive Learning (MICLe) method that uses multiple images of the underlying pathology per patient case, when available, to construct more informative positive pairs for self-supervised learning. Combining our contributions, we achieve an improvement of 6.7% in top-1 accuracy and an improvement of 1.1% in mean AUC on dermatology and chest X-ray classification respectively, outperforming strong supervised baselines pretrained on ImageNet. In addition, we show that big self-supervised models are robust to distribution shift and can learn efficiently with a small number of labeled medical images.
翻訳日:2021-03-30 08:00:44 公開日:2021-01-13
# グローバル注意型局所リカレントネットワークを用いた低コストな時間領域音声分離

Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent Networks ( http://arxiv.org/abs/2101.05014v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu(参考訳) 時間領域音声分離ネットワーク(TasNets)の最近の研究は,音声分離に大きな成功を収めている。 それでも従来のtasnetは、産業アプリケーションにおけるメモリとレイテンシの制約を満たすのに苦労している。 この点において、我々は低コストで高性能なアーキテクチャ、すなわちグローバルな注意的局所再帰(GALR)ネットワークを設計する。 デュアルパスRNN(DPRNN)と同様に、まず特徴系列を2次元セグメントに分割し、その配列をセグメント内次元とセグメント間次元の両方に沿って処理する。 我々の主な革新は、セグメント間次元に沿って繰り返し処理される機能に加えて、GALRはセグメント間次元に沿ったシーケンスに自己アテンション機構を適用し、コンテキスト認識情報を集約し、並列化を可能にします。 実験の結果,GALRは従来よりも優れたネットワークであることが示唆された。 一方、1.5Mのパラメータしか持たず、DPRNNと比較して36.1%のランタイムメモリ、49.4%の計算処理で同等の分離性能を実現している。 一方、DPRNNと同等のモデルサイズであるGALRは、3つのデータセットにおいて一貫してDPRNNを上回り、特にベンチマークWSJ0-2mixタスクにおいて、SI-SNRiを2.4dB絶対的に改善した。

Recent research on the time-domain audio separation networks (TasNets) has brought great success to speech separation. Nevertheless, conventional TasNets struggle to satisfy the memory and latency constraints in industrial applications. In this regard, we design a low-cost high-performance architecture, namely, globally attentive locally recurrent (GALR) network. Alike the dual-path RNN (DPRNN), we first split a feature sequence into 2D segments and then process the sequence along both the intra- and inter-segment dimensions. Our main innovation lies in that, on top of features recurrently processed along the inter-segment dimensions, GALR applies a self-attention mechanism to the sequence along the inter-segment dimension, which aggregates context-aware information and also enables parallelization. Our experiments suggest that GALR is a notably more effective network than the prior work. On one hand, with only 1.5M parameters, it has achieved comparable separation performance at a much lower cost with 36.1% less runtime memory and 49.4% fewer computational operations, relative to the DPRNN. On the other hand, in a comparable model size with DPRNN, GALR has consistently outperformed DPRNN in three datasets, in particular, with a substantial margin of 2.4dB absolute improvement of SI-SNRi in the benchmark WSJ0-2mix task.
翻訳日:2021-03-30 08:00:19 公開日:2021-01-13
# 対人訓練とデータ強化による常識因果推論の改善

Improving Commonsense Causal Reasoning by Adversarial Training and Data Augmentation ( http://arxiv.org/abs/2101.04966v1 )

ライセンス: Link先を確認
Ieva Stali\=unait\.e, Philip John Gorinski, Ignacio Iacobacci(参考訳) 節間の因果関係の可能性を決定することは、複雑な推論能力を必要とする常識推論タスクである。 このタスクに対する一般的なアプローチは、特定のデータセット上で大きな事前学習された言語モデルをトレーニングすることです。 しかし、利用可能なタスクのトレーニングデータは、しばしば不足し、モデルのトレーニングが不安定になるか、データセットの浅い特徴に依存します。 本稿では,因果推論の領域においてモデルをより堅牢にするための多くの手法を提案する。 まず,同義語置換により摂動入力を生成し,逆行訓練を行う。 第2に、談話接続の言語理論に基づいて、大文の因果関係節を検出するための談話パーサと、散逸子を生成するための生成言語モデルを用いてデータ拡張を行う。 どちらの手法も、Compose of Plausible Alternatives (COPA)データセットと、表面的な手がかりを避けるために開発されたオリジナルデータの修正版であるBa balanced COPAデータセットのモデルパフォーマンスを高め、より難しいベンチマークにつながった。 予備生成したデータポイントは少ないが,両データセットのパフォーマンスと堅牢性は統計的に著しく向上した。

Determining the plausibility of causal relations between clauses is a commonsense reasoning task that requires complex inference ability. The general approach to this task is to train a large pretrained language model on a specific dataset. However, the available training data for the task is often scarce, which leads to instability of model training or reliance on the shallow features of the dataset. This paper presents a number of techniques for making models more robust in the domain of causal reasoning. Firstly, we perform adversarial training by generating perturbed inputs through synonym substitution. Secondly, based on a linguistic theory of discourse connectives, we perform data augmentation using a discourse parser for detecting causally linked clauses in large text, and a generative language model for generating distractors. Both methods boost model performance on the Choice of Plausible Alternatives (COPA) dataset, as well as on a Balanced COPA dataset, which is a modified version of the original data that has been developed to avoid superficial cues, leading to a more challenging benchmark. We show a statistically significant improvement in performance and robustness on both datasets, even with only a small number of additionally generated data points.
翻訳日:2021-03-30 07:59:55 公開日:2021-01-13
# ウズベクキキリル-ラチンキリル機械転写

Uzbek Cyrillic-Latin-Cyril lic Machine Transliteration ( http://arxiv.org/abs/2101.05162v1 )

ライセンス: Link先を確認
B. Mansurov and A. Mansurov(参考訳) 本稿では,キリル文字からラテン文字へのウズベク語辞書語翻訳のためのデータ駆動型アプローチを提案する。 我々は、ソーススクリプト内の単語の文字と、ターゲットスクリプト内の対応する単語のサブストリングをヒューリスティックにアライメントし、これらのアライメントを学習する決定木分類器を訓練する。 テストセットでは、キリルからラテンへのモデルは文字レベルのマイクロ平均f1スコア 0.9992、ラテンからキリルへのモデルは 0.9959 のスコアを達成する。 本研究は,低リソースのウズベク語のための機械翻訳テキストを生成する新しい手法である。

In this paper, we introduce a data-driven approach to transliterating Uzbek dictionary words from the Cyrillic script into the Latin script, and vice versa. We heuristically align characters of words in the source script with sub-strings of the corresponding words in the target script and train a decision tree classifier that learns these alignments. On the test set, our Cyrillic to Latin model achieves a character level micro-averaged F1 score of 0.9992, and our Latin to Cyrillic model achieves the score of 0.9959. Our contribution is a novel method of producing machine transliterated texts for the low-resource Uzbek language.
翻訳日:2021-03-30 07:59:35 公開日:2021-01-13
# geoGAT:地理テキスト分類のための注意機構に基づくグラフモデル

geoGAT: Graph Model Based on Attention Mechanism for Geographic Text Classification ( http://arxiv.org/abs/2101.11424v1 )

ライセンス: Link先を確認
Weipeng Jing, Xianyang Song, Donglin Di, Houbing Song(参考訳) 地理情報処理の分野では 地理的テキスト分類の研究はほとんどない。 しかし、中国語でのこの作業の応用は比較的稀である。 本研究は,多数のネットワークテキストから地理的実体を含むテキストを抽出する手法を実装することを目的としている。 これらのテキストの地理情報は、交通、都市計画、農村計画、災害救助などの分野において、非常に実用的なものである。 本稿では,注意機構を有するグラフ畳み込みニューラルネットワークの手法を用いてその機能を実現する。 グラフアテンションネットワークは、グラフ畳み込みニューラルネットワークの改良である。 gcnと比較してgatの利点は、隣接ノードの特性の和を重み付けるために注意機構が提案されていることである。 また,中国語テキスト分類の複数のデータセットから地理的分類を含む中国語データセットを構築する。 使用したジオガットのマクロfスコアは、新しい中国データセットで95\%に達した。

In the area of geographic information processing. There are few researches on geographic text classification. However, the application of this task in Chinese is relatively rare. In our work, we intend to implement a method to extract text containing geographical entities from a large number of network text. The geographic information in these texts is of great practical significance to transportation, urban and rural planning, disaster relief and other fields. We use the method of graph convolutional neural network with attention mechanism to achieve this function. Graph attention networks is an improvement of graph convolutional neural networks. Compared with GCN, the advantage of GAT is that the attention mechanism is proposed to weight the sum of the characteristics of adjacent nodes. In addition, We construct a Chinese dataset containing geographical classification from multiple datasets of Chinese text classification. The Macro-F Score of the geoGAT we used reached 95\% on the new Chinese dataset.
翻訳日:2021-03-30 07:59:21 公開日:2021-01-13
# 多項式時間メタ解釈学習のためのトッププログラムの構築と削減

Top Program Construction and Reduction for polynomial time Meta-Interpretive Learning ( http://arxiv.org/abs/2101.05050v1 )

ライセンス: Link先を確認
Stassa Patsantzis, Stephen H. Muggleton(参考訳) メタ解釈学習者は、ほとんどのILPシステムと同様に、仮説空間における正しい仮説、すべての構成可能な節のパワーセットを探すことで学習する。 この指数関数的に増加する探索が、トッププログラムの構築によってどのように置き換えられるかを示す: 正しい仮説の全ての正しい仮説における節の集合は、それ自体が正しい仮説である。 そこで我々はTopプログラム構築のためのアルゴリズムを提案し、多項式時間と有限個の例から正しいTopプログラムを構築することを示す。 我々はPrologのアルゴリズムを新しいMILシステムであるLouiseの基盤として実装し、Topプログラムを構築し、冗長な節を削除してそれを減らす。 我々は、格子世界ナビゲーション、グラフ接続性、文法学習データセットの実験において、Louiseを最先端の検索ベースMILシステムであるMetagolと比較し、仮説空間とターゲット理論が共に大きい場合、あるいは仮説空間が「分類ノイズ」の形で正しい仮説を含まない場合、LouiseがMetagolの予測精度を改善することを発見した。 仮説空間や対象理論が小さいとき、ルイーズとメタゴールも同様にうまく機能する。

Meta-Interpretive Learners, like most ILP systems, learn by searching for a correct hypothesis in the hypothesis space, the powerset of all constructible clauses. We show how this exponentially-growin g search can be replaced by the construction of a Top program: the set of clauses in all correct hypotheses that is itself a correct hypothesis. We give an algorithm for Top program construction and show that it constructs a correct Top program in polynomial time and from a finite number of examples. We implement our algorithm in Prolog as the basis of a new MIL system, Louise, that constructs a Top program and then reduces it by removing redundant clauses. We compare Louise to the state-of-the-art search-based MIL system Metagol in experiments on grid world navigation, graph connectedness and grammar learning datasets and find that Louise improves on Metagol's predictive accuracy when the hypothesis space and the target theory are both large, or when the hypothesis space does not include a correct hypothesis because of "classification noise" in the form of mislabelled examples. When the hypothesis space or the target theory are small, Louise and Metagol perform equally well.
翻訳日:2021-03-30 07:59:10 公開日:2021-01-13
# 接地抽象としてのホルマライジング概念

Formalising Concepts as Grounded Abstractions ( http://arxiv.org/abs/2101.05125v1 )

ライセンス: Link先を確認
Stephen Clark, Alexander Lerchner, Tamara von Glehn, Olivier Tieleman, Richard Tanburn, Misha Dashevskiy, Matko Bosnjak(参考訳) 概念の概念は数世紀にわたって哲学者、言語学者、認知科学者、人工知能の研究者によって研究されてきた(margolis & laurence, 1999)。 概念の形式的、数学的モデルに関する多くの文献があり、aiのすべてのサブフィールド -- 形式的概念分析 -- がこのトピックに捧げられている(ganter & obiedkov, 2016)。 近年、機械学習の研究者は、表現学習から生の知覚データ(higgins, sonnerat, et al., 2018)から概念を誘導する方法について研究を始めた。 本報告の目的は、このディープラーニングにおける最新の研究と互換性のある概念の正式な説明を提供することである。 本報告の主な技術的目標は,表現学習の技法を格子理論による概念空間の定式化と組み合わせることである。 部分順序と格子の数学は、概念空間をモデル化するための標準的なツール(ch.2, mitchell (1997), ganter and obiedkov (2016))であるが、教師なしの深層学習を用いて誘導される表現の上に概念格子を定義する形式的な研究は、我々が気づいていない(goodfellow et al., 2016)。 部分順序格子構造の利点は、これらが格子の交わりと結合を通して概念発見アルゴリズムで使用される自然なメカニズムを提供することである。

The notion of concept has been studied for centuries, by philosophers, linguists, cognitive scientists, and researchers in artificial intelligence (Margolis & Laurence, 1999). There is a large literature on formal, mathematical models of concepts, including a whole sub-field of AI -- Formal Concept Analysis -- devoted to this topic (Ganter & Obiedkov, 2016). Recently, researchers in machine learning have begun to investigate how methods from representation learning can be used to induce concepts from raw perceptual data (Higgins, Sonnerat, et al., 2018). The goal of this report is to provide a formal account of concepts which is compatible with this latest work in deep learning. The main technical goal of this report is to show how techniques from representation learning can be married with a lattice-theoretic formulation of conceptual spaces. The mathematics of partial orders and lattices is a standard tool for modelling conceptual spaces (Ch.2, Mitchell (1997), Ganter and Obiedkov (2016)); however, there is no formal work that we are aware of which defines a conceptual lattice on top of a representation that is induced using unsupervised deep learning (Goodfellow et al., 2016). The advantages of partially-ordered lattice structures are that these provide natural mechanisms for use in concept discovery algorithms, through the meets and joins of the lattice.
翻訳日:2021-03-30 07:58:47 公開日:2021-01-13
# 特徴改善:マイクロ圧縮認識のための表現特異的特徴学習と融合法

Feature refinement: An expression-specific feature learning and fusion method for micro-expression recognition ( http://arxiv.org/abs/2101.04838v1 )

ライセンス: Link先を確認
Ling Zhou, Qirong Mao, Xiaohua Huang, Feifei Zhang, Zhihong Zhang(参考訳) マイクロ表現の微妙な顔変化を抽出することが極めて困難であるため、マイクロ表現認識は困難になっている。 近年,マイクロ表現認識のための表現共有特徴量アルゴリズムが提案されている。 しかし、それらは特定の識別特性を明らかにしておらず、それが準最適性能をもたらす。 本稿では,表現特異的な特徴学習とマイクロ表現認識のための融合による特徴再構成({FR})を提案する。 特定の表現に対して有意かつ差別的な特徴を得ることを目的としており、表現特有の特徴を融合して表現を予測することを目的としている。 FRは、注意機構と分類分岐を備えた式提案モジュールからなる。 まず、開始モジュールを光学的フローに基づいて設計し、表現共有特徴を得る。 第二に、特定の表現に対して有意で差別的な特徴を抽出するために、表現共有された特徴を注意要因と提案損失を伴う式提案モジュールに供給する。 最後に、分類枝において、カテゴリのラベルは、表現特化特徴の融合によって予測される。 3つの公開データベースの実験は、異なるプロトコルの下でFRの有効性を検証する。 公開ベンチマークの結果,我々のfrは,マイクロ表現認識に有意かつ差別的な情報を提供することがわかった。 以上の結果から,従来のマイクロ圧縮認識技術によるFRの性能向上や性能向上が期待できる。

Micro-Expression Recognition has become challenging, as it is extremely difficult to extract the subtle facial changes of micro-expressions. Recently, several approaches proposed several expression-shared features algorithms for micro-expression recognition. However, they do not reveal the specific discriminative characteristics, which lead to sub-optimal performance. This paper proposes a novel Feature Refinement ({FR}) with expression-specific feature learning and fusion for micro-expression recognition. It aims to obtain salient and discriminative features for specific expressions and also predict expression by fusing the expression-specific features. FR consists of an expression proposal module with attention mechanism and a classification branch. First, an inception module is designed based on optical flow to obtain expression-shared features. Second, in order to extract salient and discriminative features for specific expression, expression-shared features are fed into an expression proposal module with attention factors and proposal loss. Last, in the classification branch, labels of categories are predicted by a fusion of the expression-specific features. Experiments on three publicly available databases validate the effectiveness of FR under different protocol. Results on public benchmarks demonstrate that our FR provides salient and discriminative information for micro-expression recognition. The results also show our FR achieves better or competitive performance with the existing state-of-the-art methods on micro-expression recognition.
翻訳日:2021-03-30 07:58:20 公開日:2021-01-13
# ニューラルネットワークを用いた合成交通標識による道路画像の強調

Road images augmentation with synthetic traffic signs using neural networks ( http://arxiv.org/abs/2101.04927v1 )

ライセンス: Link先を確認
Anton Konushin, Boris Faizov, Vlad Shakhuro(参考訳) 交通標識認識はコンピュータビジョンにおいてよく研究されている問題である。 しかし、アートメソッドの状態は、トレーニングデータセットでよく表現されている頻繁な手話クラスにのみ機能する。 稀な交通標識の検出・分類の課題を考察する。 我々は,合成学習データを用いてこの問題を解決しようとする。 このようなトレーニングデータは、実際の写真にサインの合成画像を埋め込むことで得られる。 本稿では,合成標識を外観に整合させる3つの手法を提案する。 これらの手法は現代のgenerative adversarial network (gan) アーキテクチャに基づいている。 提案手法では,トレーニングセットに存在しない希少な交通標識クラスを現実的に組み込むことができる。 画像中の新しい交通標識の正確な位置をサンプリングするために変分オートエンコーダを適用する。 実データと合成データの混合により,分類器と検出器の精度が向上することが実証された。

Traffic sign recognition is a well-researched problem in computer vision. However, the state of the art methods works only for frequent sign classes, which are well represented in training datasets. We consider the task of rare traffic sign detection and classification. We aim to solve that problem by using synthetic training data. Such training data is obtained by embedding synthetic images of signs in the real photos. We propose three methods for making synthetic signs consistent with a scene in appearance. These methods are based on modern generative adversarial network (GAN) architectures. Our proposed methods allow realistic embedding of rare traffic sign classes that are absent in the training set. We adapt a variational autoencoder for sampling plausible locations of new traffic signs in images. We demonstrate that using a mixture of our synthetic data with real data improves the accuracy of both classifier and detector.
翻訳日:2021-03-30 07:57:41 公開日:2021-01-13
# 指紋に基づく大規模重複解消

Large scale deduplication based on fingerprints ( http://arxiv.org/abs/2101.04976v1 )

ライセンス: Link先を確認
Jean Aymar Biyiha Nlend, Ibrahim Moukouop Nguena and Thomas Bouetou Bouetou(参考訳) 指紋ベースのシステムでは、人口増加に伴ってデータベースのサイズが大幅に増加する。 発展途上国では、有権者登録時に中央システムを使うのが難しいため、複数の地方有権者データベースを作成して統合して中央データベースを形成することが多い。 プロセスは重複を取り除き、投票者によって独自性を確保するために使用される。 これまでバイオメトリックスを専門とする企業は、複数の高価な計算サーバとアルゴリズムを使用して、指紋に基づいて大規模な重複解消を行う。 これらのアルゴリズムは、データベースのサイズが n である O (n2) の複雑さのため、かなり時間がかかる。 本稿では,O(2n)での演算をコンピュータで行うアルゴリズムを提案する。 これは、各指紋に対して5×5マトリクスを用いて得られる指標の開発に基づいている。 このインデックスは、指紋を比較するためにO(1)のサイズのクラスタを構築することができる。 この手法は, 約11 4000 個の指紋を用いて評価されており, その結果, 浸透率が 1% 未満, ほぼ o(1) の同定, o (n) の重複が認められていることがわかった。 10万の指紋のベースは、通常のツールの数日とサーバーとは対照的に、2時間以内のコンピュータで複製できる。 キーワード: 指紋、クラスタ、インデックス、重複排除。

In fingerprint-based systems, the size of databases increases considerably with population growth. In developing countries, because of the difficulty in using a central system when enlisting voters, it often happens that several regional voter databases are created and then merged to form a central database. A process is used to remove duplicates and ensure uniqueness by voter. Until now, companies specializing in biometrics use several costly computing servers with algorithms to perform large-scale deduplication based on fingerprints. These algorithms take a considerable time because of their complexity in O (n2), where n is the size of the database. This article presents an algorithm that can perform this operation in O (2n), with just a computer. It is based on the development of an index obtained using a 5 * 5 matrix performed on each fingerprint. This index makes it possible to build clusters of O (1) in size in order to compare fingerprints. This approach has been evaluated using close to 11 4000 fingerprints, and the results obtained show that this approach allows a penetration rate of less than 1%, an almost O (1) identification, and an O (n) deduplication. A base of 10 000 000 fingerprints can be deduplicated with a just computer in less than two hours, contrary to several days and servers for the usual tools. Keywords: fingerprint, cluster, index, deduplication.
翻訳日:2021-03-30 07:57:31 公開日:2021-01-13
# クロスモーダル検索のための確率的埋め込み

Probabilistic Embeddings for Cross-Modal Retrieval ( http://arxiv.org/abs/2101.05068v1 )

ライセンス: Link先を確認
Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio de Rezende, Yannis Kalantidis, Diane Larlus(参考訳) クロスモーダル検索法では、複数のモダリティ、典型的には視覚と言語領域からのサンプルの共通表現空間を構築する。 画像やキャプションについては、対応文の多さが課題を特に難しくしている。 画像(主にキャプション)が与えられると、同じ意味を持つ複数のキャプション(しばしば画像)が存在する。 本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。 代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。 また,COCOなどの一般的なベンチマークでは,クロスモーダルマッチングのための非排他的アノテーションに悩まされているため,CUBデータセットの検索も追加で評価することを提案する。 我々はPCMEを広範囲に短縮し、決定論的手法よりも検索性能を向上するだけでなく、埋め込みをより解釈可能な不確実性の評価も提供することを示した。

Cross-modal retrieval methods build a common representation space for samples from multiple modalities, typically from the vision and the language domains. For images and their captions, the multiplicity of the correspondences makes the task particularly challenging. Given an image (respectively a caption), there are multiple captions (respectively images) that equally make sense. In this paper, we argue that deterministic functions are not sufficiently powerful to capture such one-to-many correspondences. Instead, we propose to use Probabilistic Cross-Modal Embedding (PCME), where samples from the different modalities are represented as probabilistic distributions in the common embedding space. Since common benchmarks such as COCO suffer from non-exhaustive annotations for cross-modal matches, we propose to additionally evaluate retrieval on the CUB dataset, a smaller yet clean database where all possible image-caption pairs are annotated. We extensively ablate PCME and demonstrate that it not only improves the retrieval performance over its deterministic counterpart, but also provides uncertainty estimates that render the embeddings more interpretable.
翻訳日:2021-03-30 07:57:11 公開日:2021-01-13
# 画像ナビゲーションのためのメモリ型強化学習

Memory-Augmented Reinforcement Learning for Image-Goal Navigation ( http://arxiv.org/abs/2101.05181v1 )

ライセンス: Link先を確認
Lina Mezghani, Sainbayar Sukhbaatar, Thibaut Lavril, Oleksandr Maksymets, Dhruv Batra, Piotr Bojanowski, Karteek Alahari(参考訳) 本研究では,視覚現実的な3D環境における画像ゴールナビゲーションの問題に対処する。 このタスクは、以前目にしたことのない環境でターゲットイメージが示す場所にナビゲートすることを含む。 rlベースやslamベースのアプローチを含む初期の試みでは、一般化性能が低かったり、ポーズ/深度センサーに依存していたりしている。 本稿では,クロスエピソードメモリを利用してナビゲートを学ぶ新しい手法を提案する。 まず,ステートエンベディングネットワークを自己教師あり方式でトレーニングし,それをメモリに予め訪問した状態を埋め込む。 オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。 我々は、広範囲な評価を通じてアプローチを検証するとともに、我々のデータ拡張メモリベースのモデルが、挑戦的なGibsonデータセットにおける画像ゴールナビゲーションタスクの新たな状態を確立することを示す。 この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。

In this work, we address the problem of image-goal navigation in the context of visually-realistic 3D environments. This task involves navigating to a location indicated by a target image in a previously unseen environment. Earlier attempts, including RL-based and SLAM-based approaches, have either shown poor generalization performance, or are heavily-reliant on pose/depth sensors. We present a novel method that leverages a cross-episode memory to learn to navigate. We first train a state-embedding network in a self-supervised fashion, and then use it to embed previously-visited states into a memory. In order to avoid overfitting, we propose to use data augmentation on the RGB input during training. We validate our approach through extensive evaluations, showing that our data-augmented memory-based model establishes a new state of the art on the image-goal navigation task in the challenging Gibson dataset. We obtain this competitive performance from RGB input only, without access to additional sensors such as position or depth.
翻訳日:2021-03-30 07:56:52 公開日:2021-01-13
# 粗量子化信号に対するエネルギー効率の良い分散学習アルゴリズム

Energy-Efficient Distributed Learning Algorithms for Coarsely Quantized Signals ( http://arxiv.org/abs/2101.04824v1 )

ライセンス: Link先を確認
A. Danaee, R. C. de Lamare and V. H. Nascimento(参考訳) 本研究では、低解像度のADCと、IoT(Internet of Things)ネットワークのための粗い量子信号を用いたエネルギー効率のよい分散学習フレームワークを提案する。 特に、数ビットで量子化された信号を用いてエネルギー効率の良い方法でパラメータを学習できる分散量子化認識最小平均正方形(dqa-lms)アルゴリズムを開発した。 また,安定性条件を含むDQA-LMSアルゴリズムの統計的解析を行った。 シミュレーションにより、IoTデバイスがピアツーピアモードで動作する分散パラメータ推定タスクにおいて、DQA-LMSアルゴリズムを既存の手法と比較し、DQA-LMSアルゴリズムの有効性を実証する。

In this work, we present an energy-efficient distributed learning framework using low-resolution ADCs and coarsely quantized signals for Internet of Things (IoT) networks. In particular, we develop a distributed quantization-aware least-mean square (DQA-LMS) algorithm that can learn parameters in an energy-efficient fashion using signals quantized with few bits while requiring a low computational cost. We also carry out a statistical analysis of the proposed DQA-LMS algorithm that includes a stability condition. Simulations assess the DQA-LMS algorithm against existing techniques for a distributed parameter estimation task where IoT devices operate in a peer-to-peer mode and demonstrate the effectiveness of the DQA-LMS algorithm.
翻訳日:2021-03-30 07:56:21 公開日:2021-01-13
# gaussian mixed graphics lassoの脳ネットワークにおけるエッジ検出への応用

Gaussian Mixture Graphical Lasso with Application to Edge Detection in Brain Networks ( http://arxiv.org/abs/2101.05348v1 )

ライセンス: Link先を確認
Hang Yin, Xinyue Liu, Xiangnan Kong(参考訳) 疎逆共分散推定(エッジデテクション)は近年重要な研究課題であり、観測されたノードアクティビティに基づいてネットワークシステム内のノードの集合間の直接接続を発見することが目的である。 既存の著作は主に一様分布に焦点を合わせており、観測された活動はアシングルガウス分布(すなわち1つのグラフ)から生成されると仮定されている。 多くの現実世界の応用(例えば脳ネットワークス)において、ノードのアクティビティは通常より複雑なパターンを示し、単一のガウス分布によって捉えるのが困難である。 本研究では、Latent DirichletAllocation (LDA) [4] にインスパイアされ、エッジ検出プロブレムを、それぞれが別々のサブネットワークに対応する多重ガウス分布の混合を推定するものとしてモデル化することを検討する。 この問題を解決するために,GaussianMixture Graphical Lasso (MGL) と呼ばれる新しいモデルを提案する。 それぞれの混合成分とそれらのパラメータによって生成された信号の比率をemフレームワークを介して反復的に学習する。 より解釈可能なネットワークを得るために、MGLはMER(Mutual Exclusivity Regularization)と呼ばれる特別な正規化を課し、異なるサブネットワーク間のオーバーラップを最小限にする。 MERはまた、リードワールドデータセット、すなわちノイズの多い観測と小さなサンプルサイズにおける一般的な問題にも対処する。 合成および実脳のデータセットに関する広範な実験を通じて、MGLは観測されたノード活動から複数の接続構造を効果的に発見できることを示した。

Sparse inverse covariance estimation (i.e., edge de-tection) is an important research problem in recent years, wherethe goal is to discover the direct connections between a set ofnodes in a networked system based upon the observed nodeactivities. Existing works mainly focus on unimodal distributions,where it is usually assumed that the observed activities aregenerated from asingleGaussian distribution (i.e., one graph).However, this assumption is too strong for many real-worldapplicatio ns. In many real-world applications (e.g., brain net-works), the node activities usually exhibit much more complexpatterns that are difficult to be captured by one single Gaussiandistribution . In this work, we are inspired by Latent DirichletAllocation (LDA) [4] and consider modeling the edge detectionproblem as estimating a mixture ofmultipleGaussian distribu-tions, where each corresponds to a separate sub-network. Toaddress this problem, we propose a novel model called GaussianMixture Graphical Lasso (MGL). It learns the proportionsof signals generated by each mixture component and theirparameters iteratively via an EM framework. To obtain moreinterpretable networks, MGL imposes a special regularization,calle d Mutual Exclusivity Regularization (MER), to minimize theoverlap between different sub-networks. MER also addresses thecommon issues in read-world data sets,i.e., noisy observationsand small sample size. Through the extensive experiments onsynthetic and real brain data sets, the results demonstrate thatMGL can effectively discover multiple connectivity structuresfrom the observed node activities
翻訳日:2021-03-30 07:56:09 公開日:2021-01-13
# レーザー粉体融合添加物製造におけるポロシティ解析のための物理インフォームド機械学習モデル

A Physics-Informed Machine Learning Model for Porosity Analysis in Laser Powder Bed Fusion Additive Manufacturing ( http://arxiv.org/abs/2101.05605v1 )

ライセンス: Link先を確認
Rui Liu and Sen Liu and Xiaoli Zhang(参考訳) 部品品質の制御には, 細孔発生機構の解析が不可欠であり, 将来的な細孔制御の理論的基礎を定めている。 現在のポロシティ分析モデルは、レーザーアングルや部分ポーズなどのマシン設定パラメータを使用する。 しかし、これらの設定ベースモデルは機械に依存しているため、しばしば異なる機械のポロシティの分析に移行しない。 最初の問題に対処するため、PIM(Physical-informe d, data-driven model)は、機械設定パラメータを直接使用して印刷部品のポロシティレベルを予測する代わりに、まず機械設定をレーザーエネルギー密度やレーザー放射圧などの物理的効果に解釈する。 次に、これらの物理的、マシンに依存しない効果は、定量的な孔径予測ではなく、パス、フラグ、フェールカテゴリに従ってポロシティレベルを予測するために使用される。 6つの学習方法の評価により, PIMは10$\sim$26%の予測誤差で良好な性能を示した。 最後に, 品質解析のために, 細孔効果と細孔抑制効果を解析した。

To control part quality, it is critical to analyze pore generation mechanisms, laying theoretical foundation for future porosity control. Current porosity analysis models use machine setting parameters, such as laser angle and part pose. However, these setting-based models are machine dependent, hence they often do not transfer to analysis of porosity for a different machine. To address the first problem, a physics-informed, data-driven model (PIM), which instead of directly using machine setting parameters to predict porosity levels of printed parts, it first interprets machine settings into physical effects, such as laser energy density and laser radiation pressure. Then, these physical, machine independent effects are used to predict porosity levels according to pass, flag, fail categories instead of focusing on quantitative pore size prediction. With six learning methods evaluation, PIM proved to achieve good performances with prediction error of 10$\sim$26%. Finally, pore-encouraging influence and pore-suppressing influence were analyzed for quality analysis.
翻訳日:2021-03-30 07:55:42 公開日:2021-01-13
# 時系列における非目標・目標・普遍的敵攻撃・防衛

Untargeted, Targeted and Universal Adversarial Attacks and Defenses on Time Series ( http://arxiv.org/abs/2101.05639v1 )

ライセンス: Link先を確認
Pradeep Rathore, Arghya Basak, Sri Harsha Nistala, Venkataramana Runkana(参考訳) ディープラーニングベースのモデルは、敵攻撃に対して脆弱である。 これらの攻撃は、攻撃者がディープラーニングモデルを騙すだけでなく、特定のクラスを予測するためにモデルを誤認識しようとする場合、より有害である可能性がある。 このような標的または目標外の攻撃は、個々のサンプルのために特別に調整され、サンプルに不可避なノイズを追加する必要がある。 対照的に、普遍的敵対攻撃は、与えられたデータセットの任意のサンプルに追加できる特別な知覚不能ノイズを計算し、深層学習モデルが間違ったクラスを予測せざるを得ない。 我々の知る限り、これらの時系列データに対する標的的で普遍的な攻撃は、これまでのどの研究でも研究されていない。 本研究では,UCR時系列データセットに対して,対象外,対象外,普遍的攻撃を行った。 これらの攻撃に対して,ディープラーニングに基づく時系列分類モデルが脆弱であることを示す。 また、トレーニングデータのごく一部しか必要とせず、普遍的敵攻撃は優れた一般化特性を有することを示す。 また,対人訓練による対人防御も行った。 その結果,一段階攻撃であるfast gradient sign method (fgsm) を用いて対向的に訓練されたモデルでは,一般的な反復攻撃である basic iterative method (bim) と同様に,fgsm に対する防御が可能であることがわかった。

Deep learning based models are vulnerable to adversarial attacks. These attacks can be much more harmful in case of targeted attacks, where an attacker tries not only to fool the deep learning model, but also to misguide the model to predict a specific class. Such targeted and untargeted attacks are specifically tailored for an individual sample and require addition of an imperceptible noise to the sample. In contrast, universal adversarial attack calculates a special imperceptible noise which can be added to any sample of the given dataset so that, the deep learning model is forced to predict a wrong class. To the best of our knowledge these targeted and universal attacks on time series data have not been studied in any of the previous works. In this work, we have performed untargeted, targeted and universal adversarial attacks on UCR time series datasets. Our results show that deep learning based time series classification models are vulnerable to these attacks. We also show that universal adversarial attacks have good generalization property as it need only a fraction of the training data. We have also performed adversarial training based adversarial defense. Our results show that models trained adversarially using Fast gradient sign method (FGSM), a single step attack, are able to defend against FGSM as well as Basic iterative method (BIM), a popular iterative attack.
翻訳日:2021-03-30 07:55:26 公開日:2021-01-13
# AI開発者が多分野チームにおけるコミュニケーション上の課題を克服する方法:ケーススタディ

How AI Developers Overcome Communication Challenges in a Multidisciplinary Team: A Case Study ( http://arxiv.org/abs/2101.06098v1 )

ライセンス: Link先を確認
David Piorkowski, Soya Park, April Yi Wang, Dakuo Wang, Michael Muller, Felix Portnoy(参考訳) aiアプリケーションの開発は、複数の分野にわたる取り組みであり、ai開発者と協力する複数の役割、データサイエンティストを含むための包括的用語、および同じチームにおける他のai関連の役割を含む。 これらのコラボレーションの間に、データサイエンスに熟練したAI開発者と、通常はそうでない外部ステークホルダとの間には、知識のミスマッチがあります。 この違いはコミュニケーションのギャップを招き、AI開発者はコラボレータにデータサイエンスの概念を説明することに失敗する。 本稿では,AI開発者へのインタビューとコミュニケーションのために作成したアーティファクトの両方の分析を含む研究について報告する。 共有精神モデルの分析レンズを用いて、AI開発者が直面するコミュニケーションギャップの種類、AI開発者が規律や組織の境界を越えてコミュニケーションする方法、信頼と期待に関する問題を同時に管理する方法を報告します。

The development of AI applications is a multidisciplinary effort, involving multiple roles collaborating with the AI developers, an umbrella term we use to include data scientists and other AI-adjacent roles on the same team. During these collaborations, there is a knowledge mismatch between AI developers, who are skilled in data science, and external stakeholders who are typically not. This difference leads to communication gaps, and the onus falls on AI developers to explain data science concepts to their collaborators. In this paper, we report on a study including analyses of both interviews with AI developers and artifacts they produced for communication. Using the analytic lens of shared mental models, we report on the types of communication gaps that AI developers face, how AI developers communicate across disciplinary and organizational boundaries, and how they simultaneously manage issues regarding trust and expectations.
翻訳日:2021-03-30 07:54:59 公開日:2021-01-13
# ネットワークマイクログリッドの神経受容性

Neuro-Reachability of Networked Microgrids ( http://arxiv.org/abs/2101.05159v1 )

ライセンス: Link先を確認
Yifan Zhou, Peng Zhang(参考訳) ニューラル常微分方程式ネットワーク(ODE-Net)を用いた到達可能性法(Neuro-Reachability) は,未同定サブシステムと不均一不確実性を有するネットワークマイクログリッド(NM)の動的検証のために考案された。 1)NMsシステムの非線形および微分構造を保存したデータ駆動状態空間モデルを構築するためのODENet対応動的モデル探索手法,2)物理データ統合(PDI)NMsモデルの構築,3)PDI駆動動的検証の信頼性を高めるために適合性を利用した到達性解析を開発した。 大規模ケーススタディでは、マイクログリッド動的モデル発見におけるODE-Net対応手法の有効性と、複数の不確実性および様々な運用シナリオ下でのNMsダイナミックスの検証におけるNeuro-Reachabilityアプローチの有効性が示されている。

A neural ordinary differential equations network (ODE-Net)-enabled reachability method (Neuro-Reachability) is devised for the dynamic verification of networked microgrids (NMs) with unidentified subsystems and heterogeneous uncertainties. Three new contributions are presented: 1) An ODENet-enabled dynamic model discovery approach is devised to construct the data-driven state-space model which preserves the nonlinear and differential structure of the NMs system; 2) A physics-data-integra ted (PDI) NMs model is established, which empowers various NM analytics; and 3) A conformance-empowere d reachability analysis is developed to enhance the reliability of the PDI-driven dynamic verification. Extensive case studies demonstrate the efficacy of the ODE-Net-enabled method in microgrid dynamic model discovery, and the effectiveness of the Neuro-Reachability approach in verifying the NMs dynamics under multiple uncertainties and various operational scenarios.
翻訳日:2021-03-30 07:54:43 公開日:2021-01-13
# ビデオスナップショット圧縮イメージングのためのプラグアンドプレイアルゴリズム

Plug-and-Play Algorithms for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2101.04822v1 )

ライセンス: Link先を確認
Xin Yuan, Yang Liu, Jinli Suo, Fr\'edo Durand, Qionghai Dai(参考訳) 本稿では,低速2次元センサ(検出器)を用いて高速映像を撮影するビデオスナップショット圧縮画像(SCI)の再構成問題を考察する。 SCIの基本的な原理は、異なるマスクでシーケンシャルな高速フレームを変調し、次にこれらの符号化されたフレームをセンサー上のスナップショットに統合することで、センサーを低速にすることができる。 一方、ビデオSCIは低帯域幅、低消費電力、低コストの利点を享受している。 一方、私たちの日常生活における大規模問題(HDやUHDビデオ)にSCIを適用することは依然として困難であり、そのボトルネックの1つは再構築アルゴリズムにある。 出口アルゴリズムは遅すぎる(反復最適化アルゴリズム)か、エンコーディングプロセス(ディープラーニングベースのエンドツーエンドネットワーク)に柔軟性がない。 本稿では,プラグイン・アンド・プレイ(PnP)フレームワークに基づく高速かつ柔軟なSCIアルゴリズムを開発する。 PnP-ADMM法に加えて,計算負荷の少ないPnP-GAPアルゴリズムを提案する。 まず,画像の奥行き変化に先立って,pnpが30フレームのuhdカラー映像をスナップショット計測から復元できることを示す。 ビデオは時間的相関が強いので,ビデオの深いデノイジングプリミティブを用いることで,結果の大幅な改善を実現する。 さらに,提案したPnPアルゴリズムをモザイクセンサを用いたカラーSCIシステムに拡張し,各画素が赤,緑,青のチャネルのみをキャプチャする。 カラービデオSCIシステムのフレキシブルで高品質な再構成を実現するために,共同再構成・復調パラダイムを開発した。 シミュレーションと実データの両方の広範な結果から,提案アルゴリズムの優越性が検証された。

We consider the reconstruction problem of video snapshot compressive imaging (SCI), which captures high-speed videos using a low-speed 2D sensor (detector). The underlying principle of SCI is to modulate sequential high-speed frames with different masks and then these encoded frames are integrated into a snapshot on the sensor and thus the sensor can be of low-speed. On one hand, video SCI enjoys the advantages of low-bandwidth, low-power and low-cost. On the other hand, applying SCI to large-scale problems (HD or UHD videos) in our daily life is still challenging and one of the bottlenecks lies in the reconstruction algorithm. Exiting algorithms are either too slow (iterative optimization algorithms) or not flexible to the encoding process (deep learning based end-to-end networks). In this paper, we develop fast and flexible algorithms for SCI based on the plug-and-play (PnP) framework. In addition to the PnP-ADMM method, we further propose the PnP-GAP (generalized alternating projection) algorithm with a lower computational workload. We first employ the image deep denoising priors to show that PnP can recover a UHD color video with 30 frames from a snapshot measurement. Since videos have strong temporal correlation, by employing the video deep denoising priors, we achieve a significant improvement in the results. Furthermore, we extend the proposed PnP algorithms to the color SCI system using mosaic sensors, where each pixel only captures the red, green or blue channels. A joint reconstruction and demosaicing paradigm is developed for flexible and high quality reconstruction of color video SCI systems. Extensive results on both simulation and real datasets verify the superiority of our proposed algorithm.
翻訳日:2021-03-30 07:54:27 公開日:2021-01-13
# 深部残存u-netアーキテクチャに基づく尿管内視鏡像のルーメンセグメンテーション法

A Lumen Segmentation Method in Ureteroscopy Images based on a Deep Residual U-Net architecture ( http://arxiv.org/abs/2101.05021v1 )

ライセンス: Link先を確認
Jorge F. Lazo, Aldo Marzullo, Sara Moccia, Michele Catellani, Benoit Rosa, Michel de Mathelin, Elena De Momi(参考訳) 尿管鏡は、尿中愛着の大多数に対して、最初の外科的治療の選択肢となっている。 この手順は、外科医に尿道内をナビゲートするために必要な視覚情報を提供する内視鏡を用いて実行される。 外科的補助システムの開発を念頭において, 内視鏡が従うべき経路を示す視覚的な基準であるため, ルーメンセグメンテーションの課題は基本的な部分である。 これは、これまで尿管内視鏡データで分析されていないものです。 しかし, この課題は, 尿管鏡検査の画質と条件を考慮に入れたいくつかの課題を提起する。 本稿では,U-Netに基づくアーキテクチャにおける残余単位の利点を利用したディープニューラルネットワークの実装について検討する。 これらのネットワークのトレーニングのために、グレースケールとRGBデータイメージの2つの異なる色空間の使用を分析する。 その結果, 灰色スケール画像のトレーニングは, それぞれ0.73, 0.58, 0.92のサイコロスコア, 精度, およびリコールの平均値が得られた。 その結果,尿路を通したナビゲーションおよび誘導のためのコンピュータ支援システムの開発に,残留u-netの使用が適したモデルとなる可能性が示唆された。

Ureteroscopy is becoming the first surgical treatment option for the majority of urinary affections. This procedure is performed using an endoscope which provides the surgeon with the visual information necessary to navigate inside the urinary tract. Having in mind the development of surgical assistance systems, that could enhance the performance of surgeon, the task of lumen segmentation is a fundamental part since this is the visual reference which marks the path that the endoscope should follow. This is something that has not been analyzed in ureteroscopy data before. However, this task presents several challenges given the image quality and the conditions itself of ureteroscopy procedures. In this paper, we study the implementation of a Deep Neural Network which exploits the advantage of residual units in an architecture based on U-Net. For the training of these networks, we analyze the use of two different color spaces: gray-scale and RGB data images. We found that training on gray-scale images gives the best results obtaining mean values of Dice Score, Precision, and Recall of 0.73, 0.58, and 0.92 respectively. The results obtained shows that the use of residual U-Net could be a suitable model for further development for a computer-aided system for navigation and guidance through the urinary system.
翻訳日:2021-03-30 07:53:45 公開日:2021-01-13
# 比較的怠け者: vision と gnss を用いた屋内外ナビゲーション

Relatively Lazy: Indoor-Outdoor Navigation Using Vision and GNSS ( http://arxiv.org/abs/2101.05107v1 )

ライセンス: Link先を確認
Benjamin Congram and Timothy D. Barfoot(参考訳) Visual Teach and Repeat (VT&R)は、困難な環境での自律的な視覚ベースのパスに対する、相対的なナビゲーションが堅牢で効率的なソリューションであることを示した。 グローバルナビゲーション衛星システム(gnss)のような追加の絶対センサーを追加することで、vt&rの領域を視覚的にローカライズする能力が保証されない環境に拡大する可能性がある。 経路追従誤差が必要とされるまで遅延写像と遅延推定の手法は絶対状態を推定する必要がない。 その結果、マップの最適化は不要であり、教えられた直後にパスを駆動することができる。 様々な照明条件にまたがる3.5kmの自律走行路を含む屋内・屋外共同環境で実験を行い,実際のロボットに対するアプローチを検証する。 センサ毎に大量のドロップアウトがあるにも関わらず,スムーズなエラー信号を実現する。

Visual Teach and Repeat (VT&R) has shown relative navigation is a robust and efficient solution for autonomous vision-based path following in difficult environments. Adding additional absolute sensors such as Global Navigation Satellite Systems (GNSS) has the potential to expand the domain of VT&R to environments where the ability to visually localize is not guaranteed. Our method of lazy mapping and delaying estimation until a path-tracking error is needed avoids the need to estimate absolute states. As a result, map optimization is not required and paths can be driven immediately after being taught. We validate our approach on a real robot through an experiment in a joint indoor-outdoor environment comprising 3.5km of autonomous route repeating across a variety of lighting conditions. We achieve smooth error signals throughout the runs despite large sections of dropout for each sensor.
翻訳日:2021-03-30 07:53:29 公開日:2021-01-13
# 微分型レイトレーシングによる実用的顔再建

Practical Face Reconstruction via Differentiable Ray Tracing ( http://arxiv.org/abs/2101.05356v1 )

ライセンス: Link先を確認
Abdallah Dib, Gaurav Bharaj, Junghyun Ahn, C\'edric Th\'ebault, Philippe-Henri Gosselin, Marco Romeo, Louis Chevallier(参考訳) 本研究では,3次元形状,反射率(拡散,鏡面および粗さ),ポーズ,カメラパラメータ,およびシーン照明などの特徴を,無拘束単眼画像から推定する,微分可能なレイトレーシングに基づく新しい顔再構成手法を提案する。 提案手法は, 顔再構成のための粗大な最適化式を導入し, パラメータ化された仮想光ステージによるシーン照明をモデル化する。 本手法は,無拘束照明や自己シャドウ条件を処理できるだけでなく,拡散および鏡面アルベドを推定できる。 顔属性を一貫して実用的な意味論的に推定するために、2段階最適化戦略はパラメトリック属性のサブセットを体系的に使用する。 例えば、自己陰影は第1段階で推定され、後に第2段階におけるパーソナライズされた拡散と特異なアルベドへの焼き込みを防ぐ。 本手法は,過度な照明条件下でも顔属性を推定できる実世界シナリオでの有効性を示す。 近年の最先端手法に対するアブレーション研究,解析,比較の結果,提案手法の精度と汎用性は向上した。 一貫性のある顔属性の再構成により,本手法は照明,アルベド,自己陰影といった様々なスタイルのアプリケーションの作成と転送を行う。

We present a differentiable ray-tracing based novel face reconstruction approach where scene attributes - 3D geometry, reflectance (diffuse, specular and roughness), pose, camera parameters, and scene illumination - are estimated from unconstrained monocular images. The proposed method models scene illumination via a novel, parameterized virtual light stage, which in-conjunction with differentiable ray-tracing, introduces a coarse-to-fine optimization formulation for face reconstruction. Our method can not only handle unconstrained illumination and self-shadows conditions, but also estimates diffuse and specular albedos. To estimate the face attributes consistently and with practical semantics, a two-stage optimization strategy systematically uses a subset of parametric attributes, where subsequent attribute estimations factor those previously estimated. For example, self-shadows estimated during the first stage, later prevent its baking into the personalized diffuse and specular albedos in the second stage. We show the efficacy of our approach in several real-world scenarios, where face attributes can be estimated even under extreme illumination conditions. Ablation studies, analyses and comparisons against several recent state-of-the-art methods show improved accuracy and versatility of our approach. With consistent face attributes reconstruction, our method leads to several style -- illumination, albedo, self-shadow -- edit and transfer applications, as discussed in the paper.
翻訳日:2021-03-30 07:53:15 公開日:2021-01-13
# eコマース検索におけるディープセマンティクスマッチングのためのヘテロジニアスネットワーク埋め込み

Heterogeneous Network Embedding for Deep Semantic Relevance Match in E-commerce Search ( http://arxiv.org/abs/2101.04850v1 )

ライセンス: Link先を確認
Ziyang Liu, Zhaomeng Cheng, Yunjiang Jiang, Yue Shang, Wei Xiong, Sulong Xu, Bo Long, Di Jin(参考訳) 検索結果の妥当性予測は,検索エンジンの利便性を高め,ユーザエクスペリエンスを円滑に確保するために,eコマース検索エンジンにとって不可欠な課題である。 ここ数年、トランスフォーマースタイルのモデルと深いテキストマッチングモデルを使って関連性を高める研究が相次いだ。 しかし、これらの2種類のモデルは、電子商取引の検索ログにユビキタスに存在する2部ネットワーク構造を無視しており、これらのモデルは非効率である。 本稿では,従来の一階関係とは根本的に異なる2階関係を新たに提案し,結果の関連性を予測する。 我々は、eコマースアイテムの関連性に対するエンドツーエンドのファースト・アンド・セブンド・オーディエンス・レバレンス予測モデルを初めて設計する。 このモデルは、クリックや購入を含むユーザの行動フィードバックの情報を用いて構築されたバイパートイトネットワークの近傍構造によって強化される。 エッジが関連情報を正確にエンコードすることを保証するため,BERTから生成された外部知識を導入し,ユーザ行動のネットワークを改良する。 これにより、新しいモデルが、考慮中のフォーカスクエリ-テーマペアに非常に関係のある、隣り合う項目とクエリからの情報を統合できるようになる。 オフライン実験の結果,新しいモデルにより,人間関係判定における予測精度が有意に向上した。 アブレーション研究では、一階と二階のモデルは一階のモデルよりも平均4.3%向上した。 オンラインa/bテストの結果、この新しいモデルはベースモデルよりも商業的利益を導き出した。

Result relevance prediction is an essential task of e-commerce search engines to boost the utility of search engines and ensure smooth user experience. The last few years eyewitnessed a flurry of research on the use of Transformer-style models and deep text-match models to improve relevance. However, these two types of models ignored the inherent bipartite network structures that are ubiquitous in e-commerce search logs, making these models ineffective. We propose in this paper a novel Second-order Relevance, which is fundamentally different from the previous First-order Relevance, to improve result relevance prediction. We design, for the first time, an end-to-end First-and-Second-ord er Relevance prediction model for e-commerce item relevance. The model is augmented by the neighborhood structures of bipartite networks that are built using the information of user behavioral feedback, including clicks and purchases. To ensure that edges accurately encode relevance information, we introduce external knowledge generated from BERT to refine the network of user behaviors. This allows the new model to integrate information from neighboring items and queries, which are highly relevant to the focus query-item pair under consideration. Results of offline experiments showed that the new model significantly improved the prediction accuracy in terms of human relevance judgment. An ablation study showed that the First-and-Second-ord er model gained a 4.3% average gain over the First-order model. Results of an online A/B test revealed that the new model derived more commercial benefits compared to the base model.
翻訳日:2021-03-30 07:52:49 公開日:2021-01-13
# ディープニューラルネットワークを用いたブラックボックスソフトウェアの行動モデル推論

Behavioral Model Inference of Black-box Software using Deep Neural Networks ( http://arxiv.org/abs/2101.04948v1 )

ライセンス: Link先を確認
Mohammad Jafar Mashhadi, Foozhan Ataiefard, Hadi Hemmati and Niel Walkinshaw(参考訳) テストや異常検出といった多くのソフトウェアエンジニアリングタスクは、ソフトウェアの振る舞いモデルを推論する能力から恩恵を受ける可能性がある。 本稿では,分析対象のシステムをこの粒度的に計測できないブラックボックスシナリオについて検討し,このシナリオは連続的な信号の形で制御システムのログ解析に特に有効である。 この状況では、実行トレースは入力信号と出力信号の多変量時系列に比例し、システムの異なる状態が時系列内の異なる「フェーズ」に対応する。 主な課題は、これらのフェーズがいつ変化するかを検出することである。 Unfortunately, most existing solutions are either univariate, make assumptions on the data distribution, or have limited learning power.Therefore, we propose a hybrid deep neural network that accepts as input a multivariate time series and applies a set of convolutional and recurrent layers to learn the non-linear correlations between signals and the patterns over time.We show how this approach can be used to accurately detect state changes, and how the inferred models can be successfully applied to transfer-learning scenarios, to accurately process traces from different products with similar execution characteristics. Our experimental results on two UAV autopilot case studies indicate that our approach is highly accurate (over 90% F1 score for state classification) and significantly improves baselines (by up to 102% for change point detection).Using transfer learning we also show that up to 90% of the maximum achievable F1 scores in the open-source case study can be achieved by reusing the trained models from the industrial case and only fine tuning them using as low as 5 labeled samples, which reduces the manual labeling effort by 98%.

Many software engineering tasks, such as testing, and anomaly detection can benefit from the ability to infer a behavioral model of the software.Most existing inference approaches assume access to code to collect execution sequences. In this paper, we investigate a black-box scenario, where the system under analysis cannot be instrumented, in this granular fashion.This scenario is particularly prevalent with control systems' log analysis in the form of continuous signals. In this situation, an execution trace amounts to a multivariate time-series of input and output signals, where different states of the system correspond to different `phases` in the time-series. The main challenge is to detect when these phase changes take place. Unfortunately, most existing solutions are either univariate, make assumptions on the data distribution, or have limited learning power.Therefore, we propose a hybrid deep neural network that accepts as input a multivariate time series and applies a set of convolutional and recurrent layers to learn the non-linear correlations between signals and the patterns over time.We show how this approach can be used to accurately detect state changes, and how the inferred models can be successfully applied to transfer-learning scenarios, to accurately process traces from different products with similar execution characteristics. Our experimental results on two UAV autopilot case studies indicate that our approach is highly accurate (over 90% F1 score for state classification) and significantly improves baselines (by up to 102% for change point detection).Using transfer learning we also show that up to 90% of the maximum achievable F1 scores in the open-source case study can be achieved by reusing the trained models from the industrial case and only fine tuning them using as low as 5 labeled samples, which reduces the manual labeling effort by 98%.
翻訳日:2021-03-30 07:52:23 公開日:2021-01-13
# 時間的テキストネットワークにおける重複コミュニティ検出

Overlapping Community Detection in Temporal Text Networks ( http://arxiv.org/abs/2101.05137v1 )

ライセンス: Link先を確認
Shuhan Yan, Yuting Jia, Xinbing Wang(参考訳) ネットワーク内のグループを同じ属性、機能、ノード間の接続に基づいて分析することは、ネットワーク情報を理解する方法である。 一連のノードグループを発見するタスクは、コミュニティ検出と呼ばれる。 一般に、このタスク、すなわちリンク構造とノード属性を満たすために2種類の情報を利用することができる。 時間的テキストネットワークは、両方の情報源を含む特別な種類のネットワークである。 典型的な代表者は、オンラインブログネットワーク、World Wide Web(WWW)、学術引用ネットワークである。 本稿では,時間的テキストネットワークにおけるコミュニティ検出の重複問題について検討する。 32の大規模テンポラリテキストネットワークを調べると,共通コミュニティのない2つのノードを接続するエッジが多数存在し,同じコミュニティ内のノードが類似したテキストコンテンツを共有していることが分かる。 このシナリオは、既存の全てのコミュニティ検出手法で定量的にモデル化することはできない。 これらの経験的観察に動機づけられ、コミュニティ間の相互作用を捉え、リンク構造とノード属性の両方からの情報を検討する生成モデルであるmagic(model affiliation graph with interaction communities)を提案する。 3種類のデータセットに対する実験により,MAGICは4つの最先端手法に対して,4つの広く使用されているメトリクスにおいて大きな改善を達成していることが示された。

Analyzing the groups in the network based on same attributes, functions or connections between nodes is a way to understand network information. The task of discovering a series of node groups is called community detection. Generally, two types of information can be utilized to fulfill this task, i.e., the link structures and the node attributes. The temporal text network is a special kind of network that contains both sources of information. Typical representatives include online blog networks, the World Wide Web (WWW) and academic citation networks. In this paper, we study the problem of overlapping community detection in temporal text network. By examining 32 large temporal text networks, we find a lot of edges connecting two nodes with no common community and discover that nodes in the same community share similar textual contents. This scenario cannot be quantitatively modeled by practically all existing community detection methods. Motivated by these empirical observations, we propose MAGIC (Model Affiliation Graph with Interacting Communities), a generative model which captures community interactions and considers the information from both link structures and node attributes. Our experiments on 3 types of datasets show that MAGIC achieves large improvements over 4 state-of-the-art methods in terms of 4 widely-used metrics.
翻訳日:2021-03-30 07:52:02 公開日:2021-01-13
# autods: データサイエンスの人間中心自動化に向けて

AutoDS: Towards Human-Centered Automation of Data Science ( http://arxiv.org/abs/2101.05273v1 )

ライセンス: Link先を確認
Dakuo Wang, Josh Andres, Justin Weisz, Erick Oduor, Casey Dugan(参考訳) データサイエンス(DS)プロジェクトは、しばしばデータ科学者やドメインエキスパート(例えば、データ探索、モデルトレーニングなど)のための精力的なタスクからなるライフサイクルに従う。 最近まで、機械学習(ml)研究者は、これらのタスクでデータワーカーを支援する、有望な自動化技術を開発した。 本稿では,最新のml自動化技術を活用し,データサイエンスプロジェクトを支援する自動機械学習(automl)システムであるautodsについて紹介する。 データワーカーはデータセットをアップロードするだけで、システムは自動的にML設定、プリプロセスデータ、アルゴリズムの選択、モデルをトレーニングすることができる。 これらの提案は、Webベースのグラフィカルユーザインタフェースとノートブックベースのプログラミングユーザーインターフェースを介してユーザに提示される。 データサイエンスプロジェクトを完成させるために、あるグループがautodを使用していない30人のプロデータサイエンティストとautodを研究した。 予想通り、autodsは生産性を向上させる。しかし驚くべきことに、autods groupが生成するモデルは品質が高く、エラーが少ないが、人間の信頼度スコアは低い。 我々は,データサイエンスのライフサイクルにおいて,自動化技術を人間の作業に組み込むための設計上の意味を考察した。

Data science (DS) projects often follow a lifecycle that consists of laborious tasks for data scientists and domain experts (e.g., data exploration, model training, etc.). Only till recently, machine learning(ML) researchers have developed promising automation techniques to aid data workers in these tasks. This paper introduces AutoDS, an automated machine learning (AutoML) system that aims to leverage the latest ML automation techniques to support data science projects. Data workers only need to upload their dataset, then the system can automatically suggest ML configurations, preprocess data, select algorithm, and train the model. These suggestions are presented to the user via a web-based graphical user interface and a notebook-based programming user interface. We studied AutoDS with 30 professional data scientists, where one group used AutoDS, and the other did not, to complete a data science project. As expected, AutoDS improves productivity; Yet surprisingly, we find that the models produced by the AutoDS group have higher quality and less errors, but lower human confidence scores. We reflect on the findings by presenting design implications for incorporating automation techniques into human work in the data science lifecycle.
翻訳日:2021-03-30 07:51:43 公開日:2021-01-13
# 義手のための展開可能な把持型確率推定器の作成に向けて

Towards Creating a Deployable Grasp Type Probability Estimator for a Prosthetic Hand ( http://arxiv.org/abs/2101.05357v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Mo Han, Deniz Erdogmus, and Gunar Schirner(参考訳) 下腕のアンプの場合、義手は身体的な相互作用の能力のほとんどを回復する。 これは、さまざまなオブジェクトをつかみ、ユーザが意図したようにタイムリーに実行することのできる手振りを正確に予測する必要がある。 現在のアプローチはしばしば、意図した動きを推測するために、残肢筋からの電気筋電図(EMG)信号のような生理学的信号入力に依存する。 しかし、信号品質、ユーザの多様性、高い変動性はシステムのロバスト性に悪影響を及ぼす。 本研究は,EMG信号のみに頼るのではなく,機械学習とコンピュータビジョン手法により,EMG意図推論を物理的状態の確率で拡張する。 この目的のために、(1)最先端のディープニューラルネットワークアーキテクチャを研究して、義手における知識伝達の動作源を選択する(2)対象画像を含むデータセットと、従来の分類ラベルとしてゼロと1の絶対値を使用するのではなく、その合計が1となる確率の集合であるようなラベル付けの新たな形式として、把握型の確率分布を用いる。 提案手法は,手のひらカメラの視覚情報を用いて,握り以上の確率のEMG予測と融合可能な確率予測を生成する。 その結果,inceptionv3 は 0.95 角類似度で最高精度を達成し,1.4 mobilenetv2 は 0.93 で 20% の演算量を達成できた。

For lower arm amputees, prosthetic hands promise to restore most of physical interaction capabilities. This requires to accurately predict hand gestures capable of grabbing varying objects and execute them timely as intended by the user. Current approaches often rely on physiological signal inputs such as Electromyography (EMG) signal from residual limb muscles to infer the intended motion. However, limited signal quality, user diversity and high variability adversely affect the system robustness. Instead of solely relying on EMG signals, our work enables augmenting EMG intent inference with physical state probability through machine learning and computer vision method. To this end, we: (1) study state-of-the-art deep neural network architectures to select a performant source of knowledge transfer for the prosthetic hand, (2) use a dataset containing object images and probability distribution of grasp types as a new form of labeling where instead of using absolute values of zero and one as the conventional classification labels, our labels are a set of probabilities whose sum is 1. The proposed method generates probabilistic predictions which could be fused with EMG prediction of probabilities over grasps by using the visual information from the palm camera of a prosthetic hand. Our results demonstrate that InceptionV3 achieves highest accuracy with 0.95 angular similarity followed by 1.4 MobileNetV2 with 0.93 at ~20% the amount of operations.
翻訳日:2021-03-30 07:51:24 公開日:2021-01-13
# NetCut:レイヤ除去を利用したリアルタイムDNN推論

NetCut: Real-Time DNN Inference Using Layer Removal ( http://arxiv.org/abs/2101.05363v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Deniz Erdogmus, Gunar Schirner(参考訳) ディープラーニングは、人生の多くの側面において、人間を助ける上で重要な役割を果たす。 これらのネットワークは時間とともに深くなる傾向にあるため、追加の推論レイテンシーのコストで精度を高めるために、より多くの機能を抽出する。 この精度と性能のトレードオフにより、リソース制約の厳しいプロセッサである組み込みシステムでは、効率的なデプロイが困難になる。 これにより、特定の期限を早めに満たすネットワークの選択につながり、余分なslack時間によって、精度向上に寄与する可能性がある。 本研究では, (i) トランスファーラーニングに使用される事前学習ネットワークの問題を除去するTRN(TRimmed Networks) を構築する方法としての層除去の概念と, (ii) アプリケーションの期限を満たすTRNのみを提案して再学習し, 探索時間を著しく短縮する手法であるNetCutを提案する。 TRNがParetoフロンティアを拡張してレイテンシと精度をトレードオフし、任意の期限を満たすネットワークを、オフザシェルフネットワークよりも高い精度で提供できることを実証する。 実験結果から,NetCutと組み合わせて,より単純なデータセットにTRNを移行しながら,特定の期限を満たした状態で,既存のオフザシェルニューラルアーキテクチャで最大10.43%の精度向上を実現し,探索時間の27倍のスピードアップを実現するネットワークを提案することができた。

Deep Learning plays a significant role in assisting humans in many aspects of their lives. As these networks tend to get deeper over time, they extract more features to increase accuracy at the cost of additional inference latency. This accuracy-performance trade-off makes it more challenging for Embedded Systems, as resource-constrained processors with strict deadlines, to deploy them efficiently. This can lead to selection of networks that can prematurely meet a specified deadline with excess slack time that could have potentially contributed to increased accuracy. In this work, we propose: (i) the concept of layer removal as a means of constructing TRimmed Networks (TRNs) that are based on removing problem-specific features of a pretrained network used in transfer learning, and (ii) NetCut, a methodology based on an empirical or an analytical latency estimator, which only proposes and retrains TRNs that can meet the application's deadline, hence reducing the exploration time significantly. We demonstrate that TRNs can expand the Pareto frontier that trades off latency and accuracy to provide networks that can meet arbitrary deadlines with potential accuracy improvement over off-the-shelf networks. Our experimental results show that such utilization of TRNs, while transferring to a simpler dataset, in combination with NetCut, can lead to the proposal of networks that can achieve relative accuracy improvement of up to 10.43% among existing off-the-shelf neural architectures while meeting a specific deadline, and 27x speedup in exploration time.
翻訳日:2021-03-30 07:51:02 公開日:2021-01-13
# プロセス分類を用いた異常検出支援

Anomaly Detection Support Using Process Classification ( http://arxiv.org/abs/2101.05371v1 )

ライセンス: Link先を確認
Sebastian Eresheim, Lukas Daniel Klausner, Patrick Kochberger(参考訳) 異常検出システムは異常をスキャンする際に多くの情報を考慮する必要がある。 例えば、あるプロセスの異常は別のプロセスの異常ではないかもしれないため、異常が発生する可能性があるプロセスのコンテキストである。 したがって、システムイベントのようなデータは、それらが発するプログラムに割り当てられる必要がある。 本稿では,これらのシステムイベントの発生の原因となったプログラムの動作を,システムイベントのリストから推測できるかどうかを検討する。 そのため、等価でないイベント間の遷移確率をモデル化し、$k$-nearest neighborsアルゴリズムを適用する。 このシステムは4つの異なる評価スコアを用いて,非現実的な実世界データを用いて評価される。 本稿では,システムイベントからプログラム名を正しく推測する手法を提案する。

Anomaly detection systems need to consider a lot of information when scanning for anomalies. One example is the context of the process in which an anomaly might occur, because anomalies for one process might not be anomalies for a different one. Therefore data -- such as system events -- need to be assigned to the program they originate from. This paper investigates whether it is possible to infer from a list of system events the program whose behavior caused the occurrence of these system events. To that end, we model transition probabilities between non-equivalent events and apply the $k$-nearest neighbors algorithm. This system is evaluated on non-malicious, real-world data using four different evaluation scores. Our results suggest that the approach proposed in this paper is capable of correctly inferring program names from system events.
翻訳日:2021-03-30 07:50:33 公開日:2021-01-13
# FBGEMM:高性能低精度ディープラーニング推論の実現

FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference ( http://arxiv.org/abs/2101.05615v1 )

ライセンス: Link先を確認
Daya Khudia, Jianyu Huang, Protonu Basu, Summer Deng, Haixin Liu, Jongsoo Park, Mikhail Smelyanskiy(参考訳) ディープラーニングモデルでは、活性化と重みを表すために単一精度(FP32)浮動小数点データ型を用いるのが一般的であるが、最近の研究で、縮小精度のデータ型(FP16、16ビット整数、8ビット整数、さらには4ビット整数)による計算はFP32と同じ精度を達成するのに十分であることが示されている。 そこで我々は,次世代cpu上で高性能量子化推論を行うため,高性能カーネルライブラリfbgemmをゼロから設計した。 fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。 このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。

Deep learning models typically use single-precision (FP32) floating point data types for representing activations and weights, but a slew of recent research work has shown that computations with reduced-precision data types (FP16, 16-bit integers, 8-bit integers or even 4- or 2-bit integers) are enough to achieve same accuracy as FP32 and are much more efficient. Therefore, we designed fbgemm, a high-performance kernel library, from ground up to perform high-performance quantized inference on current generation CPUs. fbgemm achieves efficiency by fusing common quantization operations with a high-performance gemm implementation and by shape- and size-specific kernel code generation at runtime. The library has been deployed at Facebook, where it delivers greater than 2x performance gains with respect to our current production baseline.
翻訳日:2021-03-30 07:50:23 公開日:2021-01-13
# 不確実性定量化を伴うPDEの弱解に対するベイズニューラルネットワーク

Bayesian neural networks for weak solution of PDEs with uncertainty quantification ( http://arxiv.org/abs/2101.04879v1 )

ライセンス: Link先を確認
Xiaoxuan Zhang, Krishna Garikipati(参考訳) 偏微分方程式 (PDE) を解くことは、物理系の振る舞いを理解するための標準的アプローチである。 しかし,PDEの最先端技術を用いた大規模解法は依然として高価である。 本研究では,設計と意思決定を支援する高スループットソリューションの実現を目的として,ラベル無しでpdesを解くための新しい物理制約付きニューラルネットワーク(nn)手法を提案する。 PDE の強い形や弱い形を用いて損失関数を構成する既存の物理情報処理NN のアプローチとは対照的に,PDE の離散化残差に基づく NN の損失関数を,効率的で畳み込み演算子に基づくベクトル化実装により記述する。 決定論的モデルと確率的モデルの両方のエンコーダ-デコーダnn構造について検討し、後者のベイズnn(bnns)を用いてモデルパラメータからの認識的不確実性とデータのノイズからのアレータ的不確実性の両方を定量化する。 BNN の場合、離散化残差は確率関数を構成するために用いられる。 提案手法では, 決定的および確率的畳み込み層を用いて, 適用境界条件(BC)を学習し, 問題領域を検出する。 ディリクレ (Dirichlet) とノイマン (Neumann) の BC は NN への入力として指定されるため、一つの NN は同様の物理に対して解けるが、BC と多くの問題領域では異なる。 訓練された代理PDEソルバは、訓練中に露出していないBCの補間および外挿(ある程度)予測を行うこともできる。 このようなサロゲートモデルは問題にとって特に重要であり、同様のタイプのPDEを若干のバリエーションで何度も繰り返し解決する必要がある。 本研究では, 定常拡散, 線形弾性, 非線形弾性に応用し, 提案フレームワークの性能と性能を示す。

Solving partial differential equations (PDEs) is the canonical approach for understanding the behavior of physical systems. However, large scale solutions of PDEs using state of the art discretization techniques remains an expensive proposition. In this work, a new physics-constrained neural network (NN) approach is proposed to solve PDEs without labels, with a view to enabling high-throughput solutions in support of design and decision-making. Distinct from existing physics-informed NN approaches, where the strong form or weak form of PDEs are used to construct the loss function, we write the loss function of NNs based on the discretized residual of PDEs through an efficient, convolutional operator-based, and vectorized implementation. We explore an encoder-decoder NN structure for both deterministic and probabilistic models, with Bayesian NNs (BNNs) for the latter, which allow us to quantify both epistemic uncertainty from model parameters and aleatoric uncertainty from noise in the data. For BNNs, the discretized residual is used to construct the likelihood function. In our approach, both deterministic and probabilistic convolutional layers are used to learn the applied boundary conditions (BCs) and to detect the problem domain. As both Dirichlet and Neumann BCs are specified as inputs to NNs, a single NN can solve for similar physics, but with different BCs and on a number of problem domains. The trained surrogate PDE solvers can also make interpolating and extrapolating (to a certain extent) predictions for BCs that they were not exposed to during training. Such surrogate models are of particular importance for problems, where similar types of PDEs need to be repeatedly solved for many times with slight variations. We demonstrate the capability and performance of the proposed framework by applying it to steady-state diffusion, linear elasticity, and nonlinear elasticity.
翻訳日:2021-03-30 07:50:05 公開日:2021-01-13
# 分散ITシステムにおけるマルチソース異常検出

Multi-Source Anomaly Detection in Distributed IT Systems ( http://arxiv.org/abs/2101.04977v1 )

ライセンス: Link先を確認
Jasmin Bogatinovski and Sasho Nedelkoski(参考訳) 分散システムが生成するマルチソースデータは、システム全体の記述を提供する。 学習モデルによる異なるモダリティのジョイント分布を活用することは、分散システムのメンテナンスに重要な応用に有用である。 このような重要な課題の1つは異常検出のタスクであり、理論上期待されているシステム現在の動作のずれを検出することに興味がある。 本研究では,分散システムにおける異常検出作業において,分散トレースからの結合表現とシステムログデータを利用する。 その結果,単一モード異常検出法に比べ,トレースとログの併用が良好な結果を得た。 さらに、ログと分散トレースの両方の異常検出の一般化として使用される学習タスク、次のテンプレート予測NTPを形式化する。 最後に、この形式化により、トレースとログの両方にテンプレート埋め込みを学習できることを示す。 ジョイント埋め込みは、スパンとログの適切な初期化として、他のアプリケーションで再利用することができる。

The multi-source data generated by distributed systems, provide a holistic description of the system. Harnessing the joint distribution of the different modalities by a learning model can be beneficial for critical applications for maintenance of the distributed systems. One such important task is the task of anomaly detection where we are interested in detecting the deviation of the current behaviour of the system from the theoretically expected. In this work, we utilize the joint representation from the distributed traces and system log data for the task of anomaly detection in distributed systems. We demonstrate that the joint utilization of traces and logs produced better results compared to the single modality anomaly detection methods. Furthermore, we formalize a learning task - next template prediction NTP, that is used as a generalization for anomaly detection for both logs and distributed trace. Finally, we demonstrate that this formalization allows for the learning of template embedding for both the traces and logs. The joint embeddings can be reused in other applications as good initialization for spans and logs.
翻訳日:2021-03-30 07:49:34 公開日:2021-01-13
# 無線通信のためのランダムフーリエ特徴に基づくディープラーニング

Random Fourier Feature Based Deep Learning for Wireless Communications ( http://arxiv.org/abs/2101.05254v1 )

ライセンス: Link先を確認
Rangeet Mitra, Georges Kaddoum(参考訳) ディープラーニング(dl)は、ジェネリック無線通信で遭遇するいくつかの古典的な問題に対する強力な機械学習技術として登場した。 特に、ランダムフーリエ機能(rff)ベースのディープラーニングは、いくつかの機械学習問題に対する魅力的なソリューションとして登場したが、rffベースのdl-algorithmsの有効性を正当化するための厳密な結果がある。 このギャップに対処するため,我々はrffベースのdlの有効性を解析的に定量化することを試みる。 本稿では,rffベースのdlアーキテクチャが従来のdlアーキテクチャと比較して近似誤差と誤分類の確率が低いことを示す解析的証明を示す。 さらに, 学習複雑度が低いDLアーキテクチャを実現するために, 分散依存型RFFを提案する。 計算機シミュレーションにより, 提案した解析結果と分布依存RFFの実践的応用は, 次世代通信システムで発生する様々な機械学習問題に対して説明される: a) 視線(LOS)/視線(NLOS)分類, b) メッセージパスに基づく非線形可視光通信(VLC)チャネル上の低密度パリティチェックコード(LDPC)の検出。 特に低トレーニングデータ環境では,実測値のrffマップを利用した場合,有意な性能向上が得られた。 最後に, 提案した分布依存型RFFがRFFを著しく上回り, 次世代通信システムにおける機械学習/DLベースの応用に有用であることを示す。

Deep-learning (DL) has emerged as a powerful machine-learning technique for several classic problems encountered in generic wireless communications. Specifically, random Fourier Features (RFF) based deep-learning has emerged as an attractive solution for several machine-learning problems; yet there is a lacuna of rigorous results to justify the viability of RFF based DL-algorithms in general. To address this gap, we attempt to analytically quantify the viability of RFF based DL. Precisely, in this paper, analytical proofs are presented demonstrating that RFF based DL architectures have lower approximation-error and probability of misclassification as compared to classical DL architectures. In addition, a new distribution-depende nt RFF is proposed to facilitate DL architectures with low training-complexity. Through computer simulations, the practical application of the presented analytical results and the proposed distribution-depende nt RFF, are depicted for various machine-learning problems encountered in next-generation communication systems such as: a) line of sight (LOS)/non-line of sight (NLOS) classification, and b) message-passing based detection of low-density parity check codes (LDPC) codes over nonlinear visible light communication (VLC) channels. Especially in the low training-data regime, the presented simulations show that significant performance gains are achieved when utilizing RFF maps of observations. Lastly, in all the presented simulations, it is observed that the proposed distribution-depende nt RFFs significantly outperform RFFs, which make them useful for potential machine-learning/DL based applications in the context of next-generation communication systems.
翻訳日:2021-03-30 07:49:21 公開日:2021-01-13
# 深層メタ強化学習によるグリッド緊急制御のための学習と高速適応

Learning and Fast Adaptation for Grid Emergency Control via Deep Meta Reinforcement Learning ( http://arxiv.org/abs/2101.05317v1 )

ライセンス: Link先を確認
Renke Huang, Yujiao Chen, Tianzhixi Yin, Qiuhua Huang, Jie Tan, Wenhao Yu, Xinya Li, Ang Li, Yan Du(参考訳) 電力系統は、不確実性が低く、慣性が低く、運転限界に近い大きな変化を遂げているため、大規模な停電のリスクが高まっている。 したがって、システムの信頼性とセキュリティを維持するために、グリッド緊急制御を強化する必要がある。 この目的に向けて、近年、深層強化学習(DRL)に基づくグリッド制御ソリューションの開発において大きな進歩を遂げている。 しかし、既存のDRLベースのソリューションには2つの大きな制限がある: 1) グリッド操作条件、システムパラメータ、およびコンテンシーにうまく対応できない; 2) 新しいグリッド動作条件、システムパラメータ、およびコンテンシーに迅速に適応する能力が欠如し、現実のアプリケーションへの適用性が制限されている。 本稿では,新しい深層メタ強化学習(dmrl)アルゴリズムの開発により,これらの制限を緩和する。 DMRLは、メタ戦略最適化とDRLを組み合わせて、新しいシナリオに迅速に適応できる潜在空間によって変調されたポリシーを訓練する。 IEEE 300-busシステム上でDMRLアルゴリズムを試作した。 提案手法を用いて,潜伏変数を持つメタ訓練DRL警察を新しい運転条件やシナリオに迅速に適応し,現状のDRLとモデル予測制御(MPC)法と比較して優れた性能を実現する。

As power systems are undergoing a significant transformation with more uncertainties, less inertia and closer to operation limits, there is increasing risk of large outages. Thus, there is an imperative need to enhance grid emergency control to maintain system reliability and security. Towards this end, great progress has been made in developing deep reinforcement learning (DRL) based grid control solutions in recent years. However, existing DRL-based solutions have two main limitations: 1) they cannot handle well with a wide range of grid operation conditions, system parameters, and contingencies; 2) they generally lack the ability to fast adapt to new grid operation conditions, system parameters, and contingencies, limiting their applicability for real-world applications. In this paper, we mitigate these limitations by developing a novel deep meta reinforcement learning (DMRL) algorithm. The DMRL combines the meta strategy optimization together with DRL, and trains policies modulated by a latent space that can quickly adapt to new scenarios. We test the developed DMRL algorithm on the IEEE 300-bus system. We demonstrate fast adaptation of the meta-trained DRL polices with latent variables to new operating conditions and scenarios using the proposed method and achieve superior performance compared to the state-of-the-art DRL and model predictive control (MPC) methods.
翻訳日:2021-03-30 07:48:50 公開日:2021-01-13
# C^3DRec$:GDPR後における時間勧告のためのクラウドクライアント協調ディープラーニング

$C^3DRec$: Cloud-Client Cooperative Deep Learning for Temporal Recommendation in the Post-GDPR Era ( http://arxiv.org/abs/2101.05641v1 )

ライセンス: Link先を確認
Jialiang Han, Yun Ma(参考訳) モバイル機器により、ユーザーはいつでもどこでも情報を検索できる。 モバイルユーザの時折要求とフラグメンテーション利用パターンを考慮して,短期的ユーザインタラクション行動を伴う時間的関心を学習することで,モバイルデバイス上での情報検索の効率を向上させるための時間的推奨手法を提案する。 しかし、GDPRのようなプライバシー保護法や規制の施行は、時間的勧告の成功を覆す可能性がある。 なぜなら、最先端のレコメンデーションシステムは、中央集権的なサーバでユーザーデータを収集して処理する必要があるが、時間的レコメンデーションに使用されるインタラクションの行動データは、GDPRに従ってユーザの明確な許可なしには収集できない非トランザクショナルデータである。 結果として、サービスが対話行動データを集めることを許可していない場合、時間的推奨は機能しない。 本稿では,GDPR後における時間的推奨を実現するために,ユーザのプライバシを保護しつつ,推奨事項のマイニングを行うクラウド型協調型ディープラーニングフレームワークであるC^3DRec$を提案する。 C^3DRec$は、GDPRの前に収集されたデータを使用して集中サーバ上のグローバルレコメンデーションモデルを構築し、GDPR後に収集されたデータを使用して、個々のローカルデバイス上でモデルを微調整する。 私たちは推奨を達成するために2つのモードを設計します。 プルモード – 候補項目をデバイスにプルダウンしてローカルモデルに入力して推奨項目を取得する,プルモード,ローカルモデルの出力をサーバにプッシュして,候補項目と組み合わせて推奨項目を取得する,プッシュモード。 評価の結果、$C^3DRec$は、プライバシーの懸念を最小限に抑えながら、集中型アプローチに匹敵するレコメンデーション精度を達成している。

Mobile devices enable users to retrieve information at any time and any place. Considering the occasional requirements and fragmentation usage pattern of mobile users, temporal recommendation techniques are proposed to improve the efficiency of information retrieval on mobile devices by means of accurately recommending items via learning temporal interests with short-term user interaction behaviors. However, the enforcement of privacy-preserving laws and regulations, such as GDPR, may overshadow the successful practice of temporal recommendation. The reason is that state-of-the-art recommendation systems require to gather and process the user data in centralized servers but the interaction behaviors data used for temporal recommendation are usually non-transactional data that are not allowed to gather without the explicit permission of users according to GDPR. As a result, if users do not permit services to gather their interaction behaviors data, the temporal recommendation fails to work. To realize the temporal recommendation in the post-GDPR era, this paper proposes $C^3DRec$, a cloud-client cooperative deep learning framework of mining interaction behaviors for recommendation while preserving user privacy. $C^3DRec$ constructs a global recommendation model on centralized servers using data collected before GDPR and fine-tunes the model directly on individual local devices using data collected after GDPR. We design two modes to accomplish the recommendation, i.e. pull mode where candidate items are pulled down onto the devices and fed into the local model to get recommended items, and push mode where the output of the local model is pushed onto the server and combined with candidate items to get recommended ones. Evaluation results show that $C^3DRec$ achieves comparable recommendation accuracy to the centralized approaches, with minimal privacy concern.
翻訳日:2021-03-30 07:48:04 公開日:2021-01-13