このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201214となっている論文です。

PDF登録状況(公開日: 20201214)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層学習の観点からの固定優先度グローバルスケジューリング

Fixed Priority Global Scheduling from a Deep Learning Perspective ( http://arxiv.org/abs/2012.03002v2 )

ライセンス: Link先を確認
Hyunsung Lee, Michael Wang and Honguk Woo(参考訳) 近年、Deep Learningは組合せ最適化問題を効果的に解決するための実現可能なソリューションの1つとして認識されている。 本稿では,まず,固定優先度グローバルスケジューリング(fpgs)問題に対する予備作業を通じて,リアルタイムタスクスケジューリングにディープラーニングを適用する方法を提案する。 次に,複数の現実的で複雑なFPGSシナリオ,例えば依存性のあるタスクスケジューリング,混合臨界タスクスケジューリングについて,Deep Learning導入の可能な一般化について議論する。 様々なシステム構成や問題シナリオにおけるスケジューリングの質を改善するために、高度なディープラーニング技術を活用する多くの機会があると信じています。

Deep Learning has been recently recognized as one of the feasible solutions to effectively address combinatorial optimization problems, which are often considered important yet challenging in various research domains. In this work, we first present how to adopt Deep Learning for real-time task scheduling through our preliminary work upon fixed priority global scheduling (FPGS) problems. We then briefly discuss possible generalizations of Deep Learning adoption for several realistic and complicated FPGS scenarios, e.g., scheduling tasks with dependency, mixed-criticality task scheduling. We believe that there are many opportunities for leveraging advanced Deep Learning technologies to improve the quality of scheduling in various system configurations and problem scenarios.
翻訳日:2021-05-22 12:13:21 公開日:2020-12-14
# (参考訳) 複数のASR仮説を用いてi18n NLU性能を向上する [全文訳有]

Using multiple ASR hypotheses to boost i18n NLU performance ( http://arxiv.org/abs/2012.04099v2 )

ライセンス: CC BY 4.0
Charith Peris, Gokmen Oz, Khadige Abboud, Venkata sai Varada, Prashan Wanigasekara, Haidar Khan(参考訳) 現在の音声アシスタントは、通常、彼らの自然言語理解(NLU)モジュールへの入力として自動音声認識(ASR)モジュールから得られる最良の仮説を使い、低ランクのASR仮説に格納される有用な情報を失う。 ドイツ語とポルトガル語の2つの言語データセットのステータスクオと比較し,NLU関連タスクの性能の変化について検討した。 ASR 5-best から情報を抽出するために,ドメイン分類 (DC) 実験における抽出的要約と共同抽出的要約モデルを活用し,インテント分類 (IC) と名前付きエンティティ認識 (NER) マルチタスク実験のためのポインタジェネレータネットワークを用いたシーケンス・ツー・シーケンスモデルを用いた。 DCフルテストセットでは、それぞれドイツ語とポルトガル語のマイクロ平均F1スコアの7.2%と15.5%の大幅な改善が観察された。 ASR仮説が書き起こされた発話と正確に一致しない場合(ミスマッチしたテストセット)、それぞれドイツ語とポルトガル語のF1スコアが最大6.7%と8.8%改善されている。 ICとNERのマルチタスク実験では、ミスマッチしたテストセットを評価すると、ドイツ語のすべてのドメインとポルトガル語の19ドメイン中17ドメインで改善が見られる(SeMERスコアの変化に基づく改善)。 その結果,複数のASR仮説を用いることで,これらの非英語データセットに対するDCタスクの性能が大幅に向上することが示唆された。 さらに、ASRモデルが誤りを犯した場合には、ICおよびNERタスクのパフォーマンスが大幅に向上する可能性がある。

Current voice assistants typically use the best hypothesis yielded by their Automatic Speech Recognition (ASR) module as input to their Natural Language Understanding (NLU) module, thereby losing helpful information that might be stored in lower-ranked ASR hypotheses. We explore the change in performance of NLU associated tasks when utilizing five-best ASR hypotheses when compared to status quo for two language datasets, German and Portuguese. To harvest information from the ASR five-best, we leverage extractive summarization and joint extractive-abstracti ve summarization models for Domain Classification (DC) experiments while using a sequence-to-sequence model with a pointer generator network for Intent Classification (IC) and Named Entity Recognition (NER) multi-task experiments. For the DC full test set, we observe significant improvements of up to 7.2% and 15.5% in micro-averaged F1 scores, for German and Portuguese, respectively. In cases where the best ASR hypothesis was not an exact match to the transcribed utterance (mismatched test set), we see improvements of up to 6.7% and 8.8% micro-averaged F1 scores, for German and Portuguese, respectively. For IC and NER multi-task experiments, when evaluating on the mismatched test set, we see improvements across all domains in German and in 17 out of 19 domains in Portuguese (improvements based on change in SeMER scores). Our results suggest that the use of multiple ASR hypotheses, as opposed to one, can lead to significant performance improvements in the DC task for these non-English datasets. In addition, it could lead to significant improvement in the performance of IC and NER tasks in cases where the ASR model makes mistakes.
翻訳日:2021-05-18 05:26:01 公開日:2020-12-14
# h-fnd:階層的false-negative denoisingによる遠隔監督関係抽出

H-FND: Hierarchical False-Negative Denoising for Distant Supervision Relation Extraction ( http://arxiv.org/abs/2012.03536v2 )

ライセンス: Link先を確認
Jhih-Wei Chen, Tsu-Jui Fu, Chen-Kang Lee, Wei-Yun Ma(参考訳) 遠隔監視は関係抽出のためのトレーニングデータを自動的に生成するが、生成されたデータセットに偽陽性(FP)と偽陰性(FN)のトレーニングインスタンスも導入する。 どちらのタイプの誤りも最終的なモデル性能を劣化させるが、遠方監視の以前の研究はfpノイズの抑制に重点を置いており、fn問題の解決に重点を置いている。 本稿では,fnデノージング解として,ロバストな遠隔監督関係抽出のための階層的偽陰性デノージングフレームワークh-fndを提案する。 H-FNDは階層的なポリシーを使用して、トレーニングプロセス中に非リレーション(NA)インスタンスを保持、破棄、または修正すべきかどうかを判断する。 改訂される学習インスタンスに対して、ポリシーはさらに適切な関係を割り当て、より優れたインプットのトレーニングを可能にする。 SemEval-2010とTACREDの実験は、制御されたFN比を用いて行われ、トレーニングと検証インスタンスの関係をランダムに負に変えてFNインスタンスを生成する。 この設定では、H-FNDはFNインスタンスを正しく修正することができ、50%のインスタンスが負に変換された場合でも高いF1スコアを維持する。 さらに、H-FNDが現実的な環境で適用可能であることを示すため、NYT10の実験が行われた。

Although distant supervision automatically generates training data for relation extraction, it also introduces false-positive (FP) and false-negative (FN) training instances to the generated datasets. Whereas both types of errors degrade the final model performance, previous work on distant supervision denoising focuses more on suppressing FP noise and less on resolving the FN problem. We here propose H-FND, a hierarchical false-negative denoising framework for robust distant supervision relation extraction, as an FN denoising solution. H-FND uses a hierarchical policy which first determines whether non-relation (NA) instances should be kept, discarded, or revised during the training process. For those learning instances which are to be revised, the policy further reassigns them appropriate relations, making them better training inputs. Experiments on SemEval-2010 and TACRED were conducted with controlled FN ratios that randomly turn the relations of training and validation instances into negatives to generate FN instances. In this setting, H-FND can revise FN instances correctly and maintains high F1 scores even when 50% of the instances have been turned into negatives. Experiment on NYT10 is further conducted to shows that H-FND is applicable in a realistic setting.
翻訳日:2021-05-16 21:31:32 公開日:2020-12-14
# 弱監視学習に基づくニュース・出版者・利用者の信頼度を利用したフェイクニュースの早期発見

Early Detection of Fake News by Utilizing the Credibility of News, Publishers, and Users Based on Weakly Supervised Learning ( http://arxiv.org/abs/2012.04233v2 )

ライセンス: Link先を確認
Chunyuan Yuan, Qianwen Ma, Wei Zhou, Jizhong Han, Songlin Hu(参考訳) 偽ニュースの普及は、個人の評判と公的な信頼に大きく影響する。 近年,偽ニュース検出が注目され,ニュースコンテンツや拡散経路からの手がかりの発見を中心に研究が進められている。 しかし、以前のモデルに必要な機能はしばしば早期検出シナリオでは利用できないか不十分であり、結果として性能は低下する。 したがって、初期のフェイクニュース検出は難しい課題である。 直感的には、信頼できる情報源からのニュースや、評判の良い多くのユーザーが共有するニュースは他のニュースよりも信頼性が高い。 パブリッシャーとユーザーの信頼度を事前の弱い監督情報として利用することで、偽ニュースを巨大なニュースに素早く見つけ出し、拡散の初期段階で検出することができる。 本稿では,ニュースコンテンツと出版とリポストの関係を結合し,偽ニュースの検出と信頼性予測タスクを協調的に最適化する構造認識型マルチヘッドアテンションネットワーク(sman)を提案する。 このようにして、パブリッシャーやユーザの信頼度を、初期のフェイクニュース検出に利用することができる。 3つの実世界のデータセットについて実験を行い、その結果、smanは91%以上の精度で偽ニュースを4時間で検出できることがわかった。

The dissemination of fake news significantly affects personal reputation and public trust. Recently, fake news detection has attracted tremendous attention, and previous studies mainly focused on finding clues from news content or diffusion path. However, the required features of previous models are often unavailable or insufficient in early detection scenarios, resulting in poor performance. Thus, early fake news detection remains a tough challenge. Intuitively, the news from trusted and authoritative sources or shared by many users with a good reputation is more reliable than other news. Using the credibility of publishers and users as prior weakly supervised information, we can quickly locate fake news in massive news and detect them in the early stages of dissemination. In this paper, we propose a novel Structure-aware Multi-head Attention Network (SMAN), which combines the news content, publishing, and reposting relations of publishers and users, to jointly optimize the fake news detection and credibility prediction tasks. In this way, we can explicitly exploit the credibility of publishers and users for early fake news detection. We conducted experiments on three real-world datasets, and the results show that SMAN can detect fake news in 4 hours with an accuracy of over 91%, which is much faster than the state-of-the-art models.
翻訳日:2021-05-16 21:10:01 公開日:2020-12-14
# AIDE:自動画像分割のためのアノテーション効率の深い深層学習

AIDE: Annotation-efficient deep learning for automatic medical image segmentation ( http://arxiv.org/abs/2012.04885v2 )

ライセンス: Link先を確認
Cheng Li, Rongpin Wang, Zaiyi Liu, Meiyun Wang, Hongna Tan, Yaping Wu, Xinfeng Liu, Hui Sun, Rui Yang, Xin Liu, Ismail Ben Ayed, Hairong Zheng, Hanchuan Peng, Shanshan Wang(参考訳) 正確な画像分割は医用画像の応用に不可欠である。 一般的なディープラーニングアプローチは、高品質な手動アノテーションを備えた非常に大規模なトレーニングデータセットに依存しており、医療画像では利用できないことが多い。 AIDE(Annotation-effI cient Deep lEarning)を導入し、不完全なデータセットを精巧に設計したクロスモデル自己修正機構で処理する。 aideは、少ないアノテーションや騒がしいアノテーションを持つオープンデータセット上で、従来のディープラーニングモデルのセグメンテーションdiceスコアを最大30%改善する。 3つの医療センターの852人の患者の乳房画像11,852点を含む3つの臨床データセットにおいて、aideは、10%のトレーニングアノテーションを使用して、完全に監督された医師が生成したものと同等のセグメンテーションマップを一貫して作成している。 このような専門家のラベルを活用する際の効率の10倍の改善は、幅広い生物医学的応用を促進する可能性がある。

Accurate image segmentation is crucial for medical imaging applications. The prevailing deep learning approaches typically rely on very large training datasets with high-quality manual annotations, which are often not available in medical imaging. We introduce Annotation-effIcient Deep lEarning (AIDE) to handle imperfect datasets with an elaborately designed cross-model self-correcting mechanism. AIDE improves the segmentation Dice scores of conventional deep learning models on open datasets possessing scarce or noisy annotations by up to 30%. For three clinical datasets containing 11,852 breast images of 872 patients from three medical centers, AIDE consistently produces segmentation maps comparable to those generated by the fully supervised counterparts as well as the manual annotations of independent radiologists by utilizing only 10% training annotations. Such a 10-fold improvement of efficiency in utilizing experts' labels has the potential to promote a wide range of biomedical applications.
翻訳日:2021-05-16 02:08:23 公開日:2020-12-14
# (参考訳) 音響ヒストグラム情報を用いた都市空間インサイト抽出 [全文訳有]

Urban Space Insights Extraction using Acoustic Histogram Information ( http://arxiv.org/abs/2012.05488v2 )

ライセンス: CC0 1.0
Nipun Wijerathne, Billy Pik Lik Lau, Benny Kai Kiat Ng, Chau Yuen(参考訳) 都市データマイニングは、特に都市住宅活動の追跡において、スマートシティサービスを強化する非常に潜在的な地域として特定することができる。 既存の人間の行動追跡システムは市民の行動の隠れた側面を明らかにする能力を示しているが、それらはしばしば高い実装コストと大きな通信帯域を必要とする。 本稿では,都市部における屋外活動の検知と降雨期間推定のための低コストアナログ音響センサの実装について検討する。 アナログ音響センサはヒストグラム形式で5分ごとにクラウドに送信され、100ms (10Hz) ごとにサンプリングされる音データで構成されている。 次に、ウェーブレット変換(WT)と主成分分析(PCA)を用いて、ヒストグラムからより堅牢で一貫した特徴セットを生成する。 その後,非教師なしのクラスタリングを行い,各クラスタの個性を理解して屋外の住宅活動の同定を試みた。 また,本手法の有効性を示すため,現場検証を行った。

Urban data mining can be identified as a highly potential area that can enhance the smart city services towards better sustainable development especially in the urban residential activity tracking. While existing human activity tracking systems have demonstrated the capability to unveil the hidden aspects of citizens' behavior, they often come with a high implementation cost and require a large communication bandwidth. In this paper, we study the implementation of low-cost analogue sound sensors to detect outdoor activities and estimate the raining period in an urban residential area. The analogue sound sensors are transmitted to the cloud every 5 minutes in histogram format, which consists of sound data sampled every 100ms (10Hz). We then use wavelet transformation (WT) and principal component analysis (PCA) to generate a more robust and consistent feature set from the histogram. After that, we performed unsupervised clustering and attempt to understand the individual characteristics of each cluster to identify outdoor residential activities. In addition, on-site validation has been conducted to show the effectiveness of our approach.
翻訳日:2021-05-15 22:04:37 公開日:2020-12-14
# (参考訳) 非凸景観における確率適応アルゴリズムの漸近的研究

Asymptotic study of stochastic adaptive algorithm in non-convex landscape ( http://arxiv.org/abs/2012.05640v2 )

ライセンス: CC BY 4.0
S\'ebastien Gadat and Ioana Gavra(参考訳) 本稿では,最適化や機械学習に広く用いられている適応アルゴリズムの漸近的性質について,ブラックボックス深層学習アルゴリズムのほとんどに関与するadagradとrmspropについて検討する。 我々の設定は非凸ランドスケープ最適化の視点であり、我々は1時間スケールのパラメトリゼーションを考慮し、これらのアルゴリズムがミニバッチで使用されるかどうかを考察する。 我々は確率的アルゴリズムの視点を採用し、目標関数の臨界点の集合に対するステップサイズ視点の減少を利用する際に、これらの手法のほぼ確実に収束を確立する。 ノイズに対する軽度の仮定により、関数の最小化集合への収束も得られる。 また,本研究では,「GhadimiLan」の著作の静脈内における手法の「収束率」についても検討した。

This paper studies some asymptotic properties of adaptive algorithms widely used in optimization and machine learning, and among them Adagrad and Rmsprop, which are involved in most of the blackbox deep learning algorithms. Our setup is the non-convex landscape optimization point of view, we consider a one time scale parametrization and we consider the situation where these algorithms may be used or not with mini-batches. We adopt the point of view of stochastic algorithms and establish the almost sure convergence of these methods when using a decreasing step-size point of view towards the set of critical points of the target function. With a mild extra assumption on the noise, we also obtain the convergence towards the set of minimizer of the function. Along our study, we also obtain a "convergence rate" of the methods, in the vein of the works of \cite{GhadimiLan}.
翻訳日:2021-05-15 16:19:59 公開日:2020-12-14
# (参考訳) 教師なし二分木を用いた多変量関数データのクラスタリング

Clustering multivariate functional data using unsupervised binary trees ( http://arxiv.org/abs/2012.05973v2 )

ライセンス: CC BY 4.0
Steven Golovkine and Nicolas Klutchnikoff and Valentin Patilea(参考訳) 本稿では,各成分が曲線や画像となるような関数データの一般クラスに対するモデルベースクラスタリングアルゴリズムを提案する。 ランダム関数データ実現は、定義領域内の離散的、おそらくランダムな点において誤差で測定することができる。 この考え方は、観測を再帰的に分割することでバイナリツリーの集合を構築することである。 グループの数はデータ駆動の方法で決定される。 この新しいアルゴリズムは、オンラインデータセットに対して容易に解釈可能な結果と高速な予測を提供する。 シミュレーションデータセットの結果は、様々な複雑な設定で良いパフォーマンスを示す。 この手法はドイツのラウンドアバウトにおける車両軌道の解析に適用される。

We propose a model-based clustering algorithm for a general class of functional data for which the components could be curves or images. The random functional data realizations could be measured with error at discrete, and possibly random, points in the definition domain. The idea is to build a set of binary trees by recursive splitting of the observations. The number of groups are determined in a data-driven way. The new algorithm provides easily interpretable results and fast predictions for online data sets. Results on simulated datasets reveal good performance in various complex settings. The methodology is applied to the analysis of vehicle trajectories on a German roundabout.
翻訳日:2021-05-15 08:48:49 公開日:2020-12-14
# (参考訳) 再生核Hilbert空間における新しい応答の欠如フレームワークによる5年後のグルコース値予測と連続グルコースモニタリング技術の利用

Glucose values prediction five years ahead with a new framework of missing responses in reproducing kernel Hilbert spaces, and the use of continuous glucose monitoring technology ( http://arxiv.org/abs/2012.06564v2 )

ライセンス: CC BY 4.0
Marcos Matabuena, Paulo F\'elix, Carlos Meijide-Garcia and Francisco Gude(参考訳) aegis研究は連続グルコースモニタリング技術(cgm)による循環性グルコースの経時的変化に関するユニークな情報を持っている。 しかし、縦断的な医学研究では通常のように、結果変数に欠落するデータがかなりの量存在する。 例えば、グリコシル化ヘモグロビン(A1C)バイオマーカーの40%は、5年前に失われている。 本稿では,この問題の影響を低減すべく,カーネルヒルベルト空間(rkhs)の再現における学習に基づく新しいデータ解析フレームワークを提案する。 まず、ヒルベルト・シュミット依存測度を拡張して、この文脈で統計独立性をテストし、一貫性を証明する新しいブートストラップ手順を導入する。 次に, 変数選択, 回帰, コンフォメーション推論の既存モデルを用いて, AEGISデータより5年後のグルコース変化に関する新たな臨床所見を得た。 i) 血糖値の長期変動に関連する新たな因子を明らかにすること, ii) グルコース代謝の変化を検出するために, cgmデータの臨床的感受性を示すこと, iii) 患者の基準特性に応じて, アルゴリズムが期待する血糖値変化に基づいて, 臨床介入を改善することができること, である。

AEGIS study possesses unique information on longitudinal changes in circulating glucose through continuous glucose monitoring technology (CGM). However, as usual in longitudinal medical studies, there is a significant amount of missing data in the outcome variables. For example, 40 percent of glycosylated hemoglobin (A1C) biomarker data are missing five years ahead. With the purpose to reduce the impact of this issue, this article proposes a new data analysis framework based on learning in reproducing kernel Hilbert spaces (RKHS) with missing responses that allows to capture non-linear relations between variable studies in different supervised modeling tasks. First, we extend the Hilbert-Schmidt dependence measure to test statistical independence in this context introducing a new bootstrap procedure, for which we prove consistency. Next, we adapt or use existing models of variable selection, regression, and conformal inference to obtain new clinical findings about glucose changes five years ahead with the AEGIS data. The most relevant findings are summarized below: i) We identify new factors associated with long-term glucose evolution; ii) We show the clinical sensibility of CGM data to detect changes in glucose metabolism; iii) We can improve clinical interventions based on our algorithms' expected glucose changes according to patients' baseline characteristics.
翻訳日:2021-05-11 04:41:42 公開日:2020-12-14
# 知識蒸留のための強化マルチティーチャー選択

Reinforced Multi-Teacher Selection for Knowledge Distillation ( http://arxiv.org/abs/2012.06048v2 )

ライセンス: Link先を確認
Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong, Yan Fu, Daxin Jiang(参考訳) 自然言語処理(NLP)タスクでは、推論速度の遅さとGPU使用量の巨大なフットプリントが、事前にトレーニングされたディープモデルを本番環境に適用するボトルネックとして残っている。 モデル圧縮の一般的な方法として、知識蒸留は知識を1つまたは複数の大きな(教師)モデルから小さな(学生)モデルに移す。 複数の教師モデルが蒸留で利用可能である場合、最先端の手法は蒸留全体において教師モデルに固定重量を割り当てる。 さらに、既存の手法のほとんどは教師モデルに等しい重さを割り当てている。 本稿では,学習例の複雑化と学生モデル能力の相違により,教師モデルから差分学習を行うことで,学生モデルの蒸留性能が向上することが観察された。 本研究では,教師モデルに異なる学習インスタンスに対して動的に重み付けを割り当て,生徒モデルの性能を最適化する強化手法を体系的に開発する。 いくつかのNLPタスクに対する広範な実験結果から,本手法の有効性と有効性が確認された。

In natural language processing (NLP) tasks, slow inference speed and huge footprints in GPU usage remain the bottleneck of applying pre-trained deep models in production. As a popular method for model compression, knowledge distillation transfers knowledge from one or multiple large (teacher) models to a small (student) model. When multiple teacher models are available in distillation, the state-of-the-art methods assign a fixed weight to a teacher model in the whole distillation. Furthermore, most of the existing methods allocate an equal weight to every teacher model. In this paper, we observe that, due to the complexity of training examples and the differences in student model capability, learning differentially from teacher models can lead to better performance of student models distilled. We systematically develop a reinforced method to dynamically assign weights to teacher models for different training instances and optimize the performance of student model. Our extensive experimental results on several NLP tasks clearly verify the feasibility and effectiveness of our approach.
翻訳日:2021-05-11 03:11:56 公開日:2020-12-14
# 必要なことの1つ:機能学習のための方向性注意ポイント

One Point is All You Need: Directional Attention Point for Feature Learning ( http://arxiv.org/abs/2012.06257v2 )

ライセンス: Link先を確認
Liqiang Lin, Pengdi Huang, Chi-Wing Fu, Kai Xu, Hao Zhang, Hui Huang(参考訳) 本稿では,ポイントクラウド分類やセグメンテーションといったタスクの強化点特徴を学習するための,注目に基づく新しいメカニズムを提案する。 私たちの重要なメッセージは、もし正しい注意ポイントが選択されたら、"1ポイントは必要なすべて" -- 繰り返しモデルのようなシーケンスではなく、以前のすべての作業のように事前に選択されたセットではない、ということです。 また、注意点をデータから学習し、目の前のタスクに固有のものにする必要がある。 我々のメカニズムは、入力点における特徴と関連する注意点における特徴を組み合わせた、新しくシンプルな畳み込みによって特徴づけられる。 このような点を指向性注意点(DAP)と呼び、トレーニングにおけるタスクパフォーマンスを最大化して学習したオフセットベクトルを元の点に追加することによって得られる。 我々は,最先端のクラウド分類とセグメンテーションネットワークに注目機構を組み込むことができることを示す。 ModelNet40、ShapeNetPart、S3DISといった一般的なベンチマークに関する大規模な実験では、私たちのDAP対応ネットワークは、選択済みの注意点のセットを含む他の競合する選択肢と同様に、それぞれの元のネットワークよりも一貫して優れています。

We present a novel attention-based mechanism for learning enhanced point features for tasks such as point cloud classification and segmentation. Our key message is that if the right attention point is selected, then "one point is all you need" -- not a sequence as in a recurrent model and not a pre-selected set as in all prior works. Also, where the attention point is should be learned, from data and specific to the task at hand. Our mechanism is characterized by a new and simple convolution, which combines the feature at an input point with the feature at its associated attention point. We call such a point a directional attention point (DAP), since it is found by adding to the original point an offset vector that is learned by maximizing the task performance in training. We show that our attention mechanism can be easily incorporated into state-of-the-art point cloud classification and segmentation networks. Extensive experiments on common benchmarks such as ModelNet40, ShapeNetPart, and S3DIS demonstrate that our DAP-enabled networks consistently outperform the respective original networks, as well as all other competitive alternatives, including those employing pre-selected sets of attention points.
翻訳日:2021-05-11 02:59:53 公開日:2020-12-14
# eventhands: イベントストリームからのリアルタイムニューラルネットワーク3dハンドリコンストラクション

EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream ( http://arxiv.org/abs/2012.06475v2 )

ライセンス: Link先を確認
Viktor Rudnev and Vladislav Golyanik and Jiayi Wang and Hans-Peter Seidel and Franziska Mueller and Mohamed Elgharib and Christian Theobalt(参考訳) 単眼ビデオからの3d手ポーズ推定は、長年の難題であり、現在は大きな上昇を見せている。 本研究では,1つのイベントカメラ,すなわち明るさ変化に反応する非同期視覚センサを用いて,初めてこの問題に対処する。 当社のEventHandsアプローチでは,低スループットの時間分解能や1000Hzのリアルタイム性能など,単一のRGBカメラや深度カメラでは実証されていない特徴がある。 従来のカメラと比較して、イベントカメラのデータモダリティが異なるため、既存の手法を直接適用してイベントストリームに再トレーニングすることはできない。 そこで我々は,学習に適した新しいイベントストリーム表現を受理する新しいニューラルアプローチを設計し,新たに生成された合成イベントストリームに基づいて学習し,実データに一般化する。 実験によると、EventHandsは、前例のないスピードで手の動きを捉える能力と精度で、色(または深度)カメラを使用した最近のモノラルな手法よりも優れている。 私たちのメソッド、イベントストリームシミュレータ、データセットは、一般公開されます。

3D hand pose estimation from monocular videos is a long-standing and challenging problem, which is now seeing a strong upturn. In this work, we address it for the first time using a single event camera, i.e., an asynchronous vision sensor reacting on brightness changes. Our EventHands approach has characteristics previously not demonstrated with a single RGB or depth camera such as high temporal resolution at low data throughputs and real-time performance at 1000 Hz. Due to the different data modality of event cameras compared to classical cameras, existing methods cannot be directly applied to and re-trained for event streams. We thus design a new neural approach which accepts a new event stream representation suitable for learning, which is trained on newly-generated synthetic event streams and can generalise to real data. Experiments show that EventHands outperforms recent monocular methods using a colour (or depth) camera in terms of accuracy and its ability to capture hand motions of unprecedented speed. Our method, the event stream simulator and the dataset will be made publicly available.
翻訳日:2021-05-11 02:58:05 公開日:2020-12-14
# 深層学習に基づく Dune の運動再建

Deep-Learning-Based Kinematic Reconstruction for DUNE ( http://arxiv.org/abs/2012.06181v2 )

ライセンス: Link先を確認
Junze Liu, Jordan Ott, Julian Collado, Benjamin Jargowsky, Wenjie Wu, Jianming Bian, Pierre Baldi(参考訳) 3-活性ニュートリノ混合の枠組みでは、電荷パリティ相、ニュートリノ質量秩序、および$\theta_{23}$のオクタントが未知のままである。 Deep Underground Neutrino Experiment (DUNE)は次世代の長周期ニュートリノ発振実験であり、第1および第2の発振最大値にまたがるエネルギー範囲上の$\nu_\mu/\nu_e$および$\bar\nu_\mu/\bar\nu _e$の発振パターンを測定することでこれらの問題に対処することを目的としている。 DUNE遠距離検出器モジュールは液体アルゴンTPC(LArTPC)技術に基づいている。 LArTPCは優れた空間分解能、高ニュートリノ検出効率、超高バックグラウンド拒絶を提供するが、LArTPCの再構成は困難である。 深層学習、特に畳み込みニューラルネットワーク(CNN)は、DUNEやその他のニュートリノ実験における粒子識別などの分類問題に成功している。 しかし, ニュートリノエネルギーと最終状態粒子モーメントの深層学習法による再構築は, 完全なaiベースの再構築チェーンのためにはまだ開発されていない。 DUNEにおける検出された相互作用の運動特性を正確に再構築するため, 最終状態粒子方向とエネルギーの再構成とニュートリノエネルギーの再構成のための2次元および3次元CNN法を開発した。 粒子質量と運動エネルギーと作業によって再構成された方向を組み合わせることで、最終状態粒子の4モーメントが得られる。 我々のモデルは、両方のシナリオの従来の方法と比較してかなり改善されている。

In the framework of three-active-neutrin o mixing, the charge parity phase, the neutrino mass ordering, and the octant of $\theta_{23}$ remain unknown. The Deep Underground Neutrino Experiment (DUNE) is a next-generation long-baseline neutrino oscillation experiment, which aims to address these questions by measuring the oscillation patterns of $\nu_\mu/\nu_e$ and $\bar\nu_\mu/\bar\nu _e$ over a range of energies spanning the first and second oscillation maxima. DUNE far detector modules are based on liquid argon TPC (LArTPC) technology. A LArTPC offers excellent spatial resolution, high neutrino detection efficiency, and superb background rejection, while reconstruction in LArTPC is challenging. Deep learning methods, in particular, Convolutional Neural Networks (CNNs), have demonstrated success in classification problems such as particle identification in DUNE and other neutrino experiments. However, reconstruction of neutrino energy and final state particle momenta with deep learning methods is yet to be developed for a full AI-based reconstruction chain. To precisely reconstruct these kinematic characteristics of detected interactions at DUNE, we have developed and will present two CNN-based methods, 2-D and 3-D, for the reconstruction of final state particle direction and energy, as well as neutrino energy. Combining particle masses with the kinetic energy and the direction reconstructed by our work, the four-momentum of final state particles can be obtained. Our models show considerable improvements compared to the traditional methods for both scenarios.
翻訳日:2021-05-11 02:49:08 公開日:2020-12-14
# (参考訳) 協調確率的コミットメントに対する効率的なクエリ [全文訳有]

Efficient Querying for Cooperative Probabilistic Commitments ( http://arxiv.org/abs/2012.07195v1 )

ライセンス: CC BY 4.0
Qi Zhang, Edmund H. Durfee, Satinder Singh(参考訳) マルチエージェントシステムは一般的な協調基盤の中核としてコミットメントを利用することができ、協調的および非協力的な相互作用をサポートする。 目的が一致し、あるエージェントが他のエージェントの報酬を犠牲にしてより大きな報酬を得るのを助けることができるエージェントは、共同報酬を最大化するための協力的コミットメントを選択するべきである。 本稿では,協調エージェントが慎重に選択されたコミットメント選択を問うことで,(ほぼ)最適なコミットメントを効果的に見つける方法を提案する。 エージェントの値の構造的特性をコミットメント仕様のパラメータの関数として証明し、証明可能な近似境界を持つクエリを構成するための欲求的手法を開発します。

Multiagent systems can use commitments as the core of a general coordination infrastructure, supporting both cooperative and non-cooperative interactions. Agents whose objectives are aligned, and where one agent can help another achieve greater reward by sacrificing some of its own reward, should choose a cooperative commitment to maximize their joint reward. We present a solution to the problem of how cooperative agents can efficiently find an (approximately) optimal commitment by querying about carefully-selected commitment choices. We prove structural properties of the agents' values as functions of the parameters of the commitment specification, and develop a greedy method for composing a query with provable approximation bounds, which we empirically show can find nearly optimal commitments in a fraction of the time methods that lack our insights require.
翻訳日:2021-05-09 11:35:24 公開日:2020-12-14
# (参考訳) 勾配予測サーサ($\lambda$)の収束性について [全文訳有]

On Convergence of Gradient Expected Sarsa($\lambda$) ( http://arxiv.org/abs/2012.07199v1 )

ライセンス: CC BY 4.0
Long Yang, Gang Zheng, Yu Zhang, Qian Zheng, Pengfei Li, Gang Pan(参考訳) 線形関数近似を用いて$\mathtt{Expected~Sarsa}(\lambda)$の収束を研究する。 オフライン推定(マルチステップブートストラッピング)を$\mathtt{Expected~Sarsa}(\lambda)$に適用することは、オフ・ポリティクス学習において不安定であることを示す。 さらに、convex-concave saddle-pointフレームワークに基づいて、収束する$\mathtt{gradient~expected~sa rsa}(\lambda)$ ($\mathtt{ges}(\lambda)$)アルゴリズムを提案する。 この理論解析は、我々の$\mathtt{GES}(\lambda)$が線形収束率で最適解に収束していることを示し、これは最先端の時間差学習アルゴリズムに匹敵するものである。 さらに,ステップサイズが$\mathtt{GES}(\lambda)$の有限時間性能にどのように影響するかを調べるために,リアプノフ関数の手法を開発した。 最後に、$\mathtt{GES}(\lambda)$の有効性を検証する実験を行います。

We study the convergence of $\mathtt{Expected~Sarsa}(\lambda)$ with linear function approximation. We show that applying the off-line estimate (multi-step bootstrapping) to $\mathtt{Expected~Sarsa}(\lambda)$ is unstable for off-policy learning. Furthermore, based on convex-concave saddle-point framework, we propose a convergent $\mathtt{Gradient~Expected~Sa rsa}(\lambda)$ ($\mathtt{GES}(\lambda)$) algorithm. The theoretical analysis shows that our $\mathtt{GES}(\lambda)$ converges to the optimal solution at a linear convergence rate, which is comparable to extensive existing state-of-the-art gradient temporal difference learning algorithms. Furthermore, we develop a Lyapunov function technique to investigate how the step-size influences finite-time performance of $\mathtt{GES}(\lambda)$, such technique of Lyapunov function can be potentially generalized to other GTD algorithms. Finally, we conduct experiments to verify the effectiveness of our $\mathtt{GES}(\lambda)$.
翻訳日:2021-05-09 11:08:56 公開日:2020-12-14
# (参考訳) 社会的選択における信頼できる選好完了 [全文訳有]

Trustworthy Preference Completion in Social Choice ( http://arxiv.org/abs/2012.07228v1 )

ライセンス: CC BY 4.0
Lei Li, Minghe Xue, Huanhuan Chen, Xindong Wu(参考訳) 時折、すべての選択肢に対して線形順序を与えるようにエージェントに頼むことは非現実的であるので、これらの部分的なランク付けのためには、選好完了を行う必要がある。 具体的には、すべての代替品に対する各エージェントのパーソナライズされた選好は、代替品のサブセットよりも隣接するエージェントからの部分的なランキングで推定することができる。 しかし、エージェントのランキングは非決定論的であり、ランキングにノイズを与える可能性があるため、信頼できる選好完了を行う必要がある。 そこで,本稿では,エージェントが不合理な行動を示す場合や,ノイズの多いランキングのみを提供する場合に対処する,信頼指向のKendall-Tau距離を持つエージェントに対して,信頼に基づくアンカー-kNNアルゴリズムを提案する。 そして、代替ペアの場合、ランキング空間から選好空間への単射を構築でき、その確実性と競合を、よく構築された統計測定確率-確証密度関数に基づいて評価することができる。 したがって、信頼性と紛争に基づく最初の$k$信頼に値する隣接エージェントに対する一定の共通投票ルールを、信頼に値する選好完了を実行するために適用することができる。 提案する確実性と競合の性質は実験的に研究されており、いくつかのデータセットを用いた最先端のアプローチと比較して実験的に検証されている。

As from time to time it is impractical to ask agents to provide linear orders over all alternatives, for these partial rankings it is necessary to conduct preference completion. Specifically, the personalized preference of each agent over all the alternatives can be estimated with partial rankings from neighboring agents over subsets of alternatives. However, since the agents' rankings are nondeterministic, where they may provide rankings with noise, it is necessary and important to conduct the trustworthy preference completion. Hence, in this paper firstly, a trust-based anchor-kNN algorithm is proposed to find $k$-nearest trustworthy neighbors of the agent with trust-oriented Kendall-Tau distances, which will handle the cases when an agent exhibits irrational behaviors or provides only noisy rankings. Then, for alternative pairs, a bijection can be built from the ranking space to the preference space, and its certainty and conflict can be evaluated based on a well-built statistical measurement Probability-Certaint y Density Function. Therefore, a certain common voting rule for the first $k$ trustworthy neighboring agents based on certainty and conflict can be taken to conduct the trustworthy preference completion. The properties of the proposed certainty and conflict have been studied empirically, and the proposed approach has been experimentally validated compared to state-of-arts approaches with several data sets.
翻訳日:2021-05-09 10:26:56 公開日:2020-12-14
# (参考訳) 対人ロバスト性を達成するためにはアクティブな教師が必要である [全文訳有]

Achieving Adversarial Robustness Requires An Active Teacher ( http://arxiv.org/abs/2012.07233v1 )

ライセンス: CC BY 4.0
Chao Ma and Lexing Ying(参考訳) 本稿では,データジェネレータとラベルジェネレータ(これを教師と呼ぶ)を分離することにより,逆例と逆ロバスト性の新しい理解を提案する。 この枠組みでは, 対人的堅牢性は条件的概念であり, 生徒モデルは絶対的に堅牢ではなく, 教師に対して堅牢である。 新たな理解に基づき,学習データから教師の十分な情報を得ることができないため,敵対的な事例が存在すると主張する。 堅牢性を達成するための様々な方法が比較される。 理論的および数値的な証拠は、効果的に堅牢性を得るためには、生徒に積極的に情報を提供する教師が必要であることを示している。

A new understanding of adversarial examples and adversarial robustness is proposed by decoupling the data generator and the label generator (which we call the teacher). In our framework, adversarial robustness is a conditional concept---the student model is not absolutely robust, but robust with respect to the teacher. Based on the new understanding, we claim that adversarial examples exist because the student cannot obtain sufficient information of the teacher from the training data. Various ways of achieving robustness is compared. Theoretical and numerical evidence shows that to efficiently attain robustness, a teacher that actively provides its information to the student may be necessary.
翻訳日:2021-05-09 10:12:02 公開日:2020-12-14
# (参考訳) 生涯学習のためのマルチドメインマルチタスクリハーサル [全文訳有]

Multi-Domain Multi-Task Rehearsal for Lifelong Learning ( http://arxiv.org/abs/2012.07236v1 )

ライセンス: CC BY 4.0
Fan Lyu, Shuai Wang, Wei Feng, Zihan Ye, Fuyuan Hu, Song Wang(参考訳) リハーサルは、古い知識を生涯学習に保存することでモデルを思い出そうとするものであり、新しいタスクに移行する際に過去の知識を忘れてしまうような破滅的な忘れを緩和する最も効果的な方法の1つである。 しかし、最も以前のリハーサルベースのメソッドの古いタスクは、新しいタスクをトレーニングする際に予測不能なドメインシフトに苦しむ。 これは、これらの手法が常に2つの重要な要素を無視しているためである。 まず、新しいタスクと古いタスクの間のデータの不均衡により、古いタスクのドメインがシフトしやすくなる。 第2に,すべてのタスク間のタスクの分離により,予測不能な方向へのドメインシフトがもたらされる。予測不能なドメインシフトに対処するため,本稿では,従来のタスクと新しいタスクを並列かつ均等に訓練するために,マルチドメインマルチタスク(mdmt)リハーサルを提案する。 具体的には、クラス内/タスク間のコンパクトさとクラス間/タスク間の不一致を奨励するために、2段階の角マージンの損失が提案されている。 さらに,従来のタスクのドメインシフトにさらに対処するために,メモリ上の任意のエピソード蒸留損失を,古いタスク毎の知識を固定するために提案する。 提案手法を検証したベンチマークデータセットの実験は、予測不能なドメインシフトを効果的に軽減する。

Rehearsal, seeking to remind the model by storing old knowledge in lifelong learning, is one of the most effective ways to mitigate catastrophic forgetting, i.e., biased forgetting of previous knowledge when moving to new tasks. However, the old tasks of the most previous rehearsal-based methods suffer from the unpredictable domain shift when training the new task. This is because these methods always ignore two significant factors. First, the Data Imbalance between the new task and old tasks that makes the domain of old tasks prone to shift. Second, the Task Isolation among all tasks will make the domain shift toward unpredictable directions; To address the unpredictable domain shift, in this paper, we propose Multi-Domain Multi-Task (MDMT) rehearsal to train the old tasks and new task parallelly and equally to break the isolation among tasks. Specifically, a two-level angular margin loss is proposed to encourage the intra-class/task compactness and inter-class/task discrepancy, which keeps the model from domain chaos. In addition, to further address domain shift of the old tasks, we propose an optional episodic distillation loss on the memory to anchor the knowledge for each old task. Experiments on benchmark datasets validate the proposed approach can effectively mitigate the unpredictable domain shift.
翻訳日:2021-05-09 09:56:56 公開日:2020-12-14
# (参考訳) TDAF:ビジョンタスクのためのトップダウン注意フレームワーク [全文訳有]

TDAF: Top-Down Attention Framework for Vision Tasks ( http://arxiv.org/abs/2012.07248v1 )

ライセンス: CC BY-SA 4.0
Bo Pang, Yizhuo Li, Jiefeng Li, Muchen Li, Hanwen Cao, Cewu Lu(参考訳) 人間の注意機構は、しばしばトップダウンで機能するが、視覚研究では十分に研究されていない。 本稿では,既存のほとんどのモデルで容易に採用可能なトップダウンアテンションを捉えるためのトップダウンアテンションフレームワーク(TDAF)を提案する。 設計した再帰的二方向ネスト構造は、それぞれボトムアップ空間的特徴とトップダウン注意特徴を抽出した再帰的および構造的経路の2組の直交経路を形成する。 このような空間的・注意的特徴は深くネストされており、提案フレームワークはトップダウンとボトムアップの混合方式で動作する。 実証的な証拠は、我々のTDAFが効果的な階層化された注意情報を捕捉し、性能を向上できることを示している。 tdafによるresnetはimagenetで2.0%改善されている。 物体検出では、性能はFCOSよりも2.7%向上した。 ポーズ推定では、TDAFはベースラインを1.6%改善する。 また、3D-ResNetによるTDAFの精度は1.7%向上した。

Human attention mechanisms often work in a top-down manner, yet it is not well explored in vision research. Here, we propose the Top-Down Attention Framework (TDAF) to capture top-down attentions, which can be easily adopted in most existing models. The designed Recursive Dual-Directional Nested Structure in it forms two sets of orthogonal paths, recursive and structural ones, where bottom-up spatial features and top-down attention features are extracted respectively. Such spatial and attention features are nested deeply, therefore, the proposed framework works in a mixed top-down and bottom-up manner. Empirical evidence shows that our TDAF can capture effective stratified attention information and boost performance. ResNet with TDAF achieves 2.0% improvements on ImageNet. For object detection, the performance is improved by 2.7% AP over FCOS. For pose estimation, TDAF improves the baseline by 1.6%. And for action recognition, the 3D-ResNet adopting TDAF achieves improvements of 1.7% accuracy.
翻訳日:2021-05-09 09:14:52 公開日:2020-12-14
# (参考訳) ショット適応正規化駆動型マルチスピーカー音声合成 [全文訳有]

Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis ( http://arxiv.org/abs/2012.07252v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall(参考訳) スピーチのスタイルは人によって異なり、各人は言語、地理、文化、その他の要素によって決定される独自の話し方を示す。 スタイルは信号の韻律によって最もよく捉えられる。 プロソディを考慮した高品質なマルチスピーカ音声合成は,実世界の多くの応用分野において活発な研究分野である。 この方向には複数の努力がなされているが、まだ興味深く、挑戦的な問題である。 本稿では,非自己回帰型マルチヘッドアテンションモデルを用いて適応正規化アーキテクチャを活用する,新規な複数話者音声合成手法(FSM-SS)を提案する。 未確認者の入力テキストと参照音声サンプルが与えられた場合、FSM-SSはその人のスタイルで、数ショットで音声を生成することができる。 さらに,正規化のアフィンパラメータが,エネルギーや基本周波数といった韻律的特徴を不連続に捉えるのにどのように役立ち,モーフィックな音声出力を生成することができるかを示す。 本研究では,複数話者vctkとlibrittsデータセットにおける提案手法の有効性を実証し,生成音声の歪みとmosを測定する複数の定量的指標と,生成音声と実音声の埋め込み分析を行った。

The style of the speech varies from person to person and every person exhibits his or her own style of speaking that is determined by the language, geography, culture and other factors. Style is best captured by prosody of a signal. High quality multi-speaker speech synthesis while considering prosody and in a few shot manner is an area of active research with many real-world applications. While multiple efforts have been made in this direction, it remains an interesting and challenging problem. In this paper, we present a novel few shot multi-speaker speech synthesis approach (FSM-SS) that leverages adaptive normalization architecture with a non-autoregressive multi-head attention model. Given an input text and a reference speech sample of an unseen person, FSM-SS can generate speech in that person's style in a few shot manner. Additionally, we demonstrate how the affine parameters of normalization help in capturing the prosodic features such as energy and fundamental frequency in a disentangled fashion and can be used to generate morphed speech output. We demonstrate the efficacy of our proposed architecture on multi-speaker VCTK and LibriTTS datasets, using multiple quantitative metrics that measure generated speech distortion and MoS, along with speaker embedding analysis of the generated speech vs the actual speech samples.
翻訳日:2021-05-09 08:55:15 公開日:2020-12-14
# (参考訳) 自動3次元容器センタライン抽出のための学習ハイブリッド表現 [全文訳有]

Learning Hybrid Representations for Automatic 3D Vessel Centerline Extraction ( http://arxiv.org/abs/2012.07262v1 )

ライセンス: CC BY 4.0
Jiafa He, Chengwei Pan, Can Yang, Ming Zhang, Yang Wang, Xiaowei Zhou and Yizhou Yu(参考訳) 3次元医用画像からの血管抽出は血管疾患の診断に不可欠である。 畳み込みニューラルネットワーク(CNN)に基づく既存の方法は、3D画像からそのような細い管状構造を分割する際に、抽出された血管の不連続に悩まされる可能性がある。 抽出された船舶の連続性を維持するためには、地球幾何学を考慮に入れる必要がある。 しかし、3D畳み込みは計算的に非効率であり、3D CNNは画像全体のグローバルな手がかりを捉えるのに十分な大きな受容場から除外される。 本研究では,この課題に対処するためのハイブリッド表現学習手法を提案する。 主なアイデアは、CNNを使って画像作物の容器の局所的な外観を学習し、別のポイントクラウドネットワークを使用して画像全体の容器のグローバルな幾何学を学ぶことである。 提案手法は,CNNを用いて局所的な船舶セグメントを抽出し,ポイントクラウドネットワークを用いてグローバルジオメトリに基づいて各セグメントを分類し,最短パスアルゴリズムを用いて同一船舶に属するすべてのセグメントを接続する。 この組み合わせにより、3D画像から中心線抽出を効率よく、完全に自動で、テンプレート無しで行うことができる。 提案手法をCTAデータセット上で検証し,従来のCNNベースラインと比較して優れた性能を示す。

Automatic blood vessel extraction from 3D medical images is crucial for vascular disease diagnoses. Existing methods based on convolutional neural networks (CNNs) may suffer from discontinuities of extracted vessels when segmenting such thin tubular structures from 3D images. We argue that preserving the continuity of extracted vessels requires to take into account the global geometry. However, 3D convolutions are computationally inefficient, which prohibits the 3D CNNs from sufficiently large receptive fields to capture the global cues in the entire image. In this work, we propose a hybrid representation learning approach to address this challenge. The main idea is to use CNNs to learn local appearances of vessels in image crops while using another point-cloud network to learn the global geometry of vessels in the entire image. In inference, the proposed approach extracts local segments of vessels using CNNs, classifies each segment based on global geometry using the point-cloud network, and finally connects all the segments that belong to the same vessel using the shortest-path algorithm. This combination results in an efficient, fully-automatic and template-free approach to centerline extraction from 3D images. We validate the proposed approach on CTA datasets and demonstrate its superior performance compared to both traditional and CNN-based baselines.
翻訳日:2021-05-09 08:54:15 公開日:2020-12-14
# (参考訳) 非定常環境で機械学習アルゴリズムのアップデートを承認する方法を学ぶ [全文訳有]

Learning how to approve updates to machine learning algorithms in non-stationary settings ( http://arxiv.org/abs/2012.07278v1 )

ライセンス: CC BY 4.0
Jean Feng(参考訳) ヘルスケアの機械学習アルゴリズムは、医療提供中に生成された現実世界のデータから継続的に学習し、データセットシフトに適応できる可能性がある。 そのためFDAは、機械学習アルゴリズムの修正を自律的に承認し、デプロイされたモデルの安全性と有効性を維持または改善できるポリシーの設計を検討している。 しかし、データの定常性と提案した修正の質に依存するため、事前承認という固定された承認戦略を選択することは困難である。 そこで本研究では,モニタリングデータを蓄積して修正を承認する方法を学習するL2A(Learning-to-appr ove approach)について検討する。 L2Aは、より楽観的な政策がより速い承認率を持つ「最適化」で異なる戦略のファミリーを定義し、指数的に重み付けされた平均予測器を用いて、このファミリーを探索する。 デプロイされたモデルの累積リスクを制御するため、L2Aに予測を中止するオプションを与え、代わりに固定的な停止コストを発生させる。 分布シフトが滑らかなことを前提として,L2Aが展開するモデルの平均的リスクを導出する。 シミュレーション研究と実証分析では、L2Aは各問題設定に対する最適化のレベルを調整している。

Machine learning algorithms in healthcare have the potential to continually learn from real-world data generated during healthcare delivery and adapt to dataset shifts. As such, the FDA is looking to design policies that can autonomously approve modifications to machine learning algorithms while maintaining or improving the safety and effectiveness of the deployed models. However, selecting a fixed approval strategy, a priori, can be difficult because its performance depends on the stationarity of the data and the quality of the proposed modifications. To this end, we investigate a learning-to-approve approach (L2A) that uses accumulating monitoring data to learn how to approve modifications. L2A defines a family of strategies that vary in their "optimism''---where more optimistic policies have faster approval rates---and searches over this family using an exponentially weighted average forecaster. To control the cumulative risk of the deployed model, we give L2A the option to abstain from making a prediction and incur some fixed abstention cost instead. We derive bounds on the average risk of the model deployed by L2A, assuming the distributional shifts are smooth. In simulation studies and empirical analyses, L2A tailors the level of optimism for each problem-setting: It learns to abstain when performance drops are common and approve beneficial modifications quickly when the distribution is stable.
翻訳日:2021-05-09 08:43:45 公開日:2020-12-14
# (参考訳) 高分解能実世界のモビリティデータを用いたcovid-19の時空間的リスクスコアの高精度化 [全文訳有]

Towards Accurate Spatiotemporal COVID-19 Risk Scores using High Resolution Real-World Mobility Data ( http://arxiv.org/abs/2012.07283v1 )

ライセンス: CC BY 4.0
Sirisha Rambhatla, Sepanta Zeighami, Kameron Shahabi, Cyrus Shahabi, Yan Liu(参考訳) 新型コロナウイルス(covid-19)のパンデミックが続く中、各国が経済活動の再開を目指す中、公衆衛生の確保が困難になっている。 接触追跡は感染したユーザーの過去の活動を追跡することだけを目的としているが、安全な再開への道の1つは、病気の妥当性を示すために信頼できる時空間リスクスコアを開発することである。 リスクスコアの開発を目的とした既存の研究は, 構成モデルに基づく再現数(一様人口混合を前提とする)に依存するか, 再現数(R0)とマクロレベル密度に基づく移動統計に基づく粗粒空間スコアを開発する。 そこで本稿では,携帯電話発着位置信号に基づく高分解能モビリティデータを活用することで,比較的微粒な空間的・時間的リスクスコアを割り当てる,ホークスプロセスに基づく手法を提案する。 新型コロナウイルス(COVID-19)のリスクスコアは、デモグラフィーや既存の医療状況など、個人固有の要因にも依存するが、病原体の伝達は物理的な近接と接触によって行われる。 そこで我々は,位置密度と移動行動に基づくリスクスコアの開発に注力する。 実世界のモビリティデータに基づくシミュレーションにより,開発したリスクスコアの有効性を示す。 以上の結果から,高分解能モビリティデータに基づく細粒度時空間リスクスコアは,有用な洞察を与え,安全に再オープンできることが示された。

As countries look towards re-opening of economic activities amidst the ongoing COVID-19 pandemic, ensuring public health has been challenging. While contact tracing only aims to track past activities of infected users, one path to safe reopening is to develop reliable spatiotemporal risk scores to indicate the propensity of the disease. Existing works which aim to develop risk scores either rely on compartmental model-based reproduction numbers (which assume uniform population mixing) or develop coarse-grain spatial scores based on reproduction number (R0) and macro-level density-based mobility statistics. Instead, in this paper, we develop a Hawkes process-based technique to assign relatively fine-grain spatial and temporal risk scores by leveraging high-resolution mobility data based on cell-phone originated location signals. While COVID-19 risk scores also depend on a number of factors specific to an individual, including demography and existing medical conditions, the primary mode of disease transmission is via physical proximity and contact. Therefore, we focus on developing risk scores based on location density and mobility behaviour. We demonstrate the efficacy of the developed risk scores via simulation based on real-world mobility data. Our results show that fine-grain spatiotemporal risk scores based on high-resolution mobility data can provide useful insights and facilitate safe re-opening.
翻訳日:2021-05-09 07:23:18 公開日:2020-12-14
# (参考訳) 実環境におけるニューラルネットワーク依存性キットの応用 [全文訳有]

Application of the Neural Network Dependability Kit in Real-World Environments ( http://arxiv.org/abs/2012.09602v1 )

ライセンス: CC BY 4.0
Amit Sahu and Noelia V\'allez and Rosana Rodr\'iguez-Bobada and Mohamad Alhaddad and Omar Moured and Georg Neugschwandtner(参考訳) 本稿では,NNモデルの開発過程でNNDK(Neural Network Dependability Kit)を使用するためのガイドラインを提案し,そのアルゴリズムが2つの画像分類ユースケースにどのように適用されているかを示す。 ケーススタディは、nnモデルに関する洞察を得るための依存性キットの使用と、彼らがニューラルネットワークモデルの開発プロセスをどのように知らせたかを示します。 NNDKで利用可能なさまざまなメトリクスを通じてニューラルネットワークを解釈した後、開発者はNNの精度を高め、開発されたネットワークを信頼し、より堅牢にすることに成功した。 さらに,nnの分類結果の裏付けとなる新たなアプリケーション指向手法をユーザに提供する。 医用画像分類のユースケースでは、現在の患者の画像と類似した訓練データセットからケースイメージを検索し、NNモデルの判断を補助し、医師が結果を理解するのを助けるために使用された。

In this paper, we provide a guideline for using the Neural Network Dependability Kit (NNDK) during the development process of NN models, and show how the algorithm is applied in two image classification use cases. The case studies demonstrate the usage of the dependability kit to obtain insights about the NN model and how they informed the development process of the neural network model. After interpreting neural networks via the different metrics available in the NNDK, the developers were able to increase the NNs' accuracy, trust the developed networks, and make them more robust. In addition, we obtained a novel application-oriented technique to provide supporting evidence for an NN's classification result to the user. In the medical image classification use case, it was used to retrieve case images from the training dataset that were similar to the current patient's image and could therefore act as a support for the NN model's decision and aid doctors in interpreting the results.
翻訳日:2021-05-09 06:35:17 公開日:2020-12-14
# (参考訳) 音声から映像へのマルチモーダル適応正規化 [全文訳有]

Multi Modal Adaptive Normalization for Audio to Video Generation ( http://arxiv.org/abs/2012.07304v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall(参考訳) 音声とビデオドメインというマルチモーダルな側面のため、音声による顔ビデオ生成は複雑な問題となっている。 この音声は、表情、ピッチ、ラウドネス、韻律(話し方)といった多くの基礎的な特徴を含み、顔面ビデオは、頭の動き、目まぶし、唇の同期、様々な顔のアクションユニットの動作、および時間的滑らかさの点で多くのバリエーションを有する。 音声入力と静的画像から高度に表現力のある顔映像を合成することは、生成的敵ネットワークにとって依然として難しい課題である。 本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。 本アーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測,光フロー予測,クラスアクティベーションマップ[58]をベースとしたレイヤを用いて表情的顔成分の動きを学習し,その人物の高度に表現力のあるトーキー映像を生成する。 マルチモーダル適応正規化では、メルスペクトログラム、ピッチ、音声信号からのエネルギー、予測されたキーポイントヒートマップ/オプティカルフローなどの音声およびビデオの様々な特徴と、各アフィンパラメータを学習し、高表現率な映像を生成する単一の画像を用いる。 ssim (structureural similarity index), psnr (peak signal to noise ratio), cpbd (image sharpness), wer (word error rate), blinks/sec, lmd (landmark distance) など複数の定量的指標について,gans (rsdgan) [53], speech2vid [10] を用いた現実的な音声駆動型顔アニメーションと比較し,提案手法の性能を実証した。 さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。

Speech-driven facial video generation has been a complex problem due to its multi-modal aspects namely audio and video domain. The audio comprises lots of underlying features such as expression, pitch, loudness, prosody(speaking style) and facial video has lots of variability in terms of head movement, eye blinks, lip synchronization and movements of various facial action units along with temporal smoothness. Synthesizing highly expressive facial videos from the audio input and static image is still a challenging task for generative adversarial networks. In this paper, we propose a multi-modal adaptive normalization(MAN) based architecture to synthesize a talking person video of arbitrary length using as input: an audio signal and a single image of a person. The architecture uses the multi-modal adaptive normalization, keypoint heatmap predictor, optical flow predictor and class activation map[58] based layers to learn movements of expressive facial components and hence generates a highly expressive talking-head video of the given person. The multi-modal adaptive normalization uses the various features of audio and video such as Mel spectrogram, pitch, energy from audio signals and predicted keypoint heatmap/optical flow and a single image to learn the respective affine parameters to generate highly expressive video. Experimental evaluation demonstrates superior performance of the proposed method as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [53], Speech2Vid [10], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio), CPBD (image sharpness), WER(word error rate), blinks/sec and LMD(landmark distance). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
翻訳日:2021-05-09 06:27:20 公開日:2020-12-14
# (参考訳) 高価な評価による離散空間の最適化:探索学習フレームワーク [全文訳有]

Optimizing Discrete Spaces via Expensive Evaluations: A Learning to Search Framework ( http://arxiv.org/abs/2012.07320v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa, Alan Fern(参考訳) 離散空間(例えば集合、列、グラフ)上で高価なブラックボックス関数を最適化する問題を考える。 鍵となる課題は、高い性能構造をできるだけ早く識別するために、評価する組合せ構造の列を選択することである。 我々の主な貢献は、L2S-DISCOと呼ばれる新しい学習学習フレームワークの導入と評価である。 重要な洞察は、各ステップで制御知識によって導かれる探索手順を用いて次の構造を選択し、新しい機能評価が観察されるにつれて制御知識を改善することである。 局所探索のためのL2S-DISCOの具体的インスタンス化を行い,実世界の様々なベンチマークで実証的に評価する。 その結果,複雑な最適化問題に対するl2s-discoの有効性が示された。

We consider the problem of optimizing expensive black-box functions over discrete spaces (e.g., sets, sequences, graphs). The key challenge is to select a sequence of combinatorial structures to evaluate, in order to identify high-performing structures as quickly as possible. Our main contribution is to introduce and evaluate a new learning-to-search framework for this problem called L2S-DISCO. The key insight is to employ search procedures guided by control knowledge at each step to select the next structure and to improve the control knowledge as new function evaluations are observed. We provide a concrete instantiation of L2S-DISCO for local search procedure and empirically evaluate it on diverse real-world benchmarks. Results show the efficacy of L2S-DISCO over state-of-the-art algorithms in solving complex optimization problems.
翻訳日:2021-05-09 06:24:37 公開日:2020-12-14
# (参考訳) 音声を用いた類似字幕検索による事前学習型大規模言語モデルによる音声キャプション [全文訳有]

Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval ( http://arxiv.org/abs/2012.07331v1 )

ライセンス: CC BY 4.0
Yuma Koizumi, Yasunori Ohishi, Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda(参考訳) 音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。 オーディオキャプションの問題点の1つは、ウェブをクロールすることでオーディオキャプションペアの収集が困難であるため、トレーニングデータの欠如である。 本研究では,この問題を解決するために,事前学習された大規模言語モデルを提案する。 このような言語モデルに音声入力を直接入力できないため、異なる音声に存在する類似性に基づいてトレーニングデータセットから検索したガイダンスキャプションを利用する。 そして、ガイダンスキャプションを参照しながら、事前訓練された言語モデルを用いて音声入力のキャプションを生成する。 実験の結果, (i) 音声キャプションに事前学習された言語モデルを用いることに成功し, (ii) 事前学習されたモデルに基づくキャプション生成器のoracleのパフォーマンスは, スクラッチから学習した従来の方法よりも明らかに優れていた。

The goal of audio captioning is to translate input audio into its description using natural language. One of the problems in audio captioning is the lack of training data due to the difficulty in collecting audio-caption pairs by crawling the web. In this study, to overcome this problem, we propose to use a pre-trained large-scale language model. Since an audio input cannot be directly inputted into such a language model, we utilize guidance captions retrieved from a training dataset based on similarities that may exist in different audio. Then, the caption of the audio input is generated by using a pre-trained language model while referring to the guidance captions. Experimental results show that (i) the proposed method has succeeded to use a pre-trained language model for audio captioning, and (ii) the oracle performance of the pre-trained model-based caption generator was clearly better than that of the conventional method trained from scratch.
翻訳日:2021-05-09 06:10:13 公開日:2020-12-14
# (参考訳) ラプラシアン固有関数と教師なし点登録を用いた関節形状マッチング [全文訳有]

Articulated Shape Matching Using Laplacian Eigenfunctions and Unsupervised Point Registration ( http://arxiv.org/abs/2012.07340v1 )

ライセンス: CC BY 4.0
Diana Mateus, Radu Horaud, David Knossow, Fabio Cuzzolin and Edmond Boyer(参考訳) ボクセル集合で表される調停された形状は、各集合が重み付きグラフによって記述されたときに最大部分グラフ同型となる。 スペクトルグラフ理論は、これらのグラフを低次元空間に写像し、それらの埋め込みをポーズの変化に対する不変性によって整列させることで形状と一致するために用いられる。 固有値の順序に依存する古典的なグラフ同型スキームは、大きなデータセットや騒がしいデータを扱うとき、固有空間を調整するのに失敗する。 我々は、ラプラシア行列の固有関数の最適部分集合を選択することによって、2つの同値な$K$-次元の点集合の最良の整合を求める新しい定式化を導出する。 選択はヒストグラムで構築された固有関数のシグネチャをマッチングすることで行われ、保持されたセットはアライメント問題に対するスマートイニシャライズを提供し、全体的なパフォーマンスに大きな影響を与える。 グラフマッチングにキャストされた高密度な形状マッチングは、直交変換の下での埋め込みのポイント登録を減少させ、その登録は教師なしクラスタリングとEMアルゴリズムの枠組みを用いて解決する。 非同一形状の最大部分集合マッチングは、適切な外れ値類を定義することで処理される。 挑戦的な例の実験的結果は、このアルゴリズムがトポロジーの変化、形状の変化、異なるサンプリング密度を自然に扱う方法を示している。

Matching articulated shapes represented by voxel-sets reduces to maximal sub-graph isomorphism when each set is described by a weighted graph. Spectral graph theory can be used to map these graphs onto lower dimensional spaces and match shapes by aligning their embeddings in virtue of their invariance to change of pose. Classical graph isomorphism schemes relying on the ordering of the eigenvalues to align the eigenspaces fail when handling large data-sets or noisy data. We derive a new formulation that finds the best alignment between two congruent $K$-dimensional sets of points by selecting the best subset of eigenfunctions of the Laplacian matrix. The selection is done by matching eigenfunction signatures built with histograms, and the retained set provides a smart initialization for the alignment problem with a considerable impact on the overall performance. Dense shape matching casted into graph matching reduces then, to point registration of embeddings under orthogonal transformations; the registration is solved using the framework of unsupervised clustering and the EM algorithm. Maximal subset matching of non identical shapes is handled by defining an appropriate outlier class. Experimental results on challenging examples show how the algorithm naturally treats changes of topology, shape variations and different sampling densities.
翻訳日:2021-05-09 05:58:50 公開日:2020-12-14
# (参考訳) Open Brands Dataset: 規模の統一されたブランド検出と認識 [全文訳有]

The Open Brands Dataset: Unified brand detection and recognition at scale ( http://arxiv.org/abs/2012.07350v1 )

ライセンス: CC BY 4.0
Xuan Jin, Wei Su, Rong Zhang, Yuan He, Hui Xue(参考訳) 近年,グローバルeコマースプラットフォームの開発により知的財産保護(IPP)が注目されている。 ブランド認識はIPPにおいて重要な役割を果たす。 ブランド認識と検出に関する最近の研究は、新しいディープラーニング技術を探求するときに十分に包括的でない小規模データセットに基づいている。 また,現実的および開放的な場面においてブランド検出手法の真の性能を評価することは困難である。 これらの問題に対処するために,まずブランド検出と認識の課題を汎用オブジェクト検出と比較して定義する。 第2に「オープンブランズ」と呼ばれる新しいブランドベンチマークが確立されている。 データセットには1,437,812枚の画像が含まれており、ブランドと5万枚の画像がある。 Open Brandsには3,113,828のインスタンスがあり、4つのタイプ、559のブランド、1216のロゴがある。 私たちの知る限りでは、リッチアノテーションによるブランド検出と認識のための最大のデータセットです。 データセットに関する詳細な統計情報を提供し、アノテーションの品質を検証し、多くのモダンモデルのパフォーマンスが、トレーニングデータの増加とともにどのように進化するかを研究する。 第3に,ブランド認識を扱うネットワーク"Brand Net"を設計する。 Brand Netは、既存の検出方法と比較して、最先端のmAPをOpen Brandで取得する。

Intellectual property protection(IPP) have received more and more attention recently due to the development of the global e-commerce platforms. brand recognition plays a significant role in IPP. Recent studies for brand recognition and detection are based on small-scale datasets that are not comprehensive enough when exploring emerging deep learning techniques. Moreover, it is challenging to evaluate the true performance of brand detection methods in realistic and open scenes. In order to tackle these problems, we first define the special issues of brand detection and recognition compared with generic object detection. Second, a novel brands benchmark called "Open Brands" is established. The dataset contains 1,437,812 images which have brands and 50,000 images without any brand. The part with brands in Open Brands contains 3,113,828 instances annotated in 3 dimensions: 4 types, 559 brands and 1216 logos. To the best of our knowledge, it is the largest dataset for brand detection and recognition with rich annotations. We provide in-depth comprehensive statistics about the dataset, validate the quality of the annotations and study how the performance of many modern models evolves with an increasing amount of training data. Third, we design a network called "Brand Net" to handle brand recognition. Brand Net gets state-of-art mAP on Open Brand compared with existing detection methods.
翻訳日:2021-05-09 05:12:04 公開日:2020-12-14
# (参考訳) HR深度:高分解能自己監督単分子深度推定 [全文訳有]

HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2012.07356v1 )

ライセンス: CC BY 4.0
Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong, Lina Liu, Yong Liu, Xinxin Chen, Yi Yuan(参考訳) 自己教師付き学習は、スーパービジョンの唯一の源として画像列を用いる単眼深度推定において大きな可能性を示している。 奥行き推定には高解像度画像を用いたが, 予測精度は改善されていない。 本研究では,両線形補間er-rorが分解能の増大に伴って徐々に消失する不正確な深さ推定勾配領域から,中心的理由が得られた。 大きな勾配領域でより正確な深度推定を行うには、空間的・意味的な情報を持つ高解像度の特徴を得る必要がある。 そこで, 改良されたDepthNet, HR-Depthの2つの効果的な戦略を提案する。(1)DepthNetにおけるスキップ接続を高解像度化するために再設計し, (2)機能融合Squeeze-and-Excitati on(fSE)モジュールをより効率的にヒューズするために提案する。 さらに、以前のstate-of-the-artメソッドは、実際のアプリケーションを制限するパラメータの質量を持つかなり複雑なディープネットワークに基づいている。 また,mobilenetv3をエンコーダとして使用する軽量ネットワークを構築する。 実験によると、軽量ネットワークは、monodepth2のような多くの大規模モデルと同程度の解像度で、わずか20%のパラメータで実行できる。 すべてのコードとモデルはhttps://github.com/s hawLyu/HR-Depth.comで入手できる。

Self-supervised learning shows great potential in monoculardepth estimation, using image sequences as the only source ofsupervision. Although people try to use the high-resolutionimage for depth estimation, the accuracy of prediction hasnot been significantly improved. In this work, we find thecore reason comes from the inaccurate depth estimation inlarge gradient regions, making the bilinear interpolation er-ror gradually disappear as the resolution increases. To obtainmore accurate depth estimation in large gradient regions, itis necessary to obtain high-resolution features with spatialand semantic information. Therefore, we present an improvedDepthNet, HR-Depth, with two effective strategies: (1) re-design the skip-connection in DepthNet to get better high-resolution features and (2) propose feature fusion Squeeze-and-Excitati on(fSE) module to fuse feature more efficiently.Using Resnet-18 as the encoder, HR-Depth surpasses all pre-vious state-of-the-art(SoT A) methods with the least param-eters at both high and low resolution. Moreover, previousstate-of-the -art methods are based on fairly complex and deepnetworks with a mass of parameters which limits their realapplications. Thus we also construct a lightweight networkwhich uses MobileNetV3 as encoder. Experiments show thatthe lightweight network can perform on par with many largemodels like Monodepth2 at high-resolution with only20%parameters. All codes and models will be available at https://github.com/s hawLyu/HR-Depth.
翻訳日:2021-05-09 05:02:01 公開日:2020-12-14
# (参考訳) 話題制御と常識強制を伴う方程式からの算数語問題の生成 [全文訳有]

Generating Math Word Problems from Equations with Topic Controlling and Commonsense Enforcement ( http://arxiv.org/abs/2012.07379v1 )

ライセンス: CC BY 4.0
Tianyang Cao, Shuang Zeng, Songge Zhao, Mairgup Mansur, Baobao Chang(参考訳) 近年、ニューラルネットワークモデルの助けを借りてテキスト生成タスクが大幅に進歩している。 しかし、数学の方程式に基づいて数学問題テキストを生成するという、これまでほとんど進歩しなかった課題がある。 本稿では,新しい方程式から問題へのテキスト生成モデルを提案する。 In our model, 1) we propose a flexible scheme to effectively encode math equations, we then enhance the equation encoder by a Varitional Autoen-coder (VAE) 2) given a math equation, we perform topic selection, followed by which a dynamic topic memory mechanism is introduced to restrict the topic distribution of the generator 3) to avoid commonsense violation in traditional generation model, we pretrain word embedding with background knowledge graph (KG), and we link decoded words to related words in KG, targeted at injecting background knowledge into our model. 我々は,自動計測と人的評価の両面からモデルを評価し,本モデルが生成した問題テキストの精度と豊かさの両面で,ベースラインと過去のモデルより優れていることを示す。

Recent years have seen significant advancement in text generation tasks with the help of neural language models. However, there exists a challenging task: generating math problem text based on mathematical equations, which has made little progress so far. In this paper, we present a novel equation-to-problem text generation model. In our model, 1) we propose a flexible scheme to effectively encode math equations, we then enhance the equation encoder by a Varitional Autoen-coder (VAE) 2) given a math equation, we perform topic selection, followed by which a dynamic topic memory mechanism is introduced to restrict the topic distribution of the generator 3) to avoid commonsense violation in traditional generation model, we pretrain word embedding with background knowledge graph (KG), and we link decoded words to related words in KG, targeted at injecting background knowledge into our model. We evaluate our model through both automatic metrices and human evaluation, experiments demonstrate our model outperforms baseline and previous models in both accuracy and richness of generated problem text.
翻訳日:2021-05-09 04:29:32 公開日:2020-12-14
# (参考訳) 重要度サンプリングによるフェデレーション学習 [全文訳有]

Federated Learning under Importance Sampling ( http://arxiv.org/abs/2012.07383v1 )

ライセンス: CC BY 4.0
Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) フェデレーション学習は、中央ユニットによって管理される分散学習戦略をカプセル化する。 各イテレーションで選択されたエージェントの数に依存するため、各エージェントがそれぞれのローカルデータをタップするので、エージェントとそのデータを選択するための最適なサンプリングポリシーをフェデレートした学習実装で研究するのは自然なことです。 通常、均一なサンプリング方式のみを使用する。 しかし,本研究では,サンプリングエージェントと非均一に誘導されるデータに対して,サンプリングの重要性と,スキームの工夫の効果について検討する。 代替のないサンプリングを含むスキームでは,生成したアーキテクチャの性能は,各エージェントのデータ変動とエージェント間のモデル変動に関連する2つの要因によって制御される。 シミュレーションおよび実データを用いた実験により理論的知見を示し,提案手法による性能改善を示す。

Federated learning encapsulates distributed learning strategies that are managed by a central unit. Since it relies on using a selected number of agents at each iteration, and since each agent, in turn, taps into its local data, it is only natural to study optimal sampling policies for selecting agents and their data in federated learning implementations. Usually, only uniform sampling schemes are used. However, in this work, we examine the effect of importance sampling and devise schemes for sampling agents and data non-uniformly guided by a performance measure. We find that in schemes involving sampling without replacement, the performance of the resulting architecture is controlled by two factors related to data variability at each agent, and model variability across agents. We illustrate the theoretical findings with experiments on simulated and real data and show the improvement in performance that results from the proposed strategies.
翻訳日:2021-05-09 04:16:02 公開日:2020-12-14
# (参考訳) ロバストなワンショットオーディオからビデオ生成 [全文訳有]

Robust One Shot Audio to Video Generation ( http://arxiv.org/abs/2012.07842v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Mujtaba Hasan(参考訳) オーディオ・トゥ・ビデオ生成は興味深い問題であり、映画製作、マルチメディア、マーケティング、教育などの業界分野に多くの応用がある。 表現力のある顔の動きを持つ高品質のビデオ生成は、生成的対向ネットワークのための複雑な学習ステップを伴う難しい問題である。 さらに、未認識の単一画像に対してワンショット学習を可能にすることで、問題の複雑さが増し、同時に実用的なシナリオにも適用できる。 本稿では,音声信号と一人の未確認画像とを入力として,任意の長さの音声映像を合成するための新しい手法であるOneShotA2Vを提案する。 OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキー映像を生成する。 さらに、音声入力から生成した特徴を直接生成対向ネットワークに供給し、少数のアップダデーションエポックのみを施したスナップショット学習を適用することにより、任意の未確認自撮りに適応する。 OneShotA2Vは空間適応正規化に基づくマルチレベルジェネレータとマルチレベル識別器ベースのアーキテクチャを利用する。 入力された音声クリップは特定の言語に制限されず、メソッドの多言語適用性を与える。 SSIM(構造類似度指数)、PSNR(ピーク信号対雑音比)、PBD(画像のシャープネス)など、複数の定量的指標を用いて、1ShotA2Vの性能をGAN(RSDGAN)[43]、Speech2Vid[8]などによるリアル音声駆動顔画像と比較した。 さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。

Audio to Video generation is an interesting problem that has numerous applications across industry verticals including film making, multi-media, marketing, education and others. High-quality video generation with expressive facial movements is a challenging problem that involves complex learning steps for generative adversarial networks. Further, enabling one-shot learning for an unseen single image increases the complexity of the problem while simultaneously making it more applicable to practical scenarios. In the paper, we propose a novel approach OneShotA2V to synthesize a talking person video of arbitrary length using as input: an audio signal and a single unseen image of a person. OneShotA2V leverages curriculum learning to learn movements of expressive facial components and hence generates a high-quality talking-head video of the given person. Further, it feeds the features generated from the audio input directly into a generative adversarial network and it adapts to any given unseen selfie by applying fewshot learning with only a few output updation epochs. OneShotA2V leverages spatially adaptive normalization based multi-level generator and multiple multi-level discriminators based architecture. The input audio clip is not restricted to any specific language, which gives the method multilingual applicability. Experimental evaluation demonstrates superior performance of OneShotA2V as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [43], Speech2Vid [8], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio) and CPBD (image sharpness). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
翻訳日:2021-05-09 02:58:25 公開日:2020-12-14
# (参考訳) ダイアログにおける推論:文脈読解による応答生成の改善 [全文訳有]

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension ( http://arxiv.org/abs/2012.07410v1 )

ライセンス: CC BY 4.0
Xiuying Chen, Zhi Cui, Jiayi Zhang, Chen Wei, Jianwei Cui, Bin Wang, Dongyan Zhao, Rui Yan(参考訳) マルチターンダイアログでは、発話は常に文の完全な形を取るとは限らないため、自然にダイアログの文脈を理解するのが難しくなる。 しかし、適切な応答を生成するために、ダイアログコンテキストを完全に把握することが不可欠である。 そこで本研究では,対話中の省略された情報に着目した読み解き質問に対して,モデルの応答能力を調べることにより,応答生成性能を向上させることを提案する。 本稿では,マルチタスク学習方式に照らし合わせて,これら2つのタスクを統一し,同じエンコーダを共有し,異なるデコーダを持つ共通およびタスク不変な特徴を抽出し,タスク固有の特徴を学習する統合フレームワークを提案する。 符号化部における質問やダイアログ履歴の融合を改善するため、下流タスクをサポートするために履歴ダイアログ情報を選択的に保存・更新するメモリ更新器を用いてトランスフォーマーアーキテクチャを拡張することを提案する。 実験では,人間のアノテーションを用いて大規模な対話読解データセットを記述・検討した。 このデータセットで広範な実験を行い,提案手法が両タスクの強力なベースラインに対して大幅に改善することを示す。 このようにして、推論が応答生成の改善に有効であり、その逆であることを示す。 我々はさらなる研究のために大規模なデータセットをリリースします。

In multi-turn dialog, utterances do not always take the full form of sentences \cite{Carbonell1983Discour sePA}, which naturally makes understanding the dialog context more difficult. However, it is essential to fully grasp the dialog context to generate a reasonable response. Hence, in this paper, we propose to improve the response generation performance by examining the model's ability to answer a reading comprehension question, where the question is focused on the omitted information in the dialog. Enlightened by the multi-task learning scheme, we propose a joint framework that unifies these two tasks, sharing the same encoder to extract the common and task-invariant features with different decoders to learn task-specific features. To better fusing information from the question and the dialog history in the encoding part, we propose to augment the Transformer architecture with a memory updater, which is designed to selectively store and update the history dialog information so as to support downstream tasks. For the experiment, we employ human annotators to write and examine a large-scale dialog reading comprehension dataset. Extensive experiments are conducted on this dataset, and the results show that the proposed model brings substantial improvements over several strong baselines on both tasks. In this way, we demonstrate that reasoning can indeed help better response generation and vice versa. We release our large-scale dataset for further research.
翻訳日:2021-05-09 02:45:30 公開日:2020-12-14
# (参考訳) ディープエンコーダデコーダネットワークを用いたDSMリファインメント [全文訳有]

DSM Refinement with Deep Encoder-Decoder Networks ( http://arxiv.org/abs/2012.07427v1 )

ライセンス: CC BY 4.0
Nando Metzger(参考訳) 空中画像から3d都市モデルを生成することができる。 しかし、計算されたDSMは、時間を要するプロセスで手動で片付けなければならないノイズ、人工物、データホールに悩まされる。 本稿では,このようなdsmを自動精錬する手法を提案する。 重要なアイデアは、参照データからニューラルネットワークに都市部の特性を教えることである。 この目的を達成するために、L1ノルムと特徴損失からなる損失関数を提案する。 これらの特徴は、事前訓練された画像分類ネットワークを用いて構築される。 高度マップの更新を学習するために、深層学習の概念とエンコーダ・デコーダ構造に基づいてネットワークアーキテクチャを設定する。 その結果, この組み合わせは, 不要なアーチファクトやノイズを除去しながら, 関連する幾何学的構造を保存するのに極めて有効であることが示唆された。

3D city models can be generated from aerial images. However, the calculated DSMs suffer from noise, artefacts, and data holes that have to be manually cleaned up in a time-consuming process. This work presents an approach that automatically refines such DSMs. The key idea is to teach a neural network the characteristics of urban area from reference data. In order to achieve this goal, a loss function consisting of an L1 norm and a feature loss is proposed. These features are constructed using a pre-trained image classification network. To learn to update the height maps, the network architecture is set up based on the concept of deep residual learning and an encoder-decoder structure. The results show that this combination is highly effective in preserving the relevant geometric structures while removing the undesired artefacts and noise.
翻訳日:2021-05-09 01:56:53 公開日:2020-12-14
# (参考訳) ピラミッド-フォーカス強化:ステップワイズフォーカスによる医用画像分割 [全文訳有]

Pyramid-Focus-Augmen tation: Medical Image Segmentation with Step-Wise Focus ( http://arxiv.org/abs/2012.07430v1 )

ライセンス: CC BY 4.0
Vajira Thambawita, Steven Hicks, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 消化管所見の分節化は困難であるが重要な課題であり,十分な自動決定支援システムの構築に重要な役割を担っている。 本研究では,大腸ポリープ分節の問題に焦点をあてた,2020年のメディコ課題に対する解決策を提案する。 本稿では,ピラミッド状(大小から小)のグリッドをセグメンテーションに使用する拡張法について,単純かつ効率的なアイデアを提案する。 その結果,提案手法はインデントとして動作し,他の手法と競合する場合と同等の結果が得られることがわかった。

Segmentation of findings in the gastrointestinal tract is a challenging but also an important task which is an important building stone for sufficient automatic decision support systems. In this work, we present our solution for the Medico 2020 task, which focused on the problem of colon polyp segmentation. We present our simple but efficient idea of using an augmentation method that uses grids in a pyramid-like manner (large to small) for segmentation. Our results show that the proposed methods work as indented and can also lead to comparable results when competing with other methods.
翻訳日:2021-05-09 01:52:43 公開日:2020-12-14
# (参考訳) 距離方向グラフコントラスト学習 [全文訳有]

Distance-wise Graph Contrastive Learning ( http://arxiv.org/abs/2012.07437v1 )

ライセンス: CC BY 4.0
Deli Chen, Yanyai Lin, Lei Li, Xuancheng Ren. Peng Li, Jie Zhou, Xu Sun(参考訳) グラフベースの半教師付き学習(ssl)では、グラフの注釈付きノードから制限されたタスク情報を効率的に補完できるため、コントラスト学習(cl)が極めて効果的であることが証明されている。 しかしながら、既存のグラフcl(gcl)研究は、グラフトポロジーと注釈付きノードの選択によるグラフ全体のタスク情報の不均一な分布を無視している。 彼らは、CLをグラフ全体に等しく適用し、CLとグラフ学習の不連続な組み合わせをもたらす。 この問題に対処するため,各ノードのタスク情報を考慮し,グラフ学習にCLを適応的に適用することを提案する。 まず,グラフからのノード情報ゲインを測定するためにグループページランクを導入し,ラベル付きノードから位相的に離れたノードに対してclが有効であることを示す。 次に,2つの視点からdwgcl( distance-wise graph contrastive learning)法を提案する。(1) グラフ全体のタスク情報分布の全体的視点から,ラベル付きノードから離れたノードに対するcl効果を高める。(2) 各ノードの受信情報の個人的視点から,ノード間の相対距離を計測し,それに応じてgclのサンプリング戦略を適用する。 5つのベンチマークグラフデータセットに対する大規模な実験は、DwGCLが従来のGCLメソッドよりも明確な改善をもたらすことを示している。 各種アーキテクチャと3つの異なるアノテーション設定を持つ8つのグラフニューラルネットワークの解析により、DwGCLの一般化可能性をさらに証明した。

Contrastive learning (CL) has proven highly effective in graph-based semi-supervised learning (SSL), since it can efficiently supplement the limited task information from the annotated nodes in graph. However, existing graph CL (GCL) studies ignore the uneven distribution of task information across graph caused by the graph topology and the selection of annotated nodes. They apply CL to the whole graph evenly, which results in an incongruous combination of CL and graph learning. To address this issue, we propose to apply CL in the graph learning adaptively by taking the received task information of each node into consideration. Firstly, we introduce Group PageRank to measure the node information gain from graph and find that CL mainly works for nodes that are topologically far away from the labeled nodes. We then propose our Distance-wise Graph Contrastive Learning (DwGCL) method from two views:(1) From the global view of the task information distribution across the graph, we enhance the CL effect on nodes that are topologically far away from labeled nodes; (2) From the personal view of each node's received information, we measure the relative distance between nodes and then we adapt the sampling strategy of GCL accordingly. Extensive experiments on five benchmark graph datasets show that DwGCL can bring a clear improvement over previous GCL methods. Our analysis on eight graph neural network with various types of architecture and three different annotation settings further demonstrates the generalizability of DwGCL.
翻訳日:2021-05-09 01:47:59 公開日:2020-12-14
# (参考訳) ディープニューラルネットワーク適応のためのベイズ学習 [全文訳有]

Bayesian Learning for Deep Neural Network Adaptation ( http://arxiv.org/abs/2012.07460v1 )

ライセンス: CC BY 4.0
Xurong Xie, Xunying Liu, Tan Lee, Lan Wang(参考訳) 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。 この目的のために、話者適応技術はミスマッチを減らすために重要な役割を果たす。 モデルに基づく話者適応手法は、堅牢性を確保するために十分な量のターゲット話者データを必要とすることが多い。 話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。 本稿では,話者固有の適応データから話者依存(sd)パラメータの不確かさをモデル化するために,ベイズ学習に基づくdnn話者適応フレームワークを提案する。 この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。 3つのベイズ適応法において、決定論的sdパラメータは各話者に対して学習される潜在変数後続分布に置き換えられ、そのパラメータは変分推論に基づくアプローチにより効率的に推定される。 提案手法は,NIST Hub5'00 と RT03 の定性パラメータを用いて,教師なし試験時間話者適応と話者適応訓練の両方において,適応システムより一貫して優れていることを示す。 提案手法の有効性は,本論文で報告されている最新のハイブリッドシステムとエンド・ツー・エンドシステムを用いて,同一タスクで得られた最新性能との比較によりさらに実証された。

A key task for speech recognition systems is to reduce the mismatch between the training and evaluation data that is often attributable to speaker differences. To this end, speaker adaptation techniques play a vital role to reduce the mismatch. Model-based speaker adaptation approaches often require sufficient amounts of target speaker data to ensure robustness. When the amount of speaker level data is limited, speaker adaptation is prone to overfitting and poor generalization. To address the issue, this paper proposes a full Bayesian learning based DNN speaker adaptation framework to model speaker-dependent (SD) parameter uncertainty given limited speaker specific adaptation data. This framework is investigated in three forms of model based DNN adaptation techniques: Bayesian learning of hidden unit contributions (BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian hidden unit bias vectors (BHUB). In all three Bayesian adaptation methods, deterministic SD parameters are replaced by latent variable posterior distributions to be learned for each speaker, whose parameters are efficiently estimated using a variational inference based approach. Experiments conducted on 300-hour speed perturbed Switchboard corpus trained LF-MMI factored TDNN/CNN-TDNN systems featuring i-vector speaker adaptation suggest the proposed Bayesian adaptation approaches consistently outperform the adapted systems using deterministic parameters on the NIST Hub5'00 and RT03 evaluation sets in both unsupervised test time speaker adaptation and speaker adaptive training. The efficacy of the proposed Bayesian adaptation techniques is further demonstrated in a comparison against the state-of-the-art performance obtained on the same task using the most recent hybrid and end-to-end systems reported in the literature.
翻訳日:2021-05-09 01:31:17 公開日:2020-12-14
# (参考訳) 差分プラニングを用いたパラメータ効率の高い転送学習 [全文訳有]

Parameter-Efficient Transfer Learning with Diff Pruning ( http://arxiv.org/abs/2012.07463v1 )

ライセンス: CC BY 4.0
Demi Guo, Alexander M. Rush, Yoon Kim(参考訳) 予め訓練されたネットワークのタスク固有の微調整は、NLPにおいて顕著な経験的進歩をもたらしたが、ネットワークの大規模化は、マルチタスク、メモリ制約のある設定での微調整を困難にしている。 本稿では,プリトレイン・フィニチューン・フレームワーク内でパラメータ効率の良い転送学習を実現するための簡単な手法としてdiff pruningを提案する。 このアプローチは、微調整を、事前訓練されたパラメータベクトルの上に適用されるタスク固有の差分ベクトルを学習し、異なるタスク間で共有されるものとして見なす。 差分ベクトルは訓練中にL0-ノルムペナルティに微分可能な近似を施して適応的にプルーニングされる。 ディフプルーニングはタスク数が増加するにつれてパラメータ効率が向上し、各タスクの非ゼロ位置と差分ベクトルの重みだけを格納する必要があるが、共有事前学習モデルの保存コストは一定である。 さらに、トレーニング中にすべてのタスクにアクセスする必要はなく、ストリームにタスクが到着したり、タスクセットが不明な設定で魅力的になる。 差分プルーニングで微調整されたモデルはGLUEベンチマークで完全に微調整されたベースラインの性能と一致し,タスク毎の事前学習モデルのパラメータの0.5%しか変更できないことがわかった。

While task-specific finetuning of pretrained networks has led to significant empirical advances in NLP, the large size of networks makes finetuning difficult to deploy in multi-task, memory-constrained settings. We propose diff pruning as a simple approach to enable parameter-efficient transfer learning within the pretrain-finetune framework. This approach views finetuning as learning a task-specific diff vector that is applied on top of the pretrained parameter vector, which remains fixed and is shared across different tasks. The diff vector is adaptively pruned during training with a differentiable approximation to the L0-norm penalty to encourage sparsity. Diff pruning becomes parameter-efficient as the number of tasks increases, as it requires storing only the nonzero positions and weights of the diff vector for each task, while the cost of storing the shared pretrained model remains constant. It further does not require access to all tasks during training, which makes it attractive in settings where tasks arrive in stream or the set of tasks is unknown. We find that models finetuned with diff pruning can match the performance of fully finetuned baselines on the GLUE benchmark while only modifying 0.5% of the pretrained model's parameters per task.
翻訳日:2021-05-09 01:02:47 公開日:2020-12-14
# (参考訳) 多目的継続によるL1ペナルティ項の最適化問題処理について [全文訳有]

On the Treatment of Optimization Problems with L1 Penalty Terms via Multiobjective Continuation ( http://arxiv.org/abs/2012.07483v1 )

ライセンス: CC BY 4.0
Katharina Bieker, Bennet Gebken, Sebastian Peitz(参考訳) 本稿では,画像や信号処理,医用画像,圧縮センシング,機械学習(ニューラルネットワークのトレーニングなど)など,多くの科学領域において重要である線形および非線形最適化におけるスパーシリティの影響について,より詳細な知見を得ることができるアルゴリズムを提案する。 sparsityは、ノイズデータに対する堅牢性を確保する上で重要な機能であると同時に、関連する用語の数が少ないため、解釈可能で分析しやすいモデルを見つける上でも重要である。 重み付きペナルティ項に$\ell_1$-normを加えることで、スパーシティを強制するのが一般的である。 より理解を深め、情報モデル選択を可能にするために、主目的と$\ell_1$-normを同時に最小化する際に発生する対応する多目的最適化問題(MOP)を直接解決する。 この MOP は一般に非線形目的に対して非凸であるので、重み付け法は全ての最適妥協を与えることができない。 この問題を回避するために,目的関数が 2 つある MOP に特に適合する継続法,すなわち $\ell_1$-norm を提案する。 本手法は非線形の場合に対する線形回帰問題に対するよく知られたホモトピー法の一般化と見なすことができる。 ニューラルネットワークトレーニングを含むいくつかの数値例は、この多目的アプローチによって得られる理論的な知見と追加の洞察を示しています。

We present a novel algorithm that allows us to gain detailed insight into the effects of sparsity in linear and nonlinear optimization, which is of great importance in many scientific areas such as image and signal processing, medical imaging, compressed sensing, and machine learning (e.g., for the training of neural networks). Sparsity is an important feature to ensure robustness against noisy data, but also to find models that are interpretable and easy to analyze due to the small number of relevant terms. It is common practice to enforce sparsity by adding the $\ell_1$-norm as a weighted penalty term. In order to gain a better understanding and to allow for an informed model selection, we directly solve the corresponding multiobjective optimization problem (MOP) that arises when we minimize the main objective and the $\ell_1$-norm simultaneously. As this MOP is in general non-convex for nonlinear objectives, the weighting method will fail to provide all optimal compromises. To avoid this issue, we present a continuation method which is specifically tailored to MOPs with two objective functions one of which is the $\ell_1$-norm. Our method can be seen as a generalization of well-known homotopy methods for linear regression problems to the nonlinear case. Several numerical examples - including neural network training - demonstrate our theoretical findings and the additional insight that can be gained by this multiobjective approach.
翻訳日:2021-05-09 00:43:01 公開日:2020-12-14
# (参考訳) スパースグラフ構築による映画要約 [全文訳有]

Movie Summarization via Sparse Graph Construction ( http://arxiv.org/abs/2012.07536v1 )

ライセンス: CC BY 4.0
Pinelopi Papalampidi, Frank Keller, Mirella Lapata(参考訳) 長編映画を総括し,その最重要場面を含む短い映像を制作する。 本稿では,ポイント(TP)を構成するシーン,すなわちストーリーラインを記述する映画のキーイベントを組み立てることで,要約が生成できるという仮説を探求する。 本研究では,シーン間の関係を表現し,マルチモーダル情報を用いて構築する疎映画グラフを構築し,tpシーンを識別するモデルを提案する。 人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。 誘導グラフは解釈可能であり、異なる映画ジャンルのトポロジーを表示する。

We summarize full-length movies by creating shorter videos containing their most informative scenes. We explore the hypothesis that a summary can be created by assembling scenes which are turning points (TPs), i.e., key events in a movie that describe its storyline. We propose a model that identifies TP scenes by building a sparse movie graph that represents relations between scenes and is constructed using multimodal information. According to human judges, the summaries created by our approach are more informative and complete, and receive higher ratings, than the outputs of sequence-based models and general-purpose summarization algorithms. The induced graphs are interpretable, displaying different topology for different movie genres.
翻訳日:2021-05-09 00:19:10 公開日:2020-12-14
# (参考訳) 深層学習による脳萎縮の生体力学的モデリング [全文訳有]

Biomechanical modelling of brain atrophy through deep learning ( http://arxiv.org/abs/2012.07596v1 )

ライセンス: CC BY 4.0
Mariana da Silva, Kara Garcia, Carole H. Sudre, Cher Bass, M. Jorge Cardoso, Emma Robinson(参考訳) 本稿では,概念実証,深層学習(DL)に基づく現実的な脳変形の生体力学的モデルを提案する。 局所萎縮と成長の所定のマップを入力として、ネットワークは組織変形のネオ・フックモデルに従って画像の変形を学習する。 このツールは、アルツハイマー病神経画像イニシアチブ(ADNI)データセットの経時的脳萎縮データを用いて検証され、トレーニングされたモデルは、最小限の残差で新しい脳の変形を迅速にシミュレートできることを示した。 この方法は、データ増強や、脳の成長と萎縮を反映する様々な因果仮説の探索に使用される可能性がある。

We present a proof-of-concept, deep learning (DL) based, differentiable biomechanical model of realistic brain deformations. Using prescribed maps of local atrophy and growth as input, the network learns to deform images according to a Neo-Hookean model of tissue deformation. The tool is validated using longitudinal brain atrophy data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, and we demonstrate that the trained model is capable of rapidly simulating new brain deformations with minimal residuals. This method has the potential to be used in data augmentation or for the exploration of different causal hypotheses reflecting brain growth and atrophy.
翻訳日:2021-05-08 23:58:08 公開日:2020-12-14
# (参考訳) ヒンディー語ニュースメディアにおけるクリックベイト : 予備研究 [全文訳有]

Clickbait in Hindi News Media : A Preliminary Study ( http://arxiv.org/abs/2012.07609v1 )

ライセンス: CC BY 4.0
Vivek Kaushal and Kavita Vemuri(参考訳) ヒンディー語ニュースの見出しをtwitterで共有するコーパスは、ヒンディー語ニュースソースの5つのツイートを4ヶ月にわたって収集することで作成された。 7人の独立したアノテーターが採用され、クリックベイトの性質で5つのニュースソースから最もリツイートされた20のニュース投稿をマークした。 その結果得られたクリックベイトスコアは、プラットフォーム上のインタラクション(retweets, favorites, reader responselies)、ツイートワード数、ツイート中の正規化されたPOS(part-of-speech)タグ数との相関で評価された。 ツイートに対する読者の反応とツイートのクリックベイトスコアとの間には正の相関が認められた。 POSタグ数とクリックベイトスコアにも有意な相関が認められた。 ヒンディー語ニュースメディアにおけるクリックベイトの普及は、英語ニュースメディアにおけるクリックベイトの普及に類似していることが判明した。 私たちは、ヒンディー語の主流ニュースメディアでclickbaitに関する議論のプラットフォームを提供することを期待している。

A corpus of Hindi news headlines shared on Twitter was created by collecting tweets of 5 mainstream Hindi news sources for a period of 4 months. 7 independent annotators were recruited to mark the 20 most retweeted news posts by each of the 5 news sources on its clickbait nature. The clickbait score hence generated was assessed for its correlation with interactions on the platform (retweets, favorites, reader replies), tweet word count, and normalized POS (part-of-speech) tag counts in tweets. A positive correlation was observed between readers' interactions with tweets and tweets' clickbait score. Significant correlations were also observed for POS tag counts and clickbait score. The prevalence of clickbait in mainstream Hindi news media was found to be similar to its prevalence in English news media. We hope that our observations would provide a platform for discussions on clickbait in mainstream Hindi news media.
翻訳日:2021-05-08 23:50:02 公開日:2020-12-14
# (参考訳) Sparse Multi-Family Deep Scattering Network [全文訳有]

Sparse Multi-Family Deep Scattering Network ( http://arxiv.org/abs/2012.07662v1 )

ライセンス: CC BY 4.0
Romain Cosentino, Randall Balestriero(参考訳) 本研究では,sparse multi-family deep scattering network (smf-dsn)を提案する。 DSNは、ウェーブレット変換をカスケードして信号の正当性と解釈可能な特徴を抽出し、変換不変演算子を介してデータの表現を抽出する。 まず、過去数十年にわたって高度に専門化されたウェーブレットフィルタの開発を活用し、DSNに対するマルチファミリーアプローチを提案する。 特に,ネットワークの各層で複数のウェーブレット変換を交差させることを提案し,特徴の多様性を高め,専門家が適切なフィルタを選択する必要をなくす。 次に,ネットワークを正則化し,非定常雑音などの信号に起因する不安定性を制御するdsnに適した最適しきい値戦略を開発する。 提案手法は,ネットワークの潜在表現を,活動と雑音を区別するローカルマスクとして機能させることによってスパースする。 SMF-DSNは(i)散乱係数の多様性を高めてDSNを増強し、(ii)非定常雑音に対するロバスト性を向上させる。

In this work, we propose the Sparse Multi-Family Deep Scattering Network (SMF-DSN), a novel architecture exploiting the interpretability of the Deep Scattering Network (DSN) and improving its expressive power. The DSN extracts salient and interpretable features in signals by cascading wavelet transforms, complex modulus and extract the representation of the data via a translation-invarian t operator. First, leveraging the development of highly specialized wavelet filters over the last decades, we propose a multi-family approach to DSN. In particular, we propose to cross multiple wavelet transforms at each layer of the network, thus increasing the feature diversity and removing the need for an expert to select the appropriate filter. Secondly, we develop an optimal thresholding strategy adequate for the DSN that regularizes the network and controls possible instabilities induced by the signals, such as non-stationary noise. Our systematic and principled solution sparsifies the network's latent representation by acting as a local mask distinguishing between activity and noise. The SMF-DSN enhances the DSN by (i) increasing the diversity of the scattering coefficients and (ii) improves its robustness with respect to non-stationary noise.
翻訳日:2021-05-08 22:23:42 公開日:2020-12-14
# (参考訳) ヘビアンとSTDPの制限はスパイキングニューロンの体重を学習する [全文訳有]

Constraints on Hebbian and STDP learned weights of a spiking neuron ( http://arxiv.org/abs/2012.07664v1 )

ライセンス: CC BY 4.0
Dominique Chu and Huy Le Nguyen(参考訳) 体重正規化を伴うスパイキングニューロンに適用されるヒュービアンおよびstdp学習規則による重みの制約を数学的に解析する。 純粋なヘビアン学習の場合、正規化重みは学習速度に依存し、通常は小さい修正項まで重みの促進確率に等しいことが分かる。 同様の関係をSTDPアルゴリズムで導き出すことができ、そこでは正規化された重み値が重みの促進と脱落確率の差を反映する。 これらの関係は、ヘビーアルゴリズムとstdpアルゴリズムの収束をチェックできるという点で実際に有用である。 もう1つの応用は新規性検出である。 MNISTデータセットを用いてこれを実証する。

We analyse mathematically the constraints on weights resulting from Hebbian and STDP learning rules applied to a spiking neuron with weight normalisation. In the case of pure Hebbian learning, we find that the normalised weights equal the promotion probabilities of weights up to correction terms that depend on the learning rate and are usually small. A similar relation can be derived for STDP algorithms, where the normalised weight values reflect a difference between the promotion and demotion probabilities of the weight. These relations are practically useful in that they allow checking for convergence of Hebbian and STDP algorithms. Another application is novelty detection. We demonstrate this using the MNIST dataset.
翻訳日:2021-05-08 22:04:06 公開日:2020-12-14
# (参考訳) グラフニューラルネットワークの一般化境界に対するPAC-Bayesianアプローチ

A PAC-Bayesian Approach to Generalization Bounds for Graph Neural Networks ( http://arxiv.org/abs/2012.07690v1 )

ライセンス: CC BY 4.0
Renjie Liao, Raquel Urtasun, Richard Zemel(参考訳) 本稿では,グラフニューラルネットワーク (GNN) の2つの主要クラス,すなわちグラフ畳み込みネットワーク (GCN) とメッセージパッシングGNN (MPGNN) について,PAC-ベイジアンアプローチを用いて一般化境界を導出する。 その結果,重みの最大ノード次数とスペクトルノルムが両モデルの一般化境界を規定することが明らかとなった。 また,完全連結・畳み込みニューラルネットワークのためのarXiv:1707.09564v2[cs.LG]で開発された結果の自然な一般化であることを示す。 メッセージパッシングgnnでは、pac-bayesバウンドはarxiv:2002.06157v1[cs.lg]のバウンドに基づくrademacher複雑性よりも改善され、最大ノード次数と最大隠れ次元への依存性がより強くなる。 GNNの摂動解析とPAC-Bayes解析の非均一GNNへの一般化である。 いくつかの実世界のグラフデータセットに関する実証的研究を行い、PAC-Bayes境界が他よりも厳密であることを検証した。

In this paper, we derive generalization bounds for the two primary classes of graph neural networks (GNNs), namely graph convolutional networks (GCNs) and message passing GNNs (MPGNNs), via a PAC-Bayesian approach. Our result reveals that the maximum node degree and spectral norm of the weights govern the generalization bounds of both models. We also show that our bound for GCNs is a natural generalization of the results developed in arXiv:1707.09564v2 [cs.LG] for fully-connected and convolutional neural networks. For message passing GNNs, our PAC-Bayes bound improves over the Rademacher complexity based bound in arXiv:2002.06157v1 [cs.LG], showing a tighter dependency on the maximum node degree and the maximum hidden dimension. The key ingredients of our proofs are a perturbation analysis of GNNs and the generalization of PAC-Bayes analysis to non-homogeneous GNNs. We perform an empirical study on several real-world graph datasets and verify that our PAC-Bayes bound is tighter than others.
翻訳日:2021-05-08 21:49:44 公開日:2020-12-14
# (参考訳) Mercer Features for Efficient Combinatorial Bayesian Optimization [全文訳有]

Mercer Features for Efficient Combinatorial Bayesian Optimization ( http://arxiv.org/abs/2012.07762v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、ブラックボックス最適化問題を解くための効率的なフレームワークである。 本稿では,科学や工学の分野で自然に発生する組合せ空間(シーケンスやグラフなど)のBO問題に対処する。 原型的な例は、高価な実験によって導かれる分子最適化である。 重要な課題は、統計モデルの複雑さと探索のトラクタビリティをバランスさせ、評価のための組合せ構造を選択することである。 本稿では,Merer Features for Combinatorial Bayesian Optimization (MerCBO) と呼ばれる効率的な手法を提案する。 MerCBOの背景にある重要な考え方は、それらの組合せグラフ表現の構造を利用して、離散オブジェクト上の拡散カーネルの明示的な特徴マップを提供することである。 これらのマーサー機能は、トンプソンサンプリングと組み合わせて、取得関数により、抽出可能なソルバを用いて次の構造を評価できる。 様々な実世界のベンチマークの実験では、MerCBOは以前の方法と同等かそれ以上の性能を示している。 ソースコードはhttps://github.com/a ryandeshwal/MerCBOで入手できる。

Bayesian optimization (BO) is an efficient framework for solving black-box optimization problems with expensive function evaluations. This paper addresses the BO problem setting for combinatorial spaces (e.g., sequences and graphs) that occurs naturally in science and engineering applications. A prototypical example is molecular optimization guided by expensive experiments. The key challenge is to balance the complexity of statistical models and tractability of search to select combinatorial structures for evaluation. In this paper, we propose an efficient approach referred as Mercer Features for Combinatorial Bayesian Optimization (MerCBO). The key idea behind MerCBO is to provide explicit feature maps for diffusion kernels over discrete objects by exploiting the structure of their combinatorial graph representation. These Mercer features combined with Thompson sampling as the acquisition function allows us to employ tractable solvers to find next structures for evaluation. Experiments on diverse real-world benchmarks demonstrate that MerCBO performs similarly or better than prior methods. The source code is available at https://github.com/a ryandeshwal/MerCBO .
翻訳日:2021-05-08 21:08:07 公開日:2020-12-14
# (参考訳) コンテンツ計画における教師なし意見要約 [全文訳有]

Unsupervised Opinion Summarization with Content Planning ( http://arxiv.org/abs/2012.07808v1 )

ライセンス: CC BY 4.0
Reinald Kim Amplayo, Stefanos Angelidis, Mirella Lapata(参考訳) 抽象的要約のためのディープラーニング技術の最近の成功は、大規模データセットの可用性を前提としている。 レビュー(製品や映画など)を要約する場合、そのようなトレーニングデータは入手できず、容易にソース化できないため、教師付きトレーニングのための合成データセットに依存する手法の開発を動機付けている。 要約モデルにコンテンツプランニングを明示的に組み込むことにより、高品質な出力が得られるだけでなく、より自然な合成データセットの作成が可能となり、実世界の文書と要約のペアに類似していることが示されている。 当社のコンテンツ計画は、高価なアノテーションにアクセスせずにデータから引き起こされるアスペクトと感情分布の形式を取っています。 コンテントプランナによってパラメータ化されたディリクレ分布から擬似レビューをサンプリングして合成データセットを作成し,入力レビューと誘導コンテンツプランに基づいて要約を生成する。 3つの領域における実験結果から,提案手法は,意見のコンセンサスを捉える情報的,一貫性的,流動的な要約を生成する上で,競争モデルよりも優れていることが示された。

The recent success of deep learning techniques for abstractive summarization is predicated on the availability of large-scale datasets. When summarizing reviews (e.g., for products or movies), such training data is neither available nor can be easily sourced, motivating the development of methods which rely on synthetic datasets for supervised training. We show that explicitly incorporating content planning in a summarization model not only yields output of higher quality, but also allows the creation of synthetic datasets which are more natural, resembling real world document-summary pairs. Our content plans take the form of aspect and sentiment distributions which we induce from data without access to expensive annotations. Synthetic datasets are created by sampling pseudo-reviews from a Dirichlet distribution parametrized by our content planner, while our model generates summaries based on input reviews and induced content plans. Experimental results on three domains show that our approach outperforms competitive models in generating informative, coherent, and fluent summaries that capture opinion consensus.
翻訳日:2021-05-08 20:25:11 公開日:2020-12-14
# (参考訳) リアルタイム高分解能背景マッチング [全文訳有]

Real-Time High-Resolution Background Matting ( http://arxiv.org/abs/2012.07810v1 )

ライセンス: CC BY 4.0
Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, and Ira Kemelmacher-Shlizerm an(参考訳) 最新のGPUでは、30fpsの4K解像度で、60fpsのHDで動作するリアルタイム、高解像度のバックグラウンド置換技術を導入する。 本手法は,アルファマットと前景層を復元するために,背景の付加的なフレームを捕捉し,使用するバックグラウンド・マッティングに基づく。 主な課題は、高品質のアルファマットを計算し、ストランドレベルの毛髪の詳細を保存し、高解像度の画像をリアルタイムで処理することだ。 この目的を達成するために,2つのニューラルネットワークを用いる。ベースネットワークは,選択的パッチで高分解能で動作する第2のネットワークによって洗練された低解像度の結果を計算する。 我々は,videomatte240k と photomatte13k/85 の2つの大規模ビデオおよび画像マットングデータセットを紹介する。 提案手法は,従来の背景組立技術と比較して品質が向上し,同時に速度と解像度の両面で劇的な向上が得られた。

We introduce a real-time, high-resolution background replacement technique which operates at 30fps in 4K resolution, and 60fps for HD on a modern GPU. Our technique is based on background matting, where an additional frame of the background is captured and used in recovering the alpha matte and the foreground layer. The main challenge is to compute a high-quality alpha matte, preserving strand-level hair details, while processing high-resolution images in real-time. To achieve this goal, we employ two neural networks; a base network computes a low-resolution result which is refined by a second network operating at high-resolution on selective patches. We introduce two largescale video and image matting datasets: VideoMatte240K and PhotoMatte13K/85. Our approach yields higher quality results compared to the previous state-of-the-art in background matting, while simultaneously yielding a dramatic boost in both speed and resolution.
翻訳日:2021-05-08 20:01:09 公開日:2020-12-14
# (参考訳) 未来の人間中心型スマートシティ:スマートシティのセキュリティ、解釈可能性、倫理的課題の批判的分析

Developing Future Human-Centered Smart Cities: Critical Analysis of Smart City Security, Interpretability, and Ethical Challenges ( http://arxiv.org/abs/2012.09110v1 )

ライセンス: CC BY 4.0
Kashif Ahmad, Majdi Maabreh, Mohamed Ghaly, Khalil Khan, Junaid Qadir, Ala Al-Fuqaha(参考訳) 機械学習と人工知能テクノサイエンスの飛躍的な進歩によって、AIコミュニティに新たな理解が生まれ、人間が私たちの議論の中心にいることを確実にし、技術によって引き起こされるジストピアに終止符を打たないようにする必要があります。 グリーンが著書smart enough cityで強く主張しているように、都市環境における技術の導入は、自動的に繁栄、幸福、都市責任、社会正義へと変換されるわけではない。 生き、設計する価値のある都市の未来を慎重に考える必要がある。 哲学的、倫理的な問題と、将来の都市の技術的基盤を形成するAIアルゴリズムのセキュリティ、安全性、解釈可能性に関連する様々な課題がある。 トップクラスの国際大学には、人間中心AIに関するいくつかの研究機関が設立された。 グローバルには、より人間的で人間と互換性のある技術が求められている。 例えば、スチュアート・ラッセルはHuman Compatible AIという本を持っている。 center for humane technologyは規制当局やit企業に対して、過激主義、分極化、誤った情報、インターネット依存といった社会問題に寄与するビジネスモデルや製品機能を避けるよう推奨している。 本稿では、セキュリティ、堅牢性、解釈可能性、倫理的課題を含む重要な課題を分析し、これらの課題の収束に特に重点を置いて、AIやMLの人間中心のアプリケーションへの展開を成功させる。 私たちは、これらの重要な課題に関する既存の文献の詳細なレビューを提供し、これらの課題のうちの1つが他人にどのようにつながり、他の課題を解決するのに役立つかを分析します。 この論文は、これらの領域における研究の現在の限界、落とし穴、今後の方向性、そしてそれが現在のギャップを埋め、より良いソリューションへと導く方法についてもアドバイスしている。

As we make tremendous advances in machine learning and artificial intelligence technosciences, there is a renewed understanding in the AI community that we must ensure that humans being are at the center of our deliberations so that we don't end in technology-induced dystopias. As strongly argued by Green in his book Smart Enough City, the incorporation of technology in city environs does not automatically translate into prosperity, wellbeing, urban livability, or social justice. There is a great need to deliberate on the future of the cities worth living and designing. There are philosophical and ethical questions involved along with various challenges that relate to the security, safety, and interpretability of AI algorithms that will form the technological bedrock of future cities. Several research institutes on human centered AI have been established at top international universities. Globally there are calls for technology to be made more humane and human-compatible. For example, Stuart Russell has a book called Human Compatible AI. The Center for Humane Technology advocates for regulators and technology companies to avoid business models and product features that contribute to social problems such as extremism, polarization, misinformation, and Internet addiction. In this paper, we analyze and explore key challenges including security, robustness, interpretability, and ethical challenges to a successful deployment of AI or ML in human-centric applications, with a particular emphasis on the convergence of these challenges. We provide a detailed review of existing literature on these key challenges and analyze how one of these challenges may lead to others or help in solving other challenges. The paper also advises on the current limitations, pitfalls, and future directions of research in these domains, and how it can fill the current gaps and lead to better solutions.
翻訳日:2021-05-08 19:31:30 公開日:2020-12-14
# (参考訳) ニューラルネットワークの精度予測のためのパーセプトロン理論 [全文訳有]

Perceptron Theory for Predicting the Accuracy of Neural Networks ( http://arxiv.org/abs/2012.07881v1 )

ライセンス: CC BY 4.0
Denis Kleyko, Antonello Rosato, E. Paxon Frady, Massimo Panella, Friedrich T. Sommer(参考訳) 多くのニューラルネットワークモデルは分類問題で成功したが、それでもブラックボックスとして扱われている。 そこで我々は,分類タスクの性能を予測できる一層パーセプトロンの理論を開発した。 この理論は、ベクトルシンボリックアーキテクチャとして知られる記号推論のためのエコー状態ネットワークとコネクショニストモデルの性能を予測する既存の理論の一般化である。 本稿では,提案するパーセプトロン理論が,従来の理論では説明できないエコー状態ネットワークの性能を予測できることを示す。 第二に、我々のパーセプトロン理論を、浅層無作為接続および深層多層ネットワークの最後の層に適用する。 完全理論はガウス統計に基づいているが、解析的に解析可能である。 クラス数が少ない問題に対して,ネットワーク性能を予測する数値計算法について検討する。 多数のクラスを扱う問題に対して,確率的サンプリング法と全理論へのトラクタブル近似について検討する。 予測の質は,記憶タスク上の貯水池コンピューティングネットワーク,分類データセットの集合上の浅いランダム接続ネットワーク,ImageNetデータセットによる深部畳み込みネットワークの3つの実験条件で評価される。 この研究は、ディープニューラルネットワークを理解するための単純で二部的なアプローチを提供する。入力は、最後の1層で符号化され、高次元の表現になる。 この表現は、最後の層の重みを通して出力ニューロンのシナプス後和にマッピングされる。 具体的には、提案するパーセプトロン理論は、後シナプス和の平均ベクトルと共分散行列を用いて、異なるクラスに対する分類精度を計算する。 シナプス後和の分布の最初の2つの瞬間は、ネットワーク全体の性能を正確に予測することができる。

Many neural network models have been successful at classification problems, but their operation is still treated as a black box. Here, we developed a theory for one-layer perceptrons that can predict performance on classification tasks. This theory is a generalization of an existing theory for predicting the performance of Echo State Networks and connectionist models for symbolic reasoning known as Vector Symbolic Architectures. In this paper, we first show that the proposed perceptron theory can predict the performance of Echo State Networks, which could not be described by the previous theory. Second, we apply our perceptron theory to the last layers of shallow randomly connected and deep multi-layer networks. The full theory is based on Gaussian statistics, but it is analytically intractable. We explore numerical methods to predict network performance for problems with a small number of classes. For problems with a large number of classes, we investigate stochastic sampling methods and a tractable approximation to the full theory. The quality of predictions is assessed in three experimental settings, using reservoir computing networks on a memorization task, shallow randomly connected networks on a collection of classification datasets, and deep convolutional networks with the ImageNet dataset. This study offers a simple, bipartite approach to understand deep neural networks: the input is encoded by the last-but-one layers into a high-dimensional representation. This representation is mapped through the weights of the last layer into the postsynaptic sums of the output neurons. Specifically, the proposed perceptron theory uses the mean vector and covariance matrix of the postsynaptic sums to compute classification accuracies for the different classes. The first two moments of the distribution of the postsynaptic sums can predict the overall network performance quite accurately.
翻訳日:2021-05-08 19:30:13 公開日:2020-12-14
# (参考訳) ベイズ最適化-多元帯域問題 [全文訳有]

Bayesian Optimization -- Multi-Armed Bandit Problem ( http://arxiv.org/abs/2012.07885v1 )

ライセンス: CC BY 4.0
Abhilash Nandy, Chandan Kumar, Deepak Mewada, Soumya Sharma(参考訳) 本稿では,マルチアーメッド帯域問題に着目したベイズ最適化手法について検討する。 ベイズ最適化のためのPortfolio Allocation」という論文の助けを借りる。 ベイズ最適化を論じた論文において,取得機能とポートフォリオ戦略の種類に関する小文献調査を行った。 また、実験を再現し、調査結果を報告し、論文の結果と比較した。 コードリンク:https://colab.resea rch.google.com/drive /1GZ14klEDoe3dcBeZKo 5l8qrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V

In this report, we survey Bayesian Optimization methods focussed on the Multi-Armed Bandit Problem. We take the help of the paper "Portfolio Allocation for Bayesian Optimization". We report a small literature survey on the acquisition functions and the types of portfolio strategies used in papers discussing Bayesian Optimization. We also replicate the experiments and report our findings and compare them to the results in the paper. Code link: https://colab.resear ch.google.com/drive/ 1GZ14klEDoe3dcBeZKo5 l8qqrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V.
翻訳日:2021-05-08 19:12:42 公開日:2020-12-14
# (参考訳) learning to stop: dynamic simulation monte-carlo tree search [全文訳有]

Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search ( http://arxiv.org/abs/2012.07910v1 )

ライセンス: CC BY-SA 4.0
Li-Cheng Lan, Meng-Yu Tsai, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh(参考訳) モンテカルロ木探索(MCTS)は、ディープニューラルネットワーク(DNN)と組み合わせることで、GoやAtariゲームのような多くのドメインで最先端の結果を得た。 より多くのシミュレーションが実行されると、MCTSは高いパフォーマンスを達成するが、大量のCPUとGPUリソースを必要とする。 しかし、全ての州が、エージェントが発見できる最良の行動を特定するのに長い時間を必要とするわけではない。 例えば、19x19 GoとNoGoでは、半数以上の州で、DNNが予測する最良のアクションは、2分間検索しても変わっていないことが分かりました。 これは、現在の検索結果に自信がある場合に、早期に検索を止めることができれば、かなりの量のリソースを節約できることを意味します。 本稿では,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。 我々のアルゴリズムであるDynamic Simulation MCTS (DS-MCTS)では、AlphaZeroがトレーニングしたNoGoエージェントを2.5倍高速化し、同様の勝利率を維持することができる。 また,同じ平均シミュレーション数で,本手法は元のプログラムに対して61%の勝利率を達成することができる。

Monte Carlo tree search (MCTS) has achieved state-of-the-art results in many domains such as Go and Atari games when combining with deep neural networks (DNNs). When more simulations are executed, MCTS can achieve higher performance but also requires enormous amounts of CPU and GPU resources. However, not all states require a long searching time to identify the best action that the agent can find. For example, in 19x19 Go and NoGo, we found that for more than half of the states, the best action predicted by DNN remains unchanged even after searching 2 minutes. This implies that a significant amount of resources can be saved if we are able to stop the searching earlier when we are confident with the current searching result. In this paper, we propose to achieve this goal by predicting the uncertainty of the current searching status and use the result to decide whether we should stop searching. With our algorithm, called Dynamic Simulation MCTS (DS-MCTS), we can speed up a NoGo agent trained by AlphaZero 2.5 times faster while maintaining a similar winning rate. Also, under the same average simulation count, our method can achieve a 61% winning rate against the original program.
翻訳日:2021-05-08 19:02:57 公開日:2020-12-14
# (参考訳) 物理的な不可避関数が生体計測と出会うとき [全文訳有]

When Physical Unclonable Function Meets Biometrics ( http://arxiv.org/abs/2012.07916v1 )

ライセンス: CC BY 4.0
Kavya Dayananda and Nima Karimian(参考訳) 新型コロナウイルス(covid-19)のパンデミックが世界を席巻する中、医療システムは再編成され、eヘルスの概念が受け入れられる可能性が高まる。 ウェアラブルデバイスは、セキュリティやプライバシーのリスクにさらされているユーザーから機密情報を受け取ることが多い。 さらに、ユーザーは製造プロセスとベンダーのストレージの間に偽装されることを常に懸念していた。 したがって、個人情報の確保は重要な義務となっているだけでなく、デバイス検証も課題となっている。 生体認証と物理的に実行不能な機能(puf)に対処するためには、ユーザーのセキュリティとプライバシーを緩和する必要がある。 心電図(ecg)ベースのバイオメトリックスは、患者の認証や患者のバイタルサインの監視を可能にするため、バイオメトリックスで広く普及している。 しかし、近年、ECGバイオメトリックシステムの脆弱性を研究し始め、スプーフィングの問題に対処しようと試みている。 さらに、ほとんどのウェアラブルはCPUとメモリで有効になっている。 これにより、揮発性メモリベース(NVM)PUFをデバイスに簡単に配置でき、偽造を避けることができる。 しかし、PUFの非閉塞性に多くの研究が挑戦した。 したがって、これらの攻撃に対する慎重な研究は、ニーズに対応するのに十分である。 本稿では,バイオメトリックスを活用したハードウェアセキュリティに基づく最新技術開発論文を包括的に研究することを目的とする。

As the Covid-19 pandemic grips the world, healthcare systems are being reshaped, where the e-health concepts become more likely to be accepted. Wearable devices often carry sensitive information from users which are exposed to security and privacy risks. Moreover, users have always had the concern of being counterfeited between the fabrication process and vendors' storage. Hence, not only securing personal data is becoming a crucial obligation, but also device verification is another challenge. To address biometrics authentication and physically unclonable functions (PUFs) need to be put in place to mitigate the security and privacy of the users. Among biometrics modalities, Electrocardiogram (ECG) based biometric has become popular as it can authenticate patients and monitor the patient's vital signs. However, researchers have recently started to study the vulnerabilities of the ECG biometric systems and tried to address the issues of spoofing. Moreover, most of the wearable is enabled with CPU and memories. Thus, volatile memory-based (NVM) PUF can be easily placed in the device to avoid counterfeit. However, many research challenged the unclonability characteristics of PUFs. Thus, a careful study on these attacks should be sufficient to address the need. In this paper, our aim is to provide a comprehensive study on the state-of-the-art developments papers based on biometrics enabled hardware security.
翻訳日:2021-05-08 18:44:17 公開日:2020-12-14
# (参考訳) Spine rectification と Anatomically-Constra ined Optimization によるCTのVertebra 局在と同定 [全文訳有]

Automatic Vertebra Localization and Identification in CT by Spine Rectification and Anatomically-constra ined Optimization ( http://arxiv.org/abs/2012.07947v1 )

ライセンス: CC BY 4.0
Fakai Wang, Kang Zheng, Le Lu, Jing Xiao, Min Wu and Shun Miao(参考訳) 脊椎疾患の診断と手術計画の多くの臨床応用において、正確な脊椎局在と同定が必要である。 しかし、この課題において重要な課題は、非常に異なる病態(椎骨圧迫骨折、スコリオーシス、椎骨固定など)とイメージング条件(視野の制限や金属ストレークアーティファクトなど)によってもたらされる。 本稿では,脊椎の解剖学的知識を効果的に活用し,脊椎の局在と同定を容易にする頑健で正確な方法を提案する。 キーポイント局在モデルは、脊椎中心の活性化マップを作成するために訓練される。 その後、脊椎中心線に沿って再サンプリングされ、脊椎で再現された活性化マップを生成し、さらに1次元の活性化信号に集約される。 その後、解剖学的に制約された最適化モジュールを導入し、連続する椎骨指数の椎骨と硬質との距離を調節するソフト制約の下で最適な椎骨中心を共同で探索する。 病理組織学的CT画像302例のメジャーな公開ベンチマークで評価すると,本手法では美術品の識別状況(id)を報告する。 97.4%の比率で、94.7%のIDで最高の競合方法を上回っている。 相対IDを減少させます 誤差率は半分です。

Accurate vertebra localization and identification are required in many clinical applications of spine disorder diagnosis and surgery planning. However, significant challenges are posed in this task by highly varying pathologies (such as vertebral compression fracture, scoliosis, and vertebral fixation) and imaging conditions (such as limited field of view and metal streak artifacts). This paper proposes a robust and accurate method that effectively exploits the anatomical knowledge of the spine to facilitate vertebra localization and identification. A key point localization model is trained to produce activation maps of vertebra centers. They are then re-sampled along the spine centerline to produce spine-rectified activation maps, which are further aggregated into 1-D activation signals. Following this, an anatomically-constra ined optimization module is introduced to jointly search for the optimal vertebra centers under a soft constraint that regulates the distance between vertebrae and a hard constraint on the consecutive vertebra indices. When being evaluated on a major public benchmark of 302 highly pathological CT images, the proposed method reports the state of the art identification (id.) rate of 97.4%, and outperforms the best competing method of 94.7% id. rate by reducing the relative id. error rate by half.
翻訳日:2021-05-08 18:34:01 公開日:2020-12-14
# (参考訳) 多発性硬化症病変分節に対する深部学習法のより広範な一般化に向けて [全文訳有]

Towards broader generalization of deep learning methods for multiple sclerosis lesion segmentation ( http://arxiv.org/abs/2012.07950v1 )

ライセンス: CC BY 4.0
Reda Abdellah Kamraoui, Vinh-Thong Ta, Thomas Tourdias, Boris Mansencal, Jos\'e V Manjon, Pierrick Coup\'e(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いたセグメンテーション法は,自動多発性硬化症(MS)セグメンテーションにおいて有望な性能を示した。 これらの手法は、人間の専門家を制御された評価条件で上回っている。 しかし、高度に制御されたデータセットでうまく機能するように訓練された最先端のアプローチは、見えないデータセットからの臨床データを一般化することができない。 セグメンテーションの精度をさらに向上させる代わりに、ドメインシフトに頑健な新しい手法を提案し、DeepLesionBrain (DLB) と呼ばれる未知のデータセットでうまく機能する。 この一般化特性は3つの主要な貢献から生じる。 まず、DLBはコンパクトな3D CNNの大規模なアンサンブルに基づいている。 このアンサンブル戦略は、いくつかの個々のネットワークの一般化失敗のリスクにもかかわらず、堅牢な予測を保証する。 第2に、DLBは、トレーニングデータ特異性(例えば、取得プロトコル)への依存性を低減するために、新しい画像品質データ拡張を含む。 最後に,MS病変のより一般化可能な表現を学習するために,階層的特殊化学習(HSL)を提案する。 hslは脳全体にわたってジェネリックネットワークを事前トレーニングし、その重みを局所的な特殊なネットワークへの初期化として使用する。 これにより、DLBはグローバル画像レベルで抽出された一般的な特徴とローカル画像レベルで抽出された特定の特徴の両方を学習する。 本論文の発行時点では、DLBはISBI Challengeの公開方法のトップ3の1つであり、利用可能なモダリティの半分しか使用していない。 DLBの一般化は、MSSEG'16、ISBIチャレンジ、社内データセットのクロスデータセット実験において、他の最先端のアプローチと比較された。 DLBは従来の技術よりもセグメンテーション性能と一般化を改善し,臨床応用に適した堅牢なアプローチを提案する。

Recently, segmentation methods based on Convolutional Neural Networks (CNNs) showed promising performance in automatic Multiple Sclerosis (MS) lesions segmentation. These techniques have even outperformed human experts in controlled evaluation condition. However state-of-the-art approaches trained to perform well on highly-controlled datasets fail to generalize on clinical data from unseen datasets. Instead of proposing another improvement of the segmentation accuracy, we propose a novel method robust to domain shift and performing well on unseen datasets, called DeepLesionBrain (DLB). This generalization property results from three main contributions. First, DLB is based on a large ensemble of compact 3D CNNs. This ensemble strategy ensures a robust prediction despite the risk of generalization failure of some individual networks. Second, DLB includes a new image quality data augmentation to reduce dependency to training data specificity (e.g., acquisition protocol). Finally, to learn a more generalizable representation of MS lesions, we propose a hierarchical specialization learning (HSL). HSL is performed by pre-training a generic network over the whole brain, before using its weights as initialization to locally specialized networks. By this end, DLB learns both generic features extracted at global image level and specific features extracted at local image level. At the time of publishing this paper, DLB is among the Top 3 performing published methods on ISBI Challenge while using only half of the available modalities. DLB generalization has also been compared to other state-of-the-art approaches, during cross-dataset experiments on MSSEG'16, ISBI challenge, and in-house datasets. DLB improves the segmentation performance and generalization over classical techniques, and thus proposes a robust approach better suited for clinical practice.
翻訳日:2021-05-08 18:22:31 公開日:2020-12-14
# (参考訳) Odd-One-Out Representation Learning [全文訳有]

Odd-One-Out Representation Learning ( http://arxiv.org/abs/2012.07966v1 )

ライセンス: CC BY 4.0
Salman Mohammadi, Anders Kirk Uhrenholt and Bj{\o}rn Sand Jensen(参考訳) 実世界の問題に対する表現学習の効果的な応用は、有用な表現を学習するための技術と表現の性質を評価するための堅牢な方法の両方を必要とする。 非教師付き表現学習における最近の研究は、非教師付き表現学習アプローチが完全に教師付き歪曲尺度に依存していることを示している。 現実世界の多くのケースでは、接地的真理要因は収集に費用がかかるか、知覚などのモデル化が難しい。 本稿では,下流の難解な抽象的視覚的推論タスクに対して高い相関を観測することにより,オッズワンアウト観察に基づく弱教師付き下流タスクがモデル選択に適していることを示す。 また、このタスクで高い性能を発揮できる、目覚ましいメトリック学習型VAEモデルが、他の標準教師なしおよび弱教師付きアンタングルメントモデルよりも優れていることを示す。

The effective application of representation learning to real-world problems requires both techniques for learning useful representations, and also robust ways to evaluate properties of representations. Recent work in disentangled representation learning has shown that unsupervised representation learning approaches rely on fully supervised disentanglement metrics, which assume access to labels for ground-truth factors of variation. In many real-world cases ground-truth factors are expensive to collect, or difficult to model, such as for perception. Here we empirically show that a weakly-supervised downstream task based on odd-one-out observations is suitable for model selection by observing high correlation on a difficult downstream abstract visual reasoning task. We also show that a bespoke metric-learning VAE model which performs highly on this task also out-performs other standard unsupervised and a weakly-supervised disentanglement model across several metrics.
翻訳日:2021-05-08 17:56:58 公開日:2020-12-14
# (参考訳) fastenet:高速鉄道用ファスナー検出器 [全文訳有]

FasteNet: A Fast Railway Fastener Detector ( http://arxiv.org/abs/2012.07968v1 )

ライセンス: CC BY 4.0
Jun Jet Tai, Mauro S. Innocente, Owais Mehmood(参考訳) 本研究では,新しい高速鉄道ファスナー検出器を提案する。 この完全な畳み込みネットワークはFasteNetと呼ばれ、バウンディングボックスの概念を先導し、予測されたサリエンシマップ上で直接検出を行う。 Fastenetは、変換された畳み込みと接続をスキップし、ネットワークの効果的な受容フィールドは、ファスナーの平均サイズよりも1.5$\times$大きいので、出力解像度を犠牲にすることなく、高い信頼性で予測できる。 さらに、サリエンシマップのアプローチにより、ネットワークはファスナー1本あたり30回までのファスナーの存在を投票し、予測精度を高めることができる。 FastenetはNvidia GTX 1080上で110 FPSで動作でき、1600$\times$512の入力を1枚あたり平均14ファスナーで受信できる。 https://github.com/j jshoots/dl\_fastenet .git

In this work, a novel high-speed railway fastener detector is introduced. This fully convolutional network, dubbed FasteNet, foregoes the notion of bounding boxes and performs detection directly on a predicted saliency map. Fastenet uses transposed convolutions and skip connections, the effective receptive field of the network is 1.5$\times$ larger than the average size of a fastener, enabling the network to make predictions with high confidence, without sacrificing output resolution. In addition, due to the saliency map approach, the network is able to vote for the presence of a fastener up to 30 times per fastener, boosting prediction accuracy. Fastenet is capable of running at 110 FPS on an Nvidia GTX 1080, while taking in inputs of 1600$\times$512 with an average of 14 fasteners per image. Our source is open here: https://github.com/j jshoots/DL\_FasteNet .git
翻訳日:2021-05-08 17:46:08 公開日:2020-12-14
# (参考訳) 効率的なロボット操作のためのフレームワーク [全文訳有]

A Framework for Efficient Robotic Manipulation ( http://arxiv.org/abs/2012.07975v1 )

ライセンス: CC BY 4.0
Albert Zhan, Philip Zhao, Lerrel Pinto, Pieter Abbeel, Michael Laskin(参考訳) データ効率のよい視覚的観察から操作ポリシーの学習は、実ロボット学習において顕著な課題である。 深層強化学習(RL)アルゴリズムは、視覚的な観察から成功した学習方針を示す一方で、効果的な政策を学ぶためには、現実のサンプルを非現実的に必要としている。 しかし、教師なし表現学習とデータ拡張の最近の進歩は、共通のシミュレーションベンチマークにおけるrlポリシーのトレーニングのサンプル効率を大幅に改善した。 これらの進歩に基づいて、データ強化と教師なし学習を利用して、疎報酬を伴うロボット操作ポリシーの極めて効率的なトレーニングを実現するための、効率的なロボット操作フレームワーク(FERM)を提案する。 わずか10回のデモで、ひとつのロボットアームが、手を伸ばし、拾い、移動し、大きな物体を引っ張り、スイッチをひっくり返し、実際のトレーニング時間に15~50分で引き出しを開くといった、スパース・リワード操作のポリシーを、ピクセルから学べることがわかった。 プロジェクトウェブサイト -https://sites.googl e.com/view/efficient -robotic-manipulatio n.com にビデオ、コード、追加情報が含まれている。

Data-efficient learning of manipulation policies from visual observations is an outstanding challenge for real-robot learning. While deep reinforcement learning (RL) algorithms have shown success learning policies from visual observations, they still require an impractical number of real-world data samples to learn effective policies. However, recent advances in unsupervised representation learning and data augmentation significantly improved the sample efficiency of training RL policies on common simulated benchmarks. Building on these advances, we present a Framework for Efficient Robotic Manipulation (FERM) that utilizes data augmentation and unsupervised learning to achieve extremely sample-efficient training of robotic manipulation policies with sparse rewards. We show that, given only 10 demonstrations, a single robotic arm can learn sparse-reward manipulation policies from pixels, such as reaching, picking, moving, pulling a large object, flipping a switch, and opening a drawer in just 15-50 minutes of real-world training time. We include videos, code, and additional information on the project website -- https://sites.google .com/view/efficient- robotic-manipulation .
翻訳日:2021-05-08 17:01:05 公開日:2020-12-14
# (参考訳) モデル選択が帰属語連想に及ぼす影響--静的単語埋め込みの半教師あり分析 [全文訳有]

Model Choices Influence Attributive Word Associations: A Semi-supervised Analysis of Static Word Embeddings ( http://arxiv.org/abs/2012.07978v1 )

ライセンス: CC BY 4.0
Geetanjali Bihani, Julia Taylor Rayz(参考訳) 静的単語埋め込みは、下流のNLPタスクで広く利用される単語関連を符号化する。 先行研究ではバイアスや語彙の規則性の観点から単語連想の性質について論じてきたが、埋め込み訓練手順に基づく単語連想のばらつきはいまだに曖昧である。 本研究の目的は,5つの静的単語埋め込みアーキテクチャにおける帰属的単語関連性を評価し,モデルアーキテクチャの選択,文脈学習のフレーバー,学習コーパスの影響を分析することである。 本手法では, 半教師付きクラスタリング手法を用いて, 単語埋め込み特徴に基づく固有名詞・形容詞のクラスタ化を行い, 認識バイアスを生じさせることなく, 組込み空間に形成された帰属語連想の基盤を明らかにする。 その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。 さらに、同一コーパス上で訓練しても、異なる単語埋め込みモデルにまたがる符号化語アソシエーションにおいて、モデル間格差とモデル内類似性が顕著であることが実証的に示され、組込みアーキテクチャ毎に組込み空間が作られるように、特定のパターンを表現できることが示されている。

Static word embeddings encode word associations, extensively utilized in downstream NLP tasks. Although prior studies have discussed the nature of such word associations in terms of biases and lexical regularities captured, the variation in word associations based on the embedding training procedure remains in obscurity. This work aims to address this gap by assessing attributive word associations across five different static word embedding architectures, analyzing the impact of the choice of the model architecture, context learning flavor and training corpora. Our approach utilizes a semi-supervised clustering method to cluster annotated proper nouns and adjectives, based on their word embedding features, revealing underlying attributive word associations formed in the embedding space, without introducing any confirmation bias. Our results reveal that the choice of the context learning flavor during embedding training (CBOW vs skip-gram) impacts the word association distinguishability and word embeddings' sensitivity to deviations in the training corpora. Moreover, it is empirically shown that even when trained over the same corpora, there is significant inter-model disparity and intra-model similarity in the encoded word associations across different word embedding models, portraying specific patterns in the way the embedding space is created for each embedding architecture.
翻訳日:2021-05-08 16:37:45 公開日:2020-12-14
# (参考訳) 計算機クラスタジョブの成果予測学習のための特徴選択と意思決定支援への応用 [全文訳有]

Feature Selection for Learning to Predict Outcomes of Compute Cluster Jobs with Application to Decision Support ( http://arxiv.org/abs/2012.07982v1 )

ライセンス: CC BY 4.0
Adedolapo Okanlawon, Huichen Yang, Avishek Bose, William Hsu, Dan Andresen, Mohammed Tanash(参考訳) 我々は,高性能コンピューティング(HPC)クラスタのためのSlurm Workload Managerから,機械学習フレームワークとデータマイニングのための新しいテストベッドを提案する。 ユーザがCPUとメモリの割り当てを増やして失敗したジョブを再送信するか、あるいはコンピューティングクラウドに移行するかを決めるのを助ける。 このタスクは教師付き分類と回帰学習、特に強化学習に適した逐次問題解決の両方としてキャストされた。 関連する機能の選択は、トレーニングの精度を改善し、トレーニング時間を短縮し、予測と推論を説明するインテリジェントなシステムを備えた、より理解しやすいモデルを生成する。 我々は,HPCジョブのシンプルなLinuxユーティリティ(Slurm)データセットに基づいて,線形回帰,ラッソ,リッジ回帰の3つの異なる手法を用いて訓練された教師付き学習モデルを提案する。 私たちのデータセットは失敗するHPCジョブと成功したジョブの両方を表しています。 本モデルは, 95\%のr^2を99\%精度で達成した。 cpu特性とメモリ特性の両方の予測器を5つ同定した。

We present a machine learning framework and a new test bed for data mining from the Slurm Workload Manager for high-performance computing (HPC) clusters. The focus was to find a method for selecting features to support decisions: helping users decide whether to resubmit failed jobs with boosted CPU and memory allocations or migrate them to a computing cloud. This task was cast as both supervised classification and regression learning, specifically, sequential problem solving suitable for reinforcement learning. Selecting relevant features can improve training accuracy, reduce training time, and produce a more comprehensible model, with an intelligent system that can explain predictions and inferences. We present a supervised learning model trained on a Simple Linux Utility for Resource Management (Slurm) data set of HPC jobs using three different techniques for selecting features: linear regression, lasso, and ridge regression. Our data set represented both HPC jobs that failed and those that succeeded, so our model was reliable, less likely to overfit, and generalizable. Our model achieved an R^2 of 95\% with 99\% accuracy. We identified five predictors for both CPU and memory properties.
翻訳日:2021-05-08 16:25:46 公開日:2020-12-14
# (参考訳) 異常検出のためのGANアンサンブル [全文訳有]

GAN Ensemble for Anomaly Detection ( http://arxiv.org/abs/2012.07988v1 )

ライセンス: CC BY 4.0
Xu Han, Xiaohui Chen, Li-Ping Liu(参考訳) 教師なし学習問題として定式化された場合、異常検出は正規データの分布を学習するモデルを必要とすることが多い。 以前の研究では、GAN(Generative Adversarial Networks)を異常検出タスクに適用し、これらのモデルの性能を示す。 GANアンサンブルが生成タスクにおいて1つのGANを上回り、異常検出のためのGANアンサンブルを構築することを提案する。 提案手法では, ジェネレータ群と識別器群が共に訓練され, それぞれのジェネレータが複数の識別器からフィードバックを受け, 逆も受けられる。 単一のGANと比較して、GANアンサンブルは通常のデータの分布をより良くモデル化し、異常を検出することができる。 GAN と GAN アンサンブルの理論的解析は、異常検出における GAN 識別器の役割を説明する。 実験では, 4種類のベースモデルから構成したアンサンブルを評価し, これらのアンサンブルが, 異常検出の一連のタスクにおいて, 単一モデルよりも明らかに優れていることを示す。

When formulated as an unsupervised learning problem, anomaly detection often requires a model to learn the distribution of normal data. Previous works apply Generative Adversarial Networks (GANs) to anomaly detection tasks and show good performances from these models. Motivated by the observation that GAN ensembles often outperform single GANs in generation tasks, we propose to construct GAN ensembles for anomaly detection. In the proposed method, a group of generators and a group of discriminators are trained together, so every generator gets feedback from multiple discriminators, and vice versa. Compared to a single GAN, a GAN ensemble can better model the distribution of normal data and thus better detect anomalies. Our theoretical analysis of GANs and GAN ensembles explains the role of a GAN discriminator in anomaly detection. In the empirical study, we evaluate ensembles constructed from four types of base models, and the results show that these ensembles clearly outperform single models in a series of tasks of anomaly detection.
翻訳日:2021-05-08 16:18:40 公開日:2020-12-14
# (参考訳) 対数バイトレベル言語モデルを用いた深層学習型静的マルウェア検出器に対する二元的ブラックボックス侵入攻撃 [全文訳有]

Binary Black-box Evasion Attacks Against Deep Learning-based Static Malware Detectors with Adversarial Byte-Level Language Model ( http://arxiv.org/abs/2012.07994v1 )

ライセンス: CC BY 4.0
Mohammadreza Ebrahimi, Ning Zhang, James Hu, Muhammad Taqi Raza, Hsinchun Chen(参考訳) マルウェア防止エンジンは悪質なソフトウェアに対する最初の防衛線である。 広く使われているが、機能エンジニアリングベースのアンチマルウェアエンジンは、目に見えない(ゼロデイ)攻撃に弱い。 近年、ディープラーニングに基づく静的マルウェア検出装置は、特徴工学や動的解析を必要とせず、目に見えない攻撃を特定することに成功した。 しかし、これらの検出器は敵の例として知られるわずかな摂動を伴うマルウェアの変種に感受性がある。 効果的な敵の例を生成することは、そのようなシステムの脆弱性を明らかにするのに有用である。 現在の攻撃の方法は、ターゲットとするマルウェア対策モデルの仕様、マルウェア対策の信頼性スコア、非現実的あるいは高価である動的マルウェア分析のいずれかにアクセスする必要がある。 我々は,これらの制約なしに回避マルウェアを自動生成する,新しいディープラーニングベースのアプローチであるMalRNNを提案する。 本手法では, マルウェアのバイナリを増大させるために, 生成配列からシーケンスへの繰り返しニューラルネットワークを用いて言語モデルを学習する。 MalRNNは、最近の3つのディープラーニングベースのマルウェア検出を効果的に回避し、現在のベンチマーク手法より優れている。 マルウェアのカテゴリが8つある実際のデータセットにMalRNNを適用する際の発見について論じる。

Anti-malware engines are the first line of defense against malicious software. While widely used, feature engineering-based anti-malware engines are vulnerable to unseen (zero-day) attacks. Recently, deep learning-based static anti-malware detectors have achieved success in identifying unseen attacks without requiring feature engineering and dynamic analysis. However, these detectors are susceptible to malware variants with slight perturbations, known as adversarial examples. Generating effective adversarial examples is useful to reveal the vulnerabilities of such systems. Current methods for launching such attacks require accessing either the specifications of the targeted anti-malware model, the confidence score of the anti-malware response, or dynamic malware analysis, which are either unrealistic or expensive. We propose MalRNN, a novel deep learning-based approach to automatically generate evasive malware variants without any of these restrictions. Our approach features an adversarial example generation process, which learns a language model via a generative sequence-to-sequence recurrent neural network to augment malware binaries. MalRNN effectively evades three recent deep learning-based malware detectors and outperforms current benchmark methods. Findings from applying our MalRNN on a real dataset with eight malware categories are discussed.
翻訳日:2021-05-08 16:01:21 公開日:2020-12-14
# (参考訳) DeepGamble: 多層インスタンスセグメンテーションと属性検出によるリアルタイムプレーヤーインテリジェンスのアンロックを目指す [全文訳有]

DeepGamble: Towards unlocking real-time player intelligence using multi-layer instance segmentation and attribute detection ( http://arxiv.org/abs/2012.08011v1 )

ライセンス: CC BY 4.0
Danish Syed, Naman Gandhi, Arushi Arora and Nilesh Kadam(参考訳) 毎年、ゲーム業界はマーケティングの再投資に約150億ドルを費やしている。 しかし、この金額は選手の技量や運を考慮せずに消費される。 カジノでは、熟練していないプレイヤーは熟練したプレイヤーの約4倍の収益を得ることができる。 本稿では,Mask R-CNNモデルの拡張に基づくビデオ認識システムについて述べる。 本システムは,リアルタイムにカードやプレイヤーの賭けを検知してブラックジャックのゲームをデジタル化し,正確なプレイヤーのペルソナを作成するための意思決定を行う。 提案する教師あり学習手法は,カジノテーブルの2つの視点から画像を取得する3段階の専用パイプラインと,提案領域のマスクを生成するインスタンスセグメンテーションから構成される。 これらの予測マスクと微分特徴は、ゲームプレイ理解を同化するために次のステージに渡される画像属性を分類するために使用される。 本モデルでは,900例の学習例を用いたトランスファー学習による学習環境において,主ベット検出に95%,カード検出に97%の精度が得られた。 我々のアプローチは一般化可能でスケーラブルであり、様々なゲームシナリオやテストデータにおいて有望な結果を示す。 このような粒度のデータは、プレイヤーの最適な戦略からの逸脱を理解するのに役立ち、プレイヤーのスキルをゲームの運から切り離すのに役立った。 また,プレイヤーの賭けパターンとデッキのスケールカウントを関連づけることで,カードカウントの可能性を評価する。 このようなシステムによりカジノは不正行為を警告し、各プレイヤーの予測パーソナライズされた利益率を算出し、マーケティング再投資決定を調整できる。

Annually the gaming industry spends approximately $15 billion in marketing reinvestment. However, this amount is spent without any consideration for the skill and luck of the player. For a casino, an unskilled player could fetch ~4 times more revenue than a skilled player. This paper describes a video recognition system that is based on an extension of the Mask R-CNN model. Our system digitizes the game of blackjack by detecting cards and player bets in real-time and processes decisions they took in order to create accurate player personas. Our proposed supervised learning approach consists of a specialized three-stage pipeline that takes images from two viewpoints of the casino table and does instance segmentation to generate masks on proposed regions of interest. These predicted masks along with derivative features are used to classify image attributes that are passed onto the next stage to assimilate the gameplay understanding. Our end-to-end model yields an accuracy of ~95% for the main bet detection and ~97% for card detection in a controlled environment trained using transfer learning approach with 900 training examples. Our approach is generalizable and scalable and shows promising results in varied gaming scenarios and test data. Such granular level gathered data, helped in understanding player's deviation from optimum strategy and thereby separate the skill of the player from the luck of the game. Our system also assesses the likelihood of card counting by correlating the player's betting pattern to the deck's scaled count. Such a system lets casinos flag fraudulent activity and calculate expected personalized profitability for each player and tailor their marketing reinvestment decisions.
翻訳日:2021-05-08 15:33:14 公開日:2020-12-14
# Vilio:Hateful Memesに適用された最先端のVisio-Linguistic Model

Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes ( http://arxiv.org/abs/2012.07788v1 )

ライセンス: Link先を確認
Niklas Muennighoff(参考訳) この研究は、最先端のビリオ言語モデルの実装であるVilioとそのHateful Memes Datasetへの適用について紹介する。 実装されたモデルは、統一されたコードベースに適合し、パフォーマンスを改善するために変更されている。 Vilioの目標は、視覚言語の問題にユーザフレンドリーな出発点を提供することだ。 Vilioで実装された5つの異なるV+Lモデルのアンサンブルは、3300人の参加者のうち2位を獲得した。 コードはhttps://github.com/m uennighoff/vilioで入手できる。

This work presents Vilio, an implementation of state-of-the-art visio-linguistic models and their application to the Hateful Memes Dataset. The implemented models have been fitted into a uniform code-base and altered to yield better performance. The goal of Vilio is to provide a user-friendly starting point for any visio-linguistic problem. An ensemble of 5 different V+L models implemented in Vilio achieves 2nd place in the Hateful Memes Challenge out of 3,300 participants. The code is available at https://github.com/M uennighoff/vilio.
翻訳日:2021-05-08 14:45:35 公開日:2020-12-14
# Vartani Spellcheck --BERTとLevenshtein距離を用いたOCR生成ヒンディー語テキストの自動文脈知覚的スペル補正

Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance ( http://arxiv.org/abs/2012.07652v1 )

ライセンス: Link先を確認
Aditya Pal, Abhijit Mustafi(参考訳) ヒンディー語のような非常に屈折率の高い言語でテキストを生成する従来の光学式文字認識(ocr)システムは、広いアルファベットセット、複合文字、単語のセグメンテーションの困難により、精度が低くなる傾向がある。 これらのocrシステムで生成されたテキストを後処理することで、自動スペルエラー検出とコンテキストセンシティブエラー補正が精度を向上させる。 ヒンディー語スペルの誤り訂正のための言語モデルの多くは文脈自由である。 本稿では,編集距離(edit distance)として知られるレベンシュテイン距離アルゴリズム(rebenshtein distance algorithm)とともに,最先端トランスフォーマー(bert)を用いたヒンズー語テキストの綴り補正手法であるvartani spellcheck(vartani spellcheck)を提案する。 検索辞書と文脈に基づく名前付きエンティティ認識(ner)を用いて,テキスト中のスペル誤りの検出を行う。 提案手法は,ヒンディー・エピック・ラマーヤナで広く使用されているテッセラクトOCRによって生成された大量のテキストのコーパスで検証されている。 81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。 また,テキストエディタ環境における連続型付け中に,Vartani Spellcheckをオンザフライで自動修正する方法について説明する。

Traditional Optical Character Recognition (OCR) systems that generate text of highly inflectional Indic languages like Hindi tend to suffer from poor accuracy due to a wide alphabet set, compound characters and difficulty in segmenting characters in a word. Automatic spelling error detection and context-sensitive error correction can be used to improve accuracy by post-processing the text generated by these OCR systems. A majority of previously developed language models for error correction of Hindi spelling have been context-free. In this paper, we present Vartani Spellcheck - a context-sensitive approach for spelling correction of Hindi text using a state-of-the-art transformer - BERT in conjunction with the Levenshtein distance algorithm, popularly known as Edit Distance. We use a lookup dictionary and context-based named entity recognition (NER) for detection of possible spelling errors in the text. Our proposed technique has been tested on a large corpus of text generated by the widely used Tesseract OCR on the Hindi epic Ramayana. With an accuracy of 81%, the results show a significant improvement over some of the previously established context-sensitive error correction mechanisms for Hindi. We also explain how Vartani Spellcheck may be used for on-the-fly autocorrect suggestion during continuous typing in a text editor environment.
翻訳日:2021-05-08 14:45:26 公開日:2020-12-14
# 半教師付き複数ショット学習のための反復ラベルクリーニング

Iterative label cleaning for transductive and semi-supervised few-shot learning ( http://arxiv.org/abs/2012.07962v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) わずかなショット学習は、新しいタスクが監督とデータの両方を制限することで解決されるような、学習表現と知識の獲得にかかっている。 トランスダクティブ推論(Transductive Inference)ではテストセット全体が同時に利用可能になり、半教師付き学習ではラベルなしのデータも利用可能になる。 これらの問題は、新しいタスクにおける表現の適応がほとんどあるいは全くないため、密接に関連している。 これら2つの設定に着目して,ラベル付きおよび未ラベル付きデータ分布の多様体構造を利用して擬似ラベルを予測し,クラス間のバランスを保ちながら,最小容量の分類器の損失値分布を用いてクリーンなラベルを選択するアルゴリズムを導入し,擬似ラベルの品質を反復的に改善する。 当社のソリューションは,4つのベンチマークデータセット,すなわち \emph{mini} ImageNet, \emph{tiered}ImageNet, CUB, CIFAR-FSに対して,機能領域の事前処理と利用可能なデータの量に対して堅牢であると同時に,新たな技術状況を設定する。

Few-shot learning amounts to learning representations and acquiring knowledge such that novel tasks may be solved with both supervision and data being limited. Improved performance is possible by transductive inference, where the entire test set is available concurrently, and semi-supervised learning, where more unlabeled data is available. These problems are closely related because there is little or no adaptation of the representation in novel tasks. Focusing on these two settings, we introduce a new algorithm that leverages the manifold structure of the labeled and unlabeled data distribution to predict pseudo-labels, while balancing over classes and using the loss value distribution of a limited-capacity classifier to select the cleanest labels, iterately improving the quality of pseudo-labels. Our solution sets new state of the art on four benchmark datasets, namely \emph{mini}ImageNet, \emph{tiered}ImageNet, CUB and CIFAR-FS, while being robust over feature space pre-processing and the quantity of available data.
翻訳日:2021-05-08 14:44:42 公開日:2020-12-14
# LRC-BERT:自然言語理解のための潜在表現コントラスト知識蒸留

LRC-BERT: Latent-representatio n Contrastive Knowledge Distillation for Natural Language Understanding ( http://arxiv.org/abs/2012.07335v1 )

ライセンス: Link先を確認
Hao Fu, Shaojun Zhou, Qihong Yang, Junjie Tang, Guiquan Liu, Kaikui Liu, Xiaolong Li(参考訳) BERTのような事前学習モデルは、様々な自然言語処理問題において大きな成果を上げている。 しかし、大量のパラメータは大量のメモリと推論時間の消費を必要とするため、エッジデバイスにそれらをデプロイすることは困難である。 本研究では,既存の蒸留法では考慮されていない角距離面から中間層の出力に適合する,対照的な学習に基づく知識蒸留手法であるRC-BERTを提案する。 さらに, 学習段階における勾配摂動に基づくトレーニングアーキテクチャを導入し, 知識蒸留における最初の試みであるRC-BERTの堅牢性を高める。 さらに,中間層の分布特性をよりよく把握するために,全蒸留損失の2段階トレーニング法を設計した。 最後に、GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することにより、提案したRC-BERTの性能が既存の最先端手法を超え、本手法の有効性を実証する。

The pre-training models such as BERT have achieved great results in various natural language processing problems. However, a large number of parameters need significant amounts of memory and the consumption of inference time, which makes it difficult to deploy them on edge devices. In this work, we propose a knowledge distillation method LRC-BERT based on contrastive learning to fit the output of the intermediate layer from the angular distance aspect, which is not considered by the existing distillation methods. Furthermore, we introduce a gradient perturbation-based training architecture in the training phase to increase the robustness of LRC-BERT, which is the first attempt in knowledge distillation. Additionally, in order to better capture the distribution characteristics of the intermediate layer, we design a two-stage training method for the total distillation loss. Finally, by verifying 8 datasets on the General Language Understanding Evaluation (GLUE) benchmark, the performance of the proposed LRC-BERT exceeds the existing state-of-the-art methods, which proves the effectiveness of our method.
翻訳日:2021-05-08 14:43:54 公開日:2020-12-14
# アクションセグメンテーションのための自己スーパービジョンによる時間関係モデリング

Temporal Relational Modeling with Self-Supervision for Action Segmentation ( http://arxiv.org/abs/2012.07508v1 )

ライセンス: Link先を確認
Dong Wang, Di Hu, Xingjian Li, Dejing Dou(参考訳) ビデオにおける時間的関係モデリングは、アクション認識やアクションセグメンテーションといった人間の行動理解に不可欠である。 グラフ畳み込みネットワーク(gcns)は多くのタスクで関係推論において有望な利点を示しているが、長いビデオシーケンスにグラフ畳み込みネットワークを効果的に適用することは依然として課題である。 主な理由は、多数のノード(つまりビデオフレーム)がgcnをビデオ内の時間的関係のキャプチャとモデル化を困難にしているためである。 そこで本稿では,映像フレーム間の時間的関係や依存性を様々な時間範囲でモデル化するために,効率的なgcnモジュールである拡張時相グラフ推論モジュール(dtgrm)を提案する。 特に,各ノードが異なるモーメントのフレームを表現するマルチレベル拡張時間グラフを構築し,時間関係をキャプチャしモデル化する。 さらに,提案モデルの時間的推論能力を高めるために,拡張時間グラフ推論モジュールがビデオ中の間違った時間的関係を発見し,修正することを奨励するために,補助的自己指導タスクを提案する。 当社のdtgrmモデルは,50サラド,ジョージア工科大学エゴセントリックアクティビティ(gtea),朝食データセットの3つの課題データセットにおいて,最先端のアクションセグメンテーションモデルよりも優れています。 コードはhttps://github.com/r edwang/DTGRMで公開されている。

Temporal relational modeling in video is essential for human action understanding, such as action recognition and action segmentation. Although Graph Convolution Networks (GCNs) have shown promising advantages in relation reasoning on many tasks, it is still a challenge to apply graph convolution networks on long video sequences effectively. The main reason is that large number of nodes (i.e., video frames) makes GCNs hard to capture and model temporal relations in videos. To tackle this problem, in this paper, we introduce an effective GCN module, Dilated Temporal Graph Reasoning Module (DTGRM), designed to model temporal relations and dependencies between video frames at various time spans. In particular, we capture and model temporal relations via constructing multi-level dilated temporal graphs where the nodes represent frames from different moments in video. Moreover, to enhance temporal reasoning ability of the proposed model, an auxiliary self-supervised task is proposed to encourage the dilated temporal graph reasoning module to find and correct wrong temporal relations in videos. Our DTGRM model outperforms state-of-the-art action segmentation models on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset. The code is available at https://github.com/r edwang/DTGRM.
翻訳日:2021-05-08 14:43:38 公開日:2020-12-14
# グラフニューラルネットワークの表現的ボトルネックを破る

Breaking the Expressive Bottlenecks of Graph Neural Networks ( http://arxiv.org/abs/2012.07219v1 )

ライセンス: Link先を確認
Mingqi Yang, Yanming Shen, Heng Qi, Baocai Yin(参考訳) 近年、グラフニューラルネットワーク(GNN)の表現性を測定するためにWeisfeiler-Lehman(WL )グラフアイソモーフィズムテスト(英語版)が用いられ、グラフ構造を区別する上で、近傍の集約GNNは1-WLテストと同じくらい強力であることが示されている。 また、$k$-WLテスト(k>1$)に類似して提案された改善もある。 しかしながら、これらのGNNの凝集体はWL試験で要求される射出性には程遠いため、強度の差が弱いため、表現的ボトルネックとなる。 本稿では,強力なアグリゲータを探索することで表現性を向上する。 集約係数行列を用いてアグリゲーションを再構成し,さらに強力なアグリゲータやインジェクティブアグリゲータを構築するために,アグリゲーション係数行列の要件を体系的に解析する。 また、隠れた特徴のランクを保存する戦略と見なすことができ、基本アグリゲータが低階変換の特別な場合に対応することを示唆する。 また,集約型GNNと異なる非線型単位を集約前に適用することの必要性も示した。 理論的解析に基づいて,GNN層であるExpandingConvとCombConvを開発した。 実験の結果, 大規模かつ密結合グラフでは, モデルの性能が著しく向上することがわかった。

Recently, the Weisfeiler-Lehman (WL) graph isomorphism test was used to measure the expressiveness of graph neural networks (GNNs), showing that the neighborhood aggregation GNNs were at most as powerful as 1-WL test in distinguishing graph structures. There were also improvements proposed in analogy to $k$-WL test ($k>1$). However, the aggregators in these GNNs are far from injective as required by the WL test, and suffer from weak distinguishing strength, making it become expressive bottlenecks. In this paper, we improve the expressiveness by exploring powerful aggregators. We reformulate aggregation with the corresponding aggregation coefficient matrix, and then systematically analyze the requirements of the aggregation coefficient matrix for building more powerful aggregators and even injective aggregators. It can also be viewed as the strategy for preserving the rank of hidden features, and implies that basic aggregators correspond to a special case of low-rank transformations. We also show the necessity of applying nonlinear units ahead of aggregation, which is different from most aggregation-based GNNs. Based on our theoretical analysis, we develop two GNN layers, ExpandingConv and CombConv. Experimental results show that our models significantly boost performance, especially for large and densely connected graphs.
翻訳日:2021-05-08 14:43:13 公開日:2020-12-14
# オンラインメタ学習のための可変ショット適応

Variable-Shot Adaptation for Online Meta-Learning ( http://arxiv.org/abs/2012.07769v1 )

ライセンス: Link先を確認
Tianhe Yu, Xinyang Geng, Chelsea Finn, Sergey Levine(参考訳) 少数のメタラーニング手法では、以前のタスクのセットから静的データにまたがってメタラーニングすることで、小さな固定された数の例から新しいタスクを学習する問題を考える。 しかし、多くの実世界の環境では、新しいタスクを学ぶのに必要なサンプルの数とメタ学習に必要なデータ量の両方を、その問題を監督の総量を最小限に抑えるものとして見るのが自然である。 このような定式化は、タスクが順番に提示されるシーケンシャルな学習環境で研究することができる。 このオンライン環境でメタラーニングを研究する場合、メタラーニングは標準的な経験的リスク最小化手法のサンプル複雑さと後悔よりも改善できるか? この答えは、大量のメタトレーニングデータを必要とする複雑な二レベル最適化を持つメタ学習アルゴリズムには特に従わない。 この質問に答えるために、私たちは従来のメタ学習アルゴリズムを拡張して、シーケンシャルラーニングで自然に発生する可変ショット設定を扱います。 逐次学習問題において、メタラーニングは全体的なラベルの少ない全タスク集合を解き、標準的な教師付きメソッドに比べて累積性能が向上することを見出した。 これらの結果から,メタラーニングは一連の問題を継続的に学習し,改善する学習システムを構築する上で重要な要素であることが示唆された。

Few-shot meta-learning methods consider the problem of learning new tasks from a small, fixed number of examples, by meta-learning across static data from a set of previous tasks. However, in many real world settings, it is more natural to view the problem as one of minimizing the total amount of supervision --- both the number of examples needed to learn a new task and the amount of data needed for meta-learning. Such a formulation can be studied in a sequential learning setting, where tasks are presented in sequence. When studying meta-learning in this online setting, a critical question arises: can meta-learning improve over the sample complexity and regret of standard empirical risk minimization methods, when considering both meta-training and adaptation together? The answer is particularly non-obvious for meta-learning algorithms with complex bi-level optimizations that may demand large amounts of meta-training data. To answer this question, we extend previous meta-learning algorithms to handle the variable-shot settings that naturally arise in sequential learning: from many-shot learning at the start, to zero-shot learning towards the end. On sequential learning problems, we find that meta-learning solves the full task set with fewer overall labels and achieves greater cumulative performance, compared to standard supervised methods. These results suggest that meta-learning is an important ingredient for building learning systems that continuously learn and improve over a sequence of problems.
翻訳日:2021-05-08 14:42:52 公開日:2020-12-14
# 相対変動型内在制御

Relative Variational Intrinsic Control ( http://arxiv.org/abs/2012.07827v1 )

ライセンス: Link先を確認
Kate Baumli, David Warde-Farley, Steven Hansen, Volodymyr Mnih(参考訳) 外部の報酬がなければ、エージェントは環境内の様々なスキルを識別し、習得することで、有用な行動を学ぶことができる。 既存のスキル学習方法は、相互情報目的を用いて、各スキルが他と多様で区別可能なものにインセンティブを与える。 しかし、スキルの多様性を制約するために注意を払わなければ、自明に多様なスキルセットが発生する可能性がある。 有効なスキルの多様性を確保するために,エージェントと環境との関係をいかに変化させるかを識別可能な学習スキルを動機付ける,新たなスキル学習目標であるRVIC(Relative Variational Intrinsic Control)を提案する。 結果として得られるスキルのセットは、エージェントが利用できる余裕の空間をタイル化する。 我々は,複数の環境におけるスキルの振る舞いを質的に分析し,階層的強化学習に使用する場合の既存の手法によるスキルよりもRVICスキルが有用であることを示す。

In the absence of external rewards, agents can still learn useful behaviors by identifying and mastering a set of diverse skills within their environment. Existing skill learning methods use mutual information objectives to incentivize each skill to be diverse and distinguishable from the rest. However, if care is not taken to constrain the ways in which the skills are diverse, trivially diverse skill sets can arise. To ensure useful skill diversity, we propose a novel skill learning objective, Relative Variational Intrinsic Control (RVIC), which incentivizes learning skills that are distinguishable in how they change the agent's relationship to its environment. The resulting set of skills tiles the space of affordances available to the agent. We qualitatively analyze skill behaviors on multiple environments and show how RVIC skills are more useful than skills discovered by existing methods when used in hierarchical reinforcement learning.
翻訳日:2021-05-08 14:42:28 公開日:2020-12-14
# 連合学習のためのバンディット型コミュニケーション効率の高いクライアント選択戦略

Bandit-based Communication-Effici ent Client Selection Strategies for Federated Learning ( http://arxiv.org/abs/2012.08009v1 )

ライセンス: Link先を確認
Yae Jee Cho, Samarth Gupta, Gauri Joshi, Osman Ya\u{g}an(参考訳) 連合学習におけるコミュニケーションの制約と断続的なクライアント可用性のため、各トレーニングラウンドにはクライアントのサブセットのみが参加できる。 ほとんどの先行研究は一様かつ偏りのないクライアント選択を想定しているが、偏りのあるクライアント選択に関する最近の研究は、高い局所的損失を持つクライアントを選択することでエラー収束速度が向上することを示している。 しかし、以前に提案されたバイアスド選択戦略は、正確な局所的損失を評価するために追加の通信コストを必要とするか、古い局所的損失を利用するかのどちらかであり、モデルが分岐する可能性さえある。 本稿では,より少ない通信オーバーヘッドでより高速な収束を実現する,banditベースの通信効率の高いクライアント選択戦略ucb-csを提案する。 また,公平性を改善するためにクライアントの選択をどのように利用できるかを示す。

Due to communication constraints and intermittent client availability in federated learning, only a subset of clients can participate in each training round. While most prior works assume uniform and unbiased client selection, recent work on biased client selection has shown that selecting clients with higher local losses can improve error convergence speed. However, previously proposed biased selection strategies either require additional communication cost for evaluating the exact local loss or utilize stale local loss, which can even make the model diverge. In this paper, we present a bandit-based communication-effici ent client selection strategy UCB-CS that achieves faster convergence with lower communication overhead. We also demonstrate how client selection can be used to improve fairness.
翻訳日:2021-05-08 14:41:34 公開日:2020-12-14
# 何が良い概要になるのか? 自動要約の焦点を再考する

What Makes a Good Summary? Reconsidering the Focus of Automatic Summarization ( http://arxiv.org/abs/2012.07619v1 )

ライセンス: Link先を確認
Maartje ter Hoeve, Julia Kiseleva, Maarten de Rijke(参考訳) 自動要約はここ数年で大きな進歩を遂げてきた。 今こそ、焦点と目的を再評価する時です。 現在のフォーカスはユーザの欲望に完全に準拠しているか,あるいは対象を拡大あるいは変更すべきなのか? 本研究では, 既製サマリーのヘビーユーザを対象に, この質問を経験的に調査する。 この分野の現在の焦点は,参加者の希望と完全に一致していない。 その結果,3つの意味群が同定された。 まず、自動要約に関してより広い視点を採用することが重要であると論じる。 本研究は, 要約すべき入力材料の種類, 要約の目的, 潜在的なフォーマットに関して, どのように視野を広げていくかを説明するものである。 第二に、これらの研究の方向性を促進するデータセットの要件を定義します。 第3に,有用性は評価手法に含まれるべき要約の重要な側面であり,要約の有用性を評価するための方法論を提案する。 本研究により,将来的な自動要約に向けた重要な研究の方向性を開拓し,これらの方向性による手法の開発を期待する。

Automatic text summarization has enjoyed great progress over the last years. Now is the time to re-assess its focus and objectives. Does the current focus fully adhere to users' desires or should we expand or change our focus? We investigate this question empirically by conducting a survey amongst heavy users of pre-made summaries. We find that the current focus of the field does not fully align with participants' wishes. In response, we identify three groups of implications. First, we argue that it is important to adopt a broader perspective on automatic summarization. Based on our findings, we illustrate how we can expand our view when it comes to the types of input material that is to be summarized, the purpose of the summaries and their potential formats. Second, we define requirements for datasets that can facilitate these research directions. Third, usefulness is an important aspect of summarization that should be included in our evaluation methodology; we propose a methodology to evaluate the usefulness of a summary. With this work we unlock important research directions for future work on automatic summarization and we hope to initiate the development of methods in these directions.
翻訳日:2021-05-08 14:41:21 公開日:2020-12-14
# 変動状態とパラメータ推定

Variational State and Parameter Estimation ( http://arxiv.org/abs/2012.07269v1 )

ライセンス: Link先を確認
Jarrad Courts and Johannes Hendriks and Adrian Wills and Thomas Sch\"on and Brett Ninness(参考訳) 本稿では,非線形状態空間モデルに対する状態とモデルパラメータのベイズ推定の計算問題について考察する。 一般に、この問題にはトラクタブルな解がなく、近似を使わなければならない。 本研究では,所望の,難解な分布に近似する仮定密度を与えるために変分的アプローチが用いられる。 このアプローチは決定論的であり、標準形式の最適化問題を引き起こす。 推定密度のパラメトリゼーションにより、選択された一階と二階の導関数が容易に利用可能となり、効率的な解が得られる。 提案手法は2つの数値例で,最先端のハミルトニアンモンテカルロと比較した。

This paper considers the problem of computing Bayesian estimates of both states and model parameters for nonlinear state-space models. Generally, this problem does not have a tractable solution and approximations must be utilised. In this work, a variational approach is used to provide an assumed density which approximates the desired, intractable, distribution. The approach is deterministic and results in an optimisation problem of a standard form. Due to the parametrisation of the assumed density selected first- and second-order derivatives are readily available which allows for efficient solutions. The proposed method is compared against state-of-the-art Hamiltonian Monte Carlo in two numerical examples.
翻訳日:2021-05-08 14:41:07 公開日:2020-12-14
# 潜在的な重み付きフィードバックによるスケーラビリティ向上

Better scalability under potentially heavy-tailed feedback ( http://arxiv.org/abs/2012.07346v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では,損失や勾配の重み付けが可能である場合に使用可能な,ロバスト勾配降下法(RGD)のスケーラブルな代替手法について検討する。 基本技術は単純であり、各ステップでグラデーションをしっかりと集約しようとするのではなく、コストが高く、リスク境界の準最適次元依存性をもたらす代わりに、並列に実行できる安価な確率的サブプロセスの集合に基づいて、強い候補を堅牢に(あるいは新たに構築)することに焦点を当てる。 正確な選択プロセスは、基礎となる目的の凸性に依存するが、すべての場合において、我々の選択手法は弱い学習者の信頼を高める頑健な方法である。 フォーマルな保証に加えて、ガウス級および重尾級の両データの下で、実験条件に対する摂動に対するロバスト性の実証分析や、様々なベンチマークデータセットへの応用も提供する。 全体としては、実装が簡単で、並列化が簡単な拡張可能な手順で、rgdメソッドの形式的なメリットは保ちますが、大きな学習問題にはずっと適しています。

We study scalable alternatives to robust gradient descent (RGD) techniques that can be used when the losses and/or gradients can be heavy-tailed, though this will be unknown to the learner. The core technique is simple: instead of trying to robustly aggregate gradients at each step, which is costly and leads to sub-optimal dimension dependence in risk bounds, we instead focus computational effort on robustly choosing (or newly constructing) a strong candidate based on a collection of cheap stochastic sub-processes which can be run in parallel. The exact selection process depends on the convexity of the underlying objective, but in all cases, our selection technique amounts to a robust form of boosting the confidence of weak learners. In addition to formal guarantees, we also provide empirical analysis of robustness to perturbations to experimental conditions, under both sub-Gaussian and heavy-tailed data, along with applications to a variety of benchmark datasets. The overall take-away is an extensible procedure that is simple to implement, trivial to parallelize, which keeps the formal merits of RGD methods but scales much better to large learning problems.
翻訳日:2021-05-08 14:41:00 公開日:2020-12-14
# NeurIPS 2020コンペティション:ディープラーニングの一般化を予測

NeurIPS 2020 Competition: Predicting Generalization in Deep Learning ( http://arxiv.org/abs/2012.07976v1 )

ライセンス: Link先を確認
Yiding Jiang (1), Pierre Foret (1), Scott Yak (1), Daniel M. Roy (2), Hossein Mobahi (1), Gintare Karolina Dziugaite (3), Samy Bengio (1), Suriya Gunasekar (4), Isabelle Guyon (5), Behnam Neyshabur (1) ((1) Google Research, (2) University of Toronto, (3) Element AI, (4) Microsoft Research, (5) University Paris-Saclay and ChaLearn)(参考訳) ディープラーニングにおける一般化を理解することは、深層学習において最も重要な質問の1つだろう。 ディープラーニングは、パターン認識から複雑な意思決定に至るまで、多くの問題にうまく採用されているが、最近の多くの研究者は、ディープラーニングに関する多くの懸念を提起している。 多くの試みにもかかわらず、従来の統計的学習アプローチは、なぜディープラーニングが機能するのかを十分に説明できない。 最近の研究は,複雑性尺度による一般化性能の予測を試みることで,この問題に対処しようとするものである。 このコンペティションでは,モデルの一般化を正確に予測する複雑性対策をコミュニティに提案する。 堅牢で一般的な複雑性尺度は、深層学習の根底にあるメカニズムと、未知のデータに対する深いモデルの振る舞いをよりよく理解するか、あるいはより良い一般化の境界に光を当てる可能性がある。 これらの結果はすべて、ディープラーニングをより堅牢で信頼性の高いものにするために重要です。

Understanding generalization in deep learning is arguably one of the most important questions in deep learning. Deep learning has been successfully adopted to a large number of problems ranging from pattern recognition to complex decision making, but many recent researchers have raised many concerns about deep learning, among which the most important is generalization. Despite numerous attempts, conventional statistical learning approaches have yet been able to provide a satisfactory explanation on why deep learning works. A recent line of works aims to address the problem by trying to predict the generalization performance through complexity measures. In this competition, we invite the community to propose complexity measures that can accurately predict generalization of models. A robust and general complexity measure would potentially lead to a better understanding of deep learning's underlying mechanism and behavior of deep models on unseen data, or shed light on better generalization bounds. All these outcomes will be important for making deep learning more robust and reliable.
翻訳日:2021-05-08 14:40:39 公開日:2020-12-14
# 仮説転送とラベリング転送によるソースデータ吸収型非教師なしドメイン適応

Source Data-absent Unsupervised Domain Adaptation through Hypothesis Transfer and Labeling Transfer ( http://arxiv.org/abs/2012.07297v1 )

ライセンス: Link先を確認
Jian Liang and Dapeng Hu and Yunbo Wang and Ran He and Jiashi Feng(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、知識を関連性のある異なるラベル付きソースドメインから新しいラベル付きターゲットドメインに転送することを目的としている。 既存のUDAメソッドの多くはソースデータへのアクセスを必要としており、プライバシー上の懸念からデータが機密で共有できない場合には適用できない。 本稿では、ソースデータにアクセスする代わりに、トレーニング済みの分類モデルのみを用いて現実的な設定に取り組むことを目的とする。 そこで本研究では,対象とするデータの特徴を凍結したソース分類モジュールに適合させることで,対象領域の特徴抽出モジュールを学習する,ソース仮説伝達(shot)と呼ばれる新しい手法を提案する。 具体的には、SHOTは、特徴抽出モジュール学習のための情報最大化と自己教師付き学習の両方を利用して、ターゲットとなる特徴が同じ仮説を介して見えないソースデータの特徴と暗黙的に一致していることを保証する。 さらに,予測の信頼度(ラベル情報)に基づいて,対象データを2つの分割に分割し,半教師あり学習を用いて,対象領域における信頼度の低い予測の精度を向上させる新しいラベリング転送戦略を提案する。 SHOTによって予測が得られた場合、ラベリング転送をSHOT++と表現する。 桁分類とオブジェクト認識の両タスクに関する大規模な実験により、SHOTとSHOT++は最先端技術に匹敵する結果を達成し、様々な視覚領域適応問題に対する我々のアプローチの有効性を示す。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a related but different well-labeled source domain to a new unlabeled target domain. Most existing UDA methods require access to the source data, and thus are not applicable when the data are confidential and not shareable due to privacy concerns. This paper aims to tackle a realistic setting with only a classification model available trained over, instead of accessing to, the source data. To effectively utilize the source model for adaptation, we propose a novel approach called Source HypOthesis Transfer (SHOT), which learns the feature extraction module for the target domain by fitting the target data features to the frozen source classification module (representing classification hypothesis). Specifically, SHOT exploits both information maximization and self-supervised learning for the feature extraction module learning to ensure the target features are implicitly aligned with the features of unseen source data via the same hypothesis. Furthermore, we propose a new labeling transfer strategy, which separates the target data into two splits based on the confidence of predictions (labeling information), and then employ semi-supervised learning to improve the accuracy of less-confident predictions in the target domain. We denote labeling transfer as SHOT++ if the predictions are obtained by SHOT. Extensive experiments on both digit classification and object recognition tasks show that SHOT and SHOT++ achieve results surpassing or comparable to the state-of-the-arts, demonstrating the effectiveness of our approaches for various visual domain adaptation problems.
翻訳日:2021-05-08 14:40:24 公開日:2020-12-14
# 類似性と相反学習を組み合わせた視覚説明生成:医用画像分類への応用

Combining Similarity and Adversarial Learning to Generate Visual Explanation: Application to Medical Image Classification ( http://arxiv.org/abs/2012.07332v1 )

ライセンス: Link先を確認
Martin Charachon, C\'eline Hudelot, Paul-Henry Courn\`ede, Camille Ruppli, Roberto Ardon(参考訳) 臨床医の信頼が求められるため,ブラックボックス分類器の判断は医用画像などの敏感な領域で最重要である。 様々な説明手法が提案されており、摂動に基づくアプローチは非常に有望である。 このクラスでは、学習フレームワークを利用して視覚的説明法を作成します。 与えられた分類器から、2つの生成器を訓練し、入力画像から類似画像および逆画像と呼ばれるものを生成する。 類似した画像は入力画像に分類するが,反対者は,そのものではない。 これら2つの生成画像の違いとして視覚的説明が構築される。 文献のメトリクスを用いることで,この手法は最先端のアプローチよりも優れています。 提案手法はモデルに依存しず,予測時の計算負荷が低い。 そのため、リアルタイムシステムに適応している。 最後に, 原画像に適用したランダムな幾何学的拡張が, 前述したいくつかの説明方法を改善する正則化の役割を担っていることを示す。 胸部X線データベースへのアプローチを検証した。

Explaining decisions of black-box classifiers is paramount in sensitive domains such as medical imaging since clinicians confidence is necessary for adoption. Various explanation approaches have been proposed, among which perturbation based approaches are very promising. Within this class of methods, we leverage a learning framework to produce our visual explanations method. From a given classifier, we train two generators to produce from an input image the so called similar and adversarial images. The similar image shall be classified as the input image whereas the adversarial shall not. Visual explanation is built as the difference between these two generated images. Using metrics from the literature, our method outperforms state-of-the-art approaches. The proposed approach is model-agnostic and has a low computation burden at prediction time. Thus, it is adapted for real-time systems. Finally, we show that random geometric augmentations applied to the original image play a regularization role that improves several previously proposed explanation methods. We validate our approach on a large chest X-ray database.
翻訳日:2021-05-08 14:39:59 公開日:2020-12-14
# logit制約付き確率的コンパクト損失による逆ロバスト性の改善

Improving Adversarial Robustness via Probabilistically Compact Loss with Logit Constraints ( http://arxiv.org/abs/2012.07688v1 )

ライセンス: Link先を確認
Xin Li, Xiangrui Li, Deng Pan, Dongxiao Zhu(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおける様々なタスクにおいて最先端のパフォーマンスを達成した。 しかし、近年の研究では、これらのモデルが注意深く作られた敵のサンプルに対して脆弱であり、予測時にかなりの性能低下を被っていることが示されている。 敵の堅牢性を改善するための多くの方法が提案されている(例えば、敵の訓練や、敵の堅牢な特徴表現を学習するための新しい損失関数など)。 ここでは、CNNの予測行動に関するユニークな洞察を提供し、最も可能性の高い偽クラスに敵のサンプルを誤分類する傾向がある。 これにより,CNNの対向ロバスト性を改善するために,クロスエントロピー(CE)損失のドロップイン代替として使用できるロジット制約付き確率的コンパクト(PC)損失を提案する。 特に、PC損失は真のクラスと偽クラスの間の確率ギャップを拡大する一方、ロジット制約は小さな摂動によってギャップが溶けることを防ぐ。 提案手法を,ホワイトボックス攻撃とブラックボックス攻撃の両方の大規模データセットを用いて,最先端の手法と比較し,その効果を実証する。 ソースコードは https://github.com/x inli0928/PC-LC から入手できる。

Convolutional neural networks (CNNs) have achieved state-of-the-art performance on various tasks in computer vision. However, recent studies demonstrate that these models are vulnerable to carefully crafted adversarial samples and suffer from a significant performance drop when predicting them. Many methods have been proposed to improve adversarial robustness (e.g., adversarial training and new loss functions to learn adversarially robust feature representations). Here we offer a unique insight into the predictive behavior of CNNs that they tend to misclassify adversarial samples into the most probable false classes. This inspires us to propose a new Probabilistically Compact (PC) loss with logit constraints which can be used as a drop-in replacement for cross-entropy (CE) loss to improve CNN's adversarial robustness. Specifically, PC loss enlarges the probability gaps between true class and false classes meanwhile the logit constraints prevent the gaps from being melted by a small perturbation. We extensively compare our method with the state-of-the-art using large scale datasets under both white-box and black-box attacks to demonstrate its effectiveness. The source codes are available from the following url: https://github.com/x inli0928/PC-LC.
翻訳日:2021-05-08 14:39:27 公開日:2020-12-14
# 大規模言語モデルから学習データを抽出する

Extracting Training Data from Large Language Models ( http://arxiv.org/abs/2012.07805v1 )

ライセンス: Link先を確認
Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, Colin Raffel(参考訳) プライベートデータセットでトレーニングされた大規模な(ビリオンパラメータ)言語モデルを公開することが一般的になった。 本稿では, 言語モデルに問い合わせることで, 相手が学習データ抽出攻撃を行い, 個別の学習例を復元できることを実証する。 我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。 抽出された例としては、個人識別可能な情報(名前、電話番号、メールアドレス)、IRC会話、コード、128ビットのUIDなどがある。 トレーニングデータには,各シーケンスが1つのドキュメントに含まれている場合でも,攻撃が可能である。 我々は,その成功に寄与する要因を理解するために,抽出攻撃を包括的に評価する。 例えば、より大規模なモデルはより小さなモデルよりも脆弱である。 講演では,大規模言語モデルの学習における教訓と安全性について論じる。

It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. For example, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.
翻訳日:2021-05-08 14:39:05 公開日:2020-12-14
# 超軽量光源分離のためのコンテキストコーデックを用いたグループ通信

Group Communication with Context Codec for Ultra-Lightweight Source Separation ( http://arxiv.org/abs/2012.07291v1 )

ライセンス: Link先を確認
Yi Luo, Cong Han, Nima Mesgarani(参考訳) 超軽量モデル設計は、既存の音声強調とソース分離技術を低リソースプラットフォームに展開する上で重要なトピックである。 近年、様々な軽量モデル設計パラダイムが提案されているが、ほとんどのモデルはまだモデルのサイズ、モデルの複雑さ、およびモデル性能のバランスを見つけるのに苦労している。 本稿では,文脈コーデック(GC3)設計によるグループコミュニケーションを提案し,モデル性能を犠牲にすることなく,モデルサイズと複雑性を両立させる。 グループコミュニケーションは、高次元の特徴を低次元の特徴のグループに分割し、グループ間の依存関係を捉えるモジュールを適用する。 するとモデルは、非常に小さな幅で並列にグループに適用できる。 コンテキストコーデックは、コンテキストエンコーダがローカル特徴の時間的文脈を、コンテキストのグローバル特性を表す単一の特徴に圧縮し、コンテキストデコーダが変換されたグローバル特徴をコンテキスト特徴に逆圧縮する、シーケンシャル特徴の長さを減少させる。 実験の結果、gc3は2.5%のモデルサイズで幅広いベースラインアーキテクチャと同等かそれ以上の性能を達成できることがわかった。

Ultra-lightweight model design is an important topic for the deployment of existing speech enhancement and source separation techniques on low-resource platforms. Various lightweight model design paradigms have been proposed in recent years; however, most models still suffer from finding a balance between model size, model complexity, and model performance. In this paper, we propose the group communication with context codec (GC3) design to decrease both model size and complexity without sacrificing the model performance. Group communication splits a high-dimensional feature into groups of low-dimensional features and applies a module to capture the inter-group dependency. A model can then be applied to the groups in parallel with a significantly smaller width. A context codec is applied to decrease the length of a sequential feature, where a context encoder compresses the temporal context of local features into a single feature representing the global characteristics of the context, and a context decoder decompresses the transformed global features back to the context features. Experimental results show that GC3 can achieve on par or better performance than a wide range of baseline architectures with as small as 2.5% model size.
翻訳日:2021-05-08 14:38:50 公開日:2020-12-14
# アクティブ階層的模倣と強化学習

Active Hierarchical Imitation and Reinforcement Learning ( http://arxiv.org/abs/2012.07330v1 )

ライセンス: Link先を確認
Yaru Niu, Yijun Gu(参考訳) 人間は階層構造を利用してタスクをサブタスクに分割し、問題を効率的に解くことができる。 模倣と強化学習、あるいはそれらと階層構造の組み合わせは、ロボットが少ない報酬で複雑なタスクを学習する効率的な方法であることが証明されている。 しかし、従来の階層的模倣と強化学習では、テスト環境は比較的単純な2Dゲームであり、アクション空間は離散的である。 さらに、人間の専門家ではなく、強化学習アルゴリズムによってハードコードされたり訓練されたりした専門家警察から学んだ政策の改善に焦点を当てた模倣学習作業も数多く行われている。 人間とロボットの相互作用のシナリオでは、人間はロボットに教えるためのデモンストレーションを提供する必要があるため、学習効率の向上、専門家の努力の削減、学習/トレーニングプロセスに対する人間の認識を知ることが不可欠である。 本研究は,我々が開発した階層的模倣・強化学習フレームワークに基づいて,異なる模倣学習アルゴリズムを探索し,アクティブな学習アルゴリズムを設計した。 迷路内のランダムな目標にランダムに初期化エージェントを誘導する5人の被験者を対象に実験を行った。 実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。

Humans can leverage hierarchical structures to split a task into sub-tasks and solve problems efficiently. Both imitation and reinforcement learning or a combination of them with hierarchical structures have been proven to be an efficient way for robots to learn complex tasks with sparse rewards. However, in the previous work of hierarchical imitation and reinforcement learning, the tested environments are in relatively simple 2D games, and the action spaces are discrete. Furthermore, many imitation learning works focusing on improving the policies learned from the expert polices that are hard-coded or trained by reinforcement learning algorithms, rather than human experts. In the scenarios of human-robot interaction, humans can be required to provide demonstrations to teach the robot, so it is crucial to improve the learning efficiency to reduce expert efforts, and know human's perception about the learning/training process. In this project, we explored different imitation learning algorithms and designed active learning algorithms upon the hierarchical imitation and reinforcement learning framework we have developed. We performed an experiment where five participants were asked to guide a randomly initialized agent to a random goal in a maze. Our experimental results showed that using DAgger and reward-based active learning method can achieve better performance while saving more human efforts physically and mentally during the training process.
翻訳日:2021-05-08 14:38:32 公開日:2020-12-14
# FedHome: 家庭内健康モニタリングのためのクラウドエッジベースの個人化フェデレーション学習

FedHome: Cloud-Edge based Personalized Federated Learning for In-Home Health Monitoring ( http://arxiv.org/abs/2012.07450v1 )

ライセンス: Link先を確認
Qiong Wu and Xu Chen and Zhi Zhou and Junshan Zhang(参考訳) 在宅健康モニタリングは、世界中の高齢層に大きな注目を集めている。 IoT(Internet of Things)デバイスによってアクセスされる豊富なユーザヘルスデータと、マシンラーニングの最近の開発により、スマートヘルスケアは多くの成功談を目にしている。 しかし、既存の家庭内健康モニタリングのアプローチは、ユーザのデータプライバシーに十分な注意を払わず、大規模な実践的なデプロイの準備が整うには程遠い。 本稿では,ネットワークエッジの複数の家庭からクラウド上の共有グローバルモデルを学び,ユーザデータをローカルに保持することでデータのプライバシ保護を実現する,家庭内健康モニタリングのための新しいクラウドエッジベースのフェデレーション学習フレームワークfeedhomeを提案する。 ユーザのモニタリングデータに固有の不均衡および非IID分布に対処するため,ユーザの個人データから生成されたクラスバランスデータセットを用いてモデルを精査し,正確かつパーソナライズされた健康モニタリングを実現するための生成畳み込みオートエンコーダ(GCAE)を設計する。 さらに、GCAEはクラウドとエッジ間の転送も軽量で、フェデレート学習の通信コストを削減するのに役立ちます。 リアルな人間の行動認識データに基づく大規模な実験は、FedHomeが既存の広く研究されている手法を著しく上回っていることを裏付ける。

In-home health monitoring has attracted great attention for the ageing population worldwide. With the abundant user health data accessed by Internet of Things (IoT) devices and recent development in machine learning, smart healthcare has seen many successful stories. However, existing approaches for in-home health monitoring do not pay sufficient attention to user data privacy and thus are far from being ready for large-scale practical deployment. In this paper, we propose FedHome, a novel cloud-edge based federated learning framework for in-home health monitoring, which learns a shared global model in the cloud from multiple homes at the network edges and achieves data privacy protection by keeping user data locally. To cope with the imbalanced and non-IID distribution inherent in user's monitoring data, we design a generative convolutional autoencoder (GCAE), which aims to achieve accurate and personalized health monitoring by refining the model with a generated class-balanced dataset from user's personal data. Besides, GCAE is lightweight to transfer between the cloud and edges, which is useful to reduce the communication cost of federated learning in FedHome. Extensive experiments based on realistic human activity recognition data traces corroborate that FedHome significantly outperforms existing widely-adopted methods.
翻訳日:2021-05-08 14:37:46 公開日:2020-12-14
# オンライン乗客レビューから航空専門ビジネスインテリジェンスを発見する:教師なしテキスト分析アプローチ

Discovering Airline-Specific Business Intelligence from Online Passenger Reviews: An Unsupervised Text Analytics Approach ( http://arxiv.org/abs/2012.08000v1 )

ライセンス: Link先を確認
Sharan Srinivas, Surya Ramachandiran(参考訳) 乗客の視点や競争上の優位性からサービス品質の重要な側面を理解するため、航空会社は豊富なオンライン顧客レビュー(OCR)を活用できる。 本研究の目的は,ocrから,教師なしテキスト分析手法を用いて企業および競合他社固有の知性を検出することである。 まず、OCRで議論されている重要な側面(またはトピック)を、確率的潜在意味分析(pLSA)と2種類の潜在ディリクレ割り当て(LDA-VIとLDA-GS)の3つのトピックモデルを用いて抽出する。 次に,個々のトピックモデルを統合し,各レビュー文を最も代表的な側面に分類するアンサンブル支援トピックモデル(EA-TM)を提案する。 同様に、レビュー文に対応する感情を決定するために、3つの意見マイニング手法(AFINN、SentiStrength、VADER)の予測を組み合わせたアンサンブル感情分析器(E-SA)を開発する。 航空会社の乗客認識力と弱点のスナップショットを提供するアスペクトベースの意見要約(AOS)は、それぞれの側面に関連する感情を集約することにより確立される。 さらに、ラベル付きOCRのバイグラム解析を用いて、識別された各アスペクト内で根本原因分析を行う。 提案手法の検証には,米国拠点のターゲットキャリアの99,147件の航空会社レビューと,その競合企業4社のケーススタディが使用されている。 その結果、ocrから航空会社とその競合業者の費用対効果と性能の概要を得ることができた。 最後に,本研究の結果を踏まえた理論的かつ管理的な意味合いを提供するとともに,2019年の新型コロナウイルス(covid-19)による前例のない影響や,将来的な同様のパンデミックに対する予測を考慮し,航空業界におけるパンデミック後の準備に示唆を与える。

To understand the important dimensions of service quality from the passenger's perspective and tailor service offerings for competitive advantage, airlines can capitalize on the abundantly available online customer reviews (OCR). The objective of this paper is to discover company- and competitor-specific intelligence from OCR using an unsupervised text analytics approach. First, the key aspects (or topics) discussed in the OCR are extracted using three topic models - probabilistic latent semantic analysis (pLSA) and two variants of Latent Dirichlet allocation (LDA-VI and LDA-GS). Subsequently, we propose an ensemble-assisted topic model (EA-TM), which integrates the individual topic models, to classify each review sentence to the most representative aspect. Likewise, to determine the sentiment corresponding to a review sentence, an ensemble sentiment analyzer (E-SA), which combines the predictions of three opinion mining methods (AFINN, SentiStrength, and VADER), is developed. An aspect-based opinion summary (AOS), which provides a snapshot of passenger-perceived strengths and weaknesses of an airline, is established by consolidating the sentiments associated with each aspect. Furthermore, a bi-gram analysis of the labeled OCR is employed to perform root cause analysis within each identified aspect. A case study involving 99,147 airline reviews of a US-based target carrier and four of its competitors is used to validate the proposed approach. The results indicate that a cost- and time-effective performance summary of an airline and its competitors can be obtained from OCR. Finally, besides providing theoretical and managerial implications based on our results, we also provide implications for post-pandemic preparedness in the airline industry considering the unprecedented impact of coronavirus disease 2019 (COVID-19) and predictions on similar pandemics in the future.
翻訳日:2021-05-08 14:37:13 公開日:2020-12-14
# グラフニューラルネットワークを用いた分子グラフ生成

Molecular graph generation with Graph Neural Networks ( http://arxiv.org/abs/2012.07397v1 )

ライセンス: Link先を確認
Pietro Bongini, Monica Bianchini, Franco Scarselli(参考訳) グラフ構造化データの生成は、ディープラーニング分野における新たな問題である。 ここ数年、様々な解決策が提案されてきたが、この分岐の探索はまだ初期段階にある。 逐次的アプローチでは、グラフの構成は一連の決定の結果であり、各ステップにおいて、ノードまたはノードのグループがその接続と共にグラフに追加される。 グラフ生成法の非常に関連する応用は、グラフとして自然に表される新しい薬物分子の発見である。 本稿では、MG^2N^2と呼ぶ一連のグラフニューラルネットワークモジュールに基づくシーケンシャルな分子グラフ生成手法を提案する。 そのモジュラーアーキテクチャはトレーニング手順を単純化し、独立した単一のモジュールの再トレーニングを可能にする。 グラフニューラルネットワークの使用は、前のステップで生成されたサブグラフからなる生成ステップ毎に入力される情報を最大化する。 QM9データセット上での無条件生成実験により,本モデルは過度に適合することなく,トレーニングフェーズで見られる分子パターンを一般化できることが示された。 その結果,本手法は競争力に優れ,QM9における非条件生成の最先端技術として位置づけられることがわかった。

The generation of graph-structured data is an emerging problem in the field of deep learning. Various solutions have been proposed in the last few years, yet the exploration of this branch is still in an early phase. In sequential approaches, the construction of a graph is the result of a sequence of decisions, in which, at each step, a node or a group of nodes is added to the graph, along with its connections. A very relevant application of graph generation methods is the discovery of new drug molecules, which are naturally represented as graphs. In this paper, we introduce a sequential molecular graph generator based on a set of graph neural network modules, which we call MG^2N^2. Its modular architecture simplifies the training procedure, also allowing an independent retraining of a single module. The use of graph neural networks maximizes the information in input at each generative step, which consists of the subgraph produced during the previous steps. Experiments of unconditional generation on the QM9 dataset show that our model is capable of generalizing molecular patterns seen during the training phase, without overfitting. The results indicate that our method outperforms very competitive baselines, and can be placed among the state of the art approaches for unconditional generation on QM9.
翻訳日:2021-05-08 14:36:18 公開日:2020-12-14
# 深部連続モデルフレームワークと状態空間モデルフレームワークのインターセクション:オプション価格の検討

At the Intersection of Deep Sequential Model Framework and State-space Model Framework: Study on Option Pricing ( http://arxiv.org/abs/2012.07784v1 )

ライセンス: Link先を確認
Ziyang Ding and Sayan Mukherjee(参考訳) 非線形力学系の推論と予測問題は様々な文脈で発生してきた。 一方、貯水池計算と深層シーケンシャルモデルでは、単純でカオス的な力学系のモデリングにおいて効率的でロバストで優れた性能が実証されている。 しかし,その固有決定論的な特徴により,ノイズシステムへの頑健性が部分的に低下し,不確実性測定ができないことも,その枠組みの不十分さであった。 一方、従来の状態空間モデルフレームワークはノイズに対して堅牢である。 また、測定された不確実性も保持し、貯水池計算と深部シーケンシャルモデルフレームワークを忠実に補完する。 我々は,シーケンシャルモデルとステートスペースモデルの両方を統合し,両フレームワークの優位性を達成するためのモデルであるunscented reservoir smootherを提案する。 ノイズの多いデータセット上のオプション価格設定で評価されたURSは、特に長期の予測精度と不確実性の測定を高く評価する。 URSのさらなる拡張と含意についても論じられ、両方のフレームワークの完全な統合が一般化される。

Inference and forecast problems of the nonlinear dynamical system have arisen in a variety of contexts. Reservoir computing and deep sequential models, on the one hand, have demonstrated efficient, robust, and superior performance in modeling simple and chaotic dynamical systems. However, their innate deterministic feature has partially detracted their robustness to noisy system, and their inability to offer uncertainty measurement has also been an insufficiency of the framework. On the other hand, the traditional state-space model framework is robust to noise. It also carries measured uncertainty, forming a just-right complement to the reservoir computing and deep sequential model framework. We propose the unscented reservoir smoother, a model that unifies both deep sequential and state-space models to achieve both frameworks' superiorities. Evaluated in the option pricing setting on top of noisy datasets, URS strikes highly competitive forecasting accuracy, especially those of longer-term, and uncertainty measurement. Further extensions and implications on URS are also discussed to generalize a full integration of both frameworks.
翻訳日:2021-05-08 14:36:00 公開日:2020-12-14
# 新型コロナウイルスデータを用いた学習・適応のための意思決定アルゴリズム

Decision-Making Algorithms for Learning and Adaptation with Application to COVID-19 Data ( http://arxiv.org/abs/2012.07844v1 )

ライセンス: Link先を確認
Stefano Marano and Ali H. Sayed(参考訳) 本研究は、適応と学習のための新しい意思決定アルゴリズムの開発に焦点を当て、決定問題に特化しており、決定理論から第一原理を構築することによって構築される。 重要な観察は、推定と決定問題は構造的に異なるため、前者で成功したアルゴリズムは決定問題に対して調整してもうまく機能しないということである。 本稿では, BLLR (barrier log-likelihood ratio algorithm) と呼ばれる新しい手法を提案し, イタリアにおけるCOVID-19パンデミックのリアルタイムデータに適用可能であることを示す。 結果は、アウトブレイクの異なるフェーズを追跡する設計ツールの能力を示している。

This work focuses on the development of a new family of decision-making algorithms for adaptation and learning, which are specifically tailored to decision problems and are constructed by building up on first principles from decision theory. A key observation is that estimation and decision problems are structurally different and, therefore, algorithms that have proven successful for the former need not perform well when adjusted for decision problems. We propose a new scheme, referred to as BLLR (barrier log-likelihood ratio algorithm) and demonstrate its applicability to real-data from the COVID-19 pandemic in Italy. The results illustrate the ability of the design tool to track the different phases of the outbreak.
翻訳日:2021-05-08 14:35:42 公開日:2020-12-14
# ハイブリッドSAT解法における局所BDDに基づく連続探索について

On Continuous Local BDD-Based Search for Hybrid SAT Solving ( http://arxiv.org/abs/2012.07983v1 )

ライセンス: Link先を確認
Anastasios Kyrillidis, Moshe Y. Vardi, Zhiwei Zhang(参考訳) 本研究では,SATにおける連続局所探索(CLS)の可能性を探るため,ブール制約のハイブリッドシステムの解を求める新しい手法を提案する。 このアルゴリズムは、CLSと二分決定図(BDD)の信念の伝播を組み合わせたものである。 我々のフレームワークは、対称的なブール制約や小さな係数の擬ブール制約など、コンパクトなBDDを受け入れるすべてのブール制約を受け入れます。 CLSに必要な勾配を効率的に計算するための新しいアルゴリズムを提案する。 多くのベンチマークインスタンスに適用することにより、多用途CLSソルバであるGradSATの機能と限界について検討する。 実験結果から,GradSATは既存のSATおよびMaxSATソルバのポートフォリオに追加され,ブール適合性および最適化問題の解決に有用であることが示唆された。

We explore the potential of continuous local search (CLS) in SAT solving by proposing a novel approach for finding a solution of a hybrid system of Boolean constraints. The algorithm is based on CLS combined with belief propagation on binary decision diagrams (BDDs). Our framework accepts all Boolean constraints that admit compact BDDs, including symmetric Boolean constraints and small-coefficient pseudo-Boolean constraints as interesting families. We propose a novel algorithm for efficiently computing the gradient needed by CLS. We study the capabilities and limitations of our versatile CLS solver, GradSAT, by applying it on many benchmark instances. The experimental results indicate that GradSAT can be a useful addition to the portfolio of existing SAT and MaxSAT solvers for solving Boolean satisfiability and optimization problems.
翻訳日:2021-05-08 14:35:07 公開日:2020-12-14
# トピック指向ランキングとコンテキスト対応自動エンコーダを用いたチャットログの教師なし要約

Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware Auto-Encoders ( http://arxiv.org/abs/2012.07300v1 )

ライセンス: Link先を確認
Yicheng Zou, Jun Lin, Lujun Zhao, Yangyang Kang, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang, Xiaozhong Liu(参考訳) 自動チャット要約は、多くのチャットメッセージから重要な情報を素早く把握するのに役立つ。 従来の文書とは異なり、チャットログは通常断片化され、進化するトピックを持つ。 さらに、これらのログには楕円文と疑問文の量が含まれており、チャットの要約は文脈に依存している。 本研究では,手動でラベル付けしたデータを使わずにチャット要約を行うRanAEという新しいフレームワークを提案する。 RankAEは、集中度と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略と、選択した発話に基づいて簡潔だが文脈インフォームティブな要約を生成するために慎重に設計された自動エンコーダから構成される。 提案手法を評価するために,チャットログの大規模データセットをカスタマサービス環境から収集し,モデル評価のみに注釈付きデータセットを構築する。 実験の結果,rankaeは他の教師なしの手法を著しく上回り,関連度や話題のカバレッジの観点から質の高い要約を生成できることがわかった。

Automatic chat summarization can help people quickly grasp important information from numerous chat messages. Unlike conventional documents, chat logs usually have fragmented and evolving topics. In addition, these logs contain a quantity of elliptical and interrogative sentences, which make the chat summarization highly context dependent. In this work, we propose a novel unsupervised framework called RankAE to perform chat summarization without employing manually labeled data. RankAE consists of a topic-oriented ranking strategy that selects topic utterances according to centrality and diversity simultaneously, as well as a denoising auto-encoder that is carefully designed to generate succinct but context-informative summaries based on the selected utterances. To evaluate the proposed method, we collect a large-scale dataset of chat logs from a customer service environment and build an annotated set only for model evaluation. Experimental results show that RankAE significantly outperforms other unsupervised methods and is able to generate high-quality summaries in terms of relevance and topic coverage.
翻訳日:2021-05-08 14:34:55 公開日:2020-12-14
# 相性を考慮したトピックモデリングによる顧客サービスのためのトピック指向音声対話要約

Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling ( http://arxiv.org/abs/2012.07311v1 )

ライセンス: Link先を確認
Yicheng Zou, Lujun Zhao, Yangyang Kang, Jun Lin, Minlong Peng, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang, Xiaozhong Liu(参考訳) 顧客サービスシステムでは、顧客とエージェントが特定のトピックに関する問題に対処しようとする長い会話の要約を自動的に作成することにより、対話要約はサービス効率を高めることができる。 本研究は,話題指向の対話要約に焦点をあて,対話から主概念を保存する高度に抽象的な要約を生成する。 音声対話において、豊富な対話ノイズと共通の意味論は、基礎となる情報内容の曖昧さを招き、一般的なトピックモデリングアプローチの適用を困難にする。 加えて、カスタマサービスでは、役割固有の情報が重要であり、サマリの欠かせない部分である。 本研究は,対話における話題モデリングとマルチロール情報を効果的に行うために,顧客サービス対話のトピック指向要約のためのサリエンシ・アウェア・ニューラル・トピック・モデル(SATM)と共同で,トピック拡張2段階対話要約器(TDS)を提案する。 実世界の中国顧客サービスデータセットに関する包括的研究は、いくつかの強力なベースラインに対して、この手法が優れていることを示した。

In a customer service system, dialogue summarization can boost service efficiency by automatically creating summaries for long spoken dialogues in which customers and agents try to address issues about specific topics. In this work, we focus on topic-oriented dialogue summarization, which generates highly abstractive summaries that preserve the main ideas from dialogues. In spoken dialogues, abundant dialogue noise and common semantics could obscure the underlying informative content, making the general topic modeling approaches difficult to apply. In addition, for customer service, role-specific information matters and is an indispensable part of a summary. To effectively perform topic modeling on dialogues and capture multi-role information, in this work we propose a novel topic-augmented two-stage dialogue summarizer (TDS) jointly with a saliency-aware neural topic model (SATM) for topic-oriented summarization of customer service dialogues. Comprehensive studies on a real-world Chinese customer service dataset demonstrated the superiority of our method against several strong baselines.
翻訳日:2021-05-08 14:34:38 公開日:2020-12-14
# 魅力のスタイル-コンテンツ二重性--斜めを通したアイキャッチヘッドラインの書き方を学ぶ

The Style-Content Duality of Attractiveness: Learning to Write Eye-Catching Headlines via Disentanglement ( http://arxiv.org/abs/2012.07419v1 )

ライセンス: Link先を確認
Mingzhe Li, Xiuying Chen, Min Yang, Shen Gao, Dongyan Zhao and Rui Yan(参考訳) 目を引く見出しはクリック数を増やす最初のデバイスとして機能し、プロデューサーと視聴者の間の相互効果をもたらす。 制作者はより多くのトラフィックと利益を得ることができ、読者は優れた記事にアクセスできる。 魅力的な見出しを作る際には、魅力ある内容だけでなく、目を引く文体に従うことが重要である。 本稿では, 魅力あるスタイルに追従して, 魅力あるコンテンツをキャプチャする見出しを生成するDAHG(Disentanglement -based Attractive Headline Generator)を提案する。 具体的には、まず、魅力的なプロトタイプヘッドラインのスタイルと内容をラテント空間に分割し、この2つの空間が実際にアンタングル化されることを保証するための2つの補助的制約を考案する。 次に、潜在コンテンツ情報は、文書表現をさらに洗練し、敬語部分のキャプチャを助けるために使用される。 最後に、研磨された文書を入力として、魅力的なスタイルの指導の下で見出しを生成する。 パブリックなKuaibaoデータセットに関する大規模な実験は、DAHGが最先端のパフォーマンスを達成することを示している。 人的評価はまた、DAHGが既存のモデルよりも22%多くのクリックをトリガーすることを示している。

Eye-catching headlines function as the first device to trigger more clicks, bringing reciprocal effect between producers and viewers. Producers can obtain more traffic and profits, and readers can have access to outstanding articles. When generating attractive headlines, it is important to not only capture the attractive content but also follow an eye-catching written style. In this paper, we propose a Disentanglement-base d Attractive Headline Generator (DAHG) that generates headline which captures the attractive content following the attractive style. Concretely, we first devise a disentanglement module to divide the style and content of an attractive prototype headline into latent spaces, with two auxiliary constraints to ensure the two spaces are indeed disentangled. The latent content information is then used to further polish the document representation and help capture the salient part. Finally, the generator takes the polished document as input to generate headline under the guidance of the attractive style. Extensive experiments on the public Kuaibao dataset show that DAHG achieves state-of-the-art performance. Human evaluation also demonstrates that DAHG triggers 22% more clicks than existing models.
翻訳日:2021-05-08 14:34:17 公開日:2020-12-14
# 遠隔指導による非単調推論の合理化の学習

Learning to Rationalize for Nonmonotonic Reasoning with Distant Supervision ( http://arxiv.org/abs/2012.08012v1 )

ライセンス: Link先を確認
Faeze Brahman, Vered Shwartz, Rachel Rudinger, Yejin Choi(参考訳) ニューラルモデルのブラックボックスの性質は、モデルがなぜ特定の予測をしたのかを説明するために、自然言語理論を生成することを目的とした一連の研究の動機となった。 このような合理的生成モデルは、これまで、データセット固有のクラウドソース論理に基づいてトレーニングされてきたが、このアプローチはコストが高く、新しいタスクやドメインには一般化できない。 本稿では,モデル予測を説明する自然言語理論について,人文的推論に付加的な注釈コストを要せず,遠方的監督のみに頼りながら,ニューラルモデルが推論できる程度について検討する。 本研究では,学習済み言語モデル,ニューラル知識モデル,関連するタスクからの遠隔監視を用いて,有理を自動生成する複数の方法を検討した。 我々は,新しい情報(更新)を導入する際に推論を強化したり弱めたりする非単調な推論タスクであるdefeasible inferenceタスクに対する我々のアプローチを実証する。 我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束するが、ニューラルネットワークモデルの基本的制約を反映した自明な論理を生成する。 逆に、更新あるいはそのタイプを共同で予測し、合理的に生成する、より現実的なセットアップは、より困難であり、将来の重要な方向性を示唆する。

The black-box nature of neural models has motivated a line of research that aims to generate natural language rationales to explain why a model made certain predictions. Such rationale generation models, to date, have been trained on dataset-specific crowdsourced rationales, but this approach is costly and is not generalizable to new tasks and domains. In this paper, we investigate the extent to which neural models can reason about natural language rationales that explain model predictions, relying only on distant supervision with no additional annotation cost for human-written rationales. We investigate multiple ways to automatically generate rationales using pre-trained language models, neural knowledge models, and distant supervision from related tasks, and train generative models capable of composing explanatory rationales for unseen instances. We demonstrate our approach on the defeasible inference task, a nonmonotonic reasoning task in which an inference may be strengthened or weakened when new information (an update) is introduced. Our model shows promises at generating post-hoc rationales explaining why an inference is more or less likely given the additional information, however, it mostly generates trivial rationales reflecting the fundamental limitations of neural language models. Conversely, the more realistic setup of jointly predicting the update or its type and generating rationale is more challenging, suggesting an important future direction.
翻訳日:2021-05-08 14:33:59 公開日:2020-12-14
# オンライン行動認識

Online Action Recognition ( http://arxiv.org/abs/2012.07464v1 )

ライセンス: Link先を確認
Alejandro Su\'arez-Hern\'andez and Javier Segovia-Aguas and Carme Torras and Guillem Aleny\`a(参考訳) 計画における認識は、一連の観察と知識ライブラリ(例えば)が与えられたエージェントの意図、目標、活動を見つけようとする。 目標状態、計画、ドメイン理論)。 本稿では,オンライン行動認識の問題を紹介する。 オープン世界では、最初に空である一階のストリップアクションの知識ライブラリから部分的に観察可能な状態遷移を最善に説明できるプランニングアクションを認識することにある。 我々はこれを最適化問題として、AU(Action Unification)とOARU(Online Action Recognition through Unification)の2つのアルゴリズムを提案する。 前者は論理統一の上に構築し、重み付けされた MaxSAT を用いて2つの入力アクションを一般化する。 後者は、観測された遷移を説明するライブラリ内のアクションを探す。 そのようなアクションがある場合、AUを一般化し、この方法でAU階層を構築する。 そうでなければ、OARUはTrivial Grounded Action (TGA)をライブラリに挿入し、その移行を説明する。 我々は,国際計画コンペティションとPDDLGymのベンチマークの結果を報告する。OARUは専門家の知識を正確に認識し,リアルタイムのパフォーマンスを示す。

Recognition in planning seeks to find agent intentions, goals or activities given a set of observations and a knowledge library (e.g. goal states, plans or domain theories). In this work we introduce the problem of Online Action Recognition. It consists in recognizing, in an open world, the planning action that best explains a partially observable state transition from a knowledge library of first-order STRIPS actions, which is initially empty. We frame this as an optimization problem, and propose two algorithms to address it: Action Unification (AU) and Online Action Recognition through Unification (OARU). The former builds on logic unification and generalizes two input actions using weighted partial MaxSAT. The latter looks for an action within the library that explains an observed transition. If there is such action, it generalizes it making use of AU, building in this way an AU hierarchy. Otherwise, OARU inserts a Trivial Grounded Action (TGA) in the library that explains just that transition. We report results on benchmarks from the International Planning Competition and PDDLGym, where OARU recognizes actions accurately with respect to expert knowledge, and shows real-time performance.
翻訳日:2021-05-08 14:33:36 公開日:2020-12-14
# 知識制御型視覚質問応答 : 深層表現埋め込みへの挑戦

Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding ( http://arxiv.org/abs/2012.07192v1 )

ライセンス: Link先を確認
Qingxing Cao and Bailin Li and Xiaodan Liang and Keze Wang and Liang Lin(参考訳) VQA(Visual Question Answering)モデルは、画像やテキストコンテキストを超えた入力出力相関を利用して、基礎となる知識を発見するのに役立つが、既存の知識VQAデータセットは、主にクラウドソースの方法で注釈付けされている。 知識推論の課題に加えて、アノテーションのバイアスに対処する方法も未解決のままであり、質問と回答の間の表面的過剰な相関につながることが多い。 本稿では,VQAモデル評価のための知識制御型視覚質問推論という新しいデータセットを提案する。 望ましいVQAモデルは、イメージコンテキストを正しく認識し、質問を理解し、学習知識を組み込むべきであることを考慮し、提案データセットは、現在の深層埋め込みモデルが活用するショートカット学習をカットし、知識に基づく視覚的質問推論の研究境界を押し上げることを目的としている。 具体的には,視覚ゲノムシーングラフと外部知識ベースの両方に基づいて質問応答ペアを生成し,その知識を他のバイアスから切り離すための制御プログラムを作成する。 プログラムは、シーングラフまたは知識ベースから1つまたは2つの三つ組を選択して、多段階推論をプッシュし、回答のあいまいさを回避し、回答分布のバランスをとることができる。 既存のvqaデータセットとは対照的に、知識推論を組み込むプログラムには、次の2つの大きな制約があることを示す。 これは、与えられた質問のみに基づいて知識を推測する代わりに、VQAモデルを正しく知覚するように強制することができる;i) すべての質問は異なる知識に基づいているが、候補の答えはトレーニングとテストセットの両方で同じである。

Though beneficial for encouraging the Visual Question Answering (VQA) models to discover the underlying knowledge by exploiting the input-output correlation beyond image and text contexts, the existing knowledge VQA datasets are mostly annotated in a crowdsource way, e.g., collecting questions and external reasons from different users via the internet. In addition to the challenge of knowledge reasoning, how to deal with the annotator bias also remains unsolved, which often leads to superficial over-fitted correlations between questions and answers. To address this issue, we propose a novel dataset named Knowledge-Routed Visual Question Reasoning for VQA model evaluation. Considering that a desirable VQA model should correctly perceive the image context, understand the question, and incorporate its learned knowledge, our proposed dataset aims to cutoff the shortcut learning exploited by the current deep embedding models and push the research boundary of the knowledge-based visual question reasoning. Specifically, we generate the question-answer pair based on both the Visual Genome scene graph and an external knowledge base with controlled programs to disentangle the knowledge from other biases. The programs can select one or two triplets from the scene graph or knowledge base to push multi-step reasoning, avoid answer ambiguity, and balanced the answer distribution. In contrast to the existing VQA datasets, we further imply the following two major constraints on the programs to incorporate knowledge reasoning: i) multiple knowledge triplets can be related to the question, but only one knowledge relates to the image object. This can enforce the VQA model to correctly perceive the image instead of guessing the knowledge based on the given question solely; ii) all questions are based on different knowledge, but the candidate answers are the same for both the training and test sets.
翻訳日:2021-05-08 14:33:20 公開日:2020-12-14
# INSPIRE:強度と空間情報に基づく変形可能な画像登録

INSPIRE: Intensity and Spatial Information-Based Deformable Image Registration ( http://arxiv.org/abs/2012.07208v1 )

ライセンス: Link先を確認
Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) InSPIREは,変形可能な画像登録のための汎用手法である。 InSPIREは、強度と空間情報を組み合わせた距離に基づく既存の対称登録フレームワークを、弾性B-スプライン変換モデルに拡張する。 また,計算効率が向上し,様々なシナリオにおいてフレームワークの適用性が向上する,いくつかの理論的およびアルゴリズム的改善も提示する。 提案手法は, 精度が高く, 安定かつ頑健な登録結果を提供する。 本研究では,INSPIREが優れた性能を示し,参照法を著しく上回る,細い血管網からなる網膜画像から生成された合成データセットの評価を行った。 また、脳の3d画像のベンチマークデータセット4セットにおいて、合計2088のペアワイズ登録を行い、inspireが最高の全体的なパフォーマンスを提供することを示す15の最先端手法と比較した。 コードはgithub.com/MIDA-grou p/inspireで入手できる。

We present INSPIRE, a top-performing general-purpose method for deformable image registration. INSPIRE extends our existing symmetric registration framework based on distances combining intensity and spatial information to an elastic B-splines based transformation model. We also present several theoretical and algorithmic improvements which provide high computational efficiency and thereby applicability of the framework in a wide range of real scenarios. We show that the proposed method delivers both highly accurate as well as stable and robust registration results. We evaluate the method on a synthetic dataset created from retinal images, consisting of thin networks of vessels, where INSPIRE exhibits excellent performance, substantially outperforming the reference methods. We also evaluate the method on four benchmark datasets of 3D images of brains, for a total of 2088 pairwise registrations; a comparison with 15 other state-of-the-art methods reveals that INSPIRE provides the best overall performance. Code is available at github.com/MIDA-grou p/inspire.
翻訳日:2021-05-08 14:32:45 公開日:2020-12-14
# 3次元形状モデリングと再構成のための深い最適化事前処理

Deep Optimized Priors for 3D Shape Modeling and Reconstruction ( http://arxiv.org/abs/2012.07241v1 )

ライセンス: Link先を確認
Mingyue Yang, Yuxin Wen, Weikai Chen, Yongwei Chen, Kui Jia(参考訳) 多くの学習ベースのアプローチでは、学習前の一般性がトレーニングサンプルの規模やバリエーションに制限されるため、見えないデータへのスケーリングが難しい。 3Dデータセットの空間性を考えると、これは特に3D学習タスクにおいて当てはまる。 本稿では,深層発電機の一般化能力を大幅に向上させる3次元モデリングと再構成のための新しい学習フレームワークを提案する。 提案手法は,学習に基づく手法と最適化に基づく手法の両端を結びつけるものである。 特に,事前学習した事前コードをテスト時に修正する一般的な手法とは異なり,学習した事前および潜時コードを,トレーニング後の入力物理的測定値に応じてさらに最適化することを提案する。 提案手法は,事前学習された事前条件によって制約される障壁を効果的に破壊し,未学習データに高品質な適応をもたらす可能性がある。 我々は, 暗黙的表面表現を用いた枠組みを実現し, 入力として非常にスパースあるいは崩壊した観測を行う様々な課題において, アプローチの有効性を検証する。 実験の結果,本手法は一般性と精度の両面で最先端手法と好適に比較できることがわかった。

Many learning-based approaches have difficulty scaling to unseen data, as the generality of its learned prior is limited to the scale and variations of the training samples. This holds particularly true with 3D learning tasks, given the sparsity of 3D datasets available. We introduce a new learning framework for 3D modeling and reconstruction that greatly improves the generalization ability of a deep generator. Our approach strives to connect the good ends of both learning-based and optimization-based methods. In particular, unlike the common practice that fixes the pre-trained priors at test time, we propose to further optimize the learned prior and latent code according to the input physical measurements after the training. We show that the proposed strategy effectively breaks the barriers constrained by the pre-trained priors and could lead to high-quality adaptation to unseen data. We realize our framework using the implicit surface representation and validate the efficacy of our approach in a variety of challenging tasks that take highly sparse or collapsed observations as input. Experimental results show that our approach compares favorably with the state-of-the-art methods in terms of both generality and accuracy.
翻訳日:2021-05-08 14:32:32 公開日:2020-12-14
# 深層表面ネットワークによるカテゴリーレベルの形状サリエンシの学習

Learning Category-level Shape Saliency via Deep Implicit Surface Networks ( http://arxiv.org/abs/2012.07290v1 )

ライセンス: Link先を確認
Chaozheng Wu, Lin Sun, Xun Xu, Kui Jia(参考訳) 本論文は,物体形状のカテゴリの定義に関する基本的な好奇心から動機付けられたものである。 例えば、飛行機には翼があり、椅子には脚があるという共通の知識があるかもしれない。 同じカテゴリの異なるインスタンス間の大きな形状のバリエーションを考えると、我々は、連続したオブジェクト表面上の個々の点に対して定義された量を開発することに正式に興味を持ち、その量は、個々の表面点がカテゴリとしての形状の形成にどのように寄与するかを特定する。 略して、カテゴリーレベルの形状塩分率または形状塩分率と表現する。 そこで,本研究では,入力潜時符号の容量を制限して,暗黙表面ネットワークから同一カテゴリの形状例を学習し,暗示表面のサンプル点に対する正解率スコアを推定する手法を提案する。 また, コントラストトレーニングの損失を増すことにより, 塩分予測も強化した。 このような形状サルジェンシーの学習された表面写像は、滑らかさ、対称性、意味的代表性の性質を持つと期待する。 本手法を代用塩分計算法と比較し,これらの特性を検証した。 特に, 学習した形状塩分率を利用して, 対象表面のカテゴリ塩分やインスタンス特有の部分の再構築が可能であること, 学習した塩分濃度のセマンティックな表現性も有効性に反映され, より優れた点雲分類のための表面点の選択を導出する。

This paper is motivated from a fundamental curiosity on what defines a category of object shapes. For example, we may have the common knowledge that a plane has wings, and a chair has legs. Given the large shape variations among different instances of a same category, we are formally interested in developing a quantity defined for individual points on a continuous object surface; the quantity specifies how individual surface points contribute to the formation of the shape as the category. We term such a quantity as category-level shape saliency or shape saliency for short. Technically, we propose to learn saliency maps for shape instances of a same category from a deep implicit surface network; sensible saliency scores for sampled points in the implicit surface field are predicted by constraining the capacity of input latent code. We also enhance the saliency prediction with an additional loss of contrastive training. We expect such learned surface maps of shape saliency to have the properties of smoothness, symmetry, and semantic representativeness. We verify these properties by comparing our method with alternative ways of saliency computation. Notably, we show that by leveraging the learned shape saliency, we are able to reconstruct either category-salient or instance-specific parts of object surfaces; semantic representativeness of the learned saliency is also reflected in its efficacy to guide the selection of surface points for better point cloud classification.
翻訳日:2021-05-08 14:32:02 公開日:2020-12-14
# 圏分布のモルフォロジー

Morphology on categorical distributions ( http://arxiv.org/abs/2012.07315v1 )

ライセンス: Link先を確認
Silas Nyboe {\O}rting, Hans Jacob Teglbj{\ae}rg Stephensen, Jon Sporring(参考訳) カテゴリー分布は、多クラスセグメンテーションにおける不確かさの自然な表現である。 2クラスの場合、カテゴリー分布はベルヌーイ分布に還元され、グレースケールの形態は様々な有用な操作を提供する。 一般に、不確定な多クラスセグメンテーションに形態素演算を適用することは、圏分布の像が完備格子ではないため、単純ではない。 カラー画像の形態学は注目されているが、カラー画像やカテゴリ画像ではそうではない。 本研究では,古典的形態学と確率論的視点を組み合わせることにより,カテゴリー分布に関する形態学の要件を定式化する。 次に、これらの要件を尊重する演算子を定義し、カテゴリ分布の保護操作を導入し、脳腫瘍のセグメンテーションにおけるアノテータバイアスのモデル化と、マルチクラスのU-Netの予測からベシクルインスタンスのセグメンテーションの2つの例でこれらの演算子の有用性を説明する。

The categorical distribution is a natural representation of uncertainty in multi-class segmentations. In the two-class case the categorical distribution reduces to the Bernoulli distribution, for which grayscale morphology provides a range of useful operations. In the general case, applying morphological operations on uncertain multi-class segmentations is not straightforward as an image of categorical distributions is not a complete lattice. Although morphology on color images has received wide attention, this is not so for color-coded or categorical images and even less so for images of categorical distributions. In this work, we establish a set of requirements for morphology on categorical distributions by combining classic morphology with a probabilistic view. We then define operators respecting these requirements, introduce protected operations on categorical distributions and illustrate the utility of these operators on two example tasks: modeling annotator bias in brain tumor segmentations and segmenting vesicle instances from the predictions of a multi-class U-Net.
翻訳日:2021-05-08 14:31:40 公開日:2020-12-14
# 固有画像のキャプション評価

Intrinsic Image Captioning Evaluation ( http://arxiv.org/abs/2012.07333v1 )

ライセンス: Link先を確認
Chao Zeng, Sam Kwong(参考訳) 画像キャプションタスクは、画像から適切な記述を生成する。 このタスクには、正確性、流動性、多様性など、いくつかの課題がある。 しかし、キャプションモデルの結果を評価しながら、これらの特性をすべてカバーできるメトリクスは少なく、本稿では、まず、現代のメトリクスを包括的に調査する。 自動エンコーダ機構と単語埋め込みの研究の進展に動機づけられ,画像キャプションのための学習ベースのメトリクスを提案し,本質的画像キャプション評価(i2ce)と呼ぶ。 最新の画像キャプションモデルをいくつか選択し,同時代の指標と提案したI2CEに関して,MS COCOデータセット上でその性能を検証した。 実験結果から,提案手法は,セマンティックな類似表現やセマンティックスに遭遇した場合に,頑健な性能を維持し,より柔軟なスコアを候補キャプションに与えることができることがわかった。 この点に関して、提案された指標は、既存の指標と相補的なキャプション間の固有情報に関する新しい指標として機能する可能性がある。

The image captioning task is about to generate suitable descriptions from images. For this task there can be several challenges such as accuracy, fluency and diversity. However there are few metrics that can cover all these properties while evaluating results of captioning models.In this paper we first conduct a comprehensive investigation on contemporary metrics. Motivated by the auto-encoder mechanism and the research advances of word embeddings we propose a learning based metrics for image captioning, which we call Intrinsic Image Captioning Evaluation(I2CE). We select several state-of-the-art image captioning models and test their performances on MS COCO dataset with respects to both contemporary metrics and the proposed I2CE. Experiment results show that our proposed method can keep robust performance and give more flexible scores to candidate captions when encountered with semantic similar expression or less aligned semantics. On this concern the proposed metric could serve as a novel indicator on the intrinsic information between captions, which may be complementary to the existing ones.
翻訳日:2021-05-08 14:31:23 公開日:2020-12-14
# CLIC Pフレーム符号化のための強化再構成による学習ビデオコーデック

Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding ( http://arxiv.org/abs/2012.07462v1 )

ライセンス: Link先を確認
David Alexandre and Hsueh-Ming Hang(参考訳) 本稿では,学習画像圧縮(clic, cvprworkshop)2020 p-frame符号化のための学習ベースのビデオコーデックを提案する。 具体的には、残差信号と運動ベクトルを符号化するためのRefine-Netを用いた圧縮機ネットワークを設計した。 また,動き推定のための階層型注意型me-netも導入した。 設計を検証するため,モジュールと異なる入力形式について広範なアブレーション研究を行った。 ビデオコーデックでは,CLIC P-frame Challengeで規定されたデコーダ側の完全参照フレームを用いて,その性能を示す。 実験結果から,提案するコーデックは,品質指標の面では,トップパフォーマとの競争力が高いことがわかった。

This paper proposes a learning-based video codec, specifically used for Challenge on Learned Image Compression (CLIC, CVPRWorkshop) 2020 P-frame coding. More specifically, we designed a compressor network with Refine-Net for coding residual signals and motion vectors. Also, for motion estimation, we introduced a hierarchical, attention-based ME-Net. To verify our design, we conducted an extensive ablation study on our modules and different input formats. Our video codec demonstrates its performance by using the perfect reference frame at the decoder side specified by the CLIC P-frame Challenge. The experimental result shows that our proposed codec is very competitive with the Challenge top performers in terms of quality metrics.
翻訳日:2021-05-08 14:30:51 公開日:2020-12-14
# 原点雲からの形状モデリングと再構成のための表面自己相似性のサイン非依存的学習

Sign-Agnostic Implicit Learning of Surface Self-Similarities for Shape Modeling and Reconstruction from Raw Point Clouds ( http://arxiv.org/abs/2012.07498v1 )

ライセンス: Link先を確認
Wenbin Zhao, Jiabao Lei, Yuxin Wen, Jianguo Zhang, Kui Jia(参考訳) 物体の原点雲からの形状モデリングと再構成は、視覚とグラフィック研究における根本的な課題である。 古典的手法では、解析的形状を優先するが、スキャンされた点が清潔さと完全性という理想的な条件から逸脱すると、その性能は低下する。 補助的なトレーニング形状から暗黙的表面表現のグローバルおよび/またはローカルモデルを学ぶデータ駆動アプローチは、近年重要な進歩を遂げている。 Motivated from a universal phenomenon that self-similar shape patterns of local surface patches repeat across the entire surface of an object, we aim to push forward the data-driven strategies and propose to learn a local implicit surface network for a shared, adaptive modeling of the entire surface for a direct surface reconstruction from raw point cloud; we also enhance the leveraging of surface self-similarities by improving correlations among the optimized latent codes of individual surface patches. 生点の向きは利用できないかうるか、うるさいかを考えると、符号非依存学習を我々の局所暗黙的モデルに拡張することで、符号なし入力から符号付き局所表面の暗黙的場を復元することができる。 我々はこのフレームワークを,表面自己相似性(sail-s3)のサイン非依存的暗黙的学習と呼ぶ。 局所符号反転のグローバルな後最適化により、SAIL-S3は原点雲を直接モデル化し、高品質な物体表面を再構成することができる。 実験は既存の方法よりも優れていることを示す。

Shape modeling and reconstruction from raw point clouds of objects stand as a fundamental challenge in vision and graphics research. Classical methods consider analytic shape priors; however, their performance degraded when the scanned points deviate from the ideal conditions of cleanness and completeness. Important progress has been recently made by data-driven approaches, which learn global and/or local models of implicit surface representations from auxiliary sets of training shapes. Motivated from a universal phenomenon that self-similar shape patterns of local surface patches repeat across the entire surface of an object, we aim to push forward the data-driven strategies and propose to learn a local implicit surface network for a shared, adaptive modeling of the entire surface for a direct surface reconstruction from raw point cloud; we also enhance the leveraging of surface self-similarities by improving correlations among the optimized latent codes of individual surface patches. Given that orientations of raw points could be unavailable or noisy, we extend sign agnostic learning into our local implicit model, which enables our recovery of signed implicit fields of local surfaces from the unsigned inputs. We term our framework as Sign-Agnostic Implicit Learning of Surface Self-Similarities (SAIL-S3). With a global post-optimization of local sign flipping, SAIL-S3 is able to directly model raw, un-oriented point clouds and reconstruct high-quality object surfaces. Experiments show its superiority over existing methods.
翻訳日:2021-05-08 14:29:52 公開日:2020-12-14
# img2pose: 6dofによる顔アライメントと顔位置推定

img2pose: Face Alignment and Detection via 6DoF, Face Pose Estimation ( http://arxiv.org/abs/2012.07791v1 )

ライセンス: Link先を確認
Vitor Albiero, Xingyu Chen, Xi Yin, Guan Pang, Tal Hassner(参考訳) 実時間6自由度(6自由度)、3次元顔ポーズ推定を顔検出やランドマーク定位なしで提案する。 顔の6DoF剛性変換を推定することは、顔のランドマーク検出よりも簡単な問題であり、しばしば3次元顔アライメントに使用される。 さらに、6DoFはフェイスバウンディングボックスラベルよりも多くの情報を提供する。 a) 予備的な顔検出なしに、6DoFのポーズを写真のすべての顔に反映させる、容易に訓練され、効率的で、より高速なR-CNNベースのモデルを記述する。 b) モデルの訓練および評価中に作成された入力写真と任意の作物の間でポーズがどのように変換・維持されるかを説明する。 (c) 最後に、顔のポーズが検出境界ボックストレーニングラベルを置き換える方法を示す。 AFLW2000-3D と BIWI の試験結果から,本手法は実時間で動作し,SotA (SotA) の顔のポーズ推定に優れることがわかった。 また,本手法は,境界ボックスラベルに最適化されていないにもかかわらず,WIDER FACE検出ベンチマークにおいて同等の複雑性を持つSotAモデルを上回る。

We propose real-time, six degrees of freedom (6DoF), 3D face pose estimation without face detection or landmark localization. We observe that estimating the 6DoF rigid transformation of a face is a simpler problem than facial landmark detection, often used for 3D face alignment. In addition, 6DoF offers more information than face bounding box labels. We leverage these observations to make multiple contributions: (a) We describe an easily trained, efficient, Faster R-CNN--based model which regresses 6DoF pose for all faces in the photo, without preliminary face detection. (b) We explain how pose is converted and kept consistent between the input photo and arbitrary crops created while training and evaluating our model. (c) Finally, we show how face poses can replace detection bounding box training labels. Tests on AFLW2000-3D and BIWI show that our method runs at real-time and outperforms state of the art (SotA) face pose estimators. Remarkably, our method also surpasses SotA models of comparable complexity on the WIDER FACE detection benchmark, despite not been optimized on bounding box labels.
翻訳日:2021-05-08 14:27:56 公開日:2020-12-14
# 教師なし音響単語埋め込みの入力特徴としての自己教師あり音声表現の比較

A comparison of self-supervised speech representations as input features for unsupervised acoustic word embeddings ( http://arxiv.org/abs/2012.07387v1 )

ライセンス: Link先を確認
Lisa van Staden, Herman Kamper(参考訳) 多くの音声処理タスクでは、音声セグメント間の音響的類似度を測定する。 音響単語埋め込み(AWE)は、任意の長さの音声セグメントを固定次元ベクトルにマッピングすることで、効率的な比較を可能にする。 unlabelled speechが唯一の利用可能なリソースであるゼロリソース音声処理では、aweの最良のアプローチのいくつかは、自動的に検出される単語のようなセグメントの形で、弱いトップダウン制約に依存している。 セグメントレベルで埋め込みを学ぶのではなく、ゼロリソースの研究の別の一行は、短期的なフレームレベルでの表現学習に注目した。 最近のアプローチには、自己教師付き予測符号化と対応オートエンコーダ(CAE)モデルがある。 本稿では,教師なしaweモデルへのトレーニングの入力として使用する場合,フレームレベルの特徴が有益かどうかを検討する。 フレームレベルの特徴として、コントラスト予測符号化(CPC)、自己回帰予測符号化、CAEを従来のMFCCと比較する。 これらは、繰り返しCAEベースのAWEモデルの入力として使用される。 英語とXitsongaのデータにおける単語識別タスクでは、3つの表現学習アプローチがMFCCよりも優れており、CPCは一貫して最大の改善を示している。 言語横断実験では、英語で訓練されたCPC機能もXitsongaに移行できることがわかった。

Many speech processing tasks involve measuring the acoustic similarity between speech segments. Acoustic word embeddings (AWE) allow for efficient comparisons by mapping speech segments of arbitrary duration to fixed-dimensional vectors. For zero-resource speech processing, where unlabelled speech is the only available resource, some of the best AWE approaches rely on weak top-down constraints in the form of automatically discovered word-like segments. Rather than learning embeddings at the segment level, another line of zero-resource research has looked at representation learning at the short-time frame level. Recent approaches include self-supervised predictive coding and correspondence autoencoder (CAE) models. In this paper we consider whether these frame-level features are beneficial when used as inputs for training to an unsupervised AWE model. We compare frame-level features from contrastive predictive coding (CPC), autoregressive predictive coding and a CAE to conventional MFCCs. These are used as inputs to a recurrent CAE-based AWE model. In a word discrimination task on English and Xitsonga data, all three representation learning approaches outperform MFCCs, with CPC consistently showing the biggest improvement. In cross-lingual experiments we find that CPC features trained on English can also be transferred to Xitsonga.
翻訳日:2021-05-08 14:27:36 公開日:2020-12-14
# 弱監督型音声におけるキーワードの局所化に向けて

Towards localisation of keywords in speech using weak supervision ( http://arxiv.org/abs/2012.07396v1 )

ライセンス: Link先を確認
Kayode Olaleye, Benjamin van Niekerk, Herman Kamper(参考訳) 弱教師付きおよび自己教師型モデルの開発は、完全な転写ができない低リソース環境での音声技術を可能にする。 位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。 第一に、単語の存在または欠落だけが示される。 単語のバッグ (BoW) ラベル。 第2に、視覚的なコンテキストは、ラベルのない発話とペアリングされた画像形式で提供され、ペア化されたデータを使用して、モデルが自己教師ありの方法で訓練される必要がある。 キーワードのローカライズには,視覚領域で一般的に使用されるサリエンシーに基づく手法を適用する。 ネットワークアーキテクチャの一部としてローカライズを行う既存の手法と比較する。 応答性に基づく手法はより柔軟であるが(アーキテクチャ上の制約なしに適用できる)、キーワードのローカライズに使用する場合の限界を特定する。 2種類の監視方法のうち、視覚的に訓練されたモデルは、BoW訓練されたモデルよりも性能が劣る。 視覚的に訓練されたモデルが意味論的に関連のある単語を見つけることは定性的に示されるが、一貫性はない。 以上の結果から,局所化を許容する信号はいくつか存在するが,他の局所化手法はこれらの弱い監督形態に合致する可能性が示唆された。

Developments in weakly supervised and self-supervised models could enable speech technology in low-resource settings where full transcriptions are not available. We consider whether keyword localisation is possible using two forms of weak supervision where location information is not provided explicitly. In the first, only the presence or absence of a word is indicated, i.e. a bag-of-words (BoW) labelling. In the second, visual context is provided in the form of an image paired with an unlabelled utterance; a model then needs to be trained in a self-supervised fashion using the paired data. For keyword localisation, we adapt a saliency-based method typically used in the vision domain. We compare this to an existing technique that performs localisation as a part of the network architecture. While the saliency-based method is more flexible (it can be applied without architectural restrictions), we identify a critical limitation when using it for keyword localisation. Of the two forms of supervision, the visually trained model performs worse than the BoW-trained model. We show qualitatively that the visually trained model sometimes locate semantically related words, but this is not consistent. While our results show that there is some signal allowing for localisation, it also calls for other localisation methods better matched to these forms of weak supervision.
翻訳日:2021-05-08 14:27:15 公開日:2020-12-14
# 自己教師型ベクトル量子化ニューラルネットワークによる音声と単語のセグメンテーション

Towards unsupervised phone and word segmentation using self-supervised vector-quantized neural networks ( http://arxiv.org/abs/2012.07551v1 )

ライセンス: Link先を確認
Herman Kamper, Benjamin van Niekerk(参考訳) 音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。 具体的には、事前訓練されたベクトル量子化(VQ)ニューラルネットワークを制約し、連続した特徴ベクトルのブロックを同一コードに割り当てることで、音声の可変レートセグメンテーションを離散単位に設定する。 セグメンテーションには2つの方法がある。 第一に、あらかじめ指定されたセグメント数に到達するまで、特徴は厳密にマージされる。 2つ目は動的プログラミングを使って2乗誤差をペナルティ項で最適化し、少ないが長いセグメントを奨励する。 これらのVQセグメンテーション手法は, 教師なし電話セグメンテーション, ABX電話識別, 同一差分単語識別, 記号的単語セグメンテーションアルゴリズムへの入力など, 幅広いタスクにまたがって変更することなく利用できることを示す。 ペナルティ化方式は一般に最もよく機能する。 結果が最先端のものに匹敵する場合もあるが、すべてのタスクにおいて合理的な競合アプローチは、かなり低いビットレートで比較される。

We investigate segmenting and clustering speech into low-bitrate phone-like sequences without supervision. We specifically constrain pretrained self-supervised vector-quantized (VQ) neural networks so that blocks of contiguous feature vectors are assigned to the same code, thereby giving a variable-rate segmentation of the speech into discrete units. Two segmentation methods are considered. In the first, features are greedily merged until a prespecified number of segments are reached. The second uses dynamic programming to optimize a squared error with a penalty term to encourage fewer but longer segments. We show that these VQ segmentation methods can be used without alteration across a wide range of tasks: unsupervised phone segmentation, ABX phone discrimination, same-different word discrimination, and as inputs to a symbolic word segmentation algorithm. The penalized method generally performs best. While results are only comparable to the state-of-the-art in some cases, in all tasks a reasonable competing approach is outperformed at a substantially lower bitrate.
翻訳日:2021-05-08 14:26:57 公開日:2020-12-14
# time to transfer: 機械と人間のチャットハンドオフの予測と評価

Time to Transfer: Predicting and Evaluating Machine-Human Chatting Handoff ( http://arxiv.org/abs/2012.07610v1 )

ライセンス: Link先を確認
Jiawei Liu, Zhe Gao, Yangyang Kang, Zhuoren Jiang, Guoxiu He, Changlong Sun, Xiaozhong Liu, Wei Lu(参考訳) チャットボットは人間のエージェントを完全に置き換えられるか? 短い答えは、"それは...に依存します。 例えば、対話の話題のスペクトルがトレーニングコーパスのカバレッジを超えて広がるような難しいケースでは、チャットボットは機能不全を起こし、不満足な発話を返す。 この問題は、人間とアルゴリズムの協調を可能にするMHCH(Machine-Human Chatting Handoff)を導入することで解決できる。 正規/伝達可能な発話を検出するために,難解な符号化を利用して発話の表現を強化するDAMI(Difficulty-Assi sted Matching Inference)ネットワークを提案する。 さらに,コンテクストマッチング機能を取り込むためのマッチング推論機構を導入する。 MHCHの耐久性を考慮した新しい評価指標であるGolden Transfer in Tolerance (GT-T)を提案する。 タスクに対する洞察を提供し、提案したモデルを検証するために、2つの新しいデータセットを収集する。 MHCH上でのモデルの有効性を示すために, 一連のベースラインモデルに対して大規模な実験結果を示し, 比較した。

Is chatbot able to completely replace the human agent? The short answer could be - "it depends...". For some challenging cases, e.g., dialogue's topical spectrum spreads beyond the training corpus coverage, the chatbot may malfunction and return unsatisfied utterances. This problem can be addressed by introducing the Machine-Human Chatting Handoff (MHCH), which enables human-algorithm collaboration. To detect the normal/transferable utterances, we propose a Difficulty-Assisted Matching Inference (DAMI) network, utilizing difficulty-assisted encoding to enhance the representations of utterances. Moreover, a matching inference mechanism is introduced to capture the contextual matching features. A new evaluation metric, Golden Transfer within Tolerance (GT-T), is proposed to assess the performance by considering the tolerance property of the MHCH. To provide insights into the task and validate the proposed model, we collect two new datasets. Extensive experimental results are presented and contrasted against a series of baseline models to demonstrate the efficacy of our model on MHCH.
翻訳日:2021-05-08 14:26:37 公開日:2020-12-14
# ニューラルネットワーク学習のための適応メモリ多重バッチL-BFGSアルゴリズム

An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network Training ( http://arxiv.org/abs/2012.07434v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) バッチ型アルゴリズムの並列実装の可能性と、近似された2次情報を持つ高速化された収束能力に動機づけられたbfgsアルゴリズムの限られたメモリバージョンは、近年大規模ニューラルネットワークのトレーニング問題で注目を集めている。 コスト関数の形状は概して2次ではなく、最小の近傍でほぼ2次になるので、L-BFGSによる2次情報の使用は、トレーニングの初期段階、すなわち、信頼できない。 最低限ではありません そこで,2次情報の影響をトレーニングの進行として制御するために,開発ベースの増減(dev-increase)方式による漸進的記憶と曲率データの活用により,徐々に曲率情報の信頼度を高めるマルチバッチl-bfgsアルゴリズム,mb-amを提案する。 MLPおよびCNNモデルのトレーニングにおいて,6つの識別モデルベンチマーク問題を用いてMB-AMの収束がわずかに速く,平均的に標準マルチバッチL-BFGSアルゴリズムよりも優れた解が得られることを示す。

Motivated by the potential for parallel implementation of batch-based algorithms and the accelerated convergence achievable with approximated second order information a limited memory version of the BFGS algorithm has been receiving increasing attention in recent years for large neural network training problems. As the shape of the cost function is generally not quadratic and only becomes approximately quadratic in the vicinity of a minimum, the use of second order information by L-BFGS can be unreliable during the initial phase of training, i.e. when far from a minimum. Therefore, to control the influence of second order information as training progresses, we propose a multi-batch L-BFGS algorithm, namely MB-AM, that gradually increases its trust in the curvature information by implementing a progressive storage and use of curvature data through a development-based increase (dev-increase) scheme. Using six discriminative modelling benchmark problems we show empirically that MB-AM has slightly faster convergence and, on average, achieves better solutions than the standard multi-batch L-BFGS algorithm when training MLP and CNN models.
翻訳日:2021-05-08 14:25:40 公開日:2020-12-14
# 深層学習表現のためのグラフ

Graphs for deep learning representations ( http://arxiv.org/abs/2012.07439v1 )

ライセンス: Link先を確認
Carlos Lassance(参考訳) 近年,Deep Learning法は,画像分類や多言語自動テキスト翻訳など,幅広い機械学習タスクにおいて,最先端技術を実現している。 これらのアーキテクチャは、エンドツーエンドの方法で機械学習タスクを解決するように訓練される。 上位層のパフォーマンスを達成するために、これらのアーキテクチャは、しばしば非常に多くのトレーニング可能なパラメータを必要とする。 いくつかの望ましくない結果があり、これらの問題に対処するためには、深層学習アーキテクチャのブラックボックスをオープンできることが望まれている。 問題なのは、表現の高次元性とトレーニングプロセスの確率性のため、そうすることは困難である。 本稿では,グラフ信号処理(GSP)の最近の進歩に基づくグラフ形式を導入して,これらのアーキテクチャを考察する。 すなわち、ディープニューラルネットワークの潜在空間を表現するためにグラフを使用します。 このグラフ形式は、一般化能力の確保、学習プロセスの設計における任意の選択量の削減、入力に追加される小さな摂動に対する堅牢性の向上、複雑性の低減など、さまざまな質問に答えることができます。

In recent years, Deep Learning methods have achieved state of the art performance in a vast range of machine learning tasks, including image classification and multilingual automatic text translation. These architectures are trained to solve machine learning tasks in an end-to-end fashion. In order to reach top-tier performance, these architectures often require a very large number of trainable parameters. There are multiple undesirable consequences, and in order to tackle these issues, it is desired to be able to open the black boxes of deep learning architectures. Problematically, doing so is difficult due to the high dimensionality of representations and the stochasticity of the training process. In this thesis, we investigate these architectures by introducing a graph formalism based on the recent advances in Graph Signal Processing (GSP). Namely, we use graphs to represent the latent spaces of deep neural networks. We showcase that this graph formalism allows us to answer various questions including: ensuring generalization abilities, reducing the amount of arbitrary choices in the design of the learning process, improving robustness to small perturbations added to the inputs, and reducing computational complexity
翻訳日:2021-05-08 14:25:18 公開日:2020-12-14
# リニアコンポーネントのリカバリ:複雑度自動エンコーダ設計の削減

Recovery of Linear Components: Reduced Complexity Autoencoder Designs ( http://arxiv.org/abs/2012.07543v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) 次元の削減は、多くのデータ解析アプリケーションにおける重要な前処理ステップであり、モデルの性能と計算複雑性に対する次元の呪いとコリニア性の悪影響に対処する。 さらに、多くのアプリケーションでは、利用可能な事前情報なしでセット全体を最も表現する変数のサブセットを選択することで、入力次元を減らすことが望ましい。 教師なし変数選択技術はこの2つ目の問題に対する解決策を提供する。 オートエンコーダは、適切に正規化されていれば、教師なし次元の縮小と変数の選択の両方を解決できるが、時間に敏感なアプリケーションでは、大きなニューラルネットワークのトレーニングは禁止される。 本稿では,線形および非線形次元削減手法の中間地点として機能する線形成分の回収(Recovery of Linear Components, RLC)という手法を提案する。 合成および実世界のケーススタディの助けを借りて、RCCは、類似した複雑さのオートエンコーダと比較すると、高い精度、過度な適合に対するロバスト性、より高速なトレーニング時間を示す。 さらに、計算複雑性が比較的小さくなると、RLCは半導体製造用ウエハ測定サイト最適化アプリケーションにおいて、現在の状態よりも優れることを示した。

Reducing dimensionality is a key preprocessing step in many data analysis applications to address the negative effects of the curse of dimensionality and collinearity on model performance and computational complexity, to denoise the data or to reduce storage requirements. Moreover, in many applications it is desirable to reduce the input dimensions by choosing a subset of variables that best represents the entire set without any a priori information available. Unsupervised variable selection techniques provide a solution to this second problem. An autoencoder, if properly regularized, can solve both unsupervised dimensionality reduction and variable selection, but the training of large neural networks can be prohibitive in time sensitive applications. We present an approach called Recovery of Linear Components (RLC), which serves as a middle ground between linear and non-linear dimensionality reduction techniques, reducing autoencoder training times while enhancing performance over purely linear techniques. With the aid of synthetic and real world case studies, we show that the RLC, when compared with an autoencoder of similar complexity, shows higher accuracy, similar robustness to overfitting, and faster training times. Additionally, at the cost of a relatively small increase in computational complexity, RLC is shown to outperform the current state-of-the-art for a semiconductor manufacturing wafer measurement site optimization application.
翻訳日:2021-05-08 14:25:04 公開日:2020-12-14
# E2E-FS:ニューラルネットワークのエンドツーエンド特徴選択手法

E2E-FS: An End-to-End Feature Selection Method for Neural Networks ( http://arxiv.org/abs/2012.07671v1 )

ライセンス: Link先を確認
Brais Cancela and Ver\'onica Bol\'on-Canedo and Amparo Alonso-Betanzos(参考訳) 古典的な組込み特徴選択アルゴリズムはしばしば木に基づくアルゴリズムとラッソ変種という2つの大きなグループに分けられる。 ツリーベースのアルゴリズムは、特定の出力をトリガーするためにどの変数が使われているのかを明確に説明するが、ラッソ的なアプローチは正確性を高めるために詳細な説明を犠牲にする。 本稿では,E2E-FS(End-to-End Feature Selection)と呼ばれる新しい特徴選択アルゴリズムを提案する。 非凸正規化項を持つにもかかわらず、このアルゴリズムはラッソ法と同様、勾配降下法を用いて解かれ、モデルに、次に分類器によって使用されるであろう最大数の特徴を特に選択させる制限が課される。 これらは厳しい制約であるが、実験の結果、このアルゴリズムは勾配降下アルゴリズムを用いて訓練された任意の学習モデルで使用できることが示された。

Classic embedded feature selection algorithms are often divided in two large groups: tree-based algorithms and lasso variants. Both approaches are focused in different aspects: while the tree-based algorithms provide a clear explanation about which variables are being used to trigger a certain output, lasso-like approaches sacrifice a detailed explanation in favor of increasing its accuracy. In this paper, we present a novel embedded feature selection algorithm, called End-to-End Feature Selection (E2E-FS), that aims to provide both accuracy and explainability in a clever way. Despite having non-convex regularization terms, our algorithm, similar to the lasso approach, is solved with gradient descent techniques, introducing some restrictions that force the model to specifically select a maximum number of features that are going to be used subsequently by the classifier. Although these are hard restrictions, the experimental results obtained show that this algorithm can be used with any learning model that is trained using a gradient descent algorithm.
翻訳日:2021-05-08 14:24:39 公開日:2020-12-14
# q-Pathsによる重要度サンプリング

Annealed Importance Sampling with q-Paths ( http://arxiv.org/abs/2012.07823v1 )

ライセンス: Link先を確認
Rob Brekelmans, Vaden Masrani, Thang Bui, Frank Wood, Aram Galstyan, Greg Ver Steeg, Frank Nielsen(参考訳) annealed importance sampling (ais) は分割関数や限界確率を推定するための金本位制であり、移動可能なベースと非正規化されたターゲットとの間の分布の経路上での重要度サンプリングに対応する。 AISは任意の経路に対して偏りのない推定器を生成するが、既存の文献は主に指数族とKLの発散に関連する幾何学的混合またはモーメント平均経路に限られている。 我々は、特殊ケースとして幾何学パスを含む$q$-pathsを用いてAISを探索し、同質なパワー平均、変形指数族、および$\alpha$-divergenceに関連する。

Annealed importance sampling (AIS) is the gold standard for estimating partition functions or marginal likelihoods, corresponding to importance sampling over a path of distributions between a tractable base and an unnormalized target. While AIS yields an unbiased estimator for any path, existing literature has been primarily limited to the geometric mixture or moment-averaged paths associated with the exponential family and KL divergence. We explore AIS using $q$-paths, which include the geometric path as a special case and are related to the homogeneous power mean, deformed exponential family, and $\alpha$-divergence.
翻訳日:2021-05-08 14:23:43 公開日:2020-12-14
# ディファレンシャルプライバシのロバスト性脅威

Robustness Threats of Differential Privacy ( http://arxiv.org/abs/2012.07828v1 )

ライセンス: Link先を確認
Nurislam Tursynbek, Aleksandr Petiushko, Ivan Oseledets(参考訳) 差分プライバシーは、データ分析におけるプライバシーの測定と保証という、強力でゴールドな概念である。 ディファレンシャルプライバシがモデルの精度を低下させることはよく知られている。 しかし、堅牢性の観点から、モデルのセキュリティにどのように影響するかは不明だ。 本稿では,ニューラルネットワークのディファレンシャルプライバシとセキュリティとの間の興味深いトレードオフを実証的に観察する。 標準的なニューラルネットワークは、敵の攻撃や一般的な腐敗といった入力摂動に弱い。 我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。 これを調べるために,fgsmとpgdの敵,線形決定境界までの距離,曲率プロファイル,破損したデータセットのパフォーマンスなど,さまざまなロバストネス測定を幅広く研究した。 最後に、勾配クリッピングや雑音付加など、微分プライベートニューラルネットワークトレーニングの主な要素が、モデルの堅牢性にどのように影響するかについて検討する。

Differential privacy is a powerful and gold-standard concept of measuring and guaranteeing privacy in data analysis. It is well-known that differential privacy reduces the model's accuracy. However, it is unclear how it affects security of the model from robustness point of view. In this paper, we empirically observe an interesting trade-off between the differential privacy and the security of neural networks. Standard neural networks are vulnerable to input perturbations, either adversarial attacks or common corruptions. We experimentally demonstrate that networks, trained with differential privacy, in some settings might be even more vulnerable in comparison to non-private versions. To explore this, we extensively study different robustness measurements, including FGSM and PGD adversaries, distance to linear decision boundaries, curvature profile, and performance on a corrupted dataset. Finally, we study how the main ingredients of differentially private neural networks training, such as gradient clipping and noise addition, affect (decrease and increase) the robustness of the model.
翻訳日:2021-05-08 14:23:33 公開日:2020-12-14
# ペアワイズクラス類似性を用いた適応検証訓練

Adaptive Verifiable Training Using Pairwise Class Similarity ( http://arxiv.org/abs/2012.07887v1 )

ライセンス: Link先を確認
Shiqi Wang, Kevin Eykholt, Taesung Lee, Jiyong Jang, and Ian Molloy(参考訳) 検証可能なトレーニングは、特定のノイズに対して確実に堅牢なニューラルネットワークの作成に成功しています。 しかしながら、単一のロバスト性基準のみを強制するが、そのパフォーマンスはデータセットの複雑さに乏しい。 CIFAR10では、非ロバストLeNetモデルは21.63%のエラー率を持ち、検証可能なトレーニングとL-無限性ロバスト性基準8/255で作成されたモデルは57.10%のエラー率を持つ。 検討した結果,視覚的に類似したクラスをラベル付けする場合,モデルの誤差率は61.65%に達することがわかった。 性能の低下はクラス間の類似性に起因する。 同様のクラス(すなわち、特徴空間に近く)は、堅牢なモデルを学ぶことの難しさを増大させる。 大きなロバスト性領域のためにロバストモデルをトレーニングすることが望ましいが、ペアワイズクラスの類似性は潜在的な利益を制限する。 また、類似クラスを誤用する相対コストについても考慮する必要がある。 セキュリティやセーフティクリティカルなタスクでは、同様のクラスが同じグループに属しているため、同様にセンシティブである。 本研究では,クラス間類似性を利用して検証可能なトレーニングの性能を改善し,複数の敵の基準に対して頑健なモデルを作成する新しい手法を提案する。 まず,クラスタ間の類似性に基づいたロバスト性基準を割り当てるために,凝集型クラスタリングを用いた。 次に,(1)グループ間ロバスト性優先化(Inter-Group Robustness Prioritization, カスタム損失項を用いて複数のロバスト性保証を持つ単一モデルを生成する),(2)ニューラル決定木(Neural decision tree, 複数サブクラス保証を異なるロバスト性保証で訓練し,それらを決定木アーキテクチャに組み合わせる)を提案する。 Fashion-MNIST と CIFAR10 では,クリーン性能を 9.63% と 30.89% で改善する。 CIFAR100では,クリーンパフォーマンスを26.32%向上させる。

Verifiable training has shown success in creating neural networks that are provably robust to a given amount of noise. However, despite only enforcing a single robustness criterion, its performance scales poorly with dataset complexity. On CIFAR10, a non-robust LeNet model has a 21.63% error rate, while a model created using verifiable training and a L-infinity robustness criterion of 8/255, has an error rate of 57.10%. Upon examination, we find that when labeling visually similar classes, the model's error rate is as high as 61.65%. We attribute the loss in performance to inter-class similarity. Similar classes (i.e., close in the feature space) increase the difficulty of learning a robust model. While it's desirable to train a robust model for a large robustness region, pairwise class similarities limit the potential gains. Also, consideration must be made regarding the relative cost of mistaking similar classes. In security or safety critical tasks, similar classes are likely to belong to the same group, and thus are equally sensitive. In this work, we propose a new approach that utilizes inter-class similarity to improve the performance of verifiable training and create robust models with respect to multiple adversarial criteria. First, we use agglomerate clustering to group similar classes and assign robustness criteria based on the similarity between clusters. Next, we propose two methods to apply our approach: (1) Inter-Group Robustness Prioritization, which uses a custom loss term to create a single model with multiple robustness guarantees and (2) neural decision trees, which trains multiple sub-classifiers with different robustness guarantees and combines them in a decision tree architecture. On Fashion-MNIST and CIFAR10, our approach improves clean performance by 9.63% and 30.89% respectively. On CIFAR100, our approach improves clean performance by 26.32%.
翻訳日:2021-05-08 14:23:19 公開日:2020-12-14
# 精度と不確かさの最適化によるモデル校正の改善

Improving model calibration with accuracy versus uncertainty optimization ( http://arxiv.org/abs/2012.07923v1 )

ライセンス: Link先を確認
Ranganath Krishnan, Omesh Tickoo(参考訳) 深層ニューラルネットワークによる不確実性推定の信頼性と精度の定量化は,安全性クリティカルな応用において重要である。 適切に校正されたモデルは、その予測が確実であるときに正確であり、不正確な場合に高い不確実性を示すべきである。 不確実性校正は、不確実性推定の根拠がないため、難しい問題である。 精度と不確実性の関係を不確実性校正のアンカーとして活用する最適化手法を提案する。 本稿では,不確実性校正(avuc)損失関数を用いて,精度の向上に加えて,不確実性が十分に調整されたモデルの学習を可能にする。 また,事前学習したモデル上でのポストホック不確実性校正にも,同様の手法を適用できることを実証した。 本手法を平均場確率的変分推定法で説明し,最先端手法と比較する。 大規模な画像分類タスクにおいて, 分布シフトによるモデルキャリブレーションが従来手法よりも優れていることを示す。

Obtaining reliable and accurate quantification of uncertainty estimates from deep neural networks is important in safety-critical applications. A well-calibrated model should be accurate when it is certain about its prediction and indicate high uncertainty when it is likely to be inaccurate. Uncertainty calibration is a challenging problem as there is no ground truth available for uncertainty estimates. We propose an optimization method that leverages the relationship between accuracy and uncertainty as an anchor for uncertainty calibration. We introduce a differentiable accuracy versus uncertainty calibration (AvUC) loss function that allows a model to learn to provide well-calibrated uncertainties, in addition to improved accuracy. We also demonstrate the same methodology can be extended to post-hoc uncertainty calibration on pretrained models. We illustrate our approach with mean-field stochastic variational inference and compare with state-of-the-art methods. Extensive experiments demonstrate our approach yields better model calibration than existing methods on large-scale image classification tasks under distributional shift.
翻訳日:2021-05-08 14:22:46 公開日:2020-12-14
# 新型コロナウイルスパンデミックを考慮した離散イベントシミュレーションによる病院容量計画

Hospital Capacity Planning Using Discrete Event Simulation Under Special Consideration of the COVID-19 Pandemic ( http://arxiv.org/abs/2012.07188v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein and Frederik Rehbach and Olaf Mersmann and Eva Bartz(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)に配慮した病院向け資源計画ツールbabsim.hospitalを提案する。 例えば、自身のローカル計画との比較、ローカルイベントのシミュレーション、いくつかのシナリオのシミュレーション(worst / best case)などだ。 医療専門家には、例えば、地域、地域、州、連邦レベルでのパンデミックの分析、特別なリスクグループの検討、滞在期間の検証と移行確率の検証のためのツールがある。 最後に、管理、管理、例えば、地域イベントを考慮に入れた個々の病院の状況の評価、ベッド、換気器、部屋、防護服、人事計画といった関連するリソース、例えば医療・看護スタッフの考慮、といった潜在的メリットがある。 babsim.hospitalはシミュレーション、最適化、統計、人工知能のプロセスを非常に効率的な方法で組み合わせる。 コアは離散的なイベントベースのシミュレーションモデルである。

We present a resource-planning tool for hospitals under special consideration of the COVID-19 pandemic, called babsim.hospital. It provides many advantages for crisis teams, e.g., comparison with their own local planning, simulation of local events, simulation of several scenarios (worst / best case). There are benefits for medical professionals, e.g, analysis of the pandemic at local, regional, state and federal level, the consideration of special risk groups, tools for validating the length of stays and transition probabilities. Finally, there are potential advantages for administration, management, e.g., assessment of the situation of individual hospitals taking local events into account, consideration of relevant resources such as beds, ventilators, rooms, protective clothing, and personnel planning, e.g., medical and nursing staff. babsim.hospital combines simulation, optimization, statistics, and artificial intelligence processes in a very efficient way. The core is a discrete, event-based simulation model.
翻訳日:2021-05-08 14:22:31 公開日:2020-12-14
# ディープフェイク攻撃と対策の新たな脅威

The Emerging Threats of Deepfake Attacks and Countermeasures ( http://arxiv.org/abs/2012.07989v1 )

ライセンス: Link先を確認
Shadrack Awah Buo(参考訳) deepfake technology (dt) は新しいレベルの洗練度を身につけた。 サイバー犯罪者は、音、画像、ビデオを操作して個人や企業を欺いたり誤解させたりすることができる。 これは、対処すべき国際機関や個人に対する脅威の増大を表している。 本稿では,deepfakesの概要,社会への便益,dtの働きについて述べる。 ディープフェイクによって世界中の企業、政治、司法システムに提示される脅威を強調する。 さらに,本論文では,ディープフェイクの潜在的な解決策を探求し,今後の研究方向性について述べる。

Deepfake technology (DT) has taken a new level of sophistication. Cybercriminals now can manipulate sounds, images, and videos to defraud and misinform individuals and businesses. This represents a growing threat to international institutions and individuals which needs to be addressed. This paper provides an overview of deepfakes, their benefits to society, and how DT works. Highlights the threats that are presented by deepfakes to businesses, politics, and judicial systems worldwide. Additionally, the paper will explore potential solutions to deepfakes and conclude with future research direction.
翻訳日:2021-05-08 14:21:39 公開日:2020-12-14
# 残留因子の分布予測による深部ポートフォリオ最適化

Deep Portfolio Optimization via Distributional Prediction of Residual Factors ( http://arxiv.org/abs/2012.07245v1 )

ライセンス: Link先を確認
Kentaro Imajo and Kentaro Minami and Katsuya Ito and Kei Nakagawa(参考訳) 近年のディープラーニング技術の発展は、機械学習支援株取引戦略における集中的な研究の動機となっている。 しかし、金融市場は、典型的なデータハングリー機械学習手法の適用を妨げる非常に非定常な性質を持っているため、より良いサンプル効率と堅牢性を確保するためには、金融インダクティブバイアスを活用することが重要である。 本研究では,共通市場要因へのリスク曝露の緩和に一般的に有用であることが知られている残余要因と呼ばれる金融量の分布予測に基づくポートフォリオ構築手法を提案する。 主な技術要素は2つある。 まず,様々な予測アルゴリズムと容易に組み合わせることができる残差情報の計算効率の高い抽出法を提案する。 第2に,振幅不変性や時間スケール不変性など,広く認識されている金融インダクティブバイアスを組み込むことができるニューラルネットワークアーキテクチャを提案する。 本手法が米国および日本の株式市場データに与える影響を実証する。 アブレーション実験を通じて,各手法が取引戦略の性能向上に寄与することを検証する。 我々は、我々の技術が様々な財政問題に幅広い応用を期待する。

Recent developments in deep learning techniques have motivated intensive research in machine learning-aided stock trading strategies. However, since the financial market has a highly non-stationary nature hindering the application of typical data-hungry machine learning methods, leveraging financial inductive biases is important to ensure better sample efficiency and robustness. In this study, we propose a novel method of constructing a portfolio based on predicting the distribution of a financial quantity called residual factors, which is known to be generally useful for hedging the risk exposure to common market factors. The key technical ingredients are twofold. First, we introduce a computationally efficient extraction method for the residual information, which can be easily combined with various prediction algorithms. Second, we propose a novel neural network architecture that allows us to incorporate widely acknowledged financial inductive biases such as amplitude invariance and time-scale invariance. We demonstrate the efficacy of our method on U.S. and Japanese stock market data. Through ablation experiments, we also verify that each individual technique contributes to improving the performance of trading strategies. We anticipate our techniques may have wide applications in various financial problems.
翻訳日:2021-05-08 14:21:31 公開日:2020-12-14
# Koopman ジェネレータを用いたエージェントベースシステムのデータ駆動モデル削減

Data-driven model reduction of agent-based systems using the Koopman generator ( http://arxiv.org/abs/2012.07718v1 )

ライセンス: Link先を確認
Jan-Hendrik Niemann, Stefan Klus, Christof Sch\"utte(参考訳) 社会システムの動的挙動はエージェントベースのモデルによって記述できる。 単一のエージェントは簡単に説明可能な規則に従うが、複雑な時間進化パターンは相互作用によって現れる。 しかし、そのようなエージェントベースのモデルのシミュレーションと分析は、エージェントの数が大きい場合、しばしば時間を要する。 本稿では,シミュレーションや実世界のデータのみを用いてエージェントベースシステムの縮小モデルを導出するために,クープマン演算子理論を用いる方法を示す。 我々の目標は粗い粒度のモデルを学び、通常のあるいは確率的な微分方程式による減少ダイナミクスを表現することである。 新しい変数は、例えばエージェントベースのモデルの集約された状態変数であり、より大きなグループの集団行動や集団全体の振る舞いをモデル化する。 既知粗粒度モデルを用いたベンチマーク問題を用いて, エージェント数が十分に大きい場合, 得られた還元系は解析結果とよく一致していることを示す。

The dynamical behavior of social systems can be described by agent-based models. Although single agents follow easily explainable rules, complex time-evolving patterns emerge due to their interaction. The simulation and analysis of such agent-based models, however, is often prohibitively time-consuming if the number of agents is large. In this paper, we show how Koopman operator theory can be used to derive reduced models of agent-based systems using only simulation or real-world data. Our goal is to learn coarse-grained models and to represent the reduced dynamics by ordinary or stochastic differential equations. The new variables are, for instance, aggregated state variables of the agent-based model, modeling the collective behavior of larger groups or the entire population. Using benchmark problems with known coarse-grained models, we demonstrate that the obtained reduced systems are in good agreement with the analytical results, provided that the numbers of agents is sufficiently large.
翻訳日:2021-05-08 14:21:13 公開日:2020-12-14
# IPN-V2とOCTA-500:網膜画像分割のための方法論とデータセット

IPN-V2 and OCTA-500: Methodology and Dataset for Retinal Image Segmentation ( http://arxiv.org/abs/2012.07261v1 )

ライセンス: Link先を確認
Mingchao Li, Yuhan Zhang, Zexuan Ji, Keren Xie, Songtao Yuan, Qinghuai Liu and Qiang Chen(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、ミクロンレベルの解像度で網膜血管の3次元構造を提示できる新しい画像モダリティである。 前報では,網膜血管 (RV) と胎児血管領域 (FAZ) のOCTA画像の領域に3D-to-2D画像投影ネットワーク (IPN) が提案された。 その利点の1つは、セグメンテーションの結果がプロジェクション画像や網膜層セグメンテーションを使わずに、元のボリュームから直接得られることである。 本研究では,平面パーセプトロンを追加してIPNを拡張し,水平方向のパーセプトロン能力を高める画像投影ネットワークV2(IPN-V2)を提案する。 また,IPN-V2+の補助として,「チェッカーボード効果」を克服するグローバルリトレーニングプロセスを導入することで,IPN-V2+を提案する。 さらに,OCTA-500と呼ばれる新しいマルチモーダリティデータセットを提案する。 OCTとOCTAのボリューム、6種類のプロジェクション、4種類のテキストラベル、2種類のピクセルレベルラベルを含む2種類の視野(FOV)を持つ500人の被験者を含んでいる。 データセットには、約80GBの360K画像が含まれている。 我々の知る限りでは、このデータセットは現在、豊富な情報を持つ最大のOCTAデータセットである。 最後に,OCTA-500データセットを用いたIPN-V2の性能評価を行った。 実験の結果,提案するIPN-V2は,RVセグメンテーションやFAZセグメンテーションにおいて,IPNや他の深層学習手法よりも優れた性能を示した。

Optical coherence tomography angiography (OCTA) is a novel imaging modality that allows a micron-level resolution to present the three-dimensional structure of the retinal vascular. In our previous work, a 3D-to-2D image projection network (IPN) was proposed for retinal vessel (RV) and foveal avascular zone (FAZ) segmentations in OCTA images. One of its advantages is that the segmentation results are directly from the original volumes without using any projection images and retinal layer segmentation. In this work, we propose image projection network V2 (IPN-V2), extending IPN by adding a plane perceptron to enhance the perceptron ability in the horizontal direction. We also propose IPN-V2+, as a supplement of the IPN-V2, by introducing a global retraining process to overcome the "checkerboard effect". Besides, we propose a new multi-modality dataset, dubbed OCTA-500. It contains 500 subjects with two field of view (FOV) types, including OCT and OCTA volumes, six types of projections, four types of text labels and two types of pixel-level labels. The dataset contains more than 360K images with a size of about 80GB. To the best of our knowledge, it is currently the largest OCTA dataset with the abundant information. Finally, we perform a thorough evaluation of the performance of IPN-V2 on the OCTA-500 dataset. The experimental results demonstrate that our proposed IPN-V2 performs better than IPN and other deep learning methods in RV segmentation and FAZ segmentation.
翻訳日:2021-05-08 14:20:40 公開日:2020-12-14
# 物質認識のための深層学習 : 最近の進歩と課題

Deep Learning for Material recognition: most recent advances and open challenges ( http://arxiv.org/abs/2012.07495v1 )

ライセンス: Link先を確認
Alain Tremeau, Sixiang Xu and Damien Muselet(参考訳) カラー画像から素材を認識することは今でも難しい問題だ。 深層ニューラルネットワークは、オブジェクト認識に非常に優れた結果をもたらし、過去10年間、膨大な量の論文のトピックとなっているが、マテリアルイメージへの適応には、同等の精度に達するためのいくつかの作業が必要である。 それにもかかわらず、最近の研究はディープラーニングによる物体認識において非常に良い結果を得ており、そのほとんどを素材画像データセット、文脈の影響、素材の出現に関するアドホック記述子という3つの側面に注目してレビューする。 あらゆる側面が体系的に導入され、代表作の結果が引用される。 また、この分野における独自の研究を提示するとともに、今後の課題についても指摘します。

Recognizing material from color images is still a challenging problem today. While deep neural networks provide very good results on object recognition and has been the topic of a huge amount of papers in the last decade, their adaptation to material images still requires some works to reach equivalent accuracies. Nevertheless, recent studies achieve very good results in material recognition with deep learning and we propose, in this paper, to review most of them by focusing on three aspects: material image datasets, influence of the context and ad hoc descriptors for material appearance. Every aspect is introduced by a systematic manner and results from representative works are cited. We also present our own studies in this area and point out some open challenges for future works.
翻訳日:2021-05-08 14:20:13 公開日:2020-12-14
# PePScenes: 歩行者行動予測のための新しいデータセットとベースライン

PePScenes: A Novel Dataset and Baseline for Pedestrian Action Prediction in 3D ( http://arxiv.org/abs/2012.07773v1 )

ライセンス: Link先を確認
Amir Rasouli, Tiffany Yau, Peter Lakner, Saber Malekmohammadi, Mohsen Rohani, Jun Luo(参考訳) 道路利用者,特に歩行者の行動を予測することは,自動運転システムにおける安全な移動計画に不可欠である。 従来、歩行者行動予測は将来の軌道予測の観点から実現されてきた。 しかし,近年の研究では,道路横断などの高次行動予測が軌道予測や計画作業の改善に役立つことが示唆されている。 歩行者行動予測アルゴリズムの開発には、既存のデータセットが多数存在するが、鳥の目図の意味地図情報、シーン内の物体の3d位置など、自動運転の文脈において重要な特徴を欠いている。 そこで本研究では,一般的な自動運転データセットnuScenesにフレーム単位の2D/3Dバウンディングボックスと行動アノテーションを追加することで,新たな歩行者行動予測データセットを提案する。 さらに,歩行者横断行動を予測するための様々なデータモダリティを組み込んだハイブリッドニューラルネットワークアーキテクチャを提案する。 提案したデータセット上でモデルを評価することにより,予測タスクに対する異なるデータモダリティの寄与を明らかにする。 データセットはhttps://github.com/h uawei-noah/PePScenes で公開されている。

Predicting the behavior of road users, particularly pedestrians, is vital for safe motion planning in the context of autonomous driving systems. Traditionally, pedestrian behavior prediction has been realized in terms of forecasting future trajectories. However, recent evidence suggests that predicting higher-level actions, such as crossing the road, can help improve trajectory forecasting and planning tasks accordingly. There are a number of existing datasets that cater to the development of pedestrian action prediction algorithms, however, they lack certain characteristics, such as bird's eye view semantic map information, 3D locations of objects in the scene, etc., which are crucial in the autonomous driving context. To this end, we propose a new pedestrian action prediction dataset created by adding per-frame 2D/3D bounding box and behavioral annotations to the popular autonomous driving dataset, nuScenes. In addition, we propose a hybrid neural network architecture that incorporates various data modalities for predicting pedestrian crossing action. By evaluating our model on the newly proposed dataset, the contribution of different data modalities to the prediction task is revealed. The dataset is available at https://github.com/h uawei-noah/PePScenes .
翻訳日:2021-05-08 14:19:23 公開日:2020-12-14
# マルチインスタンス学習改善のためのビジュアルマイニング手法

A Visual Mining Approach to Improved Multiple-Instance Learning ( http://arxiv.org/abs/2012.07257v1 )

ライセンス: Link先を確認
Sonia Castelo, Moacir Ponti, Rosane Minghim(参考訳) MIL(Multiple-Instanc e Learning)は、オブジェクト(インスタンス)の集合(バグ)を分類し、ラベルをバッグに割り当てることを目的とした機械学習のパラダイムである。 この問題は、各バッグを表すインスタンスを選択し、MIL問題を標準的な教師付き学習に変換することで解決される。 可視化は,ユーザの知識を分類プロセスに取り入れることで,学習シナリオを評価する上で有用なツールである。 マルチインスタンス学習は,現在の可視化手法では処理できないパラダイムであると考え,milをサポートするマルチスケールツリーベース可視化を提案する。 ツリーの第1レベルはバッグを表し、第2レベルは各バッグに属するインスタンスを表し、ユーザが直感的な方法でデータを理解できるようにする。 さらに,MILのインスタンス選択手法を2つ提案し,モデルをさらに改良する上で有効であることを示す。 私たちのメソッドはバイナリとマルチクラスの両方のシナリオも処理できます。 実験では,SVMを用いて分類器を構築した。 MILTreeレイアウトのサポートにより、初期分類モデルは、プロトタイプインスタンスによって構成されたトレーニングセットを変更して更新された。 実験の結果,MILTreeによる視覚的マイニングは,MILシナリオにおけるモデルの探索と改良に有効であること,インスタンス選択手法が現在の選択肢よりも優れていること,などが確認できた。

Multiple-instance learning (MIL) is a paradigm of machine learning that aims to classify a set (bag) of objects (instances), assigning labels only to the bags. This problem is often addressed by selecting an instance to represent each bag, transforming a MIL problem into a standard supervised learning. Visualization can be a useful tool to assess learning scenarios by incorporating the users' knowledge into the classification process. Considering that multiple-instance learning is a paradigm that cannot be handled by current visualization techniques, we propose a multiscale tree-based visualization to support MIL. The first level of the tree represents the bags, and the second level represents the instances belonging to each bag, allowing the user to understand the data in an intuitive way. In addition, we propose two new instance selection methods for MIL, which help the user to improve the model even further. Our methods are also able to handle both binary and multiclass scenarios. In our experiments, SVM was used to build the classifiers. With support of the MILTree layout, the initial classification model was updated by changing the training set - composed by the prototype instances. Experimental results validate the effectiveness of our approach, showing that visual mining by MILTree can help users in exploring and improving models in MIL scenarios, and that our instance selection methods over-perform current available alternatives in most cases.
翻訳日:2021-05-08 14:18:46 公開日:2020-12-14
# 半教師付き学習における効率的かつ効率的なデータ中毒

Effective and Efficient Data Poisoning in Semi-Supervised Learning ( http://arxiv.org/abs/2012.07381v1 )

ライセンス: Link先を確認
Adriano Franci, Maxime Cordy, Martin Gubri, Mike Papadakis, Yves Le Traon(参考訳) SSL(Semi-Supervised Learning)は、ラベル付きデータと大量の非ラベル付きデータから学習することのメリットを最大化することを目的としている。 未知のラベルを推測するために既知のラベルに依存するため、SSLアルゴリズムはデータ品質に敏感である。 これにより、ラベル付きデータに関連する潜在的な脅威、具体的にはラベル中毒を研究することが重要である。 しかし、SSLのデータ中毒はほとんど調査されていない。 このギャップを埋めるために,効率と効率の両立した新しいデータ中毒法を提案する。 提案手法はSSLの数学的特性を利用してラベル付き入力の影響を非ラベル付き入力に近似し,有毒な入力を識別することで,不正に推測されたラベルの最大数を生成できる。 我々は,12の異なる実験環境下での3つの分類問題に対するアプローチを評価した。 最先端技術と比較して、我々の影響に基づく攻撃はエラー率を平均して3倍に増加させ、同時に複数の桁の速度も向上させる。 さらに,本手法は,学習モデルの学習前に,調査に値する入力を技術者に通知することができる。 その結果, 汚染された入力の3分の1(影響に基づいて選択)は, 毒性効果を50%減少させることがわかった。

Semi-Supervised Learning (SSL) aims to maximize the benefits of learning from a limited amount of labelled data together with a vast amount of unlabelled data. Because they rely on the known labels to infer the unknown labels, SSL algorithms are sensitive to data quality. This makes it important to study the potential threats related to the labelled data, more specifically, label poisoning. However, data poisoning of SSL remains largely understudied. To fill this gap, we propose a novel data poisoning method which is both effective and efficient. Our method exploits mathematical properties of SSL to approximate the influence of labelled inputs onto unlabelled one, which allows the identification of the inputs that, if poisoned, would produce the highest number of incorrectly inferred labels. We evaluate our approach on three classification problems under 12 different experimental settings each. Compared to the state of the art, our influence-based attack produces an average increase of error rate 3 times higher, while being faster by multiple orders of magnitude. Moreover, our method can inform engineers of inputs that deserve investigation (relabelling them) before training the learning model. We show that relabelling one-third of the poisoned inputs (selected based on their influence) reduces the poisoning effect by 50%.
翻訳日:2021-05-08 14:18:23 公開日:2020-12-14
# スマートエネルギーメータの消費者受け入れを促進するプライバシ保護需要予測

Privacy Preserving Demand Forecasting to Encourage Consumer Acceptance of Smart Energy Meters ( http://arxiv.org/abs/2012.07449v1 )

ライセンス: Link先を確認
Christopher Briggs, Zhong Fan, Peter Andras(参考訳) 本論文では,消費者がスマートメーターの設置に懸念を抱かせるため,プライバシ保護によるエネルギー需要予測の必要性を強調した。 高解像度のスマートメーターデータは、占有、習慣、個々の家電の使用など、消費者の家庭の多くのプライベートな側面を露呈することができる。 しかし、スマートな計測インフラは、運転効率の改善によってエネルギーセクターからの二酸化炭素排出量を大幅に削減する可能性がある。 本研究では,様々な規模のエネルギー需要予測にフェデレーション学習と呼ばれる分散機械学習を応用し,消費者の生エネルギー消費データのプライバシーを保ちながら負荷予測を可能にした。

In this proposal paper we highlight the need for privacy preserving energy demand forecasting to allay a major concern consumers have about smart meter installations. High resolution smart meter data can expose many private aspects of a consumer's household such as occupancy, habits and individual appliance usage. Yet smart metering infrastructure has the potential to vastly reduce carbon emissions from the energy sector through improved operating efficiencies. We propose the application of a distributed machine learning setting known as federated learning for energy demand forecasting at various scales to make load prediction possible whilst retaining the privacy of consumers' raw energy consumption data.
翻訳日:2021-05-08 14:18:03 公開日:2020-12-14
# 車両のエンドツーエンド制御への適用

Sim-to-real reinforcement learning applied to end-to-end vehicle control ( http://arxiv.org/abs/2012.07461v1 )

ライセンス: Link先を確認
Andr\'as Kalapos, Csaba G\'or, R\'obert Moni, Istv\'an Harmati(参考訳) 本研究では,車線追従や衝突回避といった車両制御問題に対する視覚に基づくエンドツーエンド強化学習について検討する。 我々の制御ポリシーでは、実際の2車線の道路の右車線を追従するために小型ロボットを制御できますが、その訓練はシミュレーションでのみ行われました。 我々のモデルは、単純な畳み込みネットワークによって実現され、前方の単眼カメラの画像にのみ依存し、車両を直接制御する連続的な動作を生成する。 このポリシーをトレーニングするために、近似ポリシー最適化を使い、実際のパフォーマンスに必要な一般化能力を達成するためにドメインランダム化を使いました。 複数のパフォーマンスメトリクスを計測し、他のメソッドに依存するベースラインと比較することにより、トレーニングされたポリシーを徹底的に分析した。 実世界でのシミュレーションから現実への伝達学習プロセスの品質とコントローラの性能を評価するために,実軌道上での簡単な測定値を測定し,マッチングシミュレーションの結果と比較した。 さらに,サルエントオブジェクトマップの可視化により解析を行った。

In this work, we study vision-based end-to-end reinforcement learning on vehicle control problems, such as lane following and collision avoidance. Our controller policy is able to control a small-scale robot to follow the right-hand lane of a real two-lane road, while its training was solely carried out in a simulation. Our model, realized by a simple, convolutional network, only relies on images of a forward-facing monocular camera and generates continuous actions that directly control the vehicle. To train this policy we used Proximal Policy Optimization, and to achieve the generalization capability required for real performance we used domain randomization. We carried out thorough analysis of the trained policy, by measuring multiple performance metrics and comparing these to baselines that rely on other methods. To assess the quality of the simulation-to-realit y transfer learning process and the performance of the controller in the real world, we measured simple metrics on a real track and compared these with results from a matching simulation. Further analysis was carried out by visualizing salient object maps.
翻訳日:2021-05-08 14:17:52 公開日:2020-12-14
# AV Taris: オンラインオーディオ・ビジュアル音声認識

AV Taris: Online Audio-Visual Speech Recognition ( http://arxiv.org/abs/2012.07467v1 )

ライセンス: Link先を確認
George Sterpu and Naomi Harte(参考訳) 近年,ASR(Automatic Speech Recognition)技術は,比較的清潔な聴取条件下での会話音声における人間のレベルパフォーマンスにアプローチしている。 遠方のマイク、重複した音声、バックグラウンドノイズ、あるいは自然な対話構造を含むより要求の高い状況では、ASRエラー率は少なくとも1桁高い。 音声の視覚的モダリティは、これらの課題を部分的に克服し、話者ダイアリゼーション、音声活動検出、調音場所の回復といったサブタスクに寄与する可能性を持ち、平均15dbまでのノイズを補償することができる。 本稿では,音声視覚音声をリアルタイムに復号可能な,完全微分可能なニューラルネットワークモデルであるAV Tarisを開発する。 AV Align と Taris という,近年提案されている音声・視覚音声統合モデルとオンライン音声認識モデルを組み合わせることで,これを実現する。 AV Align と Taris と同じ条件下で AV Taris を評価する。 その結果,AV Taris は Taris の音声のみの変形よりも優れており,Taris が定義したリアルタイム復号化フレームワーク内での音声認識に対する視覚的モダリティの有用性が示された。 実時間要求を満たすことなく全文を活用できる等価なトランスフォーマーベースAVアラインモデルと比較して, AV Taris による絶対分解率は約3%である。 オンライン音声認識の選択肢であるRNN Transducerとは対照的に、Tarisは大幅に単純化された完全微分可能なトレーニングパイプラインを提供する。 その結果、av tarisは、avsr(audio-visual speech recognition)技術の採用を普及させ、より最適なリスニング条件下でのオーディオモダリティの固有の制限を克服する可能性を秘めている。

In recent years, Automatic Speech Recognition (ASR) technology has approached human-level performance on conversational speech under relatively clean listening conditions. In more demanding situations involving distant microphones, overlapped speech, background noise, or natural dialogue structures, the ASR error rate is at least an order of magnitude higher. The visual modality of speech carries the potential to partially overcome these challenges and contribute to the sub-tasks of speaker diarisation, voice activity detection, and the recovery of the place of articulation, and can compensate for up to 15dB of noise on average. This article develops AV Taris, a fully differentiable neural network model capable of decoding audio-visual speech in real time. We achieve this by connecting two recently proposed models for audio-visual speech integration and online speech recognition, namely AV Align and Taris. We evaluate AV Taris under the same conditions as AV Align and Taris on one of the largest publicly available audio-visual speech datasets, LRS2. Our results show that AV Taris is superior to the audio-only variant of Taris, demonstrating the utility of the visual modality to speech recognition within the real time decoding framework defined by Taris. Compared to an equivalent Transformer-based AV Align model that takes advantage of full sentences without meeting the real-time requirement, we report an absolute degradation of approximately 3% with AV Taris. As opposed to the more popular alternative for online speech recognition, namely the RNN Transducer, Taris offers a greatly simplified fully differentiable training pipeline. As a consequence, AV Taris has the potential to popularise the adoption of Audio-Visual Speech Recognition (AVSR) technology and overcome the inherent limitations of the audio modality in less optimal listening conditions.
翻訳日:2021-05-08 14:17:36 公開日:2020-12-14
# HaS-Nets:データ収集シナリオに対するバックドアアタックに対するDNNの修復と選択のメカニズム

HaS-Nets: A Heal and Select Mechanism to Defend DNNs Against Backdoor Attacks for Data Collection Scenarios ( http://arxiv.org/abs/2012.07474v1 )

ライセンス: Link先を確認
Hassan Ali, Surya Nepal, Salil S. Kanhere and Sanjay Jha(参考訳) 我々は、バックドア攻撃とDeep Neural Networks(DNN)の防衛戦略の継続する武器競争を目撃した。 ほとんどの最先端の防衛は、トロイの木馬の行動を捉えるために「インプット」または「ラテントDNN表現」の統計的サニタイズに依存している。 本稿では,最近報告された攻撃のロバスト性に最初に挑戦し,「低信頼バックドアアタック」と呼ばれる新しいバックドアアタックを導入した。 また、「HaS-Nets」と呼ばれる新しい防衛手法を提案する。 信頼度の低いバックドア攻撃」は、トレーニング中も推論中も、ディフェンダーからその存在を隠すために低い値を与えることにより、有毒なトレーニングサンプルに割り当てられた信頼ラベルを利用する。 現状の4つの防衛手法(viz., STRIP, Gradient-Shaping, Februus, ULP-defense)に対する攻撃を評価し, それぞれ99%, 63.73%, 91.2%, 80%の攻撃成功率(ASR)を達成した。 次に、トレーニング中にネットワークのバックドア挿入に抵抗する"HaS-Nets"を提案し、トレーニングデータの約2%から15%の小さなヒーリングデータセットを使用して、各イテレーションでネットワークを修復する。 ファッションmnist, cifar-10, consumer complaint and urban sound, and network architectures (mlps, 2d-cnns, 1d-cnns) について評価した。 実験の結果,データセットやアタック構成,ネットワークアーキテクチャから独立して,ASRを90%以上から15%未満に削減できることがわかった。

We have witnessed the continuing arms race between backdoor attacks and the corresponding defense strategies on Deep Neural Networks (DNNs). Most state-of-the-art defenses rely on the statistical sanitization of the "inputs" or "latent DNN representations" ; to capture trojan behaviour. In this paper, we first challenge the robustness of such recently reported defenses by introducing a novel variant of targeted backdoor attack, called "low-confidence backdoor attack". We also propose a novel defense technique, called "HaS-Nets". "Low-confidence backdoor attack" exploits the confidence labels assigned to poisoned training samples by giving low values to hide their presence from the defender, both during training and inference. We evaluate the attack against four state-of-the-art defense methods, viz., STRIP, Gradient-Shaping, Februus and ULP-defense, and achieve Attack Success Rate (ASR) of 99%, 63.73%, 91.2% and 80%, respectively. We next present "HaS-Nets" to resist backdoor insertion in the network during training, using a reasonably small healing dataset, approximately 2% to 15% of full training data, to heal the network at each iteration. We evaluate it for different datasets - Fashion-MNIST, CIFAR-10, Consumer Complaint and Urban Sound - and network architectures - MLPs, 2D-CNNs, 1D-CNNs. Our experiments show that "HaS-Nets" can decrease ASRs from over 90% to less than 15%, independent of the dataset, attack configuration and network architecture.
翻訳日:2021-05-08 14:17:08 公開日:2020-12-14
# 高次元気象シナリオのクラスタリング:結果と性能指標

Clustering high dimensional meteorological scenarios: results and performance index ( http://arxiv.org/abs/2012.07487v1 )

ライセンス: Link先を確認
Yamila Barrera, Leonardo Boechi, Matthieu Jonckheere, Vincent Lefieux, Dominique Picard, Ezequiel Smucler, Agustin Somacal, Alfredo Umfurer(参考訳) reseau de transport d'electricit\'e (rte) はフランスの電力ネットワーク運用管理者であり、気候時系列データを理解するために多くのリソースと努力を捧げている。 本稿では,RTEが提供する多数の気候シミュレーションのうち,可能な気候シナリオをグループ化し,選択する問題と方法について論じる。 使用されるデータは、フランスの地理的な場所のグリッド上に200の異なるシナリオの温度時系列からなる。 これらのパターンは、温度曲線に関する一般的なパターンを検出し、ネットワークシミュレーションの典型的なシナリオを選択するのに役立ち、エネルギー最適化に使用できる。 まず、クラスタリングに使用される距離の選択が結果の意味に強い影響があることを示し、空間的パターンと時間的パターンのいずれでも使用される距離の種類に依存する。 次に,距離選択を微調整することの難しさについて考察し,慎重に設計された指標に基づく手法を提案する。

The Reseau de Transport d'Electricit\'e (RTE) is the French main electricity network operational manager and dedicates large number of resources and efforts towards understanding climate time series data. We discuss here the problem and the methodology of grouping and selecting representatives of possible climate scenarios among a large number of climate simulations provided by RTE. The data used is composed of temperature times series for 200 different possible scenarios on a grid of geographical locations in France. These should be clustered in order to detect common patterns regarding temperatures curves and help to choose representative scenarios for network simulations, which in turn can be used for energy optimisation. We first show that the choice of the distance used for the clustering has a strong impact on the meaning of the results: depending on the type of distance used, either spatial or temporal patterns prevail. Then we discuss the difficulty of fine-tuning the distance choice (combined with a dimension reduction procedure) and we propose a methodology based on a carefully designed index.
翻訳日:2021-05-08 14:16:36 公開日:2020-12-14
# StackRec: 層積み重ねによる非常に深いシーケンスレコメンダモデルの効率的なトレーニング

StackRec: Efficient Training of Very Deep Sequential Recommender Models by Layer Stacking ( http://arxiv.org/abs/2012.07598v1 )

ライセンス: Link先を確認
Jiachun Wang, Fajie Yuan, Jian Chen, Qingyao Wu, Chengmin Li, Min Yang, Yang Sun and Guoxiao Zhang(参考訳) ディープラーニングは、逐次レコメンデーション(SR)タスクに大きな進歩をもたらした。 高度な残余ネットワークの構造により、シーケンシャルレコメンダモデルは、現実世界のSRデータセット上に最大100層まで隠された多くの層で積み重ねることができる。 このような深層ネットワークのトレーニングには、高価な計算と長いトレーニング時間が必要である。 このような課題に対処するため,層積み重ねによる深部SRモデルの簡易かつ極めて効率的なトレーニングフレームワークStackRecを提案する。 具体的には、よく訓練された深部SRモデルの残層/ブロックが類似した分布を持つことを示す。 そこで本研究では,事前学習した残層/ブロックを徐々に積み重ねて,より深く,より訓練しやすいSRモデルを提案する。 提案したStackRecは、3つの現実シナリオと実世界のデータセットで2つの最先端SRモデルを用いてインスタンス化することで検証する。 大規模な実験によると、StackRecは、スクラッチからトレーニングされたSRモデルと比較して、同等のパフォーマンスだけでなく、トレーニング時間の大幅な加速を実現している。

Deep learning has brought great progress for the sequential recommendation (SR) tasks. With the structure of advanced residual networks, sequential recommender models can be stacked with many hidden layers, e.g., up to 100 layers on real-world SR datasets. Training such a deep network requires expensive computation and longer training time, especially in situations when there are tens of billions of user-item interactions. To deal with such a challenge, we present StackRec, a simple but very efficient training framework for deep SR models by layer stacking. Specifically, we first offer an important insight that residual layers/blocks in a well-trained deep SR model have similar distribution. Enlightened by this, we propose progressively stacking such pre-trained residual layers/blocks so as to yield a deeper but easier-to-train SR model. We validate the proposed StackRec by instantiating with two state-of-the-art SR models in three practical scenarios and real-world datasets. Extensive experiments show that StackRec achieves not only comparable performance, but also significant acceleration in training time, compared to SR models that are trained from scratch.
翻訳日:2021-05-08 14:16:19 公開日:2020-12-14
# 量子svmへの実践的応用改善:理論から実践へ

Practical application improvement to Quantum SVM: theory to practice ( http://arxiv.org/abs/2012.07725v1 )

ライセンス: Link先を確認
Jae-Eun Park, Brian Quanz, Steve Wood, Heather Higgins, Ray Harishankar(参考訳) 量子機械学習(QML)は量子アプリケーションにとって重要な分野であるが、有用なQMLアプリケーションは多くの量子ビットを必要とする。 そこで本論文は, 雑音中規模量子(nisq)仮定下での実用的, 技術的考察のバランスを保ちつつ, 量子サポートベクトルマシン(qsvm)アルゴリズムの応用性を検討することを目的としている。 NISQの下での量子SVMでは、量子特徴写像を用いてデータを量子状態に変換し、これらの量子状態からSVMカーネルを構築し、さらに古典的なSVMと放射基底関数(RBF)カーネルと比較する。 データセットが何らかの意味で複雑あるいは抽象化されているため、古典的カーネルを持つ古典的SVMは、古典的カーネルを持つ古典的SVMとQSVMの精度が低い。 同様に、QSVMはモデル分散の問題(すなわちオーバーフィッティング)を避けるために、よりスムーズな決定境界を必要とする ``simpler'' データケースを含む幅広いデータセットに対して、競争力のあるパフォーマンスを提供することができるべきである。 古典的見た目' 決定境界と複雑な量子決定境界とのギャップを埋めるために、一般の浅層ユニタリ変換を用いて、回転係数を持つ特徴写像を作成し、波長可変量子カーネルを定義し、分離超平面モデルを滑らかにするために正規化を加えることを提案する。 実験では、QSVMは、データセットの複雑さによらず、SVMに対して等しく動作し、よく使われる参照データセットでは性能が優れていることを示す。

Quantum machine learning (QML) has emerged as an important area for Quantum applications, although useful QML applications would require many qubits. Therefore our paper is aimed at exploring the successful application of the Quantum Support Vector Machine (QSVM) algorithm while balancing several practical and technical considerations under the Noisy Intermediate-Scale Quantum (NISQ) assumption. For the quantum SVM under NISQ, we use quantum feature maps to translate data into quantum states and build the SVM kernel out of these quantum states, and further compare with classical SVM with radial basis function (RBF) kernels. As data sets are more complex or abstracted in some sense, classical SVM with classical kernels leads to less accuracy compared to QSVM, as classical SVM with typical classical kernels cannot easily separate different class data. Similarly, QSVM should be able to provide competitive performance over a broader range of data sets including ``simpler'' data cases in which smoother decision boundaries are required to avoid any model variance issues (i.e., overfitting). To bridge the gap between ``classical-looking&#x 27;' decision boundaries and complex quantum decision boundaries, we propose to utilize general shallow unitary transformations to create feature maps with rotation factors to define a tunable quantum kernel, and added regularization to smooth the separating hyperplane model. We show in experiments that this allows QSVM to perform equally to SVM regardless of the complexity of the data sets and outperform in some commonly used reference data sets.
翻訳日:2021-05-08 14:15:59 公開日:2020-12-14
# NVIDIA SimNet^{TM} - AI加速多物理シミュレーションフレームワーク

NVIDIA SimNet^{TM}: an AI-accelerated multi-physics simulation framework ( http://arxiv.org/abs/2012.07938v1 )

ライセンス: Link先を確認
Oliver Hennigh, Susheela Narasimhan, Mohammad Amin Nabian, Akshay Subramaniam, Kaustubh Tangsali, Max Rietmann, Jose del Aguila Ferrandis, Wonmin Byeon, Zhiwei Fang, Sanjay Choudhry(参考訳) 我々は,科学と工学の幅広い分野にわたるシミュレーションを加速するために,ai駆動のマルチフィジカルシミュレーションフレームワークであるsimnetを提案する。 従来の数値解法と比較して、SimNetは幅広いユースケースに対処している。 simnetは、複数の構成を同時に解決するパラメータ化されたシステム表現を可能にすることで、高速なターンアラウンド時間を提供する。 SimNetはパラメータ化された構成的固体幾何学とSTLモジュールを統合して点雲を生成する。 さらに、幾何学、物理、ネットワークアーキテクチャへのユーザ拡張を可能にするAPIでカスタマイズできる。 高性能GPUコンピューティングに最適化された高度なネットワークアーキテクチャを備え、FP32、FP64、TF32計算と同様に、加速線形代数を備えたマルチGPUとマルチノードの実装にスケーラブルなパフォーマンスを提供する。 本稿では,ニューラルネットワークの解法,SimNetアーキテクチャ,PDEの効率的な解法に必要な諸特徴について概説する。 本稿では,乱流および複雑な3次元ジオメトリを用いた前方多物理シミュレーションから,従来の解法では解決できない産業設計の最適化や逆問題まで,実世界のユースケースを提案する。 SimNetの結果とオープンソースおよび商用ソルバの大規模な比較は良好な相関関係を示した。

We present SimNet, an AI-driven multi-physics simulation framework, to accelerate simulations across a wide range of disciplines in science and engineering. Compared to traditional numerical solvers, SimNet addresses a wide range of use cases - coupled forward simulations without any training data, inverse and data assimilation problems. SimNet offers fast turnaround time by enabling parameterized system representation that solves for multiple configurations simultaneously, as opposed to the traditional solvers that solve for one configuration at a time. SimNet is integrated with parameterized constructive solid geometry as well as STL modules to generate point clouds. Furthermore, it is customizable with APIs that enable user extensions to geometry, physics and network architecture. It has advanced network architectures that are optimized for high-performance GPU computing, and offers scalable performance for multi-GPU and multi-Node implementation with accelerated linear algebra as well as FP32, FP64 and TF32 computations. In this paper we review the neural network solver methodology, the SimNet architecture, and the various features that are needed for effective solution of the PDEs. We present real-world use cases that range from challenging forward multi-physics simulations with turbulence and complex 3D geometries, to industrial design optimization and inverse problems that are not addressed efficiently by the traditional solvers. Extensive comparisons of SimNet results with open source and commercial solvers show good correlation.
翻訳日:2021-05-08 14:15:30 公開日:2020-12-14
# SAT-MARL:マルチエージェント強化学習における仕様アウェアトレーニング

SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.07949v1 )

ライセンス: Link先を確認
Fabian Ritz, Thomy Phan, Robert M\"uller, Thomas Gabor, Andreas Sedlmeier, Marc Zeller, Jan Wieghardt, Reiner Schmid, Horst Sauer, Cornel Klein, Claudia Linnhoff-Popien(参考訳) 強化学習の特徴は、問題解決時に予期せぬ戦略を開発する能力である。 このような戦略は時に優れたパフォーマンスをもたらすが、望ましくない行動や危険な行動を引き起こすこともある。 産業シナリオでは、システムの振る舞いも予測可能で、定義された範囲内にある必要がある。 エージェントが与えられた仕様に整合する(どのように)ことを学べるように,機能的および非機能的要求を形式的な報酬に明示的に伝達することを提案する。 smart factoryは、最大8つのエージェントと異なるマルチエージェント強化学習アルゴリズムを備えた、産業用ロットサイズの生産施設をモデル化するマルチエージェント環境である。 その結果,提案手法により,機能的制約と非機能的制約の遵守が可能となった。

A characteristic of reinforcement learning is the ability to develop unforeseen strategies when solving problems. While such strategies sometimes yield superior performance, they may also result in undesired or even dangerous behavior. In industrial scenarios, a system's behavior also needs to be predictable and lie within defined ranges. To enable the agents to learn (how) to align with a given specification, this paper proposes to explicitly transfer functional and non-functional requirements into shaped rewards. Experiments are carried out on the smart factory, a multi-agent environment modeling an industrial lot-size-one production facility, with up to eight agents and different multi-agent reinforcement learning algorithms. Results indicate that compliance with functional and non-functional constraints can be achieved by the proposed approach.
翻訳日:2021-05-08 14:15:06 公開日:2020-12-14
# センサを用いた人間行動認識のための不変特徴学習

Invariant Feature Learning for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2012.07963v1 )

ライセンス: Link先を確認
Yujiao Hao, Boyu Wang, Rong Zheng(参考訳) ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)は、ユビキタスおよびモバイルコンピューティングの分野で長年研究されてきた。 近年、HAR問題に多くのディープモデルが適用されている。 しかし、ディープラーニングの手法は通常、モデルをうまく一般化するために大量のデータを必要とする。 異なる参加者や多様なセンサー装置によって引き起こされる重要なばらつきは、事前訓練されたモデルの、これまで見たことのない対象または装置への直接的な適用を制限する。 これらの問題に対処するために,対象とデバイス間で共有される共通情報を抽出する不変機能学習フレームワーク(iflf)を提案する。 iflfには2つの学習パラダイムが組み込まれている: 1) 参照されたドメインにまたがる堅牢な機能をキャプチャし、類似性に基づくデータ選択で認識できないものに適応するメタラーニング、2) データの不足に対処するマルチタスクラーニング、そして異なる主題間の知識共有による全体的なパフォーマンス向上。 実験により、IFLFは一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに有効であることが示された。 テスト精度で最大40%のベースラインモデルより優れています。

Wearable sensor-based human activity recognition (HAR) has been a research focus in the field of ubiquitous and mobile computing for years. In recent years, many deep models have been applied to HAR problems. However, deep learning methods typically require a large amount of data for models to generalize well. Significant variances caused by different participants or diverse sensor devices limit the direct application of a pre-trained model to a subject or device that has not been seen before. To address these problems, we present an invariant feature learning framework (IFLF) that extracts common information shared across subjects and devices. IFLF incorporates two learning paradigms: 1) meta-learning to capture robust features across seen domains and adapt to an unseen one with similarity-based data selection; 2) multi-task learning to deal with data shortage and enhance overall performance via knowledge sharing among different subjects. Experiments demonstrated that IFLF is effective in handling both subject and device diversion across popular open datasets and an in-house dataset. It outperforms a baseline model of up to 40% in test accuracy.
翻訳日:2021-05-08 14:14:55 公開日:2020-12-14
# tem(transmission electron microscope)による生体構造の3次元イメージングにおける生体粒子の検出と抽出

Detection and extraction of biological particles in a three-dimensional imaging of biological structures by TEM (Transmission Electron Microscopy) ( http://arxiv.org/abs/2101.05062v1 )

ライセンス: Link先を確認
Mariam El Oussini(参考訳) 細胞分裂は生物学の急速な成長を示す。 実際、古典的なセグメンテーション法を用いると、このタイプのイメージをセグメンテーションするには不十分である。 本稿では,リボソームセグメンテーションの新しい手法を提案する。 前処理フェーズはセグメンテーションプロセスに先行し、その後、後処理が進行する。

Cells segmentation shows rapid growth in biology. Indeed, using the classical segmentation methods only is not enough to segment this type of images. In this manuscript, we will present a new method of ribosomes segmentation. A pre-treatment phase will precedes the segmentation process and after that a post-processing will proceed.
翻訳日:2021-05-08 14:14:18 公開日:2020-12-14
# 地獄の隣人:マルチテナントFPGA上のディープラーニング加速器に対する電圧攻撃

Neighbors From Hell: Voltage Attacks Against Deep Learning Accelerators on Multi-Tenant FPGAs ( http://arxiv.org/abs/2012.07242v1 )

ライセンス: Link先を確認
Andrew Boutros, Mathew Hall, Nicolas Papernot, Vaughn Betz(参考訳) フィールドプログラマブルゲートアレイ(FPGA)は、その柔軟性とエネルギー効率のために、多くのデータセンターアプリケーションに広く利用されている。 これらのアプリケーションの中でFPGAは、低遅延リアルタイムディープラーニング(DL)推論を加速させる有望な結果を示している。 複数のユーザが共有できる仮想化クラウドFPGAへの研究の方向が近づきつつある中、FPGAベースのDLアクセラレータのセキュリティ面は慎重に検討する必要がある。 本研究では,マルチテナントFPGAシナリオにおける電圧ベース整合性攻撃に対するDLアクセラレータの安全性を評価する。 我々はまず、従来のビットストリームチェッカーでは悪意ある回路としてフラグ付けできない、論理的に物理的に分離された異なる攻撃回路を用いて、最先端のストラテクス10カードに対する攻撃の可能性を示す。 我々は、効率的な省電力技術であるアグレッシブクロックゲーティングが、現代のFPGAの潜在的なセキュリティ脅威であることを示した。 次に,画像ネット分類を行うDLアクセラレーターに対する攻撃を行い,相手が引き起こしたタイミング障害に対するDLモデル固有のレジリエンスを評価する。 我々は,最強の攻撃回路を用いても,dl加速器の安全な動作頻度で動作した場合の予測精度が損なわれないことを示す。 さらに,dl加速器をオーバークロックすることで,予測精度に影響を与えずに1.18-1.31倍高い推論性能が得られる。

Field-programmable gate arrays (FPGAs) are becoming widely used accelerators for a myriad of datacenter applications due to their flexibility and energy efficiency. Among these applications, FPGAs have shown promising results in accelerating low-latency real-time deep learning (DL) inference, which is becoming an indispensable component of many end-user applications. With the emerging research direction towards virtualized cloud FPGAs that can be shared by multiple users, the security aspect of FPGA-based DL accelerators requires careful consideration. In this work, we evaluate the security of DL accelerators against voltage-based integrity attacks in a multitenant FPGA scenario. We first demonstrate the feasibility of such attacks on a state-of-the-art Stratix 10 card using different attacker circuits that are logically and physically isolated in a separate attacker role, and cannot be flagged as malicious circuits by conventional bitstream checkers. We show that aggressive clock gating, an effective power-saving technique, can also be a potential security threat in modern FPGAs. Then, we carry out the attack on a DL accelerator running ImageNet classification in the victim role to evaluate the inherent resilience of DL models against timing faults induced by the adversary. We find that even when using the strongest attacker circuit, the prediction accuracy of the DL accelerator is not compromised when running at its safe operating frequency. Furthermore, we can achieve 1.18-1.31x higher inference performance by over-clocking the DL accelerator without affecting its prediction accuracy.
翻訳日:2021-05-08 14:14:12 公開日:2020-12-14
# ロバストmpcを用いた安全・安全保証型安全強化学習

Safe Reinforcement Learning with Stability & Safety Guarantees Using Robust MPC ( http://arxiv.org/abs/2012.07369v1 )

ライセンス: Link先を確認
S\'ebastien Gros, Mario Zanon(参考訳) 強化学習は、実際のシステムから得られたデータに基づいてポリシーを最適化するツールを提供する。 強化学習の可能性はよく理解されているが、それでも多くの重要な側面に取り組む必要がある。 重要な側面の1つは、安全性と安定性の問題である。 近年の論文では、非線形モデル予測制御手法と強化学習を組み合わせることで、これらの問題に対処するための有効な理論的正当化手法として用いることを示唆している。 特に強固なmpcは強化学習の文脈で形式的な安定性と安全性の主張を可能にすることが示唆されている。 しかしながら、強化学習ツールによって提供されるパラメータ更新を通じて、安全性と安定性をどのように実施できるかを詳述した正式な理論はまだ欠けている。 この論文はこのギャップに対処する。 この理論は、一般的なロバスト mpc の場合のために開発され、ロバストな管ベースの線形 mpc の場合でさらに詳細に述べられている。

Reinforcement Learning offers tools to optimize policies based on the data obtained from the real system subject to the policy. While the potential of Reinforcement Learning is well understood, many critical aspects still need to be tackled. One crucial aspect is the issue of safety and stability. Recent publications suggest the use of Nonlinear Model Predictive Control techniques in combination with Reinforcement Learning as a viable and theoretically justified approach to tackle these problems. In particular, it has been suggested that robust MPC allows for making formal stability and safety claims in the context of Reinforcement Learning. However, a formal theory detailing how safety and stability can be enforced through the parameter updates delivered by the Reinforcement Learning tools is still lacking. This paper addresses this gap. The theory is developed for the generic robust MPC case, and further detailed in the robust tube-based linear MPC case, where the theory is fairly easy to deploy in practice.
翻訳日:2021-05-08 14:13:48 公開日:2020-12-14
# ラグランジアン・リーチチューブ:次世代

Lagrangian Reachtubes: The Next Generation ( http://arxiv.org/abs/2012.07458v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Jacek Cyranka, Mathias Lechner, Md. Ariful Islam, Scott A. Smolka and Radu Grosu(参考訳) 非線形力学系のリーチチューブ(与えられた時間的地平線上で到達可能な状態の集合を過度に近似する)を計算するための技術セットとツールセットであるLRT-NGを紹介する。 LRT-NGは最先端のLangrangian Reachabilityとその関連ツールLRTを大幅に進歩させる。 理論的には、LRT-NGはLRTよりも3つの点で優れている。 第一に、ボールの体積を最小にすることが証明された伝播球に対して、初めて解析的に計算された計量を用いる。 私たちは、メトリック計算がすべての膨らむベースのテクニックの中心的な要素であることを強調する。 第二に、次のリーチセットを2つの球の交叉として計算する。 2つの指標は、以前は反対のアプローチと考えられていたが、それらの共同使用はリーチチューブをかなり強化した。 第三に、次の球の半径における間隔近似を最適に吸収することにより、到達セットの中心の検証された積分に関連する「ラッピング効果」を避ける。 ツール開発の観点からすると、LRT-NGはLRTよりも2つの点で優れている。 まず、capdに依存しないスタンドアロンのツールです。 これには、lohner法とrunge-kutta time-propagation法の実装が必要であった。 第二に、インターフェースが改良され、入力モデルと初期条件が外部入力ファイルとして提供される。 2つのNeural ODEを含む包括的なベンチマーク実験は、LRT, CAPD, Flow*と比較してLRT-NGの優れた性能を示す。

We introduce LRT-NG, a set of techniques and an associated toolset that computes a reachtube (an over-approximation of the set of reachable states over a given time horizon) of a nonlinear dynamical system. LRT-NG significantly advances the state-of-the-art Langrangian Reachability and its associated tool LRT. From a theoretical perspective, LRT-NG is superior to LRT in three ways. First, it uses for the first time an analytically computed metric for the propagated ball which is proven to minimize the ball's volume. We emphasize that the metric computation is the centerpiece of all bloating-based techniques. Secondly, it computes the next reachset as the intersection of two balls: one based on the Cartesian metric and the other on the new metric. While the two metrics were previously considered opposing approaches, their joint use considerably tightens the reachtubes. Thirdly, it avoids the "wrapping effect" associated with the validated integration of the center of the reachset, by optimally absorbing the interval approximation in the radius of the next ball. From a tool-development perspective, LRT-NG is superior to LRT in two ways. First, it is a standalone tool that no longer relies on CAPD. This required the implementation of the Lohner method and a Runge-Kutta time-propagation method. Secondly, it has an improved interface, allowing the input model and initial conditions to be provided as external input files. Our experiments on a comprehensive set of benchmarks, including two Neural ODEs, demonstrates LRT-NG's superior performance compared to LRT, CAPD, and Flow*.
翻訳日:2021-05-08 14:13:33 公開日:2020-12-14
# 生体物理学神経モデルのシステム同定

System identification of biophysical neuronal models ( http://arxiv.org/abs/2012.07691v1 )

ライセンス: Link先を確認
Thiago B. Burghi, Maarten Schoukens, Rodolphe Sepulchre(参考訳) 60年間の定量的生体物理学的モデリングの後、入力出力データからのニューロンのダイナミクスの同定は、主に興奮可能な行動の本質的に非線形な性質のため、依然として困難な問題である。 そこで我々は, 一般化正規基底関数(GOBF)と静的ニューラルネットワークの連接によるパラメトリゼーションに基づく簡単なアプローチを提案する。 GOBFは同定問題に対処するのに特に適しており、神経行動の超感度に対処するGOBF極を選択するためのヒューリスティックを提供する。 本手法は, カニ胃ガングリオンの破裂モデルの同定に有用である。

After sixty years of quantitative biophysical modeling of neurons, the identification of neuronal dynamics from input-output data remains a challenging problem, primarily due to the inherently nonlinear nature of excitable behaviors. By reformulating the problem in terms of the identification of an operator with fading memory, we explore a simple approach based on a parametrization given by a series interconnection of Generalized Orthonormal Basis Functions (GOBFs) and static Artificial Neural Networks. We show that GOBFs are particularly well-suited to tackle the identification problem, and provide a heuristic for selecting GOBF poles which addresses the ultra-sensitivity of neuronal behaviors. The method is illustrated on the identification of a bursting model from the crab stomatogastric ganglion.
翻訳日:2021-05-08 14:13:14 公開日:2020-12-14
# 多項式の近傍ゼロ集合の小さな被覆と潜在変数モデルの学習

Small Covers for Near-Zero Sets of Polynomials and Learning Latent Variable Models ( http://arxiv.org/abs/2012.07774v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) v$ を多変量次数-d$ 等質多項式の任意のベクトル空間とし、k$ 以上の余次元を持つものとし、s$ を、v$ {\em almost} 内のすべての多項式が消えるような点の集合とする。 我々は、$\ell_2$-norm において、$\epsilon$-covers のサイズで定性的に最適な上限を $s$ で定める。 大まかに言えば、濃度$M = (k/\epsilon)^{O_d(k^{1/d})}$の$S$に対して$\epsilon$-coverが存在することを示す。 私たちの結果は、$\mathrm{poly}(m)$で実行される$\epsilon$-coverを計算するためのコンストラクティブなアルゴリズムです。 構造的結果に基づいて,隠れ変数を持ついくつかの基本的高次元確率モデルの学習アルゴリズムを改良した。 これらには、球状ガウス多様体の密度とパラメータ推定(共通共分散を持つ)、400$隠れ単位を持つPAC学習単層ReLUネットワーク(ガウス分布の下で)、リニア回帰の$k$混合に対する密度とパラメータ推定(ガウス共変量を含む)、超平面の$k$混合に対するパラメータ推定が含まれる。 我々のアルゴリズムはパラメータ $k$ で時間 {\em quasi-polynomial} で実行される。 これらの問題の前のアルゴリズムは、$k^{\Omega(1)}$で指数関数的に実行された。 隠れたパラメータの低次モーメントを計算することで、未知のパラメータ上でほぼ消滅する多項式のベクトル空間を見つけることができます。 構造的な結果により、隠れパラメータの集合に対して準多項式サイズのカバーを計算でき、学習アルゴリズムで利用できます。

Let $V$ be any vector space of multivariate degree-$d$ homogeneous polynomials with co-dimension at most $k$, and $S$ be the set of points where all polynomials in $V$ {\em nearly} vanish. We establish a qualitatively optimal upper bound on the size of $\epsilon$-covers for $S$, in the $\ell_2$-norm. Roughly speaking, we show that there exists an $\epsilon$-cover for $S$ of cardinality $M = (k/\epsilon)^{O_d(k^{1/d})}$. Our result is constructive yielding an algorithm to compute such an $\epsilon$-cover that runs in time $\mathrm{poly}(M)$. Building on our structural result, we obtain significantly improved learning algorithms for several fundamental high-dimensional probabilistic models with hidden variables. These include density and parameter estimation for $k$-mixtures of spherical Gaussians (with known common covariance), PAC learning one-hidden-layer ReLU networks with $k$ hidden units (under the Gaussian distribution), density and parameter estimation for $k$-mixtures of linear regressions (with Gaussian covariates), and parameter estimation for $k$-mixtures of hyperplanes. Our algorithms run in time {\em quasi-polynomial} in the parameter $k$. Previous algorithms for these problems had running times exponential in $k^{\Omega(1)}$. At a high-level our algorithms for all these learning problems work as follows: By computing the low-degree moments of the hidden parameters, we are able to find a vector space of polynomials that nearly vanish on the unknown parameters. Our structural result allows us to compute a quasi-polynomial sized cover for the set of hidden parameters, which we exploit in our learning algorithms.
翻訳日:2021-05-08 14:12:33 公開日:2020-12-14