このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210228となっている論文です。

PDF登録状況(公開日: 20210228)

TitleAuthorsAbstract論文公表日・翻訳日
# CARE:潜在概念を用いたコモンセンス対応感情応答生成

CARE: Commonsense-Aware Emotional Response Generation with Latent Concepts ( http://arxiv.org/abs/2012.08377v2 )

ライセンス: Link先を確認
Peixiang Zhong, Di Wang, Pengfei Li, Chen Zhang, Hao Wang, Chunyan Miao(参考訳) 合理性と感情は人間の2つの基本的な要素である。 合理性と感情を持ったエージェントを導くことは、AIの主要なマイルストーンの1つです。 しかし、会話型aiの分野では、既存のモデルのほとんどは一方の側面のみを専門とし、もう一方の側面を無視する。 本稿では、合理性と感情を会話エージェントに組み合わせることで、反応品質を向上させることができると仮定する。 仮説を検証するために,コモンセンスという合理性の1つの基本的な側面に注目し,コモンセンスを意識した感情応答生成のための新しいモデルであるケアを提案する。 具体的には、まず、入力メッセージと所望の感情を与えられた応答の常識的感情的潜在概念を学習し、構築する枠組みを提案する。 次に,潜在概念を応答生成に協調的に組み込む3つの手法を提案する。 2つの大規模データセットの実験結果は,我々の仮説を支持し,我々のモデルが1つの側面のみを専門とする最先端モデルよりも正確で常識に合った感情応答を生成できることを示す。

Rationality and emotion are two fundamental elements of humans. Endowing agents with rationality and emotion has been one of the major milestones in AI. However, in the field of conversational AI, most existing models only specialize in one aspect and neglect the other, which often leads to dull or unrelated responses. In this paper, we hypothesize that combining rationality and emotion into conversational agents can improve response quality. To test the hypothesis, we focus on one fundamental aspect of rationality, i.e., commonsense, and propose CARE, a novel model for commonsense-aware emotional response generation. Specifically, we first propose a framework to learn and construct commonsense-aware emotional latent concepts of the response given an input message and a desired emotion. We then propose three methods to collaboratively incorporate the latent concepts into response generation. Experimental results on two large-scale datasets support our hypothesis and show that our model can produce more accurate and commonsense-aware emotional responses and achieve better human ratings than state-of-the-art models that only specialize in one aspect.
翻訳日:2021-05-07 05:39:26 公開日:2021-02-28
# キーワード誘導型ニューラル会話モデル

Keyword-Guided Neural Conversational Model ( http://arxiv.org/abs/2012.08383v3 )

ライセンス: Link先を確認
Peixiang Zhong, Yong Liu, Hao Wang, Chunyan Miao(参考訳) 本研究では,オープンドメインの会話エージェントに対して対話目標/キーワードを付与する問題について検討し,対話を目標キーワードに円滑かつ迅速に導くためにエージェントが要求される場合について検討する。 この問題を解決することで、例えばレコメンデーションや心理療法など、多くの現実世界のシナリオにおける会話エージェントの応用が可能になる。 この問題に対処する主要なパラダイムは、1)次のターンキーワード分類器を訓練し、2)キーワード拡張応答検索モデルを訓練することである。 しかし、このパラダイムにおける既存のアプローチには、2つの制限がある: 1)次のターンキーワード分類のトレーニングと評価データセットは、人間のアノテーションのない会話から直接抽出されるので、ノイズが少なく、人間の判断と相関が小さい、2) キーワード遷移の間、エージェントは、ターゲットキーワードに近づくために、単語埋め込み間の類似性のみに頼っている。 本稿では、人間の会話がコモンセンスに基づいていると仮定し、キーワード遷移と応答検索の両方に外部コモンセンス知識グラフ(CKG)を活用できるキーワード誘導型ニューラルネットワークモデルを提案する。 自動評価では、コモンセンスは、next-turnキーワード予測とキーワード拡張応答検索の両方の性能を改善することが示唆されている。 さらに,自己評価と人的評価の両面から,我々のモデルは,よりスムーズなキーワード遷移による応答を生成し,競合するベースラインよりも高速にターゲットキーワードに到達することを示す。

We study the problem of imposing conversational goals/keywords on open-domain conversational agents, where the agent is required to lead the conversation to a target keyword smoothly and fast. Solving this problem enables the application of conversational agents in many real-world scenarios, e.g., recommendation and psychotherapy. The dominant paradigm for tackling this problem is to 1) train a next-turn keyword classifier, and 2) train a keyword-augmented response retrieval model. However, existing approaches in this paradigm have two limitations: 1) the training and evaluation datasets for next-turn keyword classification are directly extracted from conversations without human annotations, thus, they are noisy and have low correlation with human judgements, and 2) during keyword transition, the agents solely rely on the similarities between word embeddings to move closer to the target keyword, which may not reflect how humans converse. In this paper, we assume that human conversations are grounded on commonsense and propose a keyword-guided neural conversational model that can leverage external commonsense knowledge graphs (CKG) for both keyword transition and response retrieval. Automatic evaluations suggest that commonsense improves the performance of both next-turn keyword prediction and keyword-augmented response retrieval. In addition, both self-play and human evaluations show that our model produces responses with smoother keyword transition and reaches the target keyword faster than competitive baselines.
翻訳日:2021-05-07 05:39:09 公開日:2021-02-28
# (参考訳) モロッコ語 -Darija- Open Dataset [全文訳有]

Moroccan Dialect -Darija- Open Dataset ( http://arxiv.org/abs/2103.09687v1 )

ライセンス: CC BY 4.0
Aissam Outchakoucht, Hamza Es-Samaali(参考訳) Darija Open Dataset (DODa) はモロッコ方言のオープンソースプロジェクトである。 1万以上のエントリを持つDODaは、自然言語処理のために作られたDarija- English翻訳のための、おそらく最大のオープンソース共同プロジェクトである。 実際、dodaは意味論的分類の他に、異なる綴りで単語を提示し、動詞と名詞、男性と女性間の対応を提供し、異なるテンスで数百の動詞の結合を含み、研究者がモロッコ方言をよりよく理解し、研究するための多くのサブセットを含んでいる。 本稿では,Darija に翻訳された ImageNet ラベルを用いた画像分類において,DODa の特徴,その収集方法,および最初のアプリケーションについて述べる。 この共同プロジェクトはMITのオープンソースライセンスの下でGitHubプラットフォーム上でホストされており、研究者、学生、モロッコ方言に興味のある人のための標準リソースになることを目指している。

Darija Open Dataset (DODa) is an open-source project for the Moroccan dialect. With more than 10,000 entries DODa is arguably the largest open-source collaborative project for Darija-English translation built for Natural Language Processing purposes. In fact, besides semantic categorization, DODa also adopts a syntactic one, presents words under different spellings, offers verb-to-noun and masculine-to-feminin e correspondences, contains the conjugation of hundreds of verbs in different tenses, and many other subsets to help researchers better understand and study Moroccan dialect. This data paper presents a description of DODa, its features, how it was collected, as well as a first application in Image Classification using ImageNet labels translated to Darija. This collaborative project is hosted on GitHub platform under MIT's Open-Source license and aims to be a standard resource for researchers, students, and anyone who is interested in Moroccan Dialect
翻訳日:2021-04-05 07:46:42 公開日:2021-02-28
# スマートフォンとスマートウォッチセンサデータを用いた深層学習モデルを用いた人間の活動認識

Human Activity Recognition using Deep Learning Models on Smartphones and Smartwatches Sensor Data ( http://arxiv.org/abs/2103.03836v1 )

ライセンス: Link先を確認
Bolu Oluwalade, Sunil Neela, Judy Wawira, Tobiloba Adejumo, Saptarshi Purkayastha(参考訳) 近年、スマートフォンやスマートウォッチなどの製品に加速度計やジャイロスコープなどのセンサーが広く配備されているため、産業研究と学術研究の両方で人間の活動認識が注目されている。 活動認識は現在、個人の機能的能力と生活様式に関する貴重な情報を必要とする様々な分野に適用されている。 本研究では,WISDMデータセットを用いて活動認識を行った。 共分散の多変量解析 (MANCOVA) を用いて, スマートフォンとスマートウォッチに埋め込まれたセンサから生成されたデータと, 統計的に有意な差(p<0.05)を確立した。 これによって、スマートフォンやスマートウォッチは、着ている場所によって、同じ方法でデータをキャプチャできないことが分かります。 15の異なる手と非手動のアクティビティを分類するために、いくつかのニューラルネットワークアーキテクチャをデプロイしました。 これらのモデルには、Long short-term memory (LSTM)、Bi-directional Long short-term memory (BiLSTM)、Convolutional Neural Network (CNN)、Convolutional LSTM (ConvLSTM)が含まれる。 開発したモデルは、時計加速度計のデータで最高の性能を示した。 また,畳み込み入力分類器 (cnn, convlstm) で得られた分類精度は, 15のアクティビティのうち, エンド・ツー・エンドのlstm分類器よりも高かった。 さらに、時計加速度計のCNNモデルは、手動のアクティビティと比較して、手動のアクティビティを分類しやすくなった。

In recent years, human activity recognition has garnered considerable attention both in industrial and academic research because of the wide deployment of sensors, such as accelerometers and gyroscopes, in products such as smartphones and smartwatches. Activity recognition is currently applied in various fields where valuable information about an individual's functional ability and lifestyle is needed. In this study, we used the popular WISDM dataset for activity recognition. Using multivariate analysis of covariance (MANCOVA), we established a statistically significant difference (p<0.05) between the data generated from the sensors embedded in smartphones and smartwatches. By doing this, we show that smartphones and smartwatches don't capture data in the same way due to the location where they are worn. We deployed several neural network architectures to classify 15 different hand and non-hand-oriented activities. These models include Long short-term memory (LSTM), Bi-directional Long short-term memory (BiLSTM), Convolutional Neural Network (CNN), and Convolutional LSTM (ConvLSTM). The developed models performed best with watch accelerometer data. Also, we saw that the classification precision obtained with the convolutional input classifiers (CNN and ConvLSTM) was higher than the end-to-end LSTM classifier in 12 of the 15 activities. Additionally, the CNN model for the watch accelerometer was better able to classify non-hand oriented activities when compared to hand-oriented activities.
翻訳日:2021-04-05 00:52:52 公開日:2021-02-28
# 貯留層計算による予測:一般化同期の役割

Forecasting Using Reservoir Computing: The Role of Generalized Synchronization ( http://arxiv.org/abs/2102.08930v2 )

ライセンス: Link先を確認
Jason A. Platt, Adrian Wong, Randall Clark, Stephen G. Penny, and Henry D. I. Abarbanel(参考訳) 貯留層コンピュータ(Reservoir computer、RC)は、時系列データの予測に使用されるリカレントニューラルネットワーク(RNN)の一種である。 すべてのRNNと同様に、ハイパーパラメータを選択することは、新しい入力をトレーニングする際の課題である。 本稿では,一般化同期(GS)に基づくRCのアーキテクチャとハイパーパラメータの設計と評価の方向性を示す手法を提案する。 GSを検出するための「補助的方法」は、ハイパーパラメータの選択をガイドする事前トレーニングテストを提供する。 さらに、入力システムのリアプノフ指数の再現を用いた「よく訓練された」RCの計量を提供する。

Reservoir computers (RC) are a form of recurrent neural network (RNN) used for forecasting time series data. As with all RNNs, selecting the hyperparameters presents a challenge when training on new inputs. We present a method based on generalized synchronization (GS) that gives direction in designing and evaluating the architecture and hyperparameters of a RC. The 'auxiliary method' for detecting GS provides a pre-training test that guides hyperparameter selection. Furthermore, we provide a metric for a "well trained" RC using the reproduction of the input system's Lyapunov exponents.
翻訳日:2021-04-05 00:30:32 公開日:2021-02-28
# GP:text-to-SQLパーサのための文脈自由文法事前学習

GP: Context-free Grammar Pre-training for Text-to-SQL Parsers ( http://arxiv.org/abs/2101.09901v2 )

ライセンス: Link先を確認
Liang Zhao, Hexin Cao, Yunsong Zhao(参考訳) 質問とデータベースの深い関係を解読するための新しいテキスト-SQL解析手法であるGrammar Pre-training(GP)を提案する。 まず、データベースの情報をよりよく活用するために、列として認識される質問語の後ろにランダム値を追加し、新しい文がモデル入力として機能する。 次に、デコーダ部に対するベクトルの初期化を前者符号化を参照して最適化し、質問情報を関連付ける。 最後に、フラッディングレベルと呼ばれる新しいアプローチを採用し、より良い結果を一般化できる非ゼロのトレーニング損失を得る。 文をGRAPPAとRAT-SQLモデルでエンコードすることで、クロスDB Text-to-SQLデータセット(72.8 dev, 69.8 test)であるクモのパフォーマンスを向上する。 実験により,本手法は訓練中に収束しやすく,堅牢性に優れることがわかった。

A new method for Text-to-SQL parsing, Grammar Pre-training (GP), is proposed to decode deep relations between question and database. Firstly, to better utilize the information of databases, a random value is added behind a question word which is recognized as a column, and the new sentence serves as the model input. Secondly, initialization of vectors for decoder part is optimized, with reference to the former encoding so that question information can be concerned. Finally, a new approach called flooding level is adopted to get the non-zero training loss which can generalize better results. By encoding the sentence with GRAPPA and RAT-SQL model, we achieve better performance on spider, a cross-DB Text-to-SQL dataset (72.8 dev, 69.8 test). Experiments show that our method is easier to converge during training and has excellent robustness.
翻訳日:2021-03-14 19:11:53 公開日:2021-02-28
# (参考訳) 対人情報ボトルネック [全文訳有]

Adversarial Information Bottleneck ( http://arxiv.org/abs/2103.00381v1 )

ライセンス: CC BY 4.0
Pemhlong Zhai and Shihua Zhang(参考訳) 情報ボトルネック(IB)の原則は、トレードオフハイパーパラメータによってバランスのとれた情報圧縮と予測の観点でディープラーニングを説明するために採用されています。 IBの原理を最適化してロバスト性を向上し、トレードオフハイパーパラメータによる圧縮の効果を明らかにする方法は2つの課題である。 従来の手法では、表現の学習にランダムノイズを導入し、ニュアンス情報圧縮と意味情報抽出における最先端性能を実現し、ISBの原理を最適化しようとした。 しかし、逆境の摂動に抵抗する彼らのパフォーマンスは、それほど印象的ではない。 この目的のために,Min-Max最適化問題を解くことで効率よく最適化できる,表現の基盤分布に関する明確な仮定を伴わない逆情報ボトルネック(AIB)手法を提案する。 合成および実世界のデータセットに関する数値実験は、複数の競合するIB法と比較して、より不変な表現を学習し、敵対的な摂動を緩和する効果を示す。 さらに,IB曲線と対比する多様なIB手法の対角的ロバスト性を解析し,IB曲線の膝点に対応するハイパーパラメータ$\beta$のIBモデルが,圧縮と予測の最良のトレードオフを達成し,様々な攻撃に対して最良のロバスト性を有することを示す。

The information bottleneck (IB) principle has been adopted to explain deep learning in terms of information compression and prediction, which are balanced by a trade-off hyperparameter. How to optimize the IB principle for better robustness and figure out the effects of compression through the trade-off hyperparameter are two challenging problems. Previous methods attempted to optimize the IB principle by introducing random noise into learning the representation and achieved state-of-the-art performance in the nuisance information compression and semantic information extraction. However, their performance on resisting adversarial perturbations is far less impressive. To this end, we propose an adversarial information bottleneck (AIB) method without any explicit assumptions about the underlying distribution of the representations, which can be optimized effectively by solving a Min-Max optimization problem. Numerical experiments on synthetic and real-world datasets demonstrate its effectiveness on learning more invariant representations and mitigating adversarial perturbations compared to several competing IB methods. In addition, we analyse the adversarial robustness of diverse IB methods contrasting with their IB curves, and reveal that IB models with the hyperparameter $\beta$ corresponding to the knee point in the IB curve achieve the best trade-off between compression and prediction, and has best robustness against various attacks.
翻訳日:2021-03-05 23:22:10 公開日:2021-02-28
# (参考訳) 非可逆性能測定のためのミニマックス確率機械 [全文訳有]

A Minimax Probability Machine for Non-Decomposable Performance Measures ( http://arxiv.org/abs/2103.00396v1 )

ライセンス: CC BY 4.0
Junru Luo, Hong Qiao and Bo Zhang(参考訳) 不均衡な分類タスクは多くの現実世界のアプリケーションで広く使われている。 このような分類タスクでは、精度と比べ、レシーバ動作特性曲線(AUC)のエリアやラベルクラスが不均衡であるため、$F_\beta$測定などの非分解不能な性能測定を分類基準として使うのが適当である。 一方,ミニマックス確率機械は二項分類問題に対する一般的な手法であり,精度を最大化して線形分類器の学習を目的としており,不均衡な分類タスクに対処するには不適当である。 本論文の目的は, 分類の不均衡な処理に用いることができるMPMFと呼ばれる$F_\beta$測度のための新しいミニマックス確率機械を開発することである。 また、MPMFモデルをいくつかの非分解性性能指標に拡張する方法についても簡単な議論がなされている。 mpmfモデルを効果的に解くために、交互降下法で解くことのできる等価な形式を導出して線形分類器を学習する。 さらに、カーネルトリックを用いて非線形MPMFモデルを導出し、非線形分類器を学習する。 実世界のベンチマークデータセットに関するいくつかの実験は、新しいモデルの有効性を示しています。

Imbalanced classification tasks are widespread in many real-world applications. For such classification tasks, in comparison with the accuracy rate, it is usually much more appropriate to use non-decomposable performance measures such as the Area Under the receiver operating characteristic Curve (AUC) and the $F_\beta$ measure as the classification criterion since the label class is imbalanced. On the other hand, the minimax probability machine is a popular method for binary classification problems and aims at learning a linear classifier by maximizing the accuracy rate, which makes it unsuitable to deal with imbalanced classification tasks. The purpose of this paper is to develop a new minimax probability machine for the $F_\beta$ measure, called MPMF, which can be used to deal with imbalanced classification tasks. A brief discussion is also given on how to extend the MPMF model for several other non-decomposable performance measures listed in the paper. To solve the MPMF model effectively, we derive its equivalent form which can then be solved by an alternating descent method to learn a linear classifier. Further, the kernel trick is employed to derive a nonlinear MPMF model to learn a nonlinear classifier. Several experiments on real-world benchmark datasets demonstrate the effectiveness of our new model.
翻訳日:2021-03-05 22:58:39 公開日:2021-02-28
# (参考訳) アクティブラーニングのためのフィードバックコーディング [全文訳有]

Feedback Coding for Active Learning ( http://arxiv.org/abs/2103.00654v1 )

ライセンス: CC BY 4.0
Gregory Canal, Matthieu Bloch, Christopher Rozell(参考訳) アクティブ機械学習におけるラベル付けの例の反復的な選択は、情報理論におけるフィードバックチャネル符号化と概念的に類似している。 このハイレベルな重複は以前にも指摘されているが、既存の分析とアルゴリズムをフィードバックコーディングに活用するために、コミュニケーションシステムとしてアクティブラーニングを最適に定式化する方法についての疑問が残されている。 本研究では,エンコーダとノイズチャネル成分のキャラクタリゼーションを含む2つの問題間の構造的共通性を形式的に同定・活用し,新しいアルゴリズムを考案する。 具体的には、アクティブサンプル選択のタスクに対して、最適なトランスポートベースのフィードバックコーディングスキームであるApproximate Posterior Matching(APM)を開発し、アクティブラーニングで人気のモデルであるBayesian Logistic Regressionへの適用を検討する。 各種データセット上でAPMを評価し,既存のアクティブラーニング手法に匹敵する学習性能を計算コストの削減で実証した。 これらの結果は、フィードバックチャネルコーディングから効率的なアクティブラーニング戦略の設計まで、概念を直接デプロイする可能性を示しています。

The iterative selection of examples for labeling in active machine learning is conceptually similar to feedback channel coding in information theory: in both tasks, the objective is to seek a minimal sequence of actions to encode information in the presence of noise. While this high-level overlap has been previously noted, there remain open questions on how to best formulate active learning as a communications system to leverage existing analysis and algorithms in feedback coding. In this work, we formally identify and leverage the structural commonalities between the two problems, including the characterization of encoder and noisy channel components, to design a new algorithm. Specifically, we develop an optimal transport-based feedback coding scheme called Approximate Posterior Matching (APM) for the task of active example selection and explore its application to Bayesian logistic regression, a popular model in active learning. We evaluate APM on a variety of datasets and demonstrate learning performance comparable to existing active learning methods, at a reduced computational cost. These results demonstrate the potential of directly deploying concepts from feedback channel coding to design efficient active learning strategies.
翻訳日:2021-03-05 22:31:42 公開日:2021-02-28
# 大規模データのサブバッギング推定について

On the Subbagging Estimation for Massive Data ( http://arxiv.org/abs/2103.00631v1 )

ライセンス: Link先を確認
Tao Zou, Xian Li, Xuan Liang, Hansheng Wang(参考訳) 本稿では,コンピュータのメモリ制約を伴うビッグデータ解析のためのサブバッキング(サブサンプル集約)推定手法を紹介する。 具体的には、サイズが$N$のデータセット全体に対して、$m_N$サブサンプルをランダムに描画し、メモリ制約を満たすためにサブサンプルサイズ$k_N\ll N$のサブサンプルを、置き換えることなく一様にサンプリングする。 m_N$サブサンプルの見積もりを集約すると、サブバグ推定につながります。 サブバッグング推定器の理論的特性を解析するために、無限次カーネルで不完全$U$-statistics理論を適用し、サンプリング手順において重なり合うサブサンプルを許容する。 この新しい理論的な枠組みを用いて,$k_n$ と $m_n$ の適切なハイパーパラメータ選択により,サブバッキング推定器が $(k_nm_n)/n\to \alpha \in (0,\infty]$ 条件下で $\sqrt{n}$-consistency と漸近正規性を達成することを実証する。 完全なサンプル推定器と比較すると、理論的には$\sqrt{n}$- consistent subbagging 推定器は漸近的分散において1/\alpha$のインフレーション率を持つ。 有限サンプル性能を示すためにシミュレーション実験を行った。 アメリカン航空のデータセットを分析して、サブバッキング推定が全サンプル推定に数値的に近く、メモリ制約下では計算速度が速いことを示す。

This article introduces subbagging (subsample aggregating) estimation approaches for big data analysis with memory constraints of computers. Specifically, for the whole dataset with size $N$, $m_N$ subsamples are randomly drawn, and each subsample with a subsample size $k_N\ll N$ to meet the memory constraint is sampled uniformly without replacement. Aggregating the estimators of $m_N$ subsamples can lead to subbagging estimation. To analyze the theoretical properties of the subbagging estimator, we adapt the incomplete $U$-statistics theory with an infinite order kernel to allow overlapping drawn subsamples in the sampling procedure. Utilizing this novel theoretical framework, we demonstrate that via a proper hyperparameter selection of $k_N$ and $m_N$, the subbagging estimator can achieve $\sqrt{N}$-consistency and asymptotic normality under the condition $(k_Nm_N)/N\to \alpha \in (0,\infty]$. Compared to the full sample estimator, we theoretically show that the $\sqrt{N}$-consistent subbagging estimator has an inflation rate of $1/\alpha$ in its asymptotic variance. Simulation experiments are presented to demonstrate the finite sample performances. An American airline dataset is analyzed to illustrate that the subbagging estimate is numerically close to the full sample estimate, and can be computationally fast under the memory constraint.
翻訳日:2021-03-05 14:43:54 公開日:2021-02-28
# (参考訳) 画像から直接のフレキシブルな手術器具の姿勢回帰に対する運動的ボツネックアプローチ [全文訳有]

A Kinematic Bottleneck Approach For Pose Regression of Flexible Surgical Instruments directly from Images ( http://arxiv.org/abs/2103.00586v1 )

ライセンス: CC BY-SA 4.0
Luca Sestini, Benoit Rosa, Elena De Momi, Giancarlo Ferrigno and Nicolas Padoy(参考訳) ロボットの最小侵襲手術における3次元姿勢推定はシーンの自動理解に欠かせない一歩である。 ロボットシステムは、ジョイントバリューを直接提供することができるが、この情報は、信頼性の低い、アクセスの制限、特に連続ロボットに必要な時間を要するキャリブレーションのため、手術室内では一般的に利用されない。 このため、3次元ポーズ推定の標準的なアプローチは、外部トラッキングシステムの使用を伴う。 近年,画像ベースの手法が有望で非侵襲的な代替手段として登場している。 文献における多くの画像ベースのアプローチは正確な結果を示しているが、一般的には、処理された各画像に対して複雑な反復的最適化を必要とするため、リアルタイムアプリケーションには適さない。 本稿では,ロボットが提供する不正確な運動情報を学習時間のみに活用し,自己教師付き画像ベース手法を提案する。 時間を要する手動アノテーションの導入を避けるために、ロボット機器と手術用カメラの物理モデルの存在によりスマートにボトルネックとなり、画像背景とキネマティックコンテンツの分離を強いるオートエンコーダとして問題を定式化する。 柔軟なロボット内視鏡を用いて, 半合成, ファントムおよびin-vivoデータセットを用いて, 手術器具のリアルタイム画像に基づく3次元ポーズ推定に有望な結果を得た。

3-D pose estimation of instruments is a crucial step towards automatic scene understanding in robotic minimally invasive surgery. Although robotic systems can potentially directly provide joint values, this information is not commonly exploited inside the operating room, due to its possible unreliability, limited access and the time-consuming calibration required, especially for continuum robots. For this reason, standard approaches for 3-D pose estimation involve the use of external tracking systems. Recently, image-based methods have emerged as promising, non-invasive alternatives. While many image-based approaches in the literature have shown accurate results, they generally require either a complex iterative optimization for each processed image, making them unsuitable for real-time applications, or a large number of manually-annotated images for efficient learning. In this paper we propose a self-supervised image-based method, exploiting, at training time only, the imprecise kinematic information provided by the robot. In order to avoid introducing time-consuming manual annotations, the problem is formulated as an auto-encoder, smartly bottlenecked by the presence of a physical model of the robotic instruments and surgical camera, forcing a separation between image background and kinematic content. Validation of the method was performed on semi-synthetic, phantom and in-vivo datasets, obtained using a flexible robotized endoscope, showing promising results for real-time image-based 3-D pose estimation of surgical instruments.
翻訳日:2021-03-05 13:24:06 公開日:2021-02-28
# (参考訳) ディープニューラルネットワークを使ったトピックモデリング:サーベイ [全文訳有]

Topic Modelling Meets Deep Neural Networks: A Survey ( http://arxiv.org/abs/2103.00498v1 )

ライセンス: CC BY 4.0
He Zhao, Dinh Phung, Viet Huynh, Yuan Jin, Lan Du, Wray Buntine(参考訳) トピックモデリングは、ほぼ20年間、テキスト分析に成功した技術です。 トピックモデリングがディープニューラルネットワークと出会うと、100以上のモデルが開発され、テキスト生成、要約、言語モデルといったニューラルネットワーク理解の幅広い応用が、新たな研究領域であるニューラルトピックモデル(neural topic model)が出現した。 研究の展開を要約し、オープンな問題や今後の方向性について議論する必要がある。 本稿では,AIコミュニティの興味ある研究者を対象に,この急成長する研究領域のナビゲートと革新を促進するために,ニューラルネットワークモデルの概要について概説する。 私たちの知る限りでは、この特定のトピックに焦点を当てた最初のレビューです。

Topic modelling has been a successful technique for text analysis for almost twenty years. When topic modelling met deep neural networks, there emerged a new and increasingly popular research area, neural topic models, with over a hundred models developed and a wide range of applications in neural language understanding such as text generation, summarisation and language models. There is a need to summarise research developments and discuss open problems and future directions. In this paper, we provide a focused yet comprehensive overview of neural topic models for interested researchers in the AI community, so as to facilitate them to navigate and innovate in this fast-growing research area. To the best of our knowledge, ours is the first review focusing on this specific topic.
翻訳日:2021-03-05 11:34:38 公開日:2021-02-28
# (参考訳) 会話型ユーモア分析とデザインに向けて [全文訳有]

Towards Conversational Humor Analysis and Design ( http://arxiv.org/abs/2103.00536v1 )

ライセンス: CC BY 4.0
Tanishq Chaudhary, Mayank Goel, Radhika Mamidi(参考訳) よく定義されたジョークはセットアップとパンチラインに分けられる。 現在ユーモアに関する作業の多くはジョーク全般について語られているが、セットアップにパンチラインを生成するというアイデアは、会話のユーモアに応用されている。 そこで本稿では,インコンギュラリティ理論に基づく,特定の設定によるパンチラインの分類と生成の2つの基本概念について述べる。 まず,ユーモアを分類する機能ベースの機械学習モデルを実装した。 ユーモア生成には、ニューラルモデルを使用し、古典的なルールベースのアプローチとニューラルアプローチをマージしてハイブリッドモデルを作成します。 他のタスクから得られた洞察とセットアップ-プッシュラインモデルを組み合わせて、既存のテキスト生成アプローチに適用する。 次に、我々のモデルを人間の記述したジョークと人間の評価者の助けを借りて、二重盲検研究で使用し比較する。

Well-defined jokes can be divided neatly into a setup and a punchline. While most works on humor today talk about a joke as a whole, the idea of generating punchlines to a setup has applications in conversational humor, where funny remarks usually occur with a non-funny context. Thus, this paper is based around two core concepts: Classification and the Generation of a punchline from a particular setup based on the Incongruity Theory. We first implement a feature-based machine learning model to classify humor. For humor generation, we use a neural model, and then merge the classical rule-based approaches with the neural approach to create a hybrid model. The idea behind being: combining insights gained from other tasks with the setup-punchline model and thus applying it to existing text generation approaches. We then use and compare our model with human written jokes with the help of human evaluators in a double-blind study.
翻訳日:2021-03-05 11:20:31 公開日:2021-02-28
# (参考訳) タスクと運動計画のための記号演算子の学習 [全文訳有]

Learning Symbolic Operators for Task and Motion Planning ( http://arxiv.org/abs/2103.00589v1 )

ライセンス: CC BY 4.0
Tom Silver, Rohan Chitnis, Joshua Tenenbaum, Leslie Pack Kaelbling, Tomas Lozano-Perez(参考訳) ハイブリッド状態とアクション空間におけるロボット計画問題は、動きレベルの決定とタスクレベルの計画実現性の複雑な相互作用を処理する統合タスクおよびモーションプランナー(TAMP)によって解決される。 TAMPアプローチは、タスクレベルの検索を導くためにドメイン固有のシンボリック演算子に依存し、計画を効率的にします。 本研究では,tampにおけるオペレーター学習の問題を定式化し,検討する。 この研究の中心は、オペレーターが基礎となるドメインの遷移モデルの損失のある抽象化を定義するという考え方である。 次に,演算子学習のためのボトムアップ・リレーショナル学習法を提案し,TAMPシステムにおける学習子の利用方法を示す。 実験では、ロボットの長期計画タスクを含む3つの領域で結果を提供する。 最近の研究に基づく3つのグラフニューラルネットワークベースのモデルフリーアプローチを含む、いくつかのベースラインを大幅に上回るアプローチを見つけました。 ビデオ: https://youtu.be/iVf pX9BpBRo

Robotic planning problems in hybrid state and action spaces can be solved by integrated task and motion planners (TAMP) that handle the complex interaction between motion-level decisions and task-level plan feasibility. TAMP approaches rely on domain-specific symbolic operators to guide the task-level search, making planning efficient. In this work, we formalize and study the problem of operator learning for TAMP. Central to this study is the view that operators define a lossy abstraction of the transition model of the underlying domain. We then propose a bottom-up relational learning method for operator learning and show how the learned operators can be used for planning in a TAMP system. Experimentally, we provide results in three domains, including long-horizon robotic planning tasks. We find our approach to substantially outperform several baselines, including three graph neural network-based model-free approaches based on recent work. Video: https://youtu.be/iVf pX9BpBRo
翻訳日:2021-03-05 10:23:09 公開日:2021-02-28
# (参考訳) 過度パラメータ化類似モデルの漸近リスク:深部ニューラルネットワークの二重発振理論

Asymptotic Risk of Overparameterized Likelihood Models: Double Descent Theory for Deep Neural Networks ( http://arxiv.org/abs/2103.00500v1 )

ライセンス: CC BY 4.0
Ryumei Nakada, Masaaki Imaizumi(参考訳) 深層モデルを含む、オーバーパラメータ化可能性モデルの一般クラスの無症状リスクを調査する。 大規模なモデルの最近の実証的な成功は、サンプルの数、$n$とパラメータ、$p$の両方が無限に分散し、限界での無症状リスクを導出するシナリオを調査するためにいくつかの理論的研究を動機づけた。 しかし、これらの定理は一般化線形回帰、カーネル回帰、浅層ニューラルネットワークといった特徴量モデルに対してのみ有効である。 したがって、3つ以上の層を持つディープニューラルネットワークを含むより広範な非線形モデルの研究は困難である。 本研究では,モデル制約を伴わない確率最大化問題を検討し,ペナリゼーションを伴う推定者の漸近リスクの上限を解析する。 技術的には、フィッシャー情報マトリックスのプロパティと拡張マルシェンコ・パストゥル法を結合し、経験的なプロセス技術との組み合わせを関連付けます。 導出境界は、ペナリゼーションに依存する二重降下曲線と正規化リスク曲線の両方を記述するため、一般に一般化される。 この結果はモデル上の線形-機能制約なしで有効であり、フィッシャー情報行列の一般的なスペクトル分布を導出することができる。 並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。 この結果は、大きなモデルや深いモデルでさえ、可視性のような特定の構造を示す場合の漸近リスクが小さいことを示している。 この発見を検証するために,並列深層ニューラルネットワークを用いた実データ実験を行った。 その結果,漸近的リスク分析の適用性が拡大し,深層学習の理解と応用に寄与する可能性がある。

We investigate the asymptotic risk of a general class of overparameterized likelihood models, including deep models. The recent empirical success of large-scale models has motivated several theoretical studies to investigate a scenario wherein both the number of samples, $n$, and parameters, $p$, diverge to infinity and derive an asymptotic risk at the limit. However, these theorems are only valid for linear-in-feature models, such as generalized linear regression, kernel regression, and shallow neural networks. Hence, it is difficult to investigate a wider class of nonlinear models, including deep neural networks with three or more layers. In this study, we consider a likelihood maximization problem without the model constraints and analyze the upper bound of an asymptotic risk of an estimator with penalization. Technically, we combine a property of the Fisher information matrix with an extended Marchenko-Pastur law and associate the combination with empirical process techniques. The derived bound is general, as it describes both the double descent and the regularized risk curves, depending on the penalization. Our results are valid without the linear-in-feature constraints on models and allow us to derive the general spectral distributions of a Fisher information matrix from the likelihood. We demonstrate that several explicit models, such as parallel deep neural networks and ensemble learning, are in agreement with our theory. This result indicates that even large and deep models have a small asymptotic risk if they exhibit a specific structure, such as divisibility. To verify this finding, we conduct a real-data experiment with parallel deep neural networks. Our results expand the applicability of the asymptotic risk analysis, and may also contribute to the understanding and application of deep learning.
翻訳日:2021-03-05 09:28:32 公開日:2021-02-28
# (参考訳) 視覚検索のためのモデル予測可能性 [全文訳有]

Model-Agnostic Explainability for Visual Search ( http://arxiv.org/abs/2103.00370v1 )

ライセンス: CC BY 4.0
Mark Hamilton, Scott Lundberg, Lei Zhang, Stephanie Fu, William T. Freeman(参考訳) 2つの画像が似ている理由? 画像の類似性、検索、検索のためのモデルに依存しない説明を生成する新しいアプローチを提案します。 特に、クラスアクティベーションマップ(CAM)、付加シェープ説明(SHAP)、局所的に解釈可能なモデル認識説明(LIME)を画像検索と検索の領域に拡張します。 これらのアプローチは、ブラックおよびグレーボックスモデルのイントロスペクションを可能にし、エラーを診断し、モデルの類似性判断の背後にある根拠を理解するのに役立ちます。 さらに、これらのアプローチを拡張して、クエリと検索された画像ピクセルの間の完全なペアワイズ対応を抽出します。 形式的には、Harsanyi配当の予測から生じる共同検索の解釈を示し、このアプローチはShapley ValuesとThe Shapley-Taylorインデックスを一般化する。 そこで本研究では,shapley-taylorの指標を高速カーネル法で推定し,これらのゲーム理論的な指標が画像類似性アーキテクチャのより一貫性のある説明をもたらすことを示す。

What makes two images similar? We propose new approaches to generate model-agnostic explanations for image similarity, search, and retrieval. In particular, we extend Class Activation Maps (CAMs), Additive Shapley Explanations (SHAP), and Locally Interpretable Model-Agnostic Explanations (LIME) to the domain of image retrieval and search. These approaches enable black and grey-box model introspection and can help diagnose errors and understand the rationale behind a model's similarity judgments. Furthermore, we extend these approaches to extract a full pairwise correspondence between the query and retrieved image pixels, an approach we call "joint interpretations" ;. Formally, we show joint search interpretations arise from projecting Harsanyi dividends, and that this approach generalizes Shapley Values and The Shapley-Taylor indices. We introduce a fast kernel-based method for estimating Shapley-Taylor indices and empirically show that these game-theoretic measures yield more consistent explanations for image similarity architectures.
翻訳日:2021-03-05 07:05:18 公開日:2021-02-28
# (参考訳) OpenICS: Open Image Compressive Sensing ToolboxとBenchmark [全文訳有]

OpenICS: Open Image Compressive Sensing Toolbox and Benchmark ( http://arxiv.org/abs/2103.00652v1 )

ライセンス: CC BY 4.0
Jonathan Zhao, Matthew Westerham, Mark Lakatos-Toth, Zhikang Zhang, Avi Moskoff, Fengbo Ren(参考訳) 我々は過去10年間に提案された複数の画像圧縮センシングと再構成アルゴリズムを含む画像圧縮センシングツールボックスOpenICSを提案する。 提案アルゴリズムの実装と評価における標準化の欠如のために、現実世界での画像圧縮センシングの適用は限定的である。 このツールボックスは、複数の画像圧縮センシングアルゴリズムの統一的で標準化された実装を提供する最初のフレームワークであると考えています。 また,本フレームワークに含まれる手法について,復元精度と復元効率という2つの側面からベンチマーク研究を行った。 このツールボックスとベンチマークが、拡大する圧縮センシング研究コミュニティと、新しい問題に画像圧縮センシングを適用する業界に役立ち、新しい手法をより効率的に開発できることを願っています。 コードとモデルはhttps://github.com/P SCLab-ASU/OpenICSで入手できる。 プロジェクトはまだメンテナンス中であり、このドキュメントは更新されます。

We present OpenICS, an image compressive sensing toolbox that includes multiple image compressive sensing and reconstruction algorithms proposed in the past decade. Due to the lack of standardization in the implementation and evaluation of the proposed algorithms, the application of image compressive sensing in the real-world is limited. We believe this toolbox is the first framework that provides a unified and standardized implementation of multiple image compressive sensing algorithms. In addition, we also conduct a benchmarking study on the methods included in this framework from two aspects: reconstruction accuracy and reconstruction efficiency. We wish this toolbox and benchmark can serve the growing research community of compressive sensing and the industry applying image compressive sensing to new problems as well as developing new methods more efficiently. Code and models are available at https://github.com/P SCLab-ASU/OpenICS. The project is still under maintenance, and we will keep this document updated.
翻訳日:2021-03-05 06:50:22 公開日:2021-02-28
# (参考訳) アクションとは何か: 確率的動的車両ルーティング問題に対する強化学習を機能させよう! [全文訳有]

Where the Action is: Let's make Reinforcement Learning for Stochastic Dynamic Vehicle Routing Problems work! ( http://arxiv.org/abs/2103.00507v1 )

ライセンス: CC BY 4.0
Florentin D Hildebrandt, Barrett Thomas, Marlin W Ulmer(参考訳) 近年、都市物流サービスにはパラダイムシフトがあり、リアルタイム、インスタントモビリティ、デリバリーサービスの需要が増加しています。 これはロジスティックサービスプロバイダにとって、基礎となる確率動的車両ルーティング問題(SDVRP)が予測されたリアルタイムルーティングアクションを必要とするため、新たな課題となる。 効率的なルーティングアクションのための組合せアクション空間の探索自体は、オペレーション研究コミュニティでよく知られた混合整数プログラミング(mip)の複雑なタスクである。 この複雑さは、未来のダイナミズムと不確実性を考えると、そのような行動の有効性を評価するという課題によって乗じられ、コンピュータサイエンスコミュニティでよく知られた強化学習(rl)の理想的なケースである。 SDVRPの解決には、両コミュニティの共同作業が必要であるが、私たちが示すように、基本的には存在しない。 双方のコミュニティは個々の強みに集中し、改善の可能性を残します。 本研究は,両コミュニティを起源とする研究の可能性を強調する。 SDVRPの現在の障害を指摘し、それらを克服するための共同アプローチを導きます。

There has been a paradigm-shift in urban logistic services in the last years; demand for real-time, instant mobility and delivery services grows. This poses new challenges to logistic service providers as the underlying stochastic dynamic vehicle routing problems (SDVRPs) require anticipatory real-time routing actions. Searching the combinatorial action space for efficient routing actions is by itself a complex task of mixed-integer programming (MIP) well-known by the operations research community. This complexity is now multiplied by the challenge of evaluating such actions with respect to their effectiveness given future dynamism and uncertainty, a potentially ideal case for reinforcement learning (RL) well-known by the computer science community. For solving SDVRPs, joint work of both communities is needed, but as we show, essentially non-existing. Both communities focus on their individual strengths leaving potential for improvement. Our survey paper highlights this potential in research originating from both communities. We point out current obstacles in SDVRPs and guide towards joint approaches to overcome them.
翻訳日:2021-03-05 01:37:08 公開日:2021-02-28
# (参考訳) 成功を想像した視覚ナビゲーションの学習 [全文訳有]

Learning for Visual Navigation by Imagining the Success ( http://arxiv.org/abs/2103.00446v1 )

ライセンス: CC BY 4.0
Mahdi Kazemi Moghaddam, Ehsan Abbasnejad, Qi Wu, Javen Shi and Anton Van Den Hengel(参考訳) 視覚ナビゲーションはしばしば強化学習(RL)問題として扱われる。 現在の方法は通常、一般的な障害回避と探索行動を学ぶ準最適ポリシーとなる。 例えば、ターゲットオブジェクトナビゲーション設定では、従来の方法によって学習されたポリシーは、ターゲットが人間の視点から明確に到達できる範囲にある場合でも、タスクを完了できないことが多い。 この問題に対処するために,我々は,成功した(サブ)ゴール状態の潜在表現を想像することを提案する。 そのために、私たちはForeSIT(Foresight Imagination)と呼ばれるモジュールを開発しました。 ForeSITは、成功につながる将来の状態の繰り返し潜在表現を想像するように訓練されている。 ターゲットの前に到達することが重要なサブゴール状態、またはゴール状態自体のいずれか。 トレーニング中に生成されたイマジネーションにポリシーを条件付けすることで、エージェントは、このイマジネーションを使って目標をしっかりと達成する方法を学ぶ。 我々のエージェントは、(サブ)ゴール状態が(潜在空間で)どのように見えるかを想像することができ、その状態に向かって進むことを学べます。 ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。 統合は、イマジネーションとポリシーの両方で共有される状態表現が絶えず進化しているため、簡単ではない。 我々は,一般的に受け入れられているベンチマークAI2THOR環境において,我々の手法が最先端の手法よりもはるかに優れていることを実証的に観察した。 このメソッドは、他のモデルフリーのRLナビゲーションフレームワークに簡単に統合または追加できます。

Visual navigation is often cast as a reinforcement learning (RL) problem. Current methods typically result in a suboptimal policy that learns general obstacle avoidance and search behaviours. For example, in the target-object navigation setting, the policies learnt by traditional methods often fail to complete the task, even when the target is clearly within reach from a human perspective. In order to address this issue, we propose to learn to imagine a latent representation of the successful (sub-)goal state. To do so, we have developed a module which we call Foresight Imagination (ForeSIT). ForeSIT is trained to imagine the recurrent latent representation of a future state that leads to success, e.g. either a sub-goal state that is important to reach before the target, or the goal state itself. By conditioning the policy on the generated imagination during training, our agent learns how to use this imagination to achieve its goal robustly. Our agent is able to imagine what the (sub-)goal state may look like (in the latent space) and can learn to navigate towards that state. We develop an efficient learning algorithm to train ForeSIT in an on-policy manner and integrate it into our RL objective. The integration is not trivial due to the constantly evolving state representation shared between both the imagination and the policy. We, empirically, observe that our method outperforms the state-of-the-art methods by a large margin in the commonly accepted benchmark AI2THOR environment. Our method can be readily integrated or added to other model-free RL navigation frameworks.
翻訳日:2021-03-04 23:02:02 公開日:2021-02-28
# (参考訳) ルールベースと機械学習による感情認識技術 [全文訳有]

Emotion recognition techniques with rule based and machine learning approaches ( http://arxiv.org/abs/2103.00658v1 )

ライセンス: CC BY 4.0
Aasma Aslam, Babar Hussian(参考訳) デジタル画像処理を用いた感情認識は、性別、年齢、文化だけでなく、歪んだ顔の特徴にも依存するため、多義的な課題である。 さらに、さまざまな照明や複雑な設定などの要因があり、顔の感情認識の複雑さを高めます。 本論文では, 正常, 閉塞, 部分閉塞画像からの情動を識別するために, 眼球運動, ムース開口, モースコーナー, フォアヘッドの4つの顔特徴を用いた。 我々はルールベースアプローチを採用し,新しい手法を用いて局所ビットパターンに似た顔特徴を抽出する新しい手法を開発した。 そこで我々は,眼球位置,眼窩収縮,口角を検出する新しい方法を提案する。 眼球検出のために提案された方法は、Cr赤(ECrR)の増強とCr青(SCrB)の抑制であり、これは98%の精度をもたらす。 また,眼球収縮検出には,(1)形態的傾斜画像強度(mgii)と(2)曲率線度(dcl)の2つの手法を提案する。 さらに,口角検出のための新しい手法を提案する。 分類には,人間感情感性(HES)を模倣した個人分類器,多数決(MV)および重み付け多数決(WMV)方式を用いる。 これらの方法は実装が簡単で、結果の精度が向上し、部分閉塞画像を用いた感情認識に最適である。 この方法が以前のアプローチよりも優れていることは、結果から明らかです。 全体の精度率は約94%です。 プロセッサコアi5を用いた1画像の処理時間は0.12秒である。

Emotion recognition using digital image processing is a multifarious task because facial emotions depend on warped facial features as well as on gender, age, and culture. Furthermore, there are several factors such as varied illumination and intricate settings that increase complexity in facial emotion recognition. In this paper, we used four salient facial features, Eyebrows, Mouth opening, Mouth corners, and Forehead wrinkles to identifying emotions from normal, occluded and partially-occluded images. We have employed rule-based approach and developed new methods to extract aforementioned facial features similar to local bit patterns using novel techniques. We propose new methods to detect eye location, eyebrow contraction, and mouth corners. For eye detection, the proposed methods are Enhancement of Cr Red (ECrR) and Suppression of Cr Blue (SCrB) which results in 98% accuracy. Additionally, for eyebrow contraction detection, we propose two techniques (1) Morphological Gradient Image Intensity (MGII) and (2) Degree of Curvature Line (DCL). Additionally, we present a new method for mouth corners detection. For classification purpose, we use an individual classifier, majority voting (MV) and weighted majority voting (WMV) methods which mimic Human Emotions Sensitivity (HES). These methods are straightforward to implement, improve the accuracy of results, and work best for emotion recognition using partially occluded images. It is ascertained from the results that our method outperforms previous approaches. Overall accuracy rates are around 94%. The processing time on one image using processor core i5 is ~0.12 sec.
翻訳日:2021-03-04 22:45:37 公開日:2021-02-28
# (参考訳) 深層半指導学習に関する調査 [全文訳有]

A Survey on Deep Semi-supervised Learning ( http://arxiv.org/abs/2103.00550v1 )

ライセンス: CC BY 4.0
Xiangli Yang, Zixing Song, Irwin King, Zenglin Xu(参考訳) 深層半教師あり学習は、様々な実践的応用を持つ急速に成長する分野である。 本稿では,モデル設計の観点からの深層半教師あり学習法と非教師なし損失関数の両基礎と最近の進歩に関する包括的調査を行う。 まず, 深層生成法, 整合性正規化法, グラフベース法, 擬似ラベル法, ハイブリッド法など既存の手法を分類した深層半教師付き学習の分類法を提案する。 次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。 過去数年間の進歩に加えて、我々はさらに既存の方法のいくつかの欠点を議論し、これらのオープンな問題を解決するための一時的なヒューリスティックソリューションを提供します。

Deep semi-supervised learning is a fast-growing field with a range of practical applications. This paper provides a comprehensive survey on both fundamentals and recent advances in deep semi-supervised learning methods from model design perspectives and unsupervised loss functions. We first present a taxonomy for deep semi-supervised learning that categorizes existing methods, including deep generative methods, consistency regularization methods, graph-based methods, pseudo-labeling methods, and hybrid methods. Then we offer a detailed comparison of these methods in terms of the type of losses, contributions, and architecture differences. In addition to the past few years' progress, we further discuss some shortcomings of existing methods and provide some tentative heuristic solutions for solving these open problems.
翻訳日:2021-03-04 17:22:55 公開日:2021-02-28
# (参考訳) 最適外乱検出のためのハイブリッド生成型分類器を用いた概念ニューラルネットワークウォッチドッグの証明 [全文訳有]

A Proof of Concept Neural Network Watchdog using a Hybrid Generative Classifier For Optimized Outlier Detection ( http://arxiv.org/abs/2103.00582v1 )

ライセンス: CC BY-SA 4.0
Justin Bui and Robert J. Marks II(参考訳) TensorFlowやPyTorchなどのツールの継続的な開発により、ニューラルネットワークは開発とトレーニングが容易になっています。 しかし、これらのツールの拡大に伴い、ニューラルネットワークはよりブラックボックス化されている。 果物を分類するために訓練されたニューラルネットワークは、キリンの絵をバナナとして分類することができる。 ニューラルネットワークのwatchdogは、そのような分布外の入力を識別するために実装され、分類器はそのようなデータを無視することができる。 ハイブリッドジェネレータ/分類ネットワークを構築することで,トレーニングや評価効率の向上を図りながら,監視犬の実装が容易になる。

With the continuous development of tools such as TensorFlow and PyTorch, Neural Networks are becoming easier to develop and train. With the expansion of these tools, however, neural networks have also become more black boxed. A neural network trained to classify fruit may classify a picture of a giraffe as a banana. A neural network watchdog may be implemented to identify such out-of-distribution inputs, allowing a classifier to disregard such data. By building a hybrid generator/classifier network, we can easily implement a watchdog while improving training and evaluation efficiency.
翻訳日:2021-03-04 16:04:01 公開日:2021-02-28
# (参考訳) リアルタイム電子商取引レコメンデーションのためのユーザ近所の探索 [全文訳有]

Explore User Neighborhood for Real-time E-commerce Recommendation ( http://arxiv.org/abs/2103.00442v1 )

ライセンス: CC BY-SA 4.0
Xu Xie, Fei Sun, Xiaoyong Yang, Zhao Yang, Jinyang Gao, Wenwu Ou, and Bin Cui(参考訳) リコメンダーシステムは、AmazonやTaobaoなどの現代のオンラインサービスにおいて重要な役割を果たしています。 ユーザ・イテム(UI)関係に焦点をあてた従来のパーソナライズ手法は、その効率性と有効性から、産業的に広く適用されてきた。 それらの成功にもかかわらず、我々はこれらのアプローチは類似のユーザーで隠されたローカル情報を無視すると主張します。 この問題に対処するため、ユーザーベースのメソッドは、同様のユーザー関係を利用して、ローカルの視点で推奨します。 それでも、 userKNN やMatrix Factorization のような従来のユーザベースの手法は、そのようなトランスダクティブモデルが新しいインタラクションで再コンパイルまたは再トレーニングされる必要があるため、リアルタイムアプリケーションにデプロイすることは困難である。 この課題を克服するために,グローバル情報とローカル情報の両方をリアルタイムにレコメンデーションする,自己補完的協調フィルタリング(SCCF)というフレームワークを提案する。 一方、UI関係とユーザ近傍を利用して、グローバル情報とローカル情報の両方をキャプチャする。 一方、インダクティブモデルにより、オンザフライでユーザ表現を推測することで、各ユーザーの類似したユーザーをリアルタイムで識別できます。 提案されたフレームワークは,既存のインダクタティブUIアプローチにシームレスに組み込むことができ,追加計算の少ないユーザ近所の恩恵を受けることができる。 また、リアルタイム設定にユーザーベースのメソッドを適用する最初の試みです。 SCCFの有効性と効率は、4つのパブリックデータセットに対する大規模なオフライン実験と、Taobaoでの大規模なオンラインA/Bテストによって実証される。

Recommender systems play a vital role in modern online services, such as Amazon and Taobao. Traditional personalized methods, which focus on user-item (UI) relations, have been widely applied in industrial settings, owing to their efficiency and effectiveness. Despite their success, we argue that these approaches ignore local information hidden in similar users. To tackle this problem, user-based methods exploit similar user relations to make recommendations in a local perspective. Nevertheless, traditional user-based methods, like userKNN and matrix factorization, are intractable to be deployed in the real-time applications since such transductive models have to be recomputed or retrained with any new interaction. To overcome this challenge, we propose a framework called self-complementary collaborative filtering~(SCCF) which can make recommendations with both global and local information in real time. On the one hand, it utilizes UI relations and user neighborhood to capture both global and local information. On the other hand, it can identify similar users for each user in real time by inferring user representations on the fly with an inductive model. The proposed framework can be seamlessly incorporated into existing inductive UI approach and benefit from user neighborhood with little additional computation. It is also the first attempt to apply user-based methods in real-time settings. The effectiveness and efficiency of SCCF are demonstrated through extensive offline experiments on four public datasets, as well as a large scale online A/B test in Taobao.
翻訳日:2021-03-04 11:32:27 公開日:2021-02-28
# (参考訳) ECGT2T:2つの非同期リードからテンリードへの心電図合成 [全文訳有]

ECGT2T: Electrocardiogram synthesis from Two asynchronous leads to Ten leads ( http://arxiv.org/abs/2103.00006v1 )

ライセンス: CC BY 4.0
Yong-Yeon Jo and Joon-Myoung Kwon(参考訳) 心電図(ECG)は、心臓の状態を観察する非侵襲的な方法で電気信号を記録する。 それは異なる方向から心臓を見る12のリードで構成されています。 近年、様々なウェアラブルデバイスが、ワイルディ機器を使わずにECGへの即時アクセスを可能にしている。 しかし、ECGに1つまたは2つのリードのみを提供する。 この結果、心疾患の診断が不正確になる。 本稿では,2つの非同期リードから10リード(ECGT2T)へのECG合成の深部生成モデルを提案する。 最初は2つのリードを参照する心臓状態を表し、その後、代表される心臓状態に基づいて10個のリードを生成する。 ECGT2Tが生成したリードのリズムと振幅は、元のリードと似ているが、この手法はノイズを除去し、ベースラインが元のリードに現れる。 データ拡張手法として、ECGT2Tは、複数のリードを持つECGを用いたモデルと比較して、モデルの分類性能を改善する。

The electrocardiogram (ECG) records electrical signals in a non-invasive way to observe the condition of the heart. It consists of 12 leads that look at the heart from different directions. Recently, various wearable devices have enabled immediate access to the ECG without the use of wieldy equipment. However, they only provide ECGs with one or two leads. This results in an inaccurate diagnosis of cardiac disease. We propose a deep generative model for ECG synthesis from two asynchronous leads to ten leads (ECGT2T). It first represents a heart condition referring to two leads, and then generates ten leads based on the represented heart condition. Both the rhythm and amplitude of leads generated by ECGT2T resemble those of the original ones, while the technique removes noise and the baseline wander appearing in the original leads. As a data augmentation method, ECGT2T improves the classification performance of models compared with models using ECGs with a couple of leads.
翻訳日:2021-03-04 05:58:51 公開日:2021-02-28
# (参考訳) 強化学習における探索とインセンティブ

Exploration and Incentives in Reinforcement Learning ( http://arxiv.org/abs/2103.00360v1 )

ライセンス: CC0 1.0
Max Simchowitz, Aleksandrs Slivkins(参考訳) 自己関心のあるエージェントが$\textit{exploit}$を好む場合、どうやって$\textit{explore}$にインセンティブを与えるのですか? 各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。 強化学習の伝統的な定式化とは対照的に、エージェントはポリシーの選択を制御し、アルゴリズムは推奨事項のみを発行できる。 しかし、アルゴリズムは情報の流れを制御し、エージェントに情報非対称性による探索のインセンティブを与えることができる。 MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。 我々は、以前に研究された静的でステートレスな探査問題の探索を奨励するためのものと同様の実証可能な保証を達成します。

How do you incentivize self-interested agents to $\textit{explore}$ when they prefer to $\textit{exploit}$ ? We consider complex exploration problems, where each agent faces the same (but unknown) MDP. In contrast with traditional formulations of reinforcement learning, agents control the choice of policies, whereas an algorithm can only issue recommendations. However, the algorithm controls the flow of information, and can incentivize the agents to explore via information asymmetry. We design an algorithm which explores all reachable states in the MDP. We achieve provable guarantees similar to those for incentivizing exploration in static, stateless exploration problems studied previously.
翻訳日:2021-03-04 05:27:30 公開日:2021-02-28
# (参考訳) Johnson-Lindenstraus s変換の紹介

An Introduction to Johnson-Lindenstraus s Transforms ( http://arxiv.org/abs/2103.00564v1 )

ライセンス: CC BY 4.0
Casper Benjamin Freksen(参考訳) Johnson--Lindenstrau ss Transformsは、データの主要特性を維持しながらデータの寸法性を低減するための強力なツールであり、機械学習から差分プライバシーなど、多くの分野で使用されています。 1980年代に導入されて以来、その使用状況と開発状況の概要を提供し、読者がこれらのトピックをより深く探求したい場合、多くの参考文献を提供する。

Johnson--Lindenstrau ss Transforms are powerful tools for reducing the dimensionality of data while preserving key characteristics of that data, and they have found use in many fields from machine learning to differential privacy and more. This note explains what they are; it gives an overview of their use and their development since they were introduced in the 1980s; and it provides many references should the reader wish to explore these topics more deeply.
翻訳日:2021-03-04 05:26:44 公開日:2021-02-28
# (参考訳) Virus-MNIST:ベンチマークマルウェアデータセット [全文訳有]

Virus-MNIST: A Benchmark Malware Dataset ( http://arxiv.org/abs/2103.00602v1 )

ライセンス: CC BY 4.0
David Noever, Samantha E. Miller Noever(参考訳) 以下に示すのは、10の実行可能なコード変種と約50,000のウイルス例からなる画像分類データセットである。 悪意のあるクラスには、9種類のコンピュータウイルスと1つの良性セットが含まれる。 ポータブル実行テーブル(PE)の最初の1024バイトの画像フォーマットは、慣れ親しんだMNIST手書きデータセットを反映しており、以前に検討されたアルゴリズムメソッドのほとんどは小さな変更で転送することができる。 マルウェアに対する9つのウイルスファミリーの指定は、クラスラベルの監視されていない学習に由来する。 深層学習法(mobilenetv2)を用いたベンチマークでは,家族間でのウイルス識別の80%の精度が得られた。 また,(シグネチャやヒューリスティックスによって)正のマルウェア検出が行われると,最初の1024バイトのサムネイル画像への投影がウイルスの87%の精度で分類できることが分かった。 この研究は、他のマルウェア研究者が画像問題を解決するために開発された有望な畳み込みニューラルネットワークとして証明したものを一般化し、実行可能なファイルからピクセルバイトの新しい抽象ドメインに適用した。 データセットはKaggleとGithubで入手できる。

The short note presents an image classification dataset consisting of 10 executable code varieties and approximately 50,000 virus examples. The malicious classes include 9 families of computer viruses and one benign set. The image formatting for the first 1024 bytes of the Portable Executable (PE) mirrors the familiar MNIST handwriting dataset, such that most of the previously explored algorithmic methods can transfer with minor modifications. The designation of 9 virus families for malware derives from unsupervised learning of class labels; we discover the families with KMeans clustering that excludes the non-malicious examples. As a benchmark using deep learning methods (MobileNetV2), we find an overall 80% accuracy for virus identification by families when beneware is included. We also find that once a positive malware detection occurs (by signature or heuristics), the projection of the first 1024 bytes into a thumbnail image can classify with 87% accuracy the type of virus. The work generalizes what other malware investigators have demonstrated as promising convolutional neural networks originally developed to solve image problems but applied to a new abstract domain in pixel bytes from executable files. The dataset is available on Kaggle and Github.
翻訳日:2021-03-04 05:25:54 公開日:2021-02-28
# (参考訳) 能動学習に基づく広帯域材料発見のための生成設計 [全文訳有]

Active learning based generative design for the discovery of wide bandgap materials ( http://arxiv.org/abs/2103.00608v1 )

ライセンス: CC BY 4.0
Rui Xin, Edirisuriya M. D. Siriwardane, Yuqi Song, Yong Zhao, Steph-Yves Louis, Alireza Nasiri, Jianjun Hu(参考訳) アクティブラーニングは、所望の特性を持つ既存の材料データベースから機能材料のスクリーニングにますます応用されている。 しかし、icdやmaterials projectのような一般的な材料データベースに蓄積されている既知の材料の数は極めて限られており、広大な化学設計スペースのほんの一部に過ぎない。 本論文では,化学設計空間全体におけるターゲット特性を有する新しい材料を探索するために,アクティブラーニングと深変量オートエンコーダニューラルネットワークと生成対比ディープニューラルネットワークモデルを組み合わせたアクティブジェネレーティブ逆設計手法を提案する。 この方法の適用により、高バンドギャップ(SrYF$_5$)と指定されたバンドギャップ範囲(SrClF$_3$、CaClF$_5$、YCl$_3$、SrC$_2$F$_3$、AlSCl、As$_2$O$_3$)の半導体を持つ新しい熱力学的に安定した材料を発見することができました。 本実験は, 能動学習自体が化学的に不可能な候補を抽出するのに対して, これらのサンプルは, 生成モデルが生成する仮説材料から望ましい特性を持つ材料をフィルタリングする効果的なスクリーニングモデルを訓練するのに有効であることを示した。 実験では, アクティブ生成型逆設計手法の有効性を示す。

Active learning has been increasingly applied to screening functional materials from existing materials databases with desired properties. However, the number of known materials deposited in the popular materials databases such as ICSD and Materials Project is extremely limited and consists of just a tiny portion of the vast chemical design space. Herein we present an active generative inverse design method that combines active learning with a deep variational autoencoder neural network and a generative adversarial deep neural network model to discover new materials with a target property in the whole chemical design space. The application of this method has allowed us to discover new thermodynamically stable materials with high band gap (SrYF$_5$) and semiconductors with specified band gap ranges (SrClF$_3$, CaClF$_5$, YCl$_3$, SrC$_2$F$_3$, AlSCl, As$_2$O$_3$), all of which are verified by the first principle DFT calculations. Our experiments show that while active learning itself may sample chemically infeasible candidates, these samples help to train effective screening models for filtering out materials with desired properties from the hypothetical materials created by the generative model. The experiments show the effectiveness of our active generative inverse design approach.
翻訳日:2021-03-04 05:17:48 公開日:2021-02-28
# (参考訳) 機械学習と金融研究の対決

Confronting Machine Learning With Financial Research ( http://arxiv.org/abs/2103.00366v1 )

ライセンス: CC BY 4.0
Kristof Lommers, Ouns El Harzli, Jack Kim(参考訳) 本研究の目的は,金融研究における機械学習の課題と応用を検討することである。 機械学習アルゴリズムは、金融業界で遭遇したものとは大きく異なる特定のデータ環境向けに開発された。 金融市場の特異性によって困難が生じるだけでなく、基礎となる機械学習のパラダイムと金融経済学の研究哲学の間には根本的な緊張関係がある。 金融市場の特異な特徴と社会科学における経験的枠組みを考えると、従来の機械学習手法に様々な調整を加える必要がある。 金融における機械学習の主な課題について論じ、それらがどのように説明できるのかを検討する。 課題のいくつかにもかかわらず、機械学習は金融研究と統合され、エコノメトリアンのツールボックスの堅牢な補完になる可能性があると主張しています。 さらに、推定、経験的発見、テスト、因果推論、予測といった研究プロセスにおける機械学習のさまざまな応用について論じる。

This study aims to examine the challenges and applications of machine learning for financial research. Machine learning algorithms have been developed for certain data environments which substantially differ from the one we encounter in finance. Not only do difficulties arise due to some of the idiosyncrasies of financial markets, there is a fundamental tension between the underlying paradigm of machine learning and the research philosophy in financial economics. Given the peculiar features of financial markets and the empirical framework within social science, various adjustments have to be made to the conventional machine learning methodology. We discuss some of the main challenges of machine learning in finance and examine how these could be accounted for. Despite some of the challenges, we argue that machine learning could be unified with financial research to become a robust complement to the econometrician's toolbox. Moreover, we discuss the various applications of machine learning in the research process such as estimation, empirical discovery, testing, causal inference and prediction.
翻訳日:2021-03-03 22:55:30 公開日:2021-02-28
# (参考訳) 失語症・失語症・失語症を救済する脳信号 [全文訳有]

Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech Recognition ( http://arxiv.org/abs/2103.00383v1 )

ライセンス: CC BY 4.0
Gautam Krishna, Mason Carnahan, Shilpa Shamapant, Yashitha Surendranath, Saumya Jain, Arundhati Ghosh, Co Tran, Jose del R Millan and Ahmed H Tewfik(参考訳) 本稿では, 失語, 失語, 失語症, 失語症に同期して記録される脳波特徴量を用いて, 失語症, 失語症, 失語症の自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。 単離音声認識タスクの試験時間中に50\%以上のデコード性能向上を実証するとともに、脳波機能を利用してより困難な連続音声認識タスクのパフォーマンス向上を示す予備結果も提供します。 本研究は, 失語症, 失語症, 構音障害から回復した脳卒中患者に対して, 非侵襲的神経信号を用いて実時間ロバストな音声補綴物を設計できる可能性を示す。 我々の失語症、失語症、失語症-EEGデータセットは、この興味深い重要な研究をさらに進めるために一般に公開される。

In this paper, we propose a deep learning-based algorithm to improve the performance of automatic speech recognition (ASR) systems for aphasia, apraxia, and dysarthria speech by utilizing electroencephalograp hy (EEG) features recorded synchronously with aphasia, apraxia, and dysarthria speech. We demonstrate a significant decoding performance improvement by more than 50\% during test time for isolated speech recognition task and we also provide preliminary results indicating performance improvement for the more challenging continuous speech recognition task by utilizing EEG features. The results presented in this paper show the first step towards demonstrating the possibility of utilizing non-invasive neural signals to design a real-time robust speech prosthetic for stroke survivors recovering from aphasia, apraxia, and dysarthria. Our aphasia, apraxia, and dysarthria speech-EEG data set will be released to the public to help further advance this interesting and crucial research.
翻訳日:2021-03-03 22:54:33 公開日:2021-02-28
# (参考訳) H\"older クラスにおけるReLU-Sine-Exponentia l Activations Break Curse of Dimensionalityを用いたディープニューラルネットワーク [全文訳有]

Deep Neural Networks with ReLU-Sine-Exponentia l Activations Break Curse of Dimensionality on H\"older Class ( http://arxiv.org/abs/2103.00542v1 )

ライセンス: CC BY 4.0
Yuling Jiao, Yanming Lai, Xiliang Lu, Zhijian Yang(参考訳) 本論文では,ReLU,sine,および2^x$をアクティベーション関数とするニューラルネットワークを構築する。 for general continuous $f$ defined on $[0,1]^d$ with continuity modulus $\omega_f(\cdot)$, we construct ReLU-sine-$2^x$ networks that enjoy a approximation rate $\mathcal{O}(\omega_f(\sqrt{d})\cdot2^{-M}+\omega_{f}\left(\frac{\sqrt{d}}{N}\right)$, where $M,N\in \mathbb{N}^{+}$。 As a consequence, we can construct ReLU-sine-$2^x$ network with the depth $5$ and width $\max\left\{\left\lceil2d^{3/2}\left(\frac{3\mu}{\epsilon}\right)^{1/{\alpha}}\right\rceil,2\left\ lceil\log_2\frac{3\mu d^{\alpha/2}}{2\epsilon}\right\rceil+2\right\}$ that approximates $f\in \mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ within a given tolerance $\epsilon >0$ measured in $L^p$ norm $p\in[1,\infty)$, where $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ denotes the H\"older continuous function class defined on $[0,1]^d$ with order $\alpha \in (0,1]$ and constant $\mu > 0$. したがって、ReLU-sine-$2^x$ネットワークは、$\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$上の次元の呪いを克服する。 スーパー表現力に加えて、ReLU-sine-$2^x$ネットワークで実装された関数は(一般化)微分可能であり、SGDを訓練に適用することができる。

In this paper, we construct neural networks with ReLU, sine and $2^x$ as activation functions. For general continuous $f$ defined on $[0,1]^d$ with continuity modulus $\omega_f(\cdot)$, we construct ReLU-sine-$2^x$ networks that enjoy an approximation rate $\mathcal{O}(\omega_f(\sqrt{d})\cdot2^{-M}+\omega_{f}\left(\frac{\sqrt{d}}{N}\right))$, where $M,N\in \mathbb{N}^{+}$ denote the hyperparameters related to widths of the networks. As a consequence, we can construct ReLU-sine-$2^x$ network with the depth $5$ and width $\max\left\{\left\lceil2d^{3/2}\left(\frac{3\mu}{\epsilon}\right)^{1/{\alpha}}\right\rceil,2\left\ lceil\log_2\frac{3\mu d^{\alpha/2}}{2\epsilon}\right\rceil+2\right\}$ that approximates $f\in \mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ within a given tolerance $\epsilon >0$ measured in $L^p$ norm $p\in[1,\infty)$, where $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ denotes the H\"older continuous function class defined on $[0,1]^d$ with order $\alpha \in (0,1]$ and constant $\mu > 0$. Therefore, the ReLU-sine-$2^x$ networks overcome the curse of dimensionality on $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$. In addition to its supper expressive power, functions implemented by ReLU-sine-$2^x$ networks are (generalized) differentiable, enabling us to apply SGD to train.
翻訳日:2021-03-03 22:42:17 公開日:2021-02-28
# Q-Learningのためのアンサンブルブートストラップ

Ensemble Bootstrapping for Q-Learning ( http://arxiv.org/abs/2103.00445v1 )

ライセンス: Link先を確認
Oren Peer, Chen Tessler, Nadav Merlis, Ron Meir(参考訳) 一般的な強化学習アルゴリズムであるQラーニング(QL)は、最適なベルマン演算子の最大化項による過大評価バイアスに悩まされる。 このバイアスは最適でない行動につながる可能性がある。 ダブルQ学習は2つの推定器を利用することでこの問題に対処するが、結果として過小評価バイアスが生じる。 q-learningの過剰推定と同様に、特定のシナリオでは、過推定バイアスはパフォーマンスを低下させる可能性がある。 本研究では,2次Q学習からアンサンブルへの自然な拡張であるEnsemble Bootstrapped Q-Learning(EBQL)というバイアス低減アルゴリズムを導入する。 我々は理論的にも経験的にも方法を分析する。 理論的には、独立確率変数の集合の最大平均を推定する場合、ebqlライクな更新はmseを低下させる。 経験的に、オーバーとアンダー推定の両方が最適な性能をもたらす領域が存在することを示す。 最後に、AtARIゲームスイートの他のディープQLアルゴリズムよりも、EBQLのディープRLバリアントの優れたパフォーマンスを実証します。

Q-learning (QL), a common reinforcement learning algorithm, suffers from over-estimation bias due to the maximization term in the optimal Bellman operator. This bias may lead to sub-optimal behavior. Double-Q-learning tackles this issue by utilizing two estimators, yet results in an under-estimation bias. Similar to over-estimation in Q-learning, in certain scenarios, the under-estimation bias may degrade performance. In this work, we introduce a new bias-reduced algorithm called Ensemble Bootstrapped Q-Learning (EBQL), a natural extension of Double-Q-learning to ensembles. We analyze our method both theoretically and empirically. Theoretically, we prove that EBQL-like updates yield lower MSE when estimating the maximal mean of a set of independent random variables. Empirically, we show that there exist domains where both over and under-estimation result in sub-optimal performance. Finally, We demonstrate the superior performance of a deep RL variant of EBQL over other deep QL algorithms for a suite of ATARI games.
翻訳日:2021-03-03 17:34:22 公開日:2021-02-28
# Tiny Adversarial Mulit-Objective Oneshot Neural Architecture Search

Tiny Adversarial Mulit-Objective Oneshot Neural Architecture Search ( http://arxiv.org/abs/2103.00363v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Guo Yu, Feng Zheng, Yaochu Jin(参考訳) 計算コストの制限とエネルギー消費のため、モバイルデバイスにデプロイされるほとんどのニューラルネットワークモデルは小さい。 しかし、小さなニューラルネットワークは一般に攻撃に対して非常に脆弱である。 現在の研究では、モデルサイズが大きくなるとロバスト性が向上することが証明されているが、小さなニューラルネットワークのロバスト性を高める方法に関する研究はほとんどない。 私たちの研究は、モバイルレベルのリソースの下でクリーンな精度を損なうことなく、小さなニューラルネットワークの堅牢性を改善する方法にフォーカスしています。 そこで本研究では, 対向的精度, クリーンな精度, モデルサイズという観点から, 最適なトレードオフネットワークを得るための, 多目的のワンショットネットワークアーキテクチャ探索(NAS)アルゴリズムを提案する。 具体的には,モデルサイズと逆行性能のバランスをとるために,新しい小ブロックとチャネルに基づく新しい検索空間を設計する。 さらに,このスーパーネットはNASアルゴリズムのサブネットの性能に大きく影響するため,ホワイトボックス攻撃下でスーパーネットが最適なサブネットを得るのにどのように役立つかを明らかにする。 具体的には,逆転性,スーパーネットの幅,スクラッチから微調整までのトレーニングの違いを解析することにより,新たな逆転訓練パラダイムを探求する。 最後に、第1の非支配フロント上の特定のブロックとチャネルの階層的結合に関する統計的解析を行い、敵の摂動のレジリエンスのための小さなニューラルネットワークアーキテクチャを設計するためのガイドラインとして機能する。

Due to limited computational cost and energy consumption, most neural network models deployed in mobile devices are tiny. However, tiny neural networks are commonly very vulnerable to attacks. Current research has proved that larger model size can improve robustness, but little research focuses on how to enhance the robustness of tiny neural networks. Our work focuses on how to improve the robustness of tiny neural networks without seriously deteriorating of clean accuracy under mobile-level resources. To this end, we propose a multi-objective oneshot network architecture search (NAS) algorithm to obtain the best trade-off networks in terms of the adversarial accuracy, the clean accuracy and the model size. Specifically, we design a novel search space based on new tiny blocks and channels to balance model size and adversarial performance. Moreover, since the supernet significantly affects the performance of subnets in our NAS algorithm, we reveal the insights into how the supernet helps to obtain the best subnet under white-box adversarial attacks. Concretely, we explore a new adversarial training paradigm by analyzing the adversarial transferability, the width of the supernet and the difference between training the subnets from scratch and fine-tuning. Finally, we make a statistical analysis for the layer-wise combination of certain blocks and channels on the first non-dominated front, which can serve as a guideline to design tiny neural network architectures for the resilience of adversarial perturbations.
翻訳日:2021-03-03 17:32:08 公開日:2021-02-28
# 超データ効率のGANトレーニング:まず宝くじを描き、次にそれを激しく訓練する

Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then Training It Toughly ( http://arxiv.org/abs/2103.00397v1 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Jingjing Liu, Zhangyang Wang(参考訳) 限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。 この挑戦を克服するために、我々はKalibhat et alの最新の観察に触発された。 (2020年):チェンら。 (2021d)は、GANから独立して訓練可能で、高度にスパースなサブネットワーク(すなわち宝くじ)を発見できるものである。 これを誘導的前処理として扱い、データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する: (i) 元のGANから宝くじを識別し、 (ii) 攻撃的なデータと機能拡張で見つかったスパースサブネットワークをトレーニングする。 両方のサブプロブレムは、同じ小さな実画像のトレーニングセットを再利用する。 このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中でき、トレーニングを効果的に安定化し、収束性を向上させることができます。 GANアーキテクチャ(SNGAN,BigGAN,StyleG AN2)と多種多様なデータセット(CIFAR-10,CIFAR-100, Tiny-ImageNet,ImageN et)を対象として,提案した超データ効率トレーニングフレームワークの有効性を総合的に検証した。 さらに、私たちのトレーニングフレームワークはまた、強力な数ショット一般化能力、すなわち、事前トレーニングなしで、わずか100の実際の画像でゼロから訓練することによって高忠実度画像を生成する。 コードは以下の通り。 https://github.com/V ITA-Group/Ultra-Data -Efficient-GAN-Train ing。

Training generative adversarial networks (GANs) with limited data generally results in deteriorated performance and collapsed models. To conquer this challenge, we are inspired by the latest observation of Kalibhat et al. (2020); Chen et al.(2021d), that one can discover independently trainable and highly sparse subnetworks (a.k.a., lottery tickets) from GANs. Treating this as an inductive prior, we decompose the data-hungry GAN training into two sequential sub-problems: (i) identifying the lottery ticket from the original GAN; then (ii) training the found sparse subnetwork with aggressive data and feature augmentations. Both sub-problems re-use the same small training set of real images. Such a coordinated framework enables us to focus on lower-complexity and more data-efficient sub-problems, effectively stabilizing training and improving convergence. Comprehensive experiments endorse the effectiveness of our proposed ultra-data-efficient training framework, across various GAN architectures (SNGAN, BigGAN, and StyleGAN2) and diverse datasets (CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet). Besides, our training framework also displays powerful few-shot generalization ability, i.e., generating high-fidelity images by training from scratch with just 100 real images, without any pre-training. Codes are available at: https://github.com/V ITA-Group/Ultra-Data -Efficient-GAN-Train ing.
翻訳日:2021-03-03 17:31:41 公開日:2021-02-28
# 中間分類器ヘッドによる蒸留知識

Distilling Knowledge via Intermediate Classifier Heads ( http://arxiv.org/abs/2103.00497v1 )

ライセンス: Link先を確認
Aryan Asadian, Amirali Salehi-Abari(参考訳) トランスファーラーニングアプローチとしての知識蒸留の要点は、事前訓練されたより大きな教師モデルのガイドでリソース限定の学生モデルを効果的に訓練することである。 しかし、教師と生徒のモデルの複雑さ(すなわち能力格差)に大きな違いがある場合、知識蒸留は教師から生徒への知識の伝達においてその強さを失い、より弱い生徒の訓練を行う。 キャパシティギャップの影響を軽減するため,中間ヘッドによる知識蒸留を導入する。 教師の中間層(様々な深さ)を分類器ヘッドで拡張することにより、異種事前学習教師のコホートを安価に取得する。 中間分類器ヘッドは、予め訓練された教師の背骨を凍結しながら効率よく学習することができる。 教師のコーホート(元教師を含む)は同時に生徒を指導する。 種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法とその拡張法より優れていることを示した。

The crux of knowledge distillation -- as a transfer-learning approach -- is to effectively train a resource-limited student model with the guide of a pre-trained larger teacher model. However, when there is a large difference between the model complexities of teacher and student (i.e., capacity gap), knowledge distillation loses its strength in transferring knowledge from the teacher to the student, thus training a weaker student. To mitigate the impact of the capacity gap, we introduce knowledge distillation via intermediate heads. By extending the intermediate layers of the teacher (at various depths) with classifier heads, we cheaply acquire a cohort of heterogeneous pre-trained teachers. The intermediate classifier heads can all together be efficiently learned while freezing the backbone of the pre-trained teacher. The cohort of teachers (including the original teacher) co-teach the student simultaneously. Our experiments on various teacher-student pairs and datasets have demonstrated that the proposed approach outperforms the canonical knowledge distillation approach and its extensions.
翻訳日:2021-03-03 17:31:09 公開日:2021-02-28
# NLP-CUET@DravidianLa ngTech-EACL2021: マルチモーダルソーシャルメディアミームからトロールを識別するための視覚およびテキスト機能の調査

NLP-CUET@DravidianLa ngTech-EACL2021: Investigating Visual and Textual Features to Identify Trolls from Multimodal Social Media Memes ( http://arxiv.org/abs/2103.00466v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque(参考訳) ここ数年で、ミームはインターネット上での新しいコミュニケーションの方法になりました。 ミームはテキストを埋め込んだ画像なので、すぐに憎しみ、犯罪、暴力を広めることができる。 分類ミームは、マルチモーダルな性質と地域固有の解釈のために非常に困難です。 共有タスクは、マルチモーダルソーシャルメディアミームからトロールを識別することができるモデルを開発するために組織されます。 この研究は、私たちがタスクへの参加の一部として開発した計算モデルを提示します。 トレーニングデータには2つの形式がある: タミル語を混ざったテキストを埋め込んだ画像と、英語で書かれた関連キャプション。 CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNetモデルを用いて視覚的およびテキスト的特徴を検討した。 画像(CNN, ResNet50, Inception)とテキスト(Long short term memory network)を早期融合方式で組み合わせることで, マルチモーダルな特徴を抽出する。 結果から,xlnet によるテキストアプローチは,最大$f_1$-score ($0.58$) を達成し,このタスクで 3^{rd}$ のランクを確保することができた。

In the past few years, the meme has become a new way of communication on the Internet. As memes are the images with embedded text, it can quickly spread hate, offence and violence. Classifying memes are very challenging because of their multimodal nature and region-specific interpretation. A shared task is organized to develop models that can identify trolls from multimodal social media memes. This work presents a computational model that we have developed as part of our participation in the task. Training data comes in two forms: an image with embedded Tamil code-mixed text and an associated caption given in English. We investigated the visual and textual features using CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNet models. Multimodal features are extracted by combining image (CNN, ResNet50, Inception) and text (Long short term memory network) features via early fusion approach. Results indicate that the textual approach with XLNet achieved the highest weighted $f_1$-score of $0.58$, which enabled our model to secure $3^{rd}$ rank in this task.
翻訳日:2021-03-03 17:28:15 公開日:2021-02-28
# ビデオに基づく深層学習による術後右室不全の予測

Predicting post-operative right ventricular failure using video-based deep learning ( http://arxiv.org/abs/2103.00364v1 )

ライセンス: Link先を確認
Rohan Shad, Nicolas Quach, Robyn Fong, Patpilai Kasinpila, Cayley Bowles, Miguel Castro, Ashrith Guha, Eddie Suarez, Stefan Jovinge, Sangjin Lee, Theodore Boeve, Myriam Amsallem, Xiu Tang, Francois Haddad, Yasuhiro Shudo, Y. Joseph Woo, Jeffrey Teuteberg, John P. Cunningham, Curt P. Langlotz, William Hiesinger(参考訳) 非侵襲的かつ費用対効果の高い心エコー図は、心臓の筋肉と弁の包括的評価を可能にする。 数十年の進歩にもかかわらず、心エコー図ビデオのリッチな時間的解決データは未使用のままである。 心エコー図の読み書きは、心臓壁運動の複雑なパターンを、心臓機能の小さな測定リストに還元する。 さらに、現代の心エコー図型人工知能(ai)システムはすべて、エコー研究に埋め込まれたデータの豊富な利用ではなく、同じ還元効果測定値の設計自動化によっても同様に制限されている。 この低利用は、臨床的な意思決定が病気の視力の主観的評価によって導かれる状況において最も顕著であり、臨床的に実行可能な時間枠内で発症する疾患を予測するツールは利用できない。 メカニカル・サーキュレーション・サポートの設定において,術後右室不全(RV不全)を発症する可能性を予測することは,そのような臨床例である。 そこで我々は,術前心エコー検査から得られた情報の全時空間密度を用いて,術後右室不全(RV障害)の予測を訓練した新しいビデオAIシステムを開発した。 aucは0.729, 特異度52%, 感度80%, 感度46%, 特異度80%であった。 さらに,我々のMLシステムは,独立臨床評価におけるRV障害の予測に携わる人間専門家のチームよりも有意に優れていた。 最後に, 定性心エコー検査により治療や患者の選択が誘導される心臓臨床判断支援アプリケーションに対して, 本手法を一般化する。

Non-invasive and cost effective in nature, the echocardiogram allows for a comprehensive assessment of the cardiac musculature and valves. Despite progressive improvements over the decades, the rich temporally resolved data in echocardiography videos remain underutilized. Human reads of echocardiograms reduce the complex patterns of cardiac wall motion, to a small list of measurements of heart function. Furthermore, all modern echocardiography artificial intelligence (AI) systems are similarly limited by design - automating measurements of the same reductionist metrics rather than utilizing the wealth of data embedded within each echo study. This underutilization is most evident in situations where clinical decision making is guided by subjective assessments of disease acuity, and tools that predict disease onset within clinically actionable timeframes are unavailable. Predicting the likelihood of developing post-operative right ventricular failure (RV failure) in the setting of mechanical circulatory support is one such clinical example. To address this, we developed a novel video AI system trained to predict post-operative right ventricular failure (RV failure), using the full spatiotemporal density of information from pre-operative echocardiography scans. We achieve an AUC of 0.729, specificity of 52% at 80% sensitivity and 46% sensitivity at 80% specificity. Furthermore, we show that our ML system significantly outperforms a team of human experts tasked with predicting RV failure on independent clinical evaluation. Finally, the methods we describe are generalizable to any cardiac clinical decision support application where treatment or patient selection is guided by qualitative echocardiography assessments.
翻訳日:2021-03-03 17:27:11 公開日:2021-02-28
# CREATe : 臨床報告の抽出とアノテーション技術

CREATe: Clinical Report Extraction and Annotation Technology ( http://arxiv.org/abs/2103.00562v1 )

ライセンス: Link先を確認
Yichao Zhou, Wei-Ting Chen, Bowen Zhang, David Lee, J. Harry Caufield, Kai-Wei Chang, Yizhou Sun, Peipei Ping and Wei Wang(参考訳) 臨床症例報告は、特定の臨床症例のユニークな側面の記述であり、非定型疾患の表現型と新しい治療法に関する臨床経験を共有する上で重要な役割を果たします。 しかし、私たちの知る限りでは、これらのレポートを注釈付け、インデックス付け、あるいはキュレートするエンドツーエンドシステムを開発する試みは行われていない。 本稿では,臨床症例報告の内容の抽出,インデックス化,検索を行うための新しい計算資源プラットフォーム CREATe を提案する。 CREATeは持続可能な資源支援と発見の環境を育み、研究者は情報科学の課題を克服することができる。 デモのオンラインビデオはhttps://youtu.be/Q8o wBQYTjDcで見ることができる。

Clinical case reports are written descriptions of the unique aspects of a particular clinical case, playing an essential role in sharing clinical experiences about atypical disease phenotypes and new therapies. However, to our knowledge, there has been no attempt to develop an end-to-end system to annotate, index, or otherwise curate these reports. In this paper, we propose a novel computational resource platform, CREATe, for extracting, indexing, and querying the contents of clinical case reports. CREATe fosters an environment of sustainable resource support and discovery, enabling researchers to overcome the challenges of information science. An online video of the demonstration can be viewed at https://youtu.be/Q8o wBQYTjDc.
翻訳日:2021-03-03 17:26:02 公開日:2021-02-28
# 効率的な局所因果構造学習に向けて

Towards Efficient Local Causal Structure Learning ( http://arxiv.org/abs/2103.00378v1 )

ライセンス: Link先を確認
Shuai Yang, Hao Wang, Kui Yu, Fuyuan Cao, and Xindong Wu(参考訳) 局所因果構造学習は、データから関心のある変数の直接的な原因(親)と直接的な影響(子供)を発見し、区別することを目的とする。 従来の手法では,対象変数Tの直接的な影響と直接的な原因を区別するために,大きな空間を探索する必要がある。この問題に対処するために,ELCSという新しい局所因果構造学習アルゴリズムを提案する。 Specifically, we first propose the concept of N-structures, then design an efficient Markov Blanket (MB) discovery subroutine to integrate MB learning with N-structures to learn the MB of T and simultaneously distinguish direct causes from direct effects of T. With the proposed MB subroutine, ELCS starts from the target variable, sequentially finds MBs of variables connected to the target variable and simultaneously constructs local causal structures over MBs until the direct causes and direct effects of the target variable have been distinguished. 8つのベイジアンネットワークを用いて、ELCSが最先端のアルゴリズムよりも精度と効率が良いことを検証した。

Local causal structure learning aims to discover and distinguish direct causes (parents) and direct effects (children) of a variable of interest from data. While emerging successes have been made, existing methods need to search a large space to distinguish direct causes from direct effects of a target variable T. To tackle this issue, we propose a novel Efficient Local Causal Structure learning algorithm, named ELCS. Specifically, we first propose the concept of N-structures, then design an efficient Markov Blanket (MB) discovery subroutine to integrate MB learning with N-structures to learn the MB of T and simultaneously distinguish direct causes from direct effects of T. With the proposed MB subroutine, ELCS starts from the target variable, sequentially finds MBs of variables connected to the target variable and simultaneously constructs local causal structures over MBs until the direct causes and direct effects of the target variable have been distinguished. Using eight Bayesian networks the extensive experiments have validated that ELCS achieves better accuracy and efficiency than the state-of-the-art algorithms.
翻訳日:2021-03-03 17:25:41 公開日:2021-02-28
# adaptive regularized submodular maximization

Adaptive Regularized Submodular Maximization ( http://arxiv.org/abs/2103.00384v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) 本稿では,適応的条件下での適応的部分モジュラー関数と非負的モジュラー関数との差を最大化する問題について検討する。 問題の入力は$n$アイテムのセットで、各アイテムは既知の事前ディストリビューションである$p$から引き出された特定の状態を持っています。 収益関数 $g$ はアイテムとステートで定義され、コスト関数 $c$ はアイテム、すなわち各アイテムが固定コストで定義される。 それぞれのアイテムの状態は最初不明であり、実現された状態を監視するためにアイテムを選択する必要がある。 ポリシー$\pi$は、これまでの観察に基づいて次に選択すべき項目を指定する。 注意:$g_{avg}(\pi)$ 期待される$\pi$ と $c_{avg}(\pi)$ は、期待される$\pi$ のコストを表す。 私たちの目標は、$k$-cardinality制約の下で最高のポリシー$\pi^o\in \arg\max_{\pi}g_{avg}(\pi)-c_{avg}(\pi)$を特定することです。 目的関数は負値と正値の両方を取ることができるので、サブモジュラー最大化の既存の結果は適用できないかもしれない。 この課題を克服するために,我々は,パフォーマンス付与者による効果的なソリューションを連続的に開発する。 $\pi^o$ を最適方針とする。 g$ が適応モノトーンおよび適応部分モジュラの場合、$g_{avg}(\pi^l) - c_{avg}(\pi^l) \geq (1-\frac{1}{e}-\epsilon)g_{avg}(\pi^o) - c_{avg}(\pi^o)$ のみを使用して、$O(n\epsilon^{-2}\log \epsilon^{-1})$ の値オラクルクエリを行うような有効なポリシー $\pi^l$ を開発する。 g$ が適応部分モジュラーである場合、$g_{avg}(\pi^r) - c_{avg}(\pi^r) \geq \frac{1}{e}g_{avg}(\pi^o)c_{avg}(\pi^o)$ となるようなランダム化されたポリシー $\pi^r$ を示す。

In this paper, we study the problem of maximizing the difference between an adaptive submodular (revenue) function and an non-negative modular (cost) function under the adaptive setting. The input of our problem is a set of $n$ items, where each item has a particular state drawn from some known prior distribution $p$. The revenue function $g$ is defined over items and states, and the cost function $c$ is defined over items, i.e., each item has a fixed cost. The state of each item is unknown initially, one must select an item in order to observe its realized state. A policy $\pi$ specifies which item to pick next based on the observations made so far. Denote by $g_{avg}(\pi)$ the expected revenue of $\pi$ and let $c_{avg}(\pi)$ denote the expected cost of $\pi$. Our objective is to identify the best policy $\pi^o\in \arg\max_{\pi}g_{avg}(\pi)-c_{avg}(\pi)$ under a $k$-cardinality constraint. Since our objective function can take on both negative and positive values, the existing results of submodular maximization may not be applicable. To overcome this challenge, we develop a series of effective solutions with performance grantees. Let $\pi^o$ denote the optimal policy. For the case when $g$ is adaptive monotone and adaptive submodular, we develop an effective policy $\pi^l$ such that $g_{avg}(\pi^l) - c_{avg}(\pi^l) \geq (1-\frac{1}{e}-\epsilon)g_{avg}(\pi^o) - c_{avg}(\pi^o)$, using only $O(n\epsilon^{-2}\log \epsilon^{-1})$ value oracle queries. For the case when $g$ is adaptive submodular, we present a randomized policy $\pi^r$ such that $g_{avg}(\pi^r) - c_{avg}(\pi^r) \geq \frac{1}{e}g_{avg}(\pi^o) - c_{avg}(\pi^o)$.
翻訳日:2021-03-03 17:25:26 公開日:2021-02-28
# 階層的誘導点ガウス過程による領域間観測

Hierarchical Inducing Point Gaussian Process for Inter-domain Observations ( http://arxiv.org/abs/2103.00393v1 )

ライセンス: Link先を確認
Luhuan Wu, Andrew Miller, Lauren Anderson, Geoff Pleiss, David Blei, John Cunningham(参考訳) 我々は、領域間ガウス過程(GPs)の一般的な問題を検討する:GP実現とその実現の騒々しい観察が異なる領域にある問題。 これらのドメイン間のマッピングが積分や微分のような線形であるとき、推論は依然として閉じた形式である。 しかし、我々のコミュニティが開発したスケーリングと近似のテクニックの多くは、この設定には当てはまらない。 本研究では,階層型誘導点GP(HIP-GP)を提案する。これは拡張性のあるドメイン間GP推論手法で,数百万への誘導点数を増やすことで近似精度を向上させることができる。 格子構造と定常核仮定を持つ誘導点に依存するHIP-GPは、低次元問題に適しています。 HIP-GPの開発において、(1)高速な白化戦略、(2)一般的なGP設定に役立つ共役勾配のための新しいプレコンディショナーを導入する。

We examine the general problem of inter-domain Gaussian Processes (GPs): problems where the GP realization and the noisy observations of that realization lie on different domains. When the mapping between those domains is linear, such as integration or differentiation, inference is still closed form. However, many of the scaling and approximation techniques that our community has developed do not apply to this setting. In this work, we introduce the hierarchical inducing point GP (HIP-GP), a scalable inter-domain GP inference method that enables us to improve the approximation accuracy by increasing the number of inducing points to the millions. HIP-GP, which relies on inducing points with grid structure and a stationary kernel assumption, is suitable for low-dimensional problems. In developing HIP-GP, we introduce (1) a fast whitening strategy, and (2) a novel preconditioner for conjugate gradients which can be helpful in general GP settings.
翻訳日:2021-03-03 17:18:57 公開日:2021-02-28
# gaussian-smoothed optimal transport distanceのサブガンマ分布と依存サンプルによる収束

Convergence of Gaussian-smoothed optimal transport distance with sub-gamma distributions and dependent samples ( http://arxiv.org/abs/2103.00394v1 )

ライセンス: Link先を確認
Yixing Zhang, Xiuyuan Cheng, Galen Reeves(参考訳) 最近Goldfeldらによって提案されたガウススムース最適輸送(GOT)フレームワークは、推定の高次元にスケールし、エントロピー正規化の代替手段を提供する。 本稿では,より一般的な設定下でのGOT距離を推定するための収束保証を提供する。 d$次元のガウス-スムース$p$-Wasserstein距離の場合、私たちの結果は$d + 2p$より大きい瞬間の存在のみを必要とします。 サブガンマ分布の特別な場合については、次元 $d$ への依存性を定量化し、スケールパラメータに関して位相遷移を確立する。 また,従属標本に対する収束を証明し,核空間の特徴写像の共分散によって測定された試料の対依存条件のみを条件とする。 我々の分析における重要なステップは、ゲット距離がコスト関数とガウス平滑化の量に依存するカーネルの最大平均差(mmd)距離の族によって支配されていることを示すことである。 この洞察は、GOTフレームワークのさらなる解釈可能性を提供し、望ましい特性を持つカーネルMDD距離のクラスも導入する。 理論結果は数値実験によって支持される。

The Gaussian-smoothed optimal transport (GOT) framework, recently proposed by Goldfeld et al., scales to high dimensions in estimation and provides an alternative to entropy regularization. This paper provides convergence guarantees for estimating the GOT distance under more general settings. For the Gaussian-smoothed $p$-Wasserstein distance in $d$ dimensions, our results require only the existence of a moment greater than $d + 2p$. For the special case of sub-gamma distributions, we quantify the dependence on the dimension $d$ and establish a phase transition with respect to the scale parameter. We also prove convergence for dependent samples, only requiring a condition on the pairwise dependence of the samples measured by the covariance of the feature map of a kernel space. A key step in our analysis is to show that the GOT distance is dominated by a family of kernel maximum mean discrepancy (MMD) distances with a kernel that depends on the cost function as well as the amount of Gaussian smoothing. This insight provides further interpretability for the GOT framework and also introduces a class of kernel MMD distances with desirable properties. The theoretical results are supported by numerical experiments.
翻訳日:2021-03-03 17:18:42 公開日:2021-02-28
# 幅・深さを考慮したReLUネットワークの最適近似速度

Optimal Approximation Rate of ReLU Networks in terms of Width and Depth ( http://arxiv.org/abs/2103.00502v1 )

ライセンス: Link先を確認
Zuowei Shen, Haizhao Yang, Shijun Zhang(参考訳) 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。 構成により、幅 $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,N+2\}\big)$ と深さ $\mathcal{O}(L)$ の H\"older continuous function on $[0,1]^d$ の近似レート $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$ を持つ ReLUネットワークがそれぞれ H\alpha\in (0,1]$ と $\lambda>0$ は H\"older order and constantである。 このような速度は、幅と深さの点で別々に一定まで最適であるが、既存の結果は近似率の対数係数なしではほぼ最適である。 より一般的には、任意の連続関数 $f$ on $[0,1]^d$ に対して、近似レートは $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big((N^2L^2\ln N)^{-1/d}\big)\,\big)$ となる。 また、境界付き集合上の任意の連続関数 $f$ に解析を拡張します。 特に、深さ$1$と幅$\mathcal{O}(N)$がLipschitz定数$\lambda>0$で1次元Lipschitz連続関数を$[0,1]$で近似するために使用される場合、パラメータの総数の観点から近似レートは$W=\mathcal{O}(N^2)$となり、固定深度ReLUネットワークの文献では発見されていない$\mathcal{O}(\tfrac{\lambda}{W\ln W})$となる。

This paper concentrates on the approximation power of deep feed-forward neural networks in terms of width and depth. It is proved by construction that ReLU networks with width $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\, N+2\}\big)$ and depth $\mathcal{O}(L)$ can approximate a H\"older continuous function on $[0,1]^d$ with an approximation rate $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$, where $\alpha\in (0,1]$ and $\lambda>0$ are H\"older order and constant, respectively. Such a rate is optimal up to a constant in terms of width and depth separately, while existing results are only nearly optimal without the logarithmic factor in the approximation rate. More generally, for an arbitrary continuous function $f$ on $[0,1]^d$, the approximation rate becomes $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big( (N^2L^2\ln N)^{-1/d}\big)\,\big)$, where $\omega_f(\cdot)$ is the modulus of continuity. We also extend our analysis to any continuous function $f$ on a bounded set. Particularly, if ReLU networks with depth $31$ and width $\mathcal{O}(N)$ are used to approximate one-dimensional Lipschitz continuous functions on $[0,1]$ with a Lipschitz constant $\lambda>0$, the approximation rate in terms of the total number of parameters, $W=\mathcal{O}(N^2)$, becomes $\mathcal{O}(\tfrac{\lambda}{W\ln W})$, which has not been discovered in the literature for fixed-depth ReLU networks.
翻訳日:2021-03-03 17:18:23 公開日:2021-02-28
# 情報融合のためのラベル付きマルチカノニカル相関解析

The Labeled Multiple Canonical Correlation Analysis for Information Fusion ( http://arxiv.org/abs/2103.00359v1 )

ライセンス: Link先を確認
Lei Gao, Rui Zhang, Lin Qi, Enqing Chen, and Ling Guan(参考訳) マルチモーダル情報融合の目的は、異なるソースに含まれる情報を数学的に分析し、パターン認識やその他のマルチメディア情報処理タスクでより効果的に利用される新しい表現を作成することです。 本稿では,ラベル付き多重正準相関解析(LMCCA)に基づくマルチモーダル情報融合と表現の新しい手法を提案する。 LMCCAは、トレーニングサンプルのクラスラベル情報を取り入れることにより、融合した特徴がマルチモーダル情報表現の識別特性を担い、優れた認識性能を提供できることを保証します。 音声領域と視覚領域の両方の情報を含むバイモーダルな人間の感情認識を用いて,手書き文字認識,顔認識,物体認識においてその効果を示すために,lmccaのプロトタイプを実装した。 LMCCAの一般的な性質は、ディープラーニング(DL)手法を含むあらゆる手段によって抽出された入力特徴として利用することができる。 実験結果から,提案手法は統計的機械学習(SML)手法とDLに基づく手法の両方の性能を向上させた。

The objective of multimodal information fusion is to mathematically analyze information carried in different sources and create a new representation which will be more effectively utilized in pattern recognition and other multimedia information processing tasks. In this paper, we introduce a new method for multimodal information fusion and representation based on the Labeled Multiple Canonical Correlation Analysis (LMCCA). By incorporating class label information of the training samples,the proposed LMCCA ensures that the fused features carry discriminative characteristics of the multimodal information representations, and are capable of providing superior recognition performance. We implement a prototype of LMCCA to demonstrate its effectiveness on handwritten digit recognition,face recognition and object recognition utilizing multiple features,bimodal human emotion recognition involving information from both audio and visual domains. The generic nature of LMCCA allows it to take as input features extracted by any means,including those by deep learning (DL) methods. Experimental results show that the proposed method enhanced the performance of both statistical machine learning (SML) methods, and methods based on DL.
翻訳日:2021-03-03 17:13:28 公開日:2021-02-28
# 限られた監督による医用画像分割:深層ネットワークモデルの検討

Medical Image Segmentation with Limited Supervision: A Review of Deep Network Models ( http://arxiv.org/abs/2103.00429v1 )

ライセンス: Link先を確認
Jialin Peng, Ye Wang(参考訳) さまざまなタスクにおけるディープラーニングメソッドの驚くべきパフォーマンスにもかかわらず、ほとんどの最先端のモデルは、大規模な注釈付きトレーニングの例に大きく依存しています。 医用画像のラベリングコストは非常に高く、特に医療用画像のセグメンテーションでは、通常はピクセル/ボクセル単位でのラベリングが必要となる。 したがって,医療画像分割における深層学習モデルの成功には,限定的なアノテーション量,スパースアノテーション,不正確なアノテーションなど,限定的な監督による学習と一般化の強力な能力が不可欠である。 しかし、本質的な困難さから、限定的な監督によるセグメンテーションは困難であり、特定のモデル設計および/または学習戦略が必要である。 本稿では,上記のソリューションの体系的かつ最新のレビューを行い,方法論に関する要約とコメントを提供する。 また,本研究の問題点を浮き彫りにし,今後の研究の方向性について考察した。

Despite the remarkable performance of deep learning methods on various tasks, most cutting-edge models rely heavily on large-scale annotated training examples, which are often unavailable for clinical and health care tasks. The labeling costs for medical images are very high, especially in medical image segmentation, which typically requires intensive pixel/voxel-wise labeling. Therefore, the strong capability of learning and generalizing from limited supervision, including a limited amount of annotations, sparse annotations, and inaccurate annotations, is crucial for the successful application of deep learning models in medical image segmentation. However, due to its intrinsic difficulty, segmentation with limited supervision is challenging and specific model design and/or learning strategies are needed. In this paper, we provide a systematic and up-to-date review of the solutions above, with summaries and comments about the methodologies. We also highlight several problems in this field, discussed future directions observing further investigations.
翻訳日:2021-03-03 17:13:11 公開日:2021-02-28
# LRG at TREC 2020: Document Ranking with XLNet-based Models

LRG at TREC 2020: Document Ranking with XLNet-Based Models ( http://arxiv.org/abs/2103.00380v1 )

ライセンス: Link先を確認
Abheesht Sharma and Harshit Pandey(参考訳) 人気のあるエンターテインメント媒体で優れた情報検索システムを確立することは、企業や研究者にとっても急速に成長している調査分野です。 私たちはポッドキャストの情報検索の領域を掘り下げます。 SpotifyのPodcast Challengeでは、すべてのポッドキャストを持つ特定のデータセットから最も関連する短いセグメントを見つけるための説明付きのユーザーのクエリが与えられています。 古典的情報検索(IR)技術のみを含む従来の手法では、記述的なクエリが提示された場合、性能が低下する。 一方、大規模ニューラルネットワークにのみ依存するモデルは、パフォーマンスが向上する傾向にある。 この手法の欠点は、結果を推測するためにかなりの時間と計算能力が必要であることである。 従来のIR技術を用いて,ユーザからの問い合わせに基づいてベストなポッドキャストをフィルタリングし,トランスベースモデルを用いて詳細記述に基づくショートリスト文書を再ランク付けする2つのハイブリッドモデルを実験した。

Establishing a good information retrieval system in popular mediums of entertainment is a quickly growing area of investigation for companies and researchers alike. We delve into the domain of information retrieval for podcasts. In Spotify's Podcast Challenge, we are given a user's query with a description to find the most relevant short segment from the given dataset having all the podcasts. Previous techniques that include solely classical Information Retrieval (IR) techniques, perform poorly when descriptive queries are presented. On the other hand, models which exclusively rely on large neural networks tend to perform better. The downside to this technique is that a considerable amount of time and computing power are required to infer the result. We experiment with two hybrid models which first filter out the best podcasts based on user's query with a classical IR technique, and then perform re-ranking on the shortlisted documents based on the detailed description using a transformer-based model.
翻訳日:2021-03-03 17:07:00 公開日:2021-02-28
# オンラインストリーミングアテンションに基づく音声認識のためのアライメント知識蒸留

Alignment Knowledge Distillation for Online Streaming Attention-based Speech Recognition ( http://arxiv.org/abs/2103.00422v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Tatsuya Kawahara(参考訳) 本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。 AEDモデルは、すべてのコンポーネントを共同最適化することで、オフラインシナリオにおける競合的なパフォーマンスを実現している。 最近では monotonic chunkwise attention (mocha) などのモデルを通じて,オンラインストリーミングフレームワークにも拡張されている。 しかし, 長文発話では, 精巧な注意計算処理は頑健ではない。 さらに、シーケンスレベルのトレーニング目標と時間制限ストリーミングエンコーダは、推論中にトークンの放出が無視できない遅延を引き起こす。 そこで本研究では,CTC同期トレーニング(CTC-ST)を提案し,CTCアライメントをトークンバウンダリの参照として利用し,MoChAモデルが最適のモノトニック入力出力アライメントを学習できるようにする。 CTCとMoChAの境界を同期させるため、純粋にエンドツーエンドのトレーニング目標を定式化する。 CTCモデルはエンコーダ表現を強化するために、MoChAモデルとエンコーダを共有する。 さらに,提案手法はctcブランチで学習したアライメント情報を注意に基づくデコーダに提供する。 したがって、CTC-STはCTCからMoChAへのアライメント知識の自己蒸留とみなすことができる。 様々なベンチマークデータセットにおける実験的評価により,提案手法は認識誤りと遅延を同時に低減し,特に長文音声と雑音音声を同時に検出できることがわかった。 また, ハイブリッドasrシステムからアライメント知識を蒸留する手法とctc-stを比較し, 外部アライメント情報に頼らずに精度とレイテンシのトレードオフを実現できることを示した。 最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。

This article describes an efficient training method for online streaming attention-based encoder-decoder (AED) automatic speech recognition (ASR) systems. AED models have achieved competitive performance in offline scenarios by jointly optimizing all components. They have recently been extended to an online streaming framework via models such as monotonic chunkwise attention (MoChA). However, the elaborate attention calculation process is not robust for long-form speech utterances. Moreover, the sequence-level training objective and time-restricted streaming encoder cause a nonnegligible delay in token emission during inference. To address these problems, we propose CTC synchronous training (CTC-ST), in which CTC alignments are leveraged as a reference for token boundaries to enable a MoChA model to learn optimal monotonic input-output alignments. We formulate a purely end-to-end training objective to synchronize the boundaries of MoChA to those of CTC. The CTC model shares an encoder with the MoChA model to enhance the encoder representation. Moreover, the proposed method provides alignment information learned in the CTC branch to the attention-based decoder. Therefore, CTC-ST can be regarded as self-distillation of alignment knowledge from CTC to MoChA. Experimental evaluations on a variety of benchmark datasets show that the proposed method significantly reduces recognition errors and emission latency simultaneously, especially for long-form and noisy speech. We also compare CTC-ST with several methods that distill alignment knowledge from a hybrid ASR system and show that the CTC-ST can achieve a comparable tradeoff of accuracy and latency without relying on external alignment information. The best MoChA system shows performance comparable to that of RNN-transducer (RNN-T).
翻訳日:2021-03-03 17:06:45 公開日:2021-02-28
# よりよい民主主義のための市民参加と機械学習

Citizen Participation and Machine Learning for a Better Democracy ( http://arxiv.org/abs/2103.00508v1 )

ライセンス: Link先を確認
M. Arana-Catania, F.A. Van Lier, Rob Procter, Nataliya Tkachenko, Yulan He, Arkaitz Zubiaga, Maria Liakata(参考訳) 民主システムの開発は、国連によるミレニアム持続可能な開発目標の1つとして、その選択によって確認される重要なタスクです。 本稿では、情報過負荷の障壁に対処することを目的としたプロジェクトの進捗状況を報告し、民主的な意思決定プロセスで効果的な直接市民参加を達成する。 主な目的は、自然言語処理(NLP)と機械学習の応用が、デジタル市民参加プラットフォームにおける市民の経験を改善することができるかどうかを探ることである。 市民が市議会で採用したい政策の提案を提出できる「デシド・マドリード」・コンサル・プラットフォームを事例研究として、我々は、NLPと機械学習を使って、(a)支援したいと思われる市民の提案に新しい方法を提案し、(b)グループ市民が互いにより簡単に対話できるようにし、(c)提案に応えて投稿されたコメントを要約し、(d)提案を集約し、開発する市民を支援する。 結果の評価は、NLPと機械学習が、現在経験しているConsulのようなプラットフォームの障壁ユーザに対処するために果たす役割があることを証明している。

The development of democratic systems is a crucial task as confirmed by its selection as one of the Millennium Sustainable Development Goals by the United Nations. In this article, we report on the progress of a project that aims to address barriers, one of which is information overload, to achieving effective direct citizen participation in democratic decision-making processes. The main objectives are to explore if the application of Natural Language Processing (NLP) and machine learning can improve citizens' experience of digital citizen participation platforms. Taking as a case study the "Decide Madrid" Consul platform, which enables citizens to post proposals for policies they would like to see adopted by the city council, we used NLP and machine learning to provide new ways to (a) suggest to citizens proposals they might wish to support; (b) group citizens by interests so that they can more easily interact with each other; (c) summarise comments posted in response to proposals; (d) assist citizens in aggregating and developing proposals. Evaluation of the results confirms that NLP and machine learning have a role to play in addressing some of the barriers users of platforms such as Consul currently experience.
翻訳日:2021-03-03 17:06:18 公開日:2021-02-28
# 手眼協調による一般化:空間不変振動数制御学習のための行動空間

Generalization Through Hand-Eye Coordination: An Action Space for Learning Spatially-Invariant Visuomotor Control ( http://arxiv.org/abs/2103.00375v1 )

ライセンス: Link先を確認
Chen Wang, Rui Wang, Danfei Xu, Ajay Mandlekar, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習(il)は、オフラインデモデータから視覚能力を学ぶための効果的なフレームワークである。 しかし、ILメソッドはトレーニングデータでカバーされていない新しいシーン構成に一般化できないことが多い。 一方、人間は様々な条件で物体を操作することができる。 このような能力の鍵となるのは、目の動きをタスク関連オブジェクトに適応的に誘導し、物体の絶対的な空間的位置と不変な認知能力である。 本研究では,人間の遠隔操作による実演から学習することにより,人間の手目協調行動を近似する学習可能な行動空間である手目行動ネットワーク(han)を提案する。 課題のある多段階操作タスクの集合を通じて,HANを具備したビズモータポリシが,目視調整の重要空間不変性を継承し,新たなシーン構成へのゼロショット一般化を実現することができることを示す。 https://sites.google .com/stanford.edu/ha n

Imitation Learning (IL) is an effective framework to learn visuomotor skills from offline demonstration data. However, IL methods often fail to generalize to new scene configurations not covered by training data. On the other hand, humans can manipulate objects in varying conditions. Key to such capability is hand-eye coordination, a cognitive ability that enables humans to adaptively direct their movements at task-relevant objects and be invariant to the objects' absolute spatial location. In this work, we present a learnable action space, Hand-eye Action Networks (HAN), that can approximate human's hand-eye coordination behaviors by learning from human teleoperated demonstrations. Through a set of challenging multi-stage manipulation tasks, we show that a visuomotor policy equipped with HAN is able to inherit the key spatial invariance property of hand-eye coordination and achieve zero-shot generalization to new scene configurations. Additional materials available at https://sites.google .com/stanford.edu/ha n
翻訳日:2021-03-03 17:03:49 公開日:2021-02-28
# 複雑クエリアンサーのためのロジック埋め込み

Logic Embeddings for Complex Query Answering ( http://arxiv.org/abs/2103.00418v1 )

ライセンス: Link先を確認
Francois Luus, Prithviraj Sen, Pavan Kapanipathi, Ryan Riegel, Ndivhuwo Makondo, Thabang Lebese, Alexander Gray(参考訳) 不完全知識ベースに対する論理的クエリの解答は,1)暗黙的リンク予測,2)存在一階述語論理的クエリのブルート力応答は,存在変数数で指数関数的であるため,困難である。 クエリ埋め込みの最近の作業は高速なクエリを提供するが、ほとんどのアプローチはクローズドな領域で論理をモデル化する。 否定をサポートするクエリ埋め込みは、欠点を被る密度を使用する。1) ロジックの即興化、2) 高価なディストリビューションの使用、3) モデルの答えの不確実性。 本稿では,skolemizationを用いて効率的なクエリのための存在変数を排除する,複雑なクエリを組込む新しい手法であるlogic embeddedsを提案する。 1) 熟達した t-ノルム論理を統合し、満足度を直接評価する、2) 真理値によるモデリングを単純化する、3) 真理境界を持つ不確かさをモデル化する。 論理埋め込みは、大きな不完全な知識グラフ上でのクエリ応答において競争的に高速で正確であり、否定クエリよりも優れており、特に、応答集合のサイズと埋め込みエントロピーの間の優れた相関によって証明された、応答の不確かさのモデリングを改善する。

Answering logical queries over incomplete knowledge bases is challenging because: 1) it calls for implicit link prediction, and 2) brute force answering of existential first-order logic queries is exponential in the number of existential variables. Recent work of query embeddings provides fast querying, but most approaches model set logic with closed regions, so lack negation. Query embeddings that do support negation use densities that suffer drawbacks: 1) only improvise logic, 2) use expensive distributions, and 3) poorly model answer uncertainty. In this paper, we propose Logic Embeddings, a new approach to embedding complex queries that uses Skolemisation to eliminate existential variables for efficient querying. It supports negation, but improves on density approaches: 1) integrates well-studied t-norm logic and directly evaluates satisfiability, 2) simplifies modeling with truth values, and 3) models uncertainty with truth bounds. Logic Embeddings are competitively fast and accurate in query answering over large, incomplete knowledge graphs, outperform on negation queries, and in particular, provide improved modeling of answer uncertainty as evidenced by a superior correlation between answer set size and embedding entropy.
翻訳日:2021-03-03 17:03:31 公開日:2021-02-28
# SpikeDyn: 動的環境における継続的および教師なし学習能力を備えたエネルギー効率の高いスパイクニューラルネットワークのフレームワーク

SpikeDyn: A Framework for Energy-Efficient Spiking Neural Networks with Continual and Unsupervised Learning Capabilities in Dynamic Environments ( http://arxiv.org/abs/2103.00424v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) Spiking Neural Networks(SNN)は、生物学的な可能性のために効率的な教師なしおよび継続的な学習能力を持つ可能性がありますが、その複雑さは、リソース制約のあるシナリオ(組み込みシステム、IoT-Edgeなど)のエネルギー効率の高い設計を可能にするための深刻な研究課題です。 本研究では,動的環境下での非教師なし学習機能を備えたエネルギー効率の高いSNNのための総合的なフレームワークであるSpikeDynを提案する。 It is achieved through the following multiple diverse mechanisms: 1) reduction of neuronal operations, by replacing the inhibitory neurons with direct lateral inhibitions; 2) a memory- and energy-constrained SNN model search algorithm that employs analytical models to estimate the memory footprint and energy consumption of different candidate SNN models and selects a Pareto-optimal SNN model; and 3) a lightweight continual and unsupervised learning algorithm that employs adaptive learning rates, adaptive membrane threshold potential, weight decay, and reduction of spurious updates. 実験の結果,400個の興奮ニューロンを持つネットワークでは,SpykeDynはトレーニングで平均51%,推論で平均37%のエネルギー消費を減少させることがわかった。 学習アルゴリズムの改善により、SpikeDynはavgを提供する。 21%の精度向上で,最新の学習タスクを分類し,前回の学習タスクでは平均8%向上した。

Spiking Neural Networks (SNNs) bear the potential of efficient unsupervised and continual learning capabilities because of their biological plausibility, but their complexity still poses a serious research challenge to enable their energy-efficient design for resource-constrained scenarios (like embedded systems, IoT-Edge, etc.). We propose SpikeDyn, a comprehensive framework for energy-efficient SNNs with continual and unsupervised learning capabilities in dynamic environments, for both the training and inference phases. It is achieved through the following multiple diverse mechanisms: 1) reduction of neuronal operations, by replacing the inhibitory neurons with direct lateral inhibitions; 2) a memory- and energy-constrained SNN model search algorithm that employs analytical models to estimate the memory footprint and energy consumption of different candidate SNN models and selects a Pareto-optimal SNN model; and 3) a lightweight continual and unsupervised learning algorithm that employs adaptive learning rates, adaptive membrane threshold potential, weight decay, and reduction of spurious updates. Our experimental results show that, for a network with 400 excitatory neurons, our SpikeDyn reduces the energy consumption on average by 51% for training and by 37% for inference, as compared to the state-of-the-art. Due to the improved learning algorithm, SpikeDyn provides on avg. 21% accuracy improvement over the state-of-the-art, for classifying the most recently learned task, and by 8% on average for the previously learned tasks.
翻訳日:2021-03-03 17:03:07 公開日:2021-02-28
# 統計的保証付きコミュニケーション効率の高いビザンチン・ロバスト分散学習

Communication-effici ent Byzantine-robust distributed learning with statistical guarantee ( http://arxiv.org/abs/2103.00373v1 )

ライセンス: Link先を確認
Xingcai Zhou, Le Chang, Pengfei Xu and Shaogao Lv(参考訳) コミュニケーション効率と堅牢性は、現代の分散学習フレームワークにおける2つの大きな問題である。 これは、一部の計算ノードが通信能力に制限がある場合や、敵対的な振る舞いをする場合の現実的な状況によるものである。 この2つの問題を同時に解決するために,本論文では,凸問題に対するコミュニケーション効率とロバストな分散学習アルゴリズムを2つ開発する。 我々のモチベーションは、確率フレームワークと中央値とトリミング平均演算に基づいている。 特に,提案手法はビザンチンの故障に対して頑健であり,かつ,強い凸損失と凸(非スムース)ペナルティに対する最適統計率を達成している。 一般化線形モデルのような典型的な統計モデルでは、統計的誤差が有限反復の最適化誤差を支配していることを示す。 シミュレーションおよび実データ実験を行い,アルゴリズムの数値性能を実証した。

Communication efficiency and robustness are two major issues in modern distributed learning framework. This is due to the practical situations where some computing nodes may have limited communication power or may behave adversarial behaviors. To address the two issues simultaneously, this paper develops two communication-effici ent and robust distributed learning algorithms for convex problems. Our motivation is based on surrogate likelihood framework and the median and trimmed mean operations. Particularly, the proposed algorithms are provably robust against Byzantine failures, and also achieve optimal statistical rates for strong convex losses and convex (non-smooth) penalties. For typical statistical models such as generalized linear models, our results show that statistical errors dominate optimization errors in finite iterations. Simulated and real data experiments are conducted to demonstrate the numerical performance of our algorithms.
翻訳日:2021-03-03 17:00:00 公開日:2021-02-28
# ジェネレーティブ・アドバーサリー・ネットワークを1つの段階でトレーニングする

Training Generative Adversarial Networks in One Stage ( http://arxiv.org/abs/2103.00430v1 )

ライセンス: Link先を確認
Chengchao Shen, Youtan Yin, Xinchao Wang, Xubin LI, Jie Song, Mingli Song(参考訳) GAN(Generative Adversarial Networks)は、様々な画像生成タスクで前例のない成功を収めています。 しかし、奨励的な結果は、発電機と識別器が2つの段階に交互に更新される面倒なトレーニングプロセスの価格で提供されます。 本稿では,1段階のみに効率よくGANを訓練できる総合的な訓練手法について検討する。 生成器と識別器の対角的損失に基づいて、GANを対称的GANと非対称的GANの2つのクラスに分類し、2つのクラスを統一する新たな勾配分解法を導入し、両方のクラスを1段階にトレーニングし、トレーニング作業を緩和する。 いくつかのデータセットと様々なネットワークアーキテクチャの計算解析と実験結果から,提案した1段階トレーニングスキームは,ジェネレータと判別器のネットワークアーキテクチャによらず,従来のトレーニングスキームよりも1.5$\times$加速度が得られた。 さらに,提案手法は,データフリーナレッジ蒸留など,他の対比訓練シナリオにも容易に適用できることを示した。 ソースコードはもうすぐ公開します。

Generative Adversarial Networks (GANs) have demonstrated unprecedented success in various image generation tasks. The encouraging results, however, come at the price of a cumbersome training process, during which the generator and discriminator are alternately updated in two stages. In this paper, we investigate a general training scheme that enables training GANs efficiently in only one stage. Based on the adversarial losses of the generator and discriminator, we categorize GANs into two classes, Symmetric GANs and Asymmetric GANs, and introduce a novel gradient decomposition method to unify the two, allowing us to train both classes in one stage and hence alleviate the training effort. Computational analysis and experimental results on several datasets and various network architectures demonstrate that, the proposed one-stage training scheme yields a solid 1.5$\times$ acceleration over conventional training schemes, regardless of the network architectures of the generator and discriminator. Furthermore, we show that the proposed method is readily applicable to other adversarial-training scenarios, such as data-free knowledge distillation. Our source code will be published soon.
翻訳日:2021-03-03 16:56:11 公開日:2021-02-28
# 自己診断と自己偏見:NLPにおけるコーパスベースのバイアス削減の提案

Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP ( http://arxiv.org/abs/2103.00453v1 )

ライセンス: Link先を確認
Timo Schick, Sahana Udupa, Hinrich Sch\"utze(参考訳) インターネットから大規模なフィルターなしのクロールで訓練されると、言語モデルはデータに含まれるすべての種類の望ましくないバイアスを拾い、再現します。 大規模なモデルは、しばしば優れたパフォーマンスを達成するために数百万のトレーニング例を必要とするため、そのようなコンテンツに曝されることを完全に防ぐことは困難です。 本論文では,事前に訓練された言語モデルが好ましくないバイアスを示すか,あるいは有毒なコンテンツを生成するかについて検討する。 そこで本研究では,意図しない動作のテキスト記述だけで問題のあるテキストを生成するモデルの確率を低減できる復号アルゴリズムを提案する。 このアルゴリズムは、手動でキュレートされたワードリストに頼らず、トレーニングデータやモデルのパラメータの変更も必要としない。 このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。

When trained on large, unfiltered crawls from the internet, language models pick up and reproduce all kinds of undesirable biases that can be found in the data: they often generate racist, sexist, violent or otherwise toxic language. As large models often require millions of training examples to achieve good performance, it is difficult to completely prevent them from being exposed to such content. In this paper, we investigate whether pretrained language models at least know when they exhibit some undesirable bias or produce toxic content. Based on our findings, we propose a decoding algorithm that reduces the probability of a model producing problematic text given only a textual description of the undesired behavior. This algorithm does not rely on manually curated word lists, nor does it require any training data or changes to the model's parameters. While our approach does by no means eliminate the issue of language models generating biased text, we believe it to be an important step in this direction.
翻訳日:2021-03-03 16:49:59 公開日:2021-02-28
# NLP-CUET@DravidianLa ngTech-EACL2021:Tran sformerを用いた多言語コード混合テキストからの攻撃言語検出

NLP-CUET@DravidianLa ngTech-EACL2021: Offensive Language Detection from Multilingual Code-Mixed Text using Transformers ( http://arxiv.org/abs/2103.00455v1 )

ライセンス: Link先を確認
Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque(参考訳) インターネットのアクセシビリティが高まり、ソーシャルメディアの利用が促進され、個人は自由に意見を表現できるようになった。 それにもかかわらず、コンテンツ汚染者が攻撃的な投稿やコンテンツを広める場所も作成します。 このような攻撃的な投稿のほとんどは多言語で書かれており、オンライン監視システムを簡単に回避できます。 本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。 タスクでは、Tamil、Malayalam、Kannadaの3つの言語で提供されるデータセットが英語とコードミックスされ、参加者は言語ごとに別々のモデルを実装するように求められます。 これらの課題を達成するために,我々は,2つの機械学習技術(LR,SVM),3つのディープラーニング技術(LSTM,LSTM+Attention)と3つのトランスフォーマー(m-BERT,Indic-BERT,X LM-R)を用いた。 結果は、XLM-Rがタミル語とマラヤラム語の他の技術よりも優れていることを示し、m-BERTはカンナダ語で最も高いスコアを達成している。 提案されたモデルは、それぞれ$0.76$(タミル用)、$0.93$(マラヤラム用)、$0.71$(カンナダ用)の重み付き$f_1$スコアを獲得し、それぞれ$3^{rd}$、$5^{th}$、$4^{th}$となった。

The increasing accessibility of the internet facilitated social media usage and encouraged individuals to express their opinions liberally. Nevertheless, it also creates a place for content polluters to disseminate offensive posts or contents. Most of such offensive posts are written in a cross-lingual manner and can easily evade the online surveillance systems. This paper presents an automated system that can identify offensive text from multilingual code-mixed data. In the task, datasets provided in three languages including Tamil, Malayalam and Kannada code-mixed with English where participants are asked to implement separate models for each language. To accomplish the tasks, we employed two machine learning techniques (LR, SVM), three deep learning (LSTM, LSTM+Attention) techniques and three transformers (m-BERT, Indic-BERT, XLM-R) based methods. Results show that XLM-R outperforms other techniques in Tamil and Malayalam languages while m-BERT achieves the highest score in the Kannada language. The proposed models gained weighted $f_1$ score of $0.76$ (for Tamil), $0.93$ (for Malayalam), and $0.71$ (for Kannada) with a rank of $3^{rd}$, $5^{th}$ and $4^{th}$ respectively.
翻訳日:2021-03-03 16:49:43 公開日:2021-02-28
# NLP-CUET@LT-EDI-EACL 2021:クロスランガル表現学習者を用いた多言語コード混合希望音声検出

NLP-CUET@LT-EDI-EACL 2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner ( http://arxiv.org/abs/2103.00464v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque(参考訳) 近年, ネットプラットフォームからの攻撃的, 攻撃的, 虐待的コンテンツを排除するために, ネガティビティの拡散を規制するシステムが開発されている。 それでも、肯定的、奨励的、支持的な内容を特定するために行われた研究は限られている。 本研究の目的は,ソーシャルメディアの投稿や投稿がホープスピーチを含むかどうかを識別することである。 本研究では, 英語, タミル語, マラヤラム語の希望語を同定する3つのモデルを提案する。 この目標を達成するために、我々は様々な機械学習(サポートベクターマシン、ロジスティック回帰、アンサンブル)、ディープラーニング(畳み込みニューラルネットワーク+長期記憶)、トランスフォーマー(m-BERT, Indic-BERT, XLNet, XLM-Roberta)ベースの手法を用いた。 その結果、XLM-Robertaは、英語、タミル語、マラヤラム語で重み付き$0.93$、$0.60$、$0.85$の$f_1$スコアを得ることで、他のすべてのテクニックを上回っている。 私たちのチームは、3つのタスクでそれぞれ$1^{st}$、$2^{nd}$、$1^{st}$ランクを達成しました。

In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a social media post/comment contains hope speech or not. We propose three distinct models to identify hope speech in English, Tamil and Malayalam language to serve this purpose. To attain this goal, we employed various machine learning (support vector machine, logistic regression, ensemble), deep learning (convolutional neural network + long short term memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods. Results indicate that XLM-Roberta outdoes all other techniques by gaining a weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English, Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and $1^{st}$ rank in these three tasks respectively.
翻訳日:2021-03-03 16:49:15 公開日:2021-02-28
# KANDINSKYPatterns -- パターン分析とマシンインテリジェンスのための実験的探索環境

KANDINSKYPatterns -- An experimental exploration environment for Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2103.00519v1 )

ライセンス: Link先を確認
Andreas Holzinger, Anna Saranti, Heimo Mueller(参考訳) 機械学習は、高品質なトレーニングデータを持つ標準的な認識タスクで非常に成功しています。 機械レベルのパターン認識と人間レベルの概念学習の間にはまだ大きなギャップがあります。 人間はいくつかの例から不確実性の下で学び、これらの概念を一般化して新しい問題を解決することができる。 説明可能なマシンインテリジェンスへの関心が高まっているため、現場の進歩を促進するために既存のアプローチの弱点を分析するために実験環境と診断テストが必要である。 本稿では, cleVR, CLEVERER, CLOSURE, CURI, Bongard-LOGO, V-PROMなどの既存の診断テストとテストデータセットについて考察し, 自身の実験環境を提示する。 すべての知覚が 幾何学的に原始的な個々の要素から成り立っています これは1960年代にHubel & Wieselによって実験的に証明され、NeocognitronやDeep Learningのような機械学習アプローチの基礎となった。 一方、KADINSKYPatternsは計算的に制御可能な性質を持つが、人間の観察者、すなわち制御されたパターンは人間とアルゴリズムの両方で記述できるため、機械知能の国際研究にもう1つの重要な貢献をする。

Machine intelligence is very successful at standard recognition tasks when having high-quality training data. There is still a significant gap between machine-level pattern recognition and human-level concept learning. Humans can learn under uncertainty from only a few examples and generalize these concepts to solve new problems. The growing interest in explainable machine intelligence, requires experimental environments and diagnostic tests to analyze weaknesses in existing approaches to drive progress in the field. In this paper, we discuss existing diagnostic tests and test data sets such as CLEVR, CLEVERER, CLOSURE, CURI, Bongard-LOGO, V-PROM, and present our own experimental environment: The KANDINSKYPatterns, named after the Russian artist Wassily Kandinksy, who made theoretical contributions to compositivity, i.e. that all perceptions consist of geometrically elementary individual components. This was experimentally proven by Hubel &Wiesel in the 1960s and became the basis for machine learning approaches such as the Neocognitron and the even later Deep Learning. While KANDINSKYPatterns have computationally controllable properties on the one hand, bringing ground truth, they are also easily distinguishable by human observers, i.e., controlled patterns can be described by both humans and algorithms, making them another important contribution to international research in machine intelligence.
翻訳日:2021-03-03 16:46:09 公開日:2021-02-28
# オンラインミラーDescentで平均フィールドゲームを拡大

Scaling up Mean Field Games with Online Mirror Descent ( http://arxiv.org/abs/2103.00623v1 )

ライセンス: Link先を確認
Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Lauri\`ere, Georgios Piliouras, Matthieu Geist, Karl Tuyls, Olivier Pietquin(参考訳) オンラインミラーディサント(OMD)を用いた平均フィールドゲーム(MFG)における平衡計算のスケールアップに取り組んでいます。 連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。 この理論結果は、マルチ人口ゲームや一般的なノイズを含む設定にうまく拡張されます。 様々な単一および多集団のMFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。 我々は、数十億の国家を持つMFGの例を初めて解くことにより、OCDがFPよりもスケールアップし、大幅に速く収束することを実証的に示しています。 この研究は、大規模なマルチエージェントおよびマルチ人口ゲームで学習するための最先端を確立します。

We address scaling up equilibrium computation in Mean Field Games (MFGs) using Online Mirror Descent (OMD). We show that continuous-time OMD provably converges to a Nash equilibrium under a natural and well-motivated set of monotonicity assumptions. This theoretical result nicely extends to multi-population games and to settings involving common noise. A thorough experimental investigation on various single and multi-population MFGs shows that OMD outperforms traditional algorithms such as Fictitious Play (FP). We empirically show that OMD scales up and converges significantly faster than FP by solving, for the first time to our knowledge, examples of MFGs with hundreds of billions states. This study establishes the state-of-the-art for learning in large-scale multi-agent and multi-population games.
翻訳日:2021-03-03 16:45:45 公開日:2021-02-28
# デュアル不確実性推定を用いたラベルノイズによる医用画像分類の改善

Improving Medical Image Classification with Label Noise Using Dual-uncertainty Estimation ( http://arxiv.org/abs/2103.00528v1 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Lin Wang, Dwarikanath Mahapatra, Xin Zhao, Mehrtash Harandi, Tom Drummond, Tongliang Liu, Zongyuan Ge(参考訳) ディープニューラルネットワークはデータ駆動であることが知られており、ラベルノイズはモデルのパフォーマンスに著しい影響を与える可能性がある。 近年の研究では、高雑音下でも古典的な画像認識に強い頑健性が示されている。 医療用アプリケーションでは、医療用イメージングデータセットが非対称(クラス依存)ノイズを持ち、高いオブザーバー変動に苦しむため、ラベルノイズを持つデータセットからの学習はより困難です。 本稿では,医用画像における2つの一般的なラベルノイズ,すなわち不整合専門家の意見と誤診断記録の単一目標ラベルノイズを系統的に議論し,定義する。 次に、医用画像分類作業中の2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。 直接不確実性予測とモンテカルロドロップアウトによる不一致ラベルノイズと単一目標ラベルノイズの2つの不確実性推定手法を考案した。 後日、堅牢な学習のために強化ベースのカリキュラムトレーニング手順が導入される。 皮膚病変,前立腺癌,網膜疾患の3つの疾患について広範な実験を行い,本手法の有効性を実証した。 また、評価とベンチマークのための非バイアスの黄金標準データセットを持つ10人以上の眼科医のアノテーションで構成される大規模な再エンジニアリングデータベースもリリースしました。

Deep neural networks are known to be data-driven and label noise can have a marked impact on model performance. Recent studies have shown great robustness to classic image recognition even under a high noisy rate. In medical applications, learning from datasets with label noise is more challenging since medical imaging datasets tend to have asymmetric (class-dependent) noise and suffer from high observer variability. In this paper, we systematically discuss and define the two common types of label noise in medical images - disagreement label noise from inconsistency expert opinions and single-target label noise from wrong diagnosis record. We then propose an uncertainty estimation-based framework to handle these two label noise amid the medical image classification task. We design a dual-uncertainty estimation approach to measure the disagreement label noise and single-target label noise via Direct Uncertainty Prediction and Monte-Carlo-Dropout. A boosting-based curriculum training procedure is later introduced for robust learning. We demonstrate the effectiveness of our method by conducting extensive experiments on three different diseases: skin lesions, prostate cancer, and retinal diseases. We also release a large re-engineered database that consists of annotations from more than ten ophthalmologists with an unbiased golden standard dataset for evaluation and benchmarking.
翻訳日:2021-03-03 16:41:49 公開日:2021-02-28
# スノーハザードインジケーターの積雪夜間変換器とセマンティックセグメンテーションラベル類似性

Snowy Night-to-Day Translator and Semantic Segmentation Label Similarity for Snow Hazard Indicator ( http://arxiv.org/abs/2103.00545v1 )

ライセンス: Link先を確認
Takato Yasuno, Hiroaki Sugawara, Junichiro Fujii, Ryuto Yoshida(参考訳) 2021年、日本は通常の3倍以上の降雪を記録したため、道路利用者は危険な状況に遭遇する可能性がある。 雪による視界不良は交通事故を引き起こします。 例えば、2021年1月19日、乾燥した雪と27m/sの強い風速のために吹雪が発生し、展望は効果が無かった。 ホワイトアウト現象により17名が負傷した複数の事故が発生し、134台の車両が1kmにわたって10時間積み上げられた。 夜の時間帯には気温が下がり、路面は凍る傾向がある。 道路面のCCTV画像は,主要地点の状況を同時に監視できるという利点がある。 道路管理者は、夜間でも路面状態のため、道路閉鎖や除雪作業の決定を行う必要があります。 並行して、危険な道路表面の警告を道路利用者に提供する。 本稿では, 夜間降雪画像から道路表面積が生成する雪害指標を, 条件GAN, pix2pixを用いて自動化する手法を提案する。 また,道路面と積雪ROIの予測には,道路表面の積雪量を自動的に算出する積雪危険指標と背骨MobileNetを用いたDeepLabv3+のセマンティックセグメンテーションが用いられる。 2021年1月19日から21日にかけての冬季の寒冷地と積雪地域に適用されたいくつかの結果を示し, 積雪の夜間フェイクアウトプットと実際の積雪日画像との類似度が高いことの有用性について述べる。

In 2021, Japan recorded more than three times as much snowfall as usual, so road user maybe come across dangerous situation. The poor visibility caused by snow triggers traffic accidents. For example, 2021 January 19, due to the dry snow and the strong wind speed of 27 m / s, blizzards occurred and the outlook has been ineffective. Because of the whiteout phenomenon, multiple accidents with 17 casualties occurred, and 134 vehicles were stacked up for 10 hours over 1 km. At the night time zone, the temperature drops and the road surface tends to freeze. CCTV images on the road surface have the advantage that we enable to monitor the status of major points at the same time. Road managers are required to make decisions on road closures and snow removal work owing to the road surface conditions even at night. In parallel, they would provide road users to alert for hazardous road surfaces. This paper propose a method to automate a snow hazard indicator that the road surface region is generated from the night snow image using the Conditional GAN, pix2pix. In addition, the road surface and the snow covered ROI are predicted using the semantic segmentation DeepLabv3+ with a backbone MobileNet, and the snow hazard indicator to automatically compute how much the night road surface is covered with snow. We demonstrate several results applied to the cold and snow region in the winter of Japan January 19 to 21 2021, and mention the usefulness of high similarity between snowy night-to-day fake output and real snowy day image for night snow visibility.
翻訳日:2021-03-03 16:41:27 公開日:2021-02-28
# セマンティクスセグメンテーションにおけるボトムアップアプローチによる競争的プレーの実現

Achieving Competitive Play Through Bottom-Up Approach in Semantic Segmentation ( http://arxiv.org/abs/2103.00657v1 )

ライセンス: Link先を確認
E. Pryzant, Q. Deng, B. Mei, E. Shrestha(参考訳) ニューラルネットワークのルネサンスにより、オブジェクト検出はボトムアップ認識問題からトップダウンアプローチへと徐々にシフトしている。 クラスアルゴリズムのベストは、オブジェクトのほぼ完全なリストを列挙し、それぞれをオブジェクト/notオブジェクトに分類する。 本稿では,視覚に基づくオブジェクト認識タスクのボトムアップアプローチと,競争力のあるゲームプレイを実現することで,強力なパフォーマンスを実現することができることを示す。 本稿では,完全畳み込みニューラルネットワークを用いて物体の4つの極点(上・左・下・右端)と1つの中心点を検出するpucknetを提案する。 オブジェクト検出は、暗黙的な特徴学習や領域分類なしに、純粋にキーポイントに基づく外観推定問題である。 提案手法は,COCOテストデブ上でのバウンディングボックスAPが36.4%で,クラス領域に基づく検出法で最良である。 さらに、推定される極端点は直交する物体マスクに直結し、COCO Mask APは17.6%であり、バニラ境界ボックスのMask APよりも優れている。 極点のガイド付きセグメンテーションによりさらにこれを 32.1% Mask AP に改善する。 我々は,PuckNetビジョンシステムをSuperTuxKartゲームに適用し,動的かつ協調的なマルチプレイヤー環境での競争力を実現する能力をテストする。

With the renaissance of neural networks, object detection has slowly shifted from a bottom-up recognition problem to a top-down approach. Best in class algorithms enumerate a near-complete list of objects and classify each into object/not object. In this paper, we show that strong performance can still be achieved using a bottom-up approach for vision-based object recognition tasks and achieve competitive video game play. We propose PuckNet, which is used to detect four extreme points (top, left, bottom, and right-most points) and one center point of objects using a fully convolutional neural network. Object detection is then a purely keypoint-based appearance estimation problem, without implicit feature learning or region classification. The method proposed herein performs on-par with the best in class region-based detection methods, with a bounding box AP of 36.4% on COCO test-dev. In addition, the extreme points estimated directly resolve into a rectangular object mask, with a COCO Mask AP of 17.6%, outperforming the Mask AP of vanilla bounding boxes. Guided segmentation of extreme points further improves this to 32.1% Mask AP. We applied the PuckNet vision system to the SuperTuxKart video game to test it's capacity to achieve competitive play in dynamic and co-operative multiplayer environments.
翻訳日:2021-03-03 16:40:58 公開日:2021-02-28
# 情報融合のための識別多重正準相関解析

Discriminative Multiple Canonical Correlation Analysis for Information Fusion ( http://arxiv.org/abs/2103.00361v1 )

ライセンス: Link先を確認
Lei Gao, Lin Qi, Enqing Chen, Ling Guan(参考訳) 本稿では,マルチモーダル情報解析と融合のための識別型多重正準相関解析(DMCCA)を提案する。 DMCCAはマルチモーダル情報表現からより差別的な特徴を抽出することができる。 具体的には,クラス内相関を最大化し,クラス間相関を最小化し,マルチモーダル情報の利用性を向上させるための投影方向を見出した。 このプロセスでは, DMCCAによる最適投影次元を精度良く予測できることを解析的に示し, 性能と計算コストの大幅な削減の両立を図った。 さらに、DMCCAでは、CCA(Canonical Correlation Analysis)、MCCA(Multiple Canonical Correlation Analysis)、DCCA(Idriminative Canonical Correlation Analysis)が特別なケースであることを確認し、Canonical Correlation Analysisの統一フレームワークを確立しました。 DMCCAのプロトタイプを実装し、手書きの数字認識と人間の感情認識でその性能を実証します。 DMCCAは, 従来のシリアル核融合法, CCA, MCCA, DCCAよりも優れていた。

In this paper, we propose the Discriminative Multiple Canonical Correlation Analysis (DMCCA) for multimodal information analysis and fusion. DMCCA is capable of extracting more discriminative characteristics from multimodal information representations. Specifically, it finds the projected directions which simultaneously maximize the within-class correlation and minimize the between-class correlation, leading to better utilization of the multimodal information. In the process, we analytically demonstrate that the optimally projected dimension by DMCCA can be quite accurately predicted, leading to both superior performance and substantial reduction in computational cost. We further verify that Canonical Correlation Analysis (CCA), Multiple Canonical Correlation Analysis (MCCA) and Discriminative Canonical Correlation Analysis (DCCA) are special cases of DMCCA, thus establishing a unified framework for Canonical Correlation Analysis. We implement a prototype of DMCCA to demonstrate its performance in handwritten digit recognition and human emotion recognition. Extensive experiments show that DMCCA outperforms the traditional methods of serial fusion, CCA, MCCA and DCCA.
翻訳日:2021-03-03 16:20:45 公開日:2021-02-28
# 2次元相関解析のための完全識別テンソル表現学習

A Complete Discriminative Tensor Representation Learning for Two-Dimensional Correlation Analysis ( http://arxiv.org/abs/2103.00367v1 )

ライセンス: Link先を確認
Lei Gao, and Ling Guan(参考訳) 2次元データ解析の有効なツールとして、2次元正準相関解析(2DCCA)は、元の2次元(2D)データの固有構造情報を保存できるだけでなく、計算複雑性を効果的に低減する。 しかし、2DCCAは教師なしの性質のため、十分な識別表現を抽出できないため、満足のいく性能は得られない。 本稿では,2次元信号解析のための線形相関解析に基づく完全判別テンソル表現学習(CDTRL)法を提案する。 画像)。 本文は, 完全判別テンソル表現戦略の導入により, 2次元データセット間での識別表現を明らかにする, 抽出する有効な手段が得られ, 結果が向上したことを示す。 実験の結果,提案したCDTRLは評価されたデータセット上で最先端の手法よりも優れていた。

As an effective tool for two-dimensional data analysis, two-dimensional canonical correlation analysis (2DCCA) is not only capable of preserving the intrinsic structural information of original two-dimensional (2D) data, but also reduces the computational complexity effectively. However, due to the unsupervised nature, 2DCCA is incapable of extracting sufficient discriminatory representations, resulting in an unsatisfying performance. In this letter, we propose a complete discriminative tensor representation learning (CDTRL) method based on linear correlation analysis for analyzing 2D signals (e.g. images). This letter shows that the introduction of the complete discriminatory tensor representation strategy provides an effective vehicle for revealing, and extracting the discriminant representations across the 2D data sets, leading to improved results. Experimental results show that the proposed CDTRL outperforms state-of-the-art methods on the evaluated data sets.
翻訳日:2021-03-03 16:20:25 公開日:2021-02-28
# クロスオブジェクトFew-Shot神経症状検出のための非監視領域適応

Unsupervised Domain Adaptation for Cross-Subject Few-Shot Neurological Symptom Detection ( http://arxiv.org/abs/2103.00606v1 )

ライセンス: Link先を確認
Bingzhao Zhu, Mahsa Shoaran(参考訳) 現代の機械学習ツールは、神経障害の症状を検出することに有望である。 しかし、現在のアプローチは典型的には各主題に固有の分類器を訓練する。 この被験者固有の訓練は、各患者からの長いラベル付き記録を必要とするため、記録が限られた新規患者の症状を検出できない。 本論文では, 対人ネットワークに基づく非監視的領域適応手法を提案する。 敵意学習を用いて,複数の患者から得られた特徴を主観不変空間に符号化し,判別モデルを用いて主観不変特徴を訓練し,予測を行った。 てんかん患者9例の頭蓋内脳波(iEEG)記録について検討した。 本手法は,従来手法に比べて1ショット識別精度が9.4\%向上したクロスサブジェクト発作検出を可能にした。

Modern machine learning tools have shown promise in detecting symptoms of neurological disorders. However, current approaches typically train a unique classifier for each subject. This subject-specific training scheme requires long labeled recordings from each patient, thus failing to detect symptoms in new patients with limited recordings. This paper introduces an unsupervised domain adaptation approach based on adversarial networks to enable few-shot, cross-subject epileptic seizure detection. Using adversarial learning, features from multiple patients were encoded into a subject-invariant space and a discriminative model was trained on subject-invariant features to make predictions. We evaluated this approach on the intracranial EEG (iEEG) recordings from 9 patients with epilepsy. Our approach enabled cross-subject seizure detection with a 9.4\% improvement in 1-shot classification accuracy compared to the conventional subject-specific scheme.
翻訳日:2021-03-03 16:20:08 公開日:2021-02-28
# 従来の人工ニューラルネットワークのスパイクニューラルネットワークへの最適変換

Optimal Conversion of Conventional Artificial Neural Networks to Spiking Neural Networks ( http://arxiv.org/abs/2103.00476v1 )

ライセンス: Link先を確認
Shikuang Deng, Shi Gu(参考訳) スパイクニューラルネットワーク(SNN)は、非同期離散信号を処理するためにスパイクニューロンからなる生物由来の人工ニューラルネットワーク(ANN)である。 ニューロモルフィックハードウェアの消費電力と推論速度はより効率的であるが、SNNは離散性のため、スクラッチから直接スパイクで訓練することが通常困難である。 代替として、従来のANNをSNNに変換するためには、ANNの重みをコピーし、SNNのニューロンのスパイク閾値電位を調整し、多くの努力が注がれている。 研究者は新しいSNNアーキテクチャと変換アルゴリズムを設計し、変換エラーを低減した。 しかし、効果的な変換は、フィールドに欠けているロス関数の効率的な近似 \DSK{of} で SNN と ANN のアーキテクチャの違いに対処するべきである。 本研究では、再帰的還元による変換誤差を層方向に要約して解析し、しきい値バランスとソフトリセット機構を組み合わせることで、重みをターゲットSNNに転送する新しい戦略パイプラインを提案する。 このパイプラインは、変換されたSNNと従来のANNの間で、典型的なSNNシミュレーション時間のうち、$\sim1/10$しか正確に損失しない。 提案手法は,SNNのエネルギーとメモリの制限によるサポートを向上し,組込みプラットフォームに組み込むことが期待できる。

Spiking neural networks (SNNs) are biology-inspired artificial neural networks (ANNs) that comprise of spiking neurons to process asynchronous discrete signals. While more efficient in power consumption and inference speed on the neuromorphic hardware, SNNs are usually difficult to train directly from scratch with spikes due to the discreteness. As an alternative, many efforts have been devoted to converting conventional ANNs into SNNs by copying the weights from ANNs and adjusting the spiking threshold potential of neurons in SNNs. Researchers have designed new SNN architectures and conversion algorithms to diminish the conversion error. However, an effective conversion should address the difference between the SNN and ANN architectures with an efficient approximation \DSK{of} the loss function, which is missing in the field. In this work, we analyze the conversion error by recursive reduction to layer-wise summation and propose a novel strategic pipeline that transfers the weights to the target SNN by combining threshold balance and soft-reset mechanisms. This pipeline enables almost no accuracy loss between the converted SNNs and conventional ANNs with only $\sim1/10$ of the typical SNN simulation time. Our method is promising to get implanted onto embedded platforms with better support of SNNs with limited energy and memory.
翻訳日:2021-03-03 16:08:59 公開日:2021-02-28
# 指数ランダムグラフモデルのための適合性試験の定常性

A Stein Goodness of fit Test for Exponential Random Graph Models ( http://arxiv.org/abs/2103.00580v1 )

ライセンス: Link先を確認
Wenkai Xu and Gesine Reinert(参考訳) 交換可能な指数ランダムグラフモデル (ERGM) に対する適合性試験手順の新規な非パラメトリック性について, 単一のネットワーク実現が観察されたときに提案し, 分析する。 このテストは、ターゲットの非正規化ERGM密度から観測が生成される確率を決定する。 私たちのテスト統計は、Stein法で構築されたカーネルHilbert空間内の関数とERGMのための離散的なStein演算子を結合して構築されたカーネルStein不一致から導かれる。 テストは、ターゲットのergmによるシミュレーションネットワークに基づくモンテカルロテストである。 ERGMのクラスに対する試験手順に関する理論的特性を示す。 シミュレーション研究と実ネットワーク応用について述べる。

We propose and analyse a novel nonparametric goodness of fit testing procedure for exchangeable exponential random graph models (ERGMs) when a single network realisation is observed. The test determines how likely it is that the observation is generated from a target unnormalised ERGM density. Our test statistics are derived from a kernel Stein discrepancy, a divergence constructed via Steins method using functions in a reproducing kernel Hilbert space, combined with a discrete Stein operator for ERGMs. The test is a Monte Carlo test based on simulated networks from the target ERGM. We show theoretical properties for the testing procedure for a class of ERGMs. Simulation studies and real network applications are presented.
翻訳日:2021-03-03 16:08:37 公開日:2021-02-28
# 生物学とコンピュータビジョンからみた個体識別の展望

Perspectives on individual animal identification from biology and computer vision ( http://arxiv.org/abs/2103.00560v1 )

ライセンス: Link先を確認
Maxime Vidal and Nathan Wolf and Beth Rosenberg and Bradley P. Harris and Alexander Mathis(参考訳) 個々の動物を特定することは多くの生物学的調査にとって重要である。 現在の識別手法のいくつかの制限に応えて、新しい自動コンピュータビジョンアプローチが強力な性能で登場した。 本稿では,コンピュータ科学者と生物学者の両方に利用可能なツールの概要を提供し,それらの応用について論じるコンピュータビジョン識別技術の最近の進歩を概観する。 動物識別プロジェクトを始めるための勧告を提示し、現在の限界を説明し、将来どのように対処されるかを提案する。

Identifying individual animals is crucial for many biological investigations. In response to some of the limitations of current identification methods, new automated computer vision approaches have emerged with strong performance. Here, we review current advances of computer vision identification techniques to provide both computer scientists and biologists with an overview of the available tools and discuss their applications. We conclude by offering recommendations for starting an animal identification project, illustrate current limitations and propose how they might be addressed in the future.
翻訳日:2021-03-03 16:06:49 公開日:2021-02-28
# PairRank:オンラインペアワイズ学習を分割してランク付けする

PairRank: Online Pairwise Learning to Rank by Divide-and-Conquer ( http://arxiv.org/abs/2103.00368v1 )

ライセンス: Link先を確認
Yiling Jia, Huazheng Wang, Stephen Guo, Hongning Wang(参考訳) online learning to rank (ol2r)は、ユーザとのインタラクションからランク付けを直接最適化することで、明示的な関連アノテーションの必要性をなくす。 しかし、必要な探索は、オフライン学習の成功した実践からランク付けへと追いやられ、OL2Rの実証的なパフォーマンスと実用性が制限されます。 本研究は,オンラインモデルランキングのペアワイズ学習を推定することを提案する。 各ラウンドでは、候補文書は推定される一対のランク順に対するモデルの信頼に従って分割されランク付けされ、探索は不確定な文書、すなわち \emph{divide-and-conquer} に対してのみ行われる。 オンラインソリューションの理論的収束と期待されたランキングパフォーマンスを結びつける、誤った順序付けされたペアの数で直接定義された後悔が証明される。 ベンチマークデータセットをランク付けする2つの公開学習におけるOL2Rベースラインの広範なリストと比較すると,提案手法の有効性が示されている。

Online Learning to Rank (OL2R) eliminates the need of explicit relevance annotation by directly optimizing the rankers from their interactions with users. However, the required exploration drives it away from successful practices in offline learning to rank, which limits OL2R's empirical performance and practical applicability. In this work, we propose to estimate a pairwise learning to rank model online. In each round, candidate documents are partitioned and ranked according to the model's confidence on the estimated pairwise rank order, and exploration is only performed on the uncertain pairs of documents, i.e., \emph{divide-and-conquer}. Regret directly defined on the number of mis-ordered pairs is proven, which connects the online solution's theoretical convergence with its expected ranking performance. Comparisons against an extensive list of OL2R baselines on two public learning to rank benchmark datasets demonstrate the effectiveness of the proposed solution.
翻訳日:2021-03-03 15:57:57 公開日:2021-02-28
# 実践における自動テストケース生成の導入について:成功事例と教訓

On Introducing Automatic Test Case Generation in Practice: A Success Story and Lessons Learned ( http://arxiv.org/abs/2103.00465v1 )

ライセンス: Link先を確認
Matteo Brunetto, Giovanni Denaro, Leonardo Mariani, Mauro Pezz\`e(参考訳) 自動化のレベルと品質は、ソフトウェアテスト活動に劇的に影響し、テストプロセスのコストと有効性を決定し、最終製品の品質に大きく影響します。 産業プラクティスにおける多くのテストアクティビティ(品質プロセスの管理、大規模なテストスイートの実行、回帰テストスイートの管理など)を自動化するコストとメリットはよく理解され、文書化されているが、自動化テストケース生成ツールの最近の進歩にもかかわらず、産業プラクティスにおけるシステムテストスイートの自動生成のメリットと障害はまだ報告されていない。 テストケースを自動的に生成するプロプライエタリなツールは、大規模なソフトウェア組織では一般的なプラクティスとなり、いくつかのアプリケーションドメインやテストレベルで商用ツールが利用できるようになる。 しかし、中小規模のソフトウェア企業でシステムテストケースを生成することは、まだ手作業、非効率、アドホックな活動です。 本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。 我々は、企業の開発プロセスに自動テストケース生成を導入する際に直面する技術的および組織的障害について述べ、その状況において私たちがうまく経験したソリューションを示します。 特に,中規模企業が多国籍企業向けに開発したカスタマイズされたerpアプリケーションを参照して,テストケース生成の自動化の問題を説明し,最先端のguiテストジェネレータであるabtを産業環境に調整して開発したテストケースジェネレータであるabt2.0を提案する。 本稿では,abt2.0の新機能を紹介するとともに,これらの新機能が直面した課題に対する対処方法について述べる。

The level and quality of automation dramatically affects software testing activities, determines costs and effectiveness of the testing process, and largely impacts on the quality of the final product. While costs and benefits of automating many testing activities in industrial practice (including managing the quality process, executing large test suites, and managing regression test suites) are well understood and documented, the benefits and obstacles of automatically generating system test suites in industrial practice are not well reported yet, despite the recent progresses of automated test case generation tools. Proprietary tools for automatically generating test cases are becoming common practice in large software organisations, and commercial tools are becoming available for some application domains and testing levels. However, generating system test cases in small and medium-size software companies is still largely a manual, inefficient and ad-hoc activity. This paper reports our experience in introducing techniques for automatically generating system test suites in a medium-size company. We describe the technical and organisational obstacles that we faced when introducing automatic test case generation in the development process of the company, and present the solutions that we successfully experienced in that context. In particular, the paper discusses the problems of automating the generation of test cases by referring to a customised ERP application that the medium-size company developed for a third party multinational company, and presents ABT2.0, the test case generator that we developed by tailoring ABT, a research state-of-the-art GUI test generator, to their industrial environment. This paper presents the new features of ABT2.0, and discusses how these new features address the issues that we faced.
翻訳日:2021-03-03 15:57:40 公開日:2021-02-28
# Kaggle仮想コミュニティのM5競争に対する社会的影響を探る

Exploring the social influence of Kaggle virtual community on the M5 competition ( http://arxiv.org/abs/2103.00501v1 )

ライセンス: Link先を確認
Xixi Li and Yun Bai and Yanfei Kang(参考訳) 前回の予測競争に対するM5の最も重要な違いの1つは、データサイエンティストと機械学習実践者のオンラインコミュニティであるKaggleで開催されたことです。 Kaggleプラットフォームでは、オンラインノートブックやディスカッションなどの仮想コミュニティを構築して、モデルや機能の選択、損失関数などについて議論することができる。 本論文では,仮想コミュニティの競争に対する社会的影響について検討する。 まず、トピックモデリングとトレンド分析によって、M5仮想コミュニティの内容を調べます。 さらに,仮想コミュニティの潜在的な関係ネットワークを特定するために,ソーシャルメディア分析を行う。 ネットワークにおいて重要な役割を見つけ,LightGBM関連情報をネットワーク内に広める上で,その役割について検討する。 本研究は,参加者に仮想コミュニティが与えるダイナミックなメカニズムを深く理解し,今後のオンラインコンペティションに潜在的に影響を及ぼす可能性を示唆する。

One of the most significant differences of M5 over previous forecasting competitions is that it was held on Kaggle, an online community of data scientists and machine learning practitioners. On the Kaggle platform, people can form virtual communities such as online notebooks and discussions to discuss their models, choice of features, loss functions, etc. This paper aims to study the social influence of virtual communities on the competition. We first study the content of the M5 virtual community by topic modeling and trend analysis. Further, we perform social media analysis to identify the potential relationship network of the virtual community. We find some key roles in the network and study their roles in spreading the LightGBM related information within the network. Overall, this study provides in-depth insights into the dynamic mechanism of the virtual community influence on the participants and has potential implications for future online competitions.
翻訳日:2021-03-03 15:57:11 公開日:2021-02-28
# 決定論的仮想軌道を持つ加速ジャジンスキー推定器

Accelerated Jarzynski Estimator with Deterministic Virtual Trajectories ( http://arxiv.org/abs/2103.00529v1 )

ライセンス: Link先を確認
Nobumasa Ishida and Yoshihiko Hasegawa(参考訳) ジャージンスキー推定器は非平衡統計物理学を用いて確率分布の分配関数を数値的に得る強力なツールである。 推定器はジャジンスキー等式を通じてシミュレーションされたランゲビン力学の軌道で分割関数を再構築する。 しかし、元の推定器は、確率力学の希少な軌道に依存するため、収束が遅い。 本稿では,ハミルトニアンダイナミクスの下で拡張状態空間で生成される決定論的仮想軌道を導入することにより,収束を著しく加速する手法を提案する。 理論上,本手法は,高調波ポテンシャルに対するランジュバンダイナミクスとゼロ分散推定を持つナイーブ推定器と比較して,二階加速を実現する。 さらに,提案手法が従来の手法より優れている3つのマルチモーダル分布の数値実験を行い,理論的説明を行う。

The Jarzynski estimator is a powerful tool that uses nonequilibrium statistical physics to numerically obtain partition functions of probability distributions. The estimator reconstructs partition functions with trajectories of simulated Langevin dynamics through the Jarzynski equality. However, the original estimator suffers from its slow convergence because it depends on rare trajectories of stochastic dynamics. In this paper we present a method to significantly accelerate the convergence by introducing deterministic virtual trajectories generated in augmented state space under Hamiltonian dynamics. We theoretically show that our approach achieves second-order acceleration compared to a naive estimator with Langevin dynamics and zero variance estimation on harmonic potentials. Moreover, we conduct numerical experiments on three multimodal distributions where the proposed method outperforms the conventional method, and provide theoretical explanations.
翻訳日:2021-03-03 15:56:58 公開日:2021-02-28
# 分散トレーニングシステムにおける勾配圧縮の有用性について

On the Utility of Gradient Compression in Distributed Training Systems ( http://arxiv.org/abs/2103.00543v1 )

ライセンス: Link先を確認
Saurabh Agarwal, Hongyi Wang, Shivaram Venkataraman, Dimitris Papailiopoulos(参考訳) データセットの急速な成長とニューラルネットワークアーキテクチャのスケールは、分散トレーニングを必要としている。 同期データ並列トレーニングにおける通信ボトルネックの存在を強調し、これらのボトルネックを軽減するため、機械学習コミュニティはグラデーションとモデルの圧縮メソッドの開発に重点を置いています。 並行して、システムコミュニティは分散トレーニングをスピードアップするためにいくつかのハイパフォーマンスコンピューティング(hpc)技術を採用した。 本研究では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。 意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。 我々は,この現象の根本原因を特定するために広範囲な調査を行い,様々なシステム構成に対する勾配圧縮の利点を特定するために使用できる性能モデルを提供する。 解析に基づいて, 勾配圧縮法が満足すべき望ましい特性のリストを提案し, それらが有意義なエンドツーエンドの高速化を実現する。

Rapid growth in data sets and the scale of neural network architectures have rendered distributed training a necessity. A rich body of prior work has highlighted the existence of communication bottlenecks in synchronous data-parallel training.To alleviate these bottlenecks, the machine learning community has largely focused on developing gradient and model compression methods. In parallel, the systems community has adopted several High Performance Computing (HPC)techniques to speed up distributed training. In this work, we evaluate the efficacy of gradient compression methods and compare their scalability with optimized implementations of synchronous data-parallel SGD. Surprisingly, we observe that due to computation overheads introduced by gradient compression, the net speedup over vanilla data-parallel training is marginal, if not negative. We conduct an extensive investigation to identify the root causes of this phenomenon, and offer a performance model that can be used to identify the benefits of gradient compression for a variety of system setups. Based on our analysis, we propose a list of desirable properties that gradient compression methods should satisfy, in order for them to provide a meaningful end-to-end speedup
翻訳日:2021-03-03 15:56:46 公開日:2021-02-28
# 顎・動脈瘤検出のための機械学習 : 生理学的に現実的な仮想患者データベースへの応用

Machine learning for detection of stenoses and aneurysms: application in a physiologically realistic virtual patient database ( http://arxiv.org/abs/2103.00599v1 )

ライセンス: Link先を確認
Gareth Jones, Jim Parr, Perumal Nithiarasu, Sanjay Pant(参考訳) 本研究は,ヒト動脈系におけるステントオースと動脈瘤の存在を検出するための機械学習(ML)手法の応用について述べる。 動脈硬化症(CAS)、鎖骨下動脈硬化症(SAC)、末梢動脈疾患(PAD)、腹部大動脈瘤(AAA)の4つの主要な形態が検討されている。 ml法は,8,868名の健常者を含む,生理的に現実的な仮想患者データベース (vpd) 上で訓練し,その4つの病型を含むように拡張した。 Naive Bayes, Logistic Regression, Support Vector Machine, Multi-layer Perceptron, Random Forests, Gradient Boostingの6つのMLメソッドが分類精度と比較され,Random ForestとGradient Boostingのツリーベース手法が他のアプローチよりも優れていることが明らかになった。 ML手法の性能は、F1スコアと感性および特異性の計算によって定量化される。 すべての6つの測定値を使用する場合、CASおよびPADでは0.9より大きい最大F1スコア、SASでは0.85以上、低重度および高重度のAAAでは0.98より大きいことが判明した。 感度と特異性は、CASおよびPADでは90%以上、SASでは85%以上、低重度AAAと高重度AAAでは98%以上である。 測定回数を減らすと、3つの測定が使用されると5%未満で性能が低下し、2つの測定が分類にのみ使用される場合は10%未満であることが判明しました。 AAAでは、F1スコアが0.85以上、それに対応する感度と85%以上の特異性は、1つの測定だけを使用すると達成可能である。 結果は、圧力や流量を確実に測定できるウェアラブルデバイスを介してAAAの監視とスクリーニングを追求することを奨励しています。

This study presents an application of machine learning (ML) methods for detecting the presence of stenoses and aneurysms in the human arterial system. Four major forms of arterial disease -- carotid artery stenosis (CAS), subclavian artery stenosis (SAC), peripheral arterial disease (PAD), and abdominal aortic aneurysms (AAA) -- are considered. The ML methods are trained and tested on a physiologically realistic virtual patient database (VPD) containing 28,868 healthy subjects, which is adapted from the authors previous work and augmented to include the four disease forms. Six ML methods -- Naive Bayes, Logistic Regression, Support Vector Machine, Multi-layer Perceptron, Random Forests, and Gradient Boosting -- are compared with respect to classification accuracies and it is found that the tree-based methods of Random Forest and Gradient Boosting outperform other approaches. The performance of ML methods is quantified through the F1 score and computation of sensitivities and specificities. When using all the six measurements, it is found that maximum F1 scores larger than 0.9 are achieved for CAS and PAD, larger than 0.85 for SAS, and larger than 0.98 for both low- and high-severity AAAs. Corresponding sensitivities and specificities are larger than 90% for CAS and PAD, larger than 85% for SAS, and larger than 98% for both low- and high-severity AAAs. When reducing the number of measurements, it is found that the performance is degraded by less than 5% when three measurements are used, and less than 10% when only two measurements are used for classification. For AAA, it is shown that F1 scores larger than 0.85 and corresponding sensitivities and specificities larger than 85% are achievable when using only a single measurement. The results are encouraging to pursue AAA monitoring and screening through wearable devices which can reliably measure pressure or flow-rates
翻訳日:2021-03-03 15:56:28 公開日:2021-02-28
# 悪意あるAndroidアプリケーションの検出: 古典的機械学習対. クラスタリングを統合したディープニューラルネットワーク

Detection of Malicious Android Applications: Classical Machine Learning vs. Deep Neural Network Integrated with Clustering ( http://arxiv.org/abs/2103.00637v1 )

ライセンス: Link先を確認
Hemant Rathore, Sanjay K. Sahay, Shivin Thukral, Mohit Sewak(参考訳) 今日、アンチマルウェアコミュニティは、敵が開発するマルウェア攻撃の高度化と量の増加により、課題に直面しています。 従来のマルウェア検出メカニズムは、次世代のマルウェア攻撃に対応できない。 そこで本稿では,機械学習とクラスタリングを統合したディープラーニングに基づく効果的かつ効率的なandroidマルウェア検出モデルを提案する。 androidのマルウェア検出モデルを構築するために,様々な性能指標に対する特徴量削減,分類,クラスタリングアルゴリズムの包括的研究を行った。 実験の結果,Random Forest を用いたマルウェア検出モデルでは,性能指標の大部分がディープニューラルネットワークやその他の分類器に偏っていることがわかった。 ベースラインのランダムフォレストモデルは特徴の減少がなく、最高AUC 99.4%を達成した。 また、ランダムフォレストと統合されたクラスタリングによるベクトル空間の分離により、AUCは1つのクラスタで99.6%に向上し、別のクラスタでAndroidマルウェアを直接検出した。 さらに,検出モデルにおける特徴量削減は,検出モデルの有効性に多くのペナルティを伴わずに,モデル効率(トレーニングおよびテスト時間)を向上することがわかった。

Today anti-malware community is facing challenges due to the ever-increasing sophistication and volume of malware attacks developed by adversaries. Traditional malware detection mechanisms are not able to cope-up with next-generation malware attacks. Therefore in this paper, we propose effective and efficient Android malware detection models based on machine learning and deep learning integrated with clustering. We performed a comprehensive study of different feature reduction, classification and clustering algorithms over various performance metrics to construct the Android malware detection models. Our experimental results show that malware detection models developed using Random Forest eclipsed deep neural network and other classifiers on the majority of performance metrics. The baseline Random Forest model without any feature reduction achieved the highest AUC of 99.4%. Also, the segregating of vector space using clustering integrated with Random Forest further boosted the AUC to 99.6% in one cluster and direct detection of Android malware in another cluster, thus reducing the curse of dimensionality. Additionally, we found that feature reduction in detection models does improve the model efficiency (training and testing time) many folds without much penalty on the effectiveness of the detection model.
翻訳日:2021-03-03 15:55:52 公開日:2021-02-28
# 効率的なAndroidマルウェア検出のための重要なパーミッションの同定

Identification of Significant Permissions for Efficient Android Malware Detection ( http://arxiv.org/abs/2103.00643v1 )

ライセンス: Link先を確認
Hemant Rathore, Sanjay K. Sahay, Ritvik Rajvanshi, Mohit Sewak(参考訳) Googleがスマートフォン向けAndroid OSを発表して以来、マルウェアは3Vで繁栄している。 容積、速度および変化。 最近のレポートでは、ビジネス/産業モバイルアプリの1つに1つが機密個人データを漏洩しています。 従来のシグネチャ/ヒューリスティックベースのマルウェア検出システムは、現在のマルウェア問題に対処できず、Androidエコシステムを脅かす。 そのため、近年、機械学習とディープラーニングに基づくマルウェア検出システムの研究が始まっている。 本稿では,重要なAndroidパーミッションを特定するための包括的特徴分析を行い,機械学習とディープニューラルネットワークを用いた効率的なAndroidマルウェア検出システムを提案する。 分散しきい値,オートエンコーダ,主成分分析から得られた16ドルのパーミッション(全セットの8.%)のセットを構築して,モデル精度に大きな妥協を伴わずに,より少ない列車とテスト時間を消費するマルウェア検出エンジンを構築した。 私たちの実験結果は、ランダムな森林分類器に基づくAndroidマルウェア検出モデルが最もバランス良く、現在の最先端のシステムよりも優れた曲線スコアで最高面積の97.7\%$を達成していることを示しています。 また、ディープニューラルネットワークは、ベースライン結果に匹敵する精度を持つが、計算のペナルティは大きいことも観察した。

Since Google unveiled Android OS for smartphones, malware are thriving with 3Vs, i.e. volume, velocity, and variety. A recent report indicates that one out of every five business/industry mobile application leaks sensitive personal data. Traditional signature/heuristic- based malware detection systems are unable to cope up with current malware challenges and thus threaten the Android ecosystem. Therefore recently researchers have started exploring machine learning and deep learning based malware detection systems. In this paper, we performed a comprehensive feature analysis to identify the significant Android permissions and propose an efficient Android malware detection system using machine learning and deep neural network. We constructed a set of $16$ permissions ($8\%$ of the total set) derived from variance threshold, auto-encoders, and principal component analysis to build a malware detection engine that consumes less train and test time without significant compromise on the model accuracy. Our experimental results show that the Android malware detection model based on the random forest classifier is most balanced and achieves the highest area under curve score of $97.7\%$, which is better than the current state-of-art systems. We also observed that deep neural networks attain comparable accuracy to the baseline results but with a massive computational penalty.
翻訳日:2021-03-03 15:55:34 公開日:2021-02-28
# ニューラルネットワークによる古典的可積分系の構築

Neural Network Approach to Construction of Classical Integrable Systems ( http://arxiv.org/abs/2103.00372v1 )

ライセンス: Link先を確認
Fumihiro Ishikawa, Hidemaro Suwa, Synge Todo(参考訳) 統合可能なシステムは、物理現象と数学に関する様々な洞察を与えてきた。 多体可積分系を構築する方法は、保存量の高い発明的な発見を除いて、ラックス対のアンサッチ数に制限される。 機械学習技術は最近、幅広い物理学分野に応用され、非自明な変換やポテンシャル関数を構築する上で強力であることが証明されている。 本稿では,古典統合システムの体系的構築のための機械学習手法を提案する。 潜在空間におけるハミルトニアンあるいはサンプルを考えると、ニューラルネットワークは実空間における対応する自然ハミルトニアンと、潜在空間と実空間変数の間の正準変換を同時に学習する。 また,可積分系を構築するための損失関数を提案し,toda格子の教師なし学習を成功させることを示す。 この手法により, 正準変換やラックス対のアンサッツを事前に知ることなく, 新たな可積分系を探索できる。

Integrable systems have provided various insights into physical phenomena and mathematics. The way of constructing many-body integrable systems is limited to few ansatzes for the Lax pair, except for highly inventive findings of conserved quantities. Machine learning techniques have recently been applied to broad physics fields and proven powerful for building non-trivial transformations and potential functions. We here propose a machine learning approach to a systematic construction of classical integrable systems. Given the Hamiltonian or samples in latent space, our neural network simultaneously learns the corresponding natural Hamiltonian in real space and the canonical transformation between the latent space and the real space variables. We also propose a loss function for building integrable systems and demonstrate successful unsupervised learning for the Toda lattice. Our approach enables exploring new integrable systems without any prior knowledge about the canonical transformation or any ansatz for the Lax pair.
翻訳日:2021-03-03 15:46:29 公開日:2021-02-28
# 音響イベントローカリゼーションのための注意に基づくシーケンス・トゥ・シークエンスアーキテクチャの探索

Exploiting Attention-based Sequence-to-Sequence Architectures for Sound Event Localization ( http://arxiv.org/abs/2103.00417v1 )

ライセンス: Link先を確認
Christopher Schymura, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa(参考訳) ディープニューラルネットワークに基づく音響事象定位フレームワークは、古典的パラメトリックアプローチと比較して、残響や雑音に対する頑健性が向上している。 特に、時間的コンテキストを推定プロセスに組み込んだ繰り返しアーキテクチャは、このタスクに適しているように思われる。 本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。 このようなモデルは、自然言語処理や自動音声認識の問題にうまく適用されている。 本研究では、マルチチャンネルオーディオ信号を潜入表現に符号化し、その後、推定される到着方向の列に復号する。 ここで注意は、現在の時間ステップにおける音声イベントのアクティビティと方向の推定に関連する特定のフレームに注目して、音声信号の時間依存性を捉えることを可能にする。 このフレームワークは、サウンドイベントローカライズのための3つの公開データセットで評価される。 それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。

Sound event localization frameworks based on deep neural networks have shown increased robustness with respect to reverberation and noise in comparison to classical parametric approaches. In particular, recurrent architectures that incorporate temporal context into the estimation process seem to be well-suited for this task. This paper proposes a novel approach to sound event localization by utilizing an attention-based sequence-to-sequence model. These types of models have been successfully applied to problems in natural language processing and automatic speech recognition. In this work, a multi-channel audio signal is encoded to a latent representation, which is subsequently decoded to a sequence of estimated directions-of-arriva l. Herein, attentions allow for capturing temporal dependencies in the audio signal by focusing on specific frames that are relevant for estimating the activity and direction-of-arrival of sound events at the current time-step. The framework is evaluated on three publicly available datasets for sound event localization. It yields superior localization performance compared to state-of-the-art methods in both anechoic and reverberant conditions.
翻訳日:2021-03-03 15:46:15 公開日:2021-02-28
# 逐次反復ハードホールドを用いた正確なスパース回収のための動的サンプル複雑性

Dynamic Sample Complexity for Exact Sparse Recovery using Sequential Iterative Hard Thresholding ( http://arxiv.org/abs/2103.00449v1 )

ライセンス: Link先を確認
Samrat Mukhopadhyay(参考訳) 本稿では,連続的に到達する測定行列と対応する測定値との固定スパースベクトルの正確な回復の問題を検討する。 本研究では, 繰り返しハードしきい値化 (IHT) アルゴリズムの拡張を提案する。このアルゴリズムはシーケンシャル IHT (SIHT) と呼ばれ, 総時間線を各フェーズでIHTが実行されるような数段階に分割する。 我々は,各位相で得られる測定行列が,ガウスの確率行列の独立なサンプルである確率的集合を考える。 各段階における測定行列の大きさと、その期間と位相の数に依存する特定の動的サンプルの複雑さが、一定の下限を満たす場合、固定時間線上のSIHTの推定誤差は急速に崩壊することを証明します。 興味深いことに、この境界は、非常に小さな数の測定が異なる位相で散発的に使われているとしても、推定誤差の崩壊の確率がほとんど影響しないことを示している。 この理論的観察は、SIHTがオフラインIHTと比較して回復の確率を改善することを実証した数値実験を用いても相関する。

In this paper we consider the problem of exact recovery of a fixed sparse vector with the measurement matrices sequentially arriving along with corresponding measurements. We propose an extension of the iterative hard thresholding (IHT) algorithm, termed as sequential IHT (SIHT) which breaks the total time horizon into several phases such that IHT is executed in each of these phases using a fixed measurement matrix obtained at the beginning of that phase. We consider a stochastic setting where the measurement matrices obtained at each phase are independent samples of a sub Gaussian random matrix. We prove that if a certain dynamic sample complexity that depends on the sizes of the measurement matrices at each phase, along with their duration and the number of phases, satisfy certain lower bound, the estimation error of SIHT over a fixed time horizon decays rapidly. Interestingly, this bound reveals that the probability of decay of estimation error is hardly affected even if very small number measurements are sporadically used in different phases. This theoretical observation is also corroborated using numerical experiments demonstrating that SIHT enjoys improved probability of recovery compared to offline IHT.
翻訳日:2021-03-03 15:46:01 公開日:2021-02-28
# 単体サンプリングはアウトレーヤ付きセンターベースのクラスタリングに有効か:いつとなぜか?

Is Simple Uniform Sampling Efficient for Center-Based Clustering With Outliers: When and Why? ( http://arxiv.org/abs/2103.00558v1 )

ライセンス: Link先を確認
Hu Ding and Jiawei Huang(参考訳) クラスタリングは、コンピュータ科学において多くの重要な応用があるが、現実世界のデータセットは、しばしば外れ値を含んでいる。 異常値の存在は、クラスタリングの問題をもっと難しくする可能性がある。 本論文では, アウトプライヤ問題に代表される3つの代表的なセンタベースのクラスタリングを解決するためのフレームワークを提案する。 実際にフレームワークは非常にシンプルで、入力から小さな一様サンプルを取り出して、既存の近似アルゴリズムをサンプル上で実行する必要があります。 しかし,本分析は,従来の(一様かつ非一様)サンプリングに基づく考え方とは根本的に異なる。 統一サンプリングの有効性を理論的に説明するために,「重要度」基準を導入し,提案手法の性能が与えられたインスタンスの重要度に依存することを証明した。 特に、サンプルサイズは入力データサイズ $n$ と次元 $d$ とは独立であり、与えられたインスタンスが十分「重要な」ものであると仮定すれば、実際にはかなり適切な仮定となる。 その単純さから、一様サンプリングアプローチは非一様サンプリングアプローチに対していくつかの大きな利点を享受する。 実験の結果,既存手法と同等のクラスタリング結果が得られるが,実装が容易であり,実行時間を大幅に削減できることがわかった。 我々の知る限りでは、これは理論と実験の両方の観点から一様サンプリングの有効性を体系的に研究する最初の作品である。

Clustering has many important applications in computer science, but real-world datasets often contain outliers. The presence of outliers can make the clustering problems to be much more challenging. In this paper, we propose a framework for solving three representative center-based clustering with outliers problems: $k$-center/median/me ans clustering with outliers. The framework actually is very simple, where we just need to take a small uniform sample from the input and run an existing approximation algorithm on the sample. However, our analysis is fundamentally different from the previous (uniform and non-uniform) sampling based ideas. To explain the effectiveness of uniform sampling in theory, we introduce a "significance" criterion and prove that the performance of our framework depends on the significance degree of the given instance. In particular, the sample size can be independent of the input data size $n$ and the dimensionality $d$, if we assume the given instance is sufficiently "significant", which is in fact a fairly appropriate assumption in practice. Due to its simplicity, the uniform sampling approach also enjoys several significant advantages over the non-uniform sampling approaches. The experiments suggest that our framework can achieve comparable clustering results with existing methods, but is much easier to implement and can greatly reduce the running times. To the best of our knowledge, this is the first work that systematically studies the effectiveness of uniform sampling from both theoretical and experimental aspects.
翻訳日:2021-03-03 15:45:40 公開日:2021-02-28
# 永続的ホモロジーとグラフ表現学習

Persistent Homology and Graphs Representation Learning ( http://arxiv.org/abs/2102.12926v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Xuanting Cai(参考訳) 本稿では,ノードグラフ表現埋め込みにエンコードされる位相不変性について,永続ホモロジーで利用可能なツールを用いて研究することを目的とした。 具体的には,ノード埋め込み表現アルゴリズムを考えると,これらの埋め込みが実数値化されている場合を考える。 これらの埋め込みを関心領域上のスカラー関数として見ることにより、永続ホモロジーで利用可能なツールを用いて、これらの表現に符号化された位相情報を研究することができる。 我々の構成では,ノード表現アルゴリズム毎に,グラフレベルとノードレベルの両方で,ユニークな永続性ベースのグラフ記述子を効果的に定義している。 提案手法の有効性を実証するため,DeepWalk,Node2Vec,D iff2Vecのトポロジカル記述子について検討した。

This article aims to study the topological invariant properties encoded in node graph representational embeddings by utilizing tools available in persistent homology. Specifically, given a node embedding representation algorithm, we consider the case when these embeddings are real-valued. By viewing these embeddings as scalar functions on a domain of interest, we can utilize the tools available in persistent homology to study the topological information encoded in these representations. Our construction effectively defines a unique persistence-based graph descriptor, on both the graph and node levels, for every node representation algorithm. To demonstrate the effectiveness of the proposed method, we study the topological descriptors induced by DeepWalk, Node2Vec and Diff2Vec.
翻訳日:2021-03-02 12:45:59 公開日:2021-02-28