このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210405となっている論文です。

PDF登録状況(公開日: 20210405)

TitleAuthorsAbstract論文公表日・翻訳日
# HybrIK:3次元人間の姿勢と形状推定のためのハイブリッド解析・ニューラル逆運動学ソリューション

HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2011.14672v3 )

ライセンス: Link先を確認
Jiefeng Li, Chao Xu, Zhicun Chen, Siyuan Bian, Lixin Yang, Cewu Lu(参考訳) モデルに基づく3次元ポーズおよび形状推定手法は、複数のパラメータを推定することで人体の完全な3次元メッシュを再構築する。 しかし、抽象パラメータの学習は非常に非線形なプロセスであり、画像-モデルミスアライメントに悩まされ、中間モデルの性能が低下する。 対照的に、3Dキーポイント推定法は深部CNNネットワークと体積表現を組み合わせて画素レベルのローカライゼーション精度を実現するが、非現実的なボディ構造を予測することができる。 本稿では,体メッシュ推定と3次元キーポイント推定のギャップを埋めることで,上記の問題に対処する。 本稿では,新しいハイブリッド逆キネマティクスソリューション (HybrIK) を提案する。 HybrIKは、正確な3Dジョイントを相対的なボディ部分回転に変換し、3Dボディーメッシュを再構築する。 スイング回転は3次元関節で解析的に解かれ、ねじれ回転はニューラルネットワークを介して視覚手がかりから導かれる。 そこで,hybrikは3d姿勢の精度とパラメトリック人体モデルの現実的な身体構造の両方を保ちながら,ピクセル配置された3dボディメッシュと,純粋な3dキーポイント推定手法よりも高精度な3d姿勢を実現する。 ベルとホイッスルがなければ,提案手法は様々な人間のポーズと形状のベンチマークにおいて,最先端の手法をはるかに上回る。 実証的な例として、HybrIKは以前の手法を13.2mm MPJPEと21.9mm PVEで3DPWデータセットで上回っている。 私たちのコードはhttps://github.com/J eff-sjtu/HybrIK.comで公開されています。

Model-based 3D pose and shape estimation methods reconstruct a full 3D mesh for the human body by estimating several parameters. However, learning the abstract parameters is a highly non-linear process and suffers from image-model misalignment, leading to mediocre model performance. In contrast, 3D keypoint estimation methods combine deep CNN network with the volumetric representation to achieve pixel-level localization accuracy but may predict unrealistic body structure. In this paper, we address the above issues by bridging the gap between body mesh estimation and 3D keypoint estimation. We propose a novel hybrid inverse kinematics solution (HybrIK). HybrIK directly transforms accurate 3D joints to relative body-part rotations for 3D body mesh reconstruction, via the twist-and-swing decomposition. The swing rotation is analytically solved with 3D joints, and the twist rotation is derived from the visual cues through the neural network. We show that HybrIK preserves both the accuracy of 3D pose and the realistic body structure of the parametric human model, leading to a pixel-aligned 3D body mesh and a more accurate 3D pose than the pure 3D keypoint estimation methods. Without bells and whistles, the proposed method surpasses the state-of-the-art methods by a large margin on various 3D human pose and shape benchmarks. As an illustrative example, HybrIK outperforms all the previous methods by 13.2 mm MPJPE and 21.9 mm PVE on 3DPW dataset. Our code is available at https://github.com/J eff-sjtu/HybrIK.
翻訳日:2021-06-06 14:45:49 公開日:2021-04-05
# pi-GAN:3次元画像合成のための周期的インシシデント・ジェネレータ・ネットワーク

pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis ( http://arxiv.org/abs/2012.00926v2 )

ライセンス: Link先を確認
Eric R. Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu, Gordon Wetzstein(参考訳) 我々は、3d認識画像合成の急速な進歩を目撃し、生成的視覚モデルとニューラルレンダリングの最近の進歩を活用している。 しかし、既存のアプローチは2つの点で不足している: まず、基礎となる3D表現を欠いているか、ビュー一貫性のないレンダリングに依存しているため、マルチビュー一貫性のないイメージを合成する。 高品質な3D画像合成のための新しい生成モデルである周期的インプリシット生成適応ネットワーク(\pi$-GAN または pi-GAN)を提案する。 $\pi$-GANは、周期的なアクティベーション関数とボリュームレンダリングを備えた神経表現を利用して、シーンをビュー一貫性のある3D表現として詳細に表現する。 提案手法は,複数の実データと合成データを用いた3次元認識画像合成の最先端結果を得る。

We have witnessed rapid progress on 3D-aware image synthesis, leveraging recent advances in generative visual models and neural rendering. Existing approaches however fall short in two ways: first, they may lack an underlying 3D representation or rely on view-inconsistent rendering, hence synthesizing images that are not multi-view consistent; second, they often depend upon representation network architectures that are not expressive enough, and their results thus lack in image quality. We propose a novel generative model, named Periodic Implicit Generative Adversarial Networks ($\pi$-GAN or pi-GAN), for high-quality 3D-aware image synthesis. $\pi$-GAN leverages neural representations with periodic activation functions and volumetric rendering to represent scenes as view-consistent 3D representations with fine detail. The proposed approach obtains state-of-the-art results for 3D-aware image synthesis with multiple real and synthetic datasets.
翻訳日:2021-05-25 03:46:52 公開日:2021-04-05
# MOCCA: 異常検出のための多層ワンクラス分類

MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection ( http://arxiv.org/abs/2012.12111v2 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Fabrizio Falchi, Alperen Kantarci, \c{S}eymanur Akti, Hazim Kemal Ekenel, Giuseppe Amato(参考訳) 異常はすべての科学分野において普遍的であり、データ分布に関する不完全な知識や突然発生し観測を歪める未知のプロセスによって予期せぬ事象を表現できる。 このような事象の希少性のため、ディープラーニングモデルを"正規"、すなわち"正規"で訓練することが一般的である。 非異常なデータセットのみであり、ニューラルネットワークが入力データ下の分布をモデル化できるようにする。 本稿では,Multi-LayerOne-Clas s Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニング手法を提案する。 我々は、異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークの断片的な性質を明示的に活用する。 モデルの複数の層から抽出された表現を組み合わせることで、ニューラルネットワークの最終出力のみに基づく文献で提案される一般的な手法よりも高い識別性能が得られることを示す。 入力表現と参照点との間の$l_2$距離を最小化し、各検討層で異常のないトレーニングデータセントロイド(centroid)を最小化することにより、モデルを訓練することを提案する。 CIFAR10,MVTec AD,ShanghaiTechといった,単一イメージとビデオベースの両方のシナリオを考慮した,公開可能な異常検出用データセットに関する広範な実験を行った。 本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。 さらに、アプローチがどのように機能するかを洞察するためのモデル分析も提供します。

Anomalies are ubiquitous in all scientific fields and can express an unexpected event due to incomplete knowledge about the data distribution or an unknown process that suddenly comes into play and distorts the observations. Due to such events' rarity, it is common to train deep learning models on "normal", i.e. non-anomalous, datasets only, thus letting the neural network to model the distribution beneath the input data. In this context, we propose our deep learning approach to the anomaly detection problem named Multi-LayerOne-Class Classification (MOCCA). We explicitly leverage the piece-wise nature of deep neural networks by exploiting information extracted at different depths to detect abnormal data instances. We show how combining the representations extracted from multiple layers of a model leads to higher discrimination performance than typical approaches proposed in the literature that are based neural networks' final output only. We propose to train the model by minimizing the $L_2$ distance between the input representation and a reference point, the anomaly-free training data centroid, at each considered layer. We conduct extensive experiments on publicly available datasets for anomaly detection, namely CIFAR10, MVTec AD, and ShanghaiTech, considering both the single-image and video-based scenarios. We show that our method reaches superior performances compared to the state-of-the-art approaches available in the literature. Moreover, we provide a model analysis to give insight on how our approach works.
翻訳日:2021-05-16 02:15:22 公開日:2021-04-05
# (参考訳) stylegan埋め込みの改善: 優れた潜在勢力はどこにあるか? [全文訳有]

Improved StyleGAN Embedding: Where are the Good Latents? ( http://arxiv.org/abs/2012.09036v2 )

ライセンス: CC BY 4.0
Peihao Zhu, Rameen Abdal, Yipeng Qin, John Femiani, Peter Wonka(参考訳) StyleGANは、実際の画像とほとんど区別できない写実的画像を生成することができる。 与えられた画像の埋め込みを見つけるというリバース問題は、問題となる。 画像をうまく再構築する埋め込みは、必ずしも編集操作にロバストではない。 本稿では,画像再構成と画像編集タスクのサポートを兼ね備えた埋め込みを見つけるという課題に対処する。 まず,復元された潜在コードの多様性と品質を分析するための新しい正規化空間を提案する。 この空間は、潜伏空間に良質な潜伏コードがあるかという疑問に答えるのに役立つ。 第2に,本解析に基づく新しい正規化手法を用いた埋め込みアルゴリズムの改良を提案する。 最後に,様々な組込みアルゴリズムの品質を分析する。 この結果と現在の最先端の手法を比較し,再構築品質と編集品質のトレードオフを改善する。

StyleGAN is able to produce photorealistic images that are almost indistinguishable from real ones. The reverse problem of finding an embedding for a given image poses a challenge. Embeddings that reconstruct an image well are not always robust to editing operations. In this paper, we address the problem of finding an embedding that both reconstructs images and also supports image editing tasks. First, we introduce a new normalized space to analyze the diversity and the quality of the reconstructed latent codes. This space can help answer the question of where good latent codes are located in latent space. Second, we propose an improved embedding algorithm using a novel regularization method based on our analysis. Finally, we analyze the quality of different embedding algorithms. We compare our results with the current state-of-the-art methods and achieve a better trade-off between reconstruction quality and editing quality.
翻訳日:2021-05-09 15:07:07 公開日:2021-04-05
# (参考訳) 言語モデリングによる心理療法の自動化に向けて [全文訳有]

Towards Automated Psychotherapy via Language Modeling ( http://arxiv.org/abs/2104.10661v1 )

ライセンス: CC BY 4.0
Houjun Liu(参考訳) 本実験では,最新技術であるSeq2Seq Transformer-based Natural Language Generation (NLG)システムを用いて,心理療法士とクライアントのテキスト会話を自動化するモデルを開発した。 言語理解のためのコーネル映画対話コーパスと、オープンソース、匿名化、およびパブリックライセンスの精神療法データセットの混合でモデルを訓練することで、このモデルは、2つの独立したテスト方法のテストセットの59.7%と67.1%で、人間による検証データに対する公開、標準化された定性ベンチマークで統計的に有意なパフォーマンスを達成した。 モデルは精神療法士の仕事を完全に置き換えることはできないが、テストセットの大多数で人間の出現する発話を合成する能力は、精神療法の点におけるスティグマの共有と緩和に向けた有望なステップとなる。

In this experiment, a model was devised, trained, and evaluated to automate psychotherapist/clie nt text conversations through the use of state-of-the-art, Seq2Seq Transformer-based Natural Language Generation (NLG) systems. Through training the model upon a mix of the Cornell Movie Dialogue Corpus for language understanding and an open-source, anonymized, and public licensed psychotherapeutic dataset, the model achieved statistically significant performance in published, standardized qualitative benchmarks against human-written validation data - meeting or exceeding human-written responses' performance in 59.7% and 67.1% of the test set for two independent test methods respectively. Although the model cannot replace the work of psychotherapists entirely, its ability to synthesize human-appearing utterances for the majority of the test set serves as a promising step towards communizing and easing stigma at the psychotherapeutic point-of-care.
翻訳日:2021-05-04 10:58:29 公開日:2021-04-05
# (参考訳) ラマン分光法と組み合わせた人工知能による物質の組成同定法の検討 [全文訳有]

A review of artificial intelligence methods combined with Raman spectroscopy to identify the composition of substances ( http://arxiv.org/abs/2104.04599v1 )

ライセンス: CC BY-SA 4.0
Liangrui Pan, Peng Zhang, Chalongrat Daengngam, Mitchai Chongcheawchamnan(参考訳) 一般に、自然界のほとんどの物質は混合物の中に存在し、高速で精度の高い混合物組成の非侵襲的同定は依然として難しい課題である。 しかし、ラマン分光法、機械学習、深層学習技術の発展により、混合成分を識別できる効率的な分析ツールを実現する方法が整い、従来の化学分析法を超えて混合物の同定が飛躍的に進んでいる。 本稿では、物質組成の同定におけるラマン分光の研究を要約するとともに、ラマン分光の前処理プロセス、人工知能の分析方法、応用について詳細なレビューを行う。 本稿では, 物質組成の同定におけるラマン分光の研究を要約し, ラマン分光の前処理プロセス, 解析方法, 人工知能の応用について概説する。 最後に、ラマン分光の利点とデメリットと開発の可能性について詳細に論じる。

In general, most of the substances in nature exist in mixtures, and the noninvasive identification of mixture composition with high speed and accuracy remains a difficult task. However, the development of Raman spectroscopy, machine learning, and deep learning techniques have paved the way for achieving efficient analytical tools capable of identifying mixture components, making an apparent breakthrough in the identification of mixtures beyond the traditional chemical analysis methods. This article summarizes the work of Raman spectroscopy in identifying the composition of substances as well as provides detailed reviews on the preprocessing process of Raman spectroscopy, the analysis methods and applications of artificial intelligence. This review summarizes the work of Raman spectroscopy in identifying the composition of substances and reviews the preprocessing process of Raman spectroscopy, the analysis methods and applications of artificial intelligence. Finally, the advantages and disadvantages and development prospects of Raman spectroscopy are discussed in detail.
翻訳日:2021-05-04 10:46:06 公開日:2021-04-05
# (参考訳) 新規感染者の増加に伴う深層学習によるCOVID-19感情分析 [全文訳有]

COVID-19 sentiment analysis via deep learning during the rise of novel cases ( http://arxiv.org/abs/2104.10662v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Aswin Krishna(参考訳) 社会科学者や心理学者は、自然災害、政治的不安、テロリズムといった破滅的な出来事を扱うとき、人々が感情や感情を表現する方法を理解することに関心を持っている。 新型コロナウイルス(COVID-19)のパンデミックは、急激な社会的な変化や雇用不足など、多くの心理的問題を引き起こしている。 新型コロナウイルス(COVID-19)によるロックダウンの厳格化が進む中、人々はソーシャルメディアで自分の感情を表現し、人々が破滅的な出来事にどう反応するかを深く理解している。 本稿では,twitter上での感情分析にlong short-term memory(lstm)リカレントニューラルネットワークを用いた深層学習に基づく言語モデルを用いて,インドにおける新規事例の出現に注目した。 言語モデル構築において,言語表現にグローバルベクトル(GloVe)を用いたLSTMモデルを用いる。 我々は,2020年の新症例のピークを対象とする,選択的数ヶ月の感想をレビューする。 本稿では,LSTMモデルとGloVe埋め込みを用いたマルチラベル感情分類に着目し,複数の感情を同時に表現できるフレームワークを提案する。 結果から、ほとんどのツイートはインドでのcovid-19感染者の増加にともなって高い楽観主義で肯定的だったことが分かりました。 ツイートの数は、新しいケースのピークに向かって大幅に減少した。 楽観的で冗談を言うツイートは、主に月間ツイートを支配しており、ネガティブな感情が表される回数はずっと少なかった。 これは、大多数が概して肯定的であり、ピークに達すると当局によるパンデミックの扱い方に不満を抱く者もいた。

Social scientists and psychologists take interest in understanding how people express emotions or sentiments when dealing with catastrophic events such as natural disasters, political unrest, and terrorism. The COVID-19 pandemic is a catastrophic event that has raised a number of psychological issues such as depression given abrupt social changes and lack of employment. During the rise of COVID-19 cases with stricter lock downs, people have been expressing their sentiments in social media which can provide a deep understanding of how people physiologically react to catastrophic events. In this paper, we use deep learning based language models via long short-term memory (LSTM) recurrent neural networks for sentiment analysis on Twitter with a focus of rise of novel cases in India. We use the LSTM model with a global vector (GloVe) for word representation in building a language model. We review the sentiments expressed for selective months covering the major peak of new cases in 2020. We present a framework that focuses on multi-label sentiment classification using LSTM model and GloVe embedding, where more than one sentiment can be expressed at once. Our results show that the majority of the tweets have been positive with high levels of optimism during the rise of the COVID-19 cases in India. We find that the number of tweets significantly lowered towards the peak of new cases. We find that the optimistic and joking tweets mostly dominated the monthly tweets and there was a much lower number of negative sentiments expressed. This could imply that the majority were generally positive and some annoyed towards the way the pandemic was handled by the authorities as their peak was reached.
翻訳日:2021-05-04 10:22:56 公開日:2021-04-05
# ディープラーニングによる金融市場予測

Financial Markets Prediction with Deep Learning ( http://arxiv.org/abs/2104.05413v1 )

ライセンス: Link先を確認
Jia Wang, Tong Sun, Benyuan Liu, Yu Cao, Degang Wang(参考訳) 金融市場は複雑なシステムのダイナミクスのために予測が難しい。 金融市場予測に機械学習技術を用いた最近の研究はいくつかあるが、金融リターンに満足なパフォーマンスを提供していない。 金融市場の動きを予測するための新しい1次元畳み込みニューラルネットワーク(CNN)モデルを提案する。 カスタマイズされた1次元畳み込み層は、時間を通じて金融取引データをスキャンし、価格やボリュームなどの異なる種類のデータ、共有パラメータ(カーネル)を相互に共有する。 本モデルは,従来の技術指標を使わずに自動的に特徴を抽出するので,技術指標の選択によるバイアスや,技術指標の事前定義された係数を回避できる。 我々は,2010年1月から2017年10月までの6年間の過去のトレーディングデータの厳密な検証を行い,予測モデルの性能を評価する。 実験結果から,我々のCNNモデルは従来の技術指標よりも汎用的,情報的特徴を効果的に抽出し,従来の機械学習手法よりも堅牢で収益性の高い財務性能を達成できることが示された。

Financial markets are difficult to predict due to its complex systems dynamics. Although there have been some recent studies that use machine learning techniques for financial markets prediction, they do not offer satisfactory performance on financial returns. We propose a novel one-dimensional convolutional neural networks (CNN) model to predict financial market movement. The customized one-dimensional convolutional layers scan financial trading data through time, while different types of data, such as prices and volume, share parameters (kernels) with each other. Our model automatically extracts features instead of using traditional technical indicators and thus can avoid biases caused by selection of technical indicators and pre-defined coefficients in technical indicators. We evaluate the performance of our prediction model with strictly backtesting on historical trading data of six futures from January 2010 to October 2017. The experiment results show that our CNN model can effectively extract more generalized and informative features than traditional technical indicators, and achieves more robust and profitable financial performance than previous machine learning approaches.
翻訳日:2021-05-03 19:40:35 公開日:2021-04-05
# 成長正規化による神経プルーニング

Neural Pruning via Growing Regularization ( http://arxiv.org/abs/2012.09243v2 )

ライセンス: Link先を確認
Huan Wang, Can Qin, Yulun Zhang, Yun Fu(参考訳) 規則化は、深層ニューラルネットワークのプルーニングにおけるスパーシティを学ぶために長い間使われてきた。 しかし、その役割は主に小刑力体制で探究されている。 本研究では,プラニングの2つの中心的な問題である刈り取りスケジュールと重み付けの重要度に取り組むために,規則化が徐々に大きくなる新しいシナリオに応用を広げる。 1) 本研究では, 前者の話題が新たに持ち上げられ, 研究の注目がほとんどなく, 刈り上げ性能に批判的であることが判明した。 具体的には, ペナルティ係数が上昇するL2正則化変種を提案し, 同じ重みを除去しても, ワンショットの変種と比較して精度が向上することを示した。 2)増加傾向にあるペナルティスキームは,特定の値を知ることなく,より正確なプルーニングのためにヘッセン情報を活用するアプローチをもたらし,一般的なヘッセン近似の問題に悩まされることはない。 提案アルゴリズムは、構造化および非構造化プルーニングの両方において、大規模なデータセットやネットワークの実装が容易でスケーラブルである。 それらの効果は、CIFARとImageNetデータセット上の現代のディープニューラルネットワークで実証され、多くの最先端アルゴリズムと比較して競合的な結果が得られる。 私たちのコードとトレーニングされたモデルは、https://github.com/m ingsuntse/regulariza tion-pruning.comで公開されている。

Regularization has long been utilized to learn sparsity in deep neural network pruning. However, its role is mainly explored in the small penalty strength regime. In this work, we extend its application to a new scenario where the regularization grows large gradually to tackle two central problems of pruning: pruning schedule and weight importance scoring. (1) The former topic is newly brought up in this work, which we find critical to the pruning performance while receives little research attention. Specifically, we propose an L2 regularization variant with rising penalty factors and show it can bring significant accuracy gains compared with its one-shot counterpart, even when the same weights are removed. (2) The growing penalty scheme also brings us an approach to exploit the Hessian information for more accurate pruning without knowing their specific values, thus not bothered by the common Hessian approximation problems. Empirically, the proposed algorithms are easy to implement and scalable to large datasets and networks in both structured and unstructured pruning. Their effectiveness is demonstrated with modern deep neural networks on the CIFAR and ImageNet datasets, achieving competitive results compared to many state-of-the-art algorithms. Our code and trained models are publicly available at https://github.com/m ingsuntse/regulariza tion-pruning.
翻訳日:2021-05-03 03:12:20 公開日:2021-04-05
# (参考訳) モラル・エージェントのゲーム理論モデル [全文訳有]

Game-theoretic Models of Moral and Other-Regarding Agents ( http://arxiv.org/abs/2012.09759v2 )

ライセンス: CC BY 4.0
Gabriel Istrate(参考訳) 我々は、最近経済学の文献で提案された、非ナッシュ的、道徳的に動機づけられた行動コースのクラスである有限正規形式ゲームにおけるカンティアン均衡について検討する。 我々は、計算の難易度、高い調整コスト、一般的な正規形式ゲームへの高価でプロブレマ的な拡張など、そのような平衡に関する多くの問題を強調する。 このような適切な一般化は、プログラム均衡の概念を巻き込む可能性が高い。 最後に,カント的平衡に関する一般的,直感的,計算的,他的に考慮可能な平衡と,純粋に自己完結的行動とカント的行動とを補間する行動過程のクラスを提案する。

We investigate Kantian equilibria in finite normal form games, a class of non-Nashian, morally motivated courses of action that was recently proposed in the economics literature. We highlight a number of problems with such equilibria, including computational intractability, a high price of miscoordination, and expensive/problemati c extension to general normal form games. We point out that such a proper generalization will likely involve the concept of program equilibrium. Finally we propose some general, intuitive, computationally tractable, other-regarding equilibria related to Kantian equilibria, as well as a class of courses of action that interpolates between purely self-regarding and Kantian behavior.
翻訳日:2021-05-02 14:08:45 公開日:2021-04-05
# (参考訳) 注意の可視化を超えたトランスフォーマーの解釈可能性

Transformer Interpretability Beyond Attention Visualization ( http://arxiv.org/abs/2012.09838v2 )

ライセンス: CC BY 4.0
Hila Chefer, Shir Gur, Lior Wolf(参考訳) セルフアテンション技術、特にトランスフォーマーはテキスト処理の分野を支配しており、コンピュータビジョンの分類タスクでますます人気が高まっている。 特定の分類に繋がった画像の部分を視覚化するために、既存の手法は得られた注意図に依存するか、注意グラフに沿ってヒューリスティックな伝播を利用する。 本研究では,トランスフォーマーネットワークの関連性を計算する新しい手法を提案する。 この方法は、ディープテイラー分解の原理に基づいて局所的関連性を割り当て、それらの関係性スコアを層を通して伝播する。 この伝搬にはアテンション層と接続をスキップし、既存のメソッドに挑戦する。 我々のソリューションは、層間の関係性を維持するための特定の定式化に基づいている。 本手法は,最近の視覚トランスフォーマネットワークやテキスト分類問題に対してベンチマークを行い,既存の説明可能性よりも明確な利点を示す。

Self-attention techniques, and specifically Transformers, are dominating the field of text processing and are becoming increasingly popular in computer vision classification tasks. In order to visualize the parts of the image that led to a certain classification, existing methods either rely on the obtained attention maps or employ heuristic propagation along the attention graph. In this work, we propose a novel way to compute relevancy for Transformer networks. The method assigns local relevance based on the Deep Taylor Decomposition principle and then propagates these relevancy scores through the layers. This propagation involves attention layers and skip connections, which challenge existing methods. Our solution is based on a specific formulation that is shown to maintain the total relevancy across layers. We benchmark our method on very recent visual Transformer networks, as well as on a text classification problem, and demonstrate a clear advantage over the existing explainability methods.
翻訳日:2021-05-02 12:43:03 公開日:2021-04-05
# マイクロスケール構造における局所応力場予測のためのベイズ型多スケールcnnフレームワーク

A Bayesian multiscale CNN framework to predict local stress fields in structures with microscale features ( http://arxiv.org/abs/2012.11330v2 )

ライセンス: Link先を確認
Vasilis Krokos, Viet Bui Xuan, St\'ephane P. A. Bordas, Philippe Young, Pierre Kerfriden(参考訳) この研究の目的は、エンコーダ・デコーダ畳み込みニューラルネットワーク(cnn)を訓練し、未解決のマイクロスケール特徴に関する粗い応力予測に局所的微小応力補正を自動的に追加することである。 このようなフレームワークが、特定のトレーニングセット内外の信頼性の高いストレス予測を提供する程度について検討する。 また,cnn予測の有効性の領域を最大化するために,効率的なオフラインデータ生成手法の開発を目指す。 これらの野心的な目標を達成するため、我々は、予測の不確実性を評価するために、点推定ではなく、微細な応力場の信頼できる間隔を提供するベイズ的アプローチを展開する。 これは、マクロ機能やマイクロ機能によって、知識の欠如を自動的に包含する。 不確実性は、ネットワークのデータ要求を減らすために選択的学習フレームワークで使用される。 本研究ではランダムな円孔を有する2次元多孔質構造の応力予測について検討する。

The purpose of this work is to train an Encoder-Decoder Convolutional Neural Networks (CNN) to automatically add local fine-scale stress corrections to coarse stress predictions around unresolved microscale features. We investigate to what extent such a framework provides reliable stress predictions inside and outside particular training sets. Incidentally, we aim to develop efficient offline data generation methods to maximise the domain of validity of the CNN predictions. To achieve these ambitious goals, we will deploy a Bayesian approach providing not point estimates, but credible intervals of the fine-scale stress field to evaluate the uncertainty of the predictions. This will automatically encompass the lack of knowledge due to unseen macro and micro features. The uncertainty will be used in a Selective Learning framework to reduce the data requirements of the network. In this work we will investigate stress prediction in 2D porous structures with randomly distributed circular holes.
翻訳日:2021-05-02 07:12:49 公開日:2021-04-05
# 自己監督深度推定によるセマンティックセグメンテーションを改善する3つの方法

Three Ways to Improve Semantic Segmentation with Self-Supervised Depth Estimation ( http://arxiv.org/abs/2012.10782v2 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Yuhua Chen, Adrian K\"oring, Suman Saha, Luc Van Gool(参考訳) セマンティックセグメンテーションのためのディープネットワークのトレーニングには、大量のラベル付きトレーニングデータが必要であり、セグメンテーションマスクのラベル付けは極めて労働集約的なプロセスであるため、実際には大きな課題となっている。 この問題に対処するために,ラベルなし画像列からの自己教師付き単眼深度推定により拡張された半教師付き意味セグメンテーションの枠組みを提案する。 特に,(1)自己教師付き奥行き推定から意味セグメンテーションへ知識を伝達する,(2)シーンの幾何学を用いて画像とラベルをブレンドして強固なデータ拡張を実現する,(3)奥行き特徴の多様性と学習深みの難易度を活用することで,意味セグメンテーションに注釈を付ける最も有用なサンプルを選択する,という3つの重要な貢献を提案する。 提案モデルをcityscapesデータセット上で検証し,これら3つのモジュールが有意な性能向上を示し,半教師ありセマンティクスセグメンテーションのための最先端の結果を得た。 実装はhttps://github.com/l hoyer/improving_segm entation_with_selfsu pervised_depthで利用可能である。

Training deep networks for semantic segmentation requires large amounts of labeled training data, which presents a major challenge in practice, as labeling segmentation masks is a highly labor-intensive process. To address this issue, we present a framework for semi-supervised semantic segmentation, which is enhanced by self-supervised monocular depth estimation from unlabeled image sequences. In particular, we propose three key contributions: (1) We transfer knowledge from features learned during self-supervised depth estimation to semantic segmentation, (2) we implement a strong data augmentation by blending images and labels using the geometry of the scene, and (3) we utilize the depth feature diversity as well as the level of difficulty of learning depth in a student-teacher framework to select the most useful samples to be annotated for semantic segmentation. We validate the proposed model on the Cityscapes dataset, where all three modules demonstrate significant performance gains, and we achieve state-of-the-art results for semi-supervised semantic segmentation. The implementation is available at https://github.com/l hoyer/improving_segm entation_with_selfsu pervised_depth.
翻訳日:2021-05-01 11:10:24 公開日:2021-04-05
# (参考訳) パイプ並列性を用いたグラフニューラルネットワークの性能解析 [全文訳有]

Analyzing the Performance of Graph Neural Networks with Pipe Parallelism ( http://arxiv.org/abs/2012.10840v2 )

ライセンス: CC BY 4.0
Matthew T. Dearing, Xiaoyan Wang(参考訳) 機械学習やディープラーニングにおいてユビキタスな多くの興味深いデータセットは、グラフを通じて記述することができる。 拡張型ソーシャルネットワーク、タンパク質折り畳み、化学相互作用ネットワーク、物質相転移など、グラフ構造データセットの規模と複雑さが増大するにつれて、これらに適用する機械学習技術の効率が向上する。 本研究では,ノードやエッジの分類やリンク予測といったタスクで大きな成功を収めたグラフニューラルネットワーク(GNN)に注目した。 しかし、標準のGNNモデルは、メモリや実行時のボトルネックにつながる高密度なグラフ関係を通じて必要再帰的な計算を行うため、スケーリングの制限がある。 グラフ技術の進歩には,大規模ネットワーク処理のための新たなアプローチが必要であり,いくつか提案されているが,ディープラーニングコミュニティで成功していると知られている既存のツールやフレームワークを用いてgnnを並列化する方法について検討する。 特に、2018年にGoogleが導入したGPipeによるGNNモデルに対するパイプライン並列性の適用について検討する。

Many interesting datasets ubiquitous in machine learning and deep learning can be described via graphs. As the scale and complexity of graph-structured datasets increase, such as in expansive social networks, protein folding, chemical interaction networks, and material phase transitions, improving the efficiency of the machine learning techniques applied to these is crucial. In this study, we focus on Graph Neural Networks (GNN) that have found great success in tasks such as node or edge classification and link prediction. However, standard GNN models have scaling limits due to necessary recursive calculations performed through dense graph relationships that lead to memory and runtime bottlenecks. While new approaches for processing larger networks are needed to advance graph techniques, and several have been proposed, we study how GNNs could be parallelized using existing tools and frameworks that are known to be successful in the deep learning community. In particular, we investigate applying pipeline parallelism to GNN models with GPipe, introduced by Google in 2018.
翻訳日:2021-05-01 09:09:44 公開日:2021-04-05
# ヒューマン・シーンインタラクション学習による3次元シーンの空間化

Populating 3D Scenes by Learning Human-Scene Interaction ( http://arxiv.org/abs/2012.11581v2 )

ライセンス: Link先を確認
Mohamed Hassan, Partha Ghosh, Joachim Tesch, Dimitrios Tzionas, Michael J. Black(参考訳) 人間は3D空間に住んでおり、タスクを実行するために常に対話します。 このような相互作用は、意味的に意味のある表面間の物理的接触を伴う。 私たちの目標は、人間がシーンとどのように相互作用するかを学び、これを活用して仮想文字を同じことを可能にすることです。 そこで我々は,親密な関係を符号化する新しいヒューマン・シーン・インタラクション (HSI) モデルを紹介し,POSA を "Pose with prOximitieS and contActs" と呼ぶ。 相互作用の表現は体中心であり、新しいシーンに一般化することができる。 特に、POSAはSMPL-Xパラメトリック人体モデルを拡張し、各メッシュ頂点に対して(a)シーン表面との接触確率と(b)対応するセマンティックシーンラベルを符号化する。 SMPL-X頂点に条件付きVAEを用いてPOSAを学習し、3Dシーンと対話する人々のSMPL-Xメッシュと、それに対応するシーンセマンティクスを含むPropXデータセットでトレーニングする。 2つのアプリケーションでPOSAの価値を実証する。 まず、人物の3dスキャンをシーンに自動的に配置する。 プロキシとしてスキャンに適合するSMPL-Xモデルを使用して、最も可能性の高い3Dの配置を見つけます。 POSAは、シーン内の、そのポーズの可能性のある接触関係にマッチする「状況」を検索するための効果的な表現を提供する。 本研究は,この課題における技術状況に対する顕著な改善を示す知覚的研究を行う。 第2に,posaが学習した身体-身体間相互作用の表現は,3次元場面と一致した単眼的な人間のポーズ推定をサポートし,芸術の状態を改善できることを示す。 私たちのモデルとコードは、https://posa.is.tue. mpg.deで研究目的に利用できます。

Humans live within a 3D space and constantly interact with it to perform tasks. Such interactions involve physical contact between surfaces that is semantically meaningful. Our goal is to learn how humans interact with scenes and leverage this to enable virtual characters to do the same. To that end, we introduce a novel Human-Scene Interaction (HSI) model that encodes proximal relationships, called POSA for "Pose with prOximitieS and contActs". The representation of interaction is body-centric, which enables it to generalize to new scenes. Specifically, POSA augments the SMPL-X parametric human body model such that, for every mesh vertex, it encodes (a) the contact probability with the scene surface and (b) the corresponding semantic scene label. We learn POSA with a VAE conditioned on the SMPL-X vertices, and train on the PROX dataset, which contains SMPL-X meshes of people interacting with 3D scenes, and the corresponding scene semantics from the PROX-E dataset. We demonstrate the value of POSA with two applications. First, we automatically place 3D scans of people in scenes. We use a SMPL-X model fit to the scan as a proxy and then find its most likely placement in 3D. POSA provides an effective representation to search for "affordances" in the scene that match the likely contact relationships for that pose. We perform a perceptual study that shows significant improvement over the state of the art on this task. Second, we show that POSA's learned representation of body-scene interaction supports monocular human pose estimation that is consistent with a 3D scene, improving on the state of the art. Our model and code are available for research purposes at https://posa.is.tue. mpg.de.
翻訳日:2021-04-27 06:30:30 公開日:2021-04-05
# sala:パラメータ効率の良い3次元意味セグメンテーションのためのソフト割り当て局所アグリゲーション

SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D Semantic Segmentation ( http://arxiv.org/abs/2012.14929v2 )

ライセンス: Link先を確認
Hani Itani, Silvio Giancola, Ali Thabet, Bernard Ghanem(参考訳) 本研究では,3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを実現する点局所集約関数の設計に着目する。 グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。 文献における以前の方法は、局所体積分割や不規則なカーネルポイントのような、事前に定義された幾何学的グリッドで機能する。 より一般的な選択肢は、ネットワークが最終タスクに最も適した割り当て関数を学習できるようにすることである。 学習可能なので、このマッピングはネットワークの深さを通して一様に適用されるのではなく、レイヤごとに異なることが許される。 そこで,S3DIS 上での最先端(SOTA) 性能を実現するパラメータ効率のモデルに,ネットワークの柔軟性を付与することで,従来の支配手法よりも少なくとも 10$\times$ 以下のパラメータで到達する。 さらに,scannet と partnet の競合性能を,より大きな sota モデルと比較した。

In this work, we focus on designing a point local aggregation function that yields parameter efficient networks for 3D point cloud semantic segmentation. We explore the idea of using learnable neighbor-to-grid soft assignment in grid-based aggregation functions. Previous methods in literature operate on a predefined geometric grid such as local volume partitions or irregular kernel points. A more general alternative is to allow the network to learn an assignment function that best suits the end task. Since it is learnable, this mapping is allowed to be different per layer instead of being applied uniformly throughout the depth of the network. By endowing the network with the flexibility to learn its own neighbor-to-grid assignment, we arrive at parameter efficient models that achieve state-of-the-art (SOTA) performance on S3DIS with at least 10$\times$ less parameters than the current reigning method. We also demonstrate competitive performance on ScanNet and PartNet compared with much larger SOTA models.
翻訳日:2021-04-18 20:35:56 公開日:2021-04-05
# 顔表現学習における奥行きの注意

Depth as Attention for Face Representation Learning ( http://arxiv.org/abs/2101.00652v2 )

ライセンス: Link先を確認
Hardik Uppal, Alireza Sepas-Moghaddam, Michael Greenspan and Ali Etemad(参考訳) 顔表現学習ソリューションは最近、検証や識別など様々な用途で大きな成功を収めている。 しかし、純粋にrgb画像に基づく顔認識アプローチは、強度情報のみに依存しているため、顔のバリエーション、特にポーズ、咬合、照明や背景などの環境変化に敏感である。 低コストrgb-dセンサを用いた深部マルチモーダル顔認識のための新しい奥行き誘導注意機構を提案する。 我々の新しい注意機構は、畳み込みニューラルネットワーク(CNN)によって抽出された深度特徴を用いて、ネットワークの注意を集中させることにより、RGB画像の視覚的特徴の「どこを見るべきか」を深度ネットワークに誘導する。 ディープ機能は、より顕著な個人固有の情報を含むRGB画像の顔の領域にネットワークが焦点を合わせるのに役立つ。 そして、この相関を利用して、CNNが抽出した深度特徴からRGB画像のアテンションマップを生成する。 提案手法により得られた特徴がLock3DFace, CurtinFaces, IIIT-D RGB-D, KaspAROVデータセットにおいて, ポーズ, オクルージョン, 照明, 表現, タイムラプスの困難なバリエーションを含む, より優れた結果をもたらすことを示す。 この解法は, 4つのデータセットに対して平均87.3\%(+5.0\%), 99.1\%(+0.9\%), 99.7\%(+0.6\%), 95.3\%(+0.5\%)の精度をそれぞれ達成し, 最先端の精度を向上させる。 また、深度画像の代わりに熱画像による追加実験を行い、奥行き情報の代わりに注意機構を誘導する他のモダリティを採用する際に、ソリューションの高一般化能力を示す。

Face representation learning solutions have recently achieved great success for various applications such as verification and identification. However, face recognition approaches that are based purely on RGB images rely solely on intensity information, and therefore are more sensitive to facial variations, notably pose, occlusions, and environmental changes such as illumination and background. A novel depth-guided attention mechanism is proposed for deep multi-modal face recognition using low-cost RGB-D sensors. Our novel attention mechanism directs the deep network "where to look" for visual features in the RGB image by focusing the attention of the network using depth features extracted by a Convolution Neural Network (CNN). The depth features help the network focus on regions of the face in the RGB image that contains more prominent person-specific information. Our attention mechanism then uses this correlation to generate an attention map for RGB images from the depth features extracted by CNN. We test our network on four public datasets, showing that the features obtained by our proposed solution yield better results on the Lock3DFace, CurtinFaces, IIIT-D RGB-D, and KaspAROV datasets which include challenging variations in pose, occlusion, illumination, expression, and time-lapse. Our solution achieves average (increased) accuracies of 87.3\% (+5.0\%), 99.1\% (+0.9\%), 99.7\% (+0.6\%) and 95.3\%(+0.5\%) for the four datasets respectively, thereby improving the state-of-the-art. We also perform additional experiments with thermal images, instead of depth images, showing the high generalization ability of our solution when adopting other modalities for guiding the attention mechanism instead of depth information
翻訳日:2021-04-12 11:37:34 公開日:2021-04-05
# (参考訳) インタースパイチ2021深部騒音抑制チャレンジ [全文訳有]

Interspeech 2021 Deep Noise Suppression Challenge ( http://arxiv.org/abs/2101.01902v3 )

ライセンス: CC BY 4.0
Chandan K A Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, Sriram Srinivasan(参考訳) ディープノイズ抑圧(DNS)課題は、ノイズ抑圧の領域におけるイノベーションを促進し、より優れた知覚音声品質を実現するために設計されている。 我々は最近、InterSPEECHとICASSP 2020でDNSチャレンジ特別セッションを開催した。 広帯域シナリオのためのトレーニングとテストデータセットをオープンソースとして公開しました。 また、ITU-T標準P.808に基づく主観評価フレームワークをオープンソース化し、課題の参加者の評価にも使用された。 学界や業界からの多くの研究者がこの分野を前進させるために多大な貢献をしたが、最高のノイズ抑制装置でさえ、挑戦的なシナリオにおいて優れた音声品質を達成するには程遠いものだった。 InterSPEECH 2021で組織された課題のこのバージョンでは、トレーニングとテストの両方のデータセットを拡張して、完全なバンドシナリオに対応しています。 この課題における2つのトラックは、(i)ワイドバンドと(ii)フルバンドシナリオのリアルタイムなデノージングに焦点を当てる。 また,開発段階で使用するために,dnsmosと呼ばれる信頼性の高い非インタラクティブな客観的音声品質指標を利用可能にする。

The Deep Noise Suppression (DNS) challenge is designed to foster innovation in the area of noise suppression to achieve superior perceptual speech quality. We recently organized a DNS challenge special session at INTERSPEECH and ICASSP 2020. We open-sourced training and test datasets for the wideband scenario. We also open-sourced a subjective evaluation framework based on ITU-T standard P.808, which was also used to evaluate participants of the challenge. Many researchers from academia and industry made significant contributions to push the field forward, yet even the best noise suppressor was far from achieving superior speech quality in challenging scenarios. In this version of the challenge organized at INTERSPEECH 2021, we are expanding both our training and test datasets to accommodate full band scenarios. The two tracks in this challenge will focus on real-time denoising for (i) wide band, and(ii) full band scenarios. We are also making available a reliable non-intrusive objective speech quality metric called DNSMOS for the participants to use during their development phase.
翻訳日:2021-04-11 06:48:28 公開日:2021-04-05
# (参考訳) 共振器異常検出のための弱度法と教師なし法の比較

Comparing Weak- and Unsupervised Methods for Resonant Anomaly Detection ( http://arxiv.org/abs/2104.02092v1 )

ライセンス: CC BY 4.0
Jack H. Collins, Pablo Mart\'in-Ramiro, Benjamin Nachman, David Shih(参考訳) 大型ハドロン衝突型加速器(LHC)では、モデルに依存しない方法で新しい物理を探す必要性が高まっているため、異常検出技術の重要性が高まっている。 本稿では,autoencoder(ae)と呼ばれる教師なし手法と,ラベルなし分類(cwola)手法に基づく弱い教師付きアプローチとの詳細な比較検討を行う。 完全ハドロン共鳴探索において, 異なる断面における新しい物理信号の同定能力について検討した。 構成上、AE分類性能は注入信号量とは独立である。 一方、CWoLaの性能は信号量の増加とともに向上する。 これらのアプローチを完全なバックグラウンド推定と統合すると、2つの手法が相補的な感度を持つことがわかった。 特に、cwolaは多様で中程度の希少な信号を見つけるのに有効であるが、aeは非常に稀な信号に感度を与えることができる。 そこで我々は,両手法が相補的であり,LHCにおける異常検出に併用できることを実証した。

Anomaly detection techniques are growing in importance at the Large Hadron Collider (LHC), motivated by the increasing need to search for new physics in a model-agnostic way. In this work, we provide a detailed comparative study between a well-studied unsupervised method called the autoencoder (AE) and a weakly-supervised approach based on the Classification Without Labels (CWoLa) technique. We examine the ability of the two methods to identify a new physics signal at different cross sections in a fully hadronic resonance search. By construction, the AE classification performance is independent of the amount of injected signal. In contrast, the CWoLa performance improves with increasing signal abundance. When integrating these approaches with a complete background estimate, we find that the two methods have complementary sensitivity. In particular, CWoLa is effective at finding diverse and moderately rare signals while the AE can provide sensitivity to very rare signals, but only with certain topologies. We therefore demonstrate that both techniques are complementary and can be used together for anomaly detection at the LHC.
翻訳日:2021-04-08 01:05:21 公開日:2021-04-05
# (参考訳) 解析関数のディープニューラルネットワーク近似 [全文訳有]

Deep neural network approximation of analytic functions ( http://arxiv.org/abs/2104.02095v1 )

ライセンス: CC BY 4.0
Aleksandr Beknazaryan(参考訳) 本稿では、ReLUや絶対値関数などの一方向線形活性化関数を持つニューラルネットワークの空間に対してエントロピーバウンドを提供する。 この境界は、 {\mathbb{r}^d$ 上の線型函数の空間に対する既知のエントロピー境界を一般化し、元のネットワークのすべてのパラメータの絶対値を取ることによって得られるネットワークの点 $(1,1,...,1)$ の値に依存する。 この値とネットワークの深さ、幅、パラメータを合わせて、1/\varepsilon$に対数依存性を持つようにしておくと、$\varepsilon$-approx imate関数は$\mathbb{c}^d$の特定の領域で解析されます。 統計的応用として、検討された深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。

We provide an entropy bound for the spaces of neural networks with piecewise linear activation functions, such as the ReLU and the absolute value functions. This bound generalizes the known entropy bound for the space of linear functions on $\mathbb{R}^d$ and it depends on the value at the point $(1,1,...,1)$ of the networks obtained by taking the absolute values of all parameters of original networks. Keeping this value together with the depth, width and the parameters of the networks to have logarithmic dependence on $1/\varepsilon$, we $\varepsilon$-approx imate functions that are analytic on certain regions of $\mathbb{C}^d$. As a statistical application we derive an oracle inequality for the expected error of the considered penalized deep neural network estimators.
翻訳日:2021-04-08 01:04:20 公開日:2021-04-05
# (参考訳) 知識蒸留による視覚言語モデル圧縮 [全文訳有]

Compressing Visual-linguistic Model via Knowledge Distillation ( http://arxiv.org/abs/2104.02096v1 )

ライセンス: CC BY 4.0
Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lijuan Wang, Yezhou Yang, Zicheng Liu(参考訳) 視覚言語学(VL)表現の事前学習のエキサイティングな進歩にもかかわらず、小さなVLモデルへの意図はほとんどない。 本稿では,変圧器を用いた大型VLモデルを小型VLモデルに効果的に圧縮するための知識蒸留(KD)について検討する。 主な課題は、教師と生徒の異なる検出器から抽出された一貫性のない地域的視覚トークンから生じ、隠された表現と注意の分布を誤認することである。 問題に対処するために,教師自身の物体検出装置からの特徴を把握しながら,学生の検出器からの提案と同じ領域を用いて教師を再訓練し適応する。 調整されたネットワーク入力により、適応された教師は中間表現を通して知識を伝達することができる。 具体的には、平均二乗誤差損失を用いて変圧器ブロック内の注意分布を模倣し、サンプルキューに格納された負の表現と対比して隠れた状態を調整するためにトークン回りのノイズコントラスト損失を示す。 そこで本研究では, 画像キャプションと視覚的質問応答タスクにおいて, 小型vlモデルの性能が大幅に向上することを示す。 cocoキャプションでのciderスコアは120.8に達し、非蒸留のキャプションよりも5.1改善され、vqa 2.0では69.8でベースラインから0.8上昇した。 プレトレーニングおよび微調整段階におけるVL蒸留の有効性を確認した。

Despite exciting progress in pre-training for visual-linguistic (VL) representations, very few aspire to a small VL model. In this paper, we study knowledge distillation (KD) to effectively compress a transformer-based large VL model into a small VL model. The major challenge arises from the inconsistent regional visual tokens extracted from different detectors of Teacher and Student, resulting in the misalignment of hidden representations and attention distributions. To address the problem, we retrain and adapt the Teacher by using the same region proposals from Student's detector while the features are from Teacher's own object detector. With aligned network inputs, the adapted Teacher is capable of transferring the knowledge through the intermediate representations. Specifically, we use the mean square error loss to mimic the attention distribution inside the transformer block and present a token-wise noise contrastive loss to align the hidden state by contrasting with negative representations stored in a sample queue. To this end, we show that our proposed distillation significantly improves the performance of small VL models on image captioning and visual question answering tasks. It reaches 120.8 in CIDEr score on COCO captioning, an improvement of 5.1 over its non-distilled counterpart; and an accuracy of 69.8 on VQA 2.0, a 0.8 gain from the baseline. Our extensive experiments and ablations confirm the effectiveness of VL distillation in both pre-training and fine-tuning stages.
翻訳日:2021-04-08 00:48:27 公開日:2021-04-05
# (参考訳) 長文要約のための効率的注意 [全文訳有]

Efficient Attentions for Long Document Summarization ( http://arxiv.org/abs/2104.02112v1 )

ライセンス: CC BY 4.0
Luyang Huang, Shuyang Cao, Nikolaus Parulian, Heng Ji and Lu Wang(参考訳) 大規模変圧器の二次計算とメモリの複雑さは、長い文書要約のスケーラビリティを制限している。 そこで本論文では,頭部方向の位置方向を向いたより効率的なエンコーダ・デコーダのためのheposを提案する。 さらに、既存の効率的な自己意識の体系的研究を行う。 Heposと組み合わせることで、十分に注意を払っている既存のモデルよりも10倍多くのトークンを処理できます。 評価には、文書と要約が大幅に長い新しいデータセットであるGovReportを提案する。 その結果,我々のモデルでは,PubMedの新たな最先端結果を含む競合比較よりも高いROUGEスコアが得られた。 人間の評価は、我々のモデルが不信な誤りが少ないより情報的な要約を生成することも示している。

The quadratic computational and memory complexities of large Transformers have limited their scalability for long document summarization. In this paper, we propose Hepos, a novel efficient encoder-decoder attention with head-wise positional strides to effectively pinpoint salient information from the source. We further conduct a systematic study of existing efficient self-attentions. Combined with Hepos, we are able to process ten times more tokens than existing models that use full attentions. For evaluation, we present a new dataset, GovReport, with significantly longer documents and summaries. Results show that our models produce significantly higher ROUGE scores than competitive comparisons, including new state-of-the-art results on PubMed. Human evaluation also shows that our models generate more informative summaries with fewer unfaithful errors.
翻訳日:2021-04-08 00:24:27 公開日:2021-04-05
# (参考訳) 自然言語理解のための離散推論テンプレート [全文訳有]

Discrete Reasoning Templates for Natural Language Understanding ( http://arxiv.org/abs/2104.02115v1 )

ライセンス: CC BY 4.0
Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo(参考訳) 文章の複数の部分から情報を推論して答えを導き出すことは、理解モデルを読むことの難題である。 本稿では,単一スパン抽出による読み理解モデルを利用した単純なサブクエスチョーションに分解し,事前定義された推論テンプレートで指示に従って最終回答を導出することにより,複雑な質問に対する理由付けを行う手法を提案する。 本稿では,減算に基づく算術問題に着目し,DROPデータセットのサブセットにアプローチを評価する。 我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。

Reasoning about information from multiple parts of a passage to derive an answer is an open challenge for reading-comprehensio n models. In this paper, we present an approach that reasons about complex questions by decomposing them to simpler subquestions that can take advantage of single-span extraction reading-comprehensio n models, and derives the final answer according to instructions in a predefined reasoning template. We focus on subtraction-based arithmetic questions and evaluate our approach on a subset of the DROP dataset. We show that our approach is competitive with the state-of-the-art while being interpretable and requires little supervision
翻訳日:2021-04-08 00:02:20 公開日:2021-04-05
# (参考訳) ASER:事象に対する高次選択選好による大規模コモンセンス知識獲得を目指して

ASER: Towards Large-scale Commonsense Knowledge Acquisition via Higher-order Selectional Preference over Eventualities ( http://arxiv.org/abs/2104.02137v1 )

ライセンス: CC BY 4.0
Hongming Zhang, Xin Liu, Haojie Pan, Haowen Ke, Jiefu Ou, Tianqing Fang, Yangqiu Song(参考訳) commonsenseの知識獲得と推論は長い間、人工知能の重要な問題だった。 しかし、過去にはコモンセンスの知識を集めるためのスケーラブルな方法が不足していた。 本稿では,選択選好に基づく常識知識の収集のための原則を提案する。 言語グラフ上の1-ホップ言語構文関係から高次関係への選択的選好の定義を一般化する。 従来のコモンセンスの知識定義(例:conceptnet)とは異なり、選択選好(英語版)(sp)の知識は言語グラフ上の統計的分布のみに依存している。 この原則に従って、各結果度を依存グラフとして表現し、それらの関係を浅い談話解析で定義された談話関係とする、大規模結果度(活動、状態、出来事を対象とする言語用語)ベースの知識グラフaserを開発した。 収集された言語グラフに対する上位選択選好は、様々な種類の常識知識を反映している。 さらに,観察された事象をより高レベルに抽象化し,その知識を新たな事象に伝達することで,人間が出来事を理解することを動機とした概念化モジュールを提案する。 ASERには4億3800万の事象と6億4800万の事象がある。 選択選好に基づく概念-インスタンス関係知識ベースであるProbaseによる概念化の後、概念グラフは1500万の概念化された結果と2億2400万のエッジを含む。 詳細な分析は、その品質を示すために提供される。 収集されたデータ、API、ツールはすべてhttps://github.com/H KUST-KnowComp/ASER.c omで入手できる。

Commonsense knowledge acquisition and reasoning have long been a core artificial intelligence problem. However, in the past, there has been a lack of scalable methods to collect commonsense knowledge. In this paper, we propose to develop principles for collecting commonsense knowledge based on selectional preference. We generalize the definition of selectional preference from one-hop linguistic syntactic relations to higher-order relations over linguistic graphs. Unlike previous commonsense knowledge definition (e.g., ConceptNet), the selectional preference (SP) knowledge only relies on statistical distribution over linguistic graphs, which can be efficiently and accurately acquired from the unlabeled corpus with modern tools. Following this principle, we develop a large-scale eventuality (a linguistic term covering activity, state, and event)-based knowledge graph ASER, where each eventuality is represented as a dependency graph, and the relation between them is a discourse relation defined in shallow discourse parsing. The higher-order selectional preference over collected linguistic graphs reflects various kinds of commonsense knowledge. Moreover, motivated by the observation that humans understand events by abstracting the observed events to a higher level and can thus transferring their knowledge to new events, we propose a conceptualization module to significantly boost the coverage of ASER. In total, ASER contains 438 million eventualities and 648 million edges between eventualities. After conceptualization with Probase, a selectional preference based concept-instance relational knowledge base, our concept graph contains 15 million conceptualized eventualities and 224 million edges between them. Detailed analysis is provided to demonstrate its quality. All the collected data, APIs, and tools are available at https://github.com/H KUST-KnowComp/ASER.
翻訳日:2021-04-07 23:51:50 公開日:2021-04-05
# (参考訳) 6つの交点平面からの局所2値パターンを用いたマイクロ表現apexフレームの自動スポッティング [全文訳有]

Automatic Micro-Expression Apex Frame Spotting using Local Binary Pattern from Six Intersection Planes ( http://arxiv.org/abs/2104.02149v1 )

ライセンス: CC BY 4.0
Vida Esmaeili, Mahmood Mohassel Feghhi, Seyed Omid Shahdi(参考訳) 表情は非言語コミュニケーションにおいて最も効果的な方法の1つであり、高い状況下ではME(Micro-Expression) として表現できる。 MEは不随意で、迅速で、微妙で、真の人間の意図を明らかにすることができる。 しかし、その強度が低く、非常に短いため、特徴抽出は非常に困難である。 三次元直交平面(LBP-TOP)特徴抽出器の局所バイナリパターンはME解析に有用であるが,本質的な情報とはみなさない。 この問題に対処するため,Six Intersection Planes (LBP-SIPl) からローカルバイナリパターンと呼ばれる特徴抽出器を提案する。 この方法は、6つの交叉面上のLPPコードを抽出し、それらを結合する。 その結果,提案手法はCASMEデータベースの関連手法と比較して,頂点フレームスポッティングにおける性能が優れていることがわかった。 シミュレーションの結果,提案手法を用いて,CASMEデータベースの被験者の43%に頂点フレームが自動的に検出されていることがわかった。 また, 提案手法を用いて, 1.76 の平均絶対誤差を達成する。

Facial expressions are one of the most effective ways for non-verbal communications, which can be expressed as the Micro-Expression (ME) in the high-stake situations. The MEs are involuntary, rapid, and, subtle, and they can reveal real human intentions. However, their feature extraction is very challenging due to their low intensity and very short duration. Although Local Binary Pattern from Three Orthogonal Plane (LBP-TOP) feature extractor is useful for the ME analysis, it does not consider essential information. To address this problem, we propose a new feature extractor called Local Binary Pattern from Six Intersection Planes (LBP-SIPl). This method extracts LBP code on six intersection planes, and then it combines them. Results show that the proposed method has superior performance in apex frame spotting automatically in comparison with the relevant methods on the CASME database. Simulation results show that, using the proposed method, the apex frame has been spotted in 43% of subjects in the CASME database, automatically. Also, the mean absolute error of 1.76 is achieved, using our novel proposed method.
翻訳日:2021-04-07 23:50:40 公開日:2021-04-05
# (参考訳) 深層マルチタスク学習によるスマートベッドのアイデンティティと姿勢認識 [全文訳有]

Identity and Posture Recognition in Smart Beds with Deep Multitask Learning ( http://arxiv.org/abs/2104.02159v1 )

ライセンス: CC BY 4.0
Vandad Davoodnia, Ali Etemad(参考訳) 睡眠姿勢分析は臨床患者モニタリングや睡眠研究に広く用いられている。 以前の研究によると、睡眠姿勢は無呼吸症や圧力潰瘍などの疾患の症状に大きく影響している。 本研究では,商用圧マッピングシステムから取得した公開データを用いて,被験者とその睡眠姿勢を正確に検出できるロバストな深層学習モデルを提案する。 喪失機能の組み合わせは、被験者と睡眠姿勢を同時に区別するために使用される。 実験の結果,提案手法は10倍のクロスバリデーション法でほとんど誤差のない患者とそのベッド内姿勢を同定できることがわかった。 また,本ネットワークは,最も一般的な3つの睡眠姿勢カテゴリにおいて,新たな被験者と対面した場合の平均精度を最大99%達成することを示した。 複合コスト関数がパラメータに与える影響を実証し,両タスクの学習が性能を著しく向上することを示す。 最後に,データセットの拡張画像上でテストすることにより,提案パイプラインを評価する。 提案アルゴリズムは最終的に臨床およびスマートホーム環境において、他の自動化された患者監視システムと相補的なツールとして利用することができる。

Sleep posture analysis is widely used for clinical patient monitoring and sleep studies. Earlier research has revealed that sleep posture highly influences symptoms of diseases such as apnea and pressure ulcers. In this study, we propose a robust deep learning model capable of accurately detecting subjects and their sleeping postures using the publicly available data acquired from a commercial pressure mapping system. A combination of loss functions is used to discriminate subjects and their sleeping postures simultaneously. The experimental results show that our proposed method can identify the patients and their in-bed posture with almost no errors in a 10-fold cross-validation scheme. Furthermore, we show that our network achieves an average accuracy of up to 99% when faced with new subjects in a leave-one-subject-ou t validation procedure on the three most common sleeping posture categories. We demonstrate the effects of the combined cost function over its parameter and show that learning both tasks simultaneously improves performance significantly. Finally, we evaluate our proposed pipeline by testing it over augmented images of our dataset. The proposed algorithm can ultimately be used in clinical and smart home environments as a complementary tool with other available automated patient monitoring systems.
翻訳日:2021-04-07 23:41:40 公開日:2021-04-05
# (参考訳) ニューラルネットワークを用いたコロナウイルス(Covid-19)の検出・予測・気象影響に関する知見 [全文訳有]

Insight about Detection, Prediction and Weather Impact of Coronavirus (Covid-19) using Neural Network ( http://arxiv.org/abs/2104.02173v1 )

ライセンス: CC BY 4.0
A K M Bahalul Haque, Tahmid Hasan Pranto, Abdulla All Noman and Atik Mahmood(参考訳) 新型コロナウイルスによる壊滅的なパンデミック(covid-19)で、世界は厳しい状況に直面している。 感染者数は日々急増しており、すでに640万人を超えている。 ワクチンはまだ見つかっていないため、患者と隔離の早期発見はウイルスの感染拡大を減らす唯一の手段であり、最も効果的な方法である。 深層ニューラルネットワークを用いて胸部x線から感染者を検出することは、時間と労力の節約のソリューションとして応用できる。 本研究では,コビッド19,肺炎,正常胸部X線を分類し,コビッド19の検出を試みた。 5種類の畳み込み型ニューラルネットワークモデル(vgg16,vgg19,xceptio n,inceptionv3,resnet 50)を用いた。 VGG16とVGG19は、分類において正確な性能を示す。 どちらのモデルも92%以上の精度で3種類のX線を分類できる。 また,気候要因(気温,湿度,太陽時間,風速)が,このパンデミックに与える影響を決定木回帰器を用いて調査した。 その結果、気温、湿度、日照時間はコビッド19のエスカレーションに85.88%、そしてコビッド19による死亡に91.89%の影響を及ぼすことがわかった。 また、ロジスティックレグレッション(logisticregression) を用いて、新型コロナウイルスによる年齢、性別、国、場所に基づいて個人の死亡を予測し、モデル精度94.40%の個人の死亡を予測しようとした。

The world is facing a tough situation due to the catastrophic pandemic caused by novel coronavirus (COVID-19). The number people affected by this virus are increasing exponentially day by day and the number has already crossed 6.4 million. As no vaccine has been discovered yet, the early detection of patients and isolation is the only and most effective way to reduce the spread of the virus. Detecting infected persons from chest X-Ray by using Deep Neural Networks, can be applied as a time and laborsaving solution. In this study, we tried to detect Covid-19 by classification of Covid-19, pneumonia and normal chest X-Rays. We used five different Convolutional Pre-Trained Neural Network models (VGG16, VGG19, Xception, InceptionV3 and Resnet50) and compared their performance. VGG16 and VGG19 shows precise performance in classification. Both models can classify between three kinds of X-Rays with an accuracy over 92%. Another part of our study was to find the impact of weather factors (temperature, humidity, sun hour and wind speed) on this pandemic using Decision Tree Regressor. We found that temperature, humidity and sun-hour jointly hold 85.88% impact on escalation of Covid-19 and 91.89% impact on death due to Covid-19 where humidity has 8.09% impact on death. We also tried to predict the death of an individual based on age, gender, country, and location due to COVID-19 using the LogisticRegression, which can predict death of an individual with a model accuracy of 94.40%.
翻訳日:2021-04-07 23:28:39 公開日:2021-04-05
# (参考訳) amp(adversarial motion priors for stylized physics-based character control) [全文訳有]

AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control ( http://arxiv.org/abs/2104.02180v1 )

ライセンス: CC BY 4.0
Xue Bin Peng, Ze Ma, Pieter Abbeel, Sergey Levine, Angjoo Kanazawa(参考訳) 物理的にシミュレートされた文字に対する優雅でライフライクな振る舞いの合成は、コンピュータアニメーションにおける根本的な課題である。 動き追跡を利用するデータ駆動手法は、幅広い行動に対して高忠実度な動きを生成するための顕著な手法である。 しかしながら、これらのトラッキングに基づく手法の有効性は、しばしば慎重に設計された目的関数に影響を及ぼし、大規模で多様な動きデータセットに適用する場合、与えられたシナリオにおいてキャラクタが追跡する適切な動きを選択するために、重要な追加の機械を必要とする。 本研究では, 逆模倣学習に基づく完全自動化アプローチを活用し, 動作選択のための模倣目的や機構を手作業で設計する必要性を解消する。 文字が実行するべきハイレベルなタスク目的は比較的単純な報酬関数で指定でき、一方、文字の振る舞いの低レベルなスタイルは、明示的なクリップ選択やシーケンシングなしに、非構造化モーションクリップのデータセットで指定することができる。 これらの動きクリップは、強化学習(RL)を通してキャラクターを訓練するためのスタイル・リワードを指定する。 逆rl手順は、データセットから実行すべき動作を自動的に選択し、動的に補間し、一般化する。 このシステムでは,最先端のトラッキングベース技術と同等の高品質なモーションを生成できると同時に,非構造化モーションクリップの大規模なデータセットを容易に対応できる。 異なるスキルの構成は、ハイレベルなモーションプランナーやタスク固有のモーションクリップのアノテーションを必要とせずに、前のモーションから自動的に現れる。 複雑なシミュレートされたキャラクタの多種多様なキャストと,モータ制御タスクの難易度に対して,我々のフレームワークの有効性を実証する。

Synthesizing graceful and life-like behaviors for physically simulated characters has been a fundamental challenge in computer animation. Data-driven methods that leverage motion tracking are a prominent class of techniques for producing high fidelity motions for a wide range of behaviors. However, the effectiveness of these tracking-based methods often hinges on carefully designed objective functions, and when applied to large and diverse motion datasets, these methods require significant additional machinery to select the appropriate motion for the character to track in a given scenario. In this work, we propose to obviate the need to manually design imitation objectives and mechanisms for motion selection by utilizing a fully automated approach based on adversarial imitation learning. High-level task objectives that the character should perform can be specified by relatively simple reward functions, while the low-level style of the character's behaviors can be specified by a dataset of unstructured motion clips, without any explicit clip selection or sequencing. These motion clips are used to train an adversarial motion prior, which specifies style-rewards for training the character through reinforcement learning (RL). The adversarial RL procedure automatically selects which motion to perform, dynamically interpolating and generalizing from the dataset. Our system produces high-quality motions that are comparable to those achieved by state-of-the-art tracking-based techniques, while also being able to easily accommodate large datasets of unstructured motion clips. Composition of disparate skills emerges automatically from the motion prior, without requiring a high-level motion planner or other task-specific annotations of the motion clips. We demonstrate the effectiveness of our framework on a diverse cast of complex simulated characters and a challenging suite of motor control tasks.
翻訳日:2021-04-07 23:19:29 公開日:2021-04-05
# (参考訳) アナログクロスバーアレイのトレーニングと推論をシミュレートするための柔軟で高速なPyTorchツールキット [全文訳有]

A flexible and fast PyTorch toolkit for simulating training and inference on analog crossbar arrays ( http://arxiv.org/abs/2104.02184v1 )

ライセンス: CC BY 4.0
Malte J. Rasch, Diego Moreda, Tayfun Gokmen, Manuel Le Gallo, Fabio Carta, Cindy Goldberg, Kaoutar El Maghraoui, Abu Sebastian, Vijay Narayanan(参考訳) 我々は、pytorch内(https://github.com/ ibm/aihwkitで無料で利用できる)から、アナログクロスバー配列を便利な方法でシミュレートする、新しい、そして最初の種類のオープンソースツールキットであるibm analog hardware acceleration kitを紹介します。 このツールキットは開発中で、クロスバーアレイで実行される計算をキャプチャする"analog tile"の概念を中心に開発されている。 アナログタイルは、既存のネットワークモジュールをアナログコンポーネントで拡張し、pytorchフレームワークの柔軟性を使って任意のニューラルネットワーク(ann)を構成するために使用できるブロックである。 アナログタイルは、デバイス間およびサイクル間変動、抵抗デバイス応答曲線、重量および出力ノイズなど、様々なアナログハードウェア特性およびそれらの非理想性をエミュレートするように、便利に構成することができる。 さらに、ツールキットはカスタムのセル構成を設計でき、tiki-takaのような高度なアナログ最適化アルゴリズムを使うことができる。 さらに、後方および更新動作を"理想"に設定することで、推論アクセラレーションのみをターゲットにしたチップのハードウェア対応トレーニング機能を実現できる。 このようなチップの時間的推測精度を評価するため,位相変化メモリハードウェア上での統計的プログラミングノイズとドリフトモデルを提案する。 我々の新しいツールキットは完全にGPUを加速しており、任意のANNの精度に対する材料特性と将来のアナログ技術の非理想性の影響を便利に推定することができる。

We introduce the IBM Analog Hardware Acceleration Kit, a new and first of a kind open source toolkit to simulate analog crossbar arrays in a convenient fashion from within PyTorch (freely available at https://github.com/I BM/aihwkit). The toolkit is under active development and is centered around the concept of an "analog tile" which captures the computations performed on a crossbar array. Analog tiles are building blocks that can be used to extend existing network modules with analog components and compose arbitrary artificial neural networks (ANNs) using the flexibility of the PyTorch framework. Analog tiles can be conveniently configured to emulate a plethora of different analog hardware characteristics and their non-idealities, such as device-to-device and cycle-to-cycle variations, resistive device response curves, and weight and output noise. Additionally, the toolkit makes it possible to design custom unit cell configurations and to use advanced analog optimization algorithms such as Tiki-Taka. Moreover, the backward and update behavior can be set to "ideal" to enable hardware-aware training features for chips that target inference acceleration only. To evaluate the inference accuracy of such chips over time, we provide statistical programming noise and drift models calibrated on phase-change memory hardware. Our new toolkit is fully GPU accelerated and can be used to conveniently estimate the impact of material properties and non-idealities of future analog technology on the accuracy for arbitrary ANNs.
翻訳日:2021-04-07 22:46:29 公開日:2021-04-05
# 逆画像浄化のためのロバスト意味表現の適応クラスタリング

Adaptive Clustering of Robust Semantic Representations for Adversarial Image Purification ( http://arxiv.org/abs/2104.02155v1 )

ライセンス: Link先を確認
Samuel Henrique Silva, Arun Das, Ian Scarff, Peyman Najafirad(参考訳) ディープラーニングモデルは、破滅的な結果をもたらす可能性のある敵の操作に非常に影響を受けやすい。 このような障害から防御する最も効果的な方法の1つは、敵対的なトレーニングであるが、モデル間の無防備な攻撃と伝達可能性の一般化のコストがかかる。 本稿では,敵の攻撃に対する堅牢な防御法を提案する。 まず、ベースラインモデルを用いて、各クラスの潜在表現を抽出し、意味的類似性を共有する潜在表現を適応的にクラスタ化する。 クラスタ化された潜在表現の分布を求め,それらの画像から意味的再構成辞書(srd)を学習する。 我々は,逆向きの潜在空間表現と真のクラスタ分布との距離を最小化するために,潜在空間表現を制約する新しいモデルを逆向きに訓練する。 画像を精製するために、入力を低周波成分と高周波成分に分解する。 クリーンデータセットから最も適切なSRDに基づいて高周波成分を再構成する。 最も適切なSRDを評価するために、ロバストな潜在表現とセマンティッククラスタの分布との距離に依存する。 出力は摂動のない清浄画像である。 提案手法を用いてCIFAR-10とImageNet-10の画像浄化を行ったところ, 精度が10%以上向上した。

Deep Learning models are highly susceptible to adversarial manipulations that can lead to catastrophic consequences. One of the most effective methods to defend against such disturbances is adversarial training but at the cost of generalization of unseen attacks and transferability across models. In this paper, we propose a robust defense against adversarial attacks, which is model agnostic and generalizable to unseen adversaries. Initially, with a baseline model, we extract the latent representations for each class and adaptively cluster the latent representations that share a semantic similarity. We obtain the distributions for the clustered latent representations and from their originating images, we learn semantic reconstruction dictionaries (SRD). We adversarially train a new model constraining the latent space representation to minimize the distance between the adversarial latent representation and the true cluster distribution. To purify the image, we decompose the input into low and high-frequency components. The high-frequency component is reconstructed based on the most adequate SRD from the clean dataset. In order to evaluate the most adequate SRD, we rely on the distance between robust latent representations and semantic cluster distributions. The output is a purified image with no perturbation. Image purification on CIFAR-10 and ImageNet-10 using our proposed method improved the accuracy by more than 10% compared to state-of-the-art results.
翻訳日:2021-04-07 14:25:02 公開日:2021-04-05
# SpeechStew: 大きなニューラルネットワークを訓練するために、すべての利用可能な音声認識データを単純に混ぜる

SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network ( http://arxiv.org/abs/2104.02133v1 )

ライセンス: Link先を確認
William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi(参考訳) 本研究では, ami, broadcast news, common voice, librispeech, switchboard/fisher, tedlium, wall street journalなどの音声認識データセットを組み合わせた音声認識モデルである speechstew を提案する。 SpeechStewは、データセットの特別な再重み付けや再バランスなしに、これらのデータセットをすべて混ぜる。 SpeechStewは、外部言語モデルを用いることなく、様々なタスクでSoTAまたはSoTAに近い結果を達成する。 結果は、AMI-IHMの9.0\% WER、Switchboardの4.7\% WER、CallHomeの8.3\% WER、WSJの1.3\%などです。 また, speechstew が強力な転送学習表現を学習することを示す。 雑音の多い低リソース音声データセットCHiME-6で音声を微調整する。 言語モデルなしで38.9\% WERを達成し、38.6\% WERと強力なHMMベースラインを言語モデルで比較した。

We present SpeechStew, a speech recognition model that is trained on a combination of various publicly available speech recognition datasets: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and Wall Street Journal. SpeechStew simply mixes all of these datasets together, without any special re-weighting or re-balancing of the datasets. SpeechStew achieves SoTA or near SoTA results across a variety of tasks, without the use of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\% WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which significantly outperforms prior work with strong external language models. We also demonstrate that SpeechStew learns powerful transfer learning representations. We fine-tune SpeechStew on a noisy low resource speech dataset, CHiME-6. We achieve 38.9\% WER without a language model, which compares to 38.6\% WER to a strong HMM baseline with a language model.
翻訳日:2021-04-07 14:23:40 公開日:2021-04-05
# 転校学習の簡潔なレビュー

A Concise Review of Transfer Learning ( http://arxiv.org/abs/2104.02144v1 )

ライセンス: Link先を確認
Abolfazl Farahani, Behrouz Pourshojae, Khaled Rasheed, Hamid R. Arabnia(参考訳) 近年、豊富なラベル付きデータが利用可能になったため、研究者らは、新しい注釈付きデータの収集が困難である状況で既存のデータを利用する転送学習という手法を導入した。 Transfer Learningは、他の関連するソースデータを適用することで、ターゲット学習者のパフォーマンスを高めることを目的としている。 従来の機械学習やデータマイニング技術とは対照的に、トレーニングとテストのデータは同じ特徴空間と分布から来ていると仮定すると、トランスファーラーニングはドメインと分布の間に相違がある状況を扱うことができる。 これらの特徴は、モデルに利用可能な関連するソースデータを利用する可能性を与え、基礎となる知識を目標タスクに拡張し、より良いパフォーマンスを実現する。 本研究は,従来の伝達学習設定や既存の課題,関連するアプローチについて,簡潔なレビューを行うことを目的としている。

The availability of abundant labeled data in recent years led the researchers to introduce a methodology called transfer learning, which utilizes existing data in situations where there are difficulties in collecting new annotated data. Transfer learning aims to boost the performance of a target learner by applying another related source data. In contrast to the traditional machine learning and data mining techniques, which assume that the training and testing data lie from the same feature space and distribution, transfer learning can handle situations where there is a discrepancy between domains and distributions. These characteristics give the model the potential to utilize the available related source data and extend the underlying knowledge to the target task achieving better performance. This survey paper aims to give a concise review of traditional and current transfer learning settings, existing challenges, and related approaches.
翻訳日:2021-04-07 14:23:02 公開日:2021-04-05
# 羅生門の再考:「二つの文化」へのコメント

Revisiting Rashomon: A Comment on "The Two Cultures" ( http://arxiv.org/abs/2104.02150v1 )

ライセンス: Link先を確認
Alexander D'Amour(参考訳) ここでは,leo breiman教授の論文 "the two cultures" について考察する。 具体的には,Breiman氏が「羅生門効果」と呼ぶ現象に注目し,予測精度の基準を等しく満たすモデルが多数存在するが,データ内の情報を実質的に異なる方法で処理する状況について述べる。 この現象は、結論を引き出すのが難しくなり、データに適合するモデルに基づいて決定を自動化する。 私は、この問題の意味を探求する機械学習文献の最近の研究につながり、アルゴリズムとデータモデリングの文化の間の協力の実りある領域である可能性があることに注意する。

Here, I provide some reflections on Prof. Leo Breiman's "The Two Cultures" paper. I focus specifically on the phenomenon that Breiman dubbed the "Rashomon Effect", describing the situation in which there are many models that satisfy predictive accuracy criteria equally well, but process information in the data in substantially different ways. This phenomenon can make it difficult to draw conclusions or automate decisions based on a model fit to data. I make connections to recent work in the Machine Learning literature that explore the implications of this issue, and note that grappling with it can be a fruitful area of collaboration between the algorithmic and data modeling cultures.
翻訳日:2021-04-07 14:21:59 公開日:2021-04-05
# ガウス混合モデルに対する$\ell_0$攻撃下のロバスト分類

Robust Classification Under $\ell_0$ Attack for the Gaussian Mixture Model ( http://arxiv.org/abs/2104.02189v1 )

ライセンス: Link先を確認
Payam Delgosha, Hamed Hassani, Ramtin Pedarsani(参考訳) 機械学習モデルは、小さなが巧妙に設計された敵の摂動に対して脆弱であり、誤分類を引き起こすことはよく知られている。 様々な敵の設定に対する攻撃や防御の設計には大きな進展があったが、基本的な問題や理論的な問題が解決されていない。 本稿では,$\ell_0$-bounded adversarial perturbations, a.k.a の存在下での分類を考える。 まばらな攻撃だ この設定は他の$\ell_p$-adversarial 設定と大きく異なり、$p\geq 1$は$\ell_0$-ballが非凸であり、非常に非滑らかである。 ガウス混合モデルに基づいてデータが分散されているという仮定の下で、我々の目標は、最適ロバスト分類器とそれに対応するロバスト分類誤差と、ロバスト性、精度、および敵の予算のトレードオフを特徴づけることである。 この目的のために,filtrunと呼ばれる2つの主モジュールを持つ新しい分類アルゴリズムを開発した。 提案手法の鍵となる考え方は,まず入力の非破壊座標をフィルタリングし,慎重に設計した内積を分類することである。 FilTrunの性能を解析することにより、最適なロバスト分類誤差に基づいて上限を求める。 また、対応するロバストな分類器とその達成された誤りを導出できる特定の逆戦略を設計することで、より低い境界を求める。 ガウス混合の共分散行列が対角的である場合、入力の次元が大きくなるにつれて上界と下界が収束することを示す。 漸近的最適ロバスト分類器を特徴付ける。 本報告では, 対人摂動の効果を完全に中和できるかどうかを判定する, 対人予算の相転移の存在など, 興味深い行動を示すいくつかの事例について論じる。

It is well-known that machine learning models are vulnerable to small but cleverly-designed adversarial perturbations that can cause misclassification. While there has been major progress in designing attacks and defenses for various adversarial settings, many fundamental and theoretical problems are yet to be resolved. In this paper, we consider classification in the presence of $\ell_0$-bounded adversarial perturbations, a.k.a. sparse attacks. This setting is significantly different from other $\ell_p$-adversarial settings, with $p\geq 1$, as the $\ell_0$-ball is non-convex and highly non-smooth. Under the assumption that data is distributed according to the Gaussian mixture model, our goal is to characterize the optimal robust classifier and the corresponding robust classification error as well as a variety of trade-offs between robustness, accuracy, and the adversary's budget. To this end, we develop a novel classification algorithm called FilTrun that has two main modules: Filtration and Truncation. The key idea of our method is to first filter out the non-robust coordinates of the input and then apply a carefully-designed truncated inner product for classification. By analyzing the performance of FilTrun, we derive an upper bound on the optimal robust classification error. We also find a lower bound by designing a specific adversarial strategy that enables us to derive the corresponding robust classifier and its achieved error. For the case that the covariance matrix of the Gaussian mixtures is diagonal, we show that as the input's dimension gets large, the upper and lower bounds converge; i.e. we characterize the asymptotically-optim al robust classifier. Throughout, we discuss several examples that illustrate interesting behaviors such as the existence of a phase transition for adversary's budget determining whether the effect of adversarial perturbation can be fully neutralized.
翻訳日:2021-04-07 14:21:47 公開日:2021-04-05
# Trie-based Deep Biasing and Shallow Fusion を用いた文脈的ストリームエンドツーエンド音声認識

Contextualized Streaming End-to-End Speech Recognition with Trie-Based Deep Biasing and Shallow Fusion ( http://arxiv.org/abs/2104.02194v1 )

ライセンス: Link先を確認
Duc Le, Mahaveer Jain, Gil Keren, Suyoun Kim, Yangyang Shi, Jay Mahadeokar, Julian Chan, Yuan Shangguan, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Michael L. Seltzer(参考訳) エンド・ツー・エンド音声認識における動的文脈情報の利用法は、現在も活発な研究分野である。 この問題に対する以前の解決策は、オープンドメインのシナリオをうまく一般化しなかったり、大きなバイアスリストにスケールしなかったり、稀な長尾語で性能が低かったりする特殊なユースケースのために設計された。 これらの制限に対処するために、浅い融合、トリエベースのディープバイアス、ニューラルネットワーク言語モデルの文脈化を組み合わせた新しいソリューションを提案する。 これらの手法は、既存の文脈バイアスアプローチに対する19.5%の相対的な単語誤り率の改善と、5.4%-9.3%の改善をもたらす。 最終的なシステムは軽量でモジュール化されており、モデルの再トレーニングなしに素早く修正できます。

How to leverage dynamic contextual information in end-to-end speech recognition has remained an active research area. Previous solutions to this problem were either designed for specialized use cases that did not generalize well to open-domain scenarios, did not scale to large biasing lists, or underperformed on rare long-tail words. We address these limitations by proposing a novel solution that combines shallow fusion, trie-based deep biasing, and neural network language model contextualization. These techniques result in significant 19.5% relative Word Error Rate improvement over existing contextual biasing approaches and 5.4%-9.3% improvement compared to a strong hybrid baseline on both open-domain and constrained contextualization tasks, where the targets consist of mostly rare long-tail words. Our final system remains lightweight and modular, allowing for quick modification without model re-training.
翻訳日:2021-04-07 14:18:39 公開日:2021-04-05
# 多様体近傍の低速確率系の非線形モデル還元

Nonlinear model reduction for slow-fast stochastic systems near manifolds ( http://arxiv.org/abs/2104.02120v1 )

ライセンス: Link先を確認
Felix X.-F. Ye, Sichen Yang, Mauro Maggioni(参考訳) 本稿では,低次元不変有効多様体と低速ダイナミクス,高次元大速モードを有する高次元確率力学系に対して,非線形確率モデル還元法を提案する。 シミュレーションの短いバーストが得られるブラックボックスシミュレータのみにアクセスすると、不変多様体を推定し、その上で有効な(確率的な)ダイナミクスの過程を推定し、その効率的なシミュレータを構築する。 これらの推定ステップはオンザフライで実行でき、基礎となるダイナミクスとの一貫性を失うことなく、効率的な状態空間の探索に繋がる。 この構造は, 定常分布, 準安定状態の同定, 滞留時間, 遷移速度など, それらの力学の重要な特徴と観測可能性の推定とともに, 有効力学の経路の高速かつ効率的なシミュレーションを可能にする。

We introduce a nonlinear stochastic model reduction technique for high-dimensional stochastic dynamical systems that have a low-dimensional invariant effective manifold with slow dynamics, and high-dimensional, large fast modes. Given only access to a black box simulator from which short bursts of simulation can be obtained, we estimate the invariant manifold, a process of the effective (stochastic) dynamics on it, and construct an efficient simulator thereof. These estimation steps can be performed on-the-fly, leading to efficient exploration of the effective state space, without losing consistency with the underlying dynamics. This construction enables fast and efficient simulation of paths of the effective dynamics, together with estimation of crucial features and observables of such dynamics, including the stationary distribution, identification of metastable states, and residence times and transition rates between them.
翻訳日:2021-04-07 14:17:27 公開日:2021-04-05
# 多言語テキスト依存およびテキスト非依存話者照合システムによる多言語へのスケーリング

Scaling to Many Languages with a Triaged Multilingual Text-Dependent and Text-Independent Speaker Verification System ( http://arxiv.org/abs/2104.02125v1 )

ライセンス: Link先を確認
Roza Chojnacka, Jason Pelecanos, Quan Wang, Ignacio Lopez Moreno(参考訳) 本研究では,話者認識システムを複数の言語に拡張する際の課題について検討する。 私たちの知る限りでは、これは46言語規模の話者検証システムに関する最初の研究です。 多くの言語のトレーニングモデルは、コストのかかるものに加えて、時間とエネルギーの要求である。 低リソース言語は追加の困難をもたらす。 この問題は、ウェイクアップキーワード(テキスト依存)と音声クエリ(テキスト非依存)からなるインタラクションを備えたスマートスピーカーデバイスを使用するという観点からフレーム化されている。 本稿では,多言語テキスト依存とテキスト非依存の複合構成について検討する。 実験的な証拠は、複数の言語の訓練が、目に見えない品種のパフォーマンスを維持しながら、目に見えない品種に一般化できることを示唆している。 また、トレーニングモデルの計算要件を桁違いに削減できることも分かりました。 さらに、英語データに対するモデル推論において、トリアージフレームワークを利用することで、より計算コストのかかるテキスト非依存システムへの呼び出し回数を73%削減し、遅延を60%削減し、EERをテキスト非依存システムよりも悪く維持できることを示した。

In this work we study some of the challenges associated with scaling speaker recognition systems to multiple languages. To the best of our knowledge, this is the first study of speaker verification systems at the scale of 46 languages. Training models for each of the many languages can be time and energy demanding in addition to costly. Low resource languages present additional difficulties. The problem is framed from the perspective of using a smart speaker device with interactions consisting of a wake-up keyword (text-dependent) followed by a speech query (text-independent). We examine the use of a hybrid setup consisting of multilingual text-dependent and text-independent components. Experimental evidence suggests that training on multiple languages can generalize to unseen varieties while maintaining performance on seen varieties. We also found that it can reduce computational requirements for training models by an order of magnitude. Furthermore, during model inference on English data, we observe that leveraging a triage framework can reduce the number of calls to the more computationally expensive text-independent system by 73% (and reduce latency by 60%) while maintaining an EER no worse than the text-independent setup.
翻訳日:2021-04-07 14:17:13 公開日:2021-04-05
# Jekyll: 深部生成モデルを用いた医用画像診断の攻撃

Jekyll: Attacking Medical Image Diagnostics using Deep Generative Models ( http://arxiv.org/abs/2104.02107v1 )

ライセンス: Link先を確認
Neal Mangaokar, Jiameng Pu, Parantapa Bhattacharya, Chandan K. Reddy, Bimal Viswanath(参考訳) ディープニューラルネットワーク(DNN)の進歩は、医療分野で大きな可能性を秘めている。 しかし、ドメインを支援するディープラーニングツールも、それに対して使用することができる。 医療領域における詐欺の頻度を考慮すると、患者医療にとって重要な機密データを操作する上で、DNNの敵対的利用を考えることが重要である。 本稿では,生体医用画像に対するDNNを用いた画像翻訳攻撃の設計と実装について述べる。 より具体的には、患者のバイオメディカルイメージを入力として、アタッカー・チョセン病の病態を示す新しい画像に変換する神経スタイルのトランスファーフレームワークであるJekyllを提案する。 このような「偽」医療画像に基づく不正なクレームの可能性を重要視し,X線画像と網膜基底画像の両方に対する攻撃に成功した。 これらの攻撃は、医療専門家とアルゴリズム検出スキームの両方を誤解させる結果となった。 最後に,Jekyllが生成した画像を検出する機械学習に基づく防御策についても検討する。

Advances in deep neural networks (DNNs) have shown tremendous promise in the medical domain. However, the deep learning tools that are helping the domain, can also be used against it. Given the prevalence of fraud in the healthcare domain, it is important to consider the adversarial use of DNNs in manipulating sensitive data that is crucial to patient healthcare. In this work, we present the design and implementation of a DNN-based image translation attack on biomedical imagery. More specifically, we propose Jekyll, a neural style transfer framework that takes as input a biomedical image of a patient and translates it to a new image that indicates an attacker-chosen disease condition. The potential for fraudulent claims based on such generated 'fake' medical images is significant, and we demonstrate successful attacks on both X-rays and retinal fundus image modalities. We show that these attacks manage to mislead both medical professionals and algorithmic detection schemes. Lastly, we also investigate defensive measures based on machine learning to detect images generated by Jekyll.
翻訳日:2021-04-07 14:15:43 公開日:2021-04-05
# 非線形システムの高速設計空間探索:その2

Fast Design Space Exploration of Nonlinear Systems: Part II ( http://arxiv.org/abs/2104.02464v1 )

ライセンス: Link先を確認
Prerit Terway, Kenza Hamidouche, and Niraj K. Jha(参考訳) 非線形システム設計は、しばしば事前定義された制約を満たす設計の探索を含む多目的最適化問題である。 設計空間は概して非常に大きく、各アーキテクチャを構成するコンポーネントの異なる組み合わせを持つ全ての可能なシステムアーキテクチャを含んでいる。 本稿では, 非線形系の高速設計空間探索(ASSENT)と呼ばれるフレームワークでカプセル化された2段階のアプローチにより, 非線形系設計空間の探索を行う。 最初のステップでは、遺伝的アルゴリズムを使用して、固定されたアーキテクチャのコンポーネント値やコンポーネント値のみを個別に選択できるシステムアーキテクチャを探索します。 このステップは、システムがターゲット仕様を満たすかもしれないし、満たさないかもしれないため、粗い設計をもたらす。 第2のステップでは、逆設計を用いて連続空間を探索し、目的関数の値を改善することを目的としてコンポーネント値を微調整する。 システム応答のモデル化にはニューラルネットワークを使用する。 ニューラルネットワークは、アクティブラーニングのための混合整数線形プログラムに変換され、コンポーネント値を効率的にサンプリングする。 本稿では,非線形システム設計から電気回路設計までの問題に対するアセントの有効性について述べる。 実験の結果, アセントは, 非線形システム設計における他の様々な最適化手法と比較して, 目的関数の値が最大54%向上した。 電気回路の強化学習による合成と比較して,試料効率を6~10倍改善する。

Nonlinear system design is often a multi-objective optimization problem involving search for a design that satisfies a number of predefined constraints. The design space is typically very large since it includes all possible system architectures with different combinations of components composing each architecture. In this article, we address nonlinear system design space exploration through a two-step approach encapsulated in a framework called Fast Design Space Exploration of Nonlinear Systems (ASSENT). In the first step, we use a genetic algorithm to search for system architectures that allow discrete choices for component values or else only component values for a fixed architecture. This step yields a coarse design since the system may or may not meet the target specifications. In the second step, we use an inverse design to search over a continuous space and fine-tune the component values with the goal of improving the value of the objective function. We use a neural network to model the system response. The neural network is converted into a mixed-integer linear program for active learning to sample component values efficiently. We illustrate the efficacy of ASSENT on problems ranging from nonlinear system design to design of electrical circuits. Experimental results show that ASSENT achieves the same or better value of the objective function compared to various other optimization techniques for nonlinear system design by up to 54%. We improve sample efficiency by 6-10x compared to reinforcement learning based synthesis of electrical circuits.
翻訳日:2021-04-07 14:14:30 公開日:2021-04-05
# Semantic Distance: 音声言語理解に向けたASRパフォーマンス分析のための新しいメトリクス

Semantic Distance: A New Metric for ASR Performance Analysis Towards Spoken Language Understanding ( http://arxiv.org/abs/2104.02138v1 )

ライセンス: Link先を確認
Suyoun Kim, Abhinav Arora, Duc Le, Ching-Feng Yeh, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer(参考訳) 単語誤り率(wer)は、自動音声認識(asr)システムの性能を評価するために用いられる主要な指標である。 しかし、werは、タスク指向ダイアログシステムにおけるインテント認識、スロット充填、意味解析など、下流自然言語理解(nlu)タスクにとって良い指標ではない場合がある。 これは、werが意味的正しさではなくリテラル正しさのみを考慮に入れているためであり、後者は一般的に下流タスクにとって重要である。 本研究では,この問題を解決するためのASRシステムの代替評価指標として,セマンティック距離(Semantic Distance:SeemDist)尺度を提案する。 我々はSemDistを文レベルの埋め込み空間における参照対と仮説対の距離として定義する。 参照と仮説を文埋め込みとして表現するために,トランスフォーマーアーキテクチャに基づく最先端の事前学習型深層言語モデルRoBERTaを利用する。 提案手法は,意図認識,意味解析,名前付きエンティティ認識など,様々な下流タスクにおける有効性を示す。

Word Error Rate (WER) has been the predominant metric used to evaluate the performance of automatic speech recognition (ASR) systems. However, WER is sometimes not a good indicator for downstream Natural Language Understanding (NLU) tasks, such as intent recognition, slot filling, and semantic parsing in task-oriented dialog systems. This is because WER takes into consideration only literal correctness instead of semantic correctness, the latter of which is typically more important for these downstream tasks. In this study, we propose a novel Semantic Distance (SemDist) measure as an alternative evaluation metric for ASR systems to address this issue. We define SemDist as the distance between a reference and hypothesis pair in a sentence-level embedding space. To represent the reference and hypothesis as a sentence embedding, we exploit RoBERTa, a state-of-the-art pre-trained deep contextualized language model based on the transformer architecture. We demonstrate the effectiveness of our proposed metric on various downstream tasks, including intent recognition, semantic parsing, and named entity recognition.
翻訳日:2021-04-07 14:14:11 公開日:2021-04-05
# 自然言語理解におけるベンチマークの修正には何が必要か?

What Will it Take to Fix Benchmarking in Natural Language Understanding? ( http://arxiv.org/abs/2104.02145v1 )

ライセンス: Link先を確認
Samuel R. Bowman and George E. Dahl(参考訳) 多くの自然言語理解(NLU)タスクの評価は壊れている: 信頼できない、偏見のないシステムは、標準ベンチマークで非常に高く評価されるため、改善を示すためのより良いシステムを開発する研究者の余地はほとんどない。 IIDベンチマークを捨てて、逆向きに構成されたアウト・オブ・ディストリビューションテストセットを採用するという最近のトレンドは、現在のモデルの性能が悪くなることを保証しています。 本稿では,NLUベンチマークが満たすべき4つの基準について述べる。 我々は、現在のベンチマークのほとんどはこれらの基準で失敗し、敵対的なデータ収集はこれらの障害の原因に意味をなさないと論じている。 代わりに、健全な評価エコシステムを再構築するには、ベンチマークデータセットの設計、注釈が付された信頼性、サイズ、社会バイアスに対処する方法の大幅な進歩が必要です。

Evaluation for many natural language understanding (NLU) tasks is broken: Unreliable and biased systems score so highly on standard benchmarks that there is little room for researchers who develop better systems to demonstrate their improvements. The recent trend to abandon IID benchmarks in favor of adversarially-constr ucted, out-of-distribution test sets ensures that current models will perform poorly, but ultimately only obscures the abilities that we want our benchmarks to measure. In this position paper, we lay out four criteria that we argue NLU benchmarks should meet. We argue most current benchmarks fail at these criteria, and that adversarial data collection does not meaningfully address the causes of these failures. Instead, restoring a healthy evaluation ecosystem will require significant progress in the design of benchmark datasets, the reliability with which they are annotated, their size, and the ways they handle social bias.
翻訳日:2021-04-07 14:13:52 公開日:2021-04-05
# dynamic encoder transducer: 遅延の精度をトレードオフする柔軟なソリューション

Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy For Latency ( http://arxiv.org/abs/2104.02176v1 )

ライセンス: Link先を確認
Yangyang Shi, Varun Nagaraja, Chunyang Wu, Jay Mahadeokar, Duc Le, Rohit Prabhavalkar, Alex Xiao, Ching-Feng Yeh, Julian Chan, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer(参考訳) オンデバイス音声認識のための動的エンコーダトランスデューサ(DET)を提案する。 1つのDETモデルは、再トレーニングや微調整なしに異なる計算能力を持つ複数のデバイスにスケールする。 精度とレイテンシをトレードオフするために、detは異なるエンコーダを割り当てて発話の異なる部分をデコードする。 detトレーニングにレイヤドロップアウトと協調学習を適用して比較する。 トレーニングフェーズでランダムにエンコーダレイヤをドロップアウトするレイヤドロップアウトメソッドは、デコード時にオンデマンドレイヤドロップアウトを行うことができる。 協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。 Librispeechおよび社内データの実験結果は、DETがフレキシブルな精度とレイテンシのトレードオフを提供することを示している。 Librispeechの結果、DETのフルサイズエンコーダは、同じサイズのベースラインの単語誤り率を8%以上減少させることがわかった。 協調学習でトレーニングされたdetの軽量エンコーダは、モデルサイズを25%削減するが、フルサイズのベースラインと同等である。 DETは、1つの発話の開始部分に軽量エンコーダを割り当て、残りの部分にフルサイズのエンコーダを割り当てることで、大規模な社内データセットのレイテンシが向上したベースラインモデルと同様の精度を得る。

We propose a dynamic encoder transducer (DET) for on-device speech recognition. One DET model scales to multiple devices with different computation capacities without retraining or finetuning. To trading off accuracy and latency, DET assigns different encoders to decode different parts of an utterance. We apply and compare the layer dropout and the collaborative learning for DET training. The layer dropout method that randomly drops out encoder layers in the training phase, can do on-demand layer dropout in decoding. Collaborative learning jointly trains multiple encoders with different depths in one single model. Experiment results on Librispeech and in-house data show that DET provides a flexible accuracy and latency trade-off. Results on Librispeech show that the full-size encoder in DET relatively reduces the word error rate of the same size baseline by over 8%. The lightweight encoder in DET trained with collaborative learning reduces the model size by 25% but still gets similar WER as the full-size baseline. DET gets similar accuracy as a baseline model with better latency on a large in-house data set by assigning a lightweight encoder for the beginning part of one utterance and a full-size encoder for the rest.
翻訳日:2021-04-07 14:13:37 公開日:2021-04-05
# セットスーパービジョンアクションセグメンテーションのためのアンカー拘束ビタビ

Anchor-Constrained Viterbi for Set-Supervised Action Segmentation ( http://arxiv.org/abs/2104.02113v1 )

ライセンス: Link先を確認
Jun Li, Sinisa Todorovic(参考訳) 本稿では,訓練における弱い監督の下での行動分断について述べる。そこでは,基礎的真理は行動のセットのみを提供するが,その時間的順序付けや訓練ビデオでの出来事は与えない。 多層パーセプトロン(mlp)上に接地した隠れマルコフモデル(hmm)を用いてビデオフレームをラベル付けし,その後の擬似教師付きトレーニングにおいて疑似基底真理を生成する。 テストでは、トレーニングで見られるアクションセットのモンテカルロサンプリングを使用して、アクションの候補時間シーケンスを生成し、最大後方シーケンスを選択する。 我々の重要な貢献は、与えられた接地集合から各作用についてアンカーが推定される、擬似接地真理を生成する新しいアンカー拘束型ビタービアルゴリズム(acv)である。 Breakfast, MPII Cooking2, Hollywood Extended datasets のアクションセグメンテーションとアライメントのタスクに対する評価は, これまでの作業と比較して, 我々の優れたパフォーマンスを示している。

This paper is about action segmentation under weak supervision in training, where the ground truth provides only a set of actions present, but neither their temporal ordering nor when they occur in a training video. We use a Hidden Markov Model (HMM) grounded on a multilayer perceptron (MLP) to label video frames, and thus generate a pseudo-ground truth for the subsequent pseudo-supervised training. In testing, a Monte Carlo sampling of action sets seen in training is used to generate candidate temporal sequences of actions, and select the maximum posterior sequence. Our key contribution is a new anchor-constrained Viterbi algorithm (ACV) for generating the pseudo-ground truth, where anchors are salient action parts estimated for each action from a given ground-truth set. Our evaluation on the tasks of action segmentation and alignment on the benchmark Breakfast, MPII Cooking2, Hollywood Extended datasets demonstrates our superior performance relative to that of prior work.
翻訳日:2021-04-07 14:12:00 公開日:2021-04-05
# 教師なしアクションセグメンテーションのためのアクションシャッフル代替学習

Action Shuffle Alternating Learning for Unsupervised Action Segmentation ( http://arxiv.org/abs/2104.02116v1 )

ライセンス: Link先を確認
Jun Li, Sinisa Todorovic(参考訳) 本稿では教師なしアクションセグメンテーションについて述べる。 先行作業は、ビデオ内のフレームの時間位置をエンコードする機能埋め込みによって、ビデオのフレームレベルの時間構造をキャプチャする。 ビデオのフレーム構造とアクションレベルの構造の両方を考慮に入れた,新しい自己教師付き学習(ssl)による事前作業を進める。 SSLはRNNをトレーニングして、正と負のアクションシーケンスを認識します。 正と負のシーケンスはビデオからサンプリングされたアクションセグメントで構成され、前者ではサンプルされたアクションセグメントはビデオ内の時間順序を尊重し、後者ではシャッフルされる。 アクションの監視ができず、SSLはアクションセグメントへのアクセスを必要とするため、アクションの長さを明示的にモデル化し、ViterbiアルゴリズムでMAPアクションセグメントを推測するHMMを指定する。 結果として得られたアクションセグメンテーションは、アクションレベルの特徴の埋め込みとHMMの更新を推定するために擬似地上真理として使用される。 我々は、収束を保証する一般化EMフレームワーク内で上記のステップを交互に行う。 Breakfast、YouTube Instructions、50Saladsのデータセットに対する我々の評価は、最先端技術よりも優れた結果をもたらす。

This paper addresses unsupervised action segmentation. Prior work captures the frame-level temporal structure of videos by a feature embedding that encodes time locations of frames in the video. We advance prior work with a new self-supervised learning (SSL) of a feature embedding that accounts for both frame- and action-level structure of videos. Our SSL trains an RNN to recognize positive and negative action sequences, and the RNN's hidden layer is taken as our new action-level feature embedding. The positive and negative sequences consist of action segments sampled from videos, where in the former the sampled action segments respect their time ordering in the video, and in the latter they are shuffled. As supervision of actions is not available and our SSL requires access to action segments, we specify an HMM that explicitly models action lengths, and infer a MAP action segmentation with the Viterbi algorithm. The resulting action segmentation is used as pseudo-ground truth for estimating our action-level feature embedding and updating the HMM. We alternate the above steps within the Generalized EM framework, which ensures convergence. Our evaluation on the Breakfast, YouTube Instructions, and 50Salads datasets gives superior results to those of the state of the art.
翻訳日:2021-04-07 14:11:40 公開日:2021-04-05
# ディジタルおよび物理的顔攻撃の統一的検出

Unified Detection of Digital and Physical Face Attacks ( http://arxiv.org/abs/2104.02156v1 )

ライセンス: Link先を確認
Debayan Deb, Xiaoming Liu, Anil K. Jain(参考訳) 対面攻撃に対する最先端の防御メカニズムは、3つの攻撃カテゴリのうちの1つ、すなわち逆行性、デジタル操作、物理的スプーフにおいてほぼ完全な精度を達成するが、これらは3つのカテゴリすべてでテストするとうまく一般化できない。 貧弱な一般化は、非一貫性な攻撃を共同で学ぶことによる。 この欠点を克服するため、我々は3つのカテゴリに属する25のコヒーレントな攻撃タイプを自動的にクラスタリングできる統合攻撃検出フレームワーク、UniFADを提案する。 マルチタスク学習フレームワークとk平均クラスタリングを用いて、UniFADはコヒーレントアタックのための共同表現を学習し、非相関アタックタイプは別々に学習する。 提案されたUniFADは、341Kのボナフィデ画像と448Kの攻撃画像からなる大規模な偽顔データセット上で、防御方法と総合的なTDR=94.73% @ 0.2% FDRとの融合に優れていた。 提案手法はNvidia 2080Ti上で3ミリ秒以内に攻撃を検出することができる。 UniFADは、それぞれ75.81%と97.37%のアタックタイプとカテゴリを識別できる。

State-of-the-art defense mechanisms against face attacks achieve near perfect accuracies within one of three attack categories, namely adversarial, digital manipulation, or physical spoofs, however, they fail to generalize well when tested across all three categories. Poor generalization can be attributed to learning incoherent attacks jointly. To overcome this shortcoming, we propose a unified attack detection framework, namely UniFAD, that can automatically cluster 25 coherent attack types belonging to the three categories. Using a multi-task learning framework along with k-means clustering, UniFAD learns joint representations for coherent attacks, while uncorrelated attack types are learned separately. Proposed UniFAD outperforms prevailing defense methods and their fusion with an overall TDR = 94.73% @ 0.2% FDR on a large fake face dataset consisting of 341K bona fide images and 448K attack images of 25 types across all 3 categories. Proposed method can detect an attack within 3 milliseconds on a Nvidia 2080Ti. UniFAD can also identify the attack types and categories with 75.81% and 97.37% accuracies, respectively.
翻訳日:2021-04-07 14:11:21 公開日:2021-04-05
# わずかなマッチングから光の流れを学習する

Learning Optical Flow from a Few Matches ( http://arxiv.org/abs/2104.02166v1 )

ライセンス: Link先を確認
Shihao Jiang, Yao Lu, Hongdong Li, Richard Hartley(参考訳) 光フロー推定のための最先端ニューラルネットワークモデルは、ピクセルごとの変位を表すために高解像度の相関体積を必要とする。 密接な相関ボリュームは正確な推定に役立ちますが、その重い計算とメモリ使用はモデルの効率的なトレーニングとデプロイを妨げます。 本稿では,密度相関容積表現が冗長であり,その中の要素のほんの一部で正確な流量推定を行うことができることを示す。 そこで本研究では,特徴ベクトルの1つの特徴マップにおけるkに最も近いマッチングを他の特徴マップで計算し,スパースデータ構造に格納した,スパース相関ボリュームという別の変位表現を提案する。 実験の結果,計算コストとメモリ使用量を大幅に削減できるとともに,相関量の密接な従来の手法と比較して高い精度を維持することができた。 コードはhttps://github.com/z acjiang/scv で入手できる。

State-of-the-art neural network models for optical flow estimation require a dense correlation volume at high resolutions for representing per-pixel displacement. Although the dense correlation volume is informative for accurate estimation, its heavy computation and memory usage hinders the efficient training and deployment of the models. In this paper, we show that the dense correlation volume representation is redundant and accurate flow estimation can be achieved with only a fraction of elements in it. Based on this observation, we propose an alternative displacement representation, named Sparse Correlation Volume, which is constructed directly by computing the k closest matches in one feature map for each feature vector in the other feature map and stored in a sparse data structure. Experiments show that our method can reduce computational cost and memory use significantly, while maintaining high accuracy compared to previous approaches with dense correlation volumes. Code is available at https://github.com/z acjiang/scv .
翻訳日:2021-04-07 14:10:58 公開日:2021-04-05
# 共同話者識別を用いたストリーミングマルチトーカ音声認識

Streaming Multi-talker Speech Recognition with Joint Speaker Identification ( http://arxiv.org/abs/2104.02109v1 )

ライセンス: Link先を確認
Liang Lu, Naoyuki Kanda, Jinyu Li and Yifan Gong(参考訳) 会議や会話のようなマルチトーカーのシナリオでは、音声の書き起こしや下流アプリケーションのための話者を特定するために音声処理システムが必要である。 この場合、重複した音声が一般的であるため、従来の手法では、独立して訓練された音声分離、音声認識、話者識別を含むケースケード方式でこの問題に対処する。 本稿では,この問題をエンドツーエンドのストリーミング方式で処理する新しいフレームワークであるStreaming Unmixing, Recognition and Identification Transducer (SURIT)を提案する。 suritでは、音声認識と話者識別の両方のバックボーンとして、recurrent neural network transducer(rnn-t)を使用している。 我々は、Librispeechから派生したマルチストーカーデータセットであるLibrispeechMixデータセット上で、私たちのアイデアを検証する。

In multi-talker scenarios such as meetings and conversations, speech processing systems are usually required to transcribe the audio as well as identify the speakers for downstream applications. Since overlapped speech is common in this case, conventional approaches usually address this problem in a cascaded fashion that involves speech separation, speech recognition and speaker identification that are trained independently. In this paper, we propose Streaming Unmixing, Recognition and Identification Transducer (SURIT) -- a new framework that deals with this problem in an end-to-end streaming fashion. SURIT employs the recurrent neural network transducer (RNN-T) as the backbone for both speech recognition and speaker identification. We validate our idea on the LibrispeechMix dataset -- a multi-talker dataset derived from Librispeech, and present encouraging results.
翻訳日:2021-04-07 14:00:48 公開日:2021-04-05
# 不正確なペアワイズアノテーションによる半スーパービジョンクラスタリング

Semi-Supervised Clustering with Inaccurate Pairwise Annotations ( http://arxiv.org/abs/2104.02146v1 )

ライセンス: Link先を確認
Daniel Gribel, Michel Gendreau, Thibaut Vidal(参考訳) ペアワイズリレーショナル情報は、クラスラベルの取得が困難なドメインにおいて、部分的な監視を提供するための有用な方法である。 本研究は,ペアワイズアノテーションを必須リンクと不可能リンクの関係という形式で組み込んだクラスタリングモデルを示し,可能なアノテーション不正確性(つまり,専門家がペアワイズ監督を行う場合の一般的な設定)を考察する。 本稿では,確率ブロックモデルにより生成される有理リンクおよび無理リンク関係とともに,ガウス分布データサンプルを仮定する生成モデルを提案する。 我々は、最大類似性アプローチを採用し、監督が弱く不正確である場合でも、関係情報の会計がクラスタリング性能を大幅に改善することを示す。 リレーショナル情報は、元のデータ分散仮定に合わない実世界のデータセットで意味のあるグループを検出するのにも役立ちます。 さらに,そのモデルを拡張して,専門家の正確性に関する事前知識を統合し,この知識の利用が有益である状況について議論する。

Pairwise relational information is a useful way of providing partial supervision in domains where class labels are difficult to acquire. This work presents a clustering model that incorporates pairwise annotations in the form of must-link and cannot-link relations and considers possible annotation inaccuracies (i.e., a common setting when experts provide pairwise supervision). We propose a generative model that assumes Gaussian-distributed data samples along with must-link and cannot-link relations generated by stochastic block models. We adopt a maximum-likelihood approach and demonstrate that, even when supervision is weak and inaccurate, accounting for relational information significantly improves clustering performance. Relational information also helps to detect meaningful groups in real-world datasets that do not fit the original data-distribution assumptions. Additionally, we extend the model to integrate prior knowledge of experts' accuracy and discuss circumstances in which the use of this knowledge is beneficial.
翻訳日:2021-04-07 14:00:35 公開日:2021-04-05
# Label-GCN:グラフ畳み込みネットワークにラベル伝搬を追加する効果的な方法

Label-GCN: An Effective Method for Adding Label Propagation to Graph Convolutional Networks ( http://arxiv.org/abs/2104.02153v1 )

ライセンス: Link先を確認
Claudio Bellei, Hussain Alattas, and Nesrine Kaaniche(参考訳) グラフ畳み込みネットワーク(GCN)の第1層の変更は、バイナリとマルチクラスの分類問題において、近隣ノード間でラベル情報を効果的に伝播するために利用できることを示す。 これは、GCNのトレーニングフェーズ中にラベル機能のためのセルフループを選択的に除去する。 GCNアーキテクチャは、追加のハイパーパラメータなしで変更されず、トランスダクティブとインダクティブの両方で使用することができる。 推論フェーズ中にラベルがいくつあるかによって、この戦略は、不均衡なデータセットを含む標準的なGCNアプローチと比較して、モデル性能を大幅に向上させる可能性があることを示す。

We show that a modification of the first layer of a Graph Convolutional Network (GCN) can be used to effectively propagate label information across neighbor nodes, for binary and multi-class classification problems. This is done by selectively eliminating self-loops for the label features during the training phase of a GCN. The GCN architecture is otherwise unchanged, without any extra hyper-parameters, and can be used in both a transductive and inductive setting. We show through several experiments that, depending on how many labels are available during the inference phase, this strategy can lead to a substantial improvement in the model performance compared to a standard GCN approach, including with imbalanced datasets.
翻訳日:2021-04-07 14:00:19 公開日:2021-04-05
# データ駆動型パーソナライズ型スマート照明推薦システム

A data-driven personalized smart lighting recommender system ( http://arxiv.org/abs/2104.02164v1 )

ライセンス: Link先を確認
Atousa Zarindast, Jonathan Wood, Anuj Sharma(参考訳) レコメンダシステムは、個々のユーザに最も望ましいアイテム(製品サービス)を識別し、推奨しようとする。 これらのシステムは、関連項目、ユーザ、およびアイテムとユーザ間のインタラクションに基づいて、アイテムに対するユーザの関心を予測する。 我々は,歴史データや機械学習手法を多用した自動ルーチンとカラースキーム推薦システムの構築を目指している。 照明のルーチンを推奨するための教師なし手法を提案する。 さらに, ユーザの日誌, 地理的位置情報, 時間的, 使用状況情報を解析することにより, ユーザの好みを理解し, 照明の好みの色を予測する。 そのため,地理的情報と利用状況の分布に基づいてユーザをクラスタリングする。 次に各クラスタ内に予測モデルを構築してトレーニングし、結果を集約します。 その結果,類似したユーザに基づくモデルでは,ユーザの嗜好に関する事前知識がなければ予測精度が向上することが示唆された。

Recommender systems attempts to identify and recommend the most preferable item (product-service) to an individual user. These systems predict user interest in items based on related items, users, and the interactions between items and users. We aim to build an auto-routine and color scheme recommender system that leverages a wealth of historical data and machine learning methods. We introduce an unsupervised method to recommend a routine for lighting. Moreover, by analyzing users' daily logs, geographical location, temporal and usage information we understand user preference and predict their preferred color for lights. To do so, we cluster users based on their geographical information and usage distribution. We then build and train a predictive model within each cluster and aggregate the results. Results indicate that models based on similar users increases the prediction accuracy, with and without prior knowledge about user preferences.
翻訳日:2021-04-07 14:00:07 公開日:2021-04-05
# 監視型ディープニューラルネットワークのための最先端活性化関数の解析

An Analysis of State-of-the-art Activation Functions For Supervised Deep Neural Network ( http://arxiv.org/abs/2104.02523v1 )

ライセンス: Link先を確認
Anh Nguyen, Khoa Pham, Dat Ngo, Thanh Ngo, Lam Pham(参考訳) 本稿では,ディープニューラルネットワークの教師付き分類に関して,最先端のアクティベーション関数の解析を行う。 これらの活性化機能は、rectified Linear Unit (ReLU)、Exponential Linear Unit (ELU)、Scaled Exponential Linear Unit (SELU)、Gausian Error Linear Unit (GELU)、Inverse Square Root Linear Unit (ISRLU)で構成されている。 これらのアクティベーション機能を統合した2つのディープラーニングネットワークアーキテクチャに関する実験を行った。 MLP(Multilayer Perceptron)に基づく第1のモデルは、MNISTデータセットを用いて評価され、これらのアクティベーション機能を実行する。 一方、第2のモデルはおそらくvggishベースのアーキテクチャであり、dcase 2018 challengeの音響シーン分類(asc)タスク1aに適用され、これらのアクティベーション機能が異なるデータセットと異なるネットワークアーキテクチャでうまく機能するかを評価する。

This paper provides an analysis of state-of-the-art activation functions with respect to supervised classification of deep neural network. These activation functions comprise of Rectified Linear Units (ReLU), Exponential Linear Unit (ELU), Scaled Exponential Linear Unit (SELU), Gaussian Error Linear Unit (GELU), and the Inverse Square Root Linear Unit (ISRLU). To evaluate, experiments over two deep learning network architectures integrating these activation functions are conducted. The first model, basing on Multilayer Perceptron (MLP), is evaluated with MNIST dataset to perform these activation functions. Meanwhile, the second model, likely VGGish-based architecture, is applied for Acoustic Scene Classification (ASC) Task 1A in DCASE 2018 challenge, thus evaluate whether these activation functions work well in different datasets as well as different network architectures.
翻訳日:2021-04-07 13:58:24 公開日:2021-04-05
# 変圧器を用いたエンドツーエンド話者分散ASR

End-to-End Speaker-Attributed ASR with Transformer ( http://arxiv.org/abs/2104.02128v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Guoli Ye, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 本稿では,複数話者音声を対象とした話者カウント,音声認識,話者識別を共同で行うエンド・ツー・エンド話者分散音声認識の取り組みについて述べる。 まず,long short-term memory (lstm)ベースのアテンションエンコーダデコーダに基づいて設計したモデルアーキテクチャをトランスフォーマアーキテクチャを適用して徹底的に更新する。 次に,高い重複領域における話者識別誤差を低減する話者重複機構を提案する。 LibriSpeechMixデータセットによる実験結果から,トランスフォーマーベースのアーキテクチャは話者のカウントに特に優れており,提案モデルにより,LSTMベースラインよりも話者対応語誤り率を47%削減できることがわかった。 さらに、重なり合う音声の実際の記録からなるLibriCSSデータセットに対して、提案モデルは、目標話者プロファイルと非対象話者プロファイルとの組み合わせで、11.9%と16.3%の連結最小置換単語誤り率を達成し、どちらもモノーラル設定によるLibriCSSの最先端結果である。

This paper presents our recent effort on end-to-end speaker-attributed automatic speech recognition, which jointly performs speaker counting, speech recognition and speaker identification for monaural multi-talker audio. Firstly, we thoroughly update the model architecture that was previously designed based on a long short-term memory (LSTM)-based attention encoder decoder by applying transformer architectures. Secondly, we propose a speaker deduplication mechanism to reduce speaker identification errors in highly overlapped regions. Experimental results on the LibriSpeechMix dataset shows that the transformer-based architecture is especially good at counting the speakers and that the proposed model reduces the speaker-attributed word error rate by 47% over the LSTM-based baseline. Furthermore, for the LibriCSS dataset, which consists of real recordings of overlapped speech, the proposed model achieves concatenated minimum-permutation word error rates of 11.9% and 16.3% with and without target speaker profiles, respectively, both of which are the state-of-the-art results for LibriCSS with the monaural setting.
翻訳日:2021-04-07 13:57:23 公開日:2021-04-05
# 認知診断モデルにおける潜在構造と階層構造の学習

Learning Latent and Hierarchical Structures in Cognitive Diagnosis Models ( http://arxiv.org/abs/2104.02143v1 )

ライセンス: Link先を確認
Chenchen Ma and Gongjun Xu(参考訳) 認知診断モデル (CDMs) は、現代の教育、心理学、社会、生物学的科学で広く使われている離散潜在変数モデルの特殊なファミリーである。 CDMの重要なコンポーネントは、アイテムと潜在属性の間の依存構造を特徴付けるバイナリ$Q$-matrixである。 さらに研究者は、多くの応用において、潜在属性の特定の階層構造が依存を特徴付けると仮定している。 ほとんどのCDMアプリケーションでは、属性属性の階層構造、アイテム属性の$Q$-matrix、アイテムレベルの診断モデル、潜在属性の数などは、完全にまたは部分的に指定する必要がある。 本稿では、最小モデル仮定による観測データから、CDMにおけるこれらの潜在構造と階層構造を共同学習する問題を考察する。 具体的には,属性数を選抜し,潜在構造と階層構造を同時に推定するために,ペナルティ化確率法を提案する。 効率的な期待最大化(em)アルゴリズムと潜在構造回復アルゴリズムを開発し,軽度条件下で統計的一貫性理論も確立した。 提案手法の優れた性能はシミュレーション研究と実データを用いた教育評価によって説明される。

Cognitive Diagnosis Models (CDMs) are a special family of discrete latent variable models that are widely used in modern educational, psychological, social and biological sciences. A key component of CDMs is a binary $Q$-matrix characterizing the dependence structure between the items and the latent attributes. Additionally, researchers also assume in many applications certain hierarchical structures among the latent attributes to characterize their dependence. In most CDM applications, the attribute-attribute hierarchical structures, the item-attribute $Q$-matrix, the item-level diagnostic model, as well as the number of latent attributes, need to be fully or partially pre-specified, which however may be subjective and misspecified as noted by many recent studies. This paper considers the problem of jointly learning these latent and hierarchical structures in CDMs from observed data with minimal model assumptions. Specifically, a penalized likelihood approach is proposed to select the number of attributes and estimate the latent and hierarchical structures simultaneously. An efficient expectation-maximiza tion (EM) algorithm and a latent structure recovery algorithm are developed, and statistical consistency theory is also established under mild conditions. The good performance of the proposed method is illustrated by simulation studies and a real data application in educational assessment.
翻訳日:2021-04-07 13:56:26 公開日:2021-04-05
# アクティブディープラーニングに基づく自動パフォーマンステスト

Automated Performance Testing Based on Active Deep Learning ( http://arxiv.org/abs/2104.02102v1 )

ライセンス: Link先を確認
Ali Sedaghatbaf, Mahshid Helali Moghadam and Mehrdad Saadatmand(参考訳) 大規模で複雑なソフトウェアシステムのパフォーマンス上の問題を明らかにするテストを生成するのは、妥当な時間で実行できます。 一方で、探究すべき入力データ値の組み合わせはたくさんあります。 一方、テストを実行するためのテスト予算は限られています。 この作業がさらに難しいのは、ソースコードへのアクセスの欠如と、これらのシステムの内部詳細である。 本稿では,ブラックボックス性能試験のためのACTAと呼ばれる自動テスト生成手法を提案する。 actaはアクティブラーニングに基づいている。これは、テスト中のシステムのパフォーマンス特性を学ぶために、大量の履歴テストデータを必要としないことを意味する。 代わりに、不確実性サンプリングを使用して実行するテストを動的に選択する。 actaは、生成型adversarial networkの条件付き変種に依存しており、条件の観点で性能要求を特定し、これらの条件に対応するテストを生成するのが容易である。我々は、ベンチマークwebアプリケーションでactaを評価し、実験の結果、この手法がランダムテストと同等であることを示し、他の2つの機械学習手法、すなわち、他の2つの方法と同等であることを示してきた。 PerfXRLとDN。

Generating tests that can reveal performance issues in large and complex software systems within a reasonable amount of time is a challenging task. On one hand, there are numerous combinations of input data values to explore. On the other hand, we have a limited test budget to execute tests. What makes this task even more difficult is the lack of access to source code and the internal details of these systems. In this paper, we present an automated test generation method called ACTA for black-box performance testing. ACTA is based on active learning, which means that it does not require a large set of historical test data to learn about the performance characteristics of the system under test. Instead, it dynamically chooses the tests to execute using uncertainty sampling. ACTA relies on a conditional variant of generative adversarial networks,and facilitates specifying performance requirements in terms of conditions and generating tests that address those conditions.We have evaluated ACTA on a benchmark web application, and the experimental results indicate that this method is comparable with random testing, and two other machine learning methods,i.e. PerfXRL and DN.
翻訳日:2021-04-07 13:52:52 公開日:2021-04-05
# 無線ネットワークにおける分散学習の現状と課題

Distributed Learning in Wireless Networks: Recent Progress and Future Challenges ( http://arxiv.org/abs/2104.02151v1 )

ライセンス: Link先を確認
Mingzhe Chen, Deniz G\"und\"uz, Kaibin Huang, Walid Saad, Mehdi Bennis, Aneta Vulgarakis Feljan, and H. Vincent Poor(参考訳) 次世代のワイヤレスネットワークは、多くの機械学習ツールやアプリケーションが、推論、自律性、意思決定のためにエッジデバイスが収集したさまざまな種類のデータを効率的に分析できるようにする。 しかしながら、リソースの制約、遅延の制限、プライバシの課題により、エッジデバイスは、収集したデータセット全体をクラウドサーバにオフロードして、MLモデルや推論の目的を集中的にトレーニングすることはできない。 これらの課題を克服するために、エッジデバイスが生のデータ交換なしでMLモデルを協調的にトレーニングできるようにする手段として、分散学習と推論技術が提案されている。 しかしながら、無線ネットワーク上での分散学習の展開には、不確定な無線環境、限られた無線リソース(例えば、電力と無線スペクトル)、ハードウェアリソースなど、いくつかの課題がある。 本稿では,ワイヤレスエッジネットワーク上で分散学習を効率的に効果的に展開する方法を包括的に研究する。 本稿では,フェデレーション学習,フェデレーション蒸留,分散推論,マルチエージェント強化学習など,新たな分散学習パラダイムの詳細な概要を紹介する。 各学習フレームワークについて,まず無線ネットワーク上に展開する動機を紹介する。 そこで我々は,その効率的な展開にコミュニケーション技術を用いることについて,詳細な文献レビューを行う。 次に,その性能向上のために無線ネットワークを最適化する方法を示す例を示す。 最後に,今後の研究機会を紹介する。 一言で言えば,本論文は,現実世界の無線通信ネットワーク上で広範囲にわたる分散学習フレームワークをデプロイする方法について,包括的なガイドラインを提供する。

The next-generation of wireless networks will enable many machine learning (ML) tools and applications to efficiently analyze various types of data collected by edge devices for inference, autonomy, and decision making purposes. However, due to resource constraints, delay limitations, and privacy challenges, edge devices cannot offload their entire collected datasets to a cloud server for centrally training their ML models or inference purposes. To overcome these challenges, distributed learning and inference techniques have been proposed as a means to enable edge devices to collaboratively train ML models without raw data exchanges, thus reducing the communication overhead and latency as well as improving data privacy. However, deploying distributed learning over wireless networks faces several challenges including the uncertain wireless environment, limited wireless resources (e.g., transmit power and radio spectrum), and hardware resources. This paper provides a comprehensive study of how distributed learning can be efficiently and effectively deployed over wireless edge networks. We present a detailed overview of several emerging distributed learning paradigms, including federated learning, federated distillation, distributed inference, and multi-agent reinforcement learning. For each learning framework, we first introduce the motivation for deploying it over wireless networks. Then, we present a detailed literature review on the use of communication techniques for its efficient deployment. We then introduce an illustrative example to show how to optimize wireless networks to improve its performance. Finally, we introduce future research opportunities. In a nutshell, this paper provides a holistic set of guidelines on how to deploy a broad range of distributed learning frameworks over real-world wireless communication networks.
翻訳日:2021-04-07 13:50:38 公開日:2021-04-05
# 構成可能なオンパッケージアーキテクチャによるGPUドメインの特殊化

GPU Domain Specialization via Composable On-Package Architecture ( http://arxiv.org/abs/2104.02188v1 )

ライセンス: Link先を確認
Yaosheng Fu, Evgeny Bolotin, Niladrish Chatterjee, David Nellans, Stephen W. Keckler(参考訳) gpuが低精度マトリックス計算スループットをスケールしてディープラーニング(dl)パフォーマンスを向上させると、計算スループットとメモリシステム能力のバランスが低下する。 我々は、FP32ベースのHPCとFP16ベースのDLワークロード間のアーキテクチャ要件のばらつきに対処しようとする収束GPU設計が、いずれかのアプリケーションドメインに対する準最適構成をもたらすことを実証した。 我々は、ドメイン特化GPU製品を提供するためのComposable On-Package GPU (COPAGPU)アーキテクチャが、これらの分散要求に対する最も実用的な解決策であると主張している。 COPA-GPUはマルチチップモジュールのデアグリゲーションを利用して、アプリケーションドメインごとのメモリシステムの特殊化とともに、最大設計再利用をサポートする。 我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅と容量を有するベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示す。 本研究では,構成可能なGPUを実現するために必要なマイクロアーキテクチャ設計について検討し,HPC,DLトレーニング,DL推論にコンポーザビリティがもたらすメリットを評価する。 収束GPU設計と比較して、DL最適化COPA-GPUは16倍のキャッシュ容量と1.6倍のDRAM帯域幅でGPU毎のトレーニングと推論性能をそれぞれ31%と35%削減し、スケールアウトトレーニングシナリオにおいてGPUインスタンスの数を50%削減した。

As GPUs scale their low precision matrix math throughput to boost deep learning (DL) performance, they upset the balance between math throughput and memory system capabilities. We demonstrate that converged GPU design trying to address diverging architectural requirements between FP32 (or larger) based HPC and FP16 (or smaller) based DL workloads results in sub-optimal configuration for either of the application domains. We argue that a Composable On-PAckage GPU (COPAGPU) architecture to provide domain-specialized GPU products is the most practical solution to these diverging requirements. A COPA-GPU leverages multi-chip-module disaggregation to support maximal design reuse, along with memory system specialization per application domain. We show how a COPA-GPU enables DL-specialized products by modular augmentation of the baseline GPU architecture with up to 4x higher off-die bandwidth, 32x larger on-package cache, 2.3x higher DRAM bandwidth and capacity, while conveniently supporting scaled-down HPC-oriented designs. This work explores the microarchitectural design necessary to enable composable GPUs and evaluates the benefits composability can provide to HPC, DL training, and DL inference. We show that when compared to a converged GPU design, a DL-optimized COPA-GPU featuring a combination of 16x larger cache capacity and 1.6x higher DRAM bandwidth scales per-GPU training and inference performance by 31% and 35% respectively and reduces the number of GPU instances by 50% in scale-out training scenarios.
翻訳日:2021-04-07 13:50:15 公開日:2021-04-05
# (参考訳) 要約のための推論時間スタイル制御 [全文訳有]

Inference Time Style Control for Summarization ( http://arxiv.org/abs/2104.01724v1 )

ライセンス: CC BY 4.0
Shuyang Cao and Lu Wang(参考訳) ターゲットスタイルのコーパスを必要とせずに、異なるスタイルの要約を生成する方法や、別々のモデルをトレーニングする方法。 本稿では,事前学習されたトランスフォーマライズモデル上で,サマリデコード中にデプロイ可能な2つの新しい手法を提案する。 1)デコーダ状態調整は、外部に訓練されたスタイルスコアラーでデコーダ最終状態を即時に修正し、ターゲットスタイルに対して出力を反復的に洗練する。 2)単語単位予測は単語使用量を制約し,生成中に強い語彙制御を課す。 単純さ制御による要約実験では、自動評価と人間の判断が共に、よりシンプルな言語で出力を生成するモデルを見つけました。 また、様々なイデオロギー的傾向を持つニュース見出しを生成し、合理的な確率で人間によって区別することができる。

How to generate summaries of different styles without requiring corpora in the target styles, or training separate models? We present two novel methods that can be deployed during summary decoding on any pre-trained Transformer-based summarization model. (1) Decoder state adjustment instantly modifies decoder final states with externally trained style scorers, to iteratively refine the output against a target style. (2) Word unit prediction constrains the word usage to impose strong lexical control during generation. In experiments of summarizing with simplicity control, automatic evaluation and human judges both find our models producing outputs in simpler languages while still informative. We also generate news headlines with various ideological leanings, which can be distinguished by humans with a reasonable probability.
翻訳日:2021-04-07 01:06:06 公開日:2021-04-05
# (参考訳) 高エネルギー物理における高速検出器シミュレーションのためのグラフ生成モデル [全文訳有]

Graph Generative Models for Fast Detector Simulations in High Energy Physics ( http://arxiv.org/abs/2104.01725v1 )

ライセンス: CC BY 4.0
Ali Hariri, Darya Dyachkova and Sergei Gleyzer(参考訳) 粒子物理学プロセスの高精度かつ高速なシミュレーションは、高エネルギー物理学コミュニティにとって不可欠である。 検出器との粒子相互作用のシミュレーションには時間と計算コストがかかる。 13tevの陽子-陽子衝突エネルギーを持つ大ハドロン衝突型加速器は、新しい相互作用に関する我々の知識を形作る珍しい現象を検出し測定するためにユニークな位置にある。 HL-LHC(Large-Luminos ity Large Hadron Collider)のアップグレードは、イベント率と上昇レベルの増加により、コンピューティングインフラストラクチャに大きな負担をかけることになる。 高エネルギー物理衝突のシミュレーションは、物理精度を犠牲にすることなく大幅に高速に行う必要がある。 機械学習アプローチは、高いレベルの忠実さを維持しながら、より高速なソリューションを提供することができる。 HL-LHCにおける全検出器レベルの高速シミュレーションを実現するため,LHCイベントを効果的に再現するグラフ生成モデルについて論じる。

Accurate and fast simulation of particle physics processes is crucial for the high-energy physics community. Simulating particle interactions with detectors is both time consuming and computationally expensive. With the proton-proton collision energy of 13 TeV, the Large Hadron Collider is uniquely positioned to detect and measure the rare phenomena that can shape our knowledge of new interactions. The High-Luminosity Large Hadron Collider (HL-LHC) upgrade will put a significant strain on the computing infrastructure due to increased event rate and levels of pile-up. Simulation of high-energy physics collisions needs to be significantly faster without sacrificing the physics accuracy. Machine learning approaches can offer faster solutions, while maintaining a high level of fidelity. We discuss a graph generative model that provides effective reconstruction of LHC events, paving the way for full detector level fast simulation for HL-LHC.
翻訳日:2021-04-07 00:51:05 公開日:2021-04-05
# (参考訳) 自動運転の文脈における敵対的攻撃 [全文訳有]

Adversarial Attack in the Context of Self-driving ( http://arxiv.org/abs/2104.01732v1 )

ライセンス: CC BY 4.0
Zhenhua Chen, Chuhua Wang, David J. Crandall(参考訳) 本稿では,自律運転の文脈において,意味的および動的目標を持つセグメンテーションモデルを攻撃できるモデルを提案する。 具体的には,入力画像とそのラベルを摂動にマップするように設計した。 入力画像に摂動を加えた後、逆の例は動的ターゲットに対して意味的に意味のある方法でピクセルのラベルを操作できる。 このようにして、潜在的な攻撃を微妙かつステルスにすることができる。 攻撃モデルのステルス性を評価するために、コンテキスト内に真のラベルを隠すこと、偽のラベルを生成すること、あるカテゴリに属するラベルを削除することを含む3種類のタスクを設計する。 実験の結果,私たちのモデルは,Cityscapes,Mapillar y,BDD100Kで比較的高い成功率でセグメンテーションモデルを効果的に攻撃できることがわかった。 また、異なるデータセットにまたがるモデルの一般化を評価する。 最後に,攻撃モデルと対象モデルの両方で使用されるパラメータ数を比較することにより,攻撃モデルのパラメータ単位効率を評価するための新しい指標を提案する。

In this paper, we propose a model that can attack segmentation models with semantic and dynamic targets in the context of self-driving. Specifically, our model is designed to map an input image as well as its corresponding label to perturbations. After adding the perturbation to the input image, the adversarial example can manipulate the labels of the pixels in a semantically meaningful way on dynamic targets. In this way, we can make a potential attack subtle and stealthy. To evaluate the stealthiness of our attacking model, we design three types of tasks, including hiding true labels in the context, generating fake labels, and displacing labels that belong to some category. The experiments show that our model can attack segmentation models efficiently with a relatively high success rate on Cityscapes, Mapillary, and BDD100K. We also evaluate the generalization of our model across different datasets. Finally, we propose a new metric to evaluate the parameter-wise efficiency of attacking models by comparing the number of parameters used by both the attacking models and the target models.
翻訳日:2021-04-07 00:43:43 公開日:2021-04-05
# (参考訳) プレーンフィルム胸部X線を用いた骨粗しょう症の経時的スクリーニング [全文訳有]

Opportunistic Screening of Osteoporosis Using Plain Film Chest X-ray ( http://arxiv.org/abs/2104.01734v1 )

ライセンス: CC BY 4.0
Fakai Wang, Kang Zheng, Yirui Wang, Xiaoyun Zhou, Le Lu, Jing Xiao, Min Wu, Chang-Fu Kuo, Shun Miao(参考訳) 骨粗しょう症は骨密度 (BMD) 検査やDXA (Dual-Eergy X-ray Absorptiometry) による診断や治療が不十分な慢性骨疾患である。 本稿では,Chest X-ray(CXR)からBMDを予測する手法を提案する。 本手法はまず,CXRから局所的および大域的骨構造の関心領域(ROI)を自動的に検出する。 次に,胸部X線画像の局所的情報と大域的情報の両方を利用するマルチROIモデルを構築し,正確なBMD推定を行う。 本手法はDXAで測定した地上真理BMDの329例を対象に検討した。 予測されたBMDは金標準のDXA BMD(ピアソン相関係数0.840)と強い相関を持つ。 骨粗しょう症スクリーニングに応用すると、高い分類性能(AUC 0.936)が得られる。 脊髄BMDの予測にCXRスキャンを用いた最初の試みとして, 提案アルゴリズムは胸部X線による早期骨粗しょう症のスクリーニングを可能にし, 公衆衛生の向上に寄与する可能性が強い。

Osteoporosis is a common chronic metabolic bone disease that is often under-diagnosed and under-treated due to the limited access to bone mineral density (BMD) examinations, Dual-energy X-ray Absorptiometry (DXA). In this paper, we propose a method to predict BMD from Chest X-ray (CXR), one of the most common, accessible, and low-cost medical image examinations. Our method first automatically detects Regions of Interest (ROIs) of local and global bone structures from the CXR. Then a multi-ROI model is developed to exploit both local and global information in the chest X-ray image for accurate BMD estimation. Our method is evaluated on 329 CXR cases with ground truth BMD measured by DXA. The model predicted BMD has a strong correlation with the gold standard DXA BMD (Pearson correlation coefficient 0.840). When applied for osteoporosis screening, it achieves a high classification performance (AUC 0.936). As the first effort in the field to use CXR scans to predict the spine BMD, the proposed algorithm holds strong potential in enabling early osteoporosis screening through routine chest X-rays and contributing to the enhancement of public health.
翻訳日:2021-04-07 00:35:13 公開日:2021-04-05
# (参考訳) HEVC/H.265におけるフレームレベルビット割り当てのための二重臨界強化学習フレームワーク [全文訳有]

A Dual-Critic Reinforcement Learning Framework for Frame-level Bit Allocation in HEVC/H.265 ( http://arxiv.org/abs/2104.01735v1 )

ライセンス: CC BY 4.0
Yung-Han Ho, Guo-Lun Jin, Yun Liang, Wen-Hsiao Peng, Xiaobo Li(参考訳) 本稿では,HEVC/H.265におけるフレームレベルのビット割り当ての問題に対処する,二重批判強化学習(RL)フレームワークを提案する。 目的は、レート制約の下で画像群(GOP)の歪みを最小限にすることである。 従来のRL法では、歪みとレート報酬を結合する単一の報酬関数を最大化することで、そのような制約付き最適化問題に対処していた。 しかし、これらの報酬を組み合わせる方法は通常アドホックであり、様々なコーディング条件やビデオシーケンスにうまく適用できない。 この問題を克服するために,我々は2つの批判者に対して,ddpg(deep deterministic policy gradient)強化学習アルゴリズムを適用し,一方は歪み報酬を予測し,もう一方はレート報酬を予測した。 特に、歪み批評家は、レート制約が満たされたときにエージェントを更新する。 対照的に、レート評論家は、エージェントがビット予算を超えると、レート制約を優先させる。 一般的なデータセットを用いた実験では、x265のビット割り当て方式とシングルクリティックベースラインを、かなり正確なレート制御を提供しながら、レート分散性能の点でかなりのマージンで上回った。

This paper introduces a dual-critic reinforcement learning (RL) framework to address the problem of frame-level bit allocation in HEVC/H.265. The objective is to minimize the distortion of a group of pictures (GOP) under a rate constraint. Previous RL-based methods tackle such a constrained optimization problem by maximizing a single reward function that often combines a distortion and a rate reward. However, the way how these rewards are combined is usually ad hoc and may not generalize well to various coding conditions and video sequences. To overcome this issue, we adapt the deep deterministic policy gradient (DDPG) reinforcement learning algorithm for use with two critics, with one learning to predict the distortion reward and the other the rate reward. In particular, the distortion critic works to update the agent when the rate constraint is satisfied. By contrast, the rate critic makes the rate constraint a priority when the agent goes over the bit budget. Experimental results on commonly used datasets show that our method outperforms the bit allocation scheme in x265 and the single-critic baseline by a significant margin in terms of rate-distortion performance while offering fairly precise rate control.
翻訳日:2021-04-07 00:25:59 公開日:2021-04-05
# (参考訳) 画像分類のための説明可能性支援ドメイン一般化

Explainability-aided Domain Generalization for Image Classification ( http://arxiv.org/abs/2104.01742v1 )

ライセンス: CC BY 4.0
Robin M. Schmidt(参考訳) 従来、ほとんどの機械学習環境では、ネットワークが予測にたどり着く方法と理由に関する洞察をユーザに提供し、基礎となるモデルを制限し、パフォーマンスをある程度妨げようとする、ある程度の説明性を獲得している。 例えば、決定木はディープニューラルネットワークよりも説明しやすいと考えられているが、視覚的なタスクのパフォーマンスは欠落している。 本研究では,説明可能性文献からメソッドやアーキテクチャを適用することで,ドメイン一般化の課題に対して最先端のパフォーマンスを実現すると同時に,予測およびトレーニングプロセスに関するさらなる洞察のためのフレームワークを提供することを実証的に実証する。 そこで我々は,ネットワークが勾配に基づくクラスアクティベーションマップを介してトレーニング中に指導を受ける手法であるDivCAMや,ドメイン一般化タスクにプロトタイプネットワークを適用したProDropやD-Transformerなど,多様な識別機能に注目する手法を開発した。 これらの手法は、説明可能性に加えて競合性能を提供するため、深層ニューラルネットワークアーキテクチャのロバスト性を改善するツールとして使用できると論じる。

Traditionally, for most machine learning settings, gaining some degree of explainability that tries to give users more insights into how and why the network arrives at its predictions, restricts the underlying model and hinders performance to a certain degree. For example, decision trees are thought of as being more explainable than deep neural networks but they lack performance on visual tasks. In this work, we empirically demonstrate that applying methods and architectures from the explainability literature can, in fact, achieve state-of-the-art performance for the challenging task of domain generalization while offering a framework for more insights into the prediction and training process. For that, we develop a set of novel algorithms including DivCAM, an approach where the network receives guidance during training via gradient based class activation maps to focus on a diverse set of discriminative features, as well as ProDrop and D-Transformers which apply prototypical networks to the domain generalization task, either with self-challenging or attention alignment. Since these methods offer competitive performance on top of explainability, we argue that the proposed methods can be used as a tool to improve the robustness of deep neural network architectures.
翻訳日:2021-04-07 00:16:48 公開日:2021-04-05
# (参考訳) 適応サブモジュラー最大化のための最適サンプリングギャップ [全文訳有]

Optimal Sampling Gaps for Adaptive Submodular Maximization ( http://arxiv.org/abs/2104.01750v1 )

ライセンス: CC BY 4.0
Shaojie Tang, Jing Yuan(参考訳) 大規模で急速に増加するデータで機械学習アルゴリズムを実行することは、しばしば計算コストが高く、データセットのサイズを小さくし、機械学習アルゴリズムの計算コストを削減しようとする一般的なトリックは、 \emph{probability sampling}である。 既知の確率で、元のデータセットから各データポイントを含むことで、サンプルデータセットを作成する。 削減データセット上で機械学習アルゴリズムを実行するメリットは明らかだが、サンプルから得られたソリューションのパフォーマンスが、完全なデータセットを使用する際の最適ソリューションよりもはるかに悪い可能性がある、という大きな懸念がある。 本稿では,適応サブモジュラー最大化の文脈における確率サンプリングによる性能損失について検討する。 確率$r\in[0,1]$と独立に各データポイントを選択する最も簡単な確率サンプリング法を考える。 我々は,サンプリングギャップを,全データセットから得られる最適解と,サンプルから得られる最適解の最大比として独立系上で定義する。 我々の主な貢献は、ユーティリティ関数がポリシー的に部分モジュラーならば、与えられたサンプリングレート$r$に対して、サンプリングギャップは上界と下界の両方が1/r$であることを示すことである。 結果の直接的な意味は、サンプルデータセット(サンプリングレート$r$でサンプリングされる)に基づいて$\alpha$-approximati onソリューションを見つけることができれば、このソリューションは、全データセットを使用する際の元の問題に対する$\alpha r$ approximation比を達成できるということである。 また,プールベースのアクティブラーニングや適応型バイラルマーケティングなど,多岐にわたる実世界の応用において,政策的に準モジュラーの性質が見いだせることを示す。

Running machine learning algorithms on large and rapidly growing volumes of data are often computationally expensive, one common trick to reduce the size of a data set, and thus reduce the computational cost of machine learning algorithms, is \emph{probability sampling}. It creates a sampled data set by including each data point from the original data set with a known probability. Although the benefit of running machine learning algorithms on the reduced data set is obvious, one major concern is that the performance of the solution obtained from samples might be much worse than that of the optimal solution when using the full data set. In this paper, we examine the performance loss caused by probability sampling in the context of adaptive submodular maximization. We consider a easiest probability sampling method which selects each data point independently with probability $r\in[0,1]$. We define sampling gap as the largest ratio of the optimal solution obtained from the full data set and the optimal solution obtained from the samples, over independence systems. Our main contribution is to show that if the utility function is policywise submodular, then for a given sampling rate $r$, the sampling gap is both upper bounded and lower bounded by $1/r$. One immediate implication of our result is that if we can find an $\alpha$-approximati on solution based on a sampled data set (which is sampled at sampling rate $r$), then this solution achieves an $\alpha r$ approximation ratio for the original problem when using the full data set. We also show that the property of policywise submodular can be found in a wide range of real-world applications, including pool-based active learning and adaptive viral marketing.
翻訳日:2021-04-07 00:13:57 公開日:2021-04-05
# (参考訳) グラフに基づくディープラーニングによる合併・買収予測 [全文訳有]

Predicting Mergers and Acquisitions using Graph-based Deep Learning ( http://arxiv.org/abs/2104.01757v1 )

ライセンス: CC BY 4.0
Keenan Venuti(参考訳) グラフデータ構造は数学では必須であるが、グラフベースの機械学習はデータ科学の領域において比較的グリーンな分野である。 グラフベースのMLと関連するアルゴリズムのオープンソース実装の最近の進歩により、研究者は学術で作成されたメソッドを現実世界のデータセットに適用できるようになった。 このプロジェクトの目的は、一般的なグラフ機械学習フレームワークであるGraphSAGEを使用して、企業の合併と買収(M&A)を予測することである。 モデルは検証データセットで81.79%の精度で予測されたため、結果は有望であった。 金融データサイエンスにおけるデータソースの豊富さとアルゴリズムによる意思決定を考えると、グラフベースの機械学習は、アルファを生成するためのパフォーマンスと非伝統的なアプローチを提供する。

The graph data structure is a staple in mathematics, yet graph-based machine learning is a relatively green field within the domain of data science. Recent advances in graph-based ML and open source implementations of relevant algorithms are allowing researchers to apply methods created in academia to real-world datasets. The goal of this project was to utilize a popular graph machine learning framework, GraphSAGE, to predict mergers and acquisitions (M&A) of enterprise companies. The results were promising, as the model predicted with 81.79% accuracy on a validation dataset. Given the abundance of data sources and algorithmic decision making within financial data science, graph-based machine learning offers a performant, yet non-traditional approach to generating alpha.
翻訳日:2021-04-06 23:44:22 公開日:2021-04-05
# (参考訳) 潜在決定モデルにおける間接的監督としてのペア化例 [全文訳有]

Paired Examples as Indirect Supervision in Latent Decision Models ( http://arxiv.org/abs/2104.01759v1 )

ライセンス: CC BY 4.0
Nitish Gupta, Sameer Singh, Matt Gardner, Dan Roth(参考訳) 構成的で構造化されたモデルは、問題を明示的に分解し、モデルが単にデータアーティファクトにラッチしていないという自信を与える解釈可能な中間出力を提供するため、魅力的である。 しかし、これらのモデルを学ぶことは難しい。なぜなら、エンドタスクの監督は、潜む決定が取るべき価値について、弱い間接的なシグナルのみを提供するからである。 この結果、モデルが中間タスクを正しく実行することを学ばないことが多い。 そこで本研究では,潜在的な意思決定を学習する上で,より強力なヒントを提供するペア型例の活用法を提案する。 2つの関連するトレーニング例が内部構造を共有している場合、潜伏した決定間の一貫性を促進するための追加のトレーニング目標を追加します。 このような目標は、潜在出力値や終了タスクの値を外部から監視する必要はないが、個々のトレーニング例自身によって提供される追加のトレーニング信号を提供する。 DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。 a)データセット内で自然に発生するペアの例を発見すること,(b)テンプレートを用いてペアの例を構築すること,(c)質問生成モデルを用いてペアの例を生成すること,の3つの方法を検討する。 我々は,提案手法が分布内一般化と分布外一般化の両方を改善することを実証的に示す。

Compositional, structured models are appealing because they explicitly decompose problems and provide interpretable intermediate outputs that give confidence that the model is not simply latching onto data artifacts. Learning these models is challenging, however, because end-task supervision only provides a weak indirect signal on what values the latent decisions should take. This often results in the model failing to learn to perform the intermediate tasks correctly. In this work, we introduce a way to leverage paired examples that provide stronger cues for learning latent decisions. When two related training examples share internal substructure, we add an additional training objective to encourage consistency between their latent decisions. Such an objective does not require external supervision for the values of the latent output, or even the end task, yet provides an additional training signal to that provided by individual training examples themselves. We apply our method to improve compositional question answering using neural module networks on the DROP dataset. We explore three ways to acquire paired questions in DROP: (a) discovering naturally occurring paired examples within the dataset, (b) constructing paired examples using templates, and (c) generating paired examples using a question generation model. We empirically demonstrate that our proposed approach improves both in- and out-of-distribution generalization and leads to correct latent decision predictions.
翻訳日:2021-04-06 23:38:40 公開日:2021-04-05
# (参考訳) 不均衡深層学習のためのプロクラステアントレーニング [全文訳有]

Procrustean Training for Imbalanced Deep Learning ( http://arxiv.org/abs/2104.01769v1 )

ライセンス: CC BY 4.0
Han-Jia Ye, De-Chuan Zhan, Wei-Lun Chao(参考訳) クラス不均衡なデータでトレーニングされたニューラルネットワークは、少数クラスのトレーニングデータではパフォーマンスが低くなることが知られている。 最近のいくつかの作品は、これを小クラスへの過剰適合に帰している。 本稿では,この問題の新たな説明を行う。 ニューラルネットワークは、初期のトレーニングエポックにおいて、ほとんどのデータを主要なクラスに分類することで、最初はマイナーなクラスに適さない傾向にあることがわかった。 これらの誤った予測を修正するために、ニューラルネットワークは、メジャークラスとマイナークラスの決定境界を越えてマイナークラスのデータの特徴をプッシュすることに集中する必要がある。 このような不適合なフェーズは、メジャークラスとマイナークラスの競争を過度に強調し、データをテストするために一般化される差別的な知識をニューラルネットワークが学習することを妨げる。 この問題に対処するために,クラス間のトレーニングの進捗を等化するための新しい学習戦略を提案する。 私たちは、主要なクラスデータと他のデータとをミニバッチで混ぜて、ニューラルネットワークが最初に適合しないように意図的に機能を弱めます。 この戦略は,クラス間でのトレーニング精度と機能勾配のバランスを保ち,下位フィッティングと過剰フィッティングの問題を効果的に軽減できることを示す。 いくつかのベンチマークデータセットにおいて,本手法は最先端の精度,特に難解なステップ不均衡ケースに対して達成する。

Neural networks trained with class-imbalanced data are known to perform poorly on minor classes of scarce training data. Several recent works attribute this to over-fitting to minor classes. In this paper, we provide a novel explanation of this issue. We found that a neural network tends to first under-fit the minor classes by classifying most of their data into the major classes in early training epochs. To correct these wrong predictions, the neural network then must focus on pushing features of minor class data across the decision boundaries between major and minor classes, leading to much larger gradients for features of minor classes. We argue that such an under-fitting phase over-emphasizes the competition between major and minor classes, hinders the neural network from learning the discriminative knowledge that can be generalized to test data, and eventually results in over-fitting. To address this issue, we propose a novel learning strategy to equalize the training progress across classes. We mix features of the major class data with those of other data in a mini-batch, intentionally weakening their features to prevent a neural network from fitting them first. We show that this strategy can largely balance the training accuracy and feature gradients across classes, effectively mitigating the under-fitting then over-fitting problem for minor class data. On several benchmark datasets, our approach achieves the state-of-the-art accuracy, especially for the challenging step-imbalanced cases.
翻訳日:2021-04-06 23:21:49 公開日:2021-04-05
# (参考訳) 畳み込み型神経不透明放射場 [全文訳有]

Convolutional Neural Opacity Radiance Fields ( http://arxiv.org/abs/2104.01772v1 )

ライセンス: CC BY 4.0
Haimin Luo, Anpei Chen, Qixuan Zhang, Bai Pang, Minye Wu, Lan Xu, and Jingyi Yu(参考訳) 複雑な不透明度を持つファジィオブジェクトのフォトリアリスティックなモデリングとレンダリングは、多くの没入型VR/ARアプリケーションにとって重要である。 本稿では, ファジィオブジェクトのための畳み込み型ニューラルレンダラを用いた不透明放射場生成手法を提案する。これは, 明示的な不透明性監視機構と畳み込み機構を結合して, 任意の新しい視点において, 高品質な外観とグローバルな一貫したアルファマット生成を可能にするための, ニューラル放射場フレームワークを提案する。 より具体的には、カメラ線と画像平面の両方と共に効率的なサンプリング戦略を提案し、パッチワイドで効率的なレイディアンスフィールドサンプリングと学習を可能にし、また、ビュー一貫性の細かい外観と不透明度出力を再構築するために、パッチごとのハイブリッド特徴埋め込みを生成する新しいボリューム特徴統合スキームを提案する。 さらに、自己監督型フレームワークにおいて、高頻度の外観と不透明度の詳細を両立させるパッチワイド対向訓練方式を採用する。 また,高画質カラーとアルファマップをキャプチャし,ファジィオブジェクトに挑戦できる効果的なマルチビュー画像キャプチャシステムを提案する。 既存のファジィオブジェクトデータセットと新しい挑戦的なファジィオブジェクトデータセットに関する広範囲な実験により,本手法が様々なファジィオブジェクトに対して,フォトリアリスティックでグローバルに一貫性があり,詳細な外観と不透明なフリービューポイントレンダリングを実現することを実証した。

Photo-realistic modeling and rendering of fuzzy objects with complex opacity are critical for numerous immersive VR/AR applications, but it suffers from strong view-dependent brightness, color. In this paper, we propose a novel scheme to generate opacity radiance fields with a convolutional neural renderer for fuzzy objects, which is the first to combine both explicit opacity supervision and convolutional mechanism into the neural radiance field framework so as to enable high-quality appearance and global consistent alpha mattes generation in arbitrary novel views. More specifically, we propose an efficient sampling strategy along with both the camera rays and image plane, which enables efficient radiance field sampling and learning in a patch-wise manner, as well as a novel volumetric feature integration scheme that generates per-patch hybrid feature embeddings to reconstruct the view-consistent fine-detailed appearance and opacity output. We further adopt a patch-wise adversarial training scheme to preserve both high-frequency appearance and opacity details in a self-supervised framework. We also introduce an effective multi-view image capture system to capture high-quality color and alpha maps for challenging fuzzy objects. Extensive experiments on existing and our new challenging fuzzy object dataset demonstrate that our method achieves photo-realistic, globally consistent, and fined detailed appearance and opacity free-viewpoint rendering for various fuzzy objects.
翻訳日:2021-04-06 22:54:26 公開日:2021-04-05
# (参考訳) ニューラルネットワークアルゴリズムのプロピレン蒸留への応用 [全文訳有]

Application of Neural Network Algorithm in Propylene Distillation ( http://arxiv.org/abs/2104.01774v1 )

ライセンス: CC BY 4.0
Jinwei Lu, Ningrui Zhao(参考訳) 人工ニューラルネットワークモデリングはこのメカニズムを考慮する必要はない。 入力と出力の間の暗黙的な関係をマッピングし、システムのパフォーマンスをうまく予測できます。 同時に、自己学習能力と高いフォールトトレランスというメリットもある。 整流塔内の気液二相は対流接触を介して相間熱と物質移動を行う。 塔の上部と下部における生成物の濃度と過程のパラメータの間の機能的関係は極めて複雑である。 関数関係は、人工ニューラルネットワークアルゴリズムによって正確に制御できる。 プロピレン蒸留塔の主要な構成要素は、塔の上部のプロパン濃度と塔の下部のプロピレン濃度である。 正確な測定は、エチレン製造企業におけるプロピレン収量の増加に重要な役割を果たしている。 本稿では主にニューラルネットワークモデルとそのプロピレン蒸留塔への応用を紹介する。

Artificial neural network modeling does not need to consider the mechanism. It can map the implicit relationship between input and output and predict the performance of the system well. At the same time, it has the advantages of self-learning ability and high fault tolerance. The gas-liquid two phases in the rectification tower conduct interphase heat and mass transfer through countercurrent contact. The functional relationship between the product concentration at the top and bottom of the tower and the process parameters is extremely complex. The functional relationship can be accurately controlled by artificial neural network algorithms. The key components of the propylene distillation tower are the propane concentration at the top of the tower and the propylene concentration at the bottom of the tower. Accurate measurement of them plays a key role in increasing propylene yield in ethylene production enterprises. This article mainly introduces the neural network model and its application in the propylene distillation tower.
翻訳日:2021-04-06 22:31:25 公開日:2021-04-05
# (参考訳) AST:オーディオスペクトログラム変換器 [全文訳有]

AST: Audio Spectrogram Transformer ( http://arxiv.org/abs/2104.01778v1 )

ライセンス: CC BY 4.0
Yuan Gong, Yu-An Chung, James Glass(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)は、音声スペクトログラムから対応するラベルへの直接マッピングの学習を目的とした、エンドツーエンドの音声分類モデルのメインビルディングブロックとして広く採用されてきた。 長距離グローバルなコンテキストをよりよく捉えるために、最近のトレンドは、CNNの上に自己認識メカニズムを追加し、CNN対応ハイブリッドモデルを形成することである。 しかし、cnnへの依存が必要かどうか、また、注意に基づくニューラルネットワークがオーディオ分類において優れた性能を得るのに十分なものかどうかは不明である。 本稿では,Audio Spectrogram Transformer (AST) を導入することで,音声分類のための最初の畳み込みのない,純粋に注意に基づくモデルを提案する。 様々な音声分類ベンチマークでastを評価し,音声セット0.485地図,esc-50の95.6%,音声コマンドv2の98.1%の精度を新たに達成した。

In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms to corresponding labels. To better capture long-range global context, a recent trend is to add a self-attention mechanism on top of the CNN, forming a CNN-attention hybrid model. However, it is unclear whether the reliance on a CNN is necessary, and if neural networks purely based on attention are sufficient to obtain good performance in audio classification. In this paper, we answer the question by introducing the Audio Spectrogram Transformer (AST), the first convolution-free, purely attention-based model for audio classification. We evaluate AST on various audio classification benchmarks, where it achieves new state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50, and 98.1% accuracy on Speech Commands V2.
翻訳日:2021-04-06 22:25:01 公開日:2021-04-05
# (参考訳) 非教師なし領域適応による顔面年齢予測における顔面バイアスの低減 [全文訳有]

Reducing Racial Bias in Facial Age Prediction using Unsupervised Domain Adaptation in Regression ( http://arxiv.org/abs/2104.01781v1 )

ライセンス: CC BY-SA 4.0
Apoorva Gokhale, Astuti Sharma, Kaustav Datta, Savyasachi(参考訳) 対象の顔画像から年齢を推定する作業に対して,教師なし領域適応手法を提案する。 一般に公開されている顔画像データセットにおける人種的偏見の伝播を、訓練されたモデルの非効率性に抑えるため、予測者が民族に不変な特徴を学ぶ動機付けとしてドメイン適応を行い、異なる民族的背景を持つ人々の顔間での一般化性能を高める。 また, 年齢の法則をエクスプロイトすることで, モデルの予測にランク付けの制約を課し, 一対の画像を入力するモデルの設計を行い, 年齢の相対年齢差と第1のアイデンティティのランクを, 年齢の観点で出力する。 さらに,予測された年齢差から,適応対象領域から2枚以上のラベル付き画像から絶対年齢を求めるために,多次元スケーリングを実装した。 我々は、年齢ラベルを用いた公開データセットを実験し、それを民族ラベルに基づいてサブセットに分割し、モデルが訓練されているものと異なる民族データに対する我々のアプローチの性能を評価する。 さらに, 相対的および絶対的年齢に対する予測の健全性を維持するために制約を課し, 入力に対する予測の滑らかさを保証する。 我々はレグレッションタスクのための様々なドメイン適応アプローチを広範囲に実験し比較した。

We propose an approach for unsupervised domain adaptation for the task of estimating someone's age from a given face image. In order to avoid the propagation of racial bias in most publicly available face image datasets into the inefficacy of models trained on them, we perform domain adaptation to motivate the predictor to learn features that are invariant to ethnicity, enhancing the generalization performance across faces of people from different ethnic backgrounds. Exploiting the ordinality of age, we also impose ranking constraints on the prediction of the model and design our model such that it takes as input a pair of images, and outputs both the relative age difference and the rank of the first identity with respect to the other in terms of their ages. Furthermore, we implement Multi-Dimensional Scaling to retrieve absolute ages from the predicted age differences from as few as two labeled images from the domain to be adapted to. We experiment with a publicly available dataset with age labels, dividing it into subsets based on the ethnicity labels, and evaluating the performance of our approach on the data from an ethnicity different from the one that the model is trained on. Additionally, we impose a constraint to preserve the sanity of the predictions with respect to relative and absolute ages, and another to ensure the smoothness of the predictions with respect to the input. We experiment extensively and compare various domain adaptation approaches for the task of regression.
翻訳日:2021-04-06 22:12:30 公開日:2021-04-05
# (参考訳) BBAEG:テキスト分類のためのBERTに基づくバイオメディカル・アドバイザリ・サンプル生成を目指して [全文訳有]

BBAEG: Towards BERT-based Biomedical Adversarial Example Generation for Text Classification ( http://arxiv.org/abs/2104.01782v1 )

ライセンス: CC BY 4.0
Ishani Mondal(参考訳) 医療予測分析は、医療意思決定、診断予測、薬物レビュー分析を支援する。 したがって、予測精度は頑健な予測言語モデルを必要とする重要な基準である。 しかし、深層学習を用いたモデルは、人間が誤分類する可能性が低い無意味な摂動入力インスタンスに対して脆弱であることが証明されている。 近年,ルールベースのシノニムとBERT-MLMを用いて敵を作ろうという試みが一般のドメインで見られたが,生物医学文献の増大は独特な課題となっている。 本稿では,bbaeg (biomedical bert-based adversarial example generation) を提案する。bbaeg (biomedical bert-based adversarial example generation) は,生物医学的テキスト分類のためのブラックボックス攻撃アルゴリズムである。 2つのデータセットに対する自動的および人的評価により、BBAEGはより優れた言語流布、セマンティック・コヒーレンスを持つより強力な攻撃を行うことを示した。

Healthcare predictive analytics aids medical decision-making, diagnosis prediction and drug review analysis. Therefore, prediction accuracy is an important criteria which also necessitates robust predictive language models. However, the models using deep learning have been proven vulnerable towards insignificantly perturbed input instances which are less likely to be misclassified by humans. Recent efforts of generating adversaries using rule-based synonyms and BERT-MLMs have been witnessed in general domain, but the ever increasing biomedical literature poses unique challenges. We propose BBAEG (Biomedical BERT-based Adversarial Example Generation), a black-box attack algorithm for biomedical text classification, leveraging the strengths of both domain-specific synonym replacement for biomedical named entities and BERTMLM predictions, spelling variation and number replacement. Through automatic and human evaluation on two datasets, we demonstrate that BBAEG performs stronger attack with better language fluency, semantic coherence as compared to prior work.
翻訳日:2021-04-06 22:03:49 公開日:2021-04-05
# (参考訳) 関係抽出のためのディープニューラルネットワーク

Deep Neural Networks for Relation Extraction ( http://arxiv.org/abs/2104.01799v1 )

ライセンス: CC0 1.0
Tapas Nayak(参考訳) テキストからの関係抽出は自動知識ベース集団にとって重要な課題である。 本稿ではまず,2つのエンティティ間の関係を見つけるための,構文に着目した多要素アテンションネットワークモデルを提案する。 次に,エンコーダ・デコーダアーキテクチャに基づく2つの関係抽出フレームワークを提案する。 最後に,文書間の関係抽出のための階層型エンティティグラフ畳み込みネットワークを提案する。

Relation extraction from text is an important task for automatic knowledge base population. In this thesis, we first propose a syntax-focused multi-factor attention network model for finding the relation between two entities. Next, we propose two joint entity and relation extraction frameworks based on encoder-decoder architecture. Finally, we propose a hierarchical entity graph convolutional network for relation extraction across documents.
翻訳日:2021-04-06 21:54:17 公開日:2021-04-05
# (参考訳) 動的予測合成のためのモデル圧縮 [全文訳有]

Model Compression for Dynamic Forecast Combination ( http://arxiv.org/abs/2104.01830v1 )

ライセンス: CC BY 4.0
Vitor Cerqueira, Luis Torgo, Carlos Soares, Albert Bifet(参考訳) 複数の異なる予測モデルを組み合わせるという予測上の利点は広く受け入れられている。 特に時系列予測問題において、この組み合わせはデータに存在する潜在的な非定常的な変化源に対処するためにしばしば動的である。 優れた予測性能にもかかわらず、アンサンブル法は高い計算コストと透明性の欠如という2つの大きな制限を課している。 これらの問題は、よりシンプルで効率的で信頼性の高いアプローチの展開を妨げることが多い。 本稿では,モデル圧縮の考え方を活用し,時系列予測タスクにおいてこの問題に対処する。 モデル圧縮アプローチは、予測のためにほとんど検討されていない。 彼らの時系列での応用は、データの進化のために困難である。 さらに,本論文ではニューラルネットワークに着目しながら,異なるタイプの手法にモデル圧縮を適用する。 実験により,個々のモデルに動的予測アンサンブルを圧縮することで,予測性能と計算コストの大幅な削減が達成されることを示した。 さらに、最も平均ランクの高い圧縮個別モデルは規則に基づく回帰モデルである。 したがって、モデル圧縮はモデル解釈可能性の観点からも利点をもたらす。 本論文で実施した実験は完全に再現可能である。

The predictive advantage of combining several different predictive models is widely accepted. Particularly in time series forecasting problems, this combination is often dynamic to cope with potential non-stationary sources of variation present in the data. Despite their superior predictive performance, ensemble methods entail two main limitations: high computational costs and lack of transparency. These issues often preclude the deployment of such approaches, in favour of simpler yet more efficient and reliable ones. In this paper, we leverage the idea of model compression to address this problem in time series forecasting tasks. Model compression approaches have been mostly unexplored for forecasting. Their application in time series is challenging due to the evolving nature of the data. Further, while the literature focuses on neural networks, we apply model compression to distinct types of methods. In an extensive set of experiments, we show that compressing dynamic forecasting ensembles into an individual model leads to a comparable predictive performance and a drastic reduction in computational costs. Further, the compressed individual model with best average rank is a rule-based regression model. Thus, model compression also leads to benefits in terms of model interpretability. The experiments carried in this paper are fully reproducible.
翻訳日:2021-04-06 21:53:28 公開日:2021-04-05
# (参考訳) 汎用ゼロショット学習のための伝達可能な表現のためのタスク非依存知識 [全文訳有]

Task-Independent Knowledge Makes for Transferable Representations for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2104.01832v1 )

ライセンス: CC BY 4.0
Chaoqun Wang, Xuejin Chen, Shaobo Min, Xiaoyan Sun, Houqiang Li(参考訳) 一般化ゼロショット学習(GZSL)は、転送可能な画像表現を学習することで、新しいカテゴリを認識することを目的としている。 既存の手法では、画像表現を対応するセマンティックラベルにアライメントすることで、セマンティックな表現を目に見えないカテゴリに移すことができる。 しかし、目に見えるカテゴリラベルのみによって監督され、学習された意味知識は、非常にタスク固有であり、画像表現を目に見えるカテゴリに偏らせる。 本稿では,タスク固有の知識とタスク非依存の知識を,セマンティックアライメントとインスタンス識別を通じて同時に学習する新しいDual-Contrastive Embedding Network(DCEN)を提案する。 第一に、DCENはタスクラベルを、クロスモーダルコントラスト学習と意味-視覚的相補性の探索により、同じ意味圏のクラスタ表現に活用する。 タスク固有の知識に加えて、DCENはタスクに依存しない知識を導入し、同じイメージの異なるビューの表現を引き付け、異なるイメージの表現を撃退する。 高レベルのカテゴリー監督と比較して、このインスタンス識別監督はDCENが低レベルの視覚的知識を捉えることを奨励する。 その結果、タスク固有の知識とタスクに依存しない知識が共同でDCENの転送可能な表現を可能にし、4つの公開ベンチマークで平均4.1%の改善が得られた。

Generalized Zero-Shot Learning (GZSL) targets recognizing new categories by learning transferable image representations. Existing methods find that, by aligning image representations with corresponding semantic labels, the semantic-aligned representations can be transferred to unseen categories. However, supervised by only seen category labels, the learned semantic knowledge is highly task-specific, which makes image representations biased towards seen categories. In this paper, we propose a novel Dual-Contrastive Embedding Network (DCEN) that simultaneously learns task-specific and task-independent knowledge via semantic alignment and instance discrimination. First, DCEN leverages task labels to cluster representations of the same semantic category by cross-modal contrastive learning and exploring semantic-visual complementarity. Besides task-specific knowledge, DCEN then introduces task-independent knowledge by attracting representations of different views of the same image and repelling representations of different images. Compared to high-level seen category supervision, this instance discrimination supervision encourages DCEN to capture low-level visual knowledge, which is less biased toward seen categories and alleviates the representation bias. Consequently, the task-specific and task-independent knowledge jointly make for transferable representations of DCEN, which obtains averaged 4.1% improvement on four public benchmarks.
翻訳日:2021-04-06 21:36:25 公開日:2021-04-05
# (参考訳) ソースデータへのアクセスのない教師なしマルチソースドメイン適応 [全文訳有]

Unsupervised Multi-source Domain Adaptation Without Access to Source Data ( http://arxiv.org/abs/2104.01845v1 )

ライセンス: CC BY 4.0
Sk Miraj Ahmed, Dripta S. Raychaudhuri, Sujoy Paul, Samet Oymak, Amit K. Roy-Chowdhury(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。 しかしながら、これらの従来のudaアプローチのほとんどは、トレーニング中にソースデータにアクセスするという強い前提を定めているが、プライバシやセキュリティ、ストレージ上の懸念から、それほど実用的ではない。 最近の研究はこの問題に対処し、ソースデータへのアクセスを必要とせず、単一のソースモデルからラベルなしのターゲットドメインに知識を転送するアルゴリズムを提案している。 しかし、適応のためには、複数のトレーニングされたソースモデルが選択可能であれば、最適なソースをチェックするために、各モデルとすべてのモデルを個別に適応させる必要がある。 ソースデータなしで、ターゲットラベルなしで、ソースモデルの最適な組み合わせを見つけることができるだろうか。 そこで本研究では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。 我々の主張を正当化するために直感的な理論的洞察を提供する。 さらに、アルゴリズムの有効性を示すために、いくつかのベンチマークデータセットで広範な実験を行い、ほとんどの場合、我々の手法は最適なソース精度に到達するだけでなく、性能も向上する。

Unsupervised Domain Adaptation (UDA) aims to learn a predictor model for an unlabeled domain by transferring knowledge from a separate labeled source domain. However, most of these conventional UDA approaches make the strong assumption of having access to the source data during training, which may not be very practical due to privacy, security and storage concerns. A recent line of work addressed this problem and proposed an algorithm that transfers knowledge to the unlabeled target domain from a single source model without requiring access to the source data. However, for adaptation purposes, if there are multiple trained source models available to choose from, this method has to go through adapting each and every model individually, to check for the best source. Thus, we ask the question: can we find the optimal combination of source models, with no source data and without target labels, whose performance is no worse than the single best source? To answer this, we propose a novel and efficient algorithm which automatically combines the source models with suitable weights in such a way that it performs at least as good as the best source model. We provide intuitive theoretical insights to justify our claim. Furthermore, extensive experiments are conducted on several benchmark datasets to show the effectiveness of our algorithm, where in most cases, our method not only reaches best source accuracy but also outperforms it.
翻訳日:2021-04-06 21:19:08 公開日:2021-04-05
# (参考訳) FedPandemic:パンデミック中の疾患の早期予後に向けたクロスデバイス・フェデレーション・ラーニングアプローチ [全文訳有]

FedPandemic: A Cross-Device Federated Learning Approach Towards Elementary Prognosis of Diseases During a Pandemic ( http://arxiv.org/abs/2104.01864v1 )

ライセンス: CC BY 4.0
Aman Priyanshu, Rakshit Naidu(参考訳) パンデミック病の初発予後に関する一連の症状を理解し、評価し、同意するために必要なデータ、人的力、資本の量は膨大である。 本稿では,covid-19をケーススタディとして,パンデミック時の初発症状の予測のための,クロスデバイスフェデレート学習と統合した新しいノイズインプリメンテーションアルゴリズムであるfedpandemicを提案する。 本研究の結果は, 症状の回復における整合性, 堅牢性の向上, 症状検索への経路の迅速化, およびフェデレートラーニングによる患者の症状のプライバシの確保に寄与した。

The amount of data, manpower and capital required to understand, evaluate and agree on a group of symptoms for the elementary prognosis of pandemic diseases is enormous. In this paper, we present FedPandemic, a novel noise implementation algorithm integrated with cross-device Federated learning for Elementary symptom prognosis during a pandemic, taking COVID-19 as a case study. Our results display consistency and enhance robustness in recovering the common symptoms displayed by the disease, paving a faster and cheaper path towards symptom retrieval while also preserving the privacy of patient's symptoms via Federated learning.
翻訳日:2021-04-06 21:01:13 公開日:2021-04-05
# (参考訳) MetaHTR: 文字適応型手書き文字認識を目指して [全文訳有]

MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition ( http://arxiv.org/abs/2104.01876v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song(参考訳) 手書きテキスト認識(htr)はこれまでも難解な問題であり、その主な原因は、私たちの間で存在する様々な書き方にある。 しかしながら、先行作品は一般的には限られた数のスタイルが存在するという仮定で動作し、そのほとんどは既存のデータセットによって既にキャプチャされている。 本稿では、まったく異なる視点を取ります -- 私たちは、常に大きく異なる新しいスタイルがあり、適応を実行するためにテスト中に非常に限られたデータしか持たないという仮定に取り組んでいます。 この結果、商業的に実行可能なソリューションとなり、モデルは新しいスタイルに適応するのに最適なショットを持ち、少数のサンプルの性質によって実装が現実的になる。 サポートセットを通じて新たな書き手データを活用する新しいメタラーニングフレームワークによってこれを達成し,単一勾配ステップ更新による書き手適応モデルを推論時に出力する。 著者1人当たりのキーキャラクタが比較的大きなスタイルの相違を示すことは少ないという重要な洞察を発見し、活用する。 さらに,テキストデータのシーケンシャルな性質に特化して設計された文字間クロスエントロピー損失に対して,メタ学習インスタンス固有の重み付けを提案する。 我々のライター適応型MetaHTRフレームワークは、ほとんどの最先端HTRモデルの上位に容易に実装できる。 実験によると、新しいスタイルのデータをほとんど観測することで、平均5~7%のパフォーマンス向上が得られる。 さらに,メタデザインのメリットを,代替適応機構と比較する際の,一連のアブレーション研究を通じて実証する。

Handwritten Text Recognition (HTR) remains a challenging problem to date, largely due to the varying writing styles that exist amongst us. Prior works however generally operate with the assumption that there is a limited number of styles, most of which have already been captured by existing datasets. In this paper, we take a completely different perspective -- we work on the assumption that there is always a new style that is drastically different, and that we will only have very limited data during testing to perform adaptation. This results in a commercially viable solution -- the model has the best shot at adaptation being exposed to the new style, and the few samples nature makes it practical to implement. We achieve this via a novel meta-learning framework which exploits additional new-writer data through a support set, and outputs a writer-adapted model via single gradient step update, all during inference. We discover and leverage on the important insight that there exists few key characters per writer that exhibit relatively larger style discrepancies. For that, we additionally propose to meta-learn instance specific weights for a character-wise cross-entropy loss, which is specifically designed to work with the sequential nature of text data. Our writer-adaptive MetaHTR framework can be easily implemented on the top of most state-of-the-art HTR models. Experiments show an average performance gain of 5-7% can be obtained by observing very few new style data. We further demonstrate via a set of ablative studies the advantage of our meta design when compared with alternative adaption mechanisms.
翻訳日:2021-04-06 20:54:09 公開日:2021-04-05
# (参考訳) ガウス雑音における条件付き平均推定器の一般微分同一性とその応用

A General Derivative Identity for the Conditional Mean Estimator in Gaussian Noise and Some Applications ( http://arxiv.org/abs/2104.01883v1 )

ライセンス: CC BY 4.0
Alex Dytso, H. Vincent Poor, Shlomo Shamai (Shitz)(参考訳) チャネル ${\bf Y}={\bf X}+ {\bf N}$ を考えると、${\bf X}$ は$n$次元のランダムベクトルであり、${\bf N}$ は共分散行列 ${\bf \mathsf{K}}_{\bf N}$ を持つガウスベクトルである。 この論文で検討されている対象は、${\bf x}$が${\bf y}={\bf y}$、すなわち${\bf y} \to e[{\bf x}|{\bf y}={\bf y}]$である条件付き平均である。 文学におけるいくつかのアイデンティティは、$E[{\bf X}|{\bf Y}={\bf y}]$を条件分散、スコア関数、高次条件モーメントなどの他の量に結びつける。 本稿の目的は,これらのアイデンティティの統一的視点を提供することである。 論文の第1部では、条件付き平均に対する一般微分同一性が導出される。 具体的には、マルコフ鎖 ${\bf u} \leftrightarrow {\bf x} \leftrightarrow {\bf y}$ に対して、$e[{\bf u}|{\bf y}={\bf y}]$ のヤコビアンは${\bf \mathsf{k}}_{{\bf n}}^{-1} {\bf cov} ( {\bf x}, {\bf u} | {\bf y}={\bf y})$ で与えられる。 論文の第2部では、${\bf U}$の様々な選択を通じて、新しいアイデンティティは既知の多くのアイデンティティを一般化し、いくつかの新しいIDを導出するために使用される。 まず、条件分散に対するハッセルとノルテの恒等性の簡単な証明を示す。 第二に、ジャファーによる再帰的アイデンティティの簡単な証明が提供される。 第三に、条件付き累積と条件付き期待との新たな接続を示す。 特に、$E[X|Y=y]$の$k$-th微分が$(k+1)$-th条件累積であることが示されている。 論文の第3部では、いくつかの応用について検討している。 第1の応用では、$E[X|Y=y]$のパワー級数と合成逆数が導出される。 第2のアプリケーションでは、推定器誤差$(X-E[X|Y])$の分布を導出する。 第3のアプリケーションでは、条件付き累積体の一貫した推定器(empirical bayes estimators)を構築する。 シーケンス $y_1,...,y_n$。

Consider a channel ${\bf Y}={\bf X}+ {\bf N}$ where ${\bf X}$ is an $n$-dimensional random vector, and ${\bf N}$ is a Gaussian vector with a covariance matrix ${\bf \mathsf{K}}_{\bf N}$. The object under consideration in this paper is the conditional mean of ${\bf X}$ given ${\bf Y}={\bf y}$, that is ${\bf y} \to E[{\bf X}|{\bf Y}={\bf y}]$. Several identities in the literature connect $E[{\bf X}|{\bf Y}={\bf y}]$ to other quantities such as the conditional variance, score functions, and higher-order conditional moments. The objective of this paper is to provide a unifying view of these identities. In the first part of the paper, a general derivative identity for the conditional mean is derived. Specifically, for the Markov chain ${\bf U} \leftrightarrow {\bf X} \leftrightarrow {\bf Y}$, it is shown that the Jacobian of $E[{\bf U}|{\bf Y}={\bf y}]$ is given by ${\bf \mathsf{K}}_{{\bf N}}^{-1} {\bf Cov} ( {\bf X}, {\bf U} | {\bf Y}={\bf y})$. In the second part of the paper, via various choices of ${\bf U}$, the new identity is used to generalize many of the known identities and derive some new ones. First, a simple proof of the Hatsel and Nolte identity for the conditional variance is shown. Second, a simple proof of the recursive identity due to Jaffer is provided. Third, a new connection between the conditional cumulants and the conditional expectation is shown. In particular, it is shown that the $k$-th derivative of $E[X|Y=y]$ is the $(k+1)$-th conditional cumulant. The third part of the paper considers some applications. In a first application, the power series and the compositional inverse of $E[X|Y=y]$ are derived. In a second application, the distribution of the estimator error $(X-E[X|Y])$ is derived. In a third application, we construct consistent estimators (empirical Bayes estimators) of the conditional cumulants from an i.i.d. sequence $Y_1,...,Y_n$.
翻訳日:2021-04-06 20:35:39 公開日:2021-04-05
# (参考訳) 人工シーン前・2次元グラフ推論による非均一ヘイズ除去 [全文訳有]

Non-Homogeneous Haze Removal via Artificial Scene Prior and Bidimensional Graph Reasoning ( http://arxiv.org/abs/2104.01888v1 )

ライセンス: CC BY 4.0
Haoran Wei, Qingbo Wu, Hui Li, King Ngi Ngan, Hongliang Li, Fanman Meng, and Linfeng Xu(参考訳) 自然界の欠如と先行情報により、その視覚的内容が歪むことなく、単一の画像からヘイズを完全に取り除くことは極めて困難である。 幸いなことに、実世界の迷路は通常均質でない分布を示しており、部分保存された領域で多くの貴重な手がかりを提供する。 本稿では,人工シーンの前置と2次元グラフ推論による不均質なヘイズ除去ネットワーク(nhrn)を提案する。 まず、異なる露光条件下で人工的な多重ショットを再現するために、ガンマ補正を反復的に使用し、そのヘイズ度が異なり、それ以前のシーンを豊かにする。 次に,2次元グラフ推論モジュールを構築し,特徴写像の空間的およびチャネル的次元における非局所的なフィルタリングを行い,それらの長距離依存性をモデル化し,保存状態の良いノードとヘイズによって汚染されたノードとの間の自然シーンを伝搬する。 提案手法を,異なるベンチマークデータセットで評価する。 その結果,本手法は,単一画像デハジング処理とハイザイ画像理解処理の両方において,最先端アルゴリズムよりも優れた性能が得られることがわかった。

Due to the lack of natural scene and haze prior information, it is greatly challenging to completely remove the haze from single image without distorting its visual content. Fortunately, the real-world haze usually presents non-homogeneous distribution, which provides us with many valuable clues in partial well-preserved regions. In this paper, we propose a Non-Homogeneous Haze Removal Network (NHRN) via artificial scene prior and bidimensional graph reasoning. Firstly, we employ the gamma correction iteratively to simulate artificial multiple shots under different exposure conditions, whose haze degrees are different and enrich the underlying scene prior. Secondly, beyond utilizing the local neighboring relationship, we build a bidimensional graph reasoning module to conduct non-local filtering in the spatial and channel dimensions of feature maps, which models their long-range dependency and propagates the natural scene prior between the well-preserved nodes and the nodes contaminated by haze. We evaluate our method on different benchmark datasets. The results demonstrate that our method achieves superior performance over many state-of-the-art algorithms for both the single image dehazing and hazy image understanding tasks.
翻訳日:2021-04-06 20:33:51 公開日:2021-04-05
# (参考訳) 超音波画像における乳腺病変分割のためのグローバルガイダンスネットワーク [全文訳有]

Global Guidance Network for Breast Lesion Segmentation in Ultrasound Images ( http://arxiv.org/abs/2104.01896v1 )

ライセンス: CC BY 4.0
Cheng Xue, Lei Zhu, Huazhu Fu, Xiaowei Hu, Xiaomeng Li, Hai Zhang, Pheng Ann Heng(参考訳) 超音波による乳腺病変の自動分離は、世界規模で女性に影響を及ぼす恐ろしい疾患の1つである乳がんの診断に役立つ。 乳房領域を超音波画像から正確に分割することは, 固有スペックルアーチファクト, ぼやけた乳房病変境界, 乳房病変領域内の不均質な強度分布などにより困難な課題である。 近年,畳み込みニューラルネットワーク(cnns)が医用画像分割作業において顕著な結果を示している。 しかし、CNNの畳み込み操作は、入力された超音波画像の長距離依存性を捉える能力に限界がある局所に焦点を合わせ、乳房病変の分節精度が低下する。 本稿では,大域的誘導ブロック (GGB) と乳房病変境界検出 (BD) モジュールを備えた深部畳み込みニューラルネットワークを開発し,乳房病変のセグメンテーションを促進する。 ggbは、多層統合機能マップをガイダンス情報として利用し、空間領域とチャネル領域の両方から長距離非局所依存関係を学習する。 BDモジュールは、追加の乳房病変境界マップを学習し、セグメンテーション結果の改善の境界品質を高める。 公開データセットと収集データセットを用いた実験の結果,乳腺超音波病変の分画における他の医用画像分画法や近年のセマンティック分節法よりも優れていた。 また,超音波前立腺セグメンテーションにおいて,最先端のネットワークよりも前立腺領域の同定が容易であることを示す。

Automatic breast lesion segmentation in ultrasound helps to diagnose breast cancer, which is one of the dreadful diseases that affect women globally. Segmenting breast regions accurately from ultrasound image is a challenging task due to the inherent speckle artifacts, blurry breast lesion boundaries, and inhomogeneous intensity distributions inside the breast lesion regions. Recently, convolutional neural networks (CNNs) have demonstrated remarkable results in medical image segmentation tasks. However, the convolutional operations in a CNN often focus on local regions, which suffer from limited capabilities in capturing long-range dependencies of the input ultrasound image, resulting in degraded breast lesion segmentation accuracy. In this paper, we develop a deep convolutional neural network equipped with a global guidance block (GGB) and breast lesion boundary detection (BD) modules for boosting the breast ultrasound lesion segmentation. The GGB utilizes the multi-layer integrated feature map as a guidance information to learn the long-range non-local dependencies from both spatial and channel domains. The BD modules learn additional breast lesion boundary map to enhance the boundary quality of a segmentation result refinement. Experimental results on a public dataset and a collected dataset show that our network outperforms other medical image segmentation methods and the recent semantic segmentation methods on breast ultrasound lesion segmentation. Moreover, we also show the application of our network on the ultrasound prostate segmentation, in which our method better identifies prostate regions than state-of-the-art networks.
翻訳日:2021-04-06 20:07:04 公開日:2021-04-05
# (参考訳) 逆処理学習による少数の有意物体検出 [全文訳有]

Few-Cost Salient Object Detection with Adversarial-Paced Learning ( http://arxiv.org/abs/2104.01928v1 )

ライセンス: CC BY 4.0
Dingwen Zhang, Haibin Tian, and Jungong Han(参考訳) 近年,画像シーンから有能な物体を検出・分別する技術が注目されている。 既存のディープサリエンシー検出モデルのトレーニングにおける基本的な課題は、大量の注釈付きデータの要求である。 大量のトレーニングデータの収集が安価で簡単になる一方で、データの注釈付けは時間、労力、人間の専門知識の面では高価なプロセスである。 そこで本研究では,数枚のトレーニング画像のみに手動アノテーションを施し,効果的なサルエント物体検出モデルを学習し,トレーニングモデルの人的労力を劇的に軽減する手法を提案する。 この目的のために我々は,このタスクを,少額の有能な物体検出と命名し,少数のコストの学習シナリオを促進するために,APL(Adversarial-pac ed Learning)ベースのフレームワークを提案する。 本質的には、APLは自己評価学習(SPL)体制から派生しているが、学習正規化のヒューリスティックな設計ではなく、データ駆動型対角学習機構を通じて頑健な学習ペースを推定する。 広範に使用されている4つのベンチマークデータセットに関する総合的な実験により、提案手法が既存の教師付き深層物体検出モデルに効果的にアプローチできることが示されている。 プロジェクトページはhttps://github.com/h b-stone/fc-sodで閲覧できる。

Detecting and segmenting salient objects from given image scenes has received great attention in recent years. A fundamental challenge in training the existing deep saliency detection models is the requirement of large amounts of annotated data. While gathering large quantities of training data becomes cheap and easy, annotating the data is an expensive process in terms of time, labor and human expertise. To address this problem, this paper proposes to learn the effective salient object detection model based on the manual annotation on a few training images only, thus dramatically alleviating human labor in training models. To this end, we name this task as the few-cost salient object detection and propose an adversarial-paced learning (APL)-based framework to facilitate the few-cost learning scenario. Essentially, APL is derived from the self-paced learning (SPL) regime but it infers the robust learning pace through the data-driven adversarial learning mechanism rather than the heuristic design of the learning regularizer. Comprehensive experiments on four widely-used benchmark datasets demonstrate that the proposed method can effectively approach to the existing supervised deep salient object detection models with only 1k human-annotated training images. The project page is available at https://github.com/h b-stone/FC-SOD.
翻訳日:2021-04-06 19:41:21 公開日:2021-04-05
# (参考訳) 多レベルスタイン変分勾配降下とベイズ逆問題への応用 [全文訳有]

Multilevel Stein variational gradient descent with applications to Bayesian inverse problems ( http://arxiv.org/abs/2104.01945v1 )

ライセンス: CC BY 4.0
Terrence Alsup and Luca Venturi and Benjamin Peherstorfer(参考訳) この研究は、ターゲット分布からより効率的にサンプリングするために、スタイン変分勾配勾配の多値変分を示す。 鍵となる要素は、関心のターゲット分布に収束する忠実度とコストの増大を伴う分布列である。 例えば、そのような分布列はベイズ逆問題におけるフォワードモデルのより微細な離散化レベルの階層によって与えられる。 提案するマルチレベル・スタイン変分勾配降下(英語版)は、従来の単一レベル変分勾配降下型(英語版)と比較して、高レベル・高価格の段階においてほんの数回のイテレーションを必要とせず、ほとんどのイテレーションをより低い、より安価なレベルへ移動させる。 ある仮定では、平均場限界において、提案した多値スタイン法の誤差は、計算コストに対して単値の誤差よりも高速にログ係数によって減衰する。 ベイズ逆問題を用いた数値実験では, 最大レベルのみを使用する単レベル変種と比較して, 提案した多レベルスタイン法の1桁以上の高速化を示す。

This work presents a multilevel variant of Stein variational gradient descent to more efficiently sample from target distributions. The key ingredient is a sequence of distributions with growing fidelity and costs that converges to the target distribution of interest. For example, such a sequence of distributions is given by a hierarchy of ever finer discretization levels of the forward model in Bayesian inverse problems. The proposed multilevel Stein variational gradient descent moves most of the iterations to lower, cheaper levels with the aim of requiring only a few iterations on the higher, more expensive levels when compared to the traditional, single-level Stein variational gradient descent variant that uses the highest-level distribution only. Under certain assumptions, in the mean-field limit, the error of the proposed multilevel Stein method decays by a log factor faster than the error of the single-level counterpart with respect to computational costs. Numerical experiments with Bayesian inverse problems show speedups of more than one order of magnitude of the proposed multilevel Stein method compared to the single-level variant that uses the highest level only.
翻訳日:2021-04-06 19:22:55 公開日:2021-04-05
# (参考訳) 社会知能のためのdataops:労働市場のスキル抽出とマッチングのためのデータパイプライン [全文訳有]

DataOps for Societal Intelligence: a Data Pipeline for Labor Market Skills Extraction and Matching ( http://arxiv.org/abs/2104.01966v1 )

ライセンス: CC BY 4.0
Damian Andrew Tamburri, Willem-Jan Van den Heuvel, Martin Garriga(参考訳) AIアルゴリズムがサポートするビッグデータ分析は、労働市場のインテリジェンス問題において、スキルのローカライゼーションと検索をサポートすることができる。 私たちは、特定のdataopsモデルを通じてこの問題を定式化し、いくつかの国の行政および技術パートナーからのデータソースを連携させ、政策と意思決定をサポートするための共有知識を作成します。 次に、最先端の機械学習モデルを備えた履歴書や空白書からスキルを抽出する重要なタスクに焦点を当てる。 オランダの雇用機関とベルギーのフランドル地域からの実データを用いた応用機械学習による予備結果について紹介する。 最後の目標は、これらのスキルを標準的なスキル、仕事、職業のオントロジーに合わせることです。

Big Data analytics supported by AI algorithms can support skills localization and retrieval in the context of a labor market intelligence problem. We formulate and solve this problem through specific DataOps models, blending data sources from administrative and technical partners in several countries into cooperation, creating shared knowledge to support policy and decision-making. We then focus on the critical task of skills extraction from resumes and vacancies featuring state-of-the-art machine learning models. We showcase preliminary results with applied machine learning on real data from the employment agencies of the Netherlands and the Flemish region in Belgium. The final goal is to match these skills to standard ontologies of skills, jobs and occupations.
翻訳日:2021-04-06 18:48:09 公開日:2021-04-05
# (参考訳) 胸部X線セグメンテーションのための不完全ラベルにおけるカスケードロバスト学習 [全文訳有]

Cascaded Robust Learning at Imperfect Labels for Chest X-ray Segmentation ( http://arxiv.org/abs/2104.01975v1 )

ライセンス: CC BY 4.0
Cheng Xue, Qiao Deng, Xiaomeng Li, Qi Dou, Pheng Ann Heng(参考訳) 医用画像解析におけるcnnの優れた性能は,ラベル付き画像数,画像源,専門家経験など,アノテーションの品質に大きく依存する。 その注釈は高度な専門知識と労働力を必要とする。 高レーダ間変動に対処するため,医療画像分割作業において不完全ラベルの研究は極めて重要である。 本稿では,不完全アノテーションを用いた胸部x線セグメンテーションのための新しいカスケードロバスト学習フレームワークを提案する。 モデルは3つの独立したネットワークから成り,ピアネットワークから有用な情報を効果的に学習できる。 フレームワークには2つのステージがある。 第1段階では、モデル委員会設定によりクリーンアノテートサンプルを選択し、選択したクリーンサンプルを用いてセグメンテーション損失を最小限に抑えてネットワークを訓練する。 第2段階では,ラベル修正を伴う協調最適化フレームワークを設計し,間違ったアノテーションを徐々に修正し,ネットワーク性能を向上させる。 深セン病院が収集した胸部x線画像データセットについて実験を行った。 その結果,従来の手法と比較して,セグメント化タスクの精度を大幅に向上できることがわかった。

The superior performance of CNN on medical image analysis heavily depends on the annotation quality, such as the number of labeled image, the source of image, and the expert experience. The annotation requires great expertise and labour. To deal with the high inter-rater variability, the study of imperfect label has great significance in medical image segmentation tasks. In this paper, we present a novel cascaded robust learning framework for chest X-ray segmentation with imperfect annotation. Our model consists of three independent network, which can effectively learn useful information from the peer networks. The framework includes two stages. In the first stage, we select the clean annotated samples via a model committee setting, the networks are trained by minimizing a segmentation loss using the selected clean samples. In the second stage, we design a joint optimization framework with label correction to gradually correct the wrong annotation and improve the network performance. We conduct experiments on the public chest X-ray image datasets collected by Shenzhen Hospital. The results show that our methods could achieve a significant improvement on the accuracy in segmentation tasks compared to the previous methods.
翻訳日:2021-04-06 18:38:50 公開日:2021-04-05
# (参考訳) 直感的物理ゲームにおける確率的プログラミングボット [全文訳有]

Probabilistic Programming Bots in Intuitive Physics Game Play ( http://arxiv.org/abs/2104.01980v1 )

ライセンス: CC BY 4.0
Fahad Alhasoun, Sarah Alnegheimish, Joshua Tenenbaum(参考訳) 近年の知見は、人間が物体の物理をシミュレートするために物理シミュレーションエンジンの認知メカニズムを展開することを示唆している。 直感的な物理環境と対話するための確率的プログラミングツールをボットが展開するためのフレームワークを提案する。 この枠組みは、確率論的方法で物理シミュレーションを用い、ニュートン運動の法則によって支配される環境でエージェントが行う動きを推測する。 しかし、多くのサンプルを生成する必要があるため、そのような設定では確率的プログラムの手法が遅くなる可能性がある。 我々は,ゲームプレイ経験から学習することで,サンプリング手順の効率化を支援するモデルフリーアプローチでモデルを補完する。 本稿では,モデルフリーアプローチ(モデル内の畳み込みニューラルネットワーク)とモデルベースアプローチ(確率論的物理シミュレーション)を組み合わせることで,どちらもできないことを実現できる手法を提案する。 このように、モデルはモデルフリーまたはモデルベースアプローチよりも優れています。 本研究は,flappy birdのゲームにおけるモデルの性能に関する実証的な結果を示すケーススタディである。

Recent findings suggest that humans deploy cognitive mechanism of physics simulation engines to simulate the physics of objects. We propose a framework for bots to deploy probabilistic programming tools for interacting with intuitive physics environments. The framework employs a physics simulation in a probabilistic way to infer about moves performed by an agent in a setting governed by Newtonian laws of motion. However, methods of probabilistic programs can be slow in such setting due to their need to generate many samples. We complement the model with a model-free approach to aid the sampling procedures in becoming more efficient through learning from experience during game playing. We present an approach where combining model-free approaches (a convolutional neural network in our model) and model-based approaches (probabilistic physics simulation) is able to achieve what neither could alone. This way the model outperforms an all model-free or all model-based approach. We discuss a case study showing empirical results of the performance of the model on the game of Flappy Bird.
翻訳日:2021-04-06 18:28:02 公開日:2021-04-05
# (参考訳) コンボリューションニューラルネットワークの時空間アンサンブルを用いた尿管鏡管内腔分割 [全文訳有]

Using spatial-temporal ensembles of convolutional neural networks for lumen segmentation in ureteroscopy ( http://arxiv.org/abs/2104.01985v1 )

ライセンス: CC BY 4.0
Jorge F. Lazo, Aldo Marzullo, Sara Moccia, Michele Catellani, Benoit Rosa, Michel de Mathelin, Elena De Momi(参考訳) 目的: Ureteroscopy は上部尿路上皮癌(UTUC)の診断と治療に有用である。 尿管鏡検査では,内視鏡が追従すべき経路を示すため,空洞腔の自動分節が重要である。 本稿では,中空ルーメンの正確なセグメンテーションを得るために,畳み込みニューラルネットワーク(cnns)に基づく自動手法を提案する。 方法:提案手法は4つの並列CNNのアンサンブルに基づいて,単一および複数フレーム情報を同時に処理する。 これらのうち、u-net は残差ブロック($m_1$) と mask-rcnn($m_2$) をベースとし、1つの静止フレーム $i(t)$ が供給される。 他の2つのモデル(M_1$,$M_2$)は、時間情報を処理するために3D畳み込みを利用するステージの追加による前のモデルの変更である。 M_1$, $M_2$は、フレームのトリプル(I(t-1)$, $I(t+1)$, $I(t+1)$)で供給され、$I(t)$のセグメンテーションを生成する。 結果: 提案手法は6例の患者から手動で収集・注釈した11ビデオ(2,673フレーム)のカスタムデータセットを用いて評価した。 従来の最先端手法よりも優れたDice類似度係数0.80を得る。 結論: 尿管鏡画像における中空腔のセグメンテーションを改善するために, アンサンブルモデルにより時空間情報を効果的に活用できることが得られた。 この方法は、視界不良、時折出血、または特異反射の存在でも有効である。

Purpose: Ureteroscopy is an efficient endoscopic minimally invasive technique for the diagnosis and treatment of upper tract urothelial carcinoma (UTUC). During ureteroscopy, the automatic segmentation of the hollow lumen is of primary importance, since it indicates the path that the endoscope should follow. In order to obtain an accurate segmentation of the hollow lumen, this paper presents an automatic method based on Convolutional Neural Networks (CNNs). Methods: The proposed method is based on an ensemble of 4 parallel CNNs to simultaneously process single and multi-frame information. Of these, two architectures are taken as core-models, namely U-Net based in residual blocks($m_1$) and Mask-RCNN($m_2$), which are fed with single still-frames $I(t)$. The other two models ($M_1$, $M_2$) are modifications of the former ones consisting on the addition of a stage which makes use of 3D Convolutions to process temporal information. $M_1$, $M_2$ are fed with triplets of frames ($I(t-1)$, $I(t)$, $I(t+1)$) to produce the segmentation for $I(t)$. Results: The proposed method was evaluated using a custom dataset of 11 videos (2,673 frames) which were collected and manually annotated from 6 patients. We obtain a Dice similarity coefficient of 0.80, outperforming previous state-of-the-art methods. Conclusion: The obtained results show that spatial-temporal information can be effectively exploited by the ensemble model to improve hollow lumen segmentation in ureteroscopic images. The method is effective also in presence of poor visibility, occasional bleeding, or specular reflections.
翻訳日:2021-04-06 18:20:02 公開日:2021-04-05
# (参考訳) rejoinder:gaussian differential privacy [全文訳有]

Rejoinder: Gaussian Differential Privacy ( http://arxiv.org/abs/2104.01987v1 )

ライセンス: CC BY 4.0
Jinshuo Dong, Aaron Roth, Weijie J. Su(参考訳) このリジョイーダーでは、議論におけるコメントの大半をカバーする2つの幅広い問題に対処することを目指している。 まず,我々の研究の理論的側面について議論し,この研究がプライバシー保護データ解析の理論的基礎に与える影響についてコメントする。 次に,f-differential privacy (f-DP) と Gaussian differential privacy (GDP) が,様々なアプリケーションにおいてどのように違いをもたらすかについて論じる。

In this rejoinder, we aim to address two broad issues that cover most comments made in the discussion. First, we discuss some theoretical aspects of our work and comment on how this work might impact the theoretical foundation of privacy-preserving data analysis. Taking a practical viewpoint, we next discuss how f-differential privacy (f-DP) and Gaussian differential privacy (GDP) can make a difference in a range of applications.
翻訳日:2021-04-06 18:09:46 公開日:2021-04-05
# (参考訳) deeponetを用いた一般ジョイント確率密度関数式乱流燃焼 [全文訳有]

Generalized Joint Probability Density Function Formulation inTurbulent Combustion using DeepONet ( http://arxiv.org/abs/2104.01996v1 )

ライセンス: CC BY 4.0
Rishikesh Ranade, Kevin Gitushi, Tarek Echekki(参考訳) 乱流燃焼における結合確率密度関数(PDF)に基づくモデルは、乱流-化学相互作用の直接閉鎖を与える。 共同PDFは、異なる空間位置における乱流火炎力学を捉えており、それらを正確に表現することが重要である。 ジョイントPDFは熱化学状態変数の無条件でパラメータ化され、これは高次元である。 したがって、様々な空間における共同pdfの正確な構築には、膨大な量のデータが必要となる。 従来の研究では,KDEと組み合わせて主成分分析(PCA)を用いて,低次元空間に共同PDFを構築することにより,データ要求を緩和するフレームワークを導入していた。 しかし, 主成分(PC)共同PDFの構築には, 乱流火炎における各空間位置で計算する必要があるため, 依然として計算コストがかかる。 本稿では,Deep Operator Network (DeepONet) を用いた一般化された共同PDFモデルを提案する。 DeepONetは、与えられた空間的位置と離散的なPC座標におけるPCの無条件平均に基づいてパラメータ化され、対応するPC座標の結合確率密度値を予測する機械学習モデルである。 We demonstrate the accuracy and generalizability of the DeepONet on the Sandia flames, D, E and F。 The DeepONet is training based on the PC joint PDFs observed inflame E and yields excellent predictions of joint PDFs at different spatial location offlasD and F, which are not seen during training。

Joint probability density function (PDF)-based models in turbulent combustion provide direct closure for turbulence-chemistry interactions. The joint PDFs capture the turbulent flame dynamics at different spatial locations and hence it is crucial to represent them accurately. The jointPDFs are parameterized on the unconditional means of thermo-chemical state variables, which can be high dimensional. Thus, accurate construction of joint PDFs at various spatial locations may require an exorbitant amount of data. In a previous work, we introduced a framework that alleviated data requirements by constructing joint PDFs in a lower dimensional space using principal component analysis (PCA) in conjunction with Kernel Density Estimation (KDE). However, constructing the principal component (PC) joint PDFs is still computationally expensive as they are required to be calculated at each spatial location in the turbulent flame. In this work, we propose the concept of a generalized joint PDF model using the Deep Operator Network (DeepONet). The DeepONet is a machine learning model that is parameterized on the unconditional means of PCs at a given spatial location and discrete PC coordinates and predicts the joint probability density value for the corresponding PC coordinate. We demonstrate the accuracy and generalizability of the DeepONet on the Sandia flames, D, E and F. The DeepONet is trained based on the PC joint PDFs observed inflame E and yields excellent predictions of joint PDFs shapes at different spatial locations of flamesD and F, which are not seen during training
翻訳日:2021-04-06 18:05:16 公開日:2021-04-05
# (参考訳) マルチモーダルアタックにおける音声・視覚統合は堅牢性を高めるか? [全文訳有]

Can audio-visual integration strengthen robustness under multimodal attacks? ( http://arxiv.org/abs/2104.02000v1 )

ライセンス: CC BY 4.0
Yapeng Tian and Chenliang Xu(参考訳) 本稿では,攻撃下の機械の多感覚知覚を体系的に研究することを提案する。 本研究では,マルチモーダル攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し,視聴覚学習のロバスト性を検討する。 我々は、音声と視覚の統合が認識を強化し、異なる融合機構がオーディオと視覚モデルの堅牢性にどのように影響するかを調べるために、オーディオ、視覚、両方のモダリティを攻撃する。 攻撃下でのマルチモーダルな相互作用を解釈するために,映像中の音声領域をローカライズする弱教師付き音源視覚定位モデルを学習する。 マルチモーダル攻撃を軽減するため,音声-視覚的相似性制約と外部特徴記憶バンクに基づく音声-視覚的防御手法を提案する。 広範囲な実験により、視聴覚モデルはマルチモーダル攻撃の影響を受けやすいこと、視聴覚統合はマルチモーダル攻撃で強化されるよりもモデルの堅牢性が低下すること、弱い教師付き音源の視覚定位モデルさえもうまく騙すことができること、防御手法は、クリーンなモデル性能を犠牲にすることなく、視聴覚ネットワークの不可避性を改善することができること、などが示されている。

In this paper, we propose to make a systematic study on machines multisensory perception under attacks. We use the audio-visual event recognition task against multimodal adversarial attacks as a proxy to investigate the robustness of audio-visual learning. We attack audio, visual, and both modalities to explore whether audio-visual integration still strengthens perception and how different fusion mechanisms affect the robustness of audio-visual models. For interpreting the multimodal interactions under attacks, we learn a weakly-supervised sound source visual localization model to localize sounding regions in videos. To mitigate multimodal attacks, we propose an audio-visual defense approach based on an audio-visual dissimilarity constraint and external feature memory banks. Extensive experiments demonstrate that audio-visual models are susceptible to multimodal adversarial attacks; audio-visual integration could decrease the model robustness rather than strengthen under multimodal attacks; even a weakly-supervised sound source visual localization model can be successfully fooled; our defense method can improve the invulnerability of audio-visual networks without significantly sacrificing clean model performance.
翻訳日:2021-04-06 17:57:44 公開日:2021-04-05
# (参考訳) 量子化Gromov-Wasserstein [全文訳有]

Quantized Gromov-Wasserstein ( http://arxiv.org/abs/2104.02013v1 )

ライセンス: CC0 1.0
Samir Chowdhury, David Miller, Tom Needham(参考訳) gromov-wasserstein (gw) フレームワークは、異なる距離空間上で定義される確率分布の比較を可能にするために最適輸送からのアイデアを適応させる。 S-GWL や MREC のような最先端のアルゴリズムにより,GW 距離のスケーラブルな計算とグラフおよび点雲上の関連マッチングが可能となった。 それぞれのアルゴリズムのブレークスルーは、基礎となる空間を部品に分解し、必要に応じて再帰を加えることに依存する。 実際には非常に成功したが、そのような方法に関する理論的保証は限られている。 計量測度空間のスケッチ理論の最近の進歩に触発され、量子化グロモフ・ワッサーシュタイン (Quantized Gromov Wasserstein, qGW) を定義する。 この定式化は、アルゴリズムの高速化とメモリ複雑性の低減をもたらす最適なGWマッチングを近似する新しいアルゴリズムを動機付けている。 その結果,100万点を超えるデータセットを含む,既存の文献よりも桁違いの大きさのスケールでGWマッチングを適用することが可能になった。

The Gromov-Wasserstein (GW) framework adapts ideas from optimal transport to allow for the comparison of probability distributions defined on different metric spaces. Scalable computation of GW distances and associated matchings on graphs and point clouds have recently been made possible by state-of-the-art algorithms such as S-GWL and MREC. Each of these algorithmic breakthroughs relies on decomposing the underlying spaces into parts and performing matchings on these parts, adding recursion as needed. While very successful in practice, theoretical guarantees on such methods are limited. Inspired by recent advances in the theory of sketching for metric measure spaces, we define Quantized Gromov Wasserstein (qGW): a metric that treats parts as fundamental objects and fits into a hierarchy of theoretical upper bounds for the GW problem. This formulation motivates a new algorithm for approximating optimal GW matchings which yields algorithmic speedups and reductions in memory complexity. Consequently, we are able to go beyond outperforming state-of-the-art and apply GW matching at scales that are an order of magnitude larger than in the existing literature, including datasets containing over 1M points.
翻訳日:2021-04-06 17:34:48 公開日:2021-04-05
# (参考訳) 個人化音声強調のための自己教師付き学習 [全文訳有]

Self-Supervised Learning for Personalized Speech Enhancement ( http://arxiv.org/abs/2104.02017v1 )

ライセンス: CC BY 4.0
Aswin Sivaraman, Minje Kim(参考訳) 音声エンハンスメントシステムは、モデルを単一のテスト時間話者に適応させることで、パフォーマンスを向上させることができる。 このパーソナライゼーションのコンテキストでは、テストタイムのユーザは、従来の完全教師付き学習では不十分な、少数のノイズのない音声データしか提供できない。 個人データ不足を克服する一つの方法は、話者に依存しないモデルからモデルパラメータを転送し、パーソナライズされたモデルを初期化し、少量の個人音声データを用いてモデルを微調整することである。 このベースラインは、希少なクリーン音声データに対してわずかに適応する。 また,本研究では,音声の個人的特徴と識別的特徴を多用し,個人的音声録音から学習するための自己教師あり手法を提案する。 提案手法は,ベースラインの完全教師付き手法よりもパーソナライズされた音声強調モデルを初期化し,優れた音声強調性能が得られることを示す。 提案手法は実世界の条件下でより強固な特徴セット(圧縮されたモデルサイズとラベル付きデータの少数さ)も生み出す。

Speech enhancement systems can show improved performance by adapting the model towards a single test-time speaker. In this personalization context, the test-time user might only provide a small amount of noise-free speech data, likely insufficient for traditional fully-supervised learning. One way to overcome the lack of personal data is to transfer the model parameters from a speaker-agnostic model to initialize the personalized model, and then to finetune the model using the small amount of personal speech data. This baseline marginally adapts over the scarce clean speech data. Alternatively, we propose self-supervised methods that are designed specifically to learn personalized and discriminative features from abundant in-the-wild noisy, but still personal speech recordings. Our experiment shows that the proposed self-supervised learning methods initialize personalized speech enhancement models better than the baseline fully-supervised methods, yielding superior speech enhancement performance. The proposed methods also result in a more robust feature set under the real-world conditions: compressed model sizes and fewness of the labeled data.
翻訳日:2021-04-06 17:08:33 公開日:2021-04-05
# (参考訳) 自己監督型データ強化とパーソナライズされた音声強調 [全文訳有]

Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification ( http://arxiv.org/abs/2104.02018v1 )

ライセンス: CC BY 4.0
Aswin Sivaraman, Sunwoo Kim, Minje Kim(参考訳) パーソナライズされた音声強調モデルのトレーニングは、本質的には、プライバシの制約とターゲットユーザからのノイズフリーな音声へのアクセスが制限されたため、ノーショット学習の問題である。 テストタイムユーザからの未ラベル音声が多数存在する場合、自己教師型学習を用いてパーソナライズされた音声強調モデルを訓練することができる。 モデルパーソナライゼーションの直接的なアプローチの1つは、ターゲット話者のうるさい録音を擬似情報源として使うことである。 そして、擬似認知モデルは、注入されたトレーニングノイズを除去し、擬似音源を復元する。 しかし、このアプローチは疑似ソースの品質に依存するため揮発的であり、ノイズが多すぎる可能性がある。 治療として,データ浄化による自己監督アプローチの改善を提案する。 まず、疑似情報源のフレーム単位のSNRを推定するためにSNR予測モデルを訓練する。 そして、予測者の推定値を重みに変換し、擬似ソースのフレーム毎の寄与を調整し、パーソナライズされたモデルをトレーニングする。 提案手法は,個人化音声強調の文脈において,話者固有の雑音データの有用性を向上させることを実証的に示す。 クリーンな音声録音やスピーカーの埋め込みに頼らずに、私たちのアプローチはプライバシー保護と見なされるかもしれない。

Training personalized speech enhancement models is innately a no-shot learning problem due to privacy constraints and limited access to noise-free speech from the target user. If there is an abundance of unlabeled noisy speech from the test-time user, a personalized speech enhancement model can be trained using self-supervised learning. One straightforward approach to model personalization is to use the target speaker's noisy recordings as pseudo-sources. Then, a pseudo denoising model learns to remove injected training noises and recover the pseudo-sources. However, this approach is volatile as it depends on the quality of the pseudo-sources, which may be too noisy. As a remedy, we propose an improvement to the self-supervised approach through data purification. We first train an SNR predictor model to estimate the frame-by-frame SNR of the pseudo-sources. Then, the predictor's estimates are converted into weights which adjust the frame-by-frame contribution of the pseudo-sources towards training the personalized model. We empirically show that the proposed data purification step improves the usability of the speaker-specific noisy data in the context of personalized speech enhancement. Without relying on any clean speech recordings or speaker embeddings, our approach may be seen as privacy-preserving.
翻訳日:2021-04-06 16:53:27 公開日:2021-04-05
# (参考訳) 聴覚物体の視覚接地と音の分離に関する循環学習 [全文訳有]

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation ( http://arxiv.org/abs/2104.02026v1 )

ライセンス: CC BY 4.0
Yapeng Tian, Di Hu, Chenliang Xu(参考訳) 私たちの日常生活には、リッチな同期オーディオと視覚イベントがあります。 イベント内では、オーディオシーンは対応する視覚オブジェクトに関連付けられている。一方、サウンドオブジェクトは、オーディオトラック内の個々の音を指示し、分離するのに役立ちます。 そこで本稿では,この観察に基づいて,音波物体の視覚接地と視聴覚分離を協調的に学習できる循環型共学習(ccol)パラダイムを提案する。 具体的には,音場と音場の関係を利用して,音場分離の結果を改善する。 一方,分離した音からの識別情報により,2つのタスクの協調学習サイクルを構築し,相互に有益となる音場学習のためのトレーニングサンプルサンプリングを改善する。 広範な実験により,提案フレームワークは,両タスクの最近の比較アプローチを上回っており,反復学習によって相互にメリットを享受できることが示された。

There are rich synchronized audio and visual events in our daily life. Inside the events, audio scenes are associated with the corresponding visual objects; meanwhile, sounding objects can indicate and help to separate their individual sounds in the audio track. Based on this observation, in this paper, we propose a cyclic co-learning (CCoL) paradigm that can jointly learn sounding object visual grounding and audio-visual sound separation in a unified framework. Concretely, we can leverage grounded object-sound relations to improve the results of sound separation. Meanwhile, benefiting from discriminative information from separated sounds, we improve training example sampling for sounding object grounding, which builds a co-learning cycle for the two tasks and makes them mutually beneficial. Extensive experiments show that the proposed framework outperforms the compared recent approaches on both tasks, and they can benefit from each other with our cyclic co-learning.
翻訳日:2021-04-06 16:40:11 公開日:2021-04-05
# (参考訳) 深部グラフニューラルネットワークを用いたニュートリノ実験のためのEMシャワーのセグメンテーション [全文訳有]

Segmentation of EM showers for neutrino experiments with deep graph neural networks ( http://arxiv.org/abs/2104.02040v1 )

ライセンス: CC BY 4.0
Vladislav Belavin, Ekaterina Trofimova, Andrey Ustyuzhanin(参考訳) 電磁(EM)サンプリング熱量計で収集したデータからシャワーを復元する新しい手法を提案する。 このような検出器は高エネルギー物理学において、進行中の粒子のエネルギーと運動量を測定するために広く用いられている。 本研究では,多数の粒子がEmulsion Cloud Chamber (ECC) のれんがを通過し,電磁シャワーが発生する場合について考察する。 この状況は長い露光時間や大きな入力粒子フラックスで観測することができる。 例えば、SHiP実験はダークマター探索とニュートリノ物理研究にエマルション検出器を使用する計画である。 船舶実験のフルフラックスは5年間で約10,^{20}$の粒子が期待できる。 入射する粒子の量が多ければ多いので、重なり合うシャワーをたくさん観測する。 EMシャワーの復元は難しいセグメンテーション問題となる。 再構成パイプラインは,クラスタリングアルゴリズムの隣接行列を予測するグラフニューラルネットワークで構成されている。 グラフニューラルネットワークの性能向上のために,ECCれんがにおけるシャワー発生の幾何学的特性を考慮した新しい層型(EmulsionConv)を提案する。 重なり合うシャワーのクラスタリングのために,階層密度に基づくクラスタリングアルゴリズムを改良した。 本手法では, 入射粒子に関する情報は使用せず, エマルション検出器内の電磁シャワーの最大82%を同定する。 17,715ドルのシャワーの平均エネルギー解像度は27%だ。 電磁シャワーを再構成するためのアルゴリズムの主なテストベンチはsnd@lhcである。

We introduce a novel method for showers reconstruction from the data collected with electromagnetic (EM) sampling calorimeters. Such detectors are widely used in High Energy Physics to measure the energy and kinematics of in-going particles. In this work, we consider the case when a large number of particles pass through an Emulsion Cloud Chamber (ECC) brick, generating electromagnetic showers. This situation can be observed with long exposure times or large input particle flux. For example, SHiP experiment is planning to use emulsion detectors for dark matter search and neutrino physics investigation. The expected full flux of SHiP experiment is about $10^{20}$ particles over five years. Because of the high amount of in-going particles, we will observe a lot of overlapping showers. It makes EM showers reconstruction a challenging segmentation problem. Our reconstruction pipeline consists of a Graph Neural Network that predicts an adjacency matrix for the clustering algorithm. To improve Graph Neural Network's performance, we propose a new layer type (EmulsionConv) that takes into account geometrical properties of shower development in ECC brick. For the clustering of overlapping showers, we use a modified hierarchical density-based clustering algorithm. Our method does not use any prior information about the incoming particles and identifies up to 82% of electromagnetic showers in emulsion detectors. The mean energy resolution over $17,715$ showers is 27%. The main test bench for the algorithm for reconstructing electromagnetic showers is going to be SND@LHC.
翻訳日:2021-04-06 16:24:57 公開日:2021-04-05
# (参考訳) 感情認識におけるトランスフォーマーの探索:BERT, DistillBERT, RoBERTa, XLNet, ELECTRAの比較 [全文訳有]

Exploring Transformers in Emotion Recognition: a comparison of BERT, DistillBERT, RoBERTa, XLNet and ELECTRA ( http://arxiv.org/abs/2104.02041v1 )

ライセンス: CC BY 4.0
Diogo Cortiz(参考訳) 本稿では,感情認識において自然言語理解(NLU)をどのように適用できるかを検討する。 異なるトランスフォーマー言語モデル(BERT, DistilBERT, RoBERTa, XLNet, ELECTRA)を微細な感情データセットを用いて微調整し, 性能(f1スコア)と完成までの時間で評価した。

This paper investigates how Natural Language Understanding (NLU) could be applied in Emotion Recognition, a specific task in affective computing. We finetuned different transformers language models (BERT, DistilBERT, RoBERTa, XLNet, and ELECTRA) using a fine-grained emotion dataset and evaluating them in terms of performance (f1-score) and time to complete.
翻訳日:2021-04-06 16:14:22 公開日:2021-04-05
# (参考訳) ファウリーカーの生成:複数の領域にまたがる物体形状と外観の遠ざかる [全文訳有]

Generating Furry Cars: Disentangling Object Shape & Appearance across Multiple Domains ( http://arxiv.org/abs/2104.02052v1 )

ライセンス: CC0 1.0
Utkarsh Ojha, Krishna Kumar Singh, Yong Jae Lee(参考訳) 本研究では,複数の領域(例えば犬や車)にまたがる物体形状と外観の不連続表現を学習する新しい課題について考察する。 目的は、中間分布を学習する生成モデルを学習し、各ドメインからプロパティのサブセットを借り、任意のドメインに存在しない画像の生成を可能にすることである。 この困難な問題では、各ドメインのオブジェクト形状、外観、背景を正確に区別する必要があるため、2つのドメインからの外観と形状因子を交換できる。 ひとつのドメイン内で要素をアンタングルできる既存のアプローチを拡張しますが、ドメインをまたがってそれを行うのに苦労しています。 我々の重要な技術的貢献は、視覚的特徴の微分可能なヒストグラムでオブジェクトの出現を表現し、同じ潜在外観因子と異なる潜在形状因子を持つ2つの画像が類似のヒストグラムを生成するようにジェネレータを最適化することである。 複数のマルチドメインデータセットについて,本手法がドメイン間の正確な外観と形状の伝達をもたらすことを示す。

We consider the novel task of learning disentangled representations of object shape and appearance across multiple domains (e.g., dogs and cars). The goal is to learn a generative model that learns an intermediate distribution, which borrows a subset of properties from each domain, enabling the generation of images that did not exist in any domain exclusively. This challenging problem requires an accurate disentanglement of object shape, appearance, and background from each domain, so that the appearance and shape factors from the two domains can be interchanged. We augment an existing approach that can disentangle factors within a single domain but struggles to do so across domains. Our key technical contribution is to represent object appearance with a differentiable histogram of visual features, and to optimize the generator so that two images with the same latent appearance factor but different latent shape factors produce similar histograms. On multiple multi-domain datasets, we demonstrate our method leads to accurate and consistent appearance and shape transfer across domains.
翻訳日:2021-04-06 16:06:36 公開日:2021-04-05
# (参考訳) 自己監督型視覚変換器の訓練に関する実証的研究 [全文訳有]

An Empirical Study of Training Self-Supervised Visual Transformers ( http://arxiv.org/abs/2104.02057v1 )

ライセンス: CC BY 4.0
Xinlei Chen and Saining Xie and Kaiming He(参考訳) 本稿では,新しい手法を記述しない。 代わりに、コンピュータビジョンの最近の進歩を考えると、直感的でインクリメンタルで必須のベースライン、すなわち、ビジュアルトランスフォーマーのための自己教師型学習(ViT)を研究する。 標準畳み込みネットワークのトレーニングレシピは高度に成熟し堅牢であるが、特にトレーニングがより困難になるような自己監督のシナリオでは、vitのレシピは構築されていない。 本研究は, 基礎研究に戻り, 自己監督型VTの学習における基礎的要素の影響について検討する。 不安定性は精度を低下させる主要な問題であり、明らかに良い結果によって隠すことができる。 これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。 We benchmark ViT results in MoCo v3 and other self-supervised framework, with ablations in various aspects。 現在肯定的な証拠と課題、オープンな質問について議論する。 この研究が将来の研究に有用なデータポイントと経験を提供することを期待しています。

This paper does not describe a novel method. Instead, it studies a straightforward, incremental, yet must-know baseline given the recent progress in computer vision: self-supervised learning for Visual Transformers (ViT). While the training recipes for standard convolutional networks have been highly mature and robust, the recipes for ViT are yet to be built, especially in the self-supervised scenarios where training becomes more challenging. In this work, we go back to basics and investigate the effects of several fundamental components for training self-supervised ViT. We observe that instability is a major issue that degrades accuracy, and it can be hidden by apparently good results. We reveal that these results are indeed partial failure, and they can be improved when training is made more stable. We benchmark ViT results in MoCo v3 and several other self-supervised frameworks, with ablations in various aspects. We discuss the currently positive evidence as well as challenges and open questions. We hope that this work will provide useful data points and experience for future research.
翻訳日:2021-04-06 15:35:07 公開日:2021-04-05
# talk, don't write: direct speech-based image retrieval の検討

Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval ( http://arxiv.org/abs/2104.01894v1 )

ライセンス: Link先を確認
Ramon Sanabria, Austin Waters, Jason Baldridge(参考訳) 音声に基づく画像検索は, 検索自体に重きを置くことなく, 共同表現学習の指標として研究されてきた。 そのため、絶対的な意味でも、自動音声認識(ASR)と強力なテキストエンコーダを組み合わせた代替戦略においても、音声ベースの検索が実際にどの程度うまく機能するかは不明だ。 本研究では,エンコーダアーキテクチャの選択,トレーニング方法論(非モーダルおよびマルチモーダル事前学習を含む),その他の要因を幅広く研究し,拡張する。 実験では、Flickr Audio、Places Audio、Localized Narrativesの3つのデータセットで、さまざまなタイプの音声をカバーしています。 私たちの最高のモデル構成は、例えば、Flickr Audioでは21.8%から33.2%、Places Audioでは27.6%から53.4%にリコール・アット・ワンをプッシュするなど、最先端技術よりも大幅に向上する。 また,音声の自発的,アクセント的,あるいは自動書き起こしが困難である場合,asr-to-textエンコーディングのカスケードを克服できる最善の音声モデルを示す。

Speech-based image retrieval has been studied as a proxy for joint representation learning, usually without emphasis on retrieval itself. As such, it is unclear how well speech-based retrieval can work in practice -- both in an absolute sense and versus alternative strategies that combine automatic speech recognition (ASR) with strong text encoders. In this work, we extensively study and expand choices of encoder architectures, training methodology (including unimodal and multimodal pretraining), and other factors. Our experiments cover different types of speech in three datasets: Flickr Audio, Places Audio, and Localized Narratives. Our best model configuration achieves large gains over state of the art, e.g., pushing recall-at-one from 21.8% to 33.2% for Flickr Audio and 27.6% to 53.4% for Places Audio. We also show our best speech-based models can match or exceed cascaded ASR-to-text encoding when speech is spontaneous, accented, or otherwise hard to automatically transcribe.
翻訳日:2021-04-06 14:55:41 公開日:2021-04-05
# ビデオは3つの価値ある: ビデオベースの人物識別のためのトリガミナルトランスフォーマー

A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification ( http://arxiv.org/abs/2104.01745v1 )

ライセンス: Link先を確認
Xuehu Liu and Pingping Zhang and Chenyang Yu and Huchuan Lu and Xuesheng Qian and Xiaoyun Yang(参考訳) ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。 従来の手法は通常、異なる特徴領域における観察の欠如である空間的、時間的、時間的といった限られた視点に焦点を当てていた。 本稿では,よりリッチな知覚を捉え,より包括的な映像表現を抽出すべく,映像ベースの人物再識別のための新しいフレームワーク trigeminal transformers (tmt) を提案する。 具体的には,生映像データを空間的・時間的・空間的領域に共同変換する特徴抽出器を設計する。 また,視覚トランスフォーマーの偉大な成功に触発されて,映像ベースの人物認証のためのトランスフォーマー構造を導入する。 本研究では,空間的,時空間的および時空間的領域における情報エンハンスメントのための局所的特徴の関係を活用すべく,3つの自己視点トランスフォーマを提案する。 さらに、包括的映像表現のための多視点特徴を集約するクロスビュー変換器を提案する。 実験結果から,我々の手法は,公開Re-IDベンチマークにおける他の最先端手法よりも優れた性能が得られることが示された。 モデル再現のためのコードをリリースします。

Video-based person re-identification (Re-ID) aims to retrieve video sequences of the same person under non-overlapping cameras. Previous methods usually focus on limited views, such as spatial, temporal or spatial-temporal view, which lack of the observations in different feature domains. To capture richer perceptions and extract more comprehensive video representations, in this paper we propose a novel framework named Trigeminal Transformers (TMT) for video-based person Re-ID. More specifically, we design a trigeminal feature extractor to jointly transform raw video data into spatial, temporal and spatial-temporal domain. Besides, inspired by the great success of vision transformer, we introduce the transformer structure for video-based person Re-ID. In our work, three self-view transformers are proposed to exploit the relationships between local features for information enhancement in spatial, temporal and spatial-temporal domains. Moreover, a cross-view transformer is proposed to aggregate the multi-view features for comprehensive video representations. The experimental results indicate that our approach can achieve better performance than other state-of-the-art approaches on public Re-ID benchmarks. We will release the code for model reproduction.
翻訳日:2021-04-06 14:54:10 公開日:2021-04-05
# 高速トレーニングのためのエンコーダデコーダの摂動再考

Rethinking Perturbations in Encoder-Decoders for Fast Training ( http://arxiv.org/abs/2104.01853v1 )

ライセンス: Link先を確認
Sho Takase and Shun Kiyono(参考訳) 私たちはしばしば神経モデルの規則化に摂動を用いています。 神経エンコーダ・デコーダについては、従来の研究ではスケジュールサンプリング(bengio et al., 2015)と逆摂動(sato et al., 2019)を摂動として適用していたが、これらの方法にはかなりの計算時間を要する。 そこで,本研究では,これらのアプローチが学習時間に十分効果的であるかどうかを問う。 逐次列列問題におけるいくつかの摂動を計算時間で比較する。 実験結果から,単語ドロップアウト(Gal and Ghahramani, 2016)や入力トークンのランダムな置換といった単純な手法は,これらの手法が高速であるにもかかわらず,最近提案された摂動に匹敵する(あるいはより良い)スコアが得られることが示された。 私たちのコードはhttps://github.com/t akase/rethink_pertur bations.comで公開されています。

We often use perturbations to regularize neural models. For neural encoder-decoders, previous studies applied the scheduled sampling (Bengio et al., 2015) and adversarial perturbations (Sato et al., 2019) as perturbations but these methods require considerable computational time. Thus, this study addresses the question of whether these approaches are efficient enough for training time. We compare several perturbations in sequence-to-sequence problems with respect to computational time. Experimental results show that the simple techniques such as word dropout (Gal and Ghahramani, 2016) and random replacement of input tokens achieve comparable (or better) scores to the recently proposed perturbations, even though these simple methods are faster. Our code is publicly available at https://github.com/t akase/rethink_pertur bations.
翻訳日:2021-04-06 14:53:26 公開日:2021-04-05
# dr-vectors: 決定残差ネットワークと話者認識における損失改善

Dr-Vectors: Decision Residual Networks and an Improved Loss for Speaker Recognition ( http://arxiv.org/abs/2104.01989v1 )

ライセンス: Link先を確認
Jason Pelecanos and Quan Wang and Ignacio Lopez Moreno(参考訳) 多くのニューラルネットワーク話者認識システムは、固定次元埋め込みベクトルを用いて各話者をモデル化する。 これらの埋め込みは一般に線形または2次スコアで比較され、最近まで発話固有の不確実性は扱っていない。 本研究では,不確実性を捕捉し,非対称性を付与/テストし,非線形情報を追加する手法を提案する。 これは、エンドツーエンドのトレーニングレジームの一部として、第2段階のニューラルネットワーク(決定ネットワークとして知られる)を組み込むことによって実現される。 特に,コサインスコアを活用し,必要な残差信号のモデル化にコンパクトな決定ネットワークを用いた決定残差ネットワークの概念を提案する。 さらに,同じ/異なる話者スコアの分離をより適切にターゲットとして,一般化されたエンドツーエンドのソフトマックス損失関数を改良する。 両手法で有意な性能向上を示した。

Many neural network speaker recognition systems model each speaker using a fixed-dimensional embedding vector. These embeddings are generally compared using either linear or 2nd-order scoring and, until recently, do not handle utterance-specific uncertainty. In this work we propose scoring these representations in a way that can capture uncertainty, enroll/test asymmetry and additional non-linear information. This is achieved by incorporating a 2nd-stage neural network (known as a decision network) as part of an end-to-end training regimen. In particular, we propose the concept of decision residual networks which involves the use of a compact decision network to leverage cosine scores and to model the residual signal that's needed. Additionally, we present a modification to the generalized end-to-end softmax loss function to better target the separation of same/different speaker scores. We observed significant performance gains for the two techniques.
翻訳日:2021-04-06 14:53:10 公開日:2021-04-05
# 非線形システムの高速設計空間探索:その1

Fast Design Space Exploration of Nonlinear Systems: Part I ( http://arxiv.org/abs/2104.01747v1 )

ライセンス: Link先を確認
Sanjai Narain, Emily Mak, Dana Chee, Brendan Englot, Kishore Pochiraju, Niraj K. Jha, Karthik Narayan(参考訳) システム設計ツールは、入力と出力の間の複雑な非線形関係を持つブラックボックスとしてのみ利用できる。 ブラックボックスは通常前方方向に動作し、入力として与えられた設計に対してシステム動作を表す出力を計算する。 ほとんどは逆実行できないので、出力の要求から入力を生成することができる。 したがって、要求を満たす設計を見つけることは、しばしば最適性を保証することなく試行錯誤のプロセスである。 個々の要求を満たす設計は互いに矛盾する可能性があるため、複数の要求を同時に満たす設計を見つけることは困難である。 難易度はブラックボックスの評価が高価であり、基礎となる数値アルゴリズムの非収束により出力が得られないという事実である。 本稿では,ブラックボックスの新しい最適化手法であるCNMA(Constrained Optimization with Neural Network, MILP solvers and Active Learning)を提案する。 ブラックボックスの評価では保守的である。 すべての設計は全ての要件を満たすことが保証されている。 出力を計算するためにブラックボックスの故障に耐性がある。 ニューラルネットワークのパワー、MILP、新たな障害からのフィードバックループを活用することで、設計問題の解決に関連するデザインスペースの一部のみをサンプリングしようとする。 この論文はまた、シーケンシャルバージョンよりもソリューションの効率と品質を向上させる並列cnmaも提示し、それを局所的なオプティマから遠ざけようとしている。 CNMAの性能は、8(2問題)、10、15、36、60の実数値次元、186の2値次元の非線形設計問題に対して評価される。 固定時間と関数評価の予算に対して,CNMAはベイズ最適化とNelder Meadとランダム検索の安定なオフザシェルフ実装の性能を1%~87%向上させることを示した。 なお、これらの実装は必ずしも解決策を返さない。

System design tools are often only available as blackboxes with complex nonlinear relationships between inputs and outputs. Blackboxes typically run in the forward direction: for a given design as input they compute an output representing system behavior. Most cannot be run in reverse to produce an input from requirements on output. Thus, finding a design satisfying a requirement is often a trial-and-error process without assurance of optimality. Finding designs concurrently satisfying multiple requirements is harder because designs satisfying individual requirements may conflict with each other. Compounding the hardness are the facts that blackbox evaluations can be expensive and sometimes fail to produce an output due to non-convergence of underlying numerical algorithms. This paper presents CNMA (Constrained optimization with Neural networks, MILP solvers and Active Learning), a new optimization method for blackboxes. It is conservative in the number of blackbox evaluations. Any designs it finds are guaranteed to satisfy all requirements. It is resilient to the failure of blackboxes to compute outputs. It tries to sample only the part of the design space relevant to solving the design problem, leveraging the power of neural networks, MILPs, and a new learning-from-failur e feedback loop. The paper also presents parallel CNMA that improves the efficiency and quality of solutions over the sequential version, and tries to steer it away from local optima. CNMA's performance is evaluated for seven nonlinear design problems of 8 (2 problems), 10, 15, 36 and 60 real-valued dimensions and one with 186 binary dimensions. It is shown that CNMA improves the performance of stable, off-the-shelf implementations of Bayesian Optimization and Nelder Mead and Random Search by 1%-87% for a given fixed time and function evaluation budget. Note, that these implementations did not always return solutions.
翻訳日:2021-04-06 14:52:26 公開日:2021-04-05
# 学生モビリティにおける伝票信用評価の自動化 - 自然言語処理に基づくアプローチ

Automating Transfer Credit Assessment in Student Mobility -- A Natural Language Processing-based Approach ( http://arxiv.org/abs/2104.01955v1 )

ライセンス: Link先を確認
Dhivya Chandrasekaran and Vijay Mago(参考訳) 学生のモビリティやアカデミックモビリティは、中等教育中に学生が機関間を移動することを伴うが、この過程における課題の1つは、生徒に提供すべき転校クレジットを評価することである。 一般的に、このプロセスには、コースの学習結果を比較するドメイン専門家が関与し、入学した学生に伝票を提供することを決める。 この手作業による実施は、労働集約的なだけでなく、不適切なバイアスや管理上の複雑さの影響も受けている。 提案論文は、自然言語処理(NLP)分野の進歩を利用してこのプロセスを効果的に自動化するモデルを特定することに焦点を当てている。 独特な構造、ドメイン特異性、学習結果(LO)の複雑さを考えると、テーラーメイドモデルの設計の必要性が生じる。 提案モデルは,知識に基づく意味的類似度尺度に基づくクラスタリングに基づく手法を用いて,LOの分類学的類似度を評価する。 los間の類似性はさらに集約され、コースの類似性を形成する。 品質ベンチマークデータセットの欠如により、7つのコース間類似性指標を含む新しいベンチマークデータセットが提案されている。 意思決定プロセスに固有の柔軟性の必要性を理解する モデルの集約部は、異なるシナリオに対応するように調整可能なパラメータを提供する。 本研究は,既存の資源とコース間の類似性を評価するための効率的なモデルを提供する一方で,継続する研究ギャップを強調することにより,音声の分野でのNLPの適用を理想的な方向に進めることを目指す。

Student mobility or academic mobility involves students moving between institutions during their post-secondary education, and one of the challenging tasks in this process is to assess the transfer credits to be offered to the incoming student. In general, this process involves domain experts comparing the learning outcomes of the courses, to decide on offering transfer credits to the incoming students. This manual implementation is not only labor-intensive but also influenced by undue bias and administrative complexity. The proposed research article focuses on identifying a model that exploits the advancements in the field of Natural Language Processing (NLP) to effectively automate this process. Given the unique structure, domain specificity, and complexity of learning outcomes (LOs), a need for designing a tailor-made model arises. The proposed model uses a clustering-inspired methodology based on knowledge-based semantic similarity measures to assess the taxonomic similarity of LOs and a transformer-based semantic similarity model to assess the semantic similarity of the LOs. The similarity between LOs is further aggregated to form course to course similarity. Due to the lack of quality benchmark datasets, a new benchmark dataset containing seven course-to-course similarity measures is proposed. Understanding the inherent need for flexibility in the decision-making process the aggregation part of the model offers tunable parameters to accommodate different scenarios. While providing an efficient model to assess the similarity between courses with existing resources, this research work steers future research attempts to apply NLP in the field of articulation in an ideal direction by highlighting the persisting research gaps.
翻訳日:2021-04-06 14:51:59 公開日:2021-04-05
# 誤り安定性に基づくアクティブラーニングの停止基準

Stopping Criterion for Active Learning Based on Error Stability ( http://arxiv.org/abs/2104.01836v1 )

ライセンス: Link先を確認
Hideaki Ishibashi and Hideitsu Hino(参考訳) アクティブラーニング(active learning)は、少数のサンプルを適応的にアノテートすることにより、予測性能を改善するための教師付き学習のフレームワークである。 効率的なアクティブラーニングを実現するために、次のデータムを決定する獲得機能と、学習を停止する時期を決定する停止基準とを考慮に入れる。 本研究では,新しいサンプルを追加する際の一般化誤差の変化がアノテーションコストに拘束され,任意のベイズアクティブラーニングに適用可能であることを保証する,エラー安定性に基づく停止基準を提案する。 提案手法は,様々な学習モデルと実際のデータセットの適切なタイミングでアクティブラーニングを停止する。

Active learning is a framework for supervised learning to improve the predictive performance by adaptively annotating a small number of samples. To realize efficient active learning, both an acquisition function that determines the next datum and a stopping criterion that determines when to stop learning should be considered. In this study, we propose a stopping criterion based on error stability, which guarantees that the change in generalization error upon adding a new sample is bounded by the annotation cost and can be applied to any Bayesian active learning. We demonstrate that the proposed criterion stops active learning at the appropriate timing for various learning models and real datasets.
翻訳日:2021-04-06 14:50:59 公開日:2021-04-05
# MixStyleによるドメインの一般化

Domain Generalization with MixStyle ( http://arxiv.org/abs/2104.02008v1 )

ライセンス: Link先を確認
Kaiyang Zhou and Yongxin Yang and Yu Qiao and Tao Xiang(参考訳) 畳み込みニューラルネットワーク(cnns)は、識別的特徴の学習において顕著な能力を示したが、しばしば見当たらない領域に一般化する。 ドメインの一般化(domain generalization)は、ソースドメインのセットから学習することでこの問題に対処しようとしている。 本稿では,ソース領域にまたがるトレーニングサンプルのインスタンスレベルの特徴統計を確率論的に混合する手法を提案する。 この手法はMixStyleと呼ばれ、視覚領域が画像スタイル(例えば、写真対−スケッチ画像)と密接に関連しているという観察によって動機づけられる。 このようなスタイル情報は、提案するスタイルミックスが行われるcnnの下位層によってキャプチャされます。 トレーニングインスタンスの混合スタイルにより、新しいドメインが暗黙的に合成され、ソースドメインのドメインの多様性が増大し、トレーニングされたモデルの一般化可能性が向上する。 MixStyleは、ミニバッチトレーニングに完全に適合し、実装が非常に簡単です。 mixstyleの有効性は,カテゴリー分類,インスタンス検索,強化学習など幅広いタスクで実証された。

Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instance-level feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs.~sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.
翻訳日:2021-04-06 14:49:49 公開日:2021-04-05
# パーソナライズされたオンライン適応学習による神経臨床イベントシーケンス予測

Neural Clinical Event Sequence Prediction through Personalized Online Adaptive Learning ( http://arxiv.org/abs/2104.01787v1 )

ライセンス: Link先を確認
Jeong Min Lee and Milos Hauskrecht(参考訳) 臨床イベントシーケンスは、時間内の患者のケアの記録を表す数千の臨床イベントで構成される。 このようなシーケンスの正確な予測モデルを開発することは、患者の状態の表現を定義し、患者のケアを改善する上で非常に重要である。 臨床症状の予測モデルを学ぶ上で重要な課題は、患者固有の変動性である。 基礎となる臨床合併症に基づいて、各患者の配列は異なる臨床イベントから構成される。 しかし、このようなシーケンスから学習した集団モデルでは、イベントシーケンスの患者固有のダイナミクスを正確に予測することはできない。 この問題に対処するために,オンラインモデル更新を通じて個々の患者に対する予測を調整するための適応型イベントシーケンス予測フレームワークを開発した。

Clinical event sequences consist of thousands of clinical events that represent records of patient care in time. Developing accurate prediction models for such sequences is of a great importance for defining representations of a patient state and for improving patient care. One important challenge of learning a good predictive model of clinical sequences is patient-specific variability. Based on underlying clinical complications, each patient's sequence may consist of different sets of clinical events. However, population-based models learned from such sequences may not accurately predict patient-specific dynamics of event sequences. To address the problem, we develop a new adaptive event sequence prediction framework that learns to adjust its prediction for individual patients through an online model update.
翻訳日:2021-04-06 14:48:54 公開日:2021-04-05
# 空線破壊管理のための人工ニューラルネットワークモデリング

Artificial Neural Network Modeling for Airline Disruption Management ( http://arxiv.org/abs/2104.02032v1 )

ライセンス: Link先を確認
Kolawole Ogunsina and Wendy A. Okolo(参考訳) 1970年代以降、ほとんどの航空会社は、フライトスケジュール実行中にディスラプションを管理するためのコンピュータサポートを組み込んでいる。 しかしながら、航空破壊管理(ADM)のための既存のプラットフォームでは、仕様を満たすシステムが設計される前に、明示的な最適化ルーチンを通じて特定の規則と要求の作成に依存するモノリシックなシステム設計手法を採用している。 したがって、admの現在のプラットフォームは、無人航空機システム(uas)、運用およびインフラの導入のような新しい機能の導入により、追加のシステムの複雑さに容易に対応できない。 この目的のために,航空のスケジューリングと運用回復に関する履歴データを用いて,予測伝達関数モデル(ptfm)を記述した人工ニューラルネットワーク(anns)を開発し,adm中の飛行スケジュール実行の異なる段階での分解能の回復効果を迅速に推定する。 さらに,並列アンサンブル法を用いてPTFMの評価と実行を行うモジュール方式を提案する。 我々のモジュラーアプローチは、フライトスケジュール実行の別々のフェーズに対して適切な時間ベースのパフォーマンス指標を正確に推定しながら、ADM中のフライトスケジュール実行における現在の業界標準が満たされていることを保証します。

Since the 1970s, most airlines have incorporated computerized support for managing disruptions during flight schedule execution. However, existing platforms for airline disruption management (ADM) employ monolithic system design methods that rely on the creation of specific rules and requirements through explicit optimization routines, before a system that meets the specifications is designed. Thus, current platforms for ADM are unable to readily accommodate additional system complexities resulting from the introduction of new capabilities, such as the introduction of unmanned aerial systems (UAS), operations and infrastructure, to the system. To this end, we use historical data on airline scheduling and operations recovery to develop a system of artificial neural networks (ANNs), which describe a predictive transfer function model (PTFM) for promptly estimating the recovery impact of disruption resolutions at separate phases of flight schedule execution during ADM. Furthermore, we provide a modular approach for assessing and executing the PTFM by employing a parallel ensemble method to develop generative routines that amalgamate the system of ANNs. Our modular approach ensures that current industry standards for tardiness in flight schedule execution during ADM are satisfied, while accurately estimating appropriate time-based performance metrics for the separate phases of flight schedule execution.
翻訳日:2021-04-06 14:48:46 公開日:2021-04-05
# ディープラーニングに基づく自律運転システム:攻撃と防御に関する調査

Deep Learning-Based Autonomous Driving Systems: A Survey of Attacks and Defenses ( http://arxiv.org/abs/2104.01789v1 )

ライセンス: Link先を確認
Yao Deng, Tiehua Zhang, Guannan Lou, Xi Zheng, Jiong Jin, Qing-Long Han(参考訳) 人工知能の急速な発展、特にディープラーニング技術は、ほぼあらゆる運転イベントに対して正確な制御決定を提供することで、高度な自律運転システム(ADS)を提供している。 しかし、ADSは依然として、物理的な攻撃、サイバー攻撃、学習ベースの敵攻撃に分類できる様々な攻撃による脅威の増加に悩まされている。 必然的に、深層学習に基づく自動運転の安全性と安全性は、すべての潜在的なリスクを軽減すべく、対策を解析し、総合的に研究すべきであるこれらの攻撃によって厳しく挑戦されている。 この調査は、ADSを危険にさらす可能性のあるさまざまな攻撃と、それに対応する最先端の防御メカニズムを徹底的に分析する。 この分析は、ADSワークフローの各ステップを詳細に概観し、さまざまなディープラーニングモデルに対する敵攻撃と、物理的およびサイバー両方のコンテキストにおける攻撃をカバーしている。 さらに、モデルロバストネストレーニング、モデルテストと検証、クラウド/エッジサーバに基づく異常検出など、ディープラーニングベースの自動運転安全性を改善するために、有望な研究方向が提案されている。

The rapid development of artificial intelligence, especially deep learning technology, has advanced autonomous driving systems (ADSs) by providing precise control decisions to counterpart almost any driving event, spanning from anti-fatigue safe driving to intelligent route planning. However, ADSs are still plagued by increasing threats from different attacks, which could be categorized into physical attacks, cyberattacks and learning-based adversarial attacks. Inevitably, the safety and security of deep learning-based autonomous driving are severely challenged by these attacks, from which the countermeasures should be analyzed and studied comprehensively to mitigate all potential risks. This survey provides a thorough analysis of different attacks that may jeopardize ADSs, as well as the corresponding state-of-the-art defense mechanisms. The analysis is unrolled by taking an in-depth overview of each step in the ADS workflow, covering adversarial attacks for various deep learning models and attacks in both physical and cyber context. Furthermore, some promising research directions are suggested in order to improve deep learning-based autonomous driving safety, including model robustness training, model testing and verification, and anomaly detection based on cloud/edge servers.
翻訳日:2021-04-06 14:47:24 公開日:2021-04-05
# デジタル双生児自動生成のための2次元および3次元デジタル植物情報の統合

Integrating 2D and 3D Digital Plant Information Towards Automatic Generation of Digital Twins ( http://arxiv.org/abs/2104.01854v1 )

ライセンス: Link先を確認
Seppo Sierla (1), Mohammad Azangoo (1), Alexander Fay (2), Valeriy Vyatkin (1 and 3), and Nikolaos Papakonstantinou (4) ((1) Department of Electrical Engineering and Automation, Aalto University, Espoo, Finland, (2) Department of Automation Engineering, Helmut Schmidt University, Hamburg, Germany, (3) Department of Computer Science, Electrical and Space Engineering, Lule{\aa} University of Technology, Lule{\aa}, Sweden, (4) VTT Technical Research Centre of Finland Ltd, Espoo, Finland)(参考訳) 産業4.0の標準化は、パイプとインスツルメンテーション図のツールベンダー中立表現と3Dパイプルーティングをサポートする。 しかし、完全なデジタル植物モデルはこれら2つの表現を組み合わせる必要がある。 3dパイプルーティング情報は、正確な第一原理過程シミュレーションモデルを構築するのに不可欠である。 配管図とインスツルメンテーション図は、制御ループの主要なソースである。 これらの情報ソースを統合型デジタルプラントモデルに自動的に統合するためには、配管やインスツルメンテーション図、三次元CADモデルからタンクやポンプなどの対応する要素を識別するアルゴリズムを開発する必要がある。 1つのアプローチは、これら2つの情報ソースを共通の抽象化レベルに上げ、それらをこの抽象化レベルに合わせることである。 グラフマッチングは、この目的のための潜在的なテクニックである。 本稿では,グラフマッチングの前提条件として,グラフの自動生成に焦点を当てる。 この目的のためのアルゴリズムを提案し、ケーススタディで検証する。 提案論文は,効率的なマッチングを実現するために生成したグラフを再処理するために必要なさらなる研究の議論から締めくくっている。

Ongoing standardization in Industry 4.0 supports tool vendor neutral representations of Piping and Instrumentation diagrams as well as 3D pipe routing. However, a complete digital plant model requires combining these two representations. 3D pipe routing information is essential for building any accurate first-principles process simulation model. Piping and instrumentation diagrams are the primary source for control loops. In order to automatically integrate these information sources to a unified digital plant model, it is necessary to develop algorithms for identifying corresponding elements such as tanks and pumps from piping and instrumentation diagrams and 3D CAD models. One approach is to raise these two information sources to a common level of abstraction and to match them at this level of abstraction. Graph matching is a potential technique for this purpose. This article focuses on automatic generation of the graphs as a prerequisite to graph matching. Algorithms for this purpose are proposed and validated with a case study. The paper concludes with a discussion of further research needed to reprocess the generated graphs in order to enable effective matching.
翻訳日:2021-04-06 14:46:18 公開日:2021-04-05
# 要約要約の過剰生成とスコアリングに対する新しいアプローチ

A New Approach to Overgenerating and Scoring Abstractive Summaries ( http://arxiv.org/abs/2104.01726v1 )

ライセンス: Link先を確認
Kaiqiang Song and Bingqing Wang and Zhe Feng and Fei Liu(参考訳) 提案手法は,多様なコンテンツと異なる長さを持つ対象要約の複数のバリエーションを生成し,ユーザのニーズに応じたスコア付けと選択を行う新しい手法を提案する。 単一の参照サマリーで訓練された抽象的な要約者は、複数の望ましい特性、すなわち最も重要な情報を取り込み、原文、文法、流動性に忠実な出力を生成するのに苦労する。 本稿では,第1段階のソーステキストから多種多様な候補要約を生成するための2段階の戦略を提案し,第2段階のアプティブル・サマリーをスコアリングし,選択する。 重要なことに、我々の発電機は要約の長さを正確に制御し、特に空間が制限されている場合に適している。 我々のセレクタは、最適な要約長を予測し、元のテキストに忠実さを特に強調するように設計されている。 両方の段階を効果的に訓練し、最適化し、評価することができる。 ベンチマーク要約データセットの実験により,このパラダイムが最先端の性能を達成できることが示唆された。

We propose a new approach to generate multiple variants of the target summary with diverse content and varying lengths, then score and select admissible ones according to users' needs. Abstractive summarizers trained on single reference summaries may struggle to produce outputs that achieve multiple desirable properties, i.e., capturing the most important information, being faithful to the original, grammatical and fluent. In this paper, we propose a two-staged strategy to generate a diverse set of candidate summaries from the source text in stage one, then score and select admissible ones in stage two. Importantly, our generator gives a precise control over the length of the summary, which is especially well-suited when space is limited. Our selectors are designed to predict the optimal summary length and put special emphasis on faithfulness to the original text. Both stages can be effectively trained, optimized and evaluated. Our experiments on benchmark summarization datasets suggest that this paradigm can achieve state-of-the-art performance.
翻訳日:2021-04-06 14:42:45 公開日:2021-04-05
# WhiteningBERT: 簡単に教師なしの文を埋め込む方法

WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach ( http://arxiv.org/abs/2104.01767v1 )

ライセンス: Link先を確認
Junjie Huang, Duyu Tang, Wanjun Zhong, Shuai Lu, Linjun Shou, Ming Gong, Daxin Jiang, Nan Duan(参考訳) 文を教師なしの方法で埋め込むことは、実際に自然言語のマッチングや検索の問題に有用である。 本研究では,事前学習モデルに基づく教師なし文埋め込みの徹底的な検討を行う。 4つの事前学習モデルについて検討し,文意味論に関する7つのデータセットについて大規模実験を行った。 主な発見がある。 まず、[CLS]ベクターを使うよりも、すべてのトークンを平均化する方がよい。 第二に、トップ層とボトム層を組み合わせることは、トップ層だけを使うよりも良い。 最後に、10行未満のコードで簡単にホワイトニングベースのベクトル正規化戦略によって、一貫してパフォーマンスが向上する。

Producing the embedding of a sentence in an unsupervised way is valuable to natural language matching and retrieval problems in practice. In this work, we conduct a thorough examination of pretrained model based unsupervised sentence embeddings. We study on four pretrained models and conduct massive experiments on seven datasets regarding sentence semantics. We have there main findings. First, averaging all tokens is better than only using [CLS] vector. Second, combining both top andbottom layers is better than only using top layers. Lastly, an easy whitening-based vector normalization strategy with less than 10 lines of code consistently boosts the performance.
翻訳日:2021-04-06 14:42:30 公開日:2021-04-05
# ツイートおよびニュース記事における偽ニュース検出のためのヒューリスティックな不確実性に基づくアンサンブルフレームワーク

A Heuristic-driven Uncertainty based Ensemble Framework for Fake News Detection in Tweets and News Articles ( http://arxiv.org/abs/2104.01791v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Ayan Basak, Saikat Dutta(参考訳) ソーシャルメディアの重要性は過去数十年で増し、世界で最も遠く離れた場所の人々がつながり続けるのを助けるようになった。 テクノロジーの出現により、デジタルメディアはこれまでになく重要で広く利用され、それとともに、直ちに注意を喚起する偽ニュースやツイートの流通が復活した。 本稿では,ConSTRAINT COVID-19 Fake News Detection in English Challengeにおいて,ニュース項目が「本物」か「フェイク」かを自動的に識別する新しいフェイクニュース検知システムについて述べる。 我々は,先行学習モデルと統計的特徴融合ネットワークからなるアンサンブルモデルと,ニュース項目やツイートに含まれるさまざまな属性(ソース,ユーザ名ハンドル,urlドメイン,著者)を統計的特徴として組み込んだ新しいヒューリスティックアルゴリズムを用いた。 提案手法は,分類タスクの適切なクラス出力信頼度レベルとともに,信頼性の高い予測不確実性を定量化した。 我々は,covid-19偽ニュースデータセットとfakenewsnetデータセットの結果を評価し,短いニュースコンテンツやニュース記事における偽ニュースの検出における提案アルゴリズムの有効性を示した。 我々は、covid-19データセットのf1-score 0.9892、fakenewsnetデータセットのf1-score 0.9073を得た。

The significance of social media has increased manifold in the past few decades as it helps people from even the most remote corners of the world to stay connected. With the advent of technology, digital media has become more relevant and widely used than ever before and along with this, there has been a resurgence in the circulation of fake news and tweets that demand immediate attention. In this paper, we describe a novel Fake News Detection system that automatically identifies whether a news item is "real" or "fake", as an extension of our work in the CONSTRAINT COVID-19 Fake News Detection in English challenge. We have used an ensemble model consisting of pre-trained models followed by a statistical feature fusion network , along with a novel heuristic algorithm by incorporating various attributes present in news items or tweets like source, username handles, URL domains and authors as statistical feature. Our proposed framework have also quantified reliable predictive uncertainty along with proper class output confidence level for the classification task. We have evaluated our results on the COVID-19 Fake News dataset and FakeNewsNet dataset to show the effectiveness of the proposed algorithm on detecting fake news in short news content as well as in news articles. We obtained a best F1-score of 0.9892 on the COVID-19 dataset, and an F1-score of 0.9073 on the FakeNewsNet dataset.
翻訳日:2021-04-06 14:42:24 公開日:2021-04-05
# eコマースプラットフォームにおけるオンラインレコメンデーション生成と可視化のための顧客の意見

Mining Customers' Opinions for Online Reputation Generation and Visualization in e-Commerce Platforms ( http://arxiv.org/abs/2104.01935v1 )

ライセンス: Link先を確認
Abdessamad Benlahbib(参考訳) 顧客レビューは、さまざまなオンラインショッピング体験に関する非常に貴重な情報を抽出できる、非常に豊富なデータソースです。 収集されたデータの量は、特にトレンディなアイテム(製品、映画、テレビ番組、ホテル、サービス...)で非常に多くなり、利用可能な顧客の意見の数は数千を超える可能性がある。 実際、かなりの数のレビューがアイテムの品質についてヒントを与える可能性があるが、潜在的な顧客は、インフォームドな意思決定(購入、レンタル、予約...)を行う目的ですべてのレビューを読む時間や労力がないかもしれない。 したがって、そのようなタスクを支援するための適切なツールや技術の必要性は、売り手のような買い手にとって必要となる。 この論文における私の研究目標は、自然言語で表現されたオンラインレビューをマイニングすることで、オンライン意思決定プロセスにおいて、Eコマースの顧客に価値ある情報を自動的に提供できる評価システムを開発することです。

Customer reviews represent a very rich data source from which we can extract very valuable information about different online shopping experiences. The amount of the collected data may be very large especially for trendy items (products, movies, TV shows, hotels, services...), where the number of available customers' opinions could easily surpass thousands. In fact, while a good number of reviews could indeed give a hint about the quality of an item, a potential customer may not have time or effort to read all reviews for the purpose of making an informed decision (buying, renting, booking...). Thus, the need for the right tools and technologies to help in such a task becomes a necessity for the buyer as for the seller. My research goal in this thesis is to develop reputation systems that can automatically provide E-commerce customers with valuable information to support them during their online decision-making process by mining online reviews expressed in natural language.
翻訳日:2021-04-06 14:42:00 公開日:2021-04-05
# バンクーバーか______:なぜ比較質問を完結させるのが難しいのか

What's the best place for an AI conference, Vancouver or ______: Why completing comparative questions is difficult ( http://arxiv.org/abs/2104.01940v1 )

ライセンス: Link先を確認
Avishai Zagoury and Einat Minkov and Idan Szpektor and William W. Cohen(参考訳) BERTのような大きなニューラルネットワークモデル(LM)は、多くのNLPタスクで最先端の結果を得るために微調整できるが、これらのモデルが実際に何を学ぶのかはよく分かっていない。 そこで,このようなlmsを用いて「どの国が古いか、インドか、______?」など、人間による比較質問の実体を満たしている。 --つまり、ニューラルネットワークが合理的な質問に答える(答えない)能力について研究する。 この補間作業の精度は、質問が妥当かどうかの人間の判断とよく相関し、これらのモデルが3つのサブドメインで比較質問を完了する際に、ほぼ人間レベルのパフォーマンスを達成するために訓練可能であることを示す。 代わりに、トレーニングされたモデルはドメイン固有であり、パフォーマンスはトレーニングセットで観察された特定のエンティティ間の共起と非常に相関している。 これは、一般的なテキストコーパスで事前訓練されたモデルと、大規模な比較問題コーパスで訓練されたモデルの両方に当てはまる。 そこで本研究では,特定のベンチマーク問題の性能に基づく,深層モデルの世界知識や言語能力の主張の難しさについて,近年の結果を裏付ける。 評価データセットを公開し、人間のインタラクションの標準におけるそのようなモデルにおける複雑な理解と推論の今後の研究を促進する。

Although large neural language models (LMs) like BERT can be finetuned to yield state-of-the-art results on many NLP tasks, it is often unclear what these models actually learn. Here we study using such LMs to fill in entities in human-authored comparative questions, like ``Which country is older, India or ______?'' -- i.e., we study the ability of neural LMs to ask (not answer) reasonable questions. We show that accuracy in this fill-in-the-blank task is well-correlated with human judgements of whether a question is reasonable, and that these models can be trained to achieve nearly human-level performance in completing comparative questions in three different subdomains. However, analysis shows that what they learn fails to model any sort of broad notion of which entities are semantically comparable or similar -- instead the trained models are very domain-specific, and performance is highly correlated with co-occurrences between specific entities observed in the training set. This is true both for models that are pretrained on general text corpora, as well as models trained on a large corpus of comparison questions. Our study thus reinforces recent results on the difficulty of making claims about a deep model's world knowledge or linguistic competence based on performance on specific benchmark problems. We make our evaluation datasets publicly available to foster future research on complex understanding and reasoning in such models at standards of human interaction.
翻訳日:2021-04-06 14:41:45 公開日:2021-04-05
# ベトナムにおけるインテント検出とスロット充填

Intent detection and slot filling for Vietnamese ( http://arxiv.org/abs/2104.02021v1 )

ライセンス: Link先を確認
Mai Hoang Dao, Thinh Hung Truong, Dat Quoc Nguyen(参考訳) インテント検出とスロットフィリングは、音声および自然言語理解において重要なタスクである。 しかし、ベトナム語はこれらの研究テーマにおいて低資源言語である。 本稿ではベトナムにおける最初の公的な意図検出とスロット充足データセットを提案する。 さらに,意図検出とスロットフィリングのためのジョイントモデルを提案する。このモデルでは,意図コンテキスト情報を"ソフト"インテントラベル埋め込みによるスロットフィリングに明示的に組み込むために,最新の最先端のジョイントバート+CRFモデルをインテントスロットアテンション層で拡張する。 ベトナムのデータセットによる実験結果から,提案手法はJointBERT+CRFよりも有意に優れていた。 私たちはデータセットとモデルの実装をhttps://github.com/V inAIResearch/JointID SFで公開しています。

Intent detection and slot filling are important tasks in spoken and natural language understanding. However, Vietnamese is a low-resource language in these research topics. In this paper, we present the first public intent detection and slot filling dataset for Vietnamese. In addition, we also propose a joint model for intent detection and slot filling, that extends the recent state-of-the-art JointBERT+CRF model with an intent-slot attention layer in order to explicitly incorporate intent context information into slot filling via "soft" intent label embedding. Experimental results on our Vietnamese dataset show that our proposed model significantly outperforms JointBERT+CRF. We publicly release our dataset and the implementation of our model at: https://github.com/V inAIResearch/JointID SF
翻訳日:2021-04-06 14:41:19 公開日:2021-04-05
# 深層学習におけるグローバル最適化に向けた分枝・分枝最適化

Branch-and-Pruning Optimization Towards Global Optimality in Deep Learning ( http://arxiv.org/abs/2104.01730v1 )

ライセンス: Link先を確認
Yuanwei Wu, Ziming Zhang and Guanghui Wang(参考訳) 近年,ディープラーニング(DL)のグローバルな最適性を理解するために,ますます注目を集めている。 しかし、従来のDLソルバは、そのような大域的最適性を求めるために意図的に開発されていない。 本稿では,ブランチとプルーニングを通した世界規模のディープモデル最適化に向けて,新しい近似アルゴリズムであるBPGradを提案する。 提案されたbpgradアルゴリズムはdlにおけるリプシッツ連続性の仮定に基づいており、その結果、理論的には小さなステップが大域的最適性を達成することができない、以前の更新の履歴から現在の勾配のステップサイズを適応的に決定することができる。 このような分岐・分岐手順を繰り返すことで、有限イテレーション内の大域的最適性を見出すことができることを証明できる。 adagrad, adadelta, rmsprop, adam などの従来の dl ソルバよりも,オブジェクト認識,検出,セグメンテーションのタスクにおいて,bpgrad for dl に基づく効率的な適応ソルバが提案されている。 コードは \url{https://github.com/r yancv/bpgrad} で入手できる。

It has been attracting more and more attention to understand the global optimality in deep learning (DL) recently. However, conventional DL solvers, have not been developed intentionally to seek for such global optimality. In this paper, we propose a novel approximation algorithm, {\em BPGrad}, towards optimizing deep models globally via branch and pruning. The proposed BPGrad algorithm is based on the assumption of Lipschitz continuity in DL, and as a result, it can adaptively determine the step size for the current gradient given the history of previous updates, wherein theoretically no smaller steps can achieve the global optimality. We prove that, by repeating such a branch-and-pruning procedure, we can locate the global optimality within finite iterations. Empirically an efficient adaptive solver based on BPGrad for DL is proposed as well, and it outperforms conventional DL solvers such as Adagrad, Adadelta, RMSProp, and Adam in the tasks of object recognition, detection, and segmentation. The code is available at \url{https://github.com/R yanCV/BPGrad}.
翻訳日:2021-04-06 14:34:44 公開日:2021-04-05
# 知覚的不識別性ネットワーク(PI-Net):マニピュラブルセマンティックスによる顔画像の難読化

Perceptual Indistinguishability -Net (PI-Net): Facial Image Obfuscation with Manipulable Semantics ( http://arxiv.org/abs/2104.01753v1 )

ライセンス: Link先を確認
Jia-Wei Chen, Li-Ju Chen, Chia-Mu Yu, Chun-Shien Lu(参考訳) カメラデバイスの普及に伴い、業界には多くの画像データセットがあり、機械学習コミュニティと業界との間のコラボレーションの機会を提供する。 しかし、データセットのセンシティブな情報は、データ所有者がこれらのデータセットをリリースすることを妨げます。 画像から機密情報を取り除こうとする最近の研究にもかかわらず、それらは有意義なプライバシー利用のトレードオフや証明可能なプライバシー保証を提供していない。 本研究では,知覚的類似性を考慮して,画像の形式的プライバシー概念として知覚的識別可能性(pi)を提案する。 また,PI保証による画像難読化を実現するプライバシー保護機構であるPI-Netを提案する。 本研究は,PI-Netが公開画像データによるプライバシー保護のトレードオフを著しく改善することを示す。

With the growing use of camera devices, the industry has many image datasets that provide more opportunities for collaboration between the machine learning community and industry. However, the sensitive information in the datasets discourages data owners from releasing these datasets. Despite recent research devoted to removing sensitive information from images, they provide neither meaningful privacy-utility trade-off nor provable privacy guarantees. In this study, with the consideration of the perceptual similarity, we propose perceptual indistinguishability (PI) as a formal privacy notion particularly for images. We also propose PI-Net, a privacy-preserving mechanism that achieves image obfuscation with PI guarantee. Our study shows that PI-Net achieves significantly better privacy utility trade-off through public image data.
翻訳日:2021-04-06 14:34:26 公開日:2021-04-05
# 潜在的な畳み込み: ポテンシャルフィールドへの点雲の埋め込み

Potential Convolution: Embedding Point Clouds into Potential Fields ( http://arxiv.org/abs/2104.01754v1 )

ライセンス: Link先を確認
Dengsheng Chen and Haowen Deng and Jun Li and Duo Li and Yao Duan and Kai Xu(参考訳) 近年、ポイントクラウド処理のための連続的あるいは離散的カーネルに基づく様々な畳み込みが広く研究され、形状分類、シーン分割など多くのアプリケーションで印象的な性能を達成している。 しかし、まだいくつかの欠点がある。 連続的なカーネルでは、カーネル重みの不正確な推定はパフォーマンスをさらに向上させるボトルネックとなるが、離散的なカーネルでは、3次元空間の点として表されるカーネルは、リッチな幾何学情報がない。 この研究では、連続的あるいは離散的カーネルを定義するのではなく、畳み込み的カーネルを学習可能なポテンシャルフィールドに直接埋め込み、潜在的な畳み込みを生じさせる。 幅広いタスクにうまく一般化できる潜在的な畳み込みのための様々なポテンシャル関数を定義するのは便利である。 具体的には、点畳み込み演算による2つの単純かつ効果的なポテンシャル関数を提供する。 総合実験により,一般的な3次元形状分類とシーンセグメンテーションベンチマークにおいて,他の最先端の点畳み込み法と比較して優れた性能が得られることを示す。

Recently, various convolutions based on continuous or discrete kernels for point cloud processing have been widely studied, and achieve impressive performance in many applications, such as shape classification, scene segmentation and so on. However, they still suffer from some drawbacks. For continuous kernels, the inaccurate estimation of the kernel weights constitutes a bottleneck for further improving the performance; while for discrete ones, the kernels represented as the points located in the 3D space are lack of rich geometry information. In this work, rather than defining a continuous or discrete kernel, we directly embed convolutional kernels into the learnable potential fields, giving rise to potential convolution. It is convenient for us to define various potential functions for potential convolution which can generalize well to a wide range of tasks. Specifically, we provide two simple yet effective potential functions via point-wise convolution operations. Comprehensive experiments demonstrate the effectiveness of our method, which achieves superior performance on the popular 3D shape classification and scene segmentation benchmarks compared with other state-of-the-art point convolution methods.
翻訳日:2021-04-06 14:34:14 公開日:2021-04-05
# gsecnet:エッジコンピューティングのためのポイントクラウドの地上セグメンテーション

GSECnet: Ground Segmentation of Point Clouds for Edge Computing ( http://arxiv.org/abs/2104.01766v1 )

ライセンス: Link先を確認
Dong He, Jie Cheng, Jong-Hwan Kim(参考訳) 点雲のグラウンドセグメンテーションは、希薄で秩序のないデータ構造のため、依然として困難である。 本稿では,低消費電力エッジコンピューティングユニットにデプロイ可能なポイントクラウドの効率的なグラウンドセグメンテーションフレームワークであるGSECnet - Ground Segmentation Networkを提案する。 まず、原点雲をピラリゼーションにより離散化表現に変換する。 その後、柱内の点の特徴をPointNetに入力して対応する柱の特徴マップを取得する。 そして、注目モジュールを持つ奥行き分離可能なU-Netは、モデルパラメータが著しく小さくなった柱特徴写像から分類を学習する。 提案手法は,セマンティックKITTIを用いて,ポイントベースおよび離散化に基づく最先端の学習手法に対して評価し,高い精度と低演算複雑性のバランスをとる。 注目すべきは、デスクトッププラットフォーム上での135.2Hzの推論ランタイムを実現することだ。 さらに実験では、10ワットのみで動作する低消費電力エッジコンピューティングユニットにデプロイ可能であることを検証している。

Ground segmentation of point clouds remains challenging because of the sparse and unordered data structure. This paper proposes the GSECnet - Ground Segmentation network for Edge Computing, an efficient ground segmentation framework of point clouds specifically designed to be deployable on a low-power edge computing unit. First, raw point clouds are converted into a discretization representation by pillarization. Afterward, features of points within pillars are fed into PointNet to get the corresponding pillars feature map. Then, a depthwise-separable U-Net with the attention module learns the classification from the pillars feature map with an enormously diminished model parameter size. Our proposed framework is evaluated on SemanticKITTI against both point-based and discretization-based state-of-the-art learning approaches, and achieves an excellent balance between high accuracy and low computing complexity. Remarkably, our framework achieves the inference runtime of 135.2 Hz on a desktop platform. Moreover, experiments verify that it is deployable on a low-power edge computing unit powered 10 watts only.
翻訳日:2021-04-06 14:33:58 公開日:2021-04-05
# BTS-Net: RGB-D Salient Object Detectionのための双方向転送・選択ネットワーク

BTS-Net: Bi-directional Transfer-and-Selecti on Network For RGB-D Salient Object Detection ( http://arxiv.org/abs/2104.01784v1 )

ライセンス: Link先を確認
Wenbo Zhang, Yao Jiang, Keren Fu, Qijun Zhao(参考訳) 深度情報は rgb-d salient object detection (sod) において有用であることが証明されている。 しかし、得られた深度地図はしばしば低品質と不正確さに苦しむ。 既存のRGB-D SODモデルの多くは、クロスモーダルな相互作用を持たないか、エンコーダの段階では、深度からRGBまでの一方向の相互作用しか持たない。 この制限に対処するため、エンコーダの段階では早い段階で進行的双方向通信を行い、BTS-Netと呼ばれる新しい双方向転送・選択ネットワークを生成し、符号化時の特徴を浄化するために双方向転送・選択(BTS)モジュールのセットを採用することを提案する。 結果として得られたロバストなエンコーダ機能に基づいて,最終的なサリエンシー予測を実現するために,効果的な軽量グループデコーダを設計する。 6つの広く使われているデータセットに関する包括的な実験は、bts-netが4つの主要なメトリクスの観点から最新の16のアプローチを上回っていることを示している。

Depth information has been proved beneficial in RGB-D salient object detection (SOD). However, depth maps obtained often suffer from low quality and inaccuracy. Most existing RGB-D SOD models have no cross-modal interactions or only have unidirectional interactions from depth to RGB in their encoder stages, which may lead to inaccurate encoder features when facing low quality depth. To address this limitation, we propose to conduct progressive bi-directional interactions as early in the encoder stage, yielding a novel bi-directional transfer-and-selecti on network named BTS-Net, which adopts a set of bi-directional transfer-and-selecti on (BTS) modules to purify features during encoding. Based on the resulting robust encoder features, we also design an effective light-weight group decoder to achieve accurate final saliency prediction. Comprehensive experiments on six widely used datasets demonstrate that BTS-Net surpasses 16 latest state-of-the-art approaches in terms of four key metrics.
翻訳日:2021-04-06 14:33:35 公開日:2021-04-05
# 意味セグメンテーションのための階層的ピラミッド表現

Hierarchical Pyramid Representations for Semantic Segmentation ( http://arxiv.org/abs/2104.01792v1 )

ライセンス: Link先を確認
Hiroaki Aizawa, Yukihiro Domae, Kunihito Kato(参考訳) 複雑で散らばったシーンのコンテキストを理解することは、セマンティックセグメンテーションにとって難しい問題である。 しかし、これらの場面では、大きさ、形状、外観などの場面の要素がかなり異なるため、事前・追加の監督なしに文脈をモデル化することは困難である。 そこで本研究では,これらの固有性に基づいて,オブジェクトの構造とオブジェクト間の階層構造を学習することを提案する。 本研究では,新しい階層的,文脈的,マルチスケールのピラミッド表現を設計し,入力画像から特徴を捉える。 我々のキーとなる考え方は、予め定義された領域数とこれらの領域におけるコンテキストの集約に基づいて、異なる階層領域における再帰的セグメンテーションである。 集約されたコンテキストは、各領域間のコンテキスト関係を予測し、以下の階層レベルで分割するために使用される。 最後に、再帰的に集約されたコンテキストからピラミッド表現を構築することにより、マルチスケールおよび階層的特性が得られる。 実験では,提案手法がPASCALコンテキストにおける最先端性能を実現することを確認した。

Understanding the context of complex and cluttered scenes is a challenging problem for semantic segmentation. However, it is difficult to model the context without prior and additional supervision because the scene's factors, such as the scale, shape, and appearance of objects, vary considerably in these scenes. To solve this, we propose to learn the structures of objects and the hierarchy among objects because context is based on these intrinsic properties. In this study, we design novel hierarchical, contextual, and multiscale pyramidal representations to capture the properties from an input image. Our key idea is the recursive segmentation in different hierarchical regions based on a predefined number of regions and the aggregation of the context in these regions. The aggregated contexts are used to predict the contextual relationship between the regions and partition the regions in the following hierarchical level. Finally, by constructing the pyramid representations from the recursively aggregated context, multiscale and hierarchical properties are attained. In the experiments, we confirmed that our proposed method achieves state-of-the-art performance in PASCAL Context.
翻訳日:2021-04-06 14:33:16 公開日:2021-04-05
# トップダウンネットワークとボトムアップネットワークの統合による単眼3次元マルチパーソンポーズ推定

Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks ( http://arxiv.org/abs/2104.01797v1 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan(参考訳) モノクロビデオ3Dマルチパーソンのポーズ推定では、人物間の閉塞と密接な相互作用により、人間の検出は誤認され、人間の結合は信頼できない。 既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。 既存のボトムアップ手法では人間の検出は行われていないが、すべての人を同じ規模で同時に処理し、複数の人のスケールに敏感になる。 これらの課題に対処するため,我々は,トップダウンとボトムアップの統合による強みの活用を提案する。 私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。 我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。 最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。 トップダウンとボトムアップのネットワークの統合に加えて、単独でデザインされ、結果として自然な対人インタラクションを評価できない既存のポーズ判別器とは異なり、自然な対人インタラクションを強制する2人のポーズ判別器を提案する。 最後に, 半教師あり法を適用し, 3次元地中データ不足を克服した。 定量的・質的評価は,最先端のベースラインと比較し,本手法の有効性を示す。

In monocular video 3D multi-person pose estimation, inter-person occlusion and close interactions can cause human detection to be erroneous and human-joints grouping to be unreliable. Existing top-down methods rely on human detection and thus suffer from these problems. Existing bottom-up methods do not use human detection, but they process all persons at once at the same scale, causing them to be sensitive to multiple-persons scale variations. To address these challenges, we propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. Besides the integration of top-down and bottom-up networks, unlike existing pose discriminators that are designed solely for single person, and consequently cannot assess natural inter-person interactions, we propose a two-person pose discriminator that enforces natural two-person interactions. Lastly, we also apply a semi-supervised method to overcome the 3D ground-truth data scarcity. Our quantitative and qualitative evaluations show the effectiveness of our method compared to the state-of-the-art baselines.
翻訳日:2021-04-06 14:32:57 公開日:2021-04-05
# 口紅が足りなくなっちゃう? メイクアップのカラーマッチング

Lipstick ain't enough: Beyond Color Matching for In-the-Wild Makeup Transfer ( http://arxiv.org/abs/2104.01867v1 )

ライセンス: Link先を確認
Thao Nguyen, Anh Tran, Minh Hoai(参考訳) メークアップ転送とは、参照画像からソース面にメークアップスタイルを適用する作業である。 実生活の化粧は多様で野生で、色を変えるだけでなく、ステッカー、ブラッシュ、宝石などのパターンも覆っている。 しかし、現存する作品は後者の部品を見落とし、化粧を色調に限定し、軽い化粧様式にのみ焦点をあてた。 本研究では,すべてのメークアップコンポーネントを扱える包括的メイクアップ転送フレームワークを提案する。 改良されたカラー転送ブランチと新しいパターン転送ブランチからなり、色、形状、テクスチャ、位置などすべてのメイクアップ特性を学習する。 このようなシステムを訓練し、評価するために、実物と合成の極端な化粧のための新しい化粧データセットも導入する。 実験により, 本フレームワークは, 光および極端メイクスタイルの両方において, アートパフォーマンスの状態を達成していることがわかった。 コードはhttps://github.com/V inAIResearch/CPMで入手できる。

Makeup transfer is the task of applying on a source face the makeup style from a reference image. Real-life makeups are diverse and wild, which cover not only color-changing but also patterns, such as stickers, blushes, and jewelries. However, existing works overlooked the latter components and confined makeup transfer to color manipulation, focusing only on light makeup styles. In this work, we propose a holistic makeup transfer framework that can handle all the mentioned makeup components. It consists of an improved color transfer branch and a novel pattern transfer branch to learn all makeup properties, including color, shape, texture, and location. To train and evaluate such a system, we also introduce new makeup datasets for real and synthetic extreme makeup. Experimental results show that our framework achieves the state of the art performance on both light and extreme makeup styles. Code is available at https://github.com/V inAIResearch/CPM.
翻訳日:2021-04-06 14:32:34 公開日:2021-04-05
# 少数ショットセグメンテーションのための適応型プロトタイプ学習と割り当て

Adaptive Prototype Learning and Allocation for Few-Shot Segmentation ( http://arxiv.org/abs/2104.01893v1 )

ライセンス: Link先を確認
Gen Li, Varun Jampani, Laura Sevilla-Lara, Deqing Sun, Jonghyun Kim, Joongkyu Kim(参考訳) プロトタイプ学習は、数発のセグメンテーションに広く使われている。 通常、単一のプロトタイプは、グローバルオブジェクト情報の平均化によってサポート機能から得られる。 しかし、全ての情報を1つのプロトタイプで表現することは曖昧さにつながる可能性がある。 本稿では,マルチプロトタイプ抽出とアロケーションのための2つの新しいモジュール,Superpixel-Guided Clustering (SGC) と Guided prototype allocation (GPA) を提案する。 具体的には、SGCはパラメータフリーでトレーニング不要なアプローチであり、類似した特徴ベクトルを集約することで、より代表的なプロトタイプを抽出する。 本稿では,SGCとGPAを統合することで,オブジェクトのスケールや形状の変化に対応する軽量モデルであるAdaptive Superpixel-Guided Network (ASGNet)を提案する。 さらに,ネットワークは,大幅な改善と計算コストの増大を伴わず,kショットセグメンテーションに容易に一般化できる。 特にCOCOに対する評価では,ASGNetは5ショットセグメンテーションにおいて,最先端の手法を5%超えた。

Prototype learning is extensively used for few-shot segmentation. Typically, a single prototype is obtained from the support feature by averaging the global object information. However, using one prototype to represent all the information may lead to ambiguities. In this paper, we propose two novel modules, named superpixel-guided clustering (SGC) and guided prototype allocation (GPA), for multiple prototype extraction and allocation. Specifically, SGC is a parameter-free and training-free approach, which extracts more representative prototypes by aggregating similar feature vectors, while GPA is able to select matched prototypes to provide more accurate guidance. By integrating the SGC and GPA together, we propose the Adaptive Superpixel-guided Network (ASGNet), which is a lightweight model and adapts to object scale and shape variation. In addition, our network can easily generalize to k-shot segmentation with substantial improvement and no additional computational cost. In particular, our evaluations on COCO demonstrate that ASGNet surpasses the state-of-the-art method by 5% in 5-shot segmentation.
翻訳日:2021-04-06 14:32:18 公開日:2021-04-05
# 弱監視セグメンテーションのためのロバスト信頼領域

Robust Trust Region for Weakly Supervised Segmentation ( http://arxiv.org/abs/2104.01948v1 )

ライセンス: Link先を確認
Dmitrii Marin and Yuri Boykov(参考訳) 各ピクセルにラベルを付ける必要がある場合、標準的なセマンティックセグメンテーションのためのトレーニングデータの取得はコストがかかる。 しかし、現在の手法は、例えば、弱い教師付き設定で著しく劣化する。 ピクセルのごく一部がラベル付けされている場合や、画像レベルのタグしか利用できない場合です。 正規化損失(元々は教師なし低レベルセグメンテーションのために開発され、ピクセルラベル上の幾何学的事前表現)は、弱い教師付きトレーニングの品質を大幅に改善できることが示されている。 しかし、多くの一般的な事前処理は勾配降下よりも強い最適化を必要とする。 したがって、そのような正規化器は深層学習に適用性に制限がある。 そこで本研究では,定常的損失に対する新たなロバスト信頼領域アプローチを提案する。 我々のアプローチは古典的連鎖則の高次一般化と見なすことができる。 ニューラルネットワークの最適化では、個々のものを含む対応する正規化器に対して強力な低レベルソルバを使用することができる。

Acquisition of training data for the standard semantic segmentation is expensive if requiring that each pixel is labeled. Yet, current methods significantly deteriorate in weakly supervised settings, e.g. where a fraction of pixels is labeled or when only image-level tags are available. It has been shown that regularized losses - originally developed for unsupervised low-level segmentation and representing geometric priors on pixel labels - can considerably improve the quality of weakly supervised training. However, many common priors require optimization stronger than gradient descent. Thus, such regularizers have limited applicability in deep learning. We propose a new robust trust region approach for regularized losses improving the state-of-the-art results. Our approach can be seen as a higher-order generalization of the classic chain rule. It allows neural network optimization to use strong low-level solvers for the corresponding regularizers, including discrete ones.
翻訳日:2021-04-06 14:32:02 公開日:2021-04-05
# d-TGA先天性心疾患の病理組織学的検討

Multi-Atlas Based Pathological Stratification of d-TGA Congenital Heart Disease ( http://arxiv.org/abs/2104.01960v1 )

ライセンス: Link先を確認
Maria A. Zuluaga and Alex F. Mendelson and M. Jorge Cardoso and Andrew M. Taylor and S\'ebastien Ourselin(参考訳) マルチアトラスセグメンテーション伝播アプローチにおけるエラーの主な原因の1つは、対象画像と形態的に異なるatlasデータベースを使用することである。 本研究では,アトラス選択の不良に関連するセグメンテーションエラーを利用して,大動脈の術後デキストロトランスポジション(d-tga)における病的分類のためのcadシステムを構築した。 提案手法は,セグメンテーションの品質を記述した一連の特徴を抽出し,最終的な診断を提供する論理的決定木に導入する。 健常例と術後d-TGAの2種類を含む60枚の心MR画像を用いて,本法の有効性を検証した。 CADシステム全体の精度は93.33%であった。

One of the main sources of error in multi-atlas segmentation propagation approaches comes from the use of atlas databases that are morphologically dissimilar to the target image. In this work, we exploit the segmentation errors associated with poor atlas selection to build a computer aided diagnosis (CAD) system for pathological classification in post-operative dextro-transposition of the great arteries (d-TGA). The proposed approach extracts a set of features, which describe the quality of a segmentation, and introduces them into a logical decision tree that provides the final diagnosis. We have validated our method on a set of 60 whole heart MR images containing healthy cases and two different forms of post-operative d-TGA. The reported overall CAD system accuracy was of 93.33%.
翻訳日:2021-04-06 14:31:51 公開日:2021-04-05
# HLA-Face:低照度顔検出のための高調波同時適応

HLA-Face: Joint High-Low Adaptation for Low Light Face Detection ( http://arxiv.org/abs/2104.01984v1 )

ライセンス: Link先を確認
Wenjing Wang, Wenhan Yang, Jiaying Liu(参考訳) 低照度シナリオでの顔検出は困難だが、監視ビデオや夜間の自律運転など、多くの実用化には不可欠である。 既存の顔検出装置の多くはアノテーションに大きく依存しているが、データ収集には時間と手間がかかる。 低光環境下での新たなデータセット構築の負担を軽減するため、既存の通常の光データを完全に活用し、通常の光から低光への顔検出装置の適応方法を探る。 この課題は、通常の光と低光のギャップが大きすぎて、ピクセルレベルとオブジェクトレベルの両方で複雑すぎることである。 したがって、既存のほとんどの低光度強調・適応法は望ましい性能を得られない。 この問題に対処するため,我々はHLA(High-Low Adaptation)フレームワークを共同で提案する。 HLA-Faceは、双方向の低レベル適応とマルチタスク高レベル適応方式により、トレーニングにダークフェイスラベルを使わずとも最先端の手法より優れる。 私たちのプロジェクトはhttps://daooshee.git hub.io/HLA-Face-Webs ite/で公開されています。

Face detection in low light scenarios is challenging but vital to many practical applications, e.g., surveillance video, autonomous driving at night. Most existing face detectors heavily rely on extensive annotations, while collecting data is time-consuming and laborious. To reduce the burden of building new datasets for low light conditions, we make full use of existing normal light data and explore how to adapt face detectors from normal light to low light. The challenge of this task is that the gap between normal and low light is too huge and complex for both pixel-level and object-level. Therefore, most existing low-light enhancement and adaptation methods do not achieve desirable performance. To address the issue, we propose a joint High-Low Adaptation (HLA) framework. Through a bidirectional low-level adaptation and multi-task high-level adaptation scheme, our HLA-Face outperforms state-of-the-art methods even without using dark face labels for training. Our project is publicly available at https://daooshee.git hub.io/HLA-Face-Webs ite/
翻訳日:2021-04-06 14:31:41 公開日:2021-04-05
# 事前学習型言語モデルによる注釈付きカラム

Annotating Columns with Pre-trained Language Models ( http://arxiv.org/abs/2104.01785v1 )

ライセンス: Link先を確認
Yoshihiko Suhara, Jinfeng Li, Yuliang Li, Dan Zhang, \c{C}a\u{g}atay Demiralp, Chen Chen, Wang-Chiew Tan(参考訳) 列ヘッダや列間の関係など、テーブルに関するメタ情報を推測することは、データ管理における活発な研究テーマであり、この情報のいくつかがテーブルに欠けていることが分かっています。 本稿では,テーブル自体の情報のみを用いて,テーブル列のアノテート(列の種類と列間の関係の予測)の問題について検討する。 両タスクの事前学習言語モデルを用いて学習したマルチタスク学習手法(Doduoと呼ぶ)が,個々の学習手法より優れていることを示す。 実験の結果,カラム型予測とカラム関係予測の2つのベンチマークにおいて,最大4.0%,11.9%の改善が得られた。 また、Doduoが過去の最先端のパフォーマンスを、最小限のトークンで実行可能であることも確認しています。

Inferring meta information about tables, such as column headers or relationships between columns, is an active research topic in data management as we find many tables are missing some of this information. In this paper, we study the problem of annotating table columns (i.e., predicting column types and the relationships between columns) using only information from the table itself. We show that a multi-task learning approach (called Doduo), trained using pre-trained language models on both tasks outperforms individual learning approaches. Experimental results show that Doduo establishes new state-of-the-art performance on two benchmarks for the column type prediction and column relation prediction tasks with up to 4.0% and 11.9% improvements, respectively. We also establish that Doduo can already perform the previous state-of-the-art performance with a minimal number of tokens, only 8 tokens per column.
翻訳日:2021-04-06 14:29:56 公開日:2021-04-05
# SPGISpeech: 完全なエンドツーエンド音声認識のための5000時間分の財務音声

SPGISpeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition ( http://arxiv.org/abs/2104.02014v1 )

ライセンス: Link先を確認
Patrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, and Georg Kucsko(参考訳) 英語音声テキスト(STT)機械学習タスクでは、音響モデルは従来、未解決のラテン文字で訓練されており、必要な正書法(大文字化、句読点、非標準単語の非正規化など)は別個の後処理モデルによって説明される。 多くのフォーマッティングタスクは音響信号に存在する意味情報から恩恵を受けるが、書き起こしには欠如している。 本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。 そこで本研究では,5,000時間におよぶコーパスで学習したベースライン・コンフォーメータに基づくモデルを提案する。 STT研究コミュニティへのコントリビューションとして、非商用利用用に無償でコーパスをリリースする(\url{https://datasets.ken sho.com/datasets/scr ibe})。

In the English speech-to-text (STT) machine learning task, acoustic models are conventionally trained on uncased Latin characters, and any necessary orthography (such as capitalization, punctuation, and denormalization of non-standard words) is imputed by separate post-processing models. This adds complexity and limits performance, as many formatting tasks benefit from semantic information present in the acoustic signal but absent in transcription. Here we propose a new STT task: end-to-end neural transcription with fully formatted text for target labels. We present baseline Conformer-based models trained on a corpus of 5,000 hours of professionally transcribed earnings calls, achieving a CER of 1.7. As a contribution to the STT research community, we release the corpus free for non-commercial use (\url{https://datasets.ken sho.com/datasets/scr ibe}).
翻訳日:2021-04-06 14:29:41 公開日:2021-04-05
# コンセプトドリフトによる飛行遅延予測の解析

Analyzing Flight Delay Prediction Under Concept Drift ( http://arxiv.org/abs/2104.01720v1 )

ライセンス: Link先を確認
Lucas Giusti, Leonardo Carvalho, Antonio Tadeu Gomes, Rafaelli Coutinho, Jorge Soares, Eduardo Ogasawara(参考訳) 飛行遅延は、飛行輸送システムに影響を与える課題を課す。 問題がいつ起こるかを予測することは、この問題を軽減する重要な方法です。 しかし、飛行遅延システムの挙動は時間によって異なる。 この現象は予測分析で概念ドリフトとして知られている。 本稿では,異なる規模(単一空港やフライトシステム全体に関連する飛行から訓練されたモデル)の航空におけるドリフトハンドリング戦略の予測性能について検討する。 具体的には,2つの研究課題が提案され,回答された。 (i)ドリフトハンドリング戦略が遅延予測性能にどのような影響を及ぼすか? (二)ドリフトハンドリング戦略の結果は異なるスケールで変わりますか。 我々の分析ではドリフトハンドリング戦略が重要であり、その影響はスケールや機械学習モデルによって異なる。

Flight delays impose challenges that impact any flight transportation system. Predicting when they are going to occur is an important way to mitigate this issue. However, the behavior of the flight delay system varies through time. This phenomenon is known in predictive analytics as concept drift. This paper investigates the prediction performance of different drift handling strategies in aviation under different scales (models trained from flights related to a single airport or the entire flight system). Specifically, two research questions were proposed and answered: (i) How do drift handling strategies influence the prediction performance of delays? (ii) Do different scales change the results of drift handling strategies? In our analysis, drift handling strategies are relevant, and their impacts vary according to scale and machine learning models used.
翻訳日:2021-04-06 14:28:44 公開日:2021-04-05
# Tinhoferアルゴリズムによるグラフニューラルネットワークの表現力向上

Improving the Expressive Power of Graph Neural Network with Tinhofer Algorithm ( http://arxiv.org/abs/2104.01848v1 )

ライセンス: Link先を確認
Alan J.X. Guo, Qing-Hu Hou, Ou Wu(参考訳) 近年、グラフニューラルネットワーク(GNN)は、グラフベースのデータ処理のパワーのために急速に進歩している。 ほとんどのGNNはメッセージパッシング方式に従い、その表現力はWeisfeiler-Lehman (WL)テストの識別能力によって数学的に制限される。 Tinhoferのコンパクトグラフの研究に続いて、WLテストの制限を理論的に破るWeisfeiler-Lehman-Ti nhofer GNN(WLT-GNN)と呼ばれるメッセージパッシングスキームのバリエーションを提案する。 さらに、いくつかのよく知られたデータセットについて比較実験およびアブレーション研究を行う。 その結果,提案手法はこれらのデータセットに対して同等の性能と表現力を有することがわかった。

In recent years, Graph Neural Network (GNN) has bloomly progressed for its power in processing graph-based data. Most GNNs follow a message passing scheme, and their expressive power is mathematically limited by the discriminative ability of the Weisfeiler-Lehman (WL) test. Following Tinhofer's research on compact graphs, we propose a variation of the message passing scheme, called the Weisfeiler-Lehman-Ti nhofer GNN (WLT-GNN), that theoretically breaks through the limitation of the WL test. In addition, we conduct comparative experiments and ablation studies on several well-known datasets. The results show that the proposed methods have comparable performances and better expressive power on these datasets.
翻訳日:2021-04-06 14:28:36 公開日:2021-04-05
# DexDeepFM: 多様性の強化された極深部因子化マシンモデル

DexDeepFM: Ensemble Diversity Enhanced Extreme Deep Factorization Machine Model ( http://arxiv.org/abs/2104.01924v1 )

ライセンス: Link先を確認
Ling Chen, Hongyu Shi(参考訳) ユーザのポジティブな応答(購入やクリックなど)を予測することは、webアプリケーションにおいて重要なタスクです。 生データから予測的特徴を特定するため、最先端の極深部分解機(xDeepFM)モデルは圧縮相互作用ネットワーク(CIN)を導入し、ベクトルレベルでの特徴的相互作用を明示的に活用する。 しかし、CINの各隠れレイヤは機能マップの集合であるため、基本的には異なる機能マップの集合と見なすことができる。 この場合、予測損失を最小限に抑えるために単一の目的のみを使用すると、過度に適合する可能性がある。 本稿では,CINにおけるアンサンブルの多様性尺度を導入し,目的関数におけるアンサンブルの多様性と予測精度を両立させる,アンサンブルの多様性向上型極深部分解マシンモデル(DexDeepFM)を提案する。 また,特徴の相互作用順序が異なるアンサンブル多様性尺度の重要性を判別するための注意機構を導入する。 2つの公開実世界のデータセットに対する大規模な実験は、提案したモデルの優位性を示している。

Predicting user positive response (e.g., purchases and clicks) probability is a critical task in Web applications. To identify predictive features from raw data, the state-of-the-art extreme deep factorization machine (xDeepFM) model introduces a compressed interaction network (CIN) to leverage feature interactions at the vector-wise level explicitly. However, since each hidden layer in CIN is a collection of feature maps, it can be viewed essentially as an ensemble of different feature maps. In this case, only using a single objective to minimize the prediction loss may lead to overfitting. In this paper, an ensemble diversity enhanced extreme deep factorization machine model (DexDeepFM) is proposed, which introduces the ensemble diversity measure in CIN and considers both ensemble diversity and prediction accuracy in the objective function. In addition, the attention mechanism is introduced to discriminate the importance of ensemble diversity measures with different feature interaction orders. Extensive experiments on two public real-world datasets show the superiority of the proposed model.
翻訳日:2021-04-06 14:28:24 公開日:2021-04-05
# secure stochastic convex optimizationの最適クエリ複雑性

Optimal Query Complexity of Secure Stochastic Convex Optimization ( http://arxiv.org/abs/2104.01926v1 )

ライセンス: Link先を確認
Wei Tang, Chien-Ju Ho, Yang Liu(参考訳) 安全確率凸最適化問題について検討する。 学習者は(確率的な)勾配オラクルを逐次クエリすることで凸関数の最適点を学ぶことを目指している。 その間,学習者の学習結果を学習者のクエリを観察することから解放し,推論することを目的とした敵が存在する。 相手はクエリのポイントのみを観察するが、オラクルからのフィードバックは監視しない。 学習者の目標は、精度を最適化すること、すなわち、最適な点の正確な推定を得ること、そして彼女のプライバシーを確保すること、すなわち、敵が最適な点を推測することを困難にすることである。 我々は,学習者の精度とプライバシのトレードオフを正式に定量化し,学習者のクエリ複雑性の下位と上位の境界を,望ましいレベルの精度とプライバシの関数として特徴づける。 下限解析のために、情報理論的解析に基づく一般的なテンプレートを提供し、確率凸最適化や(ノイズの多い)二分探索など、いくつかの問題にテンプレートを合わせる。 また,対数要素に対する上位値のマッチングを実現する汎用的セキュア学習プロトコルを提案する。

We study the secure stochastic convex optimization problem. A learner aims to learn the optimal point of a convex function through sequentially querying a (stochastic) gradient oracle. In the meantime, there exists an adversary who aims to free-ride and infer the learning outcome of the learner from observing the learner's queries. The adversary observes only the points of the queries but not the feedback from the oracle. The goal of the learner is to optimize the accuracy, i.e., obtaining an accurate estimate of the optimal point, while securing her privacy, i.e., making it difficult for the adversary to infer the optimal point. We formally quantify this tradeoff between learner's accuracy and privacy and characterize the lower and upper bounds on the learner's query complexity as a function of desired levels of accuracy and privacy. For the analysis of lower bounds, we provide a general template based on information theoretical analysis and then tailor the template to several families of problems, including stochastic convex optimization and (noisy) binary search. We also present a generic secure learning protocol that achieves the matching upper bound up to logarithmic factors.
翻訳日:2021-04-06 14:28:06 公開日:2021-04-05
# 無線センサネットワークにおけるDoS検出のための機械学習手法の性能評価

Performance Evaluation of Machine Learning Techniques for DoS Detection in Wireless Sensor Network ( http://arxiv.org/abs/2104.01963v1 )

ライセンス: Link先を確認
Lama Alsulaiman and Saad Al-Ahmadi(参考訳) 無線センサネットワーク(WSN)の性質と、WSNの利用の広さは、多くのセキュリティ脅威や攻撃をもたらす。 効果的な侵入検知システム(IDS)を用いて攻撃を検知する。 このような攻撃を検出することは、特にDoS(DoS)攻撃の検出は困難である。 機械学習の分類技術は、DoS検出のアプローチとして使われてきた。 本稿では,Wikato Environment for Knowledge Analysis (WEKA) を用いて,WSNにおけるDoS攻撃による洪水,グレイホール,ブラックホール,スケジューリングの5つの機械学習アルゴリズムの効率性を評価する実験を行った。 この評価はWSN-DSと呼ばれるデータセットに基づいている。 その結果、ランダムな森林分類器は99.72%の精度で他の分類器よりも優れていた。

The nature of Wireless Sensor Networks (WSN) and the widespread of using WSN introduce many security threats and attacks. An effective Intrusion Detection System (IDS) should be used to detect attacks. Detecting such an attack is challenging, especially the detection of Denial of Service (DoS) attacks. Machine learning classification techniques have been used as an approach for DoS detection. This paper conducted an experiment using Waikato Environment for Knowledge Analysis (WEKA)to evaluate the efficiency of five machine learning algorithms for detecting flooding, grayhole, blackhole, and scheduling at DoS attacks in WSNs. The evaluation is based on a dataset, called WSN-DS. The results showed that the random forest classifier outperforms the other classifiers with an accuracy of 99.72%.
翻訳日:2021-04-06 14:27:50 公開日:2021-04-05
# IoT通信マルチアノマリー検出のための半教師付き変分時畳み込みネットワーク

Semi-supervised Variational Temporal Convolutional Network for IoT Communication Multi-anomaly Detection ( http://arxiv.org/abs/2104.01813v1 )

ライセンス: Link先を確認
Yan Xu, Yongliang Cheng(参考訳) 近年,iot(consumer internet of things)が開発されている。 マスIoTデバイスは、巨大な通信ネットワークを構築するために構築されています。 しかし、これらのデバイスは実際には安全ではないため、通信ネットワークが攻撃者によって露出されることを意味する。 さらに、IoT通信ネットワークは、さまざまな突然のエラーに直面している。 したがって、攻撃者やシステム障害の脅威に対して、その脆弱性は容易に生じます。 iot通信ネットワークの厳しい状況は、マルチ異常を自動的に検出する新しい技術の開発を動機付ける。 本稿では,IoT通信ネットワークにおいて有効に動作する,IoT多重異常検出のための半教師付きネットワークであるSS-VTCNを提案する。 SS-VTCNは、変分オートエンコーダやテンポラル畳み込みネットワークといった重要な技術を用いて、その表現を学習することで、ラベル付けされているかどうかの分布に基づいて、IoTトラフィックデータの通常のパターンをキャプチャするように設計されている。 このネットワークは、エンコードデータを使用して予備結果を予測し、入力データを再構成して、表現によって異常を判定することができる。 ベンチマークデータセットと実際の消費者向けスマートホームデータセットに基づく広範囲な評価実験により、SS-VTCNは教師なしおよび教師なしの手法よりも適しており、他の最先端の半教師付き手法と比較してパフォーマンスが良いことが示された。

The consumer Internet of Things (IoT) have developed in recent years. Mass IoT devices are constructed to build a huge communications network. But these devices are insecure in reality, it means that the communications network are exposed by the attacker. Moreover, the IoT communication network also faces with variety of sudden errors. Therefore, it easily leads to that is vulnerable with the threat of attacker and system failure. The severe situation of IoT communication network motivates the development of new techniques to automatically detect multi-anomaly. In this paper, we propose SS-VTCN, a semi-supervised network for IoT multiple anomaly detection that works well effectively for IoT communication network. SS-VTCN is designed to capture the normal patterns of the IoT traffic data based on the distribution whether it is labeled or not by learning their representations with key techniques such as Variational Autoencoders and Temporal Convolutional Network. This network can use the encode data to predict preliminary result, and reconstruct input data to determine anomalies by the representations. Extensive evaluation experiments based on a benchmark dataset and a real consumer smart home dataset demonstrate that SS-VTCN is more suitable than supervised and unsupervised method with better performance when compared other state-of-art semi-supervised method.
翻訳日:2021-04-06 14:27:38 公開日:2021-04-05
# 深層マルチエージェント強化学習のための非単調値関数分解

Non-monotonic Value Function Factorization for Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2104.01939v1 )

ライセンス: Link先を確認
Quanlin Chen(参考訳) 本稿では,qmix の単調性制約を取り除き,共同動作値に対する非単調値関数因子化を実現する qmix ([1]) のアクタポリシーを導入することで,アクタ-批判的アプローチを提案する。

In this paper, I propose actor-critic approaches by introducing an actor policy on QMIX ([1]), which can remove the monotonicity constraint of QMIX and implement a non-monotonic value function factorization for joint action-value.
翻訳日:2021-04-06 14:27:20 公開日:2021-04-05
# StarGANを用いた日本語句の感情音声変換

StarGAN-based Emotional Voice Conversion for Japanese Phrases ( http://arxiv.org/abs/2104.01807v1 )

ライセンス: Link先を確認
Asuka Moritani, Ryo Ozaki, Shoki Sakamoto, Hirokazu Kameoka, Tadahiro Taniguchi(参考訳) 本稿では,非並列多対多音声変換(VC)のためのスペクトルエンベロープ変換法であるStarGAN-VCが,感情的VC(EVC)を実現することを示す。 StarGAN-VCは話者識別変換を可能にすることが示されているが、日本語句のECV能力は明らかになっていない。 本稿では,基本周波数と非周期処理を最小としたevcタスクへのstargan-vcの直接適用について述べる。 主観評価実験を通じて,日本語句のECVを実現する能力の観点から,StarGAN-EVCシステムの性能評価を行った。 主観的評価は、主観的分類と中立性と類似性の平均的意見スコアの観点から行われる。 また, EVCの品質の観点から, ソースとターゲットの感情領域の相互依存性について検討した。

This paper shows that StarGAN-VC, a spectral envelope transformation method for non-parallel many-to-many voice conversion (VC), is capable of emotional VC (EVC). Although StarGAN-VC has been shown to enable speaker identity conversion, its capability for EVC for Japanese phrases has not been clarified. In this paper, we describe the direct application of StarGAN-VC to an EVC task with minimal fundamental frequency and aperiodicity processing. Through subjective evaluation experiments, we evaluated the performance of our StarGAN-EVC system in terms of its ability to achieve EVC for Japanese phrases. The subjective evaluation is conducted in terms of subjective classification and mean opinion score of neutrality and similarity. In addition, the interdependence between the source and target emotional domains was investigated from the perspective of the quality of EVC.
翻訳日:2021-04-06 14:26:37 公開日:2021-04-05
# 液体民主主義はいつ真実を明かすのか?

When Can Liquid Democracy Unveil the Truth? ( http://arxiv.org/abs/2104.01828v1 )

ライセンス: Link先を確認
Ruben Becker, Gianlorenzo D'Angelo, Esmaeil Delfaraz and Hugo Gilbert(参考訳) 本稿では,caragiannis と micha [10] が定式化したいわゆる odp-problem について検討する。 ここでは、選挙の選択肢が2つあり、そのうちの1つが正しいと仮定されている。 ODPでは、正しい代替案が選出される確率を最大化するために、ソーシャルネットワーク内の代表団を組織することを目的としている。 任意の正の定数 $c$ に対して、$p=np$ でなければ odp の多項式時間アルゴリズムは存在せず、$\alpha \ge (\ln n)^{-c}$ の近似保証を達成し、ここで $n$ は有権者の数である。 この結果のためにデザインされた削減は、一部の有権者が誤った情報に苦しむ、不接続なソーシャルネットワークを使っている。 興味深いことに、有権者のアキュラシエーションやネットワークの接続性に関する仮説の下で、多項式時間1/2$-近似アルゴリズムを得る。 この観察は、ソーシャルネットワークの接続が液体民主主義パラダイムの効率にとって重要な特徴であることを正式に証明している。 最後に、我々は広範なシミュレーションを行い、単純なアルゴリズム(中央集権的または非集中的な方法で動く)が大規模なインスタンスで直接民主主義を上回ることを観察する。 全体として、私たちの貢献は、液体民主主義がどのような状況で役に立つかについての新たな洞察をもたらす。

In this paper, we investigate the so-called ODP-problem that has been formulated by Caragiannis and Micha [10]. Here, we are in a setting with two election alternatives out of which one is assumed to be correct. In ODP, the goal is to organise the delegations in the social network in order to maximize the probability that the correct alternative, referred to as ground truth, is elected. While the problem is known to be computationally hard, we strengthen existing hardness results by providing a novel strong approximation hardness result: For any positive constant $C$, we prove that, unless $P=NP$, there is no polynomial-time algorithm for ODP that achieves an approximation guarantee of $\alpha \ge (\ln n)^{-C}$, where $n$ is the number of voters. The reduction designed for this result uses poorly connected social networks in which some voters suffer from misinformation. Interestingly, under some hypothesis on either the accuracies of voters or the connectivity of the network, we obtain a polynomial-time $1/2$-approximation algorithm. This observation proves formally that the connectivity of the social network is a key feature for the efficiency of the liquid democracy paradigm. Lastly, we run extensive simulations and observe that simple algorithms (working either in a centralized or decentralized way) outperform direct democracy on a large class of instances. Overall, our contributions yield new insights on the question in which situations liquid democracy can be beneficial.
翻訳日:2021-04-06 14:25:49 公開日:2021-04-05
# 不確実性を有する複数周波数予約市場における入札最適化のための人工知能フレームワーク

An Artificial Intelligence Framework for Bidding Optimization with Uncertainty inMultiple Frequency Reserve Markets ( http://arxiv.org/abs/2104.01865v1 )

ライセンス: Link先を確認
Thimal Kempitiyaa, Seppo Sierla, Daswin De Silvaa, Matti Yli-Ojanpera, Damminda Alahakoona, Valeriy Vyatkin(参考訳) 炭素中性社会のグローバルな野望は、再生可能エネルギーの周波数予約を生かした安定的で堅牢なスマートグリッドを必要としている。 周波数リザーブ(英: Frequency Reserves)は、電力網の周波数偏差に対応するために、発電や消費をリアルタイムで調整するリソースである。 収益生成は、こうした逸脱を管理するためにこれらのリソースの可用性を動機付けている。 しかし、複数の頻度準備市場において、データ駆動決定と、そのような能力の取引のための最適な入札戦略に関する限られた研究が行われている。 この制限には、以下の研究貢献によって対処する。 まず、グローバルな周波数予約市場の臨界特性に関する広範な研究に基づいて一般化されたモデルを設計する。 第二に、この市場モデルに基づき、多段階市場における価格ピークを活かすための3つの入札戦略が提案されている。 入札戦略は、最も高い価格で市場を選択することを目的としており、第3の入札戦略は、最も高いリザーブド市場価格が予想される時間に負荷を再スケジュールすることに焦点を当てている。 第3の研究貢献は人工知能(AI)ベースの入札最適化フレームワークで、これら3つの戦略を実装し、データ駆動価格予測を補完する新たな不確実性指標を備えている。 最後に、フィンランドの複数の周波数予約市場のケーススタディを用いて、この枠組みを実証的に評価する。 この評価の結果、累積収益生成の観点から、提案した入札戦略とAIに基づく入札最適化フレームワークの有効性を確認し、周波数予約の増加につながった。

The global ambitions of a carbon-neutral society necessitate a stable and robust smart grid that capitalises on frequency reserves of renewable energy. Frequency reserves are resources that adjust power production or consumption in real time to react to a power grid frequency deviation. Revenue generation motivates the availability of these resources for managing such deviations. However, limited research has been conducted on data-driven decisions and optimal bidding strategies for trading such capacities in multiple frequency reserves markets. We address this limitation by making the following research contributions. Firstly, a generalised model is designed based on an extensive study of critical characteristics of global frequency reserves markets. Secondly, three bidding strategies are proposed, based on this market model, to capitalise on price peaks in multi-stage markets. Two strategies are proposed for non-reschedulable loads, in which case the bidding strategy aims to select the market with the highest anticipated price, and the third bidding strategy focuses on rescheduling loads to hours on which highest reserve market prices are anticipated. The third research contribution is an Artificial Intelligence (AI) based bidding optimization framework that implements these three strategies, with novel uncertainty metrics that supplement data-driven price prediction. Finally, the framework is evaluated empirically using a case study of multiple frequency reserves markets in Finland. The results from this evaluation confirm the effectiveness of the proposed bidding strategies and the AI-based bidding optimization framework in terms of cumulative revenue generation, leading to an increased availability of frequency reserves.
翻訳日:2021-04-06 14:25:24 公開日:2021-04-05
# Acted vs. Improved: Domain Adaptation for Elicitation Approachs in Audio-Visual Emotion Recognition

Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2104.01978v1 )

ライセンス: Link先を確認
Haoqi Li, Yelin Kim, Cheng-Hao Kuo, Shrikanth Narayanan(参考訳) 一般化された感情認識システムの開発における主な課題は、ラベル付きデータの不足とゴールドスタンダード参照の欠如である。 同じ感情カテゴリとしてラベル付けされた手がかりであっても、関連する表現の変動性は、即興的な会話中に誘発される感情と、事前定義されたスクリプトによる実行されたセッションに依存する。 本研究では,感情誘発アプローチをドメイン知識として捉え,異なる感情誘発アプローチ,特に限定ラベル付きターゲットサンプルを用いて収集した感情発話に基づくドメイン伝達学習手法を検討する。 感情認識モデルは,エントロピー損失関数とソフトラベル損失関数を組み合わせ,実験結果から,異なるアプローチ間のドメインミスマッチを軽減するために,ドメイン転送学習手法を適用できることが示唆された。 本研究は,感情データ収集に対する新たな洞察,特にその誘発戦略の影響,および一般化されたシステムを対象とした感情認識における領域適応の重要性を提供する。

Key challenges in developing generalized automatic emotion recognition systems include scarcity of labeled data and lack of gold-standard references. Even for the cues that are labeled as the same emotion category, the variability of associated expressions can be high depending on the elicitation context e.g., emotion elicited during improvised conversations vs. acted sessions with predefined scripts. In this work, we regard the emotion elicitation approach as domain knowledge, and explore domain transfer learning techniques on emotional utterances collected under different emotion elicitation approaches, particularly with limited labeled target samples. Our emotion recognition model combines the gradient reversal technique with an entropy loss function as well as the softlabel loss, and the experiment results show that domain transfer learning methods can be employed to alleviate the domain mismatch between different elicitation approaches. Our work provides new insights into emotion data collection, particularly the impact of its elicitation strategies, and the importance of domain adaptation in emotion recognition aiming for generalized systems.
翻訳日:2021-04-06 14:25:01 公開日:2021-04-05
# 人体モデルを用いた3次元人体再構成

3D Human Body Reshaping with Anthropometric Modeling ( http://arxiv.org/abs/2104.01762v1 )

ライセンス: Link先を確認
Yanhong Zeng, Jianlong Fu, Hongyang Chao(参考訳) 人体計測パラメータ(身長、胸の大きさなど)から正確で現実的な3d人体を再構成する 個人識別、オンラインショッピング、バーチャルリアリティーの基本的な課題となる。 このような3D形状を作るための既存のアプローチは、しばしばレンジカメラやハイエンドスキャナーによる複雑な測定に悩まされる。 しかし、これらの高品質機器は、一般ユーザーにとって容易にはアクセスできないため、実際の応用において既存のアプローチを制限している。 本稿では, 特徴選択に基づく局所マッピング手法を提案することで, 人体各面の自動パラメータモデリングを可能にする3次元人体再構成システムを設計した。 提案手法は, 複雑な測定を回避し, 実際のシナリオにおいて, ユーザフレンドリな体験を得られるような, 限られた人文パラメータ(例えば3~5の測定値)を入力として利用することができる。 具体的には,提案手法は3つのステップからなる。 まず, 限定的なユーザ入力から全身の人体計測パラメータをインプテーション手法で算出し, 3次元身体再構成のための本質的な人体計測パラメータを求める。 第2に,提案手法を用いてオフラインで学習した関連マスクを用いて,各面に最も関連性の高い人文計測パラメータを選択する。 第3に,選択したパラメータからメッシュベースボディ表現への線形回帰によって学習される,行列のマッピングにより3次元ボディメッシュを生成する。 人為的評価と68名のボランティアによるユーザスタディによる実験を行った。 実験では, 現状のアプローチに対する平均復元誤差の観点から, 提案方式の優れた結果を示す。

Reshaping accurate and realistic 3D human bodies from anthropometric parameters (e.g., height, chest size, etc.) poses a fundamental challenge for person identification, online shopping and virtual reality. Existing approaches for creating such 3D shapes often suffer from complex measurement by range cameras or high-end scanners, which either involve heavy expense cost or result in low quality. However, these high-quality equipments limit existing approaches in real applications, because the equipments are not easily accessible for common users. In this paper, we have designed a 3D human body reshaping system by proposing a novel feature-selection-ba sed local mapping technique, which enables automatic anthropometric parameter modeling for each body facet. Note that the proposed approach can leverage limited anthropometric parameters (i.e., 3-5 measurements) as input, which avoids complex measurement, and thus better user-friendly experience can be achieved in real scenarios. Specifically, the proposed reshaping model consists of three steps. First, we calculate full-body anthropometric parameters from limited user inputs by imputation technique, and thus essential anthropometric parameters for 3D body reshaping can be obtained. Second, we select the most relevant anthropometric parameters for each facet by adopting relevance masks, which are learned offline by the proposed local mapping technique. Third, we generate the 3D body meshes by mapping matrices, which are learned by linear regression from the selected parameters to mesh-based body representation. We conduct experiments by anthropomorphic evaluation and a user study from 68 volunteers. Experiments show the superior results of the proposed system in terms of mean reconstruction error against the state-of-the-art approaches.
翻訳日:2021-04-06 14:22:53 公開日:2021-04-05
# FocusNetv2: 頭頸部CT像に対する逆方向形状制約を伴う大小臓器分割の非バランス化

FocusNetv2: Imbalanced Large and Small Organ Segmentation with Adversarial Shape Constraint for Head and Neck CT Images ( http://arxiv.org/abs/2104.01771v1 )

ライセンス: Link先を確認
Yunhe Gao, Rui Huang, Yiwei Yang, Jie Zhang, Kainan Shao, Changjuan Tao, Yuanyuan Chen, Dimitris N. Metaxas, Hongsheng Li, Ming Chen(参考訳) 放射線療法は、がん細胞を除去するために放射線を使用する治療である。 OAR(Organs-at-risk)は、健康な臓器の損傷を避けるための放射線治療計画において重要なステップである。 鼻咽喉頭癌では,20以上のOARを事前に正確に分類する必要がある。 この課題は、複雑な解剖学的構造、低コントラストの臓器輪郭、そして大きな臓器と小さな臓器の間の非常に不均衡な大きさにある。 それらを等しく扱う一般的なセグメンテーション法は、通常は不正確な小組織ラベリングを引き起こす。 そこで本研究では,小臓器の自動配置,roiプーリング,セグメンテーションを行い,小臓器の局所配置とセグメンテーションを特異的に設計し,大規模臓器セグメンテーションの精度を維持しつつ,この課題を解決するための新しい2段階深層ニューラルネットワークであるfocusnetv2を提案する。 従来のFocusNetに加えて,小臓器に新たな対角的形状制約を導入し,推定小臓器形状と臓器形状との整合性を確保する。 提案するフレームワークは,1,164個のCTスキャンの自己収集データセットとMICCAIヘッドとネックオートセグメンテーションチャレンジ2015データセットの両方で広範囲にテストされ,最先端の頭頸部OARセグメンテーション法と比較して優れた性能を示している。

Radiotherapy is a treatment where radiation is used to eliminate cancer cells. The delineation of organs-at-risk (OARs) is a vital step in radiotherapy treatment planning to avoid damage to healthy organs. For nasopharyngeal cancer, more than 20 OARs are needed to be precisely segmented in advance. The challenge of this task lies in complex anatomical structure, low-contrast organ contours, and the extremely imbalanced size between large and small organs. Common segmentation methods that treat them equally would generally lead to inaccurate small-organ labeling. We propose a novel two-stage deep neural network, FocusNetv2, to solve this challenging problem by automatically locating, ROI-pooling, and segmenting small organs with specifically designed small-organ localization and segmentation sub-networks while maintaining the accuracy of large organ segmentation. In addition to our original FocusNet, we employ a novel adversarial shape constraint on small organs to ensure the consistency between estimated small-organ shapes and organ shape prior knowledge. Our proposed framework is extensively tested on both self-collected dataset of 1,164 CT scans and the MICCAI Head and Neck Auto Segmentation Challenge 2015 dataset, which shows superior performance compared with state-of-the-art head and neck OAR segmentation methods.
翻訳日:2021-04-06 14:22:27 公開日:2021-04-05
# アンダーサンプルMRI再構成と画像間変換のための適応的勾配バランス

Adaptive Gradient Balancing for UndersampledMRI Reconstruction and Image-to-Image Translation ( http://arxiv.org/abs/2104.01889v1 )

ライセンス: Link先を確認
Itzik Malkiel, Sangtae Ahn, Valentina Taviani, Anne Menini, Lior Wolf, Christopher J. Hardy(参考訳) 最近の加速MRI再構成モデルでは、Deep Neural Networks(DNN)を使用して、高度にアンサンプされたk空間データから比較的高品質な画像を再構成し、より高速なMRIスキャンを可能にしている。 しかし、これらの技法は、自然の外観を維持しながら細部を細部まで保存する鋭い画像の復元に苦慮することがある。 本研究では,条件付きwasserstein生成型逆行ネットワークと,逆行と画素単位の組み合わせを自動化し,ハイパーパラメータチューニングを合理化する新しい適応勾配バランス(agb)技術を組み合わせて,画質の向上を図る。 さらに,高密度接続を利用したアンサンプ型MRI再構成ネットワークであるDensely Connected Iterative Networkを導入する。 MRIでは、他の手法よりもシャープな画像を生成する高品質な再構成を維持しながら、アーティファクトを最小限に抑える。 本手法の汎用性を示すために, 画像から画像への翻訳実験のバッテリでさらに評価し, 多時期の対向訓練において, 副最適重み付けから回復する能力を示す。

Recent accelerated MRI reconstruction models have used Deep Neural Networks (DNNs) to reconstruct relatively high-quality images from highly undersampled k-space data, enabling much faster MRI scanning. However, these techniques sometimes struggle to reconstruct sharp images that preserve fine detail while maintaining a natural appearance. In this work, we enhance the image quality by using a Conditional Wasserstein Generative Adversarial Network combined with a novel Adaptive Gradient Balancing (AGB) technique that automates the process of combining the adversarial and pixel-wise terms and streamlines hyperparameter tuning. In addition, we introduce a Densely Connected Iterative Network, which is an undersampled MRI reconstruction network that utilizes dense connections. In MRI, our method minimizes artifacts, while maintaining a high-quality reconstruction that produces sharper images than other techniques. To demonstrate the general nature of our method, it is further evaluated on a battery of image-to-image translation experiments, demonstrating an ability to recover from sub-optimal weighting in multi-term adversarial training.
翻訳日:2021-04-06 14:22:03 公開日:2021-04-05
# 四元因子分解マシン:機能インタラクションモデリングを複雑化する軽量解法

Quaternion Factorization Machines: A Lightweight Solution to Intricate Feature Interaction Modelling ( http://arxiv.org/abs/2104.01716v1 )

ライセンス: Link先を確認
Tong Chen, Hongzhi Yin, Xiangliang Zhang, Zi Huang, Yang Wang, Meng Wang(参考訳) 因子化機械 (FM) は、手動の特徴工学を必要とせずに、特徴間の高次相互作用を自動的に学習し、予測を行う。 ディープニューラルネットワーク(DNN)の顕著な発展に伴い、FMベースのモデルとDNNの表現性を向上する動きが、最近進行中である。 しかし、DNNベースのFM変種ではより良い結果が得られるが、そのような性能向上は普通のFM上での過剰なモデルパラメータの量(通常は数百万)によって得られる。 その結果、重パラメータ化は、これらの深層モデルの現実の実用性、特にリソースに制約されたiotとエッジデバイスへの効率的なデプロイを妨げる。 本稿では,最も深いFMモデルが定義される従来の実空間を超えて,超複素空間内の四元数表現からの解を求める。 具体的には、スパース予測分析のための2つの新しい軽量かつメモリ効率の高い四元数評価モデルである四元数分解機(QFM)と四元数分解機(QNFM)を提案する。 四元数代数の概念によるfmモデルに対する全く新しいアプローチを導入することで、このモデルは表現力の高い成分間相互作用を可能にするだけでなく、超複素ハミルトン積の自由度が実数値行列の乗算よりも低いためパラメータサイズを大幅に削減する。 3つの大規模データセットの広範な実験の結果、qfmは通常のfmよりも4.36%の性能向上を達成し、qnfmは最大2等級のパラメータサイズ削減のベースラインを、最先端のピアメソッドと比較して上回っている。

As a well-established approach, factorization machine (FM) is capable of automatically learning high-order interactions among features to make predictions without the need for manual feature engineering. With the prominent development of deep neural networks (DNNs), there is a recent and ongoing trend of enhancing the expressiveness of FM-based models with DNNs. However, though better results are obtained with DNN-based FM variants, such performance gain is paid off by an enormous amount (usually millions) of excessive model parameters on top of the plain FM. Consequently, the heavy parameterization impedes the real-life practicality of those deep models, especially efficient deployment on resource-constrained IoT and edge devices. In this paper, we move beyond the traditional real space where most deep FM-based models are defined, and seek solutions from quaternion representations within the hypercomplex space. Specifically, we propose the quaternion factorization machine (QFM) and quaternion neural factorization machine (QNFM), which are two novel lightweight and memory-efficient quaternion-valued models for sparse predictive analytics. By introducing a brand new take on FM-based models with the notion of quaternion algebra, our models not only enable expressive inter-component feature interactions, but also significantly reduce the parameter size due to lower degrees of freedom in the hypercomplex Hamilton product compared with real-valued matrix multiplication. Extensive experimental results on three large-scale datasets demonstrate that QFM achieves 4.36% performance improvement over the plain FM without introducing any extra parameters, while QNFM outperforms all baselines with up to two magnitudes' parameter size reduction in comparison to state-of-the-art peer methods.
翻訳日:2021-04-06 14:18:39 公開日:2021-04-05
# CCSNet:CO$2$ストレージのためのディープラーニングモデリングスイート

CCSNet: a deep learning modeling suite for CO$_2$ storage ( http://arxiv.org/abs/2104.01795v1 )

ライセンス: Link先を確認
Gege Wen, Catherine Hay, Sally M. Benson(参考訳) 数値シミュレーションは、地下の流れや輸送に関わる多くのアプリケーションにとって必須のツールであるが、多面体の性質、高非線形支配方程式、固有のパラメータの不確実性、マルチスケールの不均一性を捉えるための高空間分解能の必要性による計算上の課題に悩まされることが多い。 我々は,CO$_2$を2d-放射系の塩類帯水層に注入する従来の数値シミュレータの代替として機能する汎用ディープラーニングモデリングスイートであるCSNetを開発した。 CCSNetは、飽和分布、圧力上昇、ドライアウト、流体密度、質量収支、溶解性トラップ、スイープ効率など、数値シミュレータが一般的に提供するすべての出力を生成する一連のディープラーニングモデルで構成されている。 その結果,従来の数値シミュレータの10$^3$から10$^4$$の速度が得られた。 ccsnetの計算効率の値を示す応用として,スイープ効率と溶解性トラッピングのための厳密な推定手法を開発した。

Numerical simulation is an essential tool for many applications involving subsurface flow and transport, yet often suffers from computational challenges due to the multi-physics nature, highly non-linear governing equations, inherent parameter uncertainties, and the need for high spatial resolutions to capture multi-scale heterogeneity. We developed CCSNet, a general-purpose deep-learning modeling suite that can act as an alternative to conventional numerical simulators for carbon capture and storage (CCS) problems where CO$_2$ is injected into saline aquifers in 2d-radial systems. CCSNet consists of a sequence of deep learning models producing all the outputs that a numerical simulator typically provides, including saturation distributions, pressure buildup, dry-out, fluid densities, mass balance, solubility trapping, and sweep efficiency. The results are 10$^3$ to 10$^4$ times faster than conventional numerical simulators. As an application of CCSNet illustrating the value of its high computational efficiency, we developed rigorous estimation techniques for the sweep efficiency and solubility trapping.
翻訳日:2021-04-06 14:18:10 公開日:2021-04-05
# グラフ畳み込みニューラルネットワークを用いたゲートレベル抽象化階層のモデル化と機能的分解因子の予測

Modeling Gate-Level Abstraction Hierarchy Using Graph Convolutional Neural Networks to Predict Functional De-Rating Factors ( http://arxiv.org/abs/2104.01812v1 )

ライセンス: Link先を確認
Aneesh Balakrishnan, Thomas Lange, Maximilien Glorieux, Dan Alexandrescu and Maksim Jenihhin(参考訳) 本稿では,グラフ畳み込みネットワーク(gcn)を用いたゲートレベルネットリストのモデル化手法を提案する。 モデルは、与えられた回路のシーケンシャル要素の全体的な機能劣化因子を予測する。 作業の初期段階において、重要なゴールは、グラフモデリング言語(GML)の形式で確率ベイズグラフに変換した後、ゲートレベルのネットリストを入力情報として得るGCNを作ることである。 この部分により、gcnはグラフドメインでnetlistの構造情報を学ぶことができる。 作業の第2フェーズでは、モデル化されたgcnは、非常に少ない個々のシーケンシャル要素(flip-flops)の機能的デレーティング係数で訓練された。 第3フェーズは、任意の回路ネットリストをモデル化するgcnモデルの精度の理解を含む。 設計されたモデルは2つの回路で検証された。 1つはIEEE 754標準のダブル精度浮動小数点加算器で、もう1つは10ギガビットのイーサネットMAC IEEE802.3標準である。 予測結果は、SEU(Single EventUpset)と呼ばれるエラーの標準的な障害注入キャンペーン結果と比較される。 評価結果はヒストグラムとソートされた確率の形式で図式化され,予測とシミュレーションされた断層注入結果の間の信頼区間(CI)測定値で評価される。

The paper is proposing a methodology for modeling a gate-level netlist using a Graph Convolutional Network (GCN). The model predicts the overall functional de-rating factors of sequential elements of a given circuit. In the preliminary phase of the work, the important goal is making a GCN which able to take a gate-level netlist as input information after transforming it into the Probabilistic Bayesian Graph in the form of Graph Modeling Language (GML). This part enables the GCN to learn the structural information of netlist in graph domains. In the second phase of the work, the modeled GCN trained with the a functional de-rating factor of a very low number of individual sequential elements (flip-flops). The third phase includes understanding of GCN models accuracy to model an arbitrary circuit netlist. The designed model was validated for two circuits. One is the IEEE 754 standard double precision floating point adder and the second one is the 10-Gigabit Ethernet MAC IEEE802.3 standard. The predicted results compared to the standard fault injection campaign results of the error called Single EventUpset (SEU). The validated results are graphically pictured in the form of the histogram and sorted probabilities and evaluated with the Confidence Interval (CI) metric between the predicted and simulated fault injection results.
翻訳日:2021-04-06 14:17:51 公開日:2021-04-05
# 二元モデルにおけるコンフォーマルテスト

Conformal testing in a binary model situation ( http://arxiv.org/abs/2104.01885v1 )

ライセンス: Link先を確認
Vladimir Vovk(参考訳) 共形テスト(conformal testing)は、iid仮定を共形予測に基づいてテストする方法である。 本論文のトピックは,ベルヌーイ分布から生成したiid2次観測を他のベルヌーイ分布から生成したiid2次観測に追従し,その分布と変化点のパラメータが不明なモデル状況におけるコンフォメーションテストの性能を数値的に評価することである。 既存の共形テストmartingalesはこのタスクに使用でき、単純なケースでもうまく機能するが、その効率は大幅に改善できる。

Conformal testing is a way of testing the IID assumption based on conformal prediction. The topic of this note is computational evaluation of the performance of conformal testing in a model situation in which IID binary observations generated from a Bernoulli distribution are followed by IID binary observations generated from another Bernoulli distribution, with the parameters of the distributions and changepoint unknown. Existing conformal test martingales can be used for this task and work well in simple cases, but their efficiency can be improved greatly.
翻訳日:2021-04-06 14:17:10 公開日:2021-04-05
# ecrm: 消去コーディングによるレコメンデーションモデルトレーニングのための効率的なフォールトトレランス

ECRM: Efficient Fault Tolerance for Recommendation Model Training via Erasure Coding ( http://arxiv.org/abs/2104.01981v1 )

ライセンス: Link先を確認
Kaige Liu, Jack Kosaian, K. V. Rashmi(参考訳) ディープラーニングベースのレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。 DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きくなり、モデルを数十から数百のサーバのメモリに分散させることで訓練される。 このような大規模な分散システムでは、サーバ障害が一般的であり、トレーニングを前進させるためには、緩和される必要がある。 チェックポインティングは、これらのシステムにおける耐障害性の主要なアプローチであるが、通常の操作時と障害からの回復時の両方で、トレーニング時間にかなりのオーバーヘッドが発生する。 これらのオーバーヘッドがDLRMサイズとともに増加するにつれて、チェックポイントは、サイズが大きくなると予想される将来のDLRMにとって、さらに大きなオーバーヘッドになる。 これはDLRMトレーニングにおけるフォールトトレランスの再考を要求する。 本稿では,消去符号を用いた効率的な耐故障性を実現するDLRMトレーニングシステムであるECRMを提案する。 ECRMは、どのDLRMパラメータをエンコードするかを選択し、パリティを正しく効率的に更新し、回復したパラメータの一貫性を維持しながら、停止せずにトレーニングを進めることができる。 我々は,オープンソースの産業規模のDLRMトレーニングシステムであるXDL上にECRMを実装した。 チェックポイントと比較して、ECRMは大規模なDLRMのトレーニング時間オーバーヘッドを最大88%削減し、障害から最大10.3$\times$高速に回復し、リカバリ中にトレーニングを進めることができる。 これらの結果は,現在および将来のdlrmに効率的なフォールトトレランスを与える上で,コーディングの消去が期待できることを示す。

Deep-learning-based recommendation models (DLRMs) are widely deployed to serve personalized content to users. DLRMs are large in size due to their use of large embedding tables, and are trained by distributing the model across the memory of tens or hundreds of servers. Server failures are common in such large distributed systems and must be mitigated to enable training to progress. Checkpointing is the primary approach used for fault tolerance in these systems, but incurs significant training-time overhead both during normal operation and when recovering from failures. As these overheads increase with DLRM size, checkpointing is slated to become an even larger overhead for future DLRMs, which are expected to grow in size. This calls for rethinking fault tolerance in DLRM training. We present ECRM, a DLRM training system that achieves efficient fault tolerance using erasure coding. ECRM chooses which DLRM parameters to encode, correctly and efficiently updates parities, and enables training to proceed without any pauses, while maintaining consistency of the recovered parameters. We implement ECRM atop XDL, an open-source, industrial-scale DLRM training system. Compared to checkpointing, ECRM reduces training-time overhead for large DLRMs by up to 88%, recovers from failures up to 10.3$\times$ faster, and allows training to proceed during recovery. These results show the promise of erasure coding in imparting efficient fault tolerance to training current and future DLRMs.
翻訳日:2021-04-06 14:16:59 公開日:2021-04-05
# 正常およびCOVID-19肺炎患者のCT画像からの自動肺分画

Automated lung segmentation from CT images of normal and COVID-19 pneumonia patients ( http://arxiv.org/abs/2104.02042v1 )

ライセンス: Link先を確認
Faeze Gholamiankhah, Samaneh Mostafapour, Nouraddin Abdi Goushbolagh, Seyedjafar Shojaerazavi, Parvaneh Layegh, Seyyed Mohammad Tabatabaei, Hossein Arabi(参考訳) 自動セマンティックイメージセグメンテーションは定量的画像解析と疾患診断に不可欠なステップである。 本研究は, 正常およびCOVID-19患者のCT画像から肺分画の深層学習モデルの性能について検討した。 残存神経回路の訓練には胸部CT画像と1200件の確認された肺マスクが使用された。 基準肺マスクはct画像の半自動/手動セグメンテーションにより生成した。 120名の健常者, COVID-19患者を含む2つの異なる外部テストデータセットを用いて, モデルの性能評価を行い, 結果を比較した。 予測された肺マスクの精度を評価するために, ダイス係数(DSC), 平均絶対誤差(MAE), 相対平均HU差, 相対体積差などの異なる評価指標を算出した。 提案した深層学習法は,正常および新型コロナウイルス患者に対して0.980と0.971のDSCを達成した。 また, 正常者では0.037 hu, 0.061 hu, 平均 hu 差は-2.679%, 平均 hu 差は-4.403%, 体積差は2.405%, 容積差は5.928%であった。 正常およびCOVID-19患者の肺分画における同等のパフォーマンスは、新型コロナウイルス感染の有無で肺組織を同定するモデルの精度を示している(ただし、通常の患者ではわずかに改善された)。 提案した深層学習モデルによる有望な結果は、新型コロナウイルス肺分節の信頼性を示した。 この必須ステップは、より効率的でロバストな肺炎病変分析につながる。

Automated semantic image segmentation is an essential step in quantitative image analysis and disease diagnosis. This study investigates the performance of a deep learning-based model for lung segmentation from CT images for normal and COVID-19 patients. Chest CT images and corresponding lung masks of 1200 confirmed COVID-19 cases were used for training a residual neural network. The reference lung masks were generated through semi-automated/manua l segmentation of the CT images. The performance of the model was evaluated on two distinct external test datasets including 120 normal and COVID-19 subjects, and the results of these groups were compared to each other. Different evaluation metrics such as dice coefficient (DSC), mean absolute error (MAE), relative mean HU difference, and relative volume difference were calculated to assess the accuracy of the predicted lung masks. The proposed deep learning method achieved DSC of 0.980 and 0.971 for normal and COVID-19 subjects, respectively, demonstrating significant overlap between predicted and reference lung masks. Moreover, MAEs of 0.037 HU and 0.061 HU, relative mean HU difference of -2.679% and -4.403%, and relative volume difference of 2.405% and 5.928% were obtained for normal and COVID-19 subjects, respectively. The comparable performance in lung segmentation of the normal and COVID-19 patients indicates the accuracy of the model for the identification of the lung tissue in the presence of the COVID-19 induced infections (though slightly better performance was observed for normal patients). The promising results achieved by the proposed deep learning-based model demonstrated its reliability in COVID-19 lung segmentation. This prerequisite step would lead to a more efficient and robust pneumonia lesion analysis.
翻訳日:2021-04-06 14:16:22 公開日:2021-04-05
# 多党差分プライバシーに基づく周波数推定:ワンショットとストリーミング

Frequency Estimation Under Multiparty Differential Privacy: One-shot and Streaming ( http://arxiv.org/abs/2104.01808v1 )

ライセンス: Link先を確認
Ziyue Huang, Yuan Qiu, Ke Yi, Graham Cormode(参考訳) プライバシと通信の制約下での周波数推定の基本的問題について検討し,そのデータを$k$のパーティ間で分散する。 我々は,(1)データが静的でアグリゲータが1回計算を行うワンショット,(2)各アグリゲータが時間経過とともにアイテムのストリームを受信し,アグリゲータが連続的に周波数を監視するストリーミング,の2つのアプリケーションシナリオを検討した。 我々は、ローカルディファレンシャルプライバシ(LDP)や(集中型)ディファレンシャルプライバシよりも一般的なマルチパーティディファレンシャルプライバシ(MDP)モデルを採用する。 我々のプロトコルは、より厳密な2つの制約によって許容可能な最適性(対数因子まで)を達成する。 特に、$\varepsilon$-LDPモデルに特化すると、我々のプロトコルは、すべての$\varepsilon$に対して$\sqrt{k}/(e^{\Theta(\varepsilon)}-1)のエラーを達成し、以前のプロトコル(Chen et al., 2020)はエラーを$O(\sqrt{k}/\min\{\varepsilon, \sqrt{\varepsilon}\})$とする。

We study the fundamental problem of frequency estimation under both privacy and communication constraints, where the data is distributed among $k$ parties. We consider two application scenarios: (1) one-shot, where the data is static and the aggregator conducts a one-time computation; and (2) streaming, where each party receives a stream of items over time and the aggregator continuously monitors the frequencies. We adopt the model of multiparty differential privacy (MDP), which is more general than local differential privacy (LDP) and (centralized) differential privacy. Our protocols achieve optimality (up to logarithmic factors) permissible by the more stringent of the two constraints. In particular, when specialized to the $\varepsilon$-LDP model, our protocol achieves an error of $\sqrt{k}/(e^{\Theta(\varepsilon)}-1)$ for all $\varepsilon$, while the previous protocol (Chen et al., 2020) has error $O(\sqrt{k}/\min\{\varepsilon, \sqrt{\varepsilon}\})$.
翻訳日:2021-04-06 14:14:20 公開日:2021-04-05
# コンピュータネットワークにおけるルーティングにおける機械学習応用

Machine Learning Applications in the Routing in Computer Networks ( http://arxiv.org/abs/2104.01946v1 )

ライセンス: Link先を確認
Ke Liang and Mitchel Myers(参考訳) インターネットトラフィックの増大に伴い、ルーティングアルゴリズムの開発は明らかに重要である。 このサーベイでは、ルーティングアルゴリズムの性能とスケーラビリティを改善するために機械学習技術をどのように利用できるか、多くの研究がなされている。 集中型および分散型mlルーティングアーキテクチャと,教師付き学習と強化学習に広く分割されたさまざまなml技術の両方を調査した。 論文の多くは、ネットワークルーティングのいくつかの側面を最適化できることを約束している。 また,14のルーティングアルゴリズム内に2つのルーティングプロトコルを実装し,その効果を確認した。 ほとんどの論文の結果は有望であるが、その多くが潜在的に非現実的なネットワーク構成のシミュレーションに基づいている。 結果にさらなる有効性を与えるには、より実世界の結果が必要である。

Development of routing algorithms is of clear importance as the volume of Internet traffic continues to increase. In this survey, there is much research into how Machine Learning techniques can be employed to improve the performance and scalability of routing algorithms. We surveyed both centralized and decentralized ML routing architectures and using a variety of ML techniques broadly divided into supervised learning and reinforcement learning. Many of the papers showed promise in their ability to optimize some aspect of network routing. We also implemented two routing protocols within 14 surveyed routing algorithms and verified the efficacy of their results. While the results of most of the papers showed promise, many of them are based on simulations of potentially unrealistic network configurations. To provide further efficacy to the results, more real-world results are necessary.
翻訳日:2021-04-06 14:13:51 公開日:2021-04-05
# 不均衡音データからの不確かさを意識したCOVID-19検出

Uncertainty-Aware COVID-19 Detection from Imbalanced Sound Data ( http://arxiv.org/abs/2104.02005v1 )

ライセンス: Link先を確認
Tong Xia, Jing Han, Lorena Qendro, Ting Dang, Cecilia Mascolo(参考訳) 近年、サウンドベースの新型コロナウイルス検出研究は、スケーラブルで迅速なデジタルプレスクリーニングを実現するための大きな約束を示している。 しかし、まだこの実践を妨げる未解決の問題は2つある。 まず、モデルトレーニングのための収集データセットは、しばしば不均衡であり、かなりの割合のユーザが肯定的にテストし、代表的で堅牢な機能を学ぶのが難しくなる。 第二に、ディープラーニングモデルは一般的に予測において過信される。 臨床的に、誤った予測は医療費を悪化させる。 スクリーニングの不確実性の推定は、これに役立つだろう。 これらの問題に対処するために,音に基づくCOVID-19検出のための複数のディープラーニングモデルを開発するアンサンブルフレームワークを提案する。 これにより、従来のアップサンプリングやダウンサンプリングに比べて、感度が 0.68 の auc と 0.69 の特異性を持つ 0.74 のデータを効果的に利用することができる。 同時に,複数のモデル間の不一致から不確実性を推定する。 偽の予測は、しばしば高い不確実性をもたらすことが示され、携帯電話での音声検査を繰り返したり、デジタル診断が失敗した場合に臨床検査を受けるための閾値以上をユーザに提案できる。 この研究は、より堅牢なサウンドベースのcovid-19自動スクリーニングシステムへの道を開くものだ。

Recently, sound-based COVID-19 detection studies have shown great promise to achieve scalable and prompt digital pre-screening. However, there are still two unsolved issues hindering the practice. First, collected datasets for model training are often imbalanced, with a considerably smaller proportion of users tested positive, making it harder to learn representative and robust features. Second, deep learning models are generally overconfident in their predictions. Clinically, false predictions aggravate healthcare costs. Estimation of the uncertainty of screening would aid this. To handle these issues, we propose an ensemble framework where multiple deep learning models for sound-based COVID-19 detection are developed from different but balanced subsets from original data. As such, data are utilized more effectively compared to traditional up-sampling and down-sampling approaches: an AUC of 0.74 with a sensitivity of 0.68 and a specificity of 0.69 is achieved. Simultaneously, we estimate uncertainty from the disagreement across multiple models. It is shown that false predictions often yield higher uncertainty, enabling us to suggest the users with certainty higher than a threshold to repeat the audio test on their phones or to take clinical tests if digital diagnosis still fails. This study paves the way for a more robust sound-based COVID-19 automated screening system.
翻訳日:2021-04-06 14:13:42 公開日:2021-04-05
# (参考訳) 学生は最高の教師です:マルチエクイットによるエグジットセンブル蒸留 [全文訳有]

Students are the Best Teacher: Exit-Ensemble Distillation with Multi-Exits ( http://arxiv.org/abs/2104.00299v2 )

ライセンス: CC BY 4.0
Hojung Lee, Jong-Seok Lee(参考訳) 本稿では,事前学習した教師ネットワークを使わずに,畳み込みニューラルネットワーク(CNN)の分類性能を向上させるための知識蒸留に基づく学習手法を提案する。 提案手法は,従来のCNNの中央に補助分類器(出口と呼ばれる)を付加するマルチエグジットアーキテクチャを利用して,早期推論結果を得る。 本手法は,蒸留ターゲットとして出口のアンサンブルを用いてネットワークを訓練し,ネットワーク全体の分類性能を大幅に向上させる。 教師が生徒にのみ教えるという従来の「蒸留」とは違って,生徒は他の生徒や教師もより良く学ぶことができることを示し,知識蒸留の新しいパラダイムを提案する。 実験により,提案手法は,様々なCNNアーキテクチャ(VGG,ResNet,ResNeXt, WideResNetなど)の分類性能を大幅に向上することを示す。 さらに,提案手法は,安定性の向上とともに学習の収束を早めることができる。 私たちのコードはgithubで入手できる。

This paper proposes a novel knowledge distillation-based learning method to improve the classification performance of convolutional neural networks (CNNs) without a pre-trained teacher network, called exit-ensemble distillation. Our method exploits the multi-exit architecture that adds auxiliary classifiers (called exits) in the middle of a conventional CNN, through which early inference results can be obtained. The idea of our method is to train the network using the ensemble of the exits as the distillation target, which greatly improves the classification performance of the overall network. Our method suggests a new paradigm of knowledge distillation; unlike the conventional notion of distillation where teachers only teach students, we show that students can also help other students and even the teacher to learn better. Experimental results demonstrate that our method achieves significant improvement of classification performance on various popular CNN architectures (VGG, ResNet, ResNeXt, WideResNet, etc.). Furthermore, the proposed method can expedite the convergence of learning with improved stability. Our code will be available on Github.
翻訳日:2021-04-06 12:37:19 公開日:2021-04-05
# (参考訳) ニューラルネットワークのロバスト性評価と学習に向けて [全文訳有]

Towards Evaluating and Training Verifiably Robust Neural Networks ( http://arxiv.org/abs/2104.00447v2 )

ライセンス: CC BY 4.0
Zhaoyang Lyu, Minghao Guo, Tong Wu, Guodong Xu, Kehuan Zhang, Dahua Lin(参考訳) 近年の研究では、インターバルバウンド伝搬(IBP)が、信頼性の高いニューラルネットワークのトレーニングに利用できることが示されている。 タイトな線形緩和に基づくバウンディングメソッドであるcrownは、これらのネットワークに非常にゆるやかな境界を与えることが多い。 また、ほとんどのニューロンがIPBトレーニングプロセス中に死亡し、ネットワークの表現能力を損なう可能性があることも観察した。 本稿では, IBP と CROWN の関係について検討し, 適切な境界線を選択する場合, CROWN が IBP よりも常に密であることを示す。 我々はさらに,大規模ネットワークを検証し,ippよりも低い検証誤差を得るために使用できる,クラウン・リニア・バウンド・伝播(lbp)の緩和版を提案する。 また,新たな活性化関数parameterized ramp function(parameteriz ed ramp function,paramramp)を設計した。 我々は、MNIST、CIFAR-10、Tiny-ImageNetのParamRampアクティベーションによる広範な実験を行い、最先端のロバスト性を実現する。 コードと付録はhttps://github.com/Z haoyangLyu/Verifiabl yRobustNNで入手できる。

Recent works have shown that interval bound propagation (IBP) can be used to train verifiably robust neural networks. Reseachers observe an intriguing phenomenon on these IBP trained networks: CROWN, a bounding method based on tight linear relaxation, often gives very loose bounds on these networks. We also observe that most neurons become dead during the IBP training process, which could hurt the representation capability of the network. In this paper, we study the relationship between IBP and CROWN, and prove that CROWN is always tighter than IBP when choosing appropriate bounding lines. We further propose a relaxed version of CROWN, linear bound propagation (LBP), that can be used to verify large networks to obtain lower verified errors than IBP. We also design a new activation function, parameterized ramp function (ParamRamp), which has more diversity of neuron status than ReLU. We conduct extensive experiments on MNIST, CIFAR-10 and Tiny-ImageNet with ParamRamp activation and achieve state-of-the-art verified robustness. Code and the appendix are available at https://github.com/Z haoyangLyu/Verifiabl yRobustNN.
翻訳日:2021-04-06 12:26:18 公開日:2021-04-05
# キーポイントマッチングのための検出・公開マルチアームネットワーク

A Detector-oblivious Multi-arm Network for Keypoint Matching ( http://arxiv.org/abs/2104.00947v2 )

ライセンス: Link先を確認
Xuelun Shen, Cheng Wang, Xin Li, Qian Hu, Jingyi Zhang(参考訳) 本稿では,画像間の点対応を確立するためのマッチングネットワークを提案する。 本研究では,領域の重なりと深さを学習するマルチArm Network(MAN)を提案する。 このフレームワークを、異なるキーポイント検出器を採用する際に再トレーニングを必要とする既存の学習ベースパイプラインとは異なるものにする別の設計では、ネットワークはそのような時間を要する再トレーニングプロセスなしで、異なるキーポイント検出器と直接動作する。 屋外および屋内のデータセットを総合的に実験した結果,提案手法が最先端手法よりも優れていることがわかった。 コードは公開される予定だ。

This paper presents a matching network to establish point correspondence between images. We propose a Multi-Arm Network (MAN) to learn region overlap and depth, which can greatly improve the keypoint matching robustness while bringing little computational cost during the inference stage. Another design that makes this framework different from many existing learning based pipelines that require re-training when a different keypoint detector is adopted, our network can directly work with different keypoint detectors without such a time-consuming re-training process. Comprehensive experiments conducted on outdoor and indoor datasets demonstrated that our proposed MAN outperforms state-of-the-art methods. Code will be made publicly available.
翻訳日:2021-04-06 12:08:39 公開日:2021-04-05
# most: ローカライゼーションを改良したマルチ指向シーンテキスト検出器

MOST: A Multi-Oriented Scene Text Detector with Localization Refinement ( http://arxiv.org/abs/2104.01070v2 )

ライセンス: Link先を確認
Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai(参考訳) 過去数年間、シーンテキスト検出の分野は急速に進歩し、現代のテキスト検出器は様々な困難なシナリオでテキストを探せるようになった。 しかし、極端なアスペクト比と異なるスケールのテキストインスタンスを扱う場合、それらはまだ不足する可能性がある。 このような問題に対処するため,我々はシーンテキスト検出のための新しいアルゴリズムを提案し,テキストのローカライゼーションの質を向上するための一連の戦略を提案する。 具体的には,初期生検出に基づいて特徴の受容野を動的に調整するためにテキスト特徴アライメントモジュール(tfam)を提案し,信頼性の高い生検出に選択的に集中し,信頼性の低いものを除外するために位置認識非最大抑圧(pa-nms)モジュールを考案した。 広範なアブレーション研究により,提案手法の有効性と優越性が示された。 提案手法を先行シーンテキスト検出イーストと統合したテキスト検出システムは,高速実行速度を維持しつつ,テキスト検出のための各種標準ベンチマークにおいて最先端あるいは競合性能を実現する。

Over the past few years, the field of scene text detection has progressed rapidly that modern text detectors are able to hunt text in various challenging scenarios. However, they might still fall short when handling text instances of extreme aspect ratios and varying scales. To tackle such difficulties, we propose in this paper a new algorithm for scene text detection, which puts forward a set of strategies to significantly improve the quality of text localization. Specifically, a Text Feature Alignment Module (TFAM) is proposed to dynamically adjust the receptive fields of features based on initial raw detections; a Position-Aware Non-Maximum Suppression (PA-NMS) module is devised to selectively concentrate on reliable raw detections and exclude unreliable ones; besides, we propose an Instance-wise IoU loss for balanced training to deal with text instances of different scales. An extensive ablation study demonstrates the effectiveness and superiority of the proposed strategies. The resulting text detection system, which integrates the proposed strategies with a leading scene text detector EAST, achieves state-of-the-art or competitive performance on various standard benchmarks for text detection while keeping a fast running speed.
翻訳日:2021-04-06 12:08:27 公開日:2021-04-05
# 音声-視覚イベントラインに沿った正のサンプル伝搬

Positive Sample Propagation along the Audio-Visual Event Line ( http://arxiv.org/abs/2104.00239v2 )

ライセンス: Link先を確認
Jinxing Zhou, Liang Zheng, Yiran Zhong, Shijie Hao, Meng Wang(参考訳) 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。 AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。 分類器の識別的特徴を学習するためには, 同期の有無に関わらず, 有益(あるいは肯定的)な音声と視覚のセグメントペアを識別し, 無関係なセグメントをフィルタリングすることが重要である。 そこで本研究では,各ペア内の関係性を評価することによって,近縁な音声と視覚のペアを発見・活用する,新たな正のサンプル伝搬(PSP)モジュールを提案する。 これは、各オーディオと視覚セグメント間の全ペア類似度マップを構築し、高い類似度スコアを持つペアからのみ機能を集約することで実現できます。 正のサンプルに対して高い相関性を持つ特徴を抽出するようネットワークに促すため,新しい音声-視覚対類似性損失を提案する。 また,弱教師付き設定における時間相関をよりよく活用する新しい重み付け枝を提案する。 我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現し,提案手法の有効性を検証した。

Visual and audio signals often coexist in natural environments, forming audio-visual events (AVEs). Given a video, we aim to localize video segments containing an AVE and identify its category. In order to learn discriminative features for a classifier, it is pivotal to identify the helpful (or positive) audio-visual segment pairs while filtering out the irrelevant ones, regardless whether they are synchronized or not. To this end, we propose a new positive sample propagation (PSP) module to discover and exploit the closely related audio-visual pairs by evaluating the relationship within every possible pair. It can be done by constructing an all-pair similarity map between each audio and visual segment, and only aggregating the features from the pairs with high similarity scores. To encourage the network to extract high correlated features for positive samples, a new audio-visual pair similarity loss is proposed. We also propose a new weighting branch to better exploit the temporal correlations in weakly supervised setting. We perform extensive experiments on the public AVE dataset and achieve new state-of-the-art accuracy in both fully and weakly supervised settings, thus verifying the effectiveness of our method.
翻訳日:2021-04-06 12:08:06 公開日:2021-04-05