このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210311となっている論文です。

PDF登録状況(公開日: 20210311)

TitleAuthorsAbstract論文公表日・翻訳日
# DenserNet: マルチスケール機能集約による視覚的ローカライゼーションの弱さ

DenserNet: Weakly Supervised Visual Localization Using Multi-scale Feature Aggregation ( http://arxiv.org/abs/2012.02366v4 )

ライセンス: Link先を確認
Dongfang Liu, Yiming Cui, Liqi Yan, Christos Mousas, Baijian Yang, Yingjie Chen(参考訳) 本研究では,視覚的ローカライゼーションのためのDenser Feature Network(DenserNet)を提案する。 私たちの仕事は3つの主要な貢献をする。 まず,画像表現のための意味レベルで特徴マップを集約する畳み込みニューラルネットワーク(cnn)アーキテクチャを開発する。 より高密度な特徴マップを用いて,より重要な特徴を抽出し,画像検索精度を向上させる。 第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。 弱教師付き三重項ランキングの損失を利用して、識別的特徴を学習し、画像表現のキーポイント特徴再現性を奨励する。 最後に,本手法は計算時の特徴やパラメータを共有できるので,計算効率がよい。 本手法は,計算制約を保ちながら,困難条件下で高精度な大規模ローカライズを行うことができる。 大規模ローカライズベンチマークと3つの画像検索ベンチマークにおいて,新たな最先端手法が提案されている。

In this work, we introduce a Denser Feature Network (DenserNet) for visual localization. Our work provides three principal contributions. First, we develop a convolutional neural network (CNN) architecture which aggregates feature maps at different semantic levels for image representations. Using denser feature maps, our method can produce more keypoint features and increase image retrieval accuracy. Second, our model is trained end-to-end without pixel-level annotation other than positive and negative GPS-tagged image pairs. We use a weakly supervised triplet ranking loss to learn discriminative features and encourage keypoint feature repeatability for image representation. Finally, our method is computationally efficient as our architecture has shared features and parameters during computation. Our method can perform accurate large-scale localization under challenging conditions while remaining the computational constraint. Extensive experiment results indicate that our method sets a new state-of-the-art on four challenging large-scale localization benchmarks and three image retrieval benchmarks.
翻訳日:2021-05-22 20:43:06 公開日:2021-03-11
# (参考訳) 中国に対する世論に対するメディアの影響の大規模定量化 [全文訳有]

Large-scale Quantitative Evidence of Media Impact on Public Opinion toward China ( http://arxiv.org/abs/2012.07575v2 )

ライセンス: CC BY 4.0
Junming Huang, Gavin Cook, Yu Xie(参考訳) マスメディアは他国の人々の意見に影響を及ぼすか? 深層ニューラルネットワークに基づく自然言語処理モデルであるBERTを用いて、1970年からThe New York Timesが発行した267,907の中国関連記事の大規模なコーパスを分析した。 そして、ニューヨーク・タイムズのアウトプットと、アメリカ国民の中国に対する見解を横断的に調査した101件のデータセットを比較します。 1年のニューヨーク・タイムズの中国に関する報道では、次の年における中国に対するアメリカの世論の変動の54%が説明されている。 以上の結果は,メディアと世論の関係を仮定し,マスメディアが外国の世論にどのように影響を与えるかを明らかにする上で有効である。

Do mass media influence people's opinion of other countries? Using BERT, a deep neural network-based natural language processing model, we analyze a large corpus of 267,907 China-related articles published by The New York Times since 1970. We then compare our output from The New York Times to a longitudinal data set constructed from 101 cross-sectional surveys of the American public's views on China. We find that the reporting of The New York Times on China in one year explains 54% of the variance in American public opinion on China in the next. Our result confirms hypothesized links between media and public opinion and helps shed light on how mass media can influence public opinion of foreign countries.
翻訳日:2021-05-17 00:40:26 公開日:2021-03-11
# 深層学習理論の最近の進歩

Recent advances in deep learning theory ( http://arxiv.org/abs/2012.10931v2 )

ライセンス: Link先を確認
Fengxiang He, Dacheng Tao(参考訳) 深層学習は通常、理論的な基礎が欠如しているという批判の下で実験駆動の分野として記述される。 この問題は、まだ十分に整理されていない大量の文献によって部分的に解決されている。 本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。 The literature is categorized in six groups: (1) complexity and capacity-based approaches for analyzing the generalizability of deep learning; (2) stochastic differential equations and their dynamic systems for modelling stochastic gradient descent and its variants, which characterize the optimization and generalization of deep learning, partially inspired by Bayesian inference; (3) the geometrical structures of the loss landscape that drives the trajectories of the dynamic systems; (4) the roles of over-parameterizatio n of deep neural networks from both positive and negative perspectives; (5) theoretical foundations of several special structures in network architectures; and (6) the increasingly intensive concerns in ethics and security and their relationships with generalizability.

Deep learning is usually described as an experiment-driven field under continuous criticizes of lacking theoretical foundations. This problem has been partially fixed by a large volume of literature which has so far not been well organized. This paper reviews and organizes the recent advances in deep learning theory. The literature is categorized in six groups: (1) complexity and capacity-based approaches for analyzing the generalizability of deep learning; (2) stochastic differential equations and their dynamic systems for modelling stochastic gradient descent and its variants, which characterize the optimization and generalization of deep learning, partially inspired by Bayesian inference; (3) the geometrical structures of the loss landscape that drives the trajectories of the dynamic systems; (4) the roles of over-parameterizatio n of deep neural networks from both positive and negative perspectives; (5) theoretical foundations of several special structures in network architectures; and (6) the increasingly intensive concerns in ethics and security and their relationships with generalizability.
翻訳日:2021-05-01 04:45:52 公開日:2021-03-11
# AudioViewer: 音の可視化を学ぶ

AudioViewer: Learning to Visualize Sound ( http://arxiv.org/abs/2012.13341v3 )

ライセンス: Link先を確認
Yuchi Zhang, Willis Peng, Bastian Wandt and Helge Rhodin(参考訳) 感覚の置換は知覚障害を持つ人に役立つ。 本研究では,映像による音声の可視化を試みる。 私たちの長期的な目標は、例えば聴覚障害者のための音知覚を作り、聴覚障害者の訓練のためのフィードバックを促進させることです。 音声・テキスト・テキスト・画像間で翻訳される既存のモデルとは違って,一般的な環境音や人間の発話に遅延のない即時かつ低レベルな翻訳をターゲットとしている。 この人工翻訳作業では標準写像は知られていない。 音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。 我々の中心となる貢献は,人間の知覚の限界を尊重し,ユーザの快適さを最大化する学習マッピングの開発と評価である。 我々は,音声ビューアモデルが生成する映像において重要な音声特徴を維持していることを質的かつ定量的に示すとともに,顔や数字の映像が高次元の音声特徴を可視化するのに適していることを示す。

Sensory substitution can help persons with perceptual deficits. In this work, we attempt to visualize audio with video. Our long-term goal is to create sound perception for hearing impaired people, for instance, to facilitate feedback for training deaf speech. Different from existing models that translate between speech and text or text and images, we target an immediate and low-level translation that applies to generic environment sounds and human speech without delay. No canonical mapping is known for this artificial translation task. Our design is to translate from audio to video by compressing both into a common latent space with shared structure. Our core contribution is the development and evaluation of learned mappings that respect human perception limits and maximize user comfort by enforcing priors and combining strategies from unpaired image translation and disentanglement. We demonstrate qualitatively and quantitatively that our AudioViewer model maintains important audio features in the generated video and that generated videos of faces and numbers are well suited for visualizing high-dimensional audio features since they can easily be parsed by humans to match and distinguish between sounds, words, and speakers.
翻訳日:2021-04-26 07:35:00 公開日:2021-03-11
# 身近な隣人の密集による薬物・標的相互作用予測と相互作用回復

Drug-Target Interaction Prediction via an Ensemble of Weighted Nearest Neighbors with Interaction Recovery ( http://arxiv.org/abs/2012.12325v2 )

ライセンス: Link先を確認
Bin Liu, Konstantinos Pliakos, Celine Vens, Grigorios Tsoumakas(参考訳) 信頼できる計算手法による薬物標的相互作用(dti)の予測は、創薬プロセスの膨大なコストと時間を軽減する効果的かつ効率的な方法である。 構造に基づく薬物類似性と配列ベースの標的タンパク質類似性は、dti予測によく用いられる情報である。 多くの計算手法の中で、薬と標的の類似性を利用して直接予測を行う近所のケモゲノミクスアプローチは単純だが有望である。 しかし、既存の類似性に基づくほとんどの手法はトランスダクティブ設定に従う。 これらの手法は、新薬、標的、または薬物標的のペアの相互作用を予測するために再構築されるべきであるため、目に見えないデータに直接一般化することはできない。 さらに、多くの類似性に基づく手法、特に近隣の手法は、3種類の相互作用予測を直接処理することはできない。 さらに、現在のDTIデータセットにおける大量の欠落した相互作用は、ほとんどのDTI予測方法を妨げる。 これらの問題に対処するため、我々はWkNNIR (Weighted k Nearest Neighbor with Interaction Recovery) と呼ばれる新しい手法を提案する。 WkNNIRは、新しい薬物や/または新しい標的の相互作用を再訓練する必要がないだけでなく、欠落した相互作用を回復することもできる。 さらに、WkNNIRは局所的不均衡を利用して、より信頼性の高い類似性がDTI予測プロセスに与える影響を促進する。 また,様々なサンプリング戦略を用いた一連のアンサンブル手法を提案し,wknnirおよび他のdti予測手法と組み合わせることで,性能の向上を図る。 5つのベンチマークデータセットに対する実験結果から,薬物と標的の相互作用を予測する手法の有効性が示された。 最後に,従来のベンチマークデータセットでは報告されていない信頼できるインタラクションを検出するための提案手法の実用的予測能力を確認した。

Predicting drug-target interactions (DTI) via reliable computational methods is an effective and efficient way to mitigate the enormous costs and time of the drug discovery process. Structure-based drug similarities and sequence-based target protein similarities are the commonly used information for DTI prediction. Among numerous computational methods, neighborhood-based chemogenomic approaches that leverage drug and target similarities to perform predictions directly are simple but promising ones. However, most existing similarity-based methods follow the transductive setting. These methods cannot directly generalize to unseen data because they should be re-built to predict the interactions for new arriving drugs, targets, or drug-target pairs. Besides, many similarity-based methods, especially neighborhood-based ones, cannot handle directly all three types of interaction prediction. Furthermore, a large amount of missing interactions in current DTI datasets hinders most DTI prediction methods. To address these issues, we propose a new method denoted as Weighted k Nearest Neighbor with Interaction Recovery (WkNNIR). Not only can WkNNIR estimate interactions of any new drugs and/or new targets without any need of re-training, but it can also recover missing interactions. In addition, WkNNIR exploits local imbalance to promote the influence of more reliable similarities on the DTI prediction process. We also propose a series of ensemble methods that employ diverse sampling strategies and could be coupled with WkNNIR as well as any other DTI prediction method to improve performance. Experimental results over five benchmark datasets demonstrate the effectiveness of our approaches in predicting drug-target interactions. Lastly, we confirm the practical prediction ability of proposed methods to discover reliable interactions that not reported in the original benchmark datasets.
翻訳日:2021-04-26 07:17:55 公開日:2021-03-11
# (参考訳) 小グループ学習とニューラルアーキテクチャ探索への応用 [全文訳有]

Small-Group Learning, with Application to Neural Architecture Search ( http://arxiv.org/abs/2012.12502v2 )

ライセンス: CC BY 4.0
Xuefeng Du, Pengtao Xie(参考訳) 人間学習では、効果的な学習方法は小グループ学習(small-group learning)である。小さなグループが同じ学習目標に向かって協力し、トピックの理解を仲間に表現し、アイデアを比較し、トラブルシュート問題に互いに助け合う。 本稿では,この人的学習手法が機械学習モデルの学習に有効かどうかを,SGL(Small-group learning)という新しいMLフレームワークを開発することによって検討する。 我々のフレームワークでは、異なるモデルアーキテクチャを持つ学習者グループ(MLモデル)が、相補的な利点を生かして相互に学習するのに役立つ。 具体的には、各学習者は、その中間訓練されたモデルを使用して擬似ラベル付きデータセットを生成し、他の学習者が生成した擬似ラベル付きデータセットを使用してそのモデルを再訓練する。 SGLは3つの学習段階からなる多段階最適化フレームワークとして定式化されている。各学習者は独立してモデルをトレーニングし、このモデルを使用して擬似ラベルを実行する。 多レベル最適化問題を解くために効率的なアルゴリズムを開発した。 ニューラルネットワーク探索にSGLを適用した。 The results on CIFAR-100, CIFAR-10, and ImageNet showed the effective of our method。

In human learning, an effective learning methodology is small-group learning: a small group of students work together towards the same learning objective, where they express their understanding of a topic to their peers, compare their ideas, and help each other to trouble-shoot problems. In this paper, we aim to investigate whether this human learning method can be borrowed to train better machine learning models, by developing a novel ML framework -- small-group learning (SGL). In our framework, a group of learners (ML models) with different model architectures collaboratively help each other to learn by leveraging their complementary advantages. Specifically, each learner uses its intermediately trained model to generate a pseudo-labeled dataset and re-trains its model using pseudo-labeled datasets generated by other learners. SGL is formulated as a multi-level optimization framework consisting of three learning stages: each learner trains a model independently and uses this model to perform pseudo-labeling; each learner trains another model using datasets pseudo-labeled by other learners; learners improve their architectures by minimizing validation losses. An efficient algorithm is developed to solve the multi-level optimization problem. We apply SGL for neural architecture search. Results on CIFAR-100, CIFAR-10, and ImageNet demonstrate the effectiveness of our method.
翻訳日:2021-04-26 04:45:05 公開日:2021-03-11
# (参考訳) 自己説明による学習とニューラルアーキテクチャ探索への応用 [全文訳有]

Learning by Self-Explanation, with Application to Neural Architecture Search ( http://arxiv.org/abs/2012.12899v2 )

ライセンス: CC BY 4.0
Ramtin Hosseini, Pengtao Xie(参考訳) 自己説明による学習は人間の学習において効果的な学習手法であり、学生は学習トピックを自分自身に説明し、このトピックに対する理解を深める。 この説明駆動学習手法が、人間が広範に利用することで、機械学習も改善できるかどうかを調べることは興味深い。 このインスピレーションに基づいて,自己説明による学習(LeaSE)と呼ばれる新しい機械学習手法を提案する。 提案手法では,予測結果の作り方について客観モデルに明確に説明することにより,その学習能力を向上させる。 LeaSEは,1) 説明者による学習,2) 説明者による説明,3) 聴衆による学習,4) 聴衆のパフォーマンスに基づく説明者による再学習,という4段階の学習段階からなる4段階の最適化問題として定式化されている。 我々はLeaSE問題を解くための効率的なアルゴリズムを開発した。 CIFAR-100, CIFAR-10, ImageNet上でのニューラルネットワーク探索にLeaSEを適用した。 実験結果は,本手法の有効性を強く示している。

Learning by self-explanation is an effective learning technique in human learning, where students explain a learned topic to themselves for deepening their understanding of this topic. It is interesting to investigate whether this explanation-driven learning methodology broadly used by humans is helpful for improving machine learning as well. Based on this inspiration, we propose a novel machine learning method called learning by self-explanation (LeaSE). In our approach, an explainer model improves its learning ability by trying to clearly explain to an audience model regarding how a prediction outcome is made. LeaSE is formulated as a four-level optimization problem involving a sequence of four learning stages which are conducted end-to-end in a unified framework: 1) explainer learns; 2) explainer explains; 3) audience learns; 4) explainer re-learns based on the performance of the audience. We develop an efficient algorithm to solve the LeaSE problem. We apply LeaSE for neural architecture search on CIFAR-100, CIFAR-10, and ImageNet. Experimental results strongly demonstrate the effectiveness of our method.
翻訳日:2021-04-26 03:08:02 公開日:2021-03-11
# 変分ネットワークの局所保存によるクラスタリングのためのロバスト表現の学習

Learning Robust Representation for Clustering through Locality Preserving Variational Discriminative Network ( http://arxiv.org/abs/2012.13489v2 )

ライセンス: Link先を確認
Ruixuan Luo, Wei Li, Zhiyuan Zhang, Ruihan Bao, Keiko Harimoto and Xu Sun(参考訳) クラスタリングは教師なし学習における根本的な問題のひとつです。 近年のディープラーニング手法はクラスタリング指向表現の学習に重点を置いている。 これらの方法のうち、変分深埋め込みは、潜在空間の前にガウス混合を指定することにより、様々なクラスタリングタスクで大きな成功を収める。 しかし、vadeは2つの問題に苦しんでいる: 1)入力ノイズに弱い;2)隣り合うデータポイント間のローカリティ情報を無視する。 本稿では,vadeを頑健な埋め込み判別器と局所構造制約により改善する学習フレームワークを提案する。 様々な視覚およびテキストデータセットの実験結果から,本手法はすべての指標において最先端のベースラインモデルよりも優れていることが示された。 さらに詳細な分析結果から,本提案手法は実用上望ましい特性である逆入力に対して非常に堅牢であることが示された。

Clustering is one of the fundamental problems in unsupervised learning. Recent deep learning based methods focus on learning clustering oriented representations. Among those methods, Variational Deep Embedding achieves great success in various clustering tasks by specifying a Gaussian Mixture prior to the latent space. However, VaDE suffers from two problems: 1) it is fragile to the input noise; 2) it ignores the locality information between the neighboring data points. In this paper, we propose a joint learning framework that improves VaDE with a robust embedding discriminator and a local structure constraint, which are both helpful to improve the robustness of our model. Experiment results on various vision and textual datasets demonstrate that our method outperforms the state-of-the-art baseline models in all metrics. Further detailed analysis shows that our proposed model is very robust to the adversarial inputs, which is a desirable property for practical applications.
翻訳日:2021-04-25 04:32:56 公開日:2021-03-11
# (参考訳) Ignoringによる学習とドメイン適応への応用 [全文訳有]

Learning by Ignoring, with Application to Domain Adaptation ( http://arxiv.org/abs/2012.14288v2 )

ライセンス: CC BY 4.0
Xingchen Zhao, Xuehai He, Pengtao Xie(参考訳) 重要でないものを識別し、学習プロセスから排除する学習は、人間の学習において広く実践されており、ユビキタスな効果を示している。 特定のことを無視する学習が、人々の集中を助ける強力なツールであることを示す心理学的な研究がある。 本稿では,この人的学習手法が機械学習改善に有効かどうかを検討する。 本稿では,LBI(Learning by ignoring)と呼ばれる新しい機械学習フレームワークを提案する。 本フレームワークは,各サンプルの無視変数を学習することにより,対象分布から大きなドメインシフトを持つ事前学習データ例を自動的に識別し,事前学習プロセスから除外する。 我々は,lbiを3段階の学習段階が関与する3段階最適化フレームワークとして定式化した。変数の無視による損失の最小化による事前学習,変数の微調整,検証損失の最小化による無視変数の更新。 LBIの3レベル最適化問題を効率よく解くために勾配に基づくアルゴリズムを開発した。 各種データセットの実験により,フレームワークの有効性が示された。

Learning by ignoring, which identifies less important things and excludes them from the learning process, is broadly practiced in human learning and has shown ubiquitous effectiveness. There has been psychological studies showing that learning to ignore certain things is a powerful tool for helping people focus. In this paper, we explore whether this useful human learning methodology can be borrowed to improve machine learning. We propose a novel machine learning framework referred to as learning by ignoring (LBI). Our framework automatically identifies pretraining data examples that have large domain shift from the target distribution by learning an ignoring variable for each example and excludes them from the pretraining process. We formulate LBI as a three-level optimization framework where three learning stages are involved: pretraining by minimizing the losses weighed by ignoring variables; finetuning; updating the ignoring variables by minimizing the validation loss. A gradient-based algorithm is developed to efficiently solve the three-level optimization problem in LBI. Experiments on various datasets demonstrate the effectiveness of our framework.
翻訳日:2021-04-20 11:56:14 公開日:2021-03-11
# 車両インターネットのための動的フェデレーション学習型経済フレームワーク

Dynamic Federated Learning-Based Economic Framework for Internet-of-Vehicles ( http://arxiv.org/abs/2101.00191v2 )

ライセンス: Link先を確認
Yuris Mulya Saputra, Dinh Thai Hoang, Diep N. Nguyen, Le-Nam Tran, Shimin Gong, and Eryk Dutkiewicz(参考訳) フェデレートラーニング(FL)は、スマートカー(SV)を活用して、最小限のデータ交換とプライバシ開示による学習プロセスに参加することにより、IoV(Internet-of-Vehi cles)ネットワークを強化することができる。 収集されたデータと学習された知識は、vsp(vehicular service provider)が、道路の安全性やvspおよびsvsの利益など、グローバルモデルの精度を向上させるのに役立つ。 それでも、多数のSVからのダイナミックアクティビティや多様な品質情報(QoI)、VSPの限られた支払い予算、SV間の利益競争など、IoVネットワークでFLを実装する際に大きな課題がある。 本稿では,これらの課題に対処するために,IoVネットワークのための新しい動的FLベースの経済フレームワークを提案する。 具体的には、VSPはまず、各学習ラウンドにおける現在位置と情報履歴の重要度に応じて、FLプロセスに最適なSVのセットを決定するためのSV選択方法を実装する。 そして、選択された各SVは、その収集されたQoIに基づいて、ロード情報を収集し、VSPに支払い契約を提供する。 そこで我々は,VSP の限られた支払い予算と VSP と SV 間の非対称情報の下で VSP と SV の利益を最大化する,マルチプリンシパルワンエージェント契約に基づく政策を開発する。 実世界のオンロードデータセットを用いた実験の結果,我々のフレームワークは57%高速に収束し(ネットワーク内のアクティブsvの10%に過ぎない),他のベースラインfl法と比較して,ネットワークの社会的福祉(最大27.2倍)を得ることができた。

Federated learning (FL) can empower Internet-of-Vehicles (IoV) networks by leveraging smart vehicles (SVs) to participate in the learning process with minimum data exchanges and privacy disclosure. The collected data and learned knowledge can help the vehicular service provider (VSP) improve the global model accuracy, e.g., for road safety as well as better profits for both VSP and participating SVs. Nonetheless, there exist major challenges when implementing the FL in IoV networks, such as dynamic activities and diverse quality-of-informati on (QoI) from a large number of SVs, VSP's limited payment budget, and profit competition among SVs. In this paper, we propose a novel dynamic FL-based economic framework for an IoV network to address these challenges. Specifically, the VSP first implements an SV selection method to determine a set of the best SVs for the FL process according to the significance of their current locations and information history at each learning round. Then, each selected SV can collect on-road information and offer a payment contract to the VSP based on its collected QoI. For that, we develop a multi-principal one-agent contract-based policy to maximize the profits of the VSP and learning SVs under the VSP's limited payment budget and asymmetric information between the VSP and SVs. Through experimental results using real-world on-road datasets, we show that our framework can converge 57% faster (even with only 10% of active SVs in the network) and obtain much higher social welfare of the network (up to 27.2 times) compared with those of other baseline FL methods.
翻訳日:2021-04-16 11:07:29 公開日:2021-03-11
# NOMAを用いたマルチセルIoTネットワークにおけるデータ駆動ランダムアクセス最適化

Data-Driven Random Access Optimization in Multi-Cell IoT Networks with NOMA ( http://arxiv.org/abs/2101.00464v2 )

ライセンス: Link先を確認
Sami Khairy, Prasanna Balaprakash, Lin X. Cai, H. Vincent Poor(参考訳) 非直交多重アクセス(Noma)は、5Gネットワーク以降で大規模な機械型通信(mMTC)を可能にする重要な技術である。 本稿では,iotデバイスがアダプティブp-persistent slotted alohaプロトコルを用いて共有無線チャネルへのアクセスを競う高密度な空間分散型マルチセル無線iotネットワークにおけるランダムアクセス効率を向上させるためにnomaを適用した。 キャパシティ最適化ネットワークを実現するために,各IoTデバイスの伝送確率を調整し,ユーザの期待するキャパシティの幾何学平均を最大化する,ランダムチャネルアクセス管理の新しい定式化を提案する。 ネットワーク最適化の目標は高次元で数学的に難解であるが、チャネルモデルやネットワークトポロジーの事前知識を必要としない効率的なデータ駆動型アルゴリズムソリューションの設計を可能にする、好適な数学的性質が認められている。 集中型モデルベースアルゴリズムとスケーラブルな分散モデルフリーアルゴリズムは、IoTデバイスの送信確率を最適に調整し、最大容量を達成するために提案される。 提案アルゴリズムの最適解への収束は、凸最適化とゲーム理論解析に基づいてさらに確立される。 広範なシミュレーションは、新しい定式化の利点と提案アルゴリズムの有効性を示している。

Non-orthogonal multiple access (NOMA) is a key technology to enable massive machine type communications (mMTC) in 5G networks and beyond. In this paper, NOMA is applied to improve the random access efficiency in high-density spatially-distribute d multi-cell wireless IoT networks, where IoT devices contend for accessing the shared wireless channel using an adaptive p-persistent slotted Aloha protocol. To enable a capacity-optimal network, a novel formulation of random channel access management is proposed, in which the transmission probability of each IoT device is tuned to maximize the geometric mean of users' expected capacity. It is shown that the network optimization objective is high dimensional and mathematically intractable, yet it admits favourable mathematical properties that enable the design of efficient data-driven algorithmic solutions which do not require a priori knowledge of the channel model or network topology. A centralized model-based algorithm and a scalable distributed model-free algorithm, are proposed to optimally tune the transmission probabilities of IoT devices and attain the maximum capacity. The convergence of the proposed algorithms to the optimal solution is further established based on convex optimization and game-theoretic analysis. Extensive simulations demonstrate the merits of the novel formulation and the efficacy of the proposed algorithms.
翻訳日:2021-04-13 07:14:57 公開日:2021-03-11
# 深層学習による電子顕微鏡の進歩

Advances in Electron Microscopy with Deep Learning ( http://arxiv.org/abs/2101.01178v5 )

ライセンス: Link先を確認
Jeffrey M. Ede(参考訳) この博士論文は、深層学習による電子顕微鏡の進歩をカバーしています。 Highlights include a comprehensive review of deep learning in electron microscopy; large new electron microscopy datasets for machine learning, dataset search engines based on variational autoencoders, and automatic data clustering by t-distributed stochastic neighbour embedding; adaptive learning rate clipping to stabilize learning; generative adversarial networks for compressed sensing with spiral, uniformly spaced and other fixed sparse scan paths; recurrent neural networks trained to piecewise adapt sparse scan paths to specimens by reinforcement learning; improving signal-to-noise; and conditional generative adversarial networks for exit wavefunction reconstruction from single transmission electron micrographs. この論文は、関係性、リフレクション、そして全体論的な結論を提示することによって、私の出版物に追加します。 私の論文のこのバージョンは、読みやすさを向上させるためのオンライン普及のためのタイプセットであり、Warwick大学に提出された論文は、物理物理学の博士号の申請を支持している。

This doctoral thesis covers some of my advances in electron microscopy with deep learning. Highlights include a comprehensive review of deep learning in electron microscopy; large new electron microscopy datasets for machine learning, dataset search engines based on variational autoencoders, and automatic data clustering by t-distributed stochastic neighbour embedding; adaptive learning rate clipping to stabilize learning; generative adversarial networks for compressed sensing with spiral, uniformly spaced and other fixed sparse scan paths; recurrent neural networks trained to piecewise adapt sparse scan paths to specimens by reinforcement learning; improving signal-to-noise; and conditional generative adversarial networks for exit wavefunction reconstruction from single transmission electron micrographs. This thesis adds to my publications by presenting their relationships, reflections, and holistic conclusions. This version of my thesis is typeset for online dissemination to improve readability, whereas the thesis submitted to the University of Warwick in support of my application for the degree of Doctor of Philosophy in Physics is typeset for physical printing and binding.
翻訳日:2021-04-11 22:58:03 公開日:2021-03-11
# (参考訳) Trankit:多言語自然言語処理のための軽量トランスフォーマーベースのツールキット [全文訳有]

Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing ( http://arxiv.org/abs/2101.03289v4 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Viet Lai, Amir Pouran Ben Veyseh, and Thien Huu Nguyen(参考訳) 我々は,多言語自然言語処理(NLP)のための軽量トランスフォーマーベースのツールキットであるTrankitを紹介する。 100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。 最先端の事前訓練言語モデルに基づいて構築されたTrankitは、文のセグメンテーション、部分音声タグ付け、形態的特徴タグ付け、依存性解析などよりも、90以上のUniversal Dependenciesツリーバンク上で、トークン化、複数ワードのトークン拡張、レムマティゼーションの競合性能を維持しながら、先行の多言語NLPパイプラインよりも大幅に優れています。 大規模な事前学習トランスフォーマーは使用していますが、ツールキットは依然としてメモリ使用量と速度において効率的です。 これは、多言語で事前訓練されたトランスフォーマーを、異なる言語用のパイプライン間で共有する、Adaptersを使った新しいプラグアンドプレイ機構によって実現されている。 私たちのツールキットとトレーニング済みのモデルとコードは、https://github.com/n lp-uoregon/trankit.c om/で公開されています。 私たちのツールキットのデモwebサイトも、http://nlp.uoregon.e du/trankitで閲覧できます。 最後に、trankitのデモビデオをhttps://youtu.be/q0k gp3zgjgcで作成します。

We introduce Trankit, a light-weight Transformer-based Toolkit for multilingual Natural Language Processing (NLP). It provides a trainable pipeline for fundamental NLP tasks over 100 languages, and 90 pretrained pipelines for 56 languages. Built on a state-of-the-art pretrained language model, Trankit significantly outperforms prior multilingual NLP pipelines over sentence segmentation, part-of-speech tagging, morphological feature tagging, and dependency parsing while maintaining competitive performance for tokenization, multi-word token expansion, and lemmatization over 90 Universal Dependencies treebanks. Despite the use of a large pretrained transformer, our toolkit is still efficient in memory usage and speed. This is achieved by our novel plug-and-play mechanism with Adapters where a multilingual pretrained transformer is shared across pipelines for different languages. Our toolkit along with pretrained models and code are publicly available at: https://github.com/n lp-uoregon/trankit. A demo website for our toolkit is also available at: http://nlp.uoregon.e du/trankit. Finally, we create a demo video for Trankit at: https://youtu.be/q0K GP3zGjGc.
翻訳日:2021-04-09 12:15:53 公開日:2021-03-11
# (参考訳) FedMood:Mood検出のためのモバイルヘルスデータのフェデレーション学習 [全文訳有]

FedMood:Federated Learning on Mobile Health Data for Mood Detection ( http://arxiv.org/abs/2102.09342v3 )

ライセンス: CC BY 4.0
Xiaohang Xu, Hao Peng, Lichao Sun, Md Zakirul Alam Bhuiyan, Lianzhong Liu, Lifang He(参考訳) Depression is one of the most common mental illness problems, and the symptoms shown by patients are not consistent, making it difficult to diagnose in the process of clinical practice and pathological research.Although researchers hope that artificial intelligence can contribute to the diagnosis and treatment of depression, the traditional centralized machine learning needs to aggregate patient data, and the data privacy of patients with mental illness needs to be strictly confidential, which hinders machine learning algorithms clinical application.To solve the problem of privacy of the medical history of patients with depression, we implement federated learning to analyze and diagnose depression. まず,マルチソースデータを用いた汎用多視点学習フレームワークを提案する。これは従来の機械学習モデルを拡張して,異なる機関や団体間でのフェデレート学習をサポートするもので,また,複数ビューデータの一貫性のない時系列の問題を解決するために,後期融合方式を採用する。

Depression is one of the most common mental illness problems, and the symptoms shown by patients are not consistent, making it difficult to diagnose in the process of clinical practice and pathological research.Although researchers hope that artificial intelligence can contribute to the diagnosis and treatment of depression, the traditional centralized machine learning needs to aggregate patient data, and the data privacy of patients with mental illness needs to be strictly confidential, which hinders machine learning algorithms clinical application.To solve the problem of privacy of the medical history of patients with depression, we implement federated learning to analyze and diagnose depression. First, we propose a general multi-view federated learning framework using multi-source data,which can extend any traditional machine learning model to support federated learning across different institutions or parties.Secondly, we adopt late fusion methods to solve the problem of inconsistent time series of multi-view data.Finally, we compare the federated framework with other cooperative learning frameworks in performance and discuss the related results.
翻訳日:2021-04-06 06:57:15 公開日:2021-03-11
# 機械学習ライフサイクルの系統的マッピングに関する研究

Systematic Mapping Study on the Machine Learning Lifecycle ( http://arxiv.org/abs/2103.10248v1 )

ライセンス: Link先を確認
Yuanhao Xie, Lu\'is Cruz, Petra Heck, Jan S. Rellermeyer(参考訳) 人工知能(AI)の開発は、さまざまな産業でAIの利点を探究している。 AIを取り巻く研究は増えているが、そのほとんどが新しいAIアルゴリズムと技術の開発に集中している。 しかし、AIの出現は、調査する必要のあるAIモデルのライフサイクル管理に関連する実践的な問題の増加をもたらしている。 このギャップに対処するために,AIモデルのライフサイクルに関する体系的なマッピング研究を実施する。 定量的研究を通じて,この分野の概要,研究機会の特定,今後の研究への提言等を行う。 2005年から2020年にかけて405件の論文を出版し、5つの研究トピックと31のサブトピックにマッピングした。 少数の出版物がデータ管理とモデル生産の問題に焦点を合わせており、より多くの研究が全体論的観点からAIライフサイクルに対処すべきであると考えている。

The development of artificial intelligence (AI) has made various industries eager to explore the benefits of AI. There is an increasing amount of research surrounding AI, most of which is centred on the development of new AI algorithms and techniques. However, the advent of AI is bringing an increasing set of practical problems related to AI model lifecycle management that need to be investigated. We address this gap by conducting a systematic mapping study on the lifecycle of AI model. Through quantitative research, we provide an overview of the field, identify research opportunities, and provide suggestions for future research. Our study yields 405 publications published from 2005 to 2020, mapped in 5 different main research topics, and 31 sub-topics. We observe that only a minority of publications focus on data management and model production problems, and that more studies should address the AI lifecycle from a holistic perspective.
翻訳日:2021-04-05 01:02:40 公開日:2021-03-11
# 事故現場におけるデータマイニングと可視化

Data Mining and Visualization to Understand Accident-prone Areas ( http://arxiv.org/abs/2103.09062v1 )

ライセンス: Link先を確認
Md Mashfiq Rizvee and Md Amiruzzaman and Md Rajibul Islam(参考訳) 本研究では,データマイニングと情報可視化技術を用いて事故発生地域,最も事故発生時間,日,月を識別する。 また, ボランティアを対象に, 非専門的な利用者がより理解しやすい可視化技術を理解するために調査を行った。 この研究の発見は、ほとんどの事故は夕暮れ(すなわち午後6時から午後7時)と金曜日に起こることを示唆している。 また、ほとんどの事故は10月に発生し、観光地として人気がある。 これらの発見は社会情報と一致しており、政策立案者、住民、観光客、その他の法執行機関を助けることができる。 この研究はより広範な意味を引き出すために拡張することができる。

In this study, we present both data mining and information visualization techniques to identify accident-prone areas, most accident-prone time, day, and month. Also, we surveyed among volunteers to understand which visualization techniques help non-expert users to understand the findings better. Findings of this study suggest that most accidents occur in the dusk (i.e., between 6 to 7 pm), and on Fridays. Results also suggest that most accidents occurred in October, which is a popular month for tourism. These findings are consistent with social information and can help policymakers, residents, tourists, and other law enforcement agencies. This study can be extended to draw broader implications.
翻訳日:2021-04-05 01:00:00 公開日:2021-03-11
# 自律システムのための安全ケーステンプレート

Safety Case Templates for Autonomous Systems ( http://arxiv.org/abs/2102.02625v2 )

ライセンス: Link先を確認
Robin Bloomfield, Gareth Fletcher, Heidy Khlaaf, Luke Hinde, Philippa Ryan(参考訳) 本報告では、機械学習(ML)コンポーネントを含む自律システムのデプロイと運用を支援する安全保証引数テンプレートについて述べる。 安全要件の開発、ハザード分析、少なくとも1つのML要素を含む自律システムの安全監視アーキテクチャ、MLとのコンポーネント、時間とともにシステムの適応と変更を行う。 レポートはまた、必要に応じてテンプレートを強化し、レビューし、適応するために使用できる、議論の敗者に対する一般的なテンプレートと証拠の信頼を示す。 このレポートは、アプローチとテンプレートに関するフィードバックを得るために提供されている。 この作業は、R-cloudフレームワークの下で英国Dstlによって支援された。

This report documents safety assurance argument templates to support the deployment and operation of autonomous systems that include machine learning (ML) components. The document presents example safety argument templates covering: the development of safety requirements, hazard analysis, a safety monitor architecture for an autonomous system including at least one ML element, a component with ML and the adaptation and change of the system over time. The report also presents generic templates for argument defeaters and evidence confidence that can be used to strengthen, review, and adapt the templates as necessary. This report is made available to get feedback on the approach and on the templates. This work was sponsored by the UK Dstl under the R-cloud framework.
翻訳日:2021-04-05 00:19:55 公開日:2021-03-11
# 内在的選択肢の発見による階層的強化学習

Hierarchical Reinforcement Learning By Discovering Intrinsic Options ( http://arxiv.org/abs/2101.06521v2 )

ライセンス: Link先を確認
Jesse Zhang, Haonan Yu, Wei Xu(参考訳) 本稿では,タスク非依存の選択肢を自己指導的に学習し,それらを協調学習してスパース・リワードタスクを解く階層的強化学習手法HIDIOを提案する。 目標達成の低いタスクやアドホックな低レベルのポリシーを定式化する現在の階層的RLアプローチとは異なり、HIDIOは、手元にあるタスクとは無関係な低レベルのオプション学習を奨励し、タスク構造に関する仮定や知識をほとんど必要としない。 これらのオプションは、オプションサブトラジェクトリで条件付けられた固有エントロピー最小化の目的を通じて学習される。 学習されたオプションは多様でタスクに依存しない。 スパースリワードロボット操作とナビゲーションタスクの実験において、HIDIOは通常のRLベースラインと2つの最先端階層的RL手法よりも高いサンプル効率で高い成功率を達成する。

We propose a hierarchical reinforcement learning method, HIDIO, that can learn task-agnostic options in a self-supervised manner while jointly learning to utilize them to solve sparse-reward tasks. Unlike current hierarchical RL approaches that tend to formulate goal-reaching low-level tasks or pre-define ad hoc lower-level policies, HIDIO encourages lower-level option learning that is independent of the task at hand, requiring few assumptions or little knowledge about the task structure. These options are learned through an intrinsic entropy minimization objective conditioned on the option sub-trajectories. The learned options are diverse and task-agnostic. In experiments on sparse-reward robotic manipulation and navigation tasks, HIDIO achieves higher success rates with greater sample efficiency than regular RL baselines and two state-of-the-art hierarchical RL methods.
翻訳日:2021-03-28 04:30:17 公開日:2021-03-11
# Auto4D: シークエンシャルポイントクラウドから4Dオブジェクトをラベル付けする学習

Auto4D: Learning to Label 4D Objects from Sequential Point Clouds ( http://arxiv.org/abs/2101.06586v2 )

ライセンス: Link先を確認
Bin Yang, Min Bai, Ming Liang, Wenyuan Zeng, Raquel Urtasun(参考訳) 過去数年間、ディープラーニング手法のおかげで、オブジェクトの知覚(特に4次元の時空次元)が大幅に進歩しました。 しかし、それらは通常、優れたパフォーマンスを達成するために大量の高品質のラベルに依存しており、それはしばしば人間の注釈による時間消費と高価な作業を必要とする。 これに対処するために,lidar point cloud から 3d 空間 (すなわち 4d ラベル) 内の正確なオブジェクトトラジェクタを生成する自動アノテーションパイプラインを提案する。 鍵となるアイデアは、4dオブジェクトラベルを2つの部分に分割することである。3dのオブジェクトサイズは剛体オブジェクトの時間を通じて固定される。 1ショットで一連のラベルを生成する代わりに、オンライン生成されたオブジェクト検出を初期化として時間を通して追跡する反復的な改善プロセスを採用する。 安価でノイズの多い入力を前提として,物体の大きさを再推定し,運動経路を滑らかにすることで高品質な4Dラベルを生成する。 提案手法を大規模運転データセット上で検証し,25%の人的アノテーションの取り組みを削減した。 また,このアプローチのメリットをannotator-in-the-loo p設定で紹介する。

In the past few years we have seen great advances in object perception (particularly in 4D space-time dimensions) thanks to deep learning methods. However, they typically rely on large amounts of high-quality labels to achieve good performance, which often require time-consuming and expensive work by human annotators. To address this we propose an automatic annotation pipeline that generates accurate object trajectories in 3D space (i.e., 4D labels) from LiDAR point clouds. The key idea is to decompose the 4D object label into two parts: the object size in 3D that's fixed through time for rigid objects, and the motion path describing the evolution of the object's pose through time. Instead of generating a series of labels in one shot, we adopt an iterative refinement process where online generated object detections are tracked through time as the initialization. Given the cheap but noisy input, our model produces higher quality 4D labels by re-estimating the object size and smoothing the motion path, where the improvement is achieved by exploiting aggregated observations and motion cues over the entire trajectory. We validate the proposed method on a large-scale driving dataset and show a 25% reduction of human annotation efforts. We also showcase the benefits of our approach in the annotator-in-the-loo p setting.
翻訳日:2021-03-27 20:18:03 公開日:2021-03-11
# PLUME:ステレオ画像からの効率的な3次元物体検出

PLUME: Efficient 3D Object Detection from Stereo Images ( http://arxiv.org/abs/2101.06594v2 )

ライセンス: Link先を確認
Yan Wang, Bin Yang, Rui Hu, Ming Liang, Raquel Urtasun(参考訳) 3Dオブジェクト検出は、自動運転を含む様々なロボットアプリケーションにおいて重要な役割を果たす。 多くのアプローチでは、LiDARのような高価な3Dセンサーを使って正確な3D推定を行うが、ステレオベースの手法は最近、より低コストで有望な結果を示している。 既存の手法では、2つのステップでこの問題に取り組む: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。 しかし、2つの異なるタスクは異なる距離空間で最適化されるため、深度推定は近傍の物体に偏りがあり、3次元検出の準最適性能を引き起こす可能性がある。 本稿では,この2つのタスクを同じ距離空間で統一するモデルを提案する。 具体的には,3次元空間における擬似lidar特徴量(plume)を直接構築し,占有率推定と物体検出の課題の解決に利用する。 提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。

3D object detection plays a significant role in various robotic applications including self-driving. While many approaches rely on expensive 3D sensors like LiDAR to produce accurate 3D estimates, stereo-based methods have recently shown promising results at a lower cost. Existing methods tackle the problem in two steps: first depth estimation is performed, a pseudo LiDAR point cloud representation is computed from the depth estimates, and then object detection is performed in 3D space. However, because the two separate tasks are optimized in different metric spaces, the depth estimation is biased towards nearby objects and may cause sub-optimal performance of 3D detection. In this paper we propose a model that unifies these two tasks in the same metric space. Specifically, our model directly constructs a pseudo LiDAR feature volume (PLUME) in 3D space, which is used to solve both occupancy estimation and object detection tasks. Our approach achieves state-of-the-art performance on the challenging KITTI benchmark, with significantly reduced inference time compared with existing methods.
翻訳日:2021-03-27 20:17:41 公開日:2021-03-11
# レコメンダシステムのための学習可能な埋め込みサイズ

Learnable Embedding Sizes for Recommender Systems ( http://arxiv.org/abs/2101.07577v2 )

ライセンス: Link先を確認
Siyi Liu, Chen Gao, Yihong Chen, Depeng Jin, Yong Li(参考訳) 埋め込み型表現学習は、生のスパース特徴を密度ベクトルにマッピングするためにディープラーニングのレコメンデーションモデルで一般的に使用される。 すべての機能に均一なサイズを割り当てる従来の埋め込み方式には2つの問題がある。 まず、多数の機能が必然的に巨大な埋め込みテーブルに結びつき、高いメモリ使用コストが生じる。 第二に、大きすぎる表現能力を必要としない機能に対して、過剰に適合する問題を引き起こす可能性が高い。 この問題に対処しようとする既存の作業は、常にレコメンデーションのパフォーマンスが大幅に低下するか、あるいは耐え難いトレーニング時間コストの制限に苦しむ。 本稿では,提案手法であるpep (plug-in embedded pruning の短縮形) を提案する。 プルーニングしきい値(s)がデータから適応的に学習できるPEPプルーネ埋め込みパラメータ。 したがって,各特徴の冗長パラメータをprunすることで,混合次元埋め込みスキームを自動的に得ることができる。 PEPは、様々なベースレコメンデーションモデルをプラグインできる一般的なフレームワークである。 大規模な実験では、埋め込みパラメータを効率的に削減し、ベースモデルのパフォーマンスを高めることができる。 具体的には、97~99%のパラメータを削減しながら、強力なレコメンデーションパフォーマンスを達成する。 計算コストに関しては、PEPはベースモデルと比較して20~30%のコストしかかからない。 コードはhttps://github.com/s sui-liu/learnable-em bed-sizes-for-RecSys で入手できる。

The embedding-based representation learning is commonly used in deep learning recommendation models to map the raw sparse features to dense vectors. The traditional embedding manner that assigns a uniform size to all features has two issues. First, the numerous features inevitably lead to a gigantic embedding table that causes a high memory usage cost. Second, it is likely to cause the over-fitting problem for those features that do not require too large representation capacity. Existing works that try to address the problem always cause a significant drop in recommendation performance or suffers from the limitation of unaffordable training time cost. In this paper, we proposed a novel approach, named PEP (short for Plug-in Embedding Pruning), to reduce the size of the embedding table while avoiding the drop of recommendation accuracy. PEP prunes embedding parameter where the pruning threshold(s) can be adaptively learned from data. Therefore we can automatically obtain a mixed-dimension embedding-scheme by pruning redundant parameters for each feature. PEP is a general framework that can plug in various base recommendation models. Extensive experiments demonstrate it can efficiently cut down embedding parameters and boost the base model's performance. Specifically, it achieves strong recommendation performance while reducing 97-99% parameters. As for the computation cost, PEP only brings an additional 20-30% time cost compared with base models. Codes are available at https://github.com/s sui-liu/learnable-em bed-sizes-for-RecSys .
翻訳日:2021-03-22 11:11:34 公開日:2021-03-11
# グリオブラスト腫の弱教師付き腫瘍分割に対する期待最大化正規化深層学習

Expectation-Maximiza tion Regularized Deep Learning for Weakly Supervised Tumor Segmentation for Glioblastoma ( http://arxiv.org/abs/2101.08757v3 )

ライセンス: Link先を確認
Chao Li, Wenjian Huang, Xi Chen, Yiran Wei, Stephen J. Price, Carola-Bibiane Sch\"onlieb(参考訳) 本稿では,弱教師付き腫瘍分画に対するexpectation-maximiza tion (em) regularized deep learning (emredl)モデルを提案する。 この枠組みは, 周囲の脳組織への拡散浸潤を特徴とする悪性腫瘍の一種であるグリオ芽腫に特化しており, 従来の構造MRIによる治療目標と腫瘍の負担評価に重要な課題となっている。 生理学的MRIは腫瘍浸潤に関するより具体的な情報を提供することができるが、比較的低解像度は正確な完全なアノテーションを妨げている。 これによって我々は,部分的なラベル付き腫瘍領域を利用した弱教師付き深層学習ソリューションの開発に動機づけられた。 EMReDLには生理的事前予測モデルとEM正規化セグメンテーションモデルという2つのコンポーネントが含まれている。 生理学的事前予測モデルは、分類器を訓練して生理的事前マップを生成することによって、生理的MRIを利用する。 このマップはemアルゴリズムを用いて正規化のためにセグメンテーションモデルに渡された。 術前のマルチパラメトリックMRIと再発MRIを併用したグリオ芽腫データセットのモデルについて検討した。 emredlは浸潤能のある部分標識領域から浸潤性腫瘍を効果的に分離することが判明した。 病理組織学的には, 浸潤した腫瘍は, 腫瘍の負担と高い整合性を示した。 性能比較の結果,emredlは最新モデルよりも精度が高かった。 MRスペクトロスコピーでは, セグメンテーション領域は他の部分標識領域よりもアグレッシブな特徴を示した。 提案したモデルは、CNNアーキテクチャをフレームワークに柔軟に組み込んだ部分ラベル付きセグメンテーションタスクに一般化することができる。

We present an Expectation-Maximiza tion (EM) Regularized Deep Learning (EMReDL) model for the weakly supervised tumor segmentation. The proposed framework was tailored to glioblastoma, a type of malignant tumor characterized by its diffuse infiltration into the surrounding brain tissue, which poses significant challenge to treatment target and tumor burden estimation based on conventional structural MRI. Although physiological MRI can provide more specific information regarding tumor infiltration, the relatively low resolution hinders a precise full annotation. This has motivated us to develop a weakly supervised deep learning solution that exploits the partial labelled tumor regions. EMReDL contains two components: a physiological prior prediction model and EM-regularized segmentation model. The physiological prior prediction model exploits the physiological MRI by training a classifier to generate a physiological prior map. This map was passed to the segmentation model for regularization using the EM algorithm. We evaluated the model on a glioblastoma dataset with the available pre-operative multiparametric MRI and recurrence MRI. EMReDL was shown to effectively segment the infiltrated tumor from the partially labelled region of potential infiltration. The segmented core and infiltrated tumor showed high consistency with the tumor burden labelled by experts. The performance comparison showed that EMReDL achieved higher accuracy than published state-of-the-art models. On MR spectroscopy, the segmented region showed more aggressive features than other partial labelled region. The proposed model can be generalized to other segmentation tasks with partial labels, with the CNN architecture flexible in the framework.
翻訳日:2021-03-21 07:45:40 公開日:2021-03-11
# 加速方法

Acceleration Methods ( http://arxiv.org/abs/2101.09545v2 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Damien Scieur and Adrien Taylor(参考訳) このモノグラフは、凸最適化に頻繁に使用される加速技術に関する最近の進歩をカバーしている。 まず、2次最適化問題を用いて、運動量とネスト最適化スキームの2つの主要なファミリーを導入し、これは2次の場合と一致して、複雑性をチェビシェフ多項式を用いて解析するチェビシェフ法を形成する。 我々は、Nesterov (1983) のセミナルな研究から始まり、モーメント手法が収束率を最大化する方法を示す重要な利点である \emph{optimized gradient method} のようないくつかのマスターテンプレートを用いた構造収束証明を詳細に論じる。 さらに、類似のアルゴリズムパターンを用いて、emph{Catalyst} および \emph{Accelerated Hybrid Proximal Extragradient} フレームワークの心臓部において、近位加速度技術をカバーする。 一般的な加速度手法は問題の正規性パラメータの知識に直接依存し、観測されていない正規性パラメータに適応しながらほぼ最適な収束率に達するための単純な手法である \emph{restart} スキームについて論じる。

This monograph covers some recent advances on a range of acceleration techniques frequently used in convex optimization. We first use quadratic optimization problems to introduce two key families of methods, momentum and nested optimization schemes, which coincide in the quadratic case to form the Chebyshev method whose complexity is analyzed using Chebyshev polynomials. We discuss momentum methods in detail, starting with the seminal work of Nesterov (1983) and structure convergence proofs using a few master templates, such as that of \emph{optimized gradient methods} which have the key benefit of showing how momentum methods maximize convergence rates. We further cover proximal acceleration techniques, at the heart of the \emph{Catalyst} and \emph{Accelerated Hybrid Proximal Extragradient} frameworks, using similar algorithmic patterns. Common acceleration techniques directly rely on the knowledge of some regularity parameters of the problem at hand, and we conclude by discussing \emph{restart} schemes, a set of simple techniques to reach nearly optimal convergence rates while adapting to unobserved regularity parameters.
翻訳日:2021-03-19 10:39:21 公開日:2021-03-11
# (参考訳) ReinforceBug: 逆のテキスト例を生成するフレームワーク [全文訳有]

ReinforceBug: A Framework to Generate Adversarial Textual Examples ( http://arxiv.org/abs/2103.08306v1 )

ライセンス: CC BY 4.0
Bushra Sabir, M. Ali Babar, Raj Gaire(参考訳) 原例の摂動によって生成された逆例(AE)は、ディープラーニング(DL)ベースのモデルの堅牢性を改善するのに有用である。 それまでのほとんどの作業では、語彙的誤りや意味的あるいは機能的に元の例から逸脱したAEを生成する。 本稿では、未知のデータセット上で転送可能なポリシーを学習し、ユーティリティ保存および転送可能な(他のモデルで)AEを生成する強化学習フレームワークであるReinforceBugを提案する。 以上の結果から,我々の手法は,最先端攻撃であるTextFoolerと比較して平均10%高い成功率を示した。 さらに、ターゲットモデルは、誤った予測に対する平均73.64%の信頼を持ち、生成されたAEは、元のモデルと機能的等価性と意味的類似性(83.38%)を保ち、平均成功率46%の他のモデルで転送可能である。

Adversarial Examples (AEs) generated by perturbing original training examples are useful in improving the robustness of Deep Learning (DL) based models. Most prior works, generate AEs that are either unconscionable due to lexical errors or semantically or functionally deviant from original examples. In this paper, we present ReinforceBug, a reinforcement learning framework, that learns a policy that is transferable on unseen datasets and generates utility-preserving and transferable (on other models) AEs. Our results show that our method is on average 10% more successful as compared to the state-of-the-art attack TextFooler. Moreover, the target models have on average 73.64% confidence in the wrong prediction, the generated AEs preserve the functional equivalence and semantic similarity (83.38% ) to their original counterparts, and are transferable on other models with an average success rate of 46%.
翻訳日:2021-03-19 04:15:41 公開日:2021-03-11
# (参考訳) ニューラルネットワークとガウス過程回帰を用いた確率負荷時の疲労破壊のリアルタイム予測と不確かさ定量化のためのデータ駆動法 [全文訳有]

Data-driven method for real-time prediction and uncertainty quantification of fatigue failure under stochastic loading using artificial neural networks and Gaussian process regression ( http://arxiv.org/abs/2103.08349v1 )

ライセンス: CC BY 4.0
Maor Farid(参考訳) 海軍および航空車両、オフショア構造、および電動システムの機械部品などの様々な工学システムは、確率的な荷重による疲労損傷にさらされている。 早期失敗予測の手法は、工学、軍事、民間の応用に不可欠である。 time to failure (ttf) の予測に加えて,不確実性定量化 (uq) がリアルタイム意思決定において重要である。 通常、時間領域または周波数領域の手法は、雨流計数や鉱夫の法則、またはディリク法のような疲労予測に使用される。 しかし、これらの手法は過度に単純化されたモデリングと確率的負荷下での不正確な故障予測に苦しむ。 近年,オフライン疲労障害に対するデータ駆動型モデルがいくつか提案されている。 しかし、そのほとんどは正確なリアルタイム疲労予測とUQの両方ができない。 現在の作業では、確率的データ駆動モデルが導入されている。 予測されたTtFの予測能力と同時UQを確保するために,完全接続型人工ニューラルネットワーク(FC-ANN)とガウス過程回帰(GPR)のハイブリッドアーキテクチャを提案する。 提案モデルのリアルタイム予測とuq性能を合成データと実験データの両方を用いて検証する。 この新しいハイブリッド手法は完全にデータ駆動であり、既存の時間領域と機械学習に基づく疲労予測の予測能力を拡張する。 環境被害の防止と人命の喪失を可能とし、構造的健康モニタリング(SHM)のためにリアルタイムの安全と運用の指示と洞察を提供する予防システムの開発に向けた道を開く。

Various engineering systems such as naval and aerial vehicles, offshore structures, and mechanical components of motorized systems, are exposed to fatigue failures due to stochastic loadings. Methods for early failure prediction are essential for engineering, military, and civil applications. In addition to the prediction of time to failure (TtF), uncertainty quantification (UQ) is of major importance for real-time decision-making purposes. Usually, time domain or frequency domain methods are used for fatigue prediction, such as rainflow counting and Miner's rule or Dirlik's method. However, those methods suffer from over-simplistic modeling and inaccurate failure predictions under stochastic loadings. During the last years, several data-driven models were suggested for offline fatigue failure. However, most of them are not capable of both accurate real-time fatigue prediction and UQ. In the current work, a probabilistic data-driven model is introduced. A hybrid architecture of a fully-connected artificial neural network (FC-ANN) and Gaussian process regression (GPR) is proposed to ensure enhanced predictive abilities and simultaneous UQ of the predicted TtF. The real-time prediction and UQ performances of the suggested model are validated using both synthetic and experimental data. This novel hybrid method is fully data-driven and extends the forecasting capabilities of existing time-domain and machine learning-based methods for fatigue prediction. It paves the way towards the development of a preventive system that provides real-time safety and operational instructions and insights for structural health monitoring (SHM) purposes, allowing prevention of environmental damage, and loss of human lives.
翻訳日:2021-03-19 03:58:53 公開日:2021-03-11
# チャネル型アクティベーション抑制による対向ロバスト性向上

Improving Adversarial Robustness via Channel-wise Activation Suppressing ( http://arxiv.org/abs/2103.08307v1 )

ライセンス: Link先を確認
Yang Bai, Yuyuan Zeng, Yong Jiang, Shu-Tao Xia, Xingjun Ma, Yisen Wang(参考訳) 敵対的な例とその活性化の研究は、ディープニューラルネットワーク(DNN)によるセキュアで堅牢な学習のために大きな注目を集めています。 本論文では, 既存の作品と異なり, 対比例の新たな特徴を, 対向例の活性化度は, 対向例の活性化度は, 対向例の自然例よりも高く, 2) 対向例の活性化度は, 対向例の対向例より均一に, 強調する。 現状の防衛対人訓練は、対人訓練による高活性化度の最初の問題に対処しており、また、一様活性化の第2号も未解決のままである。 これにより、チャネルワイド・アクティベーション・サプレッション(CAS)戦略を介して、逆方向の摂動による冗長な活性化を抑えることができる。 我々は,CASが本質的に敵の活性化を抑制するモデルを訓練でき,既存の防御手法にも容易に適用でき,より堅牢性を向上させることができることを示す。 私たちの仕事は、DNNの中間層活性化を堅牢化するためのシンプルで汎用的なトレーニング戦略を提供します。

The study of adversarial examples and their activation has attracted significant attention for secure and robust learning with deep neural networks (DNNs). Different from existing works, in this paper, we highlight two new characteristics of adversarial examples from the channel-wise activation perspective: 1) the activation magnitudes of adversarial examples are higher than that of natural examples; and 2) the channels are activated more uniformly by adversarial examples than natural examples. We find that the state-of-the-art defense adversarial training has addressed the first issue of high activation magnitudes via training on adversarial examples, while the second issue of uniform activation remains. This motivates us to suppress redundant activation from being activated by adversarial perturbations via a Channel-wise Activation Suppressing (CAS) strategy. We show that CAS can train a model that inherently suppresses adversarial activation, and can be easily applied to existing defense methods to further improve their robustness. Our work provides a simple but generic training strategy for robustifying the intermediate layer activation of DNNs.
翻訳日:2021-03-16 14:01:52 公開日:2021-03-11
# トラヒック制御最適化のための機械学習を用いたブースト遺伝的アルゴリズム

Boosted Genetic Algorithm using Machine Learning for traffic control optimization ( http://arxiv.org/abs/2103.08317v1 )

ライセンス: Link先を確認
Tuo Mao and Adriana-Simona Mihaita and Fang Chen and Hai L. Vu(参考訳) 交通制御の最適化は、世界中の様々な交通センターにとって難しい課題であり、既存のアプローチの大半は、通常の(繰り返し)交通条件下で適応的な方法の開発にのみ焦点をあてている。 重大なインシデントが発生した場合の制御計画の最適化はまだ未解決の問題であり、特に多くのレーンや交差点が影響を受ける場合である。 本稿では,この課題に取り組むことを目的として,信号化都市交差点における交通信号タイミングの最適化手法を提案する。 高速かつ信頼性の高い意思決定のために、高速実行の機械学習(ML)アルゴリズムと信頼できる遺伝的アルゴリズム(GA)を単一の最適化フレームワークに統合します。 ベンチマークとして,まず,位相持続時間を決定変数として考慮し,ネットワーク全体の移動時間を最小限に抑える目的関数として,典型的なgaアルゴリズムをデプロイすることから始める。 交叉、変異、適合度計算のためにgaを微調整し、最適なパラメータを得る。 第2に,研究対象の交通ネットワークの総走行時間を予測するために,機械学習回帰モデルをトレーニングし,最適なトレーニングパラメータを求めるために,さらにハイパーチューンを行う最適な回帰器を選択する。 最後に、GAアルゴリズムと最もパフォーマンスの高いレグレッサーである極度勾配決定木を1つの最適化フレームワークで組み合わせた新しいアルゴリズムBGA-MLを提案します。 比較と結果から,新しいBGA-MLは元のGAアルゴリズムよりもはるかに高速であり,非リカレントインシデント条件下でうまく適用可能であることが示された。

Traffic control optimization is a challenging task for various traffic centers around the world and the majority of existing approaches focus only on developing adaptive methods under normal (recurrent) traffic conditions. Optimizing the control plans when severe incidents occur still remains an open problem, especially when a high number of lanes or entire intersections are affected. This paper aims at tackling this problem and presents a novel methodology for optimizing the traffic signal timings in signalized urban intersections, under non-recurrent traffic incidents. With the purpose of producing fast and reliable decisions, we combine the fast running Machine Learning (ML) algorithms and the reliable Genetic Algorithms (GA) into a single optimization framework. As a benchmark, we first start with deploying a typical GA algorithm by considering the phase duration as the decision variable and the objective function to minimize the total travel time in the network. We fine tune the GA for crossover, mutation, fitness calculation and obtain the optimal parameters. Secondly, we train various machine learning regression models to predict the total travel time of the studied traffic network, and select the best performing regressor which we further hyper-tune to find the optimal training parameters. Lastly, we propose a new algorithm BGA-ML combining the GA algorithm and the extreme-gradient decision-tree, which is the best performing regressor, together in a single optimization framework. Comparison and results show that the new BGA-ML is much faster than the original GA algorithm and can be successfully applied under non-recurrent incident conditions.
翻訳日:2021-03-16 14:01:28 公開日:2021-03-11
# HSCoNAS: ニューラルネットワークによる効率的なDNNのハードウェアソフトウェア共同設計

HSCoNAS: Hardware-Software Co-Design of Efficient DNNs via Neural Architecture Search ( http://arxiv.org/abs/2103.08325v1 )

ライセンス: Link先を確認
Xiangzhong Luo, Di Liu, Shuo Huai, and Weichen Liu(参考訳) 本論文では,HDN(Deep Neural Network, DNN)の設計を高精度かつターゲットハードウェア上で低遅延で自動化する,新規なマルチオブジェクト型ハードウェアアウェアニューラルネットワーク探索(NAS)フレームワークであるHSCoNASを提案する。 この目的を達成するために、我々はまず、ターゲットハードウェア上でのDNNのランタイム遅延を近似する効果的なハードウェア性能モデリング手法を提案し、この手法をHSCoNASに統合して、面倒なオンデバイス計測を避ける。 また, 動的チャネルスケーリングにより, 特定遅延下での精度を最大化し, プログレッシブスペースを縮小し, 対象ハードウェアに対する検索空間を改良し, 検索オーバーヘッドを緩和する, という2つの新しい手法を提案する。 これら2つの技術は、HSCoNASが微細で効率的な探査を行うために共同で働く。 最後に、アーキテクチャ検索を行うために進化的アルゴリズム(EA)が組み込まれている。 ImageNetの広範な実験は、GPU、CPU、エッジデバイスなどの多様なターゲットハードウェア上で行われ、最新のアプローチと比較してHSCoNASの優位性を示しています。

In this paper, we present a novel multi-objective hardware-aware neural architecture search (NAS) framework, namely HSCoNAS, to automate the design of deep neural networks (DNNs) with high accuracy but low latency upon target hardware. To accomplish this goal, we first propose an effective hardware performance modeling method to approximate the runtime latency of DNNs on target hardware, which will be integrated into HSCoNAS to avoid the tedious on-device measurements. Besides, we propose two novel techniques, i.e., dynamic channel scaling to maximize the accuracy under the specified latency and progressive space shrinking to refine the search space towards target hardware as well as alleviate the search overheads. These two techniques jointly work to allow HSCoNAS to perform fine-grained and efficient explorations. Finally, an evolutionary algorithm (EA) is incorporated to conduct the architecture search. Extensive experiments on ImageNet are conducted upon diverse target hardware, i.e., GPU, CPU, and edge device to demonstrate the superiority of HSCoNAS over recent state-of-the-art approaches.
翻訳日:2021-03-16 14:01:02 公開日:2021-03-11
# モバイルネットワークデータのクラスタリングのための逆ネットのデコレーション

Decorrelating Adversarial Nets for Clustering Mobile Network Data ( http://arxiv.org/abs/2103.08348v1 )

ライセンス: Link先を確認
Marton Kajo, Janik Schnellbach, Stephen S. Mwanje, Georg Carle(参考訳) ディープラーニングは、未来のモバイルネットワークのための認知自動化を可能にする上で重要な役割を果たします。 ディープラーニングのサブセットであるdeep clusteringは、多くのネットワーク自動化ユースケースにとって貴重なツールになり得る。 残念ながら、ほとんどの最先端のクラスタリングアルゴリズムはイメージデータセットをターゲットにしているため、高度に調整された性質とデータに関する関連する前提のため、モバイルネットワークデータに適用することは困難である。 本稿では,DANCE(Decorrelating Adversarial Nets for Clustering-Friendly Encoding)という,ネットワーク自動化のユースケースにも適用可能な,信頼性の高いディープクラスタリング手法を提案する。 DANCEは再構成的クラスタリングアプローチを採用し、クラスタリング関連とクラスタリング非関連の特徴を潜在表現で分離する。 この分離は、クラスタリングから不要な情報を取り除き、一貫性とピークパフォーマンスを高めます。 我々は、DANCEや他の最先端のディープクラスタリングアルゴリズムを包括的に評価し、モバイルネットワークデータセットにおいて、DANCEがこれらのアルゴリズムよりも優れていることを示す。

Deep learning will play a crucial role in enabling cognitive automation for the mobile networks of the future. Deep clustering, a subset of deep learning, could be a valuable tool for many network automation use-cases. Unfortunately, most state-of-the-art clustering algorithms target image datasets, which makes them hard to apply to mobile network data due to their highly tuned nature and related assumptions about the data. In this paper, we propose a new algorithm, DANCE (Decorrelating Adversarial Nets for Clustering-friendly Encoding), intended to be a reliable deep clustering method which also performs well when applied to network automation use-cases. DANCE uses a reconstructive clustering approach, separating clustering-relevant from clustering-irrelevan t features in a latent representation. This separation removes unnecessary information from the clustering, increasing consistency and peak performance. We comprehensively evaluate DANCE and other select state-of-the-art deep clustering algorithms, and show that DANCE outperforms these algorithms by a significant margin on a mobile network dataset.
翻訳日:2021-03-16 14:00:44 公開日:2021-03-11
# ディープニューラルネットワーク加速のためのプルーニングと量子化:サーベイ

Pruning and Quantization for Deep Neural Network Acceleration: A Survey ( http://arxiv.org/abs/2101.09671v2 )

ライセンス: Link先を確認
Tailin Liang, John Glossner, Lei Wang, Shaobo Shi(参考訳) ディープニューラルネットワークは、コンピュータビジョンの分野で異常な能力を示す多くのアプリケーションに応用されている。 しかし、複雑なネットワークアーキテクチャは効率的なリアルタイムデプロイメントに挑戦し、計算資源とエネルギーコストがかなり必要である。 これらの課題はネットワーク圧縮などの最適化によって克服できる。 ネットワーク圧縮は精度を損なうことなく実現されることが多い。 精度が向上する場合もあります。 本稿では,pruning と quantization の2種類のネットワーク圧縮に関する調査を行う。 プルーニングは、オフラインまたは動的に実行された場合、実行時に実行された場合、静的に分類できる。 我々は,冗長計算の除去に使用されるプルーニング手法と基準を記述する。 本稿では,要素的,チャネル的,形状的,フィルタ的,層的,ネットワーク的といったトレードオフについて論じる。 量子化はデータ型の精度を下げることで計算を減らす。 重み、バイアス、アクティベーションは通常8ビット整数に量子化されるが、低ビット幅の実装もバイナリニューラルネットワークを含む議論されている。 プルーニングと量子化は独立に、あるいは組み合わせて使うことができる。 現在の技術を比較し、強みと弱みを分析し、多くのフレームワークで圧縮ネットワークの精度を示すとともに、ネットワークの圧縮に関する実践的なガイダンスを提供する。

Deep neural networks have been applied in many applications exhibiting extraordinary abilities in the field of computer vision. However, complex network architectures challenge efficient real-time deployment and require significant computation resources and energy costs. These challenges can be overcome through optimizations such as network compression. Network compression can often be realized with little loss of accuracy. In some cases accuracy may even improve. This paper provides a survey on two types of network compression: pruning and quantization. Pruning can be categorized as static if it is performed offline or dynamic if it is performed at run-time. We compare pruning techniques and describe criteria used to remove redundant computations. We discuss trade-offs in element-wise, channel-wise, shape-wise, filter-wise, layer-wise and even network-wise pruning. Quantization reduces computations by reducing the precision of the datatype. Weights, biases, and activations may be quantized typically to 8-bit integers although lower bit width implementations are also discussed including binary neural networks. Both pruning and quantization can be used independently or combined. We compare current techniques, analyze their strengths and weaknesses, present compressed network accuracy results on a number of frameworks, and provide practical guidance for compressing networks.
翻訳日:2021-03-16 09:18:35 公開日:2021-03-11
# (参考訳) 英語とロシア語の形態的埋め込みの評価 [全文訳有]

Evaluation of Morphological Embeddings for English and Russian Languages ( http://arxiv.org/abs/2103.06884v1 )

ライセンス: CC BY 4.0
Vitaly Romanov and Albina Khusainova(参考訳) 本論文では,英語とロシア語の形態素に基づく埋め込みについて評価する。 過去にいくつかの形態素ベースの単語埋め込みモデルに興味を持ち導入し、単語の類似性と言語モデリングタスクのパフォーマンス改善を賞賛したにもかかわらず、私たちの実験では、我々は私たちのベースラインモデルであるSkipGramとFastTextの2つよりも安定した好みを観察しなかった。 モルフォロジー埋め込みで示されるパフォーマンスは、上記の2つのベースラインの平均である。

This paper evaluates morphology-based embeddings for English and Russian languages. Despite the interest and introduction of several morphology-based word embedding models in the past and acclaimed performance improvements on word similarity and language modeling tasks, in our experiments, we did not observe any stable preference over two of our baseline models - SkipGram and FastText. The performance exhibited by morphological embeddings is the average of the two baselines mentioned above.
翻訳日:2021-03-16 03:27:46 公開日:2021-03-11
# (参考訳) 現代の次元削減

Modern Dimension Reduction ( http://arxiv.org/abs/2103.06885v1 )

ライセンス: CC BY 4.0
Philip D. Waggoner(参考訳) データは社会で普遍的であるだけでなく、サイズと次元の両方でますます複雑です。 次元の縮小により、研究者や研究者はそのような複雑で高次元のデータ空間をシンプルで管理しやすいものにすることができる。 この要素は、数百行のRコードとともに現代の監視されていない次元縮小技術のスイートを読者に提供し、元の高次元データ空間を簡略化された低次元のサブスペースで効率的に表現します。 最初期の次元削減技術による主成分分析と実社会科学データの利用から,局所線形埋め込み,t分散確率的隣接埋め込み(t-SNE),一様多様体近似と投影,自己組織化マップ,深部オートエンコーダといった手法を応用し,ウォーキング読者に紹介・紹介する。 その結果は、現代社会でよく見られる高次元データの複雑性に取り組むための監視されていないアルゴリズムの十分なツールボックスである。 すべてのコードはgithubで公開されている。

Data are not only ubiquitous in society, but are increasingly complex both in size and dimensionality. Dimension reduction offers researchers and scholars the ability to make such complex, high dimensional data spaces simpler and more manageable. This Element offers readers a suite of modern unsupervised dimension reduction techniques along with hundreds of lines of R code, to efficiently represent the original high dimensional data space in a simplified, lower dimensional subspace. Launching from the earliest dimension reduction technique principal components analysis and using real social science data, I introduce and walk readers through application of the following techniques: locally linear embedding, t-distributed stochastic neighbor embedding (t-SNE), uniform manifold approximation and projection, self-organizing maps, and deep autoencoders. The result is a well-stocked toolbox of unsupervised algorithms for tackling the complexities of high dimensional data so common in modern society. All code is publicly accessible on Github.
翻訳日:2021-03-16 03:20:55 公開日:2021-03-11
# (参考訳) 学習に基づく自己適応システムの聖杯としての未知の状況への適応:研究方向 [全文訳有]

Adaptation to Unknown Situations as the Holy Grail of Learning-Based Self-Adaptive Systems: Research Directions ( http://arxiv.org/abs/2103.06908v1 )

ライセンス: CC BY 4.0
Ivana Dusparic, Nicolas Cardozo(参考訳) 自己適応型システムは、実行環境の変化に継続的に適応する。 事前に適切な行動を定義するために可能なすべての変更をキャプチャすることは不可能であり、未知の変化の場合は不可能である。 我々は、未知の状況への適応は自己適応システムにとって究極の課題であると主張する。 学習に基づくアプローチは、未知の状況において提示する適切な振る舞いを学習し、人間の介入を最小化または完全に排除するために使用される。 そのようなアプローチは、新しい状況への既存の適応をある程度一般化することができるが、システムが一般的な未知および予期しない状況に適応する前に達成する必要がある多くのブレークスルーがある。 学習に基づく自己適応システムの観点から,予期せぬ適応を実現するために検討すべき研究方向を示す。 最低限、システムは、未確認の状況の内的表現を定義し、既存の適応を進化させるために、それまで遭遇した状況との関係を外挿し、新しい状況における本質的な目標を達成する可能性について考える必要がある。 我々は、可能であったとしても、人間の監督を伴わずに、自分たちの行動を定義し、彼らの目標に適応するシステムを構築するべきかどうかを議論を締めくくった。

Self-adaptive systems continuously adapt to changes in their execution environment. Capturing all possible changes to define suitable behaviour beforehand is unfeasible, or even impossible in the case of unknown changes, hence human intervention may be required. We argue that adapting to unknown situations is the ultimate challenge for self-adaptive systems. Learning-based approaches are used to learn the suitable behaviour to exhibit in the case of unknown situations, to minimize or fully remove human intervention. While such approaches can, to a certain extent, generalize existing adaptations to new situations, there is a number of breakthroughs that need to be achieved before systems can adapt to general unknown and unforeseen situations. We posit the research directions that need to be explored to achieve unanticipated adaptation from the perspective of learning-based self-adaptive systems. At minimum, systems need to define internal representations of previously unseen situations on-the-fly, extrapolate the relationship to the previously encountered situations to evolve existing adaptations, and reason about the feasibility of achieving their intrinsic goals in the new set of conditions. We close discussing whether, even when we can, we should indeed build systems that define their own behaviour and adapt their goals, without involving a human supervisor.
翻訳日:2021-03-16 03:13:01 公開日:2021-03-11
# (参考訳) NLUモデルの短期学習行動の解釈と緩和に向けて [全文訳有]

Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU models ( http://arxiv.org/abs/2103.06922v1 )

ライセンス: CC BY 4.0
Mengnan Du, Varun Manjunatha, Rajiv Jain, Ruchi Deshpande, Franck Dernoncourt, Jiuxiang Gu, Tong Sun and Xia Hu(参考訳) 最近の研究では、NLUモデルは予測のショートカット機能に依存する傾向にある。 その結果、これらのモデルは、現実の分散シナリオに一般化できない可能性がある。 本研究では,長尾現象によってショートカット学習の挙動を説明できることを示した。 1) 訓練されたnluモデルは,ロングテール分布の先頭に位置する特徴に対して強い選好性を持ち,2) モデルトレーニングのごく初期のイテレーションでショートカット機能を選択できること,の2つがある。 これらの2つの観測は、各トレーニングサンプルのショートカット度を定量化できる測定を定式化するためにさらに用いられる。 このショートカット測定に基づいて,大規模なショートカット度を有するサンプルに対する過信予測を抑えるためのショートカット緩和フレームワークを提案する。 3つのNLUベンチマークによる実験結果から,NLUモデルのショートカット学習挙動を正確に反映した長期分布説明が得られた。 さらに, 実験結果から, OODデータの一般化精度を向上し, 分散テストデータに精度を保存できることが示唆された。

Recent studies indicate that NLU models are prone to rely on shortcut features for prediction. As a result, these models could potentially fail to generalize to real-world out-of-distribution scenarios. In this work, we show that the shortcut learning behavior can be explained by the long-tailed phenomenon. There are two findings : 1) Trained NLU models have strong preference for features located at the head of the long-tailed distribution, and 2) Shortcut features are picked up during very early few iterations of the model training. These two observations are further employed to formulate a measurement which can quantify the shortcut degree of each training sample. Based on this shortcut measurement, we propose a shortcut mitigation framework, to suppress the model from making overconfident predictions for samples with large shortcut degree. Experimental results on three NLU benchmarks demonstrate that our long-tailed distribution explanation accurately reflects the shortcut learning behavior of NLU models. Experimental analysis further indicates that our method can improve the generalization accuracy on OOD data, while preserving the accuracy on in distribution test data.
翻訳日:2021-03-16 03:09:03 公開日:2021-03-11
# (参考訳) Anaphoric Binding: 総合的な概要

Anaphoric Binding: an integrated overview ( http://arxiv.org/abs/2103.06924v1 )

ライセンス: CC BY 4.0
Ant\'onio Branco(参考訳) アナフォラスの解釈は、アナフォが最終的に伝える意味的価値は、その先行項の値によって同一に指定されるため、先行項に依存する。 興味深いことに、特定の構文的位置で起こる場合、異なるアナプホルは許容される前駆体のセットが異なる可能性がある。 このような差異は、それらのアナフォリック能力に応じてアナフォリック表現の分類の基礎であり、許容可能なアナフォリックの集合と、各タイプのアナフォリックのこのアナフォリック表現と処理方法を決定することが重要である。 経験的観点からすると、これらの制約は、言語横断的妥当性を考えると、非常に合理的な一般化と見なされ、普遍的な特徴を示すものに由来する。 概念的な見地からすると、束縛制約の間の関係は非自明なクロス対称性を伴い、モジュラー性を与え、普遍的な性質の信頼性にさらなる強みを与える。 この種の照応束縛制約は自然言語知識の最も重要な部分集合として見られ、通常は束縛理論と呼ばれる。 本稿では,これらの制約の概観を,文法的関係と構造に基く,名目的アナフォと許容される先行詞のペアリングについて述べる。 自然言語に対するニューロシンボリックなアプローチへの関心の高まりとともに、本論文は最も興味深い研究テーマに対する関心の復活に寄与することを目指している。

The interpretation of anaphors depends on their antecedents as the semantic value that an anaphor eventually conveys is co-specified by the value of its antecedent. Interestingly, when occurring in a given syntactic position, different anaphors may have different sets of admissible antecedents. Such differences are the basis for the categorization of anaphoric expressions according to their anaphoric capacity, being important to determine what are the sets of admissible antecedents and how to represent and process this anaphoric capacity for each type of anaphor. From an empirical perspective, these constraints stem from what appears as quite cogent generalisations and exhibit a universal character, given their cross linguistic validity. From a conceptual point of view, in turn, the relations among binding constraints involve non-trivial cross symmetry, which lends them a modular nature and provides further strength to the plausibility of their universal character. This kind of anaphoric binding constraints appears thus as a most significant subset of natural language knowledge, usually referred to as binding theory. This paper provides an integrated overview of these constraints holding on the pairing of nominal anaphors with their admissible antecedents that are based on grammatical relations and structure. Along with the increasing interest on neuro-symbolic approaches to natural language, this paper seeks to contribute to revive the interest on this most intriguing research topic.
翻訳日:2021-03-16 02:48:50 公開日:2021-03-11
# (参考訳) Linnaeus: 再利用可能で適応可能なMLベースのログ分類パイプライン [全文訳有]

Linnaeus: A highly reusable and adaptable ML based log classification pipeline ( http://arxiv.org/abs/2103.06927v1 )

ライセンス: CC BY 4.0
Armin Catovic, Carolyn Cartwright, Yasmin Tesfaldet Gebreyesus and Simone Ferlin(参考訳) ログはソフトウェアに詳細な実行時情報を記録するための一般的な方法だ。 現代のソフトウェアシステムが規模と複雑さで進化するにつれて、ログはシステムの内部状態を理解するのに不可欠になっている。 しかし同時に、手動でログを検査するのも現実的ではない。 近年では、統計的および機械学習(ML)ベースのログ分析方法に重点が置かれている。 結果は有望だが、ほとんどの文献はアルゴリズムと最先端技術(SOTA)に焦点を当てているが、実際的な側面は無視している。 本稿では,エンドツーエンドのログ分類パイプラインLinnaeusを実演する。 従来のmlフローに加えて、適応性と再利用のためのソリューション、大規模ソフトウェア開発プロセスへの統合、ラベル付きデータの欠如に対する対処方法も示しています。 Linnaeusが、さまざまなMLベースのソリューションを、他の大規模産業環境に統合するための青写真として機能できることを願っています。

Logs are a common way to record detailed run-time information in software. As modern software systems evolve in scale and complexity, logs have become indispensable to understanding the internal states of the system. At the same time however, manually inspecting logs has become impractical. In recent times, there has been more emphasis on statistical and machine learning (ML) based methods for analyzing logs. While the results have shown promise, most of the literature focuses on algorithms and state-of-the-art (SOTA), while largely ignoring the practical aspects. In this paper we demonstrate our end-to-end log classification pipeline, Linnaeus. Besides showing the more traditional ML flow, we also demonstrate our solutions for adaptability and re-use, integration towards large scale software development processes, and how we cope with lack of labelled data. We hope Linnaeus can serve as a blueprint for, and inspire the integration of, various ML based solutions in other large scale industrial settings.
翻訳日:2021-03-16 02:47:33 公開日:2021-03-11
# (参考訳) セミスーパービジョンiNaturalist-Aves Challenge at FGVC7 Workshop [全文訳有]

The Semi-Supervised iNaturalist-Aves Challenge at FGVC7 Workshop ( http://arxiv.org/abs/2103.06937v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Subhransu Maji(参考訳) 本論文は,cvpr 2020 の fgvc7 ワークショップ において,半教師付き認識課題~\cite{semi-aves} のために収集したデータセットの詳細と動機について述べる。 データセットには、iNat-2018データセットから採取された1000種の鳥が含まれており、合計で150万枚近い画像がある。 このコレクションから、クラスとそのラベルのサブセットをサンプリングし、残りのクラスからのイメージをラベル付けされていないイメージセットに追加する。 アウトオブドメインデータ(ノベルクラス)、高いクラスアンバランス、クラス間の細かい類似性の存在は、文学における既存の半監督認識技術にとって重要な課題である。 データセットはここにある: \url{https://github.com/c vl-umass/semi-inat-2 020}

This document describes the details and the motivation behind a new dataset we collected for the semi-supervised recognition challenge~\cite{semi-aves} at the FGVC7 workshop at CVPR 2020. The dataset contains 1000 species of birds sampled from the iNat-2018 dataset for a total of nearly 150k images. From this collection, we sample a subset of classes and their labels, while adding the images from the remaining classes to the unlabeled set of images. The presence of out-of-domain data (novel classes), high class-imbalance, and fine-grained similarity between classes poses significant challenges for existing semi-supervised recognition techniques in the literature. The dataset is available here: \url{https://github.com/c vl-umass/semi-inat-2 020}
翻訳日:2021-03-16 02:34:20 公開日:2021-03-11
# (参考訳) 平文テーブル検出のためのホワイトスペース非依存レベンシュテイン距離の想像 [全文訳有]

Imagined-Trailing-Wh itespace-Agnostic Levenshtein Distance For Plaintext Table Detection ( http://arxiv.org/abs/2103.06942v1 )

ライセンス: CC BY 4.0
Kartik Vempala (Bloomberg LP)(参考訳) Levenshtein距離の標準アルゴリズムは、後続の空白を他の文字や記号と同じ扱います。 しかし、人間が2つの文字列を比較するとき、両方の文字列は無限の後続の空白でパッドされていると暗黙的に仮定する。 これにより、挿入、削除、および交換のコストがどうあるべきかが予想されます。 この期待に反すると、直感的な編集距離値が得られません。 この特定の人間の直観を考慮すれば、後続する空白空間の「すべての可能な」部分文字列を考えるナイーブなアプローチは、$o(n^3)$アルゴリズムをもたらす。 本研究では,効率の良い$O(n^2)$アルゴリズムを用いて計算を行う。 キーワード:無限の後続ホワイトスペース、人間フレンドリー、直感的な編集距離、テーブル検出、テーブルアライメント

The standard algorithm for Levenshtein distance, treats trailing whitespace the same as any other letter or symbol. However, when humans compare 2 strings, we implicitly assume that both strings are padded by infinite trailing whitespace. This informs our expectations for what the costs for insertion, deletion and replacement, should be. This violation of our expectations results in non-intuitive edit distance values. To account for this specific human intuition, a naive approach which considers "all possible" substrings of trailing whitespace would yield an $O(n^3)$ algorithm. In this work, we provide an efficient $O(n^2)$ algorithm to compute the same. Keywords: Imagined Infinite Trailing Whitespace, Human Friendly, Intuitive Edit Distance, Table Detection, Table Alignment
翻訳日:2021-03-16 02:29:47 公開日:2021-03-11
# (参考訳) 事前登録NLP研究 [全文訳有]

Preregistering NLP Research ( http://arxiv.org/abs/2103.06944v1 )

ライセンス: CC BY 4.0
Emiel van Miltenburg and Chris van der Lee and Emiel Krahmer(参考訳) 事前登録(Preregistration)とは、研究を行う前に、自分が何をするか、そして研究で何を期待するかを特定するプラクティスである。 この習慣は医学や心理学でますます一般的ですが、NLPではめったに議論されていません。 本論文では, 事前登録についてより詳細に検討し, NLP 研究者の事前登録方法を検討し, 各種研究の事前登録問題を提示する。 最後に、我々はnlp研究におけるスローサイエンスの強固な根拠を提供する登録レポートを支持している。 本研究の目的は,NLPコミュニティにおける議論を提起することであり,今後の研究における一般的なNLP事前登録形式への合成を期待する。

Preregistration refers to the practice of specifying what you are going to do, and what you expect to find in your study, before carrying out the study. This practice is increasingly common in medicine and psychology, but is rarely discussed in NLP. This paper discusses preregistration in more detail, explores how NLP researchers could preregister their work, and presents several preregistration questions for different kinds of studies. Finally, we argue in favour of registered reports, which could provide firmer grounds for slow science in NLP research. The goal of this paper is to elicit a discussion in the NLP community, which we hope to synthesise into a general NLP preregistration form in future research.
翻訳日:2021-03-16 02:21:33 公開日:2021-03-11
# (参考訳) ソフト Jaccard Index と 3D Keypoint Set を用いた効率的なペアワイズ神経画像解析 [全文訳有]

Efficient Pairwise Neuroimage Analysis using the Soft Jaccard Index and 3D Keypoint Sets ( http://arxiv.org/abs/2103.06966v1 )

ライセンス: CC BY-SA 4.0
Laurent Chauvin, Kuldeep Kumar, Christian Desrosiers, William Wells III and Matthew Toews(参考訳) 大規模医用画像インデクシングを目的とした可変サイズの画像キーポイント間のペアワイズ距離測定法を提案する。 本手法は,集合要素間のソフトセット同値性(sse)を考慮したjaccard距離を,キーポイントの出現と幾何学の不確実性を考慮した適応カーネルフレームワークを通じて一般化する。 位置とスケールにおけるキーポイント幾何のばらつきを定量化するために,新しいカーネルを提案する。 我々の距離測度は、キーポイントインデックスによる$O(N~log~N)$演算における$N^2$画像対の間で推定できる。 実験では,T1強調MRI脳量,双生児双生児,兄弟姉妹,異型児の509,545対の関係を,多型遺伝子の100%-25%に分けて評価した。 ソフトセット等価性およびキーポイントジオメトリカーネルは、家族関係の予測において標準ハードセット等価性(HSE)を上回っている。 遺伝子型決定過程の誤りにより、一卵性双生児の識別が100%近くなり、未知の家族ラベルのいくつかのケースは、正しく家族とペアリングされる。 大規模で汎用的な画像データセットの効率的な細かなキュレーションのためのソフトウェアを提供する。

We propose a novel pairwise distance measure between variable sized sets of image keypoints for the purpose of large-scale medical image indexing. Our measure generalizes the Jaccard distance to account for soft set equivalence (SSE) between set elements, via an adaptive kernel framework accounting for uncertainty in keypoint appearance and geometry. Novel kernels are proposed to quantify variability of keypoint geometry in location and scale. Our distance measure may be estimated between $N^2$ image pairs in $O(N~log~N)$ operations via keypoint indexing. Experiments validate our method in predicting 509,545 pairwise relationships from T1-weighted MRI brain volumes of monozygotic and dizygotic twins, siblings and half-siblings sharing 100%-25% of their polymorphic genes. Soft set equivalence and keypoint geometry kernels outperform standard hard set equivalence (HSE) in predicting family relationships. High accuracy is achieved, with monozygotic twin identification near 100% and several cases of unknown family labels, due to errors in the genotyping process, are correctly paired with family members. Software is provided for efficient fine-grained curation of large, generic image datasets.
翻訳日:2021-03-16 02:08:58 公開日:2021-03-11
# (参考訳) コンセンサスに基づくマルチエージェント強化学習における逆攻撃 [全文訳有]

Adversarial attacks in consensus-based multi-agent reinforcement learning ( http://arxiv.org/abs/2103.06967v1 )

ライセンス: CC BY 4.0
Martin Figura, Krishna Chaitanya Kosaraju, and Vijay Gupta(参考訳) 最近、多くの協調分散マルチエージェント強化学習(MARL)アルゴリズムが文献で提案されている。 本研究では,コンセンサスに基づくMARLアルゴリズムを用いたネットワークに対する敵攻撃の効果について検討する。 敵エージェントがネットワーク内の他のエージェント全員を説得して、ネットワークが望む目的を最適化するポリシーを実装することができることを示す。 この意味では、標準コンセンサスベースのMARLアルゴリズムは攻撃に脆弱である。

Recently, many cooperative distributed multi-agent reinforcement learning (MARL) algorithms have been proposed in the literature. In this work, we study the effect of adversarial attacks on a network that employs a consensus-based MARL algorithm. We show that an adversarial agent can persuade all the other agents in the network to implement policies that optimize an objective that it desires. In this sense, the standard consensus-based MARL algorithms are fragile to attacks.
翻訳日:2021-03-16 01:34:02 公開日:2021-03-11
# (参考訳) Exa.TrkX TrackMLパイプラインの物理と計算性能 [全文訳有]

Physics and Computing Performance of the Exa.TrkX TrackML Pipeline ( http://arxiv.org/abs/2103.06995v1 )

ライセンス: CC BY-SA 4.0
Xiangyang Ju (1) and Daniel Murnane (1) and Paolo Calafiura (1) and Nicholas Choma (1) and Sean Conlon (1) and Steve Farrell (1) and Yaoyuan Xu (1) and Maria Spiropulu (2) and Jean-Roch Vlimant (2) and Adam Aurisano (3) and Jeremy Hewes (3) and Giuseppe Cerati (4) and Lindsey Gray (4) and Thomas Klijnsma (4) and Jim Kowalkowski (4) and Markus Atkinson (5) and Mark Neubauer (5) and Gage DeZoort (6) and Savannah Thais (6) and Aditi Chauhan (7) and Alex Schuy (7) and Shih-Chieh Hsu (7) and Alex Ballow (8) and and Alina Lazar (8) ((1) Lawrence Berkeley National Laboratory, (2) California Institute of Technology, (3) University of Cincinnati, (4) Fermi National Accelerator Laboratory, (5) University of Illinois at Urbana-Champaign, (6) Princeton University, (7) University of Washington, (8) Youngstown State University)(参考訳) Exa.TrkXプロジェクトは、計量学習やグラフニューラルネットワークなどの幾何学的学習の概念をHEP粒子追跡に適用した。 exa.trkxトラッキングパイプラインクラスタ検出器計測により、トラック候補を形成、フィルタリングする。 TrackMLデータセット(LHCに似た追跡検出器のシミュレーション)を使用して開発されたパイプラインは、DUNE LArTPCやCMS High-Granularity Calorimeterなど、さまざまな検出器で実証されている。 本論文では、完全なTrackMLデータセット上でExa.TrkXパイプラインの物理性能と計算性能を研究するために必要な新しい開発を文書化し、ATLASとCMSデータを使用してパイプラインを検証するための第一歩を述べる。 パイプラインは、生産追跡アルゴリズムに似たトラッキング効率と純度を実現します。 将来のHEPアプリケーションにとって重要なこととして、パイプラインはGPUアクセラレーションから大きな恩恵を受け、その計算要求はイベントの粒子数と線形に近い規模にスケールする。

The Exa.TrkX project has applied geometric learning concepts such as metric learning and graph neural networks to HEP particle tracking. The Exa.TrkX tracking pipeline clusters detector measurements to form track candidates and filters them. The pipeline, originally developed using the TrackML dataset (a simulation of an LHC-like tracking detector), has been demonstrated on various detectors, including the DUNE LArTPC and the CMS High-Granularity Calorimeter. This paper documents new developments needed to study the physics and computing performance of the Exa.TrkX pipeline on the full TrackML dataset, a first step towards validating the pipeline using ATLAS and CMS data. The pipeline achieves tracking efficiency and purity similar to production tracking algorithms. Crucially for future HEP applications, the pipeline benefits significantly from GPU acceleration, and its computational requirements scale close to linearly with the number of particles in the event.
翻訳日:2021-03-16 01:12:57 公開日:2021-03-11
# (参考訳) 2つ以上の遷移を持つ最適対象色の位置 [全文訳有]

The Location of Optimal Object Colors with More Than Two Transitions ( http://arxiv.org/abs/2103.06997v1 )

ライセンス: CC BY-SA 4.0
Scott A. Burns(参考訳) CIE 1931色マッチング関数に関連する色度図は、少し非凸であることが示されている。 実用的な測色計算には影響を与えないが、非凸性は物体色固体の外面に付随する最適な物体色反射率分布の形状に大きな影響を与える。 通常の 2 遷移 Schr\"odinger 形式の代わりに、多くの最適色はより高い遷移数を示す。 線形プログラミングの定式化が開発され、これらの高次変換最適対象色が物体色固体表面上にどこにあるかを特定するために使用される。

The chromaticity diagram associated with the CIE 1931 color matching functions is shown to be slightly non-convex. While having no impact on practical colorimetric computations, the non-convexity does have a significant impact on the shape of some optimal object color reflectance distributions associated with the outer surface of the object color solid. Instead of the usual two-transition Schr\"odinger form, many optimal colors exhibit higher transition counts. A linear programming formulation is developed and is used to locate where these higher-transition optimal object colors reside on the object color solid surface.
翻訳日:2021-03-16 00:41:27 公開日:2021-03-11
# (参考訳) ロバストポイントクラウド再サンプリングのための効率的なハイパーグラフ手法 [全文訳有]

An Efficient Hypergraph Approach to Robust Point Cloud Resampling ( http://arxiv.org/abs/2103.06999v1 )

ライセンス: CC BY 4.0
Qinwen Deng, Songyang Zhang and Zhi Ding(参考訳) 大規模点雲の効率的な処理と特徴抽出は、コンピュータビジョンとサイバー物理システムにおいて重要である。 本研究は,ハイパーグラフ信号処理(hgsp)に基づくポイントクラウド再サンプリングについて検討し,異なるクラウドポイント間の基礎的関係をより深く探求し,輪郭強調特徴を抽出する。 具体的には、点群の信号ノード間の多面的な相互作用を捕捉し、その表面輪郭をよりよく保存するためのハイパーグラフスペクトルフィルタを設計します。 基礎となるハイパーグラフを最初に構築する必要性や計算がなければ、観測された3次元座標からのハイパーグラフ定常過程を利用して、低複雑性のアプローチは点雲のハイパーグラフスペクトルを直接推定する。 提案手法を複数測定値で評価し, 点雲のハイパーグラフ評価の有効性を検証し, ノイズ観測によるハイパーグラフに基づく再サンプリングの頑健性を示す。

Efficient processing and feature extraction of largescale point clouds are important in related computer vision and cyber-physical systems. This work investigates point cloud resampling based on hypergraph signal processing (HGSP) to better explore the underlying relationship among different cloud points and to extract contour-enhanced features. Specifically, we design hypergraph spectral filters to capture multi-lateral interactions among the signal nodes of point clouds and to better preserve their surface outlines. Without the need and the computation to first construct the underlying hypergraph, our low complexity approach directly estimates hypergraph spectrum of point clouds by leveraging hypergraph stationary processes from the observed 3D coordinates. Evaluating the proposed resampling methods with several metrics, our test results validate the high efficacy of hypergraph characterization of point clouds and demonstrate the robustness of hypergraph-based resampling under noisy observations.
翻訳日:2021-03-16 00:31:36 公開日:2021-03-11
# (参考訳) 教師による学習とニューラルネットワークアーキテクチャ検索への応用 [全文訳有]

Learning by Teaching, with Application to Neural Architecture Search ( http://arxiv.org/abs/2103.07009v1 )

ライセンス: CC BY 4.0
Parth Sheth, Yueyu Jiang, Pengtao Xie(参考訳) 人間の学習において、学習成果を改善する効果的なスキルは、教えることによる学習である:学習者は、このトピックを他人に教えることによって、トピックに対する理解を深める。 本論文では,LBT(Leaching by teaching)と呼ばれる新しいMLフレームワークを提案することにより,この学習駆動学習手法を人間から借用し,よりパフォーマンスの高い機械学習モデルのトレーニングに活用することを目的とする。 lbtフレームワークでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。 具体的には、教師は擬似ラベル付きデータセットを作成し、それを学生モデルのトレーニングに使用する。 バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。 本フレームワークは,教師が学習する3段階,教師が学生に教える3段階,生徒の成績に基づく再学習の3段階を含む3段階の最適化に基づいている。 3段階最適化問題を解くために,単純だが効率的なアルゴリズムを開発した。 CIFAR-10, CIFAR-100, ImageNet 上のニューラルネットワークの探索に LBT を適用した。 本手法の有効性は様々な実験で実証された。

In human learning, an effective skill in improving learning outcomes is learning by teaching: a learner deepens his/her understanding of a topic by teaching this topic to others. In this paper, we aim to borrow this teaching-driven learning methodology from humans and leverage it to train more performant machine learning models, by proposing a novel ML framework referred to as learning by teaching (LBT). In the LBT framework, a teacher model improves itself by teaching a student model to learn well. Specifically, the teacher creates a pseudo-labeled dataset and uses it to train a student model. Based on how the student performs on a validation dataset, the teacher re-learns its model and re-teaches the student until the student achieves great validation performance. Our framework is based on three-level optimization which contains three stages: teacher learns; teacher teaches student; teacher re-learns based on how well the student performs. A simple but efficient algorithm is developed to solve the three-level optimization problem. We apply LBT to search neural architectures on CIFAR-10, CIFAR-100, and ImageNet. The efficacy of our method is demonstrated in various experiments.
翻訳日:2021-03-16 00:05:01 公開日:2021-03-11
# Minecraft Kernel:フーリエ領域におけるガウス過程のモデル化

The Minecraft Kernel: Modelling correlated Gaussian Processes in the Fourier domain ( http://arxiv.org/abs/2103.06950v1 )

ライセンス: Link先を確認
Fergus Simpson, Alexis Boukouvalas, Vaclav Cadek, Elvijs Sarkans, Nicolas Durrande(参考訳) 不定値設定では、カーネルスペクトル表現を使うことは定常共分散関数を生成するための魅力的なアプローチである。 しかし、複数出力ガウスプロセスで同じタスクを実行することは、かなり困難である。 スペクトル混合核とのクロス共分散をモデル化する現在のアプローチは致命的な盲点を持つことを示す。 与えられた一対のプロセスでは、スペクトル密度が同一の特別な場合を除いて、クロスコ分散は許容される相関の完全な範囲にわたって再現できない。 スペクトル混合の従来のガウス成分を有限帯域のブロック成分に置き換えることにより、この問題に対する解決策を提案する。 長方形ステップ関数)。 提案したカーネルファミリーは、任意の静止マルチアウトプットカーネルを任意の精度で近似できるスペクトル混合カーネルの最初のマルチアウトプット一般化である。

In the univariate setting, using the kernel spectral representation is an appealing approach for generating stationary covariance functions. However, performing the same task for multiple-output Gaussian processes is substantially more challenging. We demonstrate that current approaches to modelling cross-covariances with a spectral mixture kernel possess a critical blind spot. For a given pair of processes, the cross-covariance is not reproducible across the full range of permitted correlations, aside from the special case where their spectral densities are of identical shape. We present a solution to this issue by replacing the conventional Gaussian components of a spectral mixture with block components of finite bandwidth (i.e. rectangular step functions). The proposed family of kernel represents the first multi-output generalisation of the spectral mixture kernel that can approximate any stationary multi-output kernel to arbitrary precision.
翻訳日:2021-03-15 13:31:51 公開日:2021-03-11
# 強化学習に基づくサッカーのプレーコールへのアプローチ

A Reinforcement Learning Based Approach to Play Calling in Football ( http://arxiv.org/abs/2103.06939v1 )

ライセンス: Link先を確認
Preston Biro and Stephen G. Walker(参考訳) フットボールで収集された膨大な量のデータとコンピューティング能力の成長により、決定選択を含む多くのゲームが最適化される。 基本となる規則は、期待される結果の効用と膨大な数の法則の最大化である。 利用可能なデータにより、決定結果の確率を高精度に計算することができ、ゲーム内のよく定義されたポイントシステムにより、必要な端末ユーティリティを確保できる。 確立された理論があれば、1つのプレイレベルで選択を最適化できる。

With the vast amount of data collected on football and the growth of computing abilities, many games involving decision choices can be optimized. The underlying rule is the maximization of an expected utility of outcomes and the law of large numbers. The data available allows us to compute with high accuracy the probabilities of outcomes of decisions and the well defined points system in the game allows us to have the necessary terminal utilities. With some well established theory we can then optimize choices at a single play level.
翻訳日:2021-03-15 13:29:28 公開日:2021-03-11
# ニューラルマシン翻訳システムの多言語学習のための学習方針

Learning Policies for Multilingual Training of Neural Machine Translation Systems ( http://arxiv.org/abs/2103.06964v1 )

ライセンス: Link先を確認
Gaurav Kumar, Philipp Koehn, Sanjeev Khudanpur(参考訳) 低リソースのMNMT(Multilingual Neural Machine Translation)は、1つ以上の言語ペアの翻訳性能を高リソースの言語ペアの助けを借りて向上させるのが一般的である。 本論文では,複数言語の学習データの順序付けという2つの単純な検索に基づくカリキュラムを提案し,微調整などの既存の手法と連動して翻訳性能を向上させる。 さらに,MNMTのカリキュラムをスクラッチから学習し,文脈的マルチアームバンディットの助けを借りて翻訳システムの訓練を行う。 FLORESの低リソース翻訳データセットにおいて、これらの学習カリキュラムは、微調整のためのより良い出発点を提供し、翻訳システム全体の性能を向上させることができることを示す。

Low-resource Multilingual Neural Machine Translation (MNMT) is typically tasked with improving the translation performance on one or more language pairs with the aid of high-resource language pairs. In this paper, we propose two simple search based curricula -- orderings of the multilingual training data -- which help improve translation performance in conjunction with existing techniques such as fine-tuning. Additionally, we attempt to learn a curriculum for MNMT from scratch jointly with the training of the translation system with the aid of contextual multi-arm bandits. We show on the FLORES low-resource translation dataset that these learned curricula can provide better starting points for fine tuning and improve overall performance of the translation system.
翻訳日:2021-03-15 13:26:58 公開日:2021-03-11
# 並列コーパス音化のための報酬モデルを用いた学習特徴量重み付け

Learning Feature Weights using Reward Modeling for Denoising Parallel Corpora ( http://arxiv.org/abs/2103.06968v1 )

ライセンス: Link先を確認
Gaurav Kumar, Philipp Koehn, Sanjeev Khudanpur(参考訳) 大規模なWebcrawled corporaは、複数の言語対にわたるニューラルマシン翻訳(NMT)システムの性能向上に優れたリソースである。 しかし、通常は極端に騒がしいため使用は限られている。 この問題に対処する現在のアプローチは、主にヒューリスティックスを使ったフィルタリング、言語モデルスコアやバイリンガル類似性のような単一機能に焦点を当てている。 この研究は、複数の文レベルの特徴の重みを学習する代替アプローチを提示する。 これらの特徴重みは翻訳性能を向上させるために直接最適化され、ノイズコーパスにおける文のスコア付けやフィルタリングをより効果的に行う。 エストニア語と英語のParacrawlコーパスを用いたNMTシステム構築にこの手法を適用した結果,強力な単一特徴量ベースラインと手作りの組み合わせに勝っていることを示す。 さらに,本手法の雑音に対する感度を解析し,学習重量がマルタ語と英語のパラクロールコーパスを用いて他の言語対に一般化されるかどうかを探索する。

Large web-crawled corpora represent an excellent resource for improving the performance of Neural Machine Translation (NMT) systems across several language pairs. However, since these corpora are typically extremely noisy, their use is fairly limited. Current approaches to dealing with this problem mainly focus on filtering using heuristics or single features such as language model scores or bi-lingual similarity. This work presents an alternative approach which learns weights for multiple sentence-level features. These feature weights which are optimized directly for the task of improving translation performance, are used to score and filter sentences in the noisy corpora more effectively. We provide results of applying this technique to building NMT systems using the Paracrawl corpus for Estonian-English and show that it beats strong single feature baselines and hand designed combinations. Additionally, we analyze the sensitivity of this method to different types of noise and explore if the learned weights generalize to other language pairs using the Maltese-English Paracrawl corpus.
翻訳日:2021-03-15 13:26:47 公開日:2021-03-11
# HumanGAN:人間の画像の生成モデル

HumanGAN: A Generative Model of Humans Images ( http://arxiv.org/abs/2103.06902v1 )

ライセンス: Link先を確認
Kripasindhu Sarkar and Lingjie Liu and Vladislav Golyanik and Christian Theobalt(参考訳) ジェネレーティブな逆転ネットワークは、人間の画像を含むさまざまな領域のフォトリアリズム画像合成において優れたパフォーマンスを実現します。 しかし、通常は世界中のサンプル出力を符号化する潜在ベクトルを用いる。 これにより、画像のセマンティックな個々の部分を適切に制御することができず、衣服スタイルのような部分的な側面だけが異なるサンプルを描画することができない。 そこで本稿では,これらの制限に対処し,ポーズや身体の一部の外観,服装スタイルを制御できる服装者の画像生成モデルを提案する。 これは、グローバルな外観サンプリング、ポーズ転送、部品と衣服の転送、および統一された枠組みで一緒にサンプリングする部品など、人間の画像生成のさまざまな側面を解決するための最初の方法です。 我々のモデルは、正規化されたポーズ非依存空間における部分ベースの潜伏外見ベクトルを符号化し、異なるポーズにワープするので、様々な姿勢で身体と衣服の外観を保存できる。 提案手法は,ポーズ条件付き画像生成,ポーズ転送,部分サンプリングにおいて,現実性や出力分解能の観点から,タスク固有のベースラインよりも優れていることを示す。

Generative adversarial networks achieve great performance in photorealistic image synthesis in various domains, including human images. However, they usually employ latent vectors that encode the sampled outputs globally. This does not allow convenient control of semantically-relevan t individual parts of the image, and is not able to draw samples that only differ in partial aspects, such as clothing style. We address these limitations and present a generative model for images of dressed humans offering control over pose, local body part appearance and garment style. This is the first method to solve various aspects of human image generation such as global appearance sampling, pose transfer, parts and garment transfer, and parts sampling jointly in a unified framework. As our model encodes part-based latent appearance vectors in a normalized pose-independent space and warps them to different poses, it preserves body and clothing appearance under varying posture. Experiments show that our flexible and general generative method outperforms task-specific baselines for pose-conditioned image generation, pose transfer and part sampling in terms of realism and output resolution.
翻訳日:2021-03-15 13:25:29 公開日:2021-03-11
# DefakeHop:軽量高性能ディープフェイク検出器

DefakeHop: A Light-Weight High-Performance Deepfake Detector ( http://arxiv.org/abs/2103.06929v1 )

ライセンス: Link先を確認
Hong-Shuo Chen, Mozhdeh Rouhsedaghat, Hamza Ghani, Shuowen Hu, Suya You, C.-C. Jay Kuo(参考訳) 本研究では,軽量で高性能なDeepfake検出法であるDefakeHopを提案する。 最先端のDeepfake検出方法はディープニューラルネットワーク上に構築されている。 DefakeHopは、顔画像の様々な部分から連続的なサブスペース学習(SSL)原則を使って自動的に機能を抽出する。 これらの特徴は, c/w Saab変換により抽出され, さらに空間次元の低減と各チャネルのソフトな分類を用いて, 顔のより簡潔な記述を得る。 提案手法の有効性を示すため, 広範囲な実験を行った。 モデルサイズ42,845パラメータの小さなDefakeHopは、それぞれUADFV、Celeb-DF v1、Celeb-DF v2データセットで100%、94.95%、90.56%のROC曲線(AUC)の領域で最先端のパフォーマンスを達成する。

A light-weight high-performance Deepfake detection method, called DefakeHop, is proposed in this work. State-of-the-art Deepfake detection methods are built upon deep neural networks. DefakeHop extracts features automatically using the successive subspace learning (SSL) principle from various parts of face images. The features are extracted by c/w Saab transform and further processed by our feature distillation module using spatial dimension reduction and soft classification for each channel to get a more concise description of the face. Extensive experiments are conducted to demonstrate the effectiveness of the proposed DefakeHop method. With a small model size of 42,845 parameters, DefakeHop achieves state-of-the-art performance with the area under the ROC curve (AUC) of 100%, 94.95%, and 90.56% on UADFV, Celeb-DF v1 and Celeb-DF v2 datasets, respectively.
翻訳日:2021-03-15 13:25:11 公開日:2021-03-11
# プログレッシブトランスと混合密度ネットワークによる連続3次元マルチチャネル署名言語生成

Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and Mixture Density Networks ( http://arxiv.org/abs/2103.06982v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) シグネチャ言語はマルチチャネルのビジュアル言語であり、シグネチャは連続的な3D空間を使用して通信する。シグネチャ言語生産(SLP)は、話される言語からシグネチャ言語への自動翻訳であり、シグネチャの連続的な表現と完全な形態の両方を具現化して、聴覚コミュニティが真に理解できるようにする必要があります。 従来の深層学習ベースのSLP作品は、手作業による特徴に焦点をあてた孤立した標識の結合のみを生産し、ロボットと非表現的な生産に繋がっています。 本研究では,言語文から連続的な3次元マルチチャネルサインポーズシーケンスをエンドツーエンドに変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。 トランスフォーマーネットワークアーキテクチャでは, 時間経過に伴う生産進捗を追跡し, シーケンス終了を予測することで, 可変長連続シーケンス生成を可能にするカウンタデコードを導入する。 予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。 本稿では,PHOENIX14Tデータセットのベンチマーク結果と,今後の研究のためのベースラインの設定を行う,SLPの逆翻訳評価機構を提案する。 さらに、SLPモデルのユーザー評価を行い、サインポーズ制作の聴覚障害を理解しています。

Sign languages are multi-channel visual languages, where signers use a continuous 3D space to communicate.Sign Language Production (SLP), the automatic translation from spoken to sign languages, must embody both the continuous articulation and full morphology of sign to be truly understandable by the Deaf community. Previous deep learning-based SLP works have produced only a concatenation of isolated signs focusing primarily on the manual features, leading to a robotic and non-expressive production. In this work, we propose a novel Progressive Transformer architecture, the first SLP model to translate from spoken language sentences to continuous 3D multi-channel sign pose sequences in an end-to-end manner. Our transformer network architecture introduces a counter decoding that enables variable length continuous sequence generation by tracking the production progress over time and predicting the end of sequence. We present extensive data augmentation techniques to reduce prediction drift, alongside an adversarial training regime and a Mixture Density Network (MDN) formulation to produce realistic and expressive sign pose sequences. We propose a back translation evaluation mechanism for SLP, presenting benchmark quantitative results on the challenging PHOENIX14T dataset and setting baselines for future research. We further provide a user evaluation of our SLP model, to understand the Deaf reception of our sign pose productions.
翻訳日:2021-03-15 13:24:54 公開日:2021-03-11
# ACTION-Net:アクション認識のためのマルチパス励起

ACTION-Net: Multipath Excitation for Action Recognition ( http://arxiv.org/abs/2103.07372v1 )

ライセンス: Link先を確認
Zhengwei Wang, Qi She, Aljosa Smolic(参考訳) 空間時空間、チャネル、モーションパターンは、ビデオアクション認識のための3つの補完的で重要なタイプの情報です。 従来の2D CNNは計算的には安価だが、時間的関係をキャッチできない。 本研究では,2d cnnに組み込むことのできる汎用的かつ効果的なモジュールを設計することで,このジレンマに取り組む。 そこで本研究では,Spatio-Temporal ExcitatION(STE)パス,Channel Excitation(CE)パス,Motion ExcitatION(ME)パスの3つのパスからなるspAtio-temporal,Chan nel and moTion excitatION(ACTION)モジュールを提案する。 STE経路は、時空間表現を特徴付けるために1つのチャネル3D畳み込みを用いる。 CEパスは、時間的側面の観点からチャネル間の相互依存性を明示的にモデリングすることにより、チャネルワイズな機能応答を適応的に再調整する。 MEパスは特徴レベルの時間差を計算し、運動感受性チャネルを励起する。 提案したActionモジュールを2D CNNに装備し,計算コストを極端に制限したシンプルなACTION-Netを構築する。 ACTION-Netは、3つのバックボーン(ResNet-50、MobileNet V2、BNInception)に3つのデータセット(Something V2、Jester、EgoGesture)を組み込んだ2D CNNよりも一貫して優れている。 コードは \url{https://github.com/V -Sense/ACTION-Net} で入手できる。

Spatial-temporal, channel-wise, and motion patterns are three complementary and crucial types of information for video action recognition. Conventional 2D CNNs are computationally cheap but cannot catch temporal relationships; 3D CNNs can achieve good performance but are computationally intensive. In this work, we tackle this dilemma by designing a generic and effective module that can be embedded into 2D CNNs. To this end, we propose a spAtio-temporal, Channel and moTion excitatION (ACTION) module consisting of three paths: Spatio-Temporal Excitation (STE) path, Channel Excitation (CE) path, and Motion Excitation (ME) path. The STE path employs one channel 3D convolution to characterize spatio-temporal representation. The CE path adaptively recalibrates channel-wise feature responses by explicitly modeling interdependencies between channels in terms of the temporal aspect. The ME path calculates feature-level temporal differences, which is then utilized to excite motion-sensitive channels. We equip 2D CNNs with the proposed ACTION module to form a simple yet effective ACTION-Net with very limited extra computational cost. ACTION-Net is demonstrated by consistently outperforming 2D CNN counterparts on three backbones (i.e., ResNet-50, MobileNet V2 and BNInception) employing three datasets (i.e., Something-Something V2, Jester, and EgoGesture). Codes are available at \url{https://github.com/V -Sense/ACTION-Net}.
翻訳日:2021-03-15 13:19:23 公開日:2021-03-11
# twitterでcovid-19に関する党派的政治物語を特徴づける

Characterizing Partisan Political Narratives about COVID-19 on Twitter ( http://arxiv.org/abs/2103.06960v1 )

ライセンス: Link先を確認
Elise Jing, Yong-Yeol Ahn(参考訳) 新型コロナウイルスのパンデミックは、すべての社会をテストし、危機対応における地元の政治の重要な役割を公開している世界的な危機です。 米国では、個々の行動の分極と地域間の異なる政策の採択につながった強力なパルチザン分割がありました。 そこで,このような格差をよりよく理解するために,民主党や共和党の政治家のソーシャルメディア上でのパンデミックの物語を,計算フレーミング分析や意味的役割分析などの新しい計算手法を用いて特徴付け,比較する。 大統領、議会議員、州知事を含む米国の政治家からのツイートを分析し、彼らの物語を形成するトピック、フレーム、およびエージェントの点で対照的な物語を体系的に明らかにします。 民主党の物語はパンデミックや財政的、社会的な支援により関心を持つ傾向があるが、共和党は中国のような他の政治団体についてより議論している。 民主党はフレーミングと意味的な役割を対比することで、パンデミックに対応する政府の役割を強調し、共和党は個人の役割と中小企業の支持を強調した。 両党の物語には、信者への叫び声や相手の責め声も含まれていた。 本研究は, 両者の「深い合意」のギャップを具体的に明らかにした。 本手法は,各領域における物語の計算的研究に応用できる。

The COVID-19 pandemic is a global crisis that has been testing every society and exposing the critical role of local politics in crisis response. In the United States, there has been a strong partisan divide which resulted in polarization of individual behaviors and divergent policy adoption across regions. Here, to better understand such divide, we characterize and compare the pandemic narratives of the Democratic and Republican politicians on social media using novel computational methods including computational framing analysis and semantic role analysis. By analyzing tweets from the politicians in the U.S., including the president, members of Congress, and state governors, we systematically uncover the contrasting narratives in terms of topics, frames, and agents that shape their narratives. We found that the Democrats' narrative tends to be more concerned with the pandemic as well as financial and social support, while the Republicans discuss more about other political entities such as China. By using contrasting framing and semantic roles, the Democrats emphasize the government's role in responding to the pandemic, and the Republicans emphasize the roles of individuals and support for small businesses. Both parties' narratives also include shout-outs to their followers and blaming of the other party. Our findings concretely expose the gaps in the "elusive consensus" between the two parties. Our methodologies may be applied to computationally study narratives in various domains.
翻訳日:2021-03-15 13:18:01 公開日:2021-03-11
# CORSAIR:Convolutiona l Object Retrieval and Symmetry-AIded Registration

CORSAIR: Convolutional Object Retrieval and Symmetry-AIded Registration ( http://arxiv.org/abs/2103.06911v1 )

ライセンス: Link先を確認
Tianyu Zhao, Qiaojun Feng, Sai Jadhav, Nikolay Atanasov(参考訳) 本稿では,未知環境における部分的ポイントクラウド観測を用いたオンラインオブジェクトレベルマッピングについて検討する。 CORSAIR(Convolutiona l Object Retrieval and Symmetry-AIded Registration)の開発とアプローチを行っています。 私たちのモデルは、完全な畳み込み幾何学的特徴モデルを拡張して、ポイントクラウドの観測からローカルポイントワイズの特徴に加えて、グローバルオブジェクトシェイプの埋め込みを学びます。 グローバル機能はカテゴリデータベースから類似のオブジェクトを検索するために使用され、ローカル機能は観測されたオブジェクトと取得されたオブジェクトの間のロバストなポーズ登録に使用される。 この定式化はまた、物体形状に存在する対称性を利用して、異なる対称性クラスから有望な局所特徴対を得る。 提案手法のロバスト性を検証するために,異なるオブジェクトカテゴリの合成データと実世界のデータセットの結果を示す。

This paper considers online object-level mapping using partial point-cloud observations obtained online in an unknown environment. We develop and approach for fully Convolutional Object Retrieval and Symmetry-AIded Registration (CORSAIR). Our model extends the Fully Convolutional Geometric Features model to learn a global object-shape embedding in addition to local point-wise features from the point-cloud observations. The global feature is used to retrieve a similar object from a category database, and the local features are used for robust pose registration between the observed and the retrieved object. Our formulation also leverages symmetries, present in the object shapes, to obtain promising local-feature pairs from different symmetry classes for matching. We present results from synthetic and real-world datasets with different object categories to verify the robustness of our method.
翻訳日:2021-03-15 13:14:48 公開日:2021-03-11
# システムコール引数を用いた深層学習トレース解析の改良について

On Improving Deep Learning Trace Analysis with System Call Arguments ( http://arxiv.org/abs/2103.06915v1 )

ライセンス: Link先を確認
Quentin Fournier, Daniel Aloise, Seyed Vahid Azhari, and Fran\c{c}ois Tetreault(参考訳) カーネルトレースは、イベントに応じてタイムスタンプ、プロセスID、返却値を含む、名前と複数の引数で構成される低レベルのイベントのシーケンスである。 彼らの分析は侵入の発見、バグの特定、遅延の原因の発見に役立つ。 しかし、その効果はイベント引数を省略することで妨げられる。 この制限を緩和するために、埋め込みとエンコーディングの両方を用いてイベント名の表現と引数を学習する一般的なアプローチを導入する。 提案手法は,ほとんどのニューラルネットワークに適用可能であり,タスクに依存しない。 この利点は、呼び出し関連、プロセス関連、および時間関連の3つの議論に関するアブレーション研究を行うことによって定量化される。 実験は、新しいwebリクエストデータセット上で行われ、当社のパートナー企業であるcienaがプレプロダクションサーバに収集した2番目のデータセット上で検証しました。 追加情報を利用することで、2つの教師なし言語モデリングタスクにおいて、LSTMとTransformerの2つの広く使用されているニューラルネットワークのパフォーマンスを最大11.3%向上することができた。 このようなタスクは、異常の検出、ニューラルネットワークの事前トレーニング、パフォーマンス向上、イベントのコンテキスト表現の抽出に使用することができる。

Kernel traces are sequences of low-level events comprising a name and multiple arguments, including a timestamp, a process id, and a return value, depending on the event. Their analysis helps uncover intrusions, identify bugs, and find latency causes. However, their effectiveness is hindered by omitting the event arguments. To remedy this limitation, we introduce a general approach to learning a representation of the event names along with their arguments using both embedding and encoding. The proposed method is readily applicable to most neural networks and is task-agnostic. The benefit is quantified by conducting an ablation study on three groups of arguments: call-related, process-related, and time-related. Experiments were conducted on a novel web request dataset and validated on a second dataset collected on pre-production servers by Ciena, our partnering company. By leveraging additional information, we were able to increase the performance of two widely-used neural networks, an LSTM and a Transformer, by up to 11.3% on two unsupervised language modelling tasks. Such tasks may be used to detect anomalies, pre-train neural networks to improve their performance, and extract a contextual representation of the events.
翻訳日:2021-03-15 13:12:37 公開日:2021-03-11
# stochastic-hmds: 電圧過スケーリングによる敵対的回復性ハードウェアマルウェア検出器

Stochastic-HMDs: Adversarial Resilient Hardware Malware Detectors through Voltage Over-scaling ( http://arxiv.org/abs/2103.06936v1 )

ライセンス: Link先を確認
Md Shohidul Islam, Ihsen Alouani, Khaled N. Khasawneh(参考訳) 機械学習ベースのハードウェアマルウェアディテクタ(HMD)は、マルウェアからシステムを守るための潜在的なゲーム変更の優位性を提供します。 しかし、HMDは敵の攻撃に悩まされ、効果的にリバースエンジニアリングされ、その後回避され、マルウェアが検出から隠れることができる。 本稿では, HMD を近似計算により提案することにより, HMD の計算確率を推定し, 敵の回避攻撃に対して耐性を持たせる。 具体的には,HMDモデルにおいて,電圧オーバースケーリングを利用して確率計算を誘導することを提案する。 このような手法により、HMDはブラックボックス攻撃シナリオ、すなわちリバースエンジニアリングとトランスファービリティの両方に対してより弾力性を持つことを示す。 実験の結果,Stochastic-HMDは,ハードウェアやソフトウェアの変更やHMDのモデルの変更を必要とせず,対向攻撃や副産物の省電力を効果的に防ぐことができることがわかった。 さらに,近年のPAC学習可能性理論の結果から,Stochastic-HMDのリバースエンジニアリングが困難であることが示唆された。

Machine learning-based hardware malware detectors (HMDs) offer a potential game changing advantage in defending systems against malware. However, HMDs suffer from adversarial attacks, can be effectively reverse-engineered and subsequently be evaded, allowing malware to hide from detection. We address this issue by proposing a novel HMDs (Stochastic-HMDs) through approximate computing, which makes HMDs' inference computation-stochast ic, thereby making HMDs resilient against adversarial evasion attacks. Specifically, we propose to leverage voltage overscaling to induce stochastic computation in the HMDs model. We show that such a technique makes HMDs more resilient to both black-box adversarial attack scenarios, i.e., reverse-engineering and transferability. Our experimental results demonstrate that Stochastic-HMDs offer effective defense against adversarial attacks along with by-product power savings, without requiring any changes to the hardware/software nor to the HMDs' model, i.e., no retraining or fine tuning is needed. Moreover, based on recent results in probably approximately correct (PAC) learnability theory, we show that Stochastic-HMDs are provably more difficult to reverse engineer.
翻訳日:2021-03-15 13:12:20 公開日:2021-03-11
# モバイルアプリケーションにおける畳み込みニューラルネットワークの統合

Integration of Convolutional Neural Networks in Mobile Applications ( http://arxiv.org/abs/2103.07286v1 )

ライセンス: Link先を確認
Roger Creus Castanyer and Silverio Mart\'inez-Fern\'andez and Xavier Franch(参考訳) ディープラーニング(DL)モデルを構築する場合、データサイエンティストとソフトウェアエンジニアは、正確性や他の適切な成功基準と複雑さの間のトレードオフを管理します。 計算能力の高い環境では、より洗練されたアーキテクチャを設計することでモデルをより深くするのが一般的です。 しかし、計算能力の少ないモバイルデバイスのコンテキストでは、複雑性を制御下に置くことが必須である。 本稿では,dlモデルを精度と複雑性のトレードオフとして統合したシステムの性能について検討する。 同時に、複雑性とシステムの効率性も関連づけます。 これにより、DLモデルのパフォーマンスを最適化する際に直面する課題を探究する実践的な研究が要件となる。 具体的には、(i)モバイルアプリケーションにDLベースのソフトウェアをデプロイする際の最も重要な課題、(ii)パフォーマンストレードオフを最適化するための道筋を特定します。 フレームワークの可用性やソフトウェアデータの依存性など,関連する作業における多くの課題を検証する結果が得られます。 特定された課題に直面したときの私たちの経験のドキュメンテーションと、それらに可能な解決策の議論を提供します。 さらに、他の特定課題の深刻度を低減するため、デプロイ時にDLモデルの持続可能性に対するソリューションを実装した。 さらに、得られた精度に複雑性が及ぼす影響を特徴とする新たな課題に、性能トレードオフを関連付ける。 最後に、よりオープンな課題に対するソリューションの提供を目的とした今後の取り組みについて議論し、動機づける。

When building Deep Learning (DL) models, data scientists and software engineers manage the trade-off between their accuracy, or any other suitable success criteria, and their complexity. In an environment with high computational power, a common practice is making the models go deeper by designing more sophisticated architectures. However, in the context of mobile devices, which possess less computational power, keeping complexity under control is a must. In this paper, we study the performance of a system that integrates a DL model as a trade-off between the accuracy and the complexity. At the same time, we relate the complexity to the efficiency of the system. With this, we present a practical study that aims to explore the challenges met when optimizing the performance of DL models becomes a requirement. Concretely, we aim to identify: (i) the most concerning challenges when deploying DL-based software in mobile applications; and (ii) the path for optimizing the performance trade-off. We obtain results that verify many of the identified challenges in the related work such as the availability of frameworks and the software-data dependency. We provide a documentation of our experience when facing the identified challenges together with the discussion of possible solutions to them. Additionally, we implement a solution to the sustainability of the DL models when deployed in order to reduce the severity of other identified challenges. Moreover, we relate the performance trade-off to a new defined challenge featuring the impact of the complexity in the obtained accuracy. Finally, we discuss and motivate future work that aims to provide solutions to the more open challenges found.
翻訳日:2021-03-15 13:10:12 公開日:2021-03-11
# 非漸近的性能保証による$\mathsf{f}$-divergencesの神経推定

Non-Asymptotic Performance Guarantees for Neural Estimation of $\mathsf{f}$-Divergences ( http://arxiv.org/abs/2103.06923v1 )

ライセンス: Link先を確認
Sreejith Sreekumar, Zhengxin Zhang, Ziv Goldfeld(参考訳) 確率分布の相違度を定量化する統計的距離(SD)は、機械学習と統計の中心である。 このようなデータからの距離を推定する現代的な方法は、ニューラルネットワーク(NN)による変動形態のパラメータ化と最適化に依存する。 これらの推定器は実際は多用されているが、それに対応する性能保証は部分的であり、さらなる探索が必要である。 特に、2つのエラー源の間には、近似と推定という根本的なトレードオフがあるようだ。 前者はリッチで表現力のあるNNクラスを必要とするが、後者は複雑さを制御することに依存する。 本稿では,非漸近的誤差境界によるこのトレードオフを,kullback-leibler divergence,chi-squar ed divergence,squared hellinger distanceというsdsの3つの一般的な選択肢に着目して検討する。 この解析は非漸近的関数近似定理と経験的過程論からのツールに依存する。 理論を検証した数値結果も提供される。

Statistical distances (SDs), which quantify the dissimilarity between probability distributions, are central to machine learning and statistics. A modern method for estimating such distances from data relies on parametrizing a variational form by a neural network (NN) and optimizing it. These estimators are abundantly used in practice, but corresponding performance guarantees are partial and call for further exploration. In particular, there seems to be a fundamental tradeoff between the two sources of error involved: approximation and estimation. While the former needs the NN class to be rich and expressive, the latter relies on controlling complexity. This paper explores this tradeoff by means of non-asymptotic error bounds, focusing on three popular choices of SDs -- Kullback-Leibler divergence, chi-squared divergence, and squared Hellinger distance. Our analysis relies on non-asymptotic function approximation theorems and tools from empirical process theory. Numerical results validating the theory are also provided.
翻訳日:2021-03-15 13:09:32 公開日:2021-03-11
# Federated Functional Gradient Boosting

Federated Functional Gradient Boosting ( http://arxiv.org/abs/2103.06972v1 )

ライセンス: Link先を確認
Zebang Shen, Hamed Hassani, Satyen Kale, Amin Karbasi(参考訳) 本稿では,フェデレーション学習における機能最小化の研究を開始する。 まず、半均質な環境では、クライアントマシン上の特徴ベクトルの限界分布が同一である場合、大域的最小値に確実に収束するフェデレーション機能勾配促進法(FFGB)を開発する。 その後,ffgb.cと呼ばれるffgbの効率的な変種を設計し,クライアント特徴分布間の全変動距離に依存する半径内の大域最小近傍への収束を可能にすることにより,完全ヘテロジェンスな設定(特徴ベクトルの周縁分布が異なる場合)に結果を拡張する。 正方形損失の特別の場合、しかし完全に不均一な設定においては、より狭いwaserstein-1距離に依存する半径内で、大域的最小近傍への証明可能な収束を享受できるffgb.l法をデザインする。 FFGB.C と FFGB.L は、特徴分布がより均一になるにつれて収束半径が 0 に縮まる。 最後に,自然ベースラインに対するアプローチの利点を実証するための概念実証実験を行った。

In this paper, we initiate a study of functional minimization in Federated Learning. First, in the semi-heterogeneous setting, when the marginal distributions of the feature vectors on client machines are identical, we develop the federated functional gradient boosting (FFGB) method that provably converges to the global minimum. Subsequently, we extend our results to the fully-heterogeneous setting (where marginal distributions of feature vectors may differ) by designing an efficient variant of FFGB called FFGB.C, with provable convergence to a neighborhood of the global minimum within a radius that depends on the total variation distances between the client feature distributions. For the special case of square loss, but still in the fully heterogeneous setting, we design the FFGB.L method that also enjoys provable convergence to a neighborhood of the global minimum but within a radius depending on the much tighter Wasserstein-1 distances. For both FFGB.C and FFGB.L, the radii of convergence shrink to zero as the feature distributions become more homogeneous. Finally, we conduct proof-of-concept experiments to demonstrate the benefits of our approach against natural baselines.
翻訳日:2021-03-15 13:09:15 公開日:2021-03-11
# (参考訳) AutoDO: スケーラブル確率的暗黙差分法によるラベルノイズ付きバイアスデータに対するロバスト自動拡張 [全文訳有]

AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable Probabilistic Implicit Differentiation ( http://arxiv.org/abs/2103.05863v2 )

ライセンス: CC BY 4.0
Denis Gudovskiy, Luca Rigazio, Shun Ishizaka, Kazuki Kozuka, Sotaro Tsukizawa(参考訳) AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。 これらの手法は、テストデータの一般化を改善する列車データに対する画像変換ポリシーを推定する。 政策探索の複雑さを減少させる方向に進化した最近の論文では、偏りやノイズのあるデータに適用した場合、これらの手法が堅牢でないことが示されている。 これらの制限を克服するために、テストデータと歪んだ列車データセット間の分布シフトを最小限に抑える、汎用自動データセット最適化(AutoDO)タスクとしてAutoAugmentを再構成します。 autodoモデルでは,ポイント毎のハイパーパラメータの集合を明示的に推定し,列車データの分布を柔軟に変化させる。 特に、強調、損失重み、および暗黙の微分を用いて共同で推定されるソフトラベルのためのハイパーパラメータを含む。 本研究では,fisher情報を用いた理論的な確率論的解釈を行い,その複雑性がデータセットサイズと線形にスケールすることを示す。 SVHN, CIFAR-10/100, ImageNet分類に関する実験では,従来の方法と比較して,ラベルノイズの偏りのあるデータセットの9.3%の改善と,低表現のSVHNクラスに対する36.6%の利得を示した。

AutoAugment has sparked an interest in automated augmentation methods for deep learning models. These methods estimate image transformation policies for train data that improve generalization to test data. While recent papers evolved in the direction of decreasing policy search complexity, we show that those methods are not robust when applied to biased and noisy data. To overcome these limitations, we reformulate AutoAugment as a generalized automated dataset optimization (AutoDO) task that minimizes the distribution shift between test data and distorted train dataset. In our AutoDO model, we explicitly estimate a set of per-point hyperparameters to flexibly change distribution of train data. In particular, we include hyperparameters for augmentation, loss weights, and soft-labels that are jointly estimated using implicit differentiation. We develop a theoretical probabilistic interpretation of this framework using Fisher information and show that its complexity scales linearly with the dataset size. Our experiments on SVHN, CIFAR-10/100, and ImageNet classification show up to 9.3% improvement for biased datasets with label noise compared to prior methods and, importantly, up to 36.6% gain for underrepresented SVHN classes.
翻訳日:2021-03-15 11:48:13 公開日:2021-03-11
# (参考訳) 生存曲線による時・出来事の動的予測 [全文訳有]

Dynamic prediction of time to event with survival curves ( http://arxiv.org/abs/2101.10739v2 )

ライセンス: CC BY 4.0
Jie Zhu, Blanca Gallego(参考訳) プライマリヘルスケアシステムの複雑化に伴い、積極的な患者の障害管理は、ヘルスケアリソースの可用性を高める効果的な方法です。 1つの重要なイネーブルは、時間対結果の動的予測である。 従来の説明的統計的アプローチでは、個々のレベルを正確に予測する能力が欠けていますが、データ適応型バイナリ予測器は生物学的に妥当な生存分析のために名目上の生存曲線を提供しません。 本論文の目的は、説明的生存分析の知識が現在のブラックボックスデータ適応予測モデルを大幅に改善できることを解明することである。 今回開発したCDSMを静的および縦方向の観測データに適用し、推定された個々の生存曲線の反射点が患者の故障時間の信頼できる予測を提供することを検証します。

With the ever-growing complexity of primary health care system, proactive patient failure management is an effective way to enhancing the availability of health care resource. One key enabler is the dynamic prediction of time-to-event outcomes. Conventional explanatory statistical approach lacks the capability of making precise individual level prediction, while the data adaptive binary predictors does not provide nominal survival curves for biologically plausible survival analysis. The purpose of this article is to elucidate that the knowledge of explanatory survival analysis can significantly enhance the current black-box data adaptive prediction models. We apply our recently developed counterfactual dynamic survival model (CDSM) to static and longitudinal observational data and testify that the inflection point of its estimated individual survival curves provides reliable prediction of the patient failure time.
翻訳日:2021-03-14 09:40:36 公開日:2021-03-11
# (参考訳) 敵とのマルチタスクフェデレーション強化学習 [全文訳有]

Multi-Task Federated Reinforcement Learning with Adversaries ( http://arxiv.org/abs/2103.06473v1 )

ライセンス: CC BY 4.0
Aqeel Anwar, Arijit Raychowdhury(参考訳) 強化学習アルゴリズムは、他の機械学習アルゴリズムと同様に、敵から深刻な脅威を受ける。 敵は、最適でないポリシーをもたらす学習アルゴリズムを操作できる。 本稿では,様々な環境における複数の協調エージェントが,敵対エージェントの存在下での割引リターンの合計を最大化しようとするマルチタスクフェデレーション強化学習アルゴリズムを解析する。 我々は,マルチタスク連関強化学習を成功させるには一般的な攻撃手法は保証されないと主張し,攻撃性能を向上させる適応攻撃法を提案する。 さらに,従来のfederated reinforcement learningアルゴリズムを改良して,敵と同等に機能する敵問題に対処する。 小中小の強化学習問題に対する実験の結果,提案手法は他の一般的な攻撃手法よりも優れており,共役強化学習アルゴリズムの修正により,敵エージェントの存在下での最適に近い方針が実現できた。

Reinforcement learning algorithms, just like any other Machine learning algorithm pose a serious threat from adversaries. The adversaries can manipulate the learning algorithm resulting in non-optimal policies. In this paper, we analyze the Multi-task Federated Reinforcement Learning algorithms, where multiple collaborative agents in various environments are trying to maximize the sum of discounted return, in the presence of adversarial agents. We argue that the common attack methods are not guaranteed to carry out a successful attack on Multi-task Federated Reinforcement Learning and propose an adaptive attack method with better attack performance. Furthermore, we modify the conventional federated reinforcement learning algorithm to address the issue of adversaries that works equally well with and without the adversaries. Experimentation on different small to mid-size reinforcement learning problems show that the proposed attack method outperforms other general attack methods and the proposed modification to federated reinforcement learning algorithm was able to achieve near-optimal policies in the presence of adversarial agents.
翻訳日:2021-03-13 12:14:36 公開日:2021-03-11
# (参考訳) 深部ReLUネットワークを用いたオフライン強化学習の有限サンプル解析 [全文訳有]

On Finite-Sample Analysis of Offline Reinforcement Learning with Deep ReLU Networks ( http://arxiv.org/abs/2103.06671v1 )

ライセンス: CC BY 4.0
Thanh Nguyen-Tang, Sunil Gupta, Hung Tran-The, Svetha Venkatesh(参考訳) 本論文では,ReLUネットワークを用いたオフライン強化学習の統計理論について検討する。 未知の行動方針によって生成されたログデータに基づいて、ターゲットポリシーの予想される割引報酬を推定することを目標とするオフポリシ評価(OPE)問題を検討します。 深部ReLUネットワークを用いた回帰型適応Q評価法 (FQE) について検討し, その推定誤差に基づく有限サンプル境界を軽度な仮定で特徴づける。 一般関数近似または深部ReLUネットワークを用いたOPEにおける以前の研究は、アルゴリズムにおけるデータ依存構造を無視し、OPEの技術的なボトルネックを無視する一方で、かなり制限された規則性仮定を必要とする。 本研究では,これらの制約を克服し,深いReLUネットワークを用いたOPEの包括的解析を行う。 特に、オフラインデータの分布シフト、入力空間の寸法、システムの規則性がOPE推定誤差をどのように制御するかを正確に定量化します。 その結果,オフライン強化学習と深層学習の相互作用について考察した。

This paper studies the statistical theory of offline reinforcement learning with deep ReLU networks. We consider the off-policy evaluation (OPE) problem where the goal is to estimate the expected discounted reward of a target policy given the logged data generated by unknown behaviour policies. We study a regression-based fitted Q evaluation (FQE) method using deep ReLU networks and characterize a finite-sample bound on the estimation error of this method under mild assumptions. The prior works in OPE with either general function approximation or deep ReLU networks ignore the data-dependent structure in the algorithm, dodging the technical bottleneck of OPE, while requiring a rather restricted regularity assumption. In this work, we overcome these limitations and provide a comprehensive analysis of OPE with deep ReLU networks. In particular, we precisely quantify how the distribution shift of the offline data, the dimension of the input space, and the regularity of the system control the OPE estimation error. Consequently, we provide insights into the interplay between offline reinforcement learning and deep learning.
翻訳日:2021-03-13 11:43:35 公開日:2021-03-11
# (参考訳) affect2mm:感情因果関係を用いたマルチメディアコンテンツの感情分析 [全文訳有]

Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality ( http://arxiv.org/abs/2103.06541v1 )

ライセンス: CC BY 4.0
Trisha Mittal, Puneet Mathur, Aniket Bera, Dinesh Manocha(参考訳) 本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。 私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。 感情因果理論のアイデアを計算モデルに用い,映画のクリップに誘発される感情状態を決定する。 Affect2MMは注意に基づく手法とGranger causalityを用いて時間的因果関係を明示的にモデル化する。 対象者の顔の特徴,シーン理解,視覚美学,アクション・シーン記述,映画脚本など多彩な要素を用いて,情緒豊かに表現し,シーンを理解し,知覚する。 LSTMに基づく学習モデルを用いて感情知覚を行う。 本手法を評価するために,SENDv1,MovieGraphs, LIRIS-ACCEDEデータセットの3つのデータセットのパフォーマンスを解析・比較し,3つのデータセットのSOTAメソッドに対する平均10~15%のパフォーマンス向上を観察した。

We present Affect2MM, a learning method for time-series emotion prediction for multimedia content. Our goal is to automatically capture the varying emotions depicted by characters in real-life human-centric situations and behaviors. We use the ideas from emotion causation theories to computationally model and determine the emotional state evoked in clips of movies. Affect2MM explicitly models the temporal causality using attention-based methods and Granger causality. We use a variety of components like facial features of actors involved, scene understanding, visual aesthetics, action/situation description, and movie script to obtain an affective-rich representation to understand and perceive the scene. We use an LSTM-based learning model for emotion perception. To evaluate our method, we analyze and compare our performance on three datasets, SENDv1, MovieGraphs, and the LIRIS-ACCEDE dataset, and observe an average of 10-15% increase in the performance over SOTA methods for all three datasets.
翻訳日:2021-03-13 10:47:47 公開日:2021-03-11
# (参考訳) XDO: 拡張型ゲームのためのダブルOracleアルゴリズム [全文訳有]

XDO: A Double Oracle Algorithm for Extensive-Form Games ( http://arxiv.org/abs/2103.06426v1 )

ライセンス: CC BY 4.0
Stephen McAleer, John Lanier, Pierre Baldi, Roy Fox(参考訳) Policy Space Response Oracles(PSRO)は、大規模ゲームにおけるNash平衡の近似を実証的に発見した2プレイヤーゼロサムゲームのための深層強化学習アルゴリズムである。 PSROはナッシュ平衡に収束することが保証されているが、インフォステートの数が増えるにつれて指数関数的に反復する。 インフォステート数に近似的なナッシュ平衡に収束することが保証される拡張形式二重オラクルアルゴリズムであるExtensive-Form Double Oracle (XDO)を提案する。 ゲームの根元で最高のレスポンスをミックスするPSROとは異なり、XDOはすべてのインフォステートで最高のレスポンスをミックスします。 またニューラルXDO (NXDO) も導入し, より深いRLを用いて最良の応答を学習する。 Leduc ポーカーの表計算実験では、XDO はPSRO よりも 1-2 桁小さい反復数で近似的な Nash 平衡を達成する。 改良型leducポーカーゲームにおける実験では,表型xdoがcfrよりも11倍以上,psroやxfpよりも82倍以上のエクスプロイト性を実現していることが示された。 また,NXDOがPSROに勝って,NFSPと競合していることを示す。

Policy Space Response Oracles (PSRO) is a deep reinforcement learning algorithm for two-player zero-sum games that has empirically found approximate Nash equilibria in large games. Although PSRO is guaranteed to converge to a Nash equilibrium, it may take an exponential number of iterations as the number of infostates grows. We propose Extensive-Form Double Oracle (XDO), an extensive-form double oracle algorithm that is guaranteed to converge to an approximate Nash equilibrium linearly in the number of infostates. Unlike PSRO, which mixes best responses at the root of the game, XDO mixes best responses at every infostate. We also introduce Neural XDO (NXDO), where the best response is learned through deep RL. In tabular experiments on Leduc poker, we find that XDO achieves an approximate Nash equilibrium in a number of iterations 1-2 orders of magnitude smaller than PSRO. In experiments on a modified Leduc poker game, we show that tabular XDO achieves over 11x lower exploitability than CFR and over 82x lower exploitability than PSRO and XFP in the same amount of time. We also show that NXDO beats PSRO and is competitive with NFSP on a large no-limit poker game.
翻訳日:2021-03-13 10:27:42 公開日:2021-03-11
# (参考訳) metapaths guided neighbors aggregated network for?heterogenous graph reasoning [全文訳有]

Metapaths guided Neighbors aggregated Network for?Heterogeneous Graph Reasoning ( http://arxiv.org/abs/2103.06474v1 )

ライセンス: CC BY 4.0
Bang Lin, Xiuchong Wang, Yu Dong, Chengfu Huo, Weijun Ren, Chuanyu Xu(参考訳) ほとんどの実世界のデータセットは本質的に異種グラフであり、ノードと関係型の多様性を含む。 不均一グラフ埋め込みは、グラフから構造と意味情報を学習し、それを低次元ノード表現に埋め込むことである。 既存の手法は通常、グラフの意味を表すメタパスを定義することによって異種グラフの複合関係をキャプチャする。 しかしながら、これらのメソッドはノード属性を無視したり、グラフのローカルおよびグローバル情報を破棄したり、あるいは1つのメタパスのみを考慮する。 これらの制約に対処するため,Metapaths-guided Neighbors-aggregated Heterogeneous Graph Neural Network (MHN) を提案する。 特に、MHNはノード属性をカプセル化するノードベース、ローカル情報やグローバル情報をキャプチャするメタパス内のBFSとDFS隣り合ったアグリゲーション、および異種グラフの異なるセマンティクスを組み合わせるためのメタパスアグリゲーションを採用しています。 提案したMHNは,ノード分類,リンク予測,Alibabaモバイルアプリケーション上でのオンラインA/Bテストを含む3つの実世界の異種グラフデータセットに対して広範な実験を行う。 その結果,MHNは他の最先端ベースラインよりも優れた性能を示した。

Most real-world datasets are inherently heterogeneous graphs, which involve a diversity of node and relation types. Heterogeneous graph embedding is to learn the structure and semantic information from the graph, and then embed it into the low-dimensional node representation. Existing methods usually capture the composite relation of a heterogeneous graph by defining metapath, which represent a semantic of the graph. However, these methods either ignore node attributes, or discard the local and global information of the graph, or only consider one metapath. To address these limitations, we propose a Metapaths-guided Neighbors-aggregated Heterogeneous Graph Neural Network(MHN) to improve performance. Specially, MHN employs node base embedding to encapsulate node attributes, BFS and DFS neighbors aggregation within a metapath to capture local and global information, and metapaths aggregation to combine different semantics of the heterogeneous graph. We conduct extensive experiments for the proposed MHN on three real-world heterogeneous graph datasets, including node classification, link prediction and online A/B test on Alibaba mobile application. Results demonstrate that MHN performs better than other state-of-the-art baselines.
翻訳日:2021-03-13 10:06:32 公開日:2021-03-11
# (参考訳) モデルレス強化学習のための擬似アクターネットワーク [全文訳有]

A Quadratic Actor Network for Model-Free Reinforcement Learning ( http://arxiv.org/abs/2103.06617v1 )

ライセンス: CC BY 4.0
Matthias Weissenbacher and Yoshinobu Kawahara(参考訳) 本稿では,モデルフリーなアクタ-クリティック強化学習の文脈で,二次ニューロンの政策ネットワークへの取り込みについて論じる。 二次ニューロンは、非線型性が活性化関数によって誘導される従来のアプローチとは対照的に、明示的な二次関数近似を許容する。 複数の MuJoCo 連続制御タスクの実証実験を行い、MLP ポリシネットワークに二次ニューロンを追加すると、パラメータの数が少ない間にベースライン MLP を上回ります。 返されたトップ報酬は平均で$5.8\%$増加し、サンプル効率は約$221\%$です。 さらに、追加の動作や観測ノイズに対する利点を維持できる。

In this work we discuss the incorporation of quadratic neurons into policy networks in the context of model-free actor-critic reinforcement learning. Quadratic neurons admit an explicit quadratic function approximation in contrast to conventional approaches where the the non-linearity is induced by the activation functions. We perform empiric experiments on several MuJoCo continuous control tasks and find that when quadratic neurons are added to MLP policy networks those outperform the baseline MLP whilst admitting a smaller number of parameters. The top returned reward is in average increased by $5.8\%$ while being about $21\%$ more sample efficient. Moreover, it can maintain its advantage against added action and observation noise.
翻訳日:2021-03-13 09:52:00 公開日:2021-03-11
# (参考訳) 稀有な出来事を伴う政策検索: 協力する適切なパートナーを選ぶ [全文訳有]

Policy Search with Rare Significant Events: Choosing the Right Partner to Cooperate with ( http://arxiv.org/abs/2103.06846v1 )

ライセンス: CC BY 4.0
Paul Ecoffet, Nicolas Fontbonne, Jean-Baptiste Andr\'e, Nicolas Bredeche(参考訳) 本稿では,重要な出来事が稀であり,エピソードごとの肯定的な報酬に制限される強化学習問題に焦点をあてる。 典型的な例として、協力するパートナーを選ばなければならないエージェントがあるが、多くのパートナーは、エージェントが何を提供するかに関わらず、単に協力に興味がない。 グラデーションポリシ検索法と、進化戦略を用いたダイレクトポリシ検索法という2つの異なる検索方法を用いて、継続的な状態と行動空間でこの問題に対処します。 重要な事象が稀な場合、勾配情報も乏しく、より深いニューラルアーキテクチャを持つか否かに関わらず、ポリシー勾配探索法が最適なポリシーを見つけるのが困難であることを示す。 一方、直接ポリシー探索法は重要な事象の希少性に不変であることを示し、これは進化的アルゴリズムが強化学習法としての役割を担わなければならないという別の確証である。

This paper focuses on a class of reinforcement learning problems where significant events are rare and limited to a single positive reward per episode. A typical example is that of an agent who has to choose a partner to cooperate with, while a large number of partners are simply not interested in cooperating, regardless of what the agent has to offer. We address this problem in a continuous state and action space with two different kinds of search methods: a gradient policy search method and a direct policy search method using an evolution strategy. We show that when significant events are rare, gradient information is also scarce, making it difficult for policy gradient search methods to find an optimal policy, with or without a deep neural architecture. On the other hand, we show that direct policy search methods are invariant to the rarity of significant events, which is yet another confirmation of the unique role evolutionary algorithms has to play as a reinforcement learning method.
翻訳日:2021-03-13 09:36:25 公開日:2021-03-11
# (参考訳) LESにおける超臨界LOX/GCH4燃焼におけるサブグリッドスケールクロージャの解釈可能なデータ駆動法 [全文訳有]

Interpretable Data-driven Methods for Subgrid-scale Closure in LES for Transcritical LOX/GCH4 Combustion ( http://arxiv.org/abs/2103.06397v1 )

ライセンス: CC BY 4.0
Wai Tong Chung, Aashwin Ananda Mishra, Matthias Ihme(参考訳) ロケット、ガスタービン、内燃機関などの多くの実用的な燃焼システムは、燃料-酸化剤混合物の熱力学的臨界限界を超える高圧下で作動する。 これらの条件は、これらのシステムの大規模シミュレーションにおいて既存のサブグリッドスケール(SGS)モデルの妥当性に疑問を呈する複雑な流体挙動を考慮する必要がある。 データ駆動の手法は乱流火炎シミュレーションにおけるクロージャモデルとして高い精度を示してきたが、これらのモデルは物理的解釈可能性の欠如によってしばしば批判されている。 この研究の目的は、従来の物理駆動アプローチと解釈可能な機械学習アルゴリズム、すなわち乱流超臨界非混合火炎におけるランダムフォレストレグレッサーからのSGS応力モデルを評価することである。 この目的のために、超臨界液体酸素/ガスメタン(LOX/GCH4)の不活性および反応流の直接数値シミュレーション(DNS)を行う。 このデータを用いて、Favre-filtered DNSデータ上で事前分析を行い、これらの条件下での物理ベースおよびランダムフォレストSGSモデルの精度を調べます。 勾配モデルを用いて計算したSGS応力は、フィルタDNSから抽出された正確な項とよく一致している。 特徴集合に物理ベースの制約を適用すると,ランダムフォレスト回帰器の精度が低下した。 その結果、ランダムな森林は、十分に代表的なデータベースで訓練された場合にのみ、サブグリッド応力をモデル化する際に代数モデルと同じくらい効果的に実行できることが示された。 ランダムな森林特性重要度スコアの雇用は、スパース回帰によるサブグリッドスケールストレスの発見に関する洞察を提供する。

Many practical combustion systems such as those in rockets, gas turbines, and internal combustion engines operate under high pressures that surpass the thermodynamic critical limit of fuel-oxidizer mixtures. These conditions require the consideration of complex fluid behaviors that pose challenges for numerical simulations, casting doubts on the validity of existing subgrid-scale (SGS) models in large-eddy simulations of these systems. While data-driven methods have shown high accuracy as closure models in simulations of turbulent flames, these models are often criticized for lack of physical interpretability, wherein they provide answers but no insight into their underlying rationale. The objective of this study is to assess SGS stress models from conventional physics-driven approaches and an interpretable machine learning algorithm, i.e., the random forest regressor, in a turbulent transcritical non-premixed flame. To this end, direct numerical simulations (DNS) of transcritical liquid-oxygen/gaseou s-methane (LOX/GCH4) inert and reacting flows are performed. Using this data, a priori analysis is performed on the Favre-filtered DNS data to examine the accuracy of physics-based and random forest SGS-models under these conditions. SGS stresses calculated with the gradient model show good agreement with the exact terms extracted from filtered DNS. The accuracy of the random-forest regressor decreased when physics-based constraints are applied to the feature set. Results demonstrate that random forests can perform as effectively as algebraic models when modeling subgrid stresses, only when trained on a sufficiently representative database. The employment of random forest feature importance score is shown to provide insight into discovering subgrid-scale stresses through sparse regression.
翻訳日:2021-03-13 09:32:57 公開日:2021-03-11
# (参考訳) Fair Mixup: 補間による公平性 [全文訳有]

Fair Mixup: Fairness via Interpolation ( http://arxiv.org/abs/2103.06503v1 )

ライセンス: CC BY 4.0
Ching-Yao Chuang, Youssef Mroueh(参考訳) グループ公平性などの公正性制約下での訓練分類器は、グループ間の予測の格差を規則化する。 それでも、トレーニング中に制約が満たされても、評価時に一般化することはない。 公平な分類器の一般化性を改善するため,フェアネス制約を課す新しいデータ拡張戦略であるフェアミックスアップを提案する。 特に, 群間の補間標本の経路上のモデルを正則化することにより, 公平性が達成できることを示す。 mixupは、これらの補間を生成するための強力なデータ拡張戦略です。 公正な混合を分析し、表、ビジョン、および言語ベンチマークの精度と公平性測定の両方においてより良い一般化を保証することを実証的に示します。

Training classifiers under fairness constraints such as group fairness, regularizes the disparities of predictions between the groups. Nevertheless, even though the constraints are satisfied during training, they might not generalize at evaluation time. To improve the generalizability of fair classifiers, we propose fair mixup, a new data augmentation strategy for imposing the fairness constraint. In particular, we show that fairness can be achieved by regularizing the models on paths of interpolated samples between the groups. We use mixup, a powerful data augmentation strategy to generate these interpolates. We analyze fair mixup and empirically show that it ensures a better generalization for both accuracy and fairness measurement in tabular, vision, and language benchmarks.
翻訳日:2021-03-13 08:41:36 公開日:2021-03-11
# (参考訳) 量子機械学習のための可変構造を持つ半無知ansatz [全文訳有]

A semi-agnostic ansatz with variable structure for quantum machine learning ( http://arxiv.org/abs/2103.06712v1 )

ライセンス: CC BY 4.0
M. Bilkis, M. Cerezo, Guillaume Verdon, Patrick J. Coles, Lukasz Cincio(参考訳) Quantum Machine Learning (QML) は、化学、計測、材料科学、データサイエンス、数学など、短期量子コンピュータをプログラミングするための強力で柔軟なパラダイムを提供します。 ここで、パラメータ化された量子回路の形でアンサッツを訓練し、関心のあるタスクを達成する。 しかし、近年、ランダム性やハードウェアノイズによる平坦なトレーニング環境のため、深いアンサtzeのトレーニングが難しいという課題が浮上している。 これは、QMLのasatzesを構築するための可変構造アプローチを提示する作業の動機になります。 VAns(Variable Ansatz)と呼ばれる私たちのアプローチは、最適化中に情報に基づいた方法で量子ゲートを成長および(表面的に)削除するための一連のルールを適用します。 その結果、VAnsはアンサツを浅く保ち、訓練性や騒音関連の問題を軽減するのに理想的です。 凝縮物および量子化学応用のための変分量子固有解法や、データ圧縮のための量子オートエンコーダにもバンを用い、全てのケースで成功した結果を示す。

Quantum machine learning (QML) offers a powerful, flexible paradigm for programming near-term quantum computers, with applications in chemistry, metrology, materials science, data science, and mathematics. Here, one trains an ansatz, in the form of a parameterized quantum circuit, to accomplish a task of interest. However, challenges have recently emerged suggesting that deep ansatzes are difficult to train, due to flat training landscapes caused by randomness or by hardware noise. This motivates our work, where we present a variable structure approach to build ansatzes for QML. Our approach, called VAns (Variable Ansatz), applies a set of rules to both grow and (crucially) remove quantum gates in an informed manner during the optimization. Consequently, VAns is ideally suited to mitigate trainability and noise-related issues by keeping the ansatz shallow. We employ VAns in the variational quantum eigensolver for condensed matter and quantum chemistry applications and also in the quantum autoencoder for data compression, showing successful results in all cases.
翻訳日:2021-03-13 08:08:56 公開日:2021-03-11
# (参考訳) Wasserstein Robustがベクターマシンを公平性制約付きでサポート [全文訳有]

Wasserstein Robust Support Vector Machines with Fairness Constraints ( http://arxiv.org/abs/2103.06828v1 )

ライセンス: CC BY 4.0
Yijie Wang, Viet Anh Nguyen, Grani A. Hanasusanto(参考訳) 本稿では,機会基準の平等の観点から分類器が公平であることを促す公平性制約のある分布的ロバストなサポートベクターマシンを提案する。 実験分布を中心にしたタイプ=$\infty$ワッサーシュタイン曖昧性集合を用いて分布の不確かさをモデル化し、最悪の場合の不公平性尺度の正確な修正を導出する。 標準オフザシェルソルバで解くことができる混合バイナリ最適化問題と同等であることを定式化します。 さらに,ヒンジ損失対象関数の期待値が誤分類確率の上界を構成することを証明した。 最後に,提案手法が予測精度を損なうことなく公平性を向上させることを数値的に示す。

We propose a distributionally robust support vector machine with a fairness constraint that encourages the classifier to be fair in view of the equality of opportunity criterion. We use a type-$\infty$ Wasserstein ambiguity set centered at the empirical distribution to model distributional uncertainty and derive an exact reformulation for worst-case unfairness measure. We establish that the model is equivalent to a mixed-binary optimization problem, which can be solved by standard off-the-shelf solvers. We further prove that the expectation of the hinge loss objective function constitutes an upper bound on the misclassification probability. Finally, we numerically demonstrate that our proposed approach improves fairness with negligible loss of predictive accuracy.
翻訳日:2021-03-13 07:37:06 公開日:2021-03-11
# (参考訳) 古典データのテンソルネットワークと効率的な記述 [全文訳有]

Tensor networks and efficient descriptions of classical data ( http://arxiv.org/abs/2103.06872v1 )

ライセンス: CC BY 4.0
Sirui Lu, M\'arton Kan\'asz-Nagy, Ivan Kukuljan, J. Ignacio Cirac(参考訳) テンソルネットワークに基づく機械学習手法が大規模画像やテキストデータセットにスケールする可能性について検討する。 そのため、サブリージョンと補領域間の相互情報は、量子多体物理学で行うのと同様に、サブシステムサイズ$L$とどのようにスケールするかを検討する。 テキストの場合、相互情報はボリューム法指数に近い電力法$L^\nu$としてスケールし、1Dテンソルネットワークではテキストを効率的に記述できないことを示す。 画像の場合、スケーリングは領域法則に近く、PEPSのような2次元テンソルネットワークが適切な表現性を持つ可能性があることを示唆している。 本研究では,自己回帰型ネットワークに基づく相互情報推定器を導入するとともに,畳み込みニューラルネットワークを用いてニューラルネットワークを推定する。

We investigate the potential of tensor network based machine learning methods to scale to large image and text data sets. For that, we study how the mutual information between a subregion and its complement scales with the subsystem size $L$, similarly to how it is done in quantum many-body physics. We find that for text, the mutual information scales as a power law $L^\nu$ with a close to volume law exponent, indicating that text cannot be efficiently described by 1D tensor networks. For images, the scaling is close to an area law, hinting at 2D tensor networks such as PEPS could have an adequate expressibility. For the numerical analysis, we introduce a mutual information estimator based on autoregressive networks, and we also use convolutional neural networks in a neural estimator method.
翻訳日:2021-03-13 06:40:08 公開日:2021-03-11
# (参考訳) ヘッダアライメントトレーニングによる自己教師付きテキスト-SQL学習 [全文訳有]

Self-supervised Text-to-SQL Learning with Header Alignment Training ( http://arxiv.org/abs/2103.06402v1 )

ライセンス: CC BY 4.0
Donggyu Kim, Seanie Lee(参考訳) 人間の指導なしに大量のラベルのないデータを活用してモデルを訓練し、目標とするタスクに知識を伝達できるため、自己教師型学習は、近年の様々な分野における深層学習の成功のためのデファクトコンポーネントである。 しかし、多くの場合、自己監督学習の目的とタスク固有の目的との間に矛盾があります。 このようなText-to-SQLタスクの相違に対処するため、新しい自己監督学習フレームワークを提案する。 テキストからsqlへのタスクのタスク固有の特性とテーブルコンテンツの構造を利用して、ラベルなしのテーブルデータから \textit{header-column} アライメントタスクの有用な知識を学ぶ。 私たちは、知識を注釈付きサンプルを使って教師付きテキストからsqlへのトレーニングに転送することができ、モデルがその知識をうまく活用して、sqlステートメントを予測するために \textit{header-span}アライメントタスクを実行できます。 実験の結果,我々の自己教師型学習フレームワークは,大規模な外部コーパスを使わずに既存の強力なBERTモデルの性能を著しく向上させることがわかった。 特に,本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。 この作業のソースコードはgithubで公開されている。

Since we can leverage a large amount of unlabeled data without any human supervision to train a model and transfer the knowledge to target tasks, self-supervised learning is a de-facto component for the recent success of deep learning in various fields. However, in many cases, there is a discrepancy between a self-supervised learning objective and a task-specific objective. In order to tackle such discrepancy in Text-to-SQL task, we propose a novel self-supervised learning framework. We utilize the task-specific properties of Text-to-SQL task and the underlying structures of table contents to train the models to learn useful knowledge of the \textit{header-column} alignment task from unlabeled table data. We are able to transfer the knowledge to the supervised Text-to-SQL training with annotated samples, so that the model can leverage the knowledge to better perform the \textit{header-span} alignment task to predict SQL statements. Experimental results show that our self-supervised learning framework significantly improves the performance of the existing strong BERT based models without using large external corpora. In particular, our method is effective for training the model with scarce labeled data. The source code of this work is available in GitHub.
翻訳日:2021-03-13 05:55:10 公開日:2021-03-11
# (参考訳) MediaSum:対話要約のための大規模メディアインタビューデータセット [全文訳有]

MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization ( http://arxiv.org/abs/2103.06410v1 )

ライセンス: CC BY 4.0
Chenguang Zhu, Yang Liu, Jie Mei, Michael Zeng(参考訳) MediaSumは463.6Kのトランスクリプトと抽象的な要約からなる大規模なメディアインタビューデータセットである。 このデータセットを作成するために,NPRとCNNからインタビュー書き起こしを収集し,概要とトピック記述を要約として利用する。 対話要約のための既存の公開コーパスと比較して、我々のデータセットは桁違いに大きく、複数のドメインからの複雑な多人数会話を含んでいる。 我々は,テレビインタビューやラジオインタビューの台本に現れるユニークな位置バイアスを統計的に分析する。 また,他の対話要約タスクにおけるモデルの性能向上のために,メディアサムが伝達学習に利用できることを示す。

MediaSum, a large-scale media interview dataset consisting of 463.6K transcripts with abstractive summaries. To create this dataset, we collect interview transcripts from NPR and CNN and employ the overview and topic descriptions as summaries. Compared with existing public corpora for dialogue summarization, our dataset is an order of magnitude larger and contains complex multi-party conversations from multiple domains. We conduct statistical analysis to demonstrate the unique positional bias exhibited in the transcripts of televised and radioed interviews. We also show that MediaSum can be used in transfer learning to improve a model's performance on other dialogue summarization tasks.
翻訳日:2021-03-13 05:37:43 公開日:2021-03-11
# (参考訳) LightMBERT:多言語BERT蒸留の簡便かつ効果的な方法 [全文訳有]

LightMBERT: A Simple Yet Effective Method for Multilingual BERT Distillation ( http://arxiv.org/abs/2103.06418v1 )

ライセンス: CC BY 4.0
Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang and Qun Liu(参考訳) 多言語プリトレーニング言語モデル(例えば、mBERT、XLM、XLM-R)は、多言語の自然言語理解タスクで印象的なパフォーマンスを示した。 しかし、これらのモデルは計算集約的であり、リソース制限されたデバイスにデプロイすることは困難である。 本論文では,マルチリンガルBERTのクロスリンガル一般化能力を小さな学生モデルに伝達するための簡便かつ効果的な蒸留法(LightMBERT)を提案する。 本実験は,教師mBERTに匹敵する,ベースラインよりもはるかに優れたLightMBERTの有効性と有効性を実証的に実証した。

The multilingual pre-trained language models (e.g, mBERT, XLM and XLM-R) have shown impressive performance on cross-lingual natural language understanding tasks. However, these models are computationally intensive and difficult to be deployed on resource-restricted devices. In this paper, we propose a simple yet effective distillation method (LightMBERT) for transferring the cross-lingual generalization ability of the multilingual BERT to a small student model. The experiment results empirically demonstrate the efficiency and effectiveness of LightMBERT, which is significantly better than the baselines and performs comparable to the teacher mBERT.
翻訳日:2021-03-13 05:28:53 公開日:2021-03-11
# (参考訳) BERTのマジックは医療コード割り当てに適用されるか? 定量的研究 [全文訳有]

Does the Magic of BERT Apply to Medical Code Assignment? A Quantitative Study ( http://arxiv.org/abs/2103.06511v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji and Matti H\"oltt\"a and Pekka Marttinen(参考訳) 教師なし事前学習は、多くの自然言語処理システムにおいて不可欠な部分であり、言語モデルによる転送学習は多くの下流タスクで顕著な成果を上げている。 医療コード割り当ての臨床応用において、診断および手順コードは、病院の退院要約などの長い臨床ノートから推測される。 しかし、事前訓練されたモデルが、さらなるアーキテクチャエンジニアリングなしで医療コード予測に有用かどうかは明らかではない。 本稿では,臨床ノートからの医療用コード代入のために,各ドメインで事前訓練された各種文脈言語モデルの性能を包括的に定量的に分析する。 本稿では,単語間のインタラクションをキャプチャし,ラベル情報を活用する階層的な微調整アーキテクチャを提案する。 現在の傾向とは対照的に、我々は慎重に訓練された古典的なCNNは、頻繁なコードでMIMIC-IIIサブセット上の注意ベースのモデルを上回ることを実証します。 以上の結果から,医療用コード割当てアプリケーションの改善の方向性が示唆された。

Unsupervised pretraining is an integral part of many natural language processing systems, and transfer learning with language models has achieved remarkable results in many downstream tasks. In the clinical application of medical code assignment, diagnosis and procedure codes are inferred from lengthy clinical notes such as hospital discharge summaries. However, it is not clear if pretrained models are useful for medical code prediction without further architecture engineering. This paper conducts a comprehensive quantitative analysis of various contextualized language models' performance, pretrained in different domains, for medical code assignment from clinical notes. We propose a hierarchical fine-tuning architecture to capture interactions between distant words and adopt label-wise attention to exploit label information. Contrary to current trends, we demonstrate that a carefully trained classical CNN outperforms attention-based models on a MIMIC-III subset with frequent codes. Our empirical findings suggest directions for improving the medical code assignment application.
翻訳日:2021-03-13 05:21:54 公開日:2021-03-11
# (参考訳) DebIE: 単語埋め込み空間の暗黙的および明示的なデバイアスのためのプラットフォーム [全文訳有]

DebIE: A Platform for Implicit and Explicit Debiasing of Word Embedding Spaces ( http://arxiv.org/abs/2103.06598v1 )

ライセンス: CC BY 4.0
Niklas Friedrich, Anne Lauscher, Simone Paolo Ponzetto and Goran Glava\v{s}(参考訳) NLPの最近の研究は、分布ワードベクトル空間がしばしば人種差別や性差別などのステレオタイプの人間のバイアスを符号化することを実証している。 nlpモデルやパイプラインでユビキタスに使用される言葉表現は、倫理的な問題を引き起こし、言語技術の公平さを損なう。 バイアス測度とデバイアス法に関する大きな研究体は存在するが、これまでのところ、これらの研究を統一し、表現空間のバイアス測度とデバイアスを広くアクセス可能にするプラットフォームはない。 本稿では,(1)計測のための統合プラットフォームであるdebieと,(2)単語埋め込みにおけるバイアスの軽減について述べる。 i)埋め込み空間(ユーザが事前に定義された空間を選べるか、自分でアップロードするか)と(ii)バイアス仕様(ユーザが既存のバイアス仕様を選べるか、独自のバイアスを作成するか)が与えられた場合、debieは(1)暗黙的および明示的なバイアスのいくつかの尺度を計算し、2つの(変更可能な)デバイアスモデルを実行して埋め込み空間を変更することができる。 DebIEの機能は、(a)Webアプリケーション、(b)デスクトップアプリケーション、(c)RESTフルAPI、(d)コマンドラインアプリケーションという4つの異なるインターフェースを通じてアクセスすることができる。 DebIEはdebie.informatik.uni -mannheim.deで入手できる。

Recent research efforts in NLP have demonstrated that distributional word vector spaces often encode stereotypical human biases, such as racism and sexism. With word representations ubiquitously used in NLP models and pipelines, this raises ethical issues and jeopardizes the fairness of language technologies. While there exists a large body of work on bias measures and debiasing methods, to date, there is no platform that would unify these research efforts and make bias measuring and debiasing of representation spaces widely accessible. In this work, we present DebIE, the first integrated platform for (1) measuring and (2) mitigating bias in word embeddings. Given an (i) embedding space (users can choose between the predefined spaces or upload their own) and (ii) a bias specification (users can choose between existing bias specifications or create their own), DebIE can (1) compute several measures of implicit and explicit bias and modify the embedding space by executing two (mutually composable) debiasing models. DebIE's functionality can be accessed through four different interfaces: (a) a web application, (b) a desktop application, (c) a REST-ful API, and (d) as a command-line application. DebIE is available at: debie.informatik.uni -mannheim.de.
翻訳日:2021-03-13 05:08:08 公開日:2021-03-11
# (参考訳) 簡易対話システムのためのドメイン状態追跡 [全文訳有]

Domain State Tracking for a Simplified Dialogue System ( http://arxiv.org/abs/2103.06648v1 )

ライセンス: CC BY 4.0
Hyunmin Jeon, Gary Geunbae Lee(参考訳) タスク指向の対話システムは、ユーザが特定の領域で目標を達成できるようにする。 最近のニューラルダイアログシステムでは、対話履歴全体を用いて、複数の会話のターンに蓄積された豊富なコンテキスト情報を利用する。 しかし、ターン数が増加するにつれて対話の歴史は長くなるため、メモリ使用量や計算コストが増大する。 本稿では,対話履歴全体ではなく,入力コンテキストを簡略化したタスク指向対話システムであるDoTS(Domain State Tracking for a Simplified Dialogue System)について述べる。 しかし、対話履歴を無視すると、以前の会話の交代から文脈情報が失われる可能性がある。 この問題に対処するため、DoTSは信念状態に加えてドメインの状態を追跡し、入力コンテキストに使用します。 この単純化された入力を用いて、DoTSは、よく知られたベンチマークであるMultiWOZの以前の最先端モデルと比較して、インフォメーションレートと成功率を1.09ポイントと1.24ポイント改善する。

Task-oriented dialogue systems aim to help users achieve their goals in specific domains. Recent neural dialogue systems use the entire dialogue history for abundant contextual information accumulated over multiple conversational turns. However, the dialogue history becomes increasingly longer as the number of turns increases, thereby increasing memory usage and computational costs. In this paper, we present DoTS (Domain State Tracking for a Simplified Dialogue System), a task-oriented dialogue system that uses a simplified input context instead of the entire dialogue history. However, neglecting the dialogue history can result in a loss of contextual information from previous conversational turns. To address this issue, DoTS tracks the domain state in addition to the belief state and uses it for the input context. Using this simplified input, DoTS improves the inform rate and success rate by 1.09 points and 1.24 points, respectively, compared to the previous state-of-the-art model on MultiWOZ, which is a well-known benchmark.
翻訳日:2021-03-13 04:55:32 公開日:2021-03-11
# (参考訳) MERMAID:シンボルと識別復号を伴うメタファー生成

MERMAID: Metaphor Generation with Symbolism and Discriminative Decoding ( http://arxiv.org/abs/2103.06779v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Xurui Zhang, Smaranda Muresan, Nanyun Peng(参考訳) メタファーの生成は、抽象的な概念を適切に理解し、無関係な概念間のつながりを作り、文字通りの意味から逸脱する必要があるため、難しい作業です。 比喩と記号の理論的接地関係に基づき,多量の比喩文をGutenberg Poetry corpus (Jacobs, 2018) からリテラルに変換し, 共通意味推論と組み合わせたマスク付き言語モデリングの最近の進歩を利用して, パラレルコーパスを自動構築する手法を提案する。 生成タスクには、並列データに微調整されたシーケンスモデルにシーケンスの復号を誘導するメタファ識別器を組み込み、高品質なメタファを生成する。 リテラルステートメントの独立したテストセットに対する人間による評価は、我々の最良のモデルは、平均して66%の時間で3つの巧妙なベースラインよりも優れたメタファーを生成することを示している。 課題ベース評価では,メタファーのない詩に比べて,モデルによって提案されたメタファーで強化された人文詩が68%の時間を好むことが示された。

Generating metaphors is a challenging task as it requires a proper understanding of abstract concepts, making connections between unrelated concepts, and deviating from the literal meaning. Based on a theoretically-ground ed connection between metaphors and symbols, we propose a method to automatically construct a parallel corpus by transforming a large number of metaphorical sentences from the Gutenberg Poetry corpus (Jacobs, 2018) to their literal counterpart using recent advances in masked language modeling coupled with commonsense inference. For the generation task, we incorporate a metaphor discriminator to guide the decoding of a sequence to sequence model fine-tuned on our parallel data to generate high-quality metaphors. Human evaluation on an independent test set of literal statements shows that our best model generates metaphors better than three well-crafted baselines 66% of the time on average. A task-based evaluation shows that human-written poems enhanced with metaphors proposed by our model are preferred 68% of the time compared to poems without metaphors.
翻訳日:2021-03-13 04:49:45 公開日:2021-03-11
# (参考訳) 安全なRAN制御のための記号強化学習 [全文訳有]

Symbolic Reinforcement Learning for Safe RAN Control ( http://arxiv.org/abs/2103.06602v1 )

ライセンス: CC BY 4.0
Alexandros Nikou, Anusha Mujumdar, Marin Orlic, Aneta Vulgarakis Feljan(参考訳) 本稿では,無線アクセスネットワーク(RAN)アプリケーションにおいて,安全制御のためのシンボル強化学習(SRL)アーキテクチャを実証する。 自動ツールでは、特定のキーパフォーマンス指標(KPI)によって測定されたネットワーク性能の最適化を目的として、LTL(Linear Temporal Logic)で表現された高レベルの安全仕様を選択して、所定のセルネットワーク上で動作しているRLエージェントを保護することができる。 提案するアーキテクチャでは、強化学習によって抽象化された統合離散システムモデル(automata)に対して、モデルチェック技術によってネットワーク安全遮蔽が保証される。 ユーザインタフェース(ui)を用いて,ユーザがインテントの仕様をアーキテクチャに設定し,許可されたアクションとブロックされたアクションの違いを検査する。

In this paper, we demonstrate a Symbolic Reinforcement Learning (SRL) architecture for safe control in Radio Access Network (RAN) applications. In our automated tool, a user can select a high-level safety specifications expressed in Linear Temporal Logic (LTL) to shield an RL agent running in a given cellular network with aim of optimizing network performance, as measured through certain Key Performance Indicators (KPIs). In the proposed architecture, network safety shielding is ensured through model-checking techniques over combined discrete system models (automata) that are abstracted through reinforcement learning. We demonstrate the user interface (UI) helping the user set intent specifications to the architecture and inspect the difference in allowed and blocked actions.
翻訳日:2021-03-13 04:31:09 公開日:2021-03-11
# (参考訳) 暗黙的表現をもつ単一画像からの全体的3次元シーン理解 [全文訳有]

Holistic 3D Scene Understanding from a Single Image with Implicit Representation ( http://arxiv.org/abs/2103.06422v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu(参考訳) 本研究では,物体形状,物体ポーズ,シーンレイアウトを予測可能な,1つの画像から全体的3次元シーン理解のための新しいパイプラインを提案する。 従来の手法では, 物体間の密接な閉塞が原因で, 特に散在するシーンにおいて, 形状とレイアウトが不正確な場合が多い。 我々は,この課題を解決するために,最新の深部暗黙表現を利用することを提案する。 画像に基づく局所構造的暗黙的ネットワークを提案してオブジェクト形状の推定を改善するだけでなく、暗黙的局所オブジェクトの特徴を利用する新しい暗黙的シーングラフニューラルネットワークにより、3Dオブジェクトのポーズとシーンレイアウトを洗練する。 オブジェクト間の不正確なコンテキストを回避するために、新しい物理的な違反損失も提案される。 大規模な実験により,本手法はオブジェクト形状,シーンレイアウト推定,3次元オブジェクト検出において最先端の手法よりも優れていた。

We present a new pipeline for holistic 3D scene understanding from a single image, which could predict object shape, object pose, and scene layout. As it is a highly ill-posed problem, existing methods usually suffer from inaccurate estimation of both shapes and layout especially for the cluttered scene due to the heavy occlusion between objects. We propose to utilize the latest deep implicit representation to solve this challenge. We not only propose an image-based local structured implicit network to improve the object shape estimation, but also refine 3D object pose and scene layout via a novel implicit scene graph neural network that exploits the implicit local object features. A novel physical violation loss is also proposed to avoid incorrect context between objects. Extensive experiments demonstrate that our method outperforms the state-of-the-art methods in terms of object shape, scene layout estimation, and 3D object detection.
翻訳日:2021-03-13 04:25:33 公開日:2021-03-11
# (参考訳) フィリピンの舗装におけるYOLOv4とDeepLabv3を用いた舗装距離の検出とセグメンテーション [全文訳有]

Pavement Distress Detection and Segmentation using YOLOv4 and DeepLabv3 on Pavements in the Philippines ( http://arxiv.org/abs/2103.06467v1 )

ライセンス: CC BY 4.0
James-Andrew Sarmiento(参考訳) 道路輸送インフラは、生産的な社会に資する国全体の安全、迅速、経済的、信頼性の高いモビリティのために不可欠です。 しかし、道路は自然環境や繰り返しの交通負荷により、時間とともに劣化する傾向にある。 舗装ディストレス(PD)検出は、道路の現在の状態をモニタリングし、目標のリハビリテーションと予防的維持を可能にするために不可欠である。 それでもフィリピンのような発展途上国では、ディストレスト検出調査が手作業による検査によって行われている。 本研究は,2次元RGB画像からの舗装難聴の2つの方法 - 検出とセグメンテーション - に対する深層学習の利用を提案する。 YOLOv4は舗装救難検出に使用され、DeepLabv3はフィリピンの舗装救難画像の小さなデータセットの舗装救難セグメンテーションに使用される。 本研究の目的は、国内におけるPD検出のための安価でスケーラブルで自動化されたエンドツーエンドソリューションの構築において、潜在的なソリューションを刺激する基盤を提供することである。

Road transport infrastructure is critical for safe, fast, economical, and reliable mobility within the whole country that is conducive to a productive society. However, roads tend to deteriorate over time due to natural causes in the environment and repeated traffic loads. Pavement Distress (PD) detection is essential in monitoring the current conditions of the public roads to enable targeted rehabilitation and preventive maintenance. Nonetheless, distress detection surveys are still done via manual inspection for developing countries such as the Philippines. This study proposed the use of deep learning for two ways of recording pavement distresses from 2D RGB images - detection and segmentation. YOLOv4 is used for pavement distress detection while DeepLabv3 is employed for pavement distress segmentation on a small dataset of pavement images in the Philippines. This study aims to provide a basis to potentially spark solutions in building a cheap, scalable, and automated end-to-end solution for PD detection in the country.
翻訳日:2021-03-13 04:11:17 公開日:2021-03-11
# (参考訳) triple-cooperative video shadow detection [全文訳有]

Triple-cooperative Video Shadow Detection ( http://arxiv.org/abs/2103.06533v1 )

ライセンス: CC BY 4.0
Zhihao Chen, Liang Wan, Lei Zhu, Jia Shen, Huazhu Fu, Wennan Liu, Jing Qin(参考訳) 単一の画像の影検出は、近年大きな研究関心を集めています。 しかし、ダイナミックシーンのシャドー検出では、より少ない作品が研究されている。 ボトルネックは、ビデオシャドウ検出のための高品質のアノテーションを備えた定評のあるデータセットがないことです。 そこで本研究では,11,685フレームの120の動画,60の対象カテゴリ,異なる長さ,異なる動き/照度条件を含むビデオ影検出データセットを新たに収集した。 すべてのフレームは高品質のピクセルレベルのシャドーマスクでアノテートされている。 私たちの知る限りでは、これはビデオシャドウ検出のための最初の学習指向データセットです。 さらに,新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)を開発した。 トリプル並列ネットワークを協調的に利用して、ビデオ内およびビデオ間レベルで識別表現を学習します。 ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。 最後に、ViShaに関する包括的な研究を行い、12の最先端のモデル(単一の画像シャドーディテクタ、ビデオオブジェクトセグメンテーション、およびサリエンシー検出方法を含む)を評価します。 実験は、私たちのモデルがSOTAの競合他社を上回っていることを示しています。

Shadow detection in a single image has received significant research interest in recent years. However, much fewer works have been explored in shadow detection over dynamic scenes. The bottleneck is the lack of a well-established dataset with high-quality annotations for video shadow detection. In this work, we collect a new video shadow detection dataset, which contains 120 videos with 11, 685 frames, covering 60 object categories, varying lengths, and different motion/lighting conditions. All the frames are annotated with a high-quality pixel-level shadow mask. To the best of our knowledge, this is the first learning-oriented dataset for video shadow detection. Furthermore, we develop a new baseline model, named triple-cooperative video shadow detection network (TVSD-Net). It utilizes triple parallel networks in a cooperative manner to learn discriminative representations at intra-video and inter-video levels. Within the network, a dual gated co-attention module is proposed to constrain features from neighboring frames in the same video, while an auxiliary similarity loss is introduced to mine semantic information between different videos. Finally, we conduct a comprehensive study on ViSha, evaluating 12 state-of-the-art models (including single image shadow detectors, video object segmentation, and saliency detection methods). Experiments demonstrate that our model outperforms SOTA competitors.
翻訳日:2021-03-13 03:51:25 公開日:2021-03-11
# (参考訳) ポイントフロー:空中画像セグメンテーションのためのポイントを流れる意味論 [全文訳有]

PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation ( http://arxiv.org/abs/2103.06564v1 )

ライセンス: CC BY 4.0
Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, Zhouchen Lin(参考訳) Aerial Image Segmentationは特定のセマンティックセグメンテーションの問題であり、一般的なセマンティックセグメンテーションが持たないいくつかの困難な特徴を持っている。 1つは極めて前景背景の不均衡な分布であり、もう1つは複雑な背景と共に複数の小さなオブジェクトである。 このような問題により、最近の密接な親和性コンテキストモデリングは、過剰な背景コンテキストによるベースラインと比較しても性能が劣る。 そこで本研究では,FPN(Feature Pyramid Network)フレームワークに基づくポイントアフィニティ伝播モジュールであるPointFlowを提案する。 密接な親和性学習ではなく、隣接する特徴間の選択点にスパース親和性マップが生成され、効率を保ちながら背景から生じるノイズを低減する。 特に、液状領域とオブジェクトの境界からそれぞれポイントを選択するために、デュアルポイントマッチャーを設計します。 3つの異なる空中セグメンテーションデータセットの実験結果から,提案手法は最先端の汎用セグメンテーション法よりも効率的かつ効率的であることが示唆された。 特に,提案手法は3つのベンチマークにおいて,最高速度と精度のトレードオフを達成している。 3つの一般的なセマンティックセグメンテーションデータセットのさらなる実験は、我々の方法の一般性を証明する。 コードはhttps: //github.com/lxtGH/P FSegNetsで提供される。

Aerial Image Segmentation is a particular semantic segmentation problem and has several challenging characteristics that general semantic segmentation does not have. There are two critical issues: The one is an extremely foreground-backgroun d imbalanced distribution, and the other is multiple small objects along with the complex background. Such problems make the recent dense affinity context modeling perform poorly even compared with baselines due to over-introduced background context. To handle these problems, we propose a point-wise affinity propagation module based on the Feature Pyramid Network (FPN) framework, named PointFlow. Rather than dense affinity learning, a sparse affinity map is generated upon selected points between the adjacent features, which reduces the noise introduced by the background while keeping efficiency. In particular, we design a dual point matcher to select points from the salient area and object boundaries, respectively. Experimental results on three different aerial segmentation datasets suggest that the proposed method is more effective and efficient than state-of-the-art general semantic segmentation methods. Especially, our methods achieve the best speed and accuracy trade-off on three aerial benchmarks. Further experiments on three general semantic segmentation datasets prove the generality of our method. Code will be provided in (https: //github.com/lxtGH/P FSegNets).
翻訳日:2021-03-13 03:46:19 公開日:2021-03-11
# (参考訳) プライバシー保護オブジェクト検出 [全文訳有]

Privacy-preserving Object Detection ( http://arxiv.org/abs/2103.06587v1 )

ライセンス: CC BY 4.0
Peiyang He, Charlie Griffin, Krzysztof Kacprzyk, Artjom Joosen, Michael Collyer, Aleksandar Shtedritski, Yuki M. Asano(参考訳) データセットにおけるプライバシーの考慮とバイアスは、コンピュータビジョンコミュニティが直面する必要がある優先度の高い問題になりつつある。 これまでのところ、新しいデータセットの収集を含まない実用的なソリューションにはほとんど注意が払われていない。 本研究は,COCOにおけるオブジェクト検出において,顔のぼやけによるデータセットの匿名化と,性別や肌のトーン次元に沿ったバランスの取れた顔の交換が,プライバシを保ち,偏りを部分的に保ちながらオブジェクト検出性能を維持することを示す。

Privacy considerations and bias in datasets are quickly becoming high-priority issues that the computer vision community needs to face. So far, little attention has been given to practical solutions that do not involve collection of new datasets. In this work, we show that for object detection on COCO, both anonymizing the dataset by blurring faces, as well as swapping faces in a balanced manner along the gender and skin tone dimension, can retain object detection performances while preserving privacy and partially balancing bias.
翻訳日:2021-03-13 03:22:52 公開日:2021-03-11
# (参考訳) 二次拘束下での深部グラフマッチング [全文訳有]

Deep Graph Matching under Quadratic Constraint ( http://arxiv.org/abs/2103.06643v1 )

ライセンス: CC BY 4.0
Quankai Gao, Fudong Wang, Nan Xue, Jin-Gang Yu, Gui-Song Xia(参考訳) 近年,グラフノード上で抽出された深層特徴の記述能力に依拠して,グラフマッチング問題に対して有望な結果が得られている。 しかし、既存のディープグラフマッチング(DGM)メソッドの主な制限の1つは、グラフ構造の明示的な制約の無知であり、トレーニング中にモデルが局所的な最小値に閉じ込められる可能性がある。 本稿では, DGM フレームワークに組み込んだ対方グラフ構造を, \textbf{quadratic constraint} として明示的に定式化する。 二次制約はグラフ間の対構造的な相違を最小限に抑え、抽出したCNN特徴のみを用いて得られるあいまいさを軽減できる。 さらに,2次制約付き最適化に対して,制約のないディープラーニングオプティマイザと互換性があるような,微分可能な実装を提案する。 より正確かつ適切な監視を行うために、クラス不均衡に対する適切に設計された偽マッチング損失が提案され、過度に適合しない偽陰性や偽陽性をよりよく罰できる。 実験により,本手法が実世界のデータセット上での最先端性能を実現することを示す。

Recently, deep learning based methods have demonstrated promising results on the graph matching problem, by relying on the descriptive capability of deep features extracted on graph nodes. However, one main limitation with existing deep graph matching (DGM) methods lies in their ignorance of explicit constraint of graph structures, which may lead the model to be trapped into local minimum in training. In this paper, we propose to explicitly formulate pairwise graph structures as a \textbf{quadratic constraint} incorporated into the DGM framework. The quadratic constraint minimizes the pairwise structural discrepancy between graphs, which can reduce the ambiguities brought by only using the extracted CNN features. Moreover, we present a differentiable implementation to the quadratic constrained-optimiza tion such that it is compatible with the unconstrained deep learning optimizer. To give more precise and proper supervision, a well-designed false matching loss against class imbalance is proposed, which can better penalize the false negatives and false positives with less overfitting. Exhaustive experiments demonstrate that our method achieves state-of-the-art performance on real-world datasets.
翻訳日:2021-03-13 02:50:31 公開日:2021-03-11
# (参考訳) ディープポリシーネットワークの隠れた活動の分析:なぜ表現が重要なのか [全文訳有]

Analyzing the Hidden Activations of Deep Policy Networks: Why Representation Matters ( http://arxiv.org/abs/2103.06398v1 )

ライセンス: CC BY 4.0
Trevor A. McInroe and Michael Spurrier and Jennifer Sieber and Stephen Conneely(参考訳) 我々は、深層強化学習(RL)エージェントのニューラルネットワークポリシーの隠れた活性化を分析し、実証的に、状態表現が高速学習に寄与するかどうかを事前に知ることができることを示す。 高次元状態におけるRLエージェントには,(1)行動選択ポリシーを学ぶこと,(2)ある状態における有用情報と非有用情報の識別を学ぶこと,の2つの主な学習負担がある。 これらの高次元状態の潜在表現を補助モデルで学習することにより、後者の負担を効果的に除去し、トレーニングの進捗を加速させる。 この現象をPyBullet Kuka環境のタスクにまたがって検討し、エージェントがロボットグリッパーを制御してオブジェクトを拾う方法を学ぶ必要があります。 今回の分析により,ニューラルネットワークポリシがトレーニングを通じて状態空間の内部表現をどのように整理するかが明らかになった。 この分析の結果は、RLエージェントの深い学習方法に関する3つの主な洞察を提供します。 まず、ポリシーネットワーク内のよく組織された内部表現は、良い行動選択を学ぶための前提条件です。 第2に、まずい初期表現は、ポリシーネットワーク内で回復不能な崩壊を引き起こす可能性がある。 第三に、良い初期表現は、エージェントのポリシーネットワークがトレーニングが始まる前にも内部表現を整理することを可能にする。

We analyze the hidden activations of neural network policies of deep reinforcement learning (RL) agents and show, empirically, that it's possible to know a priori if a state representation will lend itself to fast learning. RL agents in high-dimensional states have two main learning burdens: (1) to learn an action-selection policy and (2) to learn to discern between useful and non-useful information in a given state. By learning a latent representation of these high-dimensional states with an auxiliary model, the latter burden is effectively removed, thereby leading to accelerated training progress. We examine this phenomenon across tasks in the PyBullet Kuka environment, where an agent must learn to control a robotic gripper to pick up an object. Our analysis reveals how neural network policies learn to organize their internal representation of the state space throughout training. The results from this analysis provide three main insights into how deep RL agents learn. First, a well-organized internal representation within the policy network is a prerequisite to learning good action-selection. Second, a poor initial representation can cause an unrecoverable collapse within a policy network. Third, a good initial representation allows an agent's policy network to organize its internal representation even before any training begins.
翻訳日:2021-03-13 02:31:50 公開日:2021-03-11
# (参考訳) 生成カプセルモデルの推論 [全文訳有]

Inference for Generative Capsule Models ( http://arxiv.org/abs/2103.06676v1 )

ライセンス: CC BY 4.0
Alfredo Nazabal and Christopher K.I. Williams(参考訳) capsule network (複数形 capsule networks) Hinton et al., 2018) は、オブジェクトとその部分との関係に関する知識と理由をエンコードすることを目指している。 % この論文では、この問題のクリーンバージョンに焦点を当て、複数の幾何学的オブジェクトからデータを生成する。 三角形、四角形) 任意の翻訳、回転、スケール、および観測されたデータポイント(部分)は、オブジェクトのラベルを付けずに、すべてのオブジェクトの隅から来る。 このデータに対して生成モデルを指定し、各オブジェクトの変換とオブジェクトの部分への点の割り当てを推測するための変分アルゴリズムを導出する。 Kosiorekらによる最近の仕事。 この問題に対処するために [2019] は積み重ねたカプセルオートエンコーダ (SCA) による償却推論を使用しています。 また、RANSAC型アルゴリズムを用いてこの問題の推測を行う。

Capsule networks (see e.g. Hinton et al., 2018) aim to encode knowledge and reason about the relationship between an object and its parts. % In this paper we focus on a clean version of this problem, where data is generated from multiple geometric objects (e.g. triangles, squares) at arbitrary translations, rotations and scales, and the observed datapoints (parts) come from the corners of all objects, without any labelling of the objects. We specify a generative model for this data, and derive a variational algorithm for inferring the transformation of each object and the assignments of points to parts of the objects. Recent work by Kosiorek et al. [2019] has used amortized inference via stacked capsule autoencoders (SCA) to tackle this problem -- our results show that we significantly outperform them. We also investigate inference for this problem using a RANSAC-type algorithm.
翻訳日:2021-03-13 02:17:37 公開日:2021-03-11
# (参考訳) 解釈可能な車両状態予測のためのハイブリッド物理とディープラーニングモデル [全文訳有]

Hybrid Physics and Deep Learning Model for Interpretable Vehicle State Prediction ( http://arxiv.org/abs/2103.06727v1 )

ライセンス: CC BY 4.0
Alexandra Baier and Zeyd Boukhers and Steffen Staab(参考訳) 物理運動モデルは、車両の動きの解釈可能な予測を提供する。 しかし、空気力学や流体力学に関連するいくつかのモデルパラメータは測定に費用がかかり、予測精度を略して近似するだけである。 リカレントニューラルネットワークは、車両のルーチン操作中に収集された安価な測定値を使用することができるため、低コストで高い予測精度を達成するが、その結果は解釈が難しい。 物理パラメータの高価な測定をせずに車両の状態を正確に予測するために,新しい二相訓練法を含む深層学習モデルと物理運動モデルを組み合わせたハイブリッド手法を提案する。 ニューラルネットワークがもたらす不確実性を既知の量に制限するハイブリッドモデルの一部として、ディープニューラルネットワークの出力範囲を制限することにより、解釈可能性を実現します。 船舶とクアッドコプターの動作のユースケースに対するアプローチを評価しました。 その結果, ハイブリッドモデルでは, 既存のディープラーニング手法に比べて精度を低下させることなく, モデル解釈性が向上できることがわかった。

Physical motion models offer interpretable predictions for the motion of vehicles. However, some model parameters, such as those related to aero- and hydrodynamics, are expensive to measure and are often only roughly approximated reducing prediction accuracy. Recurrent neural networks achieve high prediction accuracy at low cost, as they can use cheap measurements collected during routine operation of the vehicle, but their results are hard to interpret. To precisely predict vehicle states without expensive measurements of physical parameters, we propose a hybrid approach combining deep learning and physical motion models including a novel two-phase training procedure. We achieve interpretability by restricting the output range of the deep neural network as part of the hybrid model, which limits the uncertainty introduced by the neural network to a known quantity. We have evaluated our approach for the use case of ship and quadcopter motion. The results show that our hybrid model can improve model interpretability with no decrease in accuracy compared to existing deep learning approaches.
翻訳日:2021-03-13 01:53:20 公開日:2021-03-11
# (参考訳) スキャフォールド埋め込み:化学フラグメント、スキャフォールドおよび化合物によってスパンナド構造を学ぶ [全文訳有]

Scaffold Embeddings: Learning the Structure Spanned by Chemical Fragments, Scaffolds and Compounds ( http://arxiv.org/abs/2103.06867v1 )

ライセンス: CC BY 4.0
Austin Clyde, Arvind Ramanathan, Rick Stevens(参考訳) 分子は、十分なデータを与えられた表現学習を通じて複雑な構造を扱う深層学習の傾向に自然に適合しているように思われた。 しかし、この連続表現は化学空間を領域として理解するには自然なものではなく、サンプルとその差異に特有である。 我々は,化学空間を構造化領域として表現するための自然な構造,つまり包含演算子を通じて連結された足場クラスに基づく可算ハイパーグラフに薬物のような化学空間を埋め込むことに焦点を当てる。 本稿では、分子が足場のクラスを形成する方法、足場がハイパーグラフの各々にどのように関連しているか、足場の構造がどのように性質の予測や分子構造の最適化などの創薬ワークフローに自然であるかを示す。 分子のそれぞれの誘起距離測定値、化学空間を構造領域として表現するための拡張性、および学習タスクの構造を利用した結果など、様々な組込みの仮定と有用性を比較します。

Molecules have seemed like a natural fit to deep learning's tendency to handle a complex structure through representation learning, given enough data. However, this often continuous representation is not natural for understanding chemical space as a domain and is particular to samples and their differences. We focus on exploring a natural structure for representing chemical space as a structured domain: embedding drug-like chemical space into an enumerable hypergraph based on scaffold classes linked through an inclusion operator. This paper shows how molecules form classes of scaffolds, how scaffolds relate to each in a hypergraph, and how this structure of scaffolds is natural for drug discovery workflows such as predicting properties and optimizing molecular structures. We compare the assumptions and utility of various embeddings of molecules, such as their respective induced distance metrics, their extendibility to represent chemical space as a structured domain, and the consequences of utilizing the structure for learning tasks.
翻訳日:2021-03-13 01:34:31 公開日:2021-03-11
# (参考訳) マニホールド学習において、ディープニューラルネットワークは局所性に敏感なハッシュ関数となる

For Manifold Learning, Deep Neural Networks can be Locality Sensitive Hash Functions ( http://arxiv.org/abs/2103.06875v1 )

ライセンス: CC BY 4.0
Nishanth Dikkala, Gal Kaplun, Rina Panigrahy(参考訳) ディープニューラルネットワークのトレーニングは、入力の本質的な特徴を捉える有用な表現を提供することが確立されています。 しかし、これらの表現は理論と実践においてよく理解されていない。 教師付き学習の文脈では、これらの表現が分類に有益な特徴を捕捉し、非情報的ノイズのあるものを除外するかどうかが重要な質問である。 我々は、各クラスが高次元多様体に関連付けられ、異なるクラスが異なる多様体を定義する生成過程を考えることにより、この問題の形式化を探求する。 このモデルの下では、各入力は2つの潜在ベクトルを用いて生成される: (i) "manifold identifier" $\gamma$ および (ii)~ a "transformation parameter" $\theta$ は多様体の表面に沿って例をシフトする。 例えば、$\gamma$ は犬の正統的なイメージを表し、$\theta$ はポーズ、背景、照明のバリエーションを表すかもしれません。 ニューラル表現は、各入力をインフォメーション $\gamma$ のみの関数であり、$\theta$ に不変である埋め込みにマップする LSH ライクな関数として見ることができるという理論的および実証的な証拠を提供し、マニホールド識別子 $\gamma$ を効果的に回復する。 この行動の重要な結果は、見えないクラスへのワンショット学習です。

It is well established that training deep neural networks gives useful representations that capture essential features of the inputs. However, these representations are poorly understood in theory and practice. In the context of supervised learning an important question is whether these representations capture features informative for classification, while filtering out non-informative noisy ones. We explore a formalization of this question by considering a generative process where each class is associated with a high-dimensional manifold and different classes define different manifolds. Under this model, each input is produced using two latent vectors: (i) a "manifold identifier" $\gamma$ and; (ii)~a "transformation parameter" $\theta$ that shifts examples along the surface of a manifold. E.g., $\gamma$ might represent a canonical image of a dog, and $\theta$ might stand for variations in pose, background or lighting. We provide theoretical and empirical evidence that neural representations can be viewed as LSH-like functions that map each input to an embedding that is a function of solely the informative $\gamma$ and invariant to $\theta$, effectively recovering the manifold identifier $\gamma$. An important consequence of this behavior is one-shot learning to unseen classes.
翻訳日:2021-03-13 01:20:48 公開日:2021-03-11
# (参考訳) LHCにおけるワンショットコンフォーマルトラッキングのためのInstance Segmentation GNN [全文訳有]

Instance Segmentation GNNs for One-Shot Conformal Tracking at the LHC ( http://arxiv.org/abs/2103.06509v1 )

ライセンス: CC BY 4.0
Savannah Thais, Gage DeZoort(参考訳) 3Dインスタンスセグメンテーションは、コンピュータビジョンの難しい問題です。 LHCのような衝突体における粒子追跡は、インスタンスセグメンテーションタスクとして概念化することができる: 粒子検出器におけるヒットの点群から始まるアルゴリズムは、個々の粒子軌道に属するヒットを識別し、トラック特性を抽出しなければならない。 グラフニューラルネットワーク(GNN)は、標準的なインスタンスセグメンテーションタスクで有望なパフォーマンスを示している。 本研究では, 粒子追跡へのインスタンスセグメンテーション GNN アーキテクチャの適用性を実証し, さらに, トラックフィニングに対する従来のカルテシアン空間アプローチを再定義し, その代わりに, GNN がトラックを識別し, パラメータを単一ショットで抽出する等角形状で処理する。

3D instance segmentation remains a challenging problem in computer vision. Particle tracking at colliders like the LHC can be conceptualized as an instance segmentation task: beginning from a point cloud of hits in a particle detector, an algorithm must identify which hits belong to individual particle trajectories and extract track properties. Graph Neural Networks (GNNs) have shown promising performance on standard instance segmentation tasks. In this work we demonstrate the applicability of instance segmentation GNN architectures to particle tracking; moreover, we re-imagine the traditional Cartesian space approach to track-finding and instead work in a conformal geometry that allows the GNN to identify tracks and extract parameters in a single shot.
翻訳日:2021-03-13 00:48:02 公開日:2021-03-11
# (参考訳) 圧縮センシングにおけるコヒーレンス指数に基づく境界の改善 [全文訳有]

Improved Coherence Index-Based Bound in Compressive Sensing ( http://arxiv.org/abs/2103.06804v1 )

ライセンス: CC BY 4.0
Ljubisa Stankovic, Milos Brajovic, Danilo Mandic, Isidora Stankovic, Milos Dakovic(参考訳) 圧縮センシング(CS)パラダイムでは、測定値の減少に基づいてスパース信号を再構築することができる。 解の信頼性は一意性条件によって決定される。 数学的に計算可能で実現可能な計算により、コヒーレンス指数は極めて少数のCS指標の1つであり、実用上重要な指標である。 本稿では,マッチング追従アルゴリズムにおけるコヒーレンスに基づく一意性関係の改善を提案する。 コヒーレンス指数に基づく標準一意性条件の単純かつ直感的な導出から始め、信号スパーシティに対する保守的コヒーレンス指数に基づく下限を導出する。 結果は、2つの正則基底で表される信号の$l_0$-ノルム最小化の特異性条件に一般化される。

Within the Compressive Sensing (CS) paradigm, sparse signals can be reconstructed based on a reduced set of measurements. Reliability of the solution is determined by the uniqueness condition. With its mathematically tractable and feasible calculation, coherence index is one of very few CS metrics with a considerable practical importance. In this paper, we propose an improvement of the coherence based uniqueness relation for the matching pursuit algorithms. Starting from a simple and intuitive derivation of the standard uniqueness condition based on the coherence index, we derive a less conservative coherence index-based lower bound for signal sparsity. The results are generalized to the uniqueness condition of the $l_0$-norm minimization for a signal represented in two orthonormal bases.
翻訳日:2021-03-13 00:39:33 公開日:2021-03-11
# (参考訳) 安全確保による自己監視型モーションリターゲティング [全文訳有]

Self-Supervised Motion Retargeting with Safety Guarantee ( http://arxiv.org/abs/2103.06447v1 )

ライセンス: CC BY 4.0
Sungjoon Choi, Min Jae Song, Hyemin Ahn, Joohyung Kim(参考訳) 本稿では,モーションキャプチャデータやrgbビデオからヒューマノイドロボットの自然な動きを生成できるデータ駆動動作再ターゲティング手法である,自己教師付き共有潜在埋め込み(s3le)を提案する。 人間のポーズとそれに対応するロボット構成からなるペアデータを必要とするが、新しいペアデータ生成プロセスによって、データ収集に要する時間が大幅に削減される。 私達の自己監督の学習手順は2つのステップで構成されます:動きのretargetingをブートストラップするために自動的にペアデータを生成し、人間とヒューマノイドロボットの異なる表現性を扱う投影不変のマッピングを学習します。 さらに,生成したロボットポーズが衝突なしであり,共有潜空間における非パラメトリック回帰を利用して位置限界を満たすことを保証した。 我々は,CMUモーションキャプチャデータベースとYouTubeビデオの両方から,表現力のあるロボットモーションを生成できることを実証した。

In this paper, we present self-supervised shared latent embedding (S3LE), a data-driven motion retargeting method that enables the generation of natural motions in humanoid robots from motion capture data or RGB videos. While it requires paired data consisting of human poses and their corresponding robot configurations, it significantly alleviates the necessity of time-consuming data-collection via novel paired data generating processes. Our self-supervised learning procedure consists of two steps: automatically generating paired data to bootstrap the motion retargeting, and learning a projection-invariant mapping to handle the different expressivity of humans and humanoid robots. Furthermore, our method guarantees that the generated robot pose is collision-free and satisfies position limits by utilizing nonparametric regression in the shared latent space. We demonstrate that our method can generate expressive robotic motions from both the CMU motion capture database and YouTube videos.
翻訳日:2021-03-13 00:26:56 公開日:2021-03-11
# (参考訳) 中国における大気汚染の追跡:複数のデータソースからのリアルタイムPM2.5検索 [全文訳有]

Tracking Air Pollution in China: Near Real-Time PM2.5 Retrievals from Multiple Data Sources ( http://arxiv.org/abs/2103.06520v1 )

ライセンス: CC BY 4.0
Guannan Geng, Qingyang Xiao, Shigan Liu, Xiaodong Liu, Jing Cheng, Yixuan Zheng, Dan Tong, Bo Zheng, Yiran Peng, Xiaomeng Huang, Kebin He and Qiang Zhang(参考訳) 大気汚染は地球の放射収支を変え、生態系を乱し、人間の死と死亡を増加させた。 したがって、研究と環境管理の両方をサポートするには、タイムリーな更新と歴史的な長期記録を備えたフルカバレッジの高解像度大気汚染データセットが不可欠です。 ここでは,中国における大気汚染追跡(tap, tapdata.org)として知られる,ほぼリアルタイムの大気汚染データベースを開発し,地上計測,衛星検索,動的に更新された排出在庫,化学輸送モデルシミュレーション,その他の補助データなど,複数のデータソースからの情報を組み合わせる。 毎日10kmの空間解像度のPM2.5データは、私たちの最初のほぼリアルタイム製品です。 TAP PM2.5は、2段階の機械学習モデルと合成マイノリティオーバサンプリング技術とツリーベースのギャップフィリング手法を組み合わせて推定される。 私達のモデルは異なった年のための0.83の平均的な袋のクロスバリデーションR2を他の研究のそれらに匹敵するが、高い公害レベルでの性能を改善し、毎日スケールで行方不明のAODのギャップを埋めます。 毎日のPM2.5データのフルカバレッジとほぼリアルタイムの更新により、中国のPM2.5濃度の日々の変動をタイムリーに追跡できます。 2000年以降のPM2.5データの長期記録は、政策評価や健康影響研究もサポートする。 TAP PM2.5データは、我々のウェブサイトから公開されており、研究と政策のコミュニティと共有できます。

Air pollution has altered the Earth radiation balance, disturbed the ecosystem and increased human morbidity and mortality. Accordingly, a full-coverage high-resolution air pollutant dataset with timely updates and historical long-term records is essential to support both research and environmental management. Here, for the first time, we develop a near real-time air pollutant database known as Tracking Air Pollution in China (TAP, tapdata.org) that combines information from multiple data sources, including ground measurements, satellite retrievals, dynamically updated emission inventories, operational chemical transport model simulations and other ancillary data. Daily full-coverage PM2.5 data at a spatial resolution of 10 km is our first near real-time product. The TAP PM2.5 is estimated based on a two-stage machine learning model coupled with the synthetic minority oversampling technique and a tree-based gap-filling method. Our model has an averaged out-of-bag cross-validation R2 of 0.83 for different years, which is comparable to those of other studies, but improves its performance at high pollution levels and fills the gaps in missing AOD on daily scale. The full coverage and near real-time updates of the daily PM2.5 data allow us to track the day-to-day variations in PM2.5 concentrations over China in a timely manner. The long-term records of PM2.5 data since 2000 will also support policy assessments and health impact studies. The TAP PM2.5 data are publicly available through our website for sharing with the research and policy communities.
翻訳日:2021-03-13 00:13:45 公開日:2021-03-11
# (参考訳) ニューラル常微分方程式制御の入射エネルギー正規化 [全文訳有]

Implicit energy regularization of neural ordinary-differentia l-equation control ( http://arxiv.org/abs/2103.06525v1 )

ライセンス: CC BY 4.0
Lucas B\"ottcher and Nino Antulov-Fantulin and Thomas Asikis(参考訳) 力学系の最適制御問題は変分計算の枠組みの中で定式化できるが、複雑な系に対する解はしばしば解析的かつ計算的に難解である。 このレターでは、暗黙のエネルギー正規化を伴う汎用的な神経常微分方程式制御(nodec)フレームワークを提示し、それを用いて、予め定義された時間内に、所望のターゲット状態に向かって動的システムを制御できるニューラルネットワーク生成制御信号を得る。 我々は、制御エネルギーと所望の目標状態からの逸脱の観点から、対応する最適制御フレームワークによく似た制御信号を学習するNODECの能力を実証する。 この結果から,NODECは解析的難易度を含む幅広い制御と最適化の問題を解くことができることが示唆された。

Although optimal control problems of dynamical systems can be formulated within the framework of variational calculus, their solution for complex systems is often analytically and computationally intractable. In this Letter we present a versatile neural ordinary-differentia l-equation control (NODEC) framework with implicit energy regularization and use it to obtain neural-network-gener ated control signals that can steer dynamical systems towards a desired target state within a predefined amount of time. We demonstrate the ability of NODEC to learn control signals that closely resemble those found by corresponding optimal control frameworks in terms of control energy and deviation from the desired target state. Our results suggest that NODEC is capable to solve a wide range of control and optimization problems, including those that are analytically intractable.
翻訳日:2021-03-12 23:40:48 公開日:2021-03-11
# (参考訳) 行動データプライバシとミニマリストハードウェアによるスマートフォンのインポスタ検出 [全文訳有]

Smartphone Impostor Detection with Behavioral Data Privacy and Minimalist Hardware Support ( http://arxiv.org/abs/2103.06453v1 )

ライセンス: CC BY-SA 4.0
Guangyuan Hu, Zecheng He, Ruby B. Lee(参考訳) impostorは、スマートフォンを乗っ取り、合法的なユーザーの機密情報や個人情報にアクセスする攻撃者です。 本稿では,複数の特徴の計算を必要とする機械学習アルゴリズムを用いた最善の先行研究よりも優れた検出精度を実現するため,簡易な深層学習アルゴリズムを用いてインポスタを迅速に検出する防御インディペンデント機構を提案する。 従来の作業とは違い、ユーザーの行動(センサー)データのプライバシーをスマートフォン外に公開しないで保護することを検討します。 そこで本研究では,正規のユーザセンサデータのみを用いて,通常の動作を学習するRecurrent Neural Network (RNN)ベースのディープラーニングアルゴリズムを提案する。 予測誤差分布(ped)を用いて検出精度を向上させることを提案する。 また,スマートフォンインポスタ検出器用sidと呼ばれるミニマリストハードウェアモジュールを,自己完結インポスタ検出のためにスマートフォンに設計・統合する方法を示す。 実験結果から,SIDは,他のRNNアクセラレータと比較して,ハードウェアコストとエネルギー消費の極めて低い実時間インポスタ検出をサポートできることが示唆された。

Impostors are attackers who take over a smartphone and gain access to the legitimate user's confidential and private information. This paper proposes a defense-in-depth mechanism to detect impostors quickly with simple Deep Learning algorithms, which can achieve better detection accuracy than the best prior work which used Machine Learning algorithms requiring computation of multiple features. Different from previous work, we then consider protecting the privacy of a user's behavioral (sensor) data by not exposing it outside the smartphone. For this scenario, we propose a Recurrent Neural Network (RNN) based Deep Learning algorithm that uses only the legitimate user's sensor data to learn his/her normal behavior. We propose to use Prediction Error Distribution (PED) to enhance the detection accuracy. We also show how a minimalist hardware module, dubbed SID for Smartphone Impostor Detector, can be designed and integrated into smartphones for self-contained impostor detection. Experimental results show that SID can support real-time impostor detection, at a very low hardware cost and energy consumption, compared to other RNN accelerators.
翻訳日:2021-03-12 22:14:07 公開日:2021-03-11
# (参考訳) 深部強化学習による四足歩行ロボットのロバスト高速走行 [全文訳有]

Robust High-speed Running for Quadruped Robots via Deep Reinforcement Learning ( http://arxiv.org/abs/2103.06484v1 )

ライセンス: CC BY 4.0
Guillaume Bellegarda and Quan Nguyen(参考訳) 深層強化学習は、四足歩行ロボットのためのロコモーションコントローラを開発するための人気で強力な方法として登場した。 一般的なアプローチは、関節空間で直接的に行動を学ぶことや、軌道発生器が生み出す足の位置の変更とオフセットを学習することに集中してきた。 どちらのアプローチも、通常、数百万のタイムステップで慎重に報酬形成とトレーニングを行う必要があり、軌道発生器は、結果として生じる制御ポリシーに人間のバイアスをもたらします。 そこで本論文では,環境障害にともなう可能な限り速く走行するタスクのために,インピーダンス制御により追跡するカルテジアン空間における足の位置の学習について検討する。 他のアクション空間と比較して、より少ない報酬形成、より優れたサンプル効率、ギャロッピングやバウンディングなどの自然歩行の出現、シム-ト-シム移動の容易さが観察できる。 公称4倍の質量の100%以上の負荷で荒れた地形の上を走るという困難なタスクであっても、政策はわずか数百万の時間ステップで学ぶことができます。 トレーニングはPyBulletで行われ、私たちのクアッドループは負荷なしで4 m/s以上、そして名目クアッドループ質量の83%以上である10 kg負荷で3.5 m/sで走ることができるガゼボへのシムツーシム転送を実行します。 ビデオの結果はhttps://youtu.be/roe 1vxpewfwで見ることができる。

Deep reinforcement learning has emerged as a popular and powerful way to develop locomotion controllers for quadruped robots. Common approaches have largely focused on learning actions directly in joint space, or learning to modify and offset foot positions produced by trajectory generators. Both approaches typically require careful reward shaping and training for millions of time steps, and with trajectory generators introduce human bias into the resulting control policies. In this paper, we instead explore learning foot positions in Cartesian space, which we track with impedance control, for a task of running as fast as possible subject to environmental disturbances. Compared with other action spaces, we observe less needed reward shaping, much improved sample efficiency, the emergence of natural gaits such as galloping and bounding, and ease of sim-to-sim transfer. Policies can be learned in only a few million time steps, even for challenging tasks of running over rough terrain with loads of over 100% of the nominal quadruped mass. Training occurs in PyBullet, and we perform a sim-to-sim transfer to Gazebo, where our quadruped is able to run at over 4 m/s without a load, and 3.5 m/s with a 10 kg load, which is over 83% of the nominal quadruped mass. Video results can be found at https://youtu.be/roE 1vxpEWfw.
翻訳日:2021-03-12 21:54:30 公開日:2021-03-11
# (参考訳) BYOL for Audio: 汎用音響表現のための自己教師付き学習 [全文訳有]

BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation ( http://arxiv.org/abs/2103.06695v1 )

ライセンス: CC BY 4.0
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, and Kunio Kashino(参考訳) コンピュータビジョンにおける自己監督学習の最近の進歩にインスパイアされ、データ拡張を用いた監督を生成するため、新たな汎用音声表現学習手法を検討する。 音声サンプルの異なる時間セグメント間の関係を期待することなく、単一のオーディオセグメントから汎用音声表現を学習することを提案する。 この原則を実現するために、汎用音声表現を学習するためのBiOLに基づくオーディオ自己監督学習方法であるBootstrap Your Own Latent(BYOL) for Audio(BYOL-A、発音「ビオラ」)を紹介します。 BYOL-Aは、近傍オーディオセグメントの一致や遠隔オーディオセグメントの不一致に依存する従来の音声自己教師学習法とは異なり、単一のオーディオセグメントから派生した拡張オーディオセグメントペアにおいてコントラストを生成する。 正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。 広範なアブレーション研究はまた、各成分とその組み合わせの貢献を明確にした。

Inspired by the recent progress in self-supervised learning for computer vision that generates supervision using data augmentations, we explore a new general-purpose audio representation learning approach. We propose learning general-purpose audio representation from a single audio segment without expecting relationships between different time segments of audio samples. To implement this principle, we introduce Bootstrap Your Own Latent (BYOL) for Audio (BYOL-A, pronounced "viola"), an audio self-supervised learning method based on BYOL for learning general-purpose audio representation. Unlike most previous audio self-supervised learning methods that rely on agreement of vicinity audio segments or disagreement of remote ones, BYOL-A creates contrasts in an augmented audio segment pair derived from a single audio segment. With a combination of normalization and augmentation techniques, BYOL-A achieves state-of-the-art results in various downstream tasks. Extensive ablation studies also clarified the contribution of each component and their combinations.
翻訳日:2021-03-12 21:40:44 公開日:2021-03-11
# (参考訳) 画像からシーケンス抽出による全ページ手書き認識 [全文訳有]

Full Page Handwriting Recognition via Image to Sequence Extraction ( http://arxiv.org/abs/2103.06450v1 )

ライセンス: CC BY 4.0
Sumeet S. Singh, Sergey Karayev(参考訳) 本稿では,ニューラルネットワークに基づく手書きテキスト認識(HTR)モデルアーキテクチャを提案する。画像分割のない手書きテキストや印刷テキストの全ページを認識できるように訓練する。 画像からシーケンスアーキテクチャに基づいて、画像に存在するテキストを抽出して、言語、文字の形、向き、テキストおよび非テキストのレイアウトに制約を課さずに、正しくシーケンス化するように訓練することができる。 モデルは、フォーマット、レイアウト、コンテンツに関連する補助マークアップを生成するようにトレーニングすることもできる。 文字レベルのトークン語彙を用い,任意の主題の固有名詞や用語をサポートする。 このモデルは、IAMデータセットのフルページ認識における新しい最新技術を実現し、現実世界の手書きのフリーフォームテスト回答 - 曲線と傾斜線、図面、テーブル、数学、化学、その他のシンボルを備えたデータセットセット - で評価すると、すべての市販のHTR APIよりも優れています。 商用Webアプリケーションの一部として本番環境にデプロイされる。

We present a Neural Network based Handwritten Text Recognition (HTR) model architecture that can be trained to recognize full pages of handwritten or printed text without image segmentation. Being based on an Image to Sequence architecture, it can be trained to extract text present in an image and sequence it correctly without imposing any constraints on language, shape of characters or orientation and layout of text and non-text. The model can also be trained to generate auxiliary markup related to formatting, layout and content. We use character level token vocabulary, thereby supporting proper nouns and terminology of any subject. The model achieves a new state-of-art in full page recognition on the IAM dataset and when evaluated on scans of real world handwritten free form test answers - a dataset beset with curved and slanted lines, drawings, tables, math, chemistry and other symbols - it performs better than all commercially available HTR APIs. It is deployed in production as part of a commercial web application.
翻訳日:2021-03-12 21:20:13 公開日:2021-03-11
# (参考訳) クラス内クラスタリング:DNNを正規化する暗黙の学習機能 [全文訳有]

Intraclass clustering: an implicit learning ability that regularizes DNNs ( http://arxiv.org/abs/2103.06733v1 )

ライセンス: CC BY 4.0
Carbonnelle Simon and Christophe De Vleeschouwer(参考訳) いくつかの研究により、ディープニューラルネットワークの一般化性能を基礎とする正規化機構はまだよく分かっていないことが示されている。 本論文では,深層ニューラルネットワークがクラス内の有意なクラスタを抽出する能力によって正規化されることを仮定する。 これは暗黙の正規化の形式であり、明示的な訓練機構やそのような行動を目標としない。 本仮説を支持するために,トレーニングデータのニューロンと層レベルの表現に基づいて,クラス内クラスタリングの4つの異なる尺度を設計する。 以上の結果から,超パラメータ群(学習率,バッチサイズ,オプティマイザ,重量減少,ドロップアウト率,データ拡張率,ネットワーク深さ,幅)の変動による一般化性能の正確な予測指標となることが示された。

Several works have shown that the regularization mechanisms underlying deep neural networks' generalization performances are still poorly understood. In this paper, we hypothesize that deep neural networks are regularized through their ability to extract meaningful clusters among the samples of a class. This constitutes an implicit form of regularization, as no explicit training mechanisms or supervision target such behaviour. To support our hypothesis, we design four different measures of intraclass clustering, based on the neuron- and layer-level representations of the training data. We then show that these measures constitute accurate predictors of generalization performance across variations of a large set of hyperparameters (learning rate, batch size, optimizer, weight decay, dropout rate, data augmentation, network depth and width).
翻訳日:2021-03-12 20:56:25 公開日:2021-03-11
# (参考訳) トランスフォーマーを用いた話題言語生成 [全文訳有]

Topical Language Generation using Transformers ( http://arxiv.org/abs/2103.06434v1 )

ライセンス: CC BY 4.0
Rohola Zandie and Mohammad H. Mahoor(参考訳) 大規模トランスフォーマーベース言語モデル(LM)は、オープンテキスト生成において印象的な機能を示す。 しかし、トピック、スタイル、感情などの生成されたテキストのプロパティを制御することは困難であり、モデルアーキテクチャに大きな変更や、新しい監視されたデータに対するモデルの再トレーニングと微調整が必要です。 本稿では,事前学習したLMとトピックモデリング情報を組み合わせることで,トピック言語生成(TLG)の新しいアプローチを提案する。 本研究では,トピック確率を先行とするベイズ確率定式化,LM確率を可能性として,話題言語生成確率を後続とする問題を提起した。 モデルの学習において、ユーザが提供するドキュメントの自然な構造からトピック確率分布を導出する。 さらに,新しいパラメータと関数を導入して,生成したテキストに提示される話題特徴量に影響を与えるモデルを拡張する。 この機能により、生成されたテキストのトピックプロパティを簡単に制御できます。 実験結果から,復号化の高速化とともに,コヒーレンシー,多様性,流線型性の向上が得られた。

Large-scale transformer-based language models (LMs) demonstrate impressive capabilities in open text generation. However, controlling the generated text's properties such as the topic, style, and sentiment is challenging and often requires significant changes to the model architecture or retraining and fine-tuning the model on new supervised data. This paper presents a novel approach for Topical Language Generation (TLG) by combining a pre-trained LM with topic modeling information. We cast the problem using Bayesian probability formulation with topic probabilities as a prior, LM probabilities as the likelihood, and topical language generation probability as the posterior. In learning the model, we derive the topic probability distribution from the user-provided document's natural structure. Furthermore, we extend our model by introducing new parameters and functions to influence the quantity of the topical features presented in the generated text. This feature would allow us to easily control the topical properties of the generated text. Our experimental results demonstrate that our model outperforms the state-of-the-art results on coherency, diversity, and fluency while being faster in decoding.
翻訳日:2021-03-12 20:43:10 公開日:2021-03-11
# (参考訳) グラフパターン同型を用いた知識グラフ質問応答 [全文訳有]

Knowledge Graph Question Answering using Graph-Pattern Isomorphism ( http://arxiv.org/abs/2103.06752v1 )

ライセンス: CC BY 4.0
Daniel Vollmers (1), Rricha Jalota (1), Diego Moussallem (1), Hardik Topiwala (1), Axel-Cyrille Ngonga Ngomo (1), and Ricardo Usbeck (2) ((1) Data Science Group, Paderborn University, Germany, (2) Fraunhofer IAIS, Dresden, Germany)(参考訳) 知識グラフ質問回答(KGQA)システムは機械学習アルゴリズムに基づいており、トレーニング例やモジュールの微調整を必要とする自然言語処理パイプラインとして数千の質問応答ペアを必要とする。 本稿では,TeBaQAと呼ばれる新しいQA手法を提案する。 提案手法では,SPARQLクエリの基本グラフパターンから,グラフ同型に基づく問合せを学習する。 基本的なグラフパターンの学習は、可能なパターンの数が少ないため効率的です。 この新しいパラダイムは、最先端のパフォーマンスを達成するために必要なトレーニングデータの量を減らします。 TeBaQAはまた、QAシステム開発タスクをはるかに小さく簡単なデータコンパイルタスクに変換することで、ドメイン適応プロセスをスピードアップします。 評価において,TeBaQAはQALD-8の最先端性能を達成し,QALD-9とLC-QuAD v1で同等の結果が得られた。 さらに,集約や最上級の質問を扱い,今後の研究課題を浮き彫りにするような,複雑なクエリに関する詳細な評価を行った。

Knowledge Graph Question Answering (KGQA) systems are based on machine learning algorithms, requiring thousands of question-answer pairs as training examples or natural language processing pipelines that need module fine-tuning. In this paper, we present a novel QA approach, dubbed TeBaQA. Our approach learns to answer questions based on graph isomorphisms from basic graph patterns of SPARQL queries. Learning basic graph patterns is efficient due to the small number of possible patterns. This novel paradigm reduces the amount of training data necessary to achieve state-of-the-art performance. TeBaQA also speeds up the domain adaption process by transforming the QA system development task into a much smaller and easier data compilation task. In our evaluation, TeBaQA achieves state-of-the-art performance on QALD-8 and delivers comparable results on QALD-9 and LC-QuAD v1. Additionally, we performed a fine-grained evaluation on complex queries that deal with aggregation and superlative questions as well as an ablation study, highlighting future research challenges.
翻訳日:2021-03-12 20:18:59 公開日:2021-03-11
# (参考訳) ENTRUST:言語モデルとエンテールメントによる議論の交換 [全文訳有]

ENTRUST: Argument Reframing with Language Models and Entailment ( http://arxiv.org/abs/2103.06758v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Christopher Hidey, Smaranda Muresan(参考訳) 「フラミング」は、スピーカーの観客や目標に応じて、議論や問題の肯定的または否定的な提示を含む(Entman 1983)。 我々の作品の焦点である語彙フレーミングの違いは、人々の意見や信念に大きな影響を及ぼす可能性がある。 ポジティブな効果の議論を再現するために、このタスクのためのデータセットとメソッドを作成します。 並列コーパスを作成するために, "connotations" の語彙リソースを用いて,制御可能なテキスト生成 (positive connotation) と後復号化エンテールメントコンポーネント (same denotation) を組み合わせた引数リフレーミング手法を提案する。 以上の結果から,本手法は, 流動性, 意味, 信頼度, 恐怖の軽減に沿う強力なベースラインと比較し有効であることが示された。

"Framing" involves the positive or negative presentation of an argument or issue depending on the audience and goal of the speaker (Entman 1983). Differences in lexical framing, the focus of our work, can have large effects on peoples' opinions and beliefs. To make progress towards reframing arguments for positive effects, we create a dataset and method for this task. We use a lexical resource for "connotations" to create a parallel corpus and propose a method for argument reframing that combines controllable text generation (positive connotation) with a post-decoding entailment component (same denotation). Our results show that our method is effective compared to strong baselines along the dimensions of fluency, meaning, and trustworthiness/redu ction of fear.
翻訳日:2021-03-12 19:57:21 公開日:2021-03-11
# (参考訳) 患者モニタリングのためのスマートチャットボットのプロトタイプ [全文訳有]

COVID-19 Smart Chatbot Prototype for Patient Monitoring ( http://arxiv.org/abs/2103.06816v1 )

ライセンス: CC BY 4.0
Hannah Lei (1), Weiqi Lu (1), Alan Ji (1), Emmett Bertram (1), Paul Gao (1), Xiaoqian Jiang (2), Arko Barman (1) ((1) Rice University, Houston, United States, (2) The University of Texas Health Science Center at Houston, United States)(参考訳) 多くのCOVID-19患者は、疲労、デリリウム、頭痛など、感染後の症状が長引いた。 これらの条件の長期的な健康への影響はまだ明らかでない。 これらの患者をフォローアップして健康状態をモニタリングし、時間的介入や治療を支援する方法を開発する必要がある。 患者に追従するだけの人材が不足している中で,機械学習を基盤とした新しいスマートチャットボットソリューションを提案し,情報(すなわち,デジタルダイアリー生成)をパーソナライズした手法を提案する。 この記事では、プロトタイプの設計フレームワークとコンポーネントについて説明します。

Many COVID-19 patients developed prolonged symptoms after the infection, including fatigue, delirium, and headache. The long-term health impact of these conditions is still not clear. It is necessary to develop a way to follow up with these patients for monitoring their health status to support timely intervention and treatment. In the lack of sufficient human resources to follow up with patients, we propose a novel smart chatbot solution backed with machine learning to collect information (i.e., generating digital diary) in a personalized manner. In this article, we describe the design framework and components of our prototype.
翻訳日:2021-03-12 19:40:59 公開日:2021-03-11
# (参考訳) ロシア語における形態的埋め込みの評価 [全文訳有]

Evaluation of Morphological Embeddings for the Russian Language ( http://arxiv.org/abs/2103.06628v1 )

ライセンス: CC BY 4.0
Vitaly Romanov and Albina Khusainova(参考訳) 近年,形態素に基づく単語埋め込みモデルが数多く導入されている。 しかし、その評価は主に、形態学的に単純な言語として知られている英語に限定されていた。 本稿では,形態学的に豊かなロシア語の場合,単語埋め込みに形態素を組み込むことで下流のnlpタスクのパフォーマンスが向上するかどうかについて検討する。 我々の選択したNLPタスクはPOSタグ付け、チャンキング、NERです - ロシア語では、語の意味を理解せずに形態学のみを使用して、全てを解決できます。 当社の実験では、skipgram objectiveでトレーニングされた形態素ベースの埋め込みが、既存の組み込みモデルであるfasttextを上回っていないことが示されています。 さらに、より複雑だがモルフォロジーを意識しない BERT は、単語のモルフォロジーを理解する必要のあるタスクにおいて、大幅なパフォーマンスを達成することができる。

A number of morphology-based word embedding models were introduced in recent years. However, their evaluation was mostly limited to English, which is known to be a morphologically simple language. In this paper, we explore whether and to what extent incorporating morphology into word embeddings improves performance on downstream NLP tasks, in the case of morphologically rich Russian language. NLP tasks of our choice are POS tagging, Chunking, and NER -- for Russian language, all can be mostly solved using only morphology without understanding the semantics of words. Our experiments show that morphology-based embeddings trained with Skipgram objective do not outperform existing embedding model -- FastText. Moreover, a more complex, but morphology unaware model, BERT, allows to achieve significantly greater performance on the tasks that presumably require understanding of a word's morphology.
翻訳日:2021-03-12 19:31:32 公開日:2021-03-11
# (参考訳) BERTese: BERTに話すことを学ぶ [全文訳有]

BERTese: Learning to Speak to BERT ( http://arxiv.org/abs/2103.05327v2 )

ライセンス: CC BY 4.0
Adi Haviv, Jonathan Berant and Amir Globerson(参考訳) 大規模な事前訓練された言語モデルは、そのパラメータに大量の世界と常識の知識をエンコードすることが示されており、その知識を抽出する方法に大きな関心を寄せている。 過去の研究では、手作業によるクエリの取得と、別のパイプラインを使ったパラフレーズの収集によって知識が抽出された。 本研究では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。 意味のある書き換えを促進するために、クエリが実際の言語トークンに対応するように促す補助損失関数を追加します。 私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。 さらにBERTeseは、言語モデルが知識抽出を行うのに役立つ言語の種類に関する洞察を提供する。

Large pre-trained language models have been shown to encode large amounts of world and commonsense knowledge in their parameters, leading to substantial interest in methods for extracting that knowledge. In past work, knowledge was extracted by taking manually-authored queries and gathering paraphrases for them using a separate pipeline. In this work, we propose a method for automatically rewriting queries into "BERTese", a paraphrase query that is directly optimized towards better knowledge extraction. To encourage meaningful rewrites, we add auxiliary loss functions that encourage the query to correspond to actual language tokens. We empirically show our approach outperforms competing baselines, obviating the need for complex pipelines. Moreover, BERTese provides some insight into the type of language that helps language models perform knowledge extraction.
翻訳日:2021-03-12 19:03:27 公開日:2021-03-11
# (参考訳) OPANAS:オブジェクト検出のためのワンショットパス集約ネットワークアーキテクチャ検索 [全文訳有]

OPANAS: One-Shot Path Aggregation Network Architecture Search for Object Detection ( http://arxiv.org/abs/2103.04507v3 )

ライセンス: CC0 1.0
Tingting Liang, Yongtao Wang, Zhi Tang, Guosheng Hu, Haibin Ling(参考訳) 近年、ニューラルアーキテクチャサーチ (NAS) を用いて特徴ピラミッドネットワーク (FPN) を設計し、視覚オブジェクト検出の有望な結果を得た。 そこで本研究では,検索効率と検出精度を有意に向上させる,新しいOne-Shot Path Aggregation Network Architecture Search(OPANAS)アルゴリズムを提案する。 具体的には、トップダウン、ボトムアップ、融合分割、スケール等化、スキップ接続、およびなしの検索空間を構築するために、6つの異種情報パスを最初に導入します。 次に,FPNの候補を高密度に連結した有向非巡回グラフで表現するFPNの新しい探索空間を提案する(各ノードは特徴ピラミッドであり,各エッジは6つの異種情報パスの1つである)。 第3に,最適なパスアグリゲーションアーキテクチャ,すなわちスーパーネットをまず学習し,次に進化アルゴリズムを用いて最適な候補を見つけるための効率的なワンショット探索法を提案する。 Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. コードはhttps://github.com/V DIGPKU/OPANASで公開されます。

Recently, neural architecture search (NAS) has been exploited to design feature pyramid networks (FPNs) and achieved promising results for visual object detection. Encouraged by the success, we propose a novel One-Shot Path Aggregation Network Architecture Search (OPANAS) algorithm, which significantly improves both searching efficiency and detection accuracy. Specifically, we first introduce six heterogeneous information paths to build our search space, namely top-down, bottom-up, fusing-splitting, scale-equalizing, skip-connect and none. Second, we propose a novel search space of FPNs, in which each FPN candidate is represented by a densely-connected directed acyclic graph (each node is a feature pyramid and each edge is one of the six heterogeneous information paths). Third, we propose an efficient one-shot search method to find the optimal path aggregation architecture, that is, we first train a super-net and then find the optimal candidate with an evolutionary algorithm. Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. Code will be released at https://github.com/V DIGPKU/OPANAS.
翻訳日:2021-03-12 18:54:22 公開日:2021-03-11
# (参考訳) 自動運転の解説--アンケート調査から [全文訳有]

Explanations in Autonomous Driving: A Survey ( http://arxiv.org/abs/2103.05154v2 )

ライセンス: CC BY 4.0
Daniel Omeiza, Helena Webb, Marina Jirotka, Lars Kunze(参考訳) 過去数十年間、自動車産業は、手作業で操作する自動車の製造から、高度な自動化を備えた製造車両まで、開発水準が上昇している。 近年の人工知能(AI)の発展に伴い、自動車企業は高性能なAIモデルを採用し、自動車が環境を認識し、人間の影響をほとんどまたはまったく受けずに運転判断を下すことができます。 自動運転車(AV)を商業規模で展開しようとすると、社会によるAVの受け入れが最も重要となり、その透明性、信頼性、および規制遵守の程度に大きく依存する可能性があります。 これらの受け入れ要件の評価は、AVの行動の説明の提供によって容易に行える。 したがって、説明可能性はAVにとって重要な要件とみなされます。 AVは、彼らが「見た」ことを説明でき、実行され、動作している環境で実行できるはずです。 本稿では,説明可能な自動運転における既存作業の総合的調査について述べる。 まず、AVに関する説明と既存の基準を検討する動機を提供することで開放します。 第2に,avの開発と利用,規制に関わるさまざまな利害関係者を特定し,分類し,その説明の必要性を示す。 第三に、説明の分類を提供し、異なるAV操作の説明に関する以前の研究を見直します。 最後に、関連する課題と今後の研究方向性を指摘している。 この調査は、自律運転の説明に興味がある研究者に必要な基本的な知識を提供するのに役立つ。

The automotive industry is seen to have witnessed an increasing level of development in the past decades; from manufacturing manually operated vehicles to manufacturing vehicles with high level of automation. With the recent developments in Artificial Intelligence (AI), automotive companies now employ high performance AI models to enable vehicles to perceive their environment and make driving decisions with little or no influence from a human. With the hope to deploy autonomous vehicles (AV) on a commercial scale, the acceptance of AV by society becomes paramount and may largely depend on their degree of transparency, trustworthiness, and compliance to regulations. The assessment of these acceptance requirements can be facilitated through the provision of explanations for AVs' behaviour. Explainability is therefore seen as an important requirement for AVs. AVs should be able to explain what they have 'seen', done and might do in environments where they operate. In this paper, we provide a comprehensive survey of the existing work in explainable autonomous driving. First, we open by providing a motivation for explanations and examining existing standards related to AVs. Second, we identify and categorise the different stakeholders involved in the development, use, and regulation of AVs and show their perceived need for explanation. Third, we provide a taxonomy of explanations and reviewed previous work on explanation in the different AV operations. Finally, we draw a close by pointing out pertinent challenges and future research directions. This survey serves to provide fundamental knowledge required of researchers who are interested in explanation in autonomous driving.
翻訳日:2021-03-12 18:37:36 公開日:2021-03-11
# (参考訳) 動的ポース推定 [全文訳有]

Dynamical Pose Estimation ( http://arxiv.org/abs/2103.06182v2 )

ライセンス: CC BY 4.0
Heng Yang, Chris Doran, Jean-Jacques Slotine(参考訳) 既知の対応を与えられた2組の3次元幾何学的プリミティブを整列する問題を研究する。 最初の貢献は、このプリミティブアライメントフレームワークが、ポイントクラウド登録、プリミティブ(mesh)登録、カテゴリレベルの3D登録、アブソリューションポーズ推定(APE)、カテゴリレベルのAPEを含む5つの認識問題を統一することを示しています。 第2の貢献は、仮想ばねと減衰に起因する剛体力学をシミュレートすることで、プリミティブアライメント問題を解決するための、最初の汎用的で実用的なアルゴリズムであるDynAMical Pose Estimation (DAMP)を提案することである。 3つ目の貢献は、シミュレーションおよび実データにおける5つの知覚問題にDAMPを適用し、(i)DAMPが3D-3D対応を持つ最初の3つの問題において常に大域最適解に収束することを示し、(ii)DAMPは2D-3D対応を持つ最後の2つの問題において最適解に収束するが、DAMPは局所ミニマをエスケープするための単純なスキームで、ほとんど常に成功する。 我々の最後の貢献は、基礎となる力学系の平衡点の局所的な安定性を特徴付けることにより、DAMPの驚くべき経験的性能を解明し、点雲登録の際の大域収束結果を正式に証明することである。

We study the problem of aligning two sets of 3D geometric primitives given known correspondences. Our first contribution is to show that this primitive alignment framework unifies five perception problems including point cloud registration, primitive (mesh) registration, category-level 3D registration, absolution pose estimation (APE), and category-level APE. Our second contribution is to propose DynAMical Pose estimation (DAMP), the first general and practical algorithm to solve primitive alignment problem by simulating rigid body dynamics arising from virtual springs and damping, where the springs span the shortest distances between corresponding primitives. Our third contribution is to apply DAMP to the five perception problems in simulated and real datasets and demonstrate (i) DAMP always converges to the globally optimal solution in the first three problems with 3D-3D correspondences; (ii) although DAMP sometimes converges to suboptimal solutions in the last two problems with 2D-3D correspondences, with a simple scheme for escaping local minima, DAMP almost always succeeds. Our last contribution is to demystify the surprising empirical performance of DAMP and formally prove a global convergence result in the case of point cloud registration by charactering local stability of the equilibrium points of the underlying dynamical system.
翻訳日:2021-03-12 17:48:00 公開日:2021-03-11
# (参考訳) Dory: 永続的ホモロジーコンピューティングの障壁を克服する

Dory: Overcoming Barriers to Computing Persistent Homology ( http://arxiv.org/abs/2103.05608v2 )

ライセンス: CC BY 4.0
Manu Aggarwal and Vipul Periwal(参考訳) 永続ホモロジー (Persistent homology, PH) は、ノイズに強い高次元データの多次元位相不変性を計算するトポロジカルデータ分析 (TDA) のアプローチである。 PHは様々なアプリケーションで有用なパターンを明らかにしているが、計算要求は数千点の小さなデータセットに限られている。 大規模データセットの持続的ホモロジーを計算できる効率的でスケーラブルなアルゴリズムであるdoryを提案する。 doryは公開アルゴリズムよりもメモリ使用量が少なく、計算時間もほとんどのアルゴリズムに比べて大幅に削減できる。 数百万ポイントのデータセットを処理するためにスケールする。 応用として、ヒトゲノムのPHを高分解能で計算し、ゲノムワイドHi-Cデータセットで明らかにする。 結果は、コヘシンを分解する分子であるオーキシンによる治療によってヒトゲノムのトポロジが有意に変化し、コヘシンがDNAのループ形成において重要な役割を果たしているという仮説を裏付ける。

Persistent homology (PH) is an approach to topological data analysis (TDA) that computes multi-scale topologically invariant properties of high-dimensional data that are robust to noise. While PH has revealed useful patterns across various applications, computational requirements have limited applications to small data sets of a few thousand points. We present Dory, an efficient and scalable algorithm that can compute the persistent homology of large data sets. Dory uses significantly less memory than published algorithms and also provides significant reductions in the computation time compared to most algorithms. It scales to process data sets with millions of points. As an application, we compute the PH of the human genome at high resolution as revealed by a genome-wide Hi-C data set. Results show that the topology of the human genome changes significantly upon treatment with auxin, a molecule that degrades cohesin, corroborating the hypothesis that cohesin plays a crucial role in loop formation in DNA.
翻訳日:2021-03-12 16:16:00 公開日:2021-03-11
# 知的行動は生態学的ニッチに依存する:社会文化環境におけるAIから人間のような知性へのスケールアップ

Intelligent behavior depends on the ecological niche: Scaling up AI to human-like intelligence in socio-cultural environments ( http://arxiv.org/abs/2103.06769v1 )

ライセンス: Link先を確認
Manfred Eppe and Pierre-Yves Oudeyer(参考訳) 本稿では、AIの未来を概観し、人間のような知能のマシンモデルの方向性について議論する。 私たちは、人間の認知の発達と進化の理論が人工知能をさらに知らせる方法を説明します。 我々は、知的行動の彫刻における生態的ニッチの役割を強調し、特に人間の知性は、絶えず変化する社会文化的環境に適応するために根本的に形作られていた。 aiにおける現在の作業の大きな限界は、理論的にも実験的にも、この視点が欠けていることである。 最後に、発達的人工知能の有望なアプローチ、本質的動機づけのある学習と具体化、そして急速に変化する社会文化環境のマルチスケールな相互作用を通じて幼児の発達をモデル化することについて論じる。 本論文は,開発ロボティクスにおける KIK{\"{u}}nstliche Intelligenz 特別号の文脈で組織された Mandred Eppe による Pierre-Yves Oudeyer のインタビューの形態をとっている。

This paper outlines a perspective on the future of AI, discussing directions for machines models of human-like intelligence. We explain how developmental and evolutionary theories of human cognition should further inform artificial intelligence. We emphasize the role of ecological niches in sculpting intelligent behavior, and in particular that human intelligence was fundamentally shaped to adapt to a constantly changing socio-cultural environment. We argue that a major limit of current work in AI is that it is missing this perspective, both theoretically and experimentally. Finally, we discuss the promising approach of developmental artificial intelligence, modeling infant development through multi-scale interaction between intrinsically motivated learning, embodiment and a fastly changing socio-cultural environment. This paper takes the form of an interview of Pierre-Yves Oudeyer by Mandred Eppe, organized within the context of a KI - K{\"{u}}nstliche Intelligenz special issue in developmental robotics.
翻訳日:2021-03-12 15:01:40 公開日:2021-03-11
# Beta-CROWN:完全・不完全ニューラルネットワーク検証のためのニューロンスプリット制約を用いた効率的な境界伝搬

Beta-CROWN: Efficient Bound Propagation with Per-neuron Split Constraints for Complete and Incomplete Neural Network Verification ( http://arxiv.org/abs/2103.06624v1 )

ライセンス: Link先を確認
Shiqi Wang, Huan Zhang, Kaidi Xu, Xue Lin, Suman Jana, Cho-Jui Hsieh, J. Zico Kolter(参考訳) ニューラルネットワーク検証の最近の研究は、境界伝播に基づくCROWNのような安価な不完全検証器をブランチ・アンド・バウンド(BaB)法で効果的に使用し、完全検証を高速化し、高価な線形プログラミング(LP)ベースの手法と比較して大幅な高速化を実現していることを示している。 しかし、LP検証器のようにBaBが導入したニューロンごとのスプリット制約を完全には扱えないため、バウンダリはより緩くなり、検証効率が損なわれる。 この研究では、最適化可能なパラメータである$\beta$を介して、ニューロン毎の分割を完全にエンコードできる新しい境界伝播ベースメソッドである$\beta$-crownを開発した。 最適化可能なパラメータが中間層で共同最適化されると、$\beta$-CROWN は、神経分裂制約を持つ典型的な LP 検証器よりも優れた境界を生成する可能性を持ち、GPU 上で効率的に並列化可能である。 完全な検証設定に適用すると、$\beta$-crownは堅牢性検証のためにlpベースのbabメソッドより3桁早くなり、同様のタイムアウトレートのgpuベースの完全検証器よりも2倍以上高速である。 BaBを早期に終了することにより、不完全な検証にも使用できます。 現状の半有限プログラミング(SDP)ベースの検証器と比較すると、検証精度と経験的攻撃精度のギャップを大幅に減らし、敵対的に訓練されたMNISTネットワーク(\epsilon=0.3$)で35%(SDP)から12%に減らし、47倍の高速化を実現した。 コードはhttps://github.com/K aidiXu/Beta-CROWNで入手できます。

Recent works in neural network verification show that cheap incomplete verifiers such as CROWN, based upon bound propagations, can effectively be used in Branch-and-Bound (BaB) methods to accelerate complete verification, achieving significant speedups compared to expensive linear programming (LP) based techniques. However, they cannot fully handle the per-neuron split constraints introduced by BaB like LP verifiers do, leading to looser bounds and hurting their verification efficiency. In this work, we develop $\beta$-CROWN, a new bound propagation based method that can fully encode per-neuron splits via optimizable parameters $\beta$. When the optimizable parameters are jointly optimized in intermediate layers, $\beta$-CROWN has the potential of producing better bounds than typical LP verifiers with neuron split constraints, while being efficiently parallelizable on GPUs. Applied to the complete verification setting, $\beta$-CROWN is close to three orders of magnitude faster than LP-based BaB methods for robustness verification, and also over twice faster than state-of-the-art GPU-based complete verifiers with similar timeout rates. By terminating BaB early, our method can also be used for incomplete verification. Compared to the state-of-the-art semidefinite-program ming (SDP) based verifier, we show a substantial leap forward by greatly reducing the gap between verified accuracy and empirical adversarial attack accuracy, from 35% (SDP) to 12% on an adversarially trained MNIST network ($\epsilon=0.3$), while being 47 times faster. Our code is available at https://github.com/K aidiXu/Beta-CROWN
翻訳日:2021-03-12 15:01:20 公開日:2021-03-11
# ニューラルネットワークPruningの新たなパラダイム

Emerging Paradigms of Neural Network Pruning ( http://arxiv.org/abs/2103.06460v1 )

ライセンス: Link先を確認
Huan Wang, Can Qin, Yulun Zhang, Yun Fu(参考訳) ニューラルネットワークの過度パラメータ化は最適化と一般化の恩恵を受けるが、実際にはコストがかかる。 この問題に対する後処理ソリューションとしてPruningが採用され、パフォーマンスを損なわないニューラルネットワークの不要なパラメータの除去を目指している。 結果として得られるスパースニューラルネットワークは、スクラッチから同等の精度までトレーニングできないと広く信じられている。 しかし、いくつかの最近の作品(例えば [frankle and carbin, 2019a])は、パフォーマンスと密集した結果に合致するように訓練できるランダムなスパースネットワークを発見することで、この信念に挑戦している。 この新しいpruningパラダイムは、後で初期化時にpruningの新しい方法を刺激します。 奨励的な進歩にもかかわらず、これらの新しい刈り取りファッションと伝統的な刈り取りをコーディネートする方法はまだ検討されていません。 この調査は、従来のアルゴリズムとうまく適合できるように、一般的な刈り取りフレームワークを提案し、ギャップを埋めることを目指しています。 そこで本研究では,これらの新作ファッションがもたらす大きな違いと新たな洞察を体系的に反映し,代表的研究を長々と議論する。 最後に,オープン質問を今後の方向性として要約する。

Over-parameterizatio n of neural networks benefits the optimization and generalization yet brings cost in practice. Pruning is adopted as a post-processing solution to this problem, which aims to remove unnecessary parameters in a neural network with little performance compromised. It has been broadly believed the resulted sparse neural network cannot be trained from scratch to comparable accuracy. However, several recent works (e.g., [Frankle and Carbin, 2019a]) challenge this belief by discovering random sparse networks which can be trained to match the performance with their dense counterpart. This new pruning paradigm later inspires more new methods of pruning at initialization. In spite of the encouraging progress, how to coordinate these new pruning fashions with the traditional pruning has not been explored yet. This survey seeks to bridge the gap by proposing a general pruning framework so that the emerging pruning paradigms can be accommodated well with the traditional one. With it, we systematically reflect the major differences and new insights brought by these new pruning fashions, with representative works discussed at length. Finally, we summarize the open questions as worthy future directions.
翻訳日:2021-03-12 15:00:27 公開日:2021-03-11
# 統合年齢推定機構

Integrated Age Estimation Mechanism ( http://arxiv.org/abs/2103.06546v1 )

ライセンス: Link先を確認
Fan Li, Yongming Li, Pin Wang, Jie Xiao, Fang Yan, Xinke Li(参考訳) 機械学習に基づく年齢推定が注目されている。 従来の年齢推定メカニズムは年齢推定に重点を置いているが、疾患による年齢推定と実年齢の差があることを無視する。 筆者が提案する病的年齢推定機構は,上記の問題を解決するために年齢偏差を導入し,推定年齢の分類能力を大幅に向上させる。 しかし、正規制御群(NC)の年齢推定誤差は考慮せず、NC群の推定年齢と実年齢との間により大きな誤差をもたらす。 そこで, 従来の年齢推定法と病理年齢推定法を重み付けし, 平均絶対誤差(MAE)を最小化し, 平均絶対誤差(MAE)を最小化することにより, 従来の年齢推定法と病理年齢推定法を併用する。 実験では,提案手法の検証にいくつかの年齢関連データセットを用いた。 その結果,提案する年齢推定機構は,年齢推定の良好なトレードオフ効果が得られることがわかった。 推定年齢の分類能力を向上させるだけでなく,nc群の年齢推定誤差を低減させる。 一般に,提案する年齢推定機構が有効である。 さらに、このメカニズムは、異なる特定の年齢推定アルゴリズムを構築するために使用できるフレームワークメカニズムであり、関連する研究に寄与する。

Machine-learning-bas ed age estimation has received lots of attention. Traditional age estimation mechanism focuses estimation age error, but ignores that there is a deviation between the estimated age and real age due to disease. Pathological age estimation mechanism the author proposed before introduces age deviation to solve the above problem and improves classification capability of the estimated age significantly. However,it does not consider the age estimation error of the normal control (NC) group and results in a larger error between the estimated age and real age of NC group. Therefore, an integrated age estimation mechanism based on Decision-Level fusion of error and deviation orientation model is proposed to solve the problem.Firstly, the traditional age estimation and pathological age estimation mechanisms are weighted together.Secondly, their optimal weights are obtained by minimizing mean absolute error (MAE) between the estimated age and real age of normal people. In the experimental section, several representative age-related datasets are used for verification of the proposed method. The results show that the proposed age estimation mechanism achieves a good tradeoff effect of age estimation. It not only improves the classification ability of the estimated age, but also reduces the age estimation error of the NC group. In general, the proposed age estimation mechanism is effective. Additionally, the mechanism is a framework mechanism that can be used to construct different specific age estimation algorithms, contributing to relevant research.
翻訳日:2021-03-12 15:00:07 公開日:2021-03-11
# CoMoGAN:連続モデル誘導画像-画像変換

CoMoGAN: continuous model-guided image-to-image translation ( http://arxiv.org/abs/2103.06879v1 )

ライセンス: Link先を確認
Fabio Pizzati, Pietro Cerri, Raoul de Charette(参考訳) CoMoGAN は、函数多様体上の対象データの教師なし再編成に依存する連続 GAN である。 そこで本研究では,対象多様体上の位置から画像を分離する新たな機能的インスタンス正規化層と残差機構について紹介する。 我々は、プライベートモデル/翻訳機能を許容しながらトレーニングをガイドするために、素直な物理モデルに依存しています。 CoMoGANは、任意のGANバックボーンで使用でき、タイムラプス生成のような周期的な画像翻訳、または分離された線形翻訳など、新しいタイプの画像翻訳を可能にします。 すべてのデータセットとメトリクスで、文献よりも優れています。 コードはhttp://github.com/cv -rits/CoMoGAN で入手できます。

CoMoGAN is a continuous GAN relying on the unsupervised reorganization of the target data on a functional manifold. To that matter, we introduce a new Functional Instance Normalization layer and residual mechanism, which together disentangle image content from position on target manifold. We rely on naive physics-inspired models to guide the training while allowing private model/translations features. CoMoGAN can be used with any GAN backbone and allows new types of image translation, such as cyclic image translation like timelapse generation, or detached linear translation. On all datasets and metrics, it outperforms the literature. Our code is available at http://github.com/cv -rits/CoMoGAN .
翻訳日:2021-03-12 14:59:43 公開日:2021-03-11
# Active$^2$ Learning: シーケンスタグと機械翻訳のためのアクティブラーニングメソッドの冗長性をアクティブに削減する

Active$^2$ Learning: Actively reducing redundancies in Active Learning methods for Sequence Tagging and Machine Translation ( http://arxiv.org/abs/2103.06490v1 )

ライセンス: Link先を確認
Rishi Hazra, Parag Dutta, Shubham Gupta, Mohammed Abdul Qaathir, Ambedkar Dukkipati(参考訳) ディープラーニングは自然言語処理(NLP)問題にとって強力なツールであるが、これらの問題に対するソリューションの成功は大量の注釈付きサンプルに大きく依存している。 しかし、手動でアノテートするデータは高価で時間を要する。 アクティブラーニング(al)戦略は、与えられたモデルのトレーニングにおける推定ユーティリティに基づいて手動アノテーションの少数の例を反復的に選択することによって、大量のラベル付きデータの必要性を低減する。 本稿では,al戦略が個別に例を選択することから,学習過程に寄与しない類似の例を選択できる可能性について論じる。 提案手法であるActive$\mathbf{^2}$ Learning (A$\mathbf{^2}$L)は,AL戦略によって選択された冗長な例を排除するために,ディープラーニングモデルに積極的に適応する。 A$\mathbf{^2}$L はいくつかの異なる AL 戦略と NLP タスクと併用することで広く適用可能であることを示す。 提案手法は,複数の NLP タスクに対する $\approx\mathbf{3-25\%}$ の絶対パーセンテージ削減によって,新たな計算オーバーヘッドなしで同じ性能を達成しながら,最先端の AL 戦略のデータ要件をさらに削減できることを実証した。

While deep learning is a powerful tool for natural language processing (NLP) problems, successful solutions to these problems rely heavily on large amounts of annotated samples. However, manually annotating data is expensive and time-consuming. Active Learning (AL) strategies reduce the need for huge volumes of labeled data by iteratively selecting a small number of examples for manual annotation based on their estimated utility in training the given model. In this paper, we argue that since AL strategies choose examples independently, they may potentially select similar examples, all of which may not contribute significantly to the learning process. Our proposed approach, Active$\mathbf{^2}$ Learning (A$\mathbf{^2}$L), actively adapts to the deep learning model being trained to eliminate further such redundant examples chosen by an AL strategy. We show that A$\mathbf{^2}$L is widely applicable by using it in conjunction with several different AL strategies and NLP tasks. We empirically demonstrate that the proposed approach is further able to reduce the data requirements of state-of-the-art AL strategies by an absolute percentage reduction of $\approx\mathbf{3-25\%}$ on multiple NLP tasks while achieving the same performance with no additional computation overhead.
翻訳日:2021-03-12 14:59:31 公開日:2021-03-11
# あなたの場所、視覚場所認識はどこですか?

Where is your place, Visual Place Recognition? ( http://arxiv.org/abs/2103.06443v1 )

ライセンス: Link先を確認
Sourav Garg, Tobias Fischer and Michael Milford(参考訳) 視覚位置認識(vpr)は、外観や視点が大きく変化したにもかかわらず、同じ場所を認識できることが特徴である。 VPRは、Spatial Artificial Intelligenceの重要なコンポーネントであり、ロボットプラットフォームと拡張現実デバイスのようなインテリジェントな拡張プラットフォームによって、物理的な世界を理解し理解することができる。 本稿では,空間知的エージェントに要求を課すドライバが3つあり,従ってVPRシステムが存在することを観察する。1)センサや計算資源を含む特定のエージェント,2)このエージェントの動作環境,3)人工エージェントが実行する特定のタスク。 本稿では,VPR領域における位置表現やマッチング選択など,それらのドライバを考慮した主要作品を特徴づけ,調査する。 また、視覚的オーバーラップ(脳の空間ビュー細胞に似た)に基づく新しいVPRの定義も提供し、ロボット工学やコンピュータビジョンの分野における他の研究領域と類似点や相違点を見つけることができます。 我々は、多くのオープンな課題を特定し、将来の作業でより深い注意を必要とする領域を提案する。

Visual Place Recognition (VPR) is often characterized as being able to recognize the same place despite significant changes in appearance and viewpoint. VPR is a key component of Spatial Artificial Intelligence, enabling robotic platforms and intelligent augmentation platforms such as augmented reality devices to perceive and understand the physical world. In this paper, we observe that there are three "drivers" that impose requirements on spatially intelligent agents and thus VPR systems: 1) the particular agent including its sensors and computational resources, 2) the operating environment of this agent, and 3) the specific task that the artificial agent carries out. In this paper, we characterize and survey key works in the VPR area considering those drivers, including their place representation and place matching choices. We also provide a new definition of VPR based on the visual overlap -- akin to spatial view cells in the brain -- that enables us to find similarities and differences to other research areas in the robotics and computer vision fields. We identify numerous open challenges and suggest areas that require more in-depth attention in future works.
翻訳日:2021-03-12 14:59:03 公開日:2021-03-11
# 文脈埋め込みのマルチセンス・クロスリンガルアライメントに向けて

Towards Multi-Sense Cross-Lingual Alignment of Contextual Embeddings ( http://arxiv.org/abs/2103.06459v1 )

ライセンス: Link先を確認
Linlin Liu, Thien Hai Nguyen, Shafiq Joty, Lidong Bing, Luo Si(参考訳) 言語間単語埋め込み(CLWE)は多くの言語間タスクで有用であることが証明されている。 しかし、文脈埋め込みを含むCLWEを学ぶためのほとんどの既存のアプローチは、意味不明です。 本研究では,バイリンガル辞書からのクロスリンガル信号を活用し,文脈埋め込みを感覚レベルで整列する新しい枠組みを提案する。 我々はまず,単語感覚を明示的にモデル化するために,新しい感覚認識型クロスエントロピー損失を提案する。 感覚認識のクロスエントロピー損失で予め訓練されたモノリンガルELMoおよびBERTモデルは、単語感覚の曖昧化タスクにおける大幅なパフォーマンス改善を示しています。 そこで我々は,複数の言語ペア(英語, ドイツ語, 日本語, 中国語)のクロスリンガルモデル前訓練のための感覚認識型クロスエントロピー損失に基づく感覚アライメント目標を提案する。 最良ベースラインモデルと比較すると,ゼロショット・クロスランガルNER,感情分類,XNLIタスクの平均性能は0.52%,2.09%,1.29%向上した。

Cross-lingual word embeddings (CLWE) have been proven useful in many cross-lingual tasks. However, most existing approaches to learn CLWE including the ones with contextual embeddings are sense agnostic. In this work, we propose a novel framework to align contextual embeddings at the sense level by leveraging cross-lingual signal from bilingual dictionaries only. We operationalize our framework by first proposing a novel sense-aware cross entropy loss to model word senses explicitly. The monolingual ELMo and BERT models pretrained with our sense-aware cross entropy loss demonstrate significant performance improvement for word sense disambiguation tasks. We then propose a sense alignment objective on top of the sense-aware cross entropy loss for cross-lingual model pretraining, and pretrain cross-lingual models for several language pairs (English to German/Spanish/Japan ese/Chinese). Compared with the best baseline results, our cross-lingual models achieve 0.52%, 2.09% and 1.29% average performance improvements on zero-shot cross-lingual NER, sentiment classification and XNLI tasks, respectively.
翻訳日:2021-03-12 14:58:45 公開日:2021-03-11
# 低分解能画像と映像による3Dヒューマンポース, 形状, テクスチャー

3D Human Pose, Shape and Texture from Low-Resolution Images and Videos ( http://arxiv.org/abs/2103.06498v1 )

ライセンス: Link先を確認
Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando De la Torre(参考訳) 3次元人間のポーズと単眼画像からの形状推定はコンピュータビジョンの活発な研究分野である。 このタスクの既存のディープラーニング手法は高解像度入力に依存しているが、ビデオ監視やスポーツ放送といった多くのシナリオでは必ずしも利用できない。 低解像度画像を扱う2つの一般的なアプローチは、入力に超解像技術を適用することであり、これは不快な成果物をもたらす可能性がある。 そこで本論文では,Resolution-awareネットワーク,Self-supervision Loss,Contrastive Learning Schepeから構成されるRSC-Netと呼ばれるアルゴリズムを提案する。 提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。 自己監督損失は出力のスケール一貫性を強制し、コントラスト学習スキームは深い機能のスケール一貫性を強制する。 これらの新たな損失はいずれも,教師の少ない方法で学習する場合の堅牢性を示す。 さらに,低解像度映像を扱うためにRCC-Netを拡張し,低解像度入力からテクスチャ化された3D歩行者を再構築する。 広範な実験により、RSC-Netは、低解像度画像に挑戦するための最先端の方法よりも一貫して優れた結果を達成できることを示しています。

3D human pose and shape estimation from monocular images has been an active research area in computer vision. Existing deep learning methods for this task rely on high-resolution input, which however, is not always available in many scenarios such as video surveillance and sports broadcasting. Two common approaches to deal with low-resolution images are applying super-resolution techniques to the input, which may result in unpleasant artifacts, or simply training one model for each resolution, which is impractical in many realistic applications. To address the above issues, this paper proposes a novel algorithm called RSC-Net, which consists of a Resolution-aware network, a Self-supervision loss, and a Contrastive learning scheme. The proposed method is able to learn 3D body pose and shape across different resolutions with one single model. The self-supervision loss enforces scale-consistency of the output, and the contrastive learning scheme enforces scale-consistency of the deep features. We show that both these new losses provide robustness when learning in a weakly-supervised manner. Moreover, we extend the RSC-Net to handle low-resolution videos and apply it to reconstruct textured 3D pedestrians from low-resolution input. Extensive experiments demonstrate that the RSC-Net can achieve consistently better results than the state-of-the-art methods for challenging low-resolution images.
翻訳日:2021-03-12 14:58:18 公開日:2021-03-11
# fairfil:事前学習されたテキストエンコーダのコントラストニューラルデバイアス法

FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders ( http://arxiv.org/abs/2103.06413v1 )

ライセンス: Link先を確認
Pengyu Cheng, Weituo Hao, Siyang Yuan, Shijing Si, Lawrence Carin(参考訳) BERTのような事前訓練されたテキストエンコーダは、様々な自然言語処理(NLP)タスクにますます適用され、最近は顕著なパフォーマンス向上を示している。 しかし、近年の研究では、これらの訓練済みNLPモデルにおける社会的バイアスの存在が実証されている。 先行研究は単語レベルのデバイアス化を進展させたが、事前訓練されたエンコーダの文レベルの公平性の改善はいまだに探索を欠いている。 本稿では,プリトレーニングされたエンコーダ出力をfairfil(fairfil)ネットワークを介してデバイアス表現に変換する,プリトレーニング文エンコーダの最初のニューラルデバイアス手法を提案する。 FairFilを学習するために、フィルタ埋め込みとバイアスワードの相関を最小化するだけでなく、原文の豊富な意味情報を保存するコントラスト学習フレームワークを導入する。 実世界のデータセットでは、fairfilは学習済みテキストエンコーダのバイアスを効果的に低減し、下流タスクで望ましいパフォーマンスを継続的に示します。 さらに,本手法ではテキストエンコーダの再トレーニングを必要とせず,FairFilのアプリケーション空間を拡大する。

Pretrained text encoders, such as BERT, have been applied increasingly in various natural language processing (NLP) tasks, and have recently demonstrated significant performance gains. However, recent studies have demonstrated the existence of social bias in these pretrained NLP models. Although prior works have made progress on word-level debiasing, improved sentence-level fairness of pretrained encoders still lacks exploration. In this paper, we proposed the first neural debiasing method for a pretrained sentence encoder, which transforms the pretrained encoder outputs into debiased representations via a fair filter (FairFil) network. To learn the FairFil, we introduce a contrastive learning framework that not only minimizes the correlation between filtered embeddings and bias words but also preserves rich semantic information of the original sentences. On real-world datasets, our FairFil effectively reduces the bias degree of pretrained text encoders, while continuously showing desirable performance on downstream tasks. Moreover, our post-hoc method does not require any retraining of the text encoders, further enlarging FairFil's application space.
翻訳日:2021-03-12 14:57:35 公開日:2021-03-11
# CANINE:言語表現のための効率的なトークン化フリーエンコーダの事前トレーニング

CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation ( http://arxiv.org/abs/2103.06874v1 )

ライセンス: Link先を確認
Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting(参考訳) パイプライン化されたNLPシステムは、主にエンドツーエンドのニューラルモデリングに取って代わられているが、一般的に使われているほとんどのモデルは、まだ明示的なトークン化ステップを必要とする。 データ由来のサブワードレキシコンに基づく最近のトークン化アプローチは手作業によるトークン化よりも脆くはないが、これらの手法はすべての言語に等しく適合せず、固定語彙の使用はモデルの適応能力を制限する可能性がある。 本稿では,文字列を直接操作するニューラルネットワークエンコーダである canine と,ハードトークン境界に代えてソフトインダクティブバイアスを持つ事前学習戦略を提案する。さらに,その細粒度入力を効果的かつ効率的に利用するために,入力シーケンス長を短縮するdownsampling と,コンテキストをエンコードするdeep transformer stack を組み合わせる。 CANINEは、モデルパラメータが28%少ないにもかかわらず、TyDi QAにおいて、同等のmBERTモデルを >=1 F1 で上回っている。

Pipelined NLP systems have largely been superseded by end-to-end neural modeling, yet nearly all commonly-used models still require an explicit tokenization step. While recent tokenization approaches based on data-derived subword lexicons are less brittle than manually engineered tokenizers, these techniques are not equally suited to all languages, and the use of any fixed vocabulary may limit a model's ability to adapt. In this paper, we present CANINE, a neural encoder that operates directly on character sequences--without explicit tokenization or vocabulary--and a pre-training strategy with soft inductive biases in place of hard token boundaries.To use its finer-grained input effectively and efficiently, CANINE combines downsampling, which reduces the input sequence length, with a deep transformer stack, which encodes con-text. CANINE outperforms a comparable mBERT model by >=1 F1 on TyDi QA, a challenging multilingual benchmark, despite having 28% fewer model parameters.
翻訳日:2021-03-12 14:57:14 公開日:2021-03-11
# 深層強化学習のための一般化可能なエピソード記憶

Generalizable Episodic Memory for Deep Reinforcement Learning ( http://arxiv.org/abs/2103.06469v1 )

ライセンス: Link先を確認
Hao Hu, Jianing Ye, Zhizhou Ren, Guangxiang Zhu, Chongjie Zhang(参考訳) エピソディックメモリベースの手法は、非パラメトリックメモリによって過去の成功戦略に素早くラッチし、従来の強化学習のサンプル効率を向上させることができる。 しかし、連続的なドメインでは、状態は2度も訪れず、以前のエピソジックなメソッドは、トラジェクトリ全体で効率的に経験を集約することができない。 そこで本研究では,エピソジックメモリの状態動作値を汎用的に整理し,記憶されたトラジェクタの暗黙的計画を支援する一般化エピソジックメモリ(gem)を提案する。 GEMは、二重推定器を用いて、計画プロセスにおける値伝播による過大評価バイアスを低減する。 実験により,MuJoCo連続制御タスクにおける既存のトラジェクトリベース手法よりも優れた性能を示した。 汎用的な適用性を示すために,アタリゲームにおける離散的アクション空間を用いた手法を評価し,ベースラインアルゴリズムよりも大幅に改善することを示す。

Episodic memory-based methods can rapidly latch onto past successful strategies by a non-parametric memory and improve sample efficiency of traditional reinforcement learning. However, little effort is put into the continuous domain, where a state is never visited twice and previous episodic methods fail to efficiently aggregate experience across trajectories. To address this problem, we propose Generalizable Episodic Memory (GEM), which effectively organizes the state-action values of episodic memory in a generalizable manner and supports implicit planning on memorized trajectories. GEM utilizes a double estimator to reduce the overestimation bias induced by value propagation in the planning process. Empirical evaluation shows that our method significantly outperforms existing trajectory-based methods on various MuJoCo continuous control tasks. To further show the general applicability, we evaluate our method on Atari games with discrete action space, which also shows significant improvement over baseline algorithms.
翻訳日:2021-03-12 14:56:34 公開日:2021-03-11
# Causal Learner: 因果構造とマルコフブランケット学習のためのツールボックス

Causal Learner: A Toolbox for Causal Structure and Markov Blanket Learning ( http://arxiv.org/abs/2103.06544v1 )

ライセンス: Link先を確認
Zhaolong Ling, Kui Yu, Yiwen Zhang, Lin Liu, and Jiuyong Li(参考訳) Causal Learnerは、データから因果構造とマルコフ毛布(MB)を学ぶためのツールボックスです。 シミュレーションされたベイズネットワークデータを生成する機能、最先端のグローバル因果構造学習アルゴリズムのセット、最先端のローカル因果構造学習アルゴリズムのセット、最先端のMB学習アルゴリズムのセット、およびアルゴリズムを評価する機能を統合します。 Causal Learnerのデータ生成部分はRで書かれており、Causal Learnerの残りの部分はMATLABで書かれています。 Causal Learnerは、データから因果学習し、新しい因果学習アルゴリズムの開発と評価のためのオープンソースのプラットフォームを研究者や実践者に提供することを目的としています。 Causal Learnerプロジェクトはhttp://bigdata.ahu.e du.cn/causal-learner .comから入手できる。

Causal Learner is a toolbox for learning causal structure and Markov blanket (MB) from data. It integrates functions for generating simulated Bayesian network data, a set of state-of-the-art global causal structure learning algorithms, a set of state-of-the-art local causal structure learning algorithms, a set of state-of-the-art MB learning algorithms, and functions for evaluating algorithms. The data generation part of Causal Learner is written in R, and the rest of Causal Learner is written in MATLAB. Causal Learner aims to provide researchers and practitioners with an open-source platform for causal learning from data and for the development and evaluation of new causal learning algorithms. The Causal Learner project is available at http://bigdata.ahu.e du.cn/causal-learner .
翻訳日:2021-03-12 14:56:15 公開日:2021-03-11
# 確率的制御目的における情報探索の起源の理解

Understanding the origin of information-seeking exploration in probabilistic objectives for control ( http://arxiv.org/abs/2103.06859v1 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Anil Seth, Christopher Buckley(参考訳) 探索と探索のトレードオフは、機械学習から生物学、経済学まで幅広い分野における適応行動の記述の中心である。 多くのアプローチが取られているが、このトレードオフを解決するための1つのアプローチは、エージェントが固有の「探索駆動」を持っていること、すなわち、世界のエージェント情報獲得を最大化すること、すなわち機械学習や認知科学で広く研究されているアプローチである。 本稿では,このような手法の性質と意味を数学的に検討し,このユーティリティの最大化と情報探索の組合せが,分散目的と呼ぶ目的の完全差分クラスを最小化することから生じることを実証する。 We propose a dichotomy in the objective functions underlying adaptive behaviour between \emph{evidence} objectives, which correspond to well-known reward or utility maximizing objectives in the literature, and \emph{divergence} objectives which instead seek to minimize the divergence between the agent's expected and desired futures, and argue that this new class of divergence objectives could form the mathematical foundation for a much richer understanding of the exploratory components of adaptive and intelligent action, beyond simply greedy utility maximization.

The exploration-exploita tion trade-off is central to the description of adaptive behaviour in fields ranging from machine learning, to biology, to economics. While many approaches have been taken, one approach to solving this trade-off has been to equip or propose that agents possess an intrinsic 'exploratory drive' which is often implemented in terms of maximizing the agents information gain about the world -- an approach which has been widely studied in machine learning and cognitive science. In this paper we mathematically investigate the nature and meaning of such approaches and demonstrate that this combination of utility maximizing and information-seeking behaviour arises from the minimization of an entirely difference class of objectives we call divergence objectives. We propose a dichotomy in the objective functions underlying adaptive behaviour between \emph{evidence} objectives, which correspond to well-known reward or utility maximizing objectives in the literature, and \emph{divergence} objectives which instead seek to minimize the divergence between the agent's expected and desired futures, and argue that this new class of divergence objectives could form the mathematical foundation for a much richer understanding of the exploratory components of adaptive and intelligent action, beyond simply greedy utility maximization.
翻訳日:2021-03-12 14:56:01 公開日:2021-03-11
# 不完全データセットにおける脳行動関連の階層的ベイズモデル

A hierarchical Bayesian model to find brain-behaviour associations in incomplete data sets ( http://arxiv.org/abs/2103.06845v1 )

ライセンス: Link先を確認
Fabio S. Ferreira, Agoston Mihalik, Rick A. Adams, John Ashburner, Janaina Mourao-Miranda(参考訳) カノニカル相関分析(CCA)とその正規化バージョンは、脳画像と行動の2つのデータモダリティ間の多変量関連を明らかにするために、神経画像のコミュニティで広く利用されている。 しかし、これらの方法には固有の制限がある:(1)関連付けに関する統計的推論はしばしば堅牢ではない;(2)各データモダリティ内の関連はモデル化されない;(3)欠落した値はインプットされるか削除される必要がある。 グループ因子分析(gfa)は、ベイズ推論とモダリティ固有関係のモデリングを提供することで、最初の2つの制限に対処する階層モデルである。 本稿では、欠落データを扱うGFAの拡張を提案し、GFAが予測モデルとして使用できることを強調する。 我々は,ヒトコネクトームプロジェクト(hcp)による脳結合と非画像計測からなる合成データと実データにgfaを適用した。 合成データでは、GFAは基礎となる共有および特定の要因を明らかにし、完全かつ不完全なデータセットにおける観測されていないデータモダリティを正しく予測した。 hcpデータでは, 気分, アルコール, 薬物使用, 認知, 人口動態, 精神病理学的指標, デフォルトモード, 前頭頂側制御, 背側, 腹側ネットワーク, insulaの4つの関連因子と, 脳との結合関係を記述した2つの因子を同定した。 さらに、GFAは脳のコネクティビティから非画像対策のセットを予測した。 これらの結果は完全なデータセットと不完全なデータセットで一致し、文献で以前の知見を再現した。 GFAは有望なツールであり、ベンチマークデータセット(HCPなど)における複数のデータモダリティ間の関連を解明し、より困難なタスクを解決するためにより複雑なモデルに容易に拡張することができる。

Canonical Correlation Analysis (CCA) and its regularised versions have been widely used in the neuroimaging community to uncover multivariate associations between two data modalities (e.g., brain imaging and behaviour). However, these methods have inherent limitations: (1) statistical inferences about the associations are often not robust; (2) the associations within each data modality are not modelled; (3) missing values need to be imputed or removed. Group Factor Analysis (GFA) is a hierarchical model that addresses the first two limitations by providing Bayesian inference and modelling modality-specific associations. Here, we propose an extension of GFA that handles missing data, and highlight that GFA can be used as a predictive model. We applied GFA to synthetic and real data consisting of brain connectivity and non-imaging measures from the Human Connectome Project (HCP). In synthetic data, GFA uncovered the underlying shared and specific factors and predicted correctly the non-observed data modalities in complete and incomplete data sets. In the HCP data, we identified four relevant shared factors, capturing associations between mood, alcohol and drug use, cognition, demographics and psychopathological measures and the default mode, frontoparietal control, dorsal and ventral networks and insula, as well as two factors describing associations within brain connectivity. In addition, GFA predicted a set of non-imaging measures from brain connectivity. These findings were consistent in complete and incomplete data sets, and replicated previous findings in the literature. GFA is a promising tool that can be used to uncover associations between and within multiple data modalities in benchmark datasets (such as, HCP), and easily extended to more complex models to solve more challenging tasks.
翻訳日:2021-03-12 14:55:41 公開日:2021-03-11
# 自己監督型コンテンツスタイル歪みによるレベル認識ヘイズ画像合成

Level-aware Haze Image Synthesis by Self-Supervised Content-Style Disentanglement ( http://arxiv.org/abs/2103.06501v1 )

ライセンス: Link先を確認
Chi Zhang, Zihang Lin, Liheng Xu, Zongliang Li, Le Wang, Yuehu Liu, Gaofeng Meng, Li Li, and Nanning Zheng(参考訳) 敵対的訓練によるhaze画像翻訳の鍵となる手順は、haze合成にのみ関与する特徴、すなわちスタイル特徴と不変意味コンテンツを表す特徴、すなわちそれらの特徴との間にある。 コンテンツ機能。 事前の方法は、トレーニングプロセス中にヘイズ画像を分類するために、コンテンツ特徴を区別する。 しかし,本論文では,このような技術的ルーチンにおけるコンテンツスタイル不完全性を認識する。 コンテンツ情報に絡み合った欠陥のあるスタイル機能は、必然的にヘイズ画像の不正レンダリングにつながる。 そこで本研究では,確率線形補間による自己監視型スタイル回帰を提案する。 アブレーション実験は、レベル認識ヘイズ画像合成における不一致完全性とその優越性を示す。 さらに、生成したhazeデータは、車両検出器の試験一般化に適用される。 ヘイズレベルと検出性能のさらなる研究は、ヘイズレベルが車両検出器の一般化に明らかな影響を示し、そのような性能劣化レベルが、提案手法の有効性を検証したヘイズレベルと線形に相関していることを示している。

The key procedure of haze image translation through adversarial training lies in the disentanglement between the feature only involved in haze synthesis, i.e.style feature, and the feature representing the invariant semantic content, i.e. content feature. Previous methods separate content feature apart by utilizing it to classify haze image during the training process. However, in this paper we recognize the incompleteness of the content-style disentanglement in such technical routine. The flawed style feature entangled with content information inevitably leads the ill-rendering of the haze images. To address, we propose a self-supervised style regression via stochastic linear interpolation to reduce the content information in style feature. The ablative experiments demonstrate the disentangling completeness and its superiority in level-aware haze image synthesis. Moreover, the generated haze data are applied in the testing generalization of vehicle detectors. Further study between haze-level and detection performance shows that haze has obvious impact on the generalization of the vehicle detectors and such performance degrading level is linearly correlated to the haze-level, which, in turn, validates the effectiveness of the proposed method.
翻訳日:2021-03-12 14:55:07 公開日:2021-03-11
# 画像からの社会的距離の自動推定:性能評価、テストベンチマーク、アルゴリズム

Automatic Social Distance Estimation From Images: Performance Evaluation, Test Benchmark, and Algorithm ( http://arxiv.org/abs/2103.06759v1 )

ライセンス: Link先を確認
Mert Seker, Anssi M\"annist\"o, Alexandros Iosifidis, Jenni Raitoharju(参考訳) 新型コロナウイルスは2020年3月から世界的なパンデミックを引き起こしている。 世界保健機関(WHO)は、ウイルスの拡散を減らすためのガイドラインを提供しており、最も重要な措置の1つは、社会的分散です。 感染リスクを低減するため、他者から最低1メートルの距離を維持することが強く示唆されている。 これにより、社会距離を安全対策として監視することや、この措置が人間の行動や国による違いにどのように影響したかを研究することに強い関心が寄せられている。 自動社会的距離推定アルゴリズムの必要性は明らかですが、そのようなアルゴリズムに適したテストベンチマークはありません。 異なるカメラ設定を使用するすべての人の間で、地対距離を計測した画像の収集は困難である。 さらに,社会的距離推定アルゴリズムの性能評価は簡単ではなく,広く受け入れられている評価プロトコルも存在しない。 本論文では,異なるカメラ位置と焦点距離値下での対方向の社会的距離を測定した画像のデータセットを提供する。 本稿では,社会的距離推定アルゴリズムを評価するための性能評価プロトコルを提案する。 また,社会的距離の自動推定手法を提案する。 本手法は,物体検出と人間のポーズ推定を利用する。 焦点距離とセンササイズの情報が知られている限り、任意の画像に適用することができる。 このベンチマークの結果は, 人体検出率92%, 平均誤差28.9%で, 検出者間の距離推定を推奨している。

The COVID-19 virus has caused a global pandemic since March 2020. The World Health Organization (WHO) has provided guidelines on how to reduce the spread of the virus and one of the most important measures is social distancing. Maintaining a minimum of one meter distance from other people is strongly suggested to reduce the risk of infection. This has created a strong interest in monitoring the social distances either as a safety measure or to study how the measures have affected human behavior and country-wise differences in this. The need for automatic social distance estimation algorithms is evident, but there is no suitable test benchmark for such algorithms. Collecting images with measured ground-truth pair-wise distances between all the people using different camera settings is cumbersome. Furthermore, performance evaluation for social distance estimation algorithms is not straightforward and there is no widely accepted evaluation protocol. In this paper, we provide a dataset of varying images with measured pair-wise social distances under different camera positionings and focal length values. We suggest a performance evaluation protocol and provide a benchmark to easily evaluate social distance estimation algorithms. We also propose a method for automatic social distance estimation. Our method takes advantage of object detection and human pose estimation. It can be applied on any single image as long as focal length and sensor size information are known. The results on our benchmark are encouraging with 92% human detection rate and only 28.9% average error in distance estimation among the detected people.
翻訳日:2021-03-12 14:54:47 公開日:2021-03-11
# ステレオ画像からの未知物体分割

Unknown Object Segmentation from Stereo Images ( http://arxiv.org/abs/2103.06796v1 )

ライセンス: Link先を確認
Maximilian Durner, Wout Boerdijk, Martin Sundermeyer, Werner Friedl, Zoltan-Csaba Marton, Rudolph Triebel(参考訳) インスタンス認識は、多くの自律型ロボットアプリケーションにとって重要な前提条件であるが、ほとんどの方法は、既知のオブジェクトカテゴリのみに焦点を合わせることによってのみ、問題を部分的に解決する。 しかし、動的で散らかった環境で対話するロボットにとって、これは現実的ではなく、潜在的な応用範囲を著しく制限する。 そこで本稿では,オブジェクトの意味的,幾何学的な情報を事前に必要としない,新しいオブジェクトインスタンス分割手法を提案する。 既存の作品とは対照的に、深度データを入力として明示的に使用するのではなく、例えばステレオ画像のペアによって提供されるわずかな視点の変化は、多くの場合、オブジェクトの境界を決定してセグメントオブジェクトに十分であるという洞察に依存します。 ステレオセンサの汎用性に着目し,入力画像のペアからオブジェクトインスタンスへ直接マップするトランスフォーマティブベースのアーキテクチャを採用している。 これは、セグメント化が計算される入力としてノイズや潜在的に不完全な深度マップの代わりに、元のイメージペアを使ってオブジェクトのインスタンスと深度マップを推論する、という大きな利点を持つ。 いくつかの異なるアプリケーションドメインでの実験では、Instance Stereo Transformer(INSTR)アルゴリズムが、深度マップに基づく現在の最新手法を上回ることを示しています。 トレーニングコードと事前トレーニングモデルが利用可能になります。

Although instance-aware perception is a key prerequisite for many autonomous robotic applications, most of the methods only partially solve the problem by focusing solely on known object categories. However, for robots interacting in dynamic and cluttered environments, this is not realistic and severely limits the range of potential applications. Therefore, we propose a novel object instance segmentation approach that does not require any semantic or geometric information of the objects beforehand. In contrast to existing works, we do not explicitly use depth data as input, but rely on the insight that slight viewpoint changes, which for example are provided by stereo image pairs, are often sufficient to determine object boundaries and thus to segment objects. Focusing on the versatility of stereo sensors, we employ a transformer-based architecture that maps directly from the pair of input images to the object instances. This has the major advantage that instead of a noisy, and potentially incomplete depth map as an input, on which the segmentation is computed, we use the original image pair to infer the object instances and a dense depth map. In experiments in several different application domains, we show that our Instance Stereo Transformer (INSTR) algorithm outperforms current state-of-the-art methods that are based on depth maps. Training code and pretrained models will be made available.
翻訳日:2021-03-12 14:54:25 公開日:2021-03-11
# 高速かつ正確なモデルスケーリング

Fast and Accurate Model Scaling ( http://arxiv.org/abs/2103.06877v1 )

ライセンス: Link先を確認
Piotr Doll\'ar and Mannat Singh and Ross Girshick(参考訳) 本研究では,畳み込みニューラルネットワークのスケーリング戦略を分析する。つまり,畳み込みネットワークをスケールして,計算の複雑さと表現力を高めるプロセスである。 スケーリング戦略の例としては、モデル幅、深さ、解像度などの増加がある。 さまざまなスケーリング戦略が存在するが、そのトレードオフは完全には理解されていない。 既存の分析は、通常、精度とフロップ(浮動小数点演算)の相互作用に焦点を当てます。 しかし、我々が示すように、さまざまなスケーリング戦略はモデルパラメータ、アクティベーション、結果として実際のランタイムにまったく異なる影響を与えます。 我々の実験では、多くのスケーリング戦略が類似の精度でネットワークを産み出すが、その特性は様々である。 これにより、主にモデル幅をスケーリングするだけでなく、深さと解像度を小さくするシンプルな高速複合スケーリング戦略を提案します。 現在普及しているスケーリング戦略とは異なり、モデルアクティベーションw.r.tの約$ O(s)$増加をもたらす。 フロップを$s$の因子でスケーリングすると、提案された高速化合物のスケーリングは活性化の増大に近づき、精度は優れたものとなる。 これにより、現代のメモリ制限ハードウェア(GPU、TPUなど)のスピードアップに匹敵する。 より一般的には、この研究が様々な計算制約下でのスケーリング戦略の分析と選択のためのフレームワークを提供することを期待している。

In this work we analyze strategies for convolutional neural network scaling; that is, the process of scaling a base convolutional network to endow it with greater computational complexity and consequently representational power. Example scaling strategies may include increasing model width, depth, resolution, etc. While various scaling strategies exist, their tradeoffs are not fully understood. Existing analysis typically focuses on the interplay of accuracy and flops (floating point operations). Yet, as we demonstrate, various scaling strategies affect model parameters, activations, and consequently actual runtime quite differently. In our experiments we show the surprising result that numerous scaling strategies yield networks with similar accuracy but with widely varying properties. This leads us to propose a simple fast compound scaling strategy that encourages primarily scaling model width, while scaling depth and resolution to a lesser extent. Unlike currently popular scaling strategies, which result in about $O(s)$ increase in model activation w.r.t. scaling flops by a factor of $s$, the proposed fast compound scaling results in close to $O(\sqrt{s})$ increase in activations, while achieving excellent accuracy. This leads to comparable speedups on modern memory-limited hardware (e.g., GPU, TPU). More generally, we hope this work provides a framework for analyzing and selecting scaling strategies under various computational constraints.
翻訳日:2021-03-12 14:54:02 公開日:2021-03-11
# UAV障害回避のためのビジョンに基づく深層強化学習アルゴリズム

A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle Avoidance ( http://arxiv.org/abs/2103.06403v1 )

ライセンス: Link先を確認
Jeremy Roghair, Kyungtae Ko, Amir Ehsan Niaraki Asli and Ali Jannesari(参考訳) 無人飛行を実現するために無人航空機(UAV)との強化学習の統合は近年,活発な研究領域となっている。 重要な部分は、環境を航行するUAVの障害物検出と回避に焦点を当てている。 目に見えない環境での探索は、Deep Q-Network (DQN) に対処することができる。 しかし、行動の均一なサンプリングによる価値探索は、しばしば環境が本質的にまばらな報酬を負うような冗長な状態につながる可能性がある。 これを解決するために,UAV障害物回避のための2つの手法を提案する。 ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。 2つ目は、前述した状態と予測された次の状態を比較して次のアクションを選択する、ガウス混合分布を使用するドメインネットワークを用いたガイダンスベースのアプローチである。 これらの手法の性能と評価は、複雑性の変化を伴う複数の3次元シミュレーション環境で実施された。 提案手法は,最先端技術と比較して平均報酬が2倍向上することを示す。

Integration of reinforcement learning with unmanned aerial vehicles (UAVs) to achieve autonomous flight has been an active research area in recent years. An important part focuses on obstacle detection and avoidance for UAVs navigating through an environment. Exploration in an unseen environment can be tackled with Deep Q-Network (DQN). However, value exploration with uniform sampling of actions may lead to redundant states, where often the environments inherently bear sparse rewards. To resolve this, we present two techniques for improving exploration for UAV obstacle avoidance. The first is a convergence-based approach that uses convergence error to iterate through unexplored actions and temporal threshold to balance exploration and exploitation. The second is a guidance-based approach using a Domain Network which uses a Gaussian mixture distribution to compare previously seen states to a predicted next state in order to select the next action. Performance and evaluation of these approaches were implemented in multiple 3-D simulation environments, with variation in complexity. The proposed approach demonstrates a two-fold improvement in average rewards compared to state of the art.
翻訳日:2021-03-12 14:53:41 公開日:2021-03-11
# ヒト・ロボット眼球接触の頭部ポースを考慮した第1者視点の3次元頭部ポジション予測

3D Head-Position Prediction in First-Person View by Considering Head Pose for Human-Robot Eye Contact ( http://arxiv.org/abs/2103.06417v1 )

ライセンス: Link先を確認
Yuki Tamaru, Yasunori Ozaki, Yuki Okafuji, Jun Baba, Junya Nakanishi, Yuichiro Yoshikawa(参考訳) ヒューマノイドロボットが人間とのコミュニケーションを開始するためには、人間の頭部の位置を推定する必要がありますが、ロボットが対話する対象が移動している間、ロボットの機械的な遅延のために目の接触は困難になります。 これらの課題から,ロボットの動きの遅延の影響を軽減するために,頭部位置予測を行うことが重要である。 歩行中の方向転換前に頭部を回すことにより,頭部の姿勢を考慮した一人称視点から3次元(3d)頭部位置予測の精度を向上させることができると仮定し,従来のカルマンフィルタを用いた手法と比較し,精度の向上が図られた。 実験の結果,頭部ポーズを考慮すれば3次元頭部位置予測の精度が向上することがわかった。

For a humanoid robot to make eye contact to initiate communication with a human, it is necessary to estimate the human's head position.However, eye contact becomes difficult due to the mechanical delay of the robot while the subject with whom the robot is interacting with is moving. Owing to these issues, it is important to perform head-position prediction to mitigate the effect of the delay in the robot's motion. Based on the fact that humans turn their heads before changing direction while walking, we hypothesized that the accuracy of three-dimensional(3D ) head-position prediction from the first-person view can be improved by considering the head pose into account.We compared our method with the conventional Kalman filter-based method, and found our method to be more accurate. The experimental results show that considering the head pose helps improve the accuracy of 3D head-position prediction.
翻訳日:2021-03-12 14:53:23 公開日:2021-03-11
# DAFAR: フィードバック・オートエンコーダ再構成による敵検出

DAFAR: Detecting Adversaries by Feedback-Autoencoder Reconstruction ( http://arxiv.org/abs/2103.06487v1 )

ライセンス: Link先を確認
Haowen Liu, Ping Yi, Hsiao-Ying Lin, Jie Shi(参考訳) 深層学習は、知覚タスクに挑戦する優れたパフォーマンスを示しています。 しかし、研究者は敵の例に弱いディープニューラルネットワークを発見した。 それ以来、敵対的な例に対して防御または検出する多くの方法が提案されているが、攻撃に依存しているか、新しい攻撃で効果がないことが示されている。 深層学習モデルが高精度かつ普遍性のある逆例を検出できるフィードバックフレームワークdafarを提案する。 DAFARは、ターゲットネットワーク、プラグインフィードバックネットワーク、およびオートエンコーダベースの検出器を含む比較的単純な構造を有する。 鍵となるアイデアは、ターゲットネットワークから抽出されたハイレベルな特徴をキャプチャし、フィードバックネットワークを使って入力を再構築することだ。 これら2つの部分はフィードバックオートエンコーダを構成する。 ターゲットネットワークに対する受動的摂動攻撃を、フィードバックオートエンコーダに対する明らかな再構成エラー攻撃に直接変換する。 最後に、検出器は異常スコアを与え、再構成エラーに応じて入力が逆方向かどうかを判定する。 実験はMNISTおよびCIFAR-10データセット上で行われる。 実験結果から,DAFARは正統なサンプルの性能を損なうことなく,攻撃方法やパラメータの精度と普遍性が向上した。

Deep learning has shown impressive performance on challenging perceptual tasks. However, researchers found deep neural networks vulnerable to adversarial examples. Since then, many methods are proposed to defend against or detect adversarial examples, but they are either attack-dependent or shown to be ineffective with new attacks. We propose DAFAR, a feedback framework that allows deep learning models to detect adversarial examples in high accuracy and universality. DAFAR has a relatively simple structure, which contains a target network, a plug-in feedback network and an autoencoder-based detector. The key idea is to capture the high-level features extracted by the target network, and then reconstruct the input using the feedback network. These two parts constitute a feedback autoencoder. It transforms the imperceptible-pertur bation attack on the target network directly into obvious reconstruction-error attack on the feedback autoencoder. Finally the detector gives an anomaly score and determines whether the input is adversarial according to the reconstruction errors. Experiments are conducted on MNIST and CIFAR-10 data-sets. Experimental results show that DAFAR is effective against popular and arguably most advanced attacks without losing performance on legitimate samples, with high accuracy and universality across attack methods and parameters.
翻訳日:2021-03-12 14:53:06 公開日:2021-03-11
# 単語終末ASRにおける単語レベル信頼度学習

Learning Word-Level Confidence For Subword End-to-End ASR ( http://arxiv.org/abs/2103.06716v1 )

ライセンス: Link先を確認
David Qiu, Qiujia Li, Yanzhang He, Yu Zhang, Bo Li, Liangliang Cao, Rohit Prabhavalkar, Deepti Bhatia, Wei Li, Ke Hu, Tara N. Sainath, Ian McGraw(参考訳) 自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。 先行研究は、asrシステムの補助信頼モデルを訓練することを提案したが、単語ピース(wp)を語彙として運用するシステムに自然に拡張するものではない。 特に、信頼モデルのトレーニングには、根拠真理 wp の正確性ラベルが必要であるが、word から wp への非単調なトークン化は、不正確なラベルを生成する。 本稿では,この問題を解くために複雑化する2つの信頼モデルを提案し,検討する。 最終モデルは、単語のトークン化を必要とせずに単語レベルの信頼を直接学習するために自己注意を使用し、複数の仮説から完全なコンテキスト特徴を活用して、信頼度を向上させる。 音声検索とロングテールテストセットの実験では、標準メトリクス(例えば、NCE、AUC、RMSE)が大幅に改善されている。 提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。

We study the problem of word-level confidence estimation in subword-based end-to-end (E2E) models for automatic speech recognition (ASR). Although prior works have proposed training auxiliary confidence models for ASR systems, they do not extend naturally to systems that operate on word-pieces (WP) as their vocabulary. In particular, ground truth WP correctness labels are needed for training confidence models, but the non-unique tokenization from word to WP causes inaccurate labels to be generated. This paper proposes and studies two confidence models of increasing complexity to solve this problem. The final model uses self-attention to directly learn word-level confidence without needing subword tokenization, and exploits full context features from multiple hypotheses to improve confidence accuracy. Experiments on Voice Search and long-tail test sets show standard metrics (e.g., NCE, AUC, RMSE) improving substantially. The proposed confidence module also enables a model selection approach to combine an on-device E2E model with a hybrid model on the server to address the rare word recognition problem for the E2E model.
翻訳日:2021-03-12 14:52:45 公開日:2021-03-11
# 逆レーザービーム:リンク内のDNNに対する効果的な物理世界攻撃

Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink ( http://arxiv.org/abs/2103.06504v1 )

ライセンス: Link先を確認
Ranjie Duan, Xiaofeng Mao, A. K. Qin, Yun Yang, Yuefeng Chen, Shaokai Ye, Yuan He(参考訳) 特定の光条件下ではディープニューラルネットワーク(DNN)の性能が劣化することが知られているが、現実のシナリオでは、DNNの敵攻撃者として物理源から放出される光の脅威についての研究は存在しない。 本研究では、単にDNNが容易にだまされるレーザー光線を用いて示します。 そこで,本研究では,レーザービームの物理的パラメータを操作して逆攻撃を行う,adversarial laser beam (advlb$)と呼ばれる新しい攻撃手法を提案する。 デジタルおよび物理設定の両方において提案手法の有効性を示す実験を行った。 さらに評価結果を実証的に分析し,提案したレーザビーム攻撃が,最先端のDNNの予測誤差に繋がる可能性があることを明らかにした。 提案した$AdvLB$メソッドは、現在の敵攻撃のファミリーを強化し、将来の光に対する堅牢性研究の基盤を構築する。

Though it is well known that the performance of deep neural networks (DNNs) degrades under certain light conditions, there exists no study on the threats of light beams emitted from some physical source as adversarial attacker on DNNs in a real-world scenario. In this work, we show by simply using a laser beam that DNNs are easily fooled. To this end, we propose a novel attack method called Adversarial Laser Beam ($AdvLB$), which enables manipulation of laser beam's physical parameters to perform adversarial attack. Experiments demonstrate the effectiveness of our proposed approach in both digital- and physical-settings. We further empirically analyze the evaluation results and reveal that the proposed laser beam attack may lead to some interesting prediction errors of the state-of-the-art DNNs. We envisage that the proposed $AdvLB$ method enriches the current family of adversarial attacks and builds the foundation for future robustness studies for light.
翻訳日:2021-03-12 14:52:24 公開日:2021-03-11
# 深層学習パラメータ最適化のためのmemristive stochastic computing

Memristive Stochastic Computing for Deep Learning Parameter Optimization ( http://arxiv.org/abs/2103.06506v1 )

ライセンス: Link先を確認
Corey Lammie, Jason K. Eshraghian, Wei D. Lu, Mostafa Rahimi Azghadi(参考訳) Stochastic Computing (SC) は、確率ビットストリームとデジタル論理を用いた様々な演算の低コストで低消費電力の計算を可能にする計算パラダイムである。 バイナリ領域内で使われる従来の表現スキームとは対照的に、確率領域内のビットストリームのシーケンスは不連続であり、計算は通常非決定的である。 本稿では,確率的導電性ブリッジRAM(CBRAM)装置のスイッチング時の確率性を利用して,確率的ビットストリームを効率よく生成し,Deep Learning(DL)パラメータ最適化を行い,乗算および累積(MAC)ユニットのサイズを5桁に削減する。 40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャが1.55mm$^2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$\mu$Wを消費し、精度の大幅な低下を観察しないことを実証した。

Stochastic Computing (SC) is a computing paradigm that allows for the low-cost and low-power computation of various arithmetic operations using stochastic bit streams and digital logic. In contrast to conventional representation schemes used within the binary domain, the sequence of bit streams in the stochastic domain is inconsequential, and computation is usually non-deterministic. In this brief, we exploit the stochasticity during switching of probabilistic Conductive Bridging RAM (CBRAM) devices to efficiently generate stochastic bit streams in order to perform Deep Learning (DL) parameter optimization, reducing the size of Multiply and Accumulate (MAC) units by 5 orders of magnitude. We demonstrate that in using a 40-nm Complementary Metal Oxide Semiconductor (CMOS) process our scalable architecture occupies 1.55mm$^2$ and consumes approximately 167$\mu$W when optimizing parameters of a Convolutional Neural Network (CNN) while it is being trained for a character recognition task, observing no notable reduction in accuracy post-training.
翻訳日:2021-03-12 14:52:07 公開日:2021-03-11
# sar-u-net:swish-and- excitation block and atrous spatial pyramid pooling based residual u-net for automatic liver ct segmentation

SAR-U-Net: squeeze-and-excitati on block and atrous spatial pyramid pooling based residual U-Net for automatic liver CT segmentation ( http://arxiv.org/abs/2103.06419v1 )

ライセンス: Link先を確認
Jinke Wang, Peiqing Lv, Haiying Wang, Changfa Shi(参考訳) 本論文では,Squeeze-and-Excitat ion (SE)ブロック,Atrous Spatial Pyramid Pooling (ASPP)ブロック,および残存学習の手法を正確かつ堅牢な肝CTセグメント化に活用する修正U-Netベースのフレームワークを発表し,提案手法の有効性を2つの公開データセットLiTS17とSLiver07で検証した。 メソッド: SAR-U-Netと呼ばれる新しいネットワークアーキテクチャが設計された。 まず、U-Netエンコーダ内の各畳み込み後の画像特徴を適応的に抽出するSEブロックを導入し、無関係な領域を抑制し、特定のセグメンテーションタスクの特徴を強調し、次に、ASPPを使用して遷移層と出力層を置き換え、異なる受容フィールドを介してマルチスケール画像情報を取得する。 第3に, 劣化問題を解決するため, 従来の畳み込みブロックを残差ブロックに置き換えることにより, ネットワークの精度が大幅に向上した。 結果: LiTS17実験では, Dice, VOE, RVD, ASD, MSDの平均値は95.71, 9.52, -0.84, 1.54, 29.14であった。 関連する他の2dモデルと比較すると,提案手法が最も精度が高かった。 SLiver07の実験では、Dice, VOE, RVD, ASD, MSDの平均値はそれぞれ97.31, 5.37, -1.08, 1.85, 27.45であった。 他の密接なモデルと比較して,提案手法はRVDを除いて高いセグメンテーション精度を達成した。 結論: 提案モデルにより, 2dモデルと比較して精度が大幅に向上すると同時に, 小型肝領域, 不連続肝領域, ファジィ肝境界などの課題を回避する上での頑健性も実証され, 検証されている。

Background and objective: In this paper, a modified U-Net based framework is presented, which leverages techniques from Squeeze-and-Excitati on (SE) block, Atrous Spatial Pyramid Pooling (ASPP) and residual learning for accurate and robust liver CT segmentation, and the effectiveness of the proposed method was tested on two public datasets LiTS17 and SLiver07. Methods: A new network architecture called SAR-U-Net was designed. Firstly, the SE block is introduced to adaptively extract image features after each convolution in the U-Net encoder, while suppressing irrelevant regions, and highlighting features of specific segmentation task; Secondly, ASPP was employed to replace the transition layer and the output layer, and acquire multi-scale image information via different receptive fields. Thirdly, to alleviate the degradation problem, the traditional convolution block was replaced with the residual block and thus prompt the network to gain accuracy from considerably increased depth. Results: In the LiTS17 experiment, the mean values of Dice, VOE, RVD, ASD and MSD were 95.71, 9.52, -0.84, 1.54 and 29.14, respectively. Compared with other closely related 2D-based models, the proposed method achieved the highest accuracy. In the experiment of the SLiver07, the mean values of Dice, VOE, RVD, ASD and MSD were 97.31, 5.37, -1.08, 1.85 and 27.45, respectively. Compared with other closely related models, the proposed method achieved the highest segmentation accuracy except for the RVD. Conclusion: The proposed model enables a great improvement on the accuracy compared to 2D-based models, and its robustness in circumvent challenging problems, such as small liver regions, discontinuous liver regions, and fuzzy liver boundaries, is also well demonstrated and validated.
翻訳日:2021-03-12 14:51:16 公開日:2021-03-11
# 医用画像分類のための教師なし深層学習フレームワーク

An unsupervised deep learning framework for medical image denoising ( http://arxiv.org/abs/2103.06575v1 )

ライセンス: Link先を確認
Swati Rai, Jignesh S. Bhatt, and S. K. Patra(参考訳) 医療画像取得は、しばしば情報内容を汚す不要なノイズによって妨げられます。 本稿では,利用可能な画像から雑音特性を学習し,消音画像を構築する非監視医療画像消音技術について紹介する。 ノイズを直接学習するノイズと残留学習(RL)を間接的に学習する2ブロックのデータ処理、viz.、パッチベースの辞書で構成されている。 このモデルは、異なる医療用イメージング機器を考慮に入れた2Dおよび3D画像の両方を考慮するために一般化される。 画像はMRI/CT画像のスタックから1対1と見なされ、スタック全体も考慮され、重複する画像/ボリュームパッチに分解される。 これらのパッチはパッチベースの辞書学習に与えられ、RL部に与えられてノイズ特性を直接学習しながらスパース表現を介してノイズ特性を学習する。 疎表現のためのK-SVDアルゴリズムは、パッチに基づく辞書の訓練に用いられる。 一方、パッチの残留物は提案された深部残留物ネットワークを使用して訓練される。 これら2つの部分を繰り返して、各画像/ボリュームパッチの最適なノイズ特徴を捕捉し、利用可能な各画像/ボリュームパッチから減算する。 得られた復号画像/ボリュームパッチを最終的に復号画像または3Dスタックに組み立てる。 提案したアプローチを他のアプローチで分析します。 MRI/CTデータセットの実験はGPUベースのスーパーコンピュータ上で行われ、比較結果は、提案アルゴリズムが画像の臨界情報を保存し、画像の視覚的品質を向上することを示している。

Medical image acquisition is often intervented by unwanted noise that corrupts the information content. This paper introduces an unsupervised medical image denoising technique that learns noise characteristics from the available images and constructs denoised images. It comprises of two blocks of data processing, viz., patch-based dictionaries that indirectly learn the noise and residual learning (RL) that directly learns the noise. The model is generalized to account for both 2D and 3D images considering different medical imaging instruments. The images are considered one-by-one from the stack of MRI/CT images as well as the entire stack is considered, and decomposed into overlapping image/volume patches. These patches are given to the patch-based dictionary learning to learn noise characteristics via sparse representation while given to the RL part to directly learn the noise properties. K-singular value decomposition (K-SVD) algorithm for sparse representation is used for training patch-based dictionaries. On the other hand, residue in the patches is trained using the proposed deep residue network. Iterating on these two parts, an optimum noise characterization for each image/volume patch is captured and in turn it is subtracted from the available respective image/volume patch. The obtained denoised image/volume patches are finally assembled to a denoised image or 3D stack. We provide an analysis of the proposed approach with other approaches. Experiments on MRI/CT datasets are run on a GPU-based supercomputer and the comparative results show that the proposed algorithm preserves the critical information in the images as well as improves the visual quality of the images.
翻訳日:2021-03-12 14:50:39 公開日:2021-03-11
# Covariate-assisted Sparse Tensor Completion

Covariate-assisted Sparse Tensor Completion ( http://arxiv.org/abs/2103.06428v1 )

ライセンス: Link先を確認
Hilda S Ibriga and Will Wei Sun(参考訳) 我々は,テンソルモードに沿った共変量情報の存在下で,スパーステンソルを確実に完成することを目指している。 私たちの動機は、さまざまなデバイス上の広告のクリックスルーレート(CTR)が約96%のエントリが欠落し、非欠落エントリに多くのゼロを持っているCTRテンソルを形成するオンライン広告から来ており、スタンドアロンテンソル補完方法は満足できません。 CTRテンソル以外にも、追加の広告機能やユーザー特性がしばしば利用可能です。 本稿では,スパーステンソルの回復のための共変情報を取り入れる共変助スパーステンソル補完(COSTCO)を提案する。 鍵となるアイデアは、テンソルと共変量行列の両方から潜在成分を共同抽出して合成表現を学ぶことである。 理論的には、復元されたテンソル成分の誤差を導出し、共変量による開示確率条件とテンソル回復精度の両方の改善を明示的に定量化する。 最後に、CTRテンソルとアド共変行列からなる広告データセットにCOSTCOを適用し、ベースライン上の23%の精度向上を実現します。 重要な副産物は、COSTCOの広告潜在コンポーネントは、より良い広告ターゲティングに役立つ興味深い広告クラスタを明らかにすることです。

We aim to provably complete a sparse and highly-missing tensor in the presence of covariate information along tensor modes. Our motivation comes from online advertising where users click-through-rates (CTR) on ads over various devices form a CTR tensor that has about 96% missing entries and has many zeros on non-missing entries, which makes the standalone tensor completion method unsatisfactory. Beside the CTR tensor, additional ad features or user characteristics are often available. In this paper, we propose Covariate-assisted Sparse Tensor Completion (COSTCO) to incorporate covariate information for the recovery of the sparse tensor. The key idea is to jointly extract latent components from both the tensor and the covariate matrix to learn a synthetic representation. Theoretically, we derive the error bound for the recovered tensor components and explicitly quantify the improvements on both the reveal probability condition and the tensor recovery accuracy due to covariates. Finally, we apply COSTCO to an advertisement dataset consisting of a CTR tensor and ad covariate matrix, leading to 23% accuracy improvement over the baseline. An important by-product is that ad latent components from COSTCO reveal interesting ad clusters, which are useful for better ad targeting.
翻訳日:2021-03-12 14:50:15 公開日:2021-03-11
# 理解型質問文読解のための会話応答生成とファクタリティ

Conversational Answer Generation and Factuality for Reading Comprehension Question-Answering ( http://arxiv.org/abs/2103.06500v1 )

ライセンス: Link先を確認
Stan Peshterliev, Barlas Oguz, Debojeet Chatterjee, Hakan Inan, Vikas Bhardwaj(参考訳) 質問応答(QA)は音声アシスタントにとって重要なユースケースである。 QAに対する一般的なアプローチは、テキストの文節に回答が散在するのを見つける抽出読解(RC)である。 しかし、抽出的な答えは、会話の文脈ではしばしば不自然であり、最適なユーザーエクスペリエンスをもたらす。 本研究では,QAにおける会話応答生成について検討する。 マルチパスからの回答生成とパッセージランキングと回答性を組み合わせた,エンドツーエンドのジェネラティブRCモデルであるAquillBARTを提案する。 さらに、生成RCを適用する際のハードルは、答えが実際には通過テキストと矛盾する幻覚である。 我々は最近の成果を要約から活用して事実性を評価する。 実験の結果、AnswerBARTはMS MARCO 2.1 NLGENを2.5ROUGE-L、NarrativeQAを9.4ROUGE-Lで改善した。

Question answering (QA) is an important use case on voice assistants. A popular approach to QA is extractive reading comprehension (RC) which finds an answer span in a text passage. However, extractive answers are often unnatural in a conversational context which results in suboptimal user experience. In this work, we investigate conversational answer generation for QA. We propose AnswerBART, an end-to-end generative RC model which combines answer generation from multiple passages with passage ranking and answerability. Moreover, a hurdle in applying generative RC are hallucinations where the answer is factually inconsistent with the passage text. We leverage recent work from summarization to evaluate factuality. Experiments show that AnswerBART significantly improves over previous best published results on MS MARCO 2.1 NLGEN by 2.5 ROUGE-L and NarrativeQA by 9.4 ROUGE-L.
翻訳日:2021-03-12 14:48:48 公開日:2021-03-11
# ASAP: カテゴリの感情分析とレーティング予測に関する中国のレビューデータセット

ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction ( http://arxiv.org/abs/2103.06605v1 )

ライセンス: Link先を確認
Jiahao Bu, Lei Ren, Shuang Zheng, Yang Yang, Jingang Wang, Fuzheng Zhang, Wei Wu(参考訳) 感情分析はeコマースで注目を集めている。 ユーザーレビューの根底にある感情極性は、ビジネスインテリジェンスにとって大きな価値です。 アスペクトカテゴリ感情分析(ACSA)とレビューレーティング予測(RP)は、きめ細やかな感情極性を検出するための2つの重要なタスクです。 %アスペクト(ACSA)と全体レビュー評価(RP)の感情を考慮すると、同時に全体的なパフォーマンスを向上させる可能性があります。 ACSAとRPは高い相関関係にあり、現実のeコマースのシナリオで通常共同で使用される。 ほとんどの公開データセットはACSAとRPのために別々に構築されているが、両方のタスクのさらなる利用を制限する可能性がある。 問題と研究の進展に対処するため、中国の大手オンライン・ツー・オフライン(O2O)電子商取引プラットフォームからの本格的なレビュー46,730ドルを含む大規模な中国レストランレビューデータセット \textbf{ASAP}を提示します。 5ドルの星スケールのレーティングに加えて、各レビューは18ドルの事前定義されたアスペクトカテゴリに対する感情の極性に応じて手動で注釈付けされる。 データセットのリリースが感情分析の分野に光を当ててくれることを願っています。 さらに,ACSAとRPの直感的かつ効果的な関節モデルを提案する。 実験の結果,ジョイントモデルが両タスクの最先端ベースラインを上回ることがわかった。

Sentiment analysis has attracted increasing attention in e-commerce. The sentiment polarities underlying user reviews are of great value for business intelligence. Aspect category sentiment analysis (ACSA) and review rating prediction (RP) are two essential tasks to detect the fine-to-coarse sentiment polarities. %Considering the sentiment of the aspects(ACSA) and the overall review rating(RP) simultaneously has the potential to improve the overall performance. ACSA and RP are highly correlated and usually employed jointly in real-world e-commerce scenarios. While most public datasets are constructed for ACSA and RP separately, which may limit the further exploitation of both tasks. To address the problem and advance related researches, we present a large-scale Chinese restaurant review dataset \textbf{ASAP} including $46,730$ genuine reviews from a leading online-to-offline (O2O) e-commerce platform in China. Besides a $5$-star scale rating, each review is manually annotated according to its sentiment polarities towards $18$ pre-defined aspect categories. We hope the release of the dataset could shed some light on the fields of sentiment analysis. Moreover, we propose an intuitive yet effective joint model for ACSA and RP. Experimental results demonstrate that the joint model outperforms state-of-the-art baselines on both tasks.
翻訳日:2021-03-12 14:48:31 公開日:2021-03-11
# アラビア語プリトレーニング言語モデルにおけるバリアント、サイズ、タスクタイプの相互作用

The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models ( http://arxiv.org/abs/2103.06678v1 )

ライセンス: Link先を確認
Go Inoue, Bashar Alhafni, Nurpeiis Baimukan, Houda Bouamor, Nizar Habash(参考訳) 本稿では、アラビア語事前学習言語モデルにおける言語変種、データサイズ、微調整タスクタイプの影響について検討する。 そのために、現代標準アラビア語(MSA)、方言アラビア語、および古典的なアラビア語の3つの変種にまたがる3つの前訓練された言語モデルを構築します。 また、MSAのスケールダウンセットで事前学習された追加モデルを構築することにより、事前学習データサイズの重要性についても検討する。 私たちは12のデータセットにまたがる5つのnlpタスクを微調整することで、異なるモデルと8つのパブリックなモデルを比較しました。 その結果,事前学習データと微調整データとの類似性は,事前学習データサイズよりも重要であることが示唆された。 この知見を生かして,学習タスクに最適化されたシステム選択モデルを定義する。

In this paper, we explore the effects of language variants, data sizes, and fine-tuning task types in Arabic pre-trained language models. To do so, we build three pre-trained language models across three variants of Arabic: Modern Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a fourth language model which is pre-trained on a mix of the three. We also examine the importance of pre-training data size by building additional models that are pre-trained on a scaled-down set of the MSA variant. We compare our different models to each other, as well as to eight publicly available models by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest that the variant proximity of pre-training data to fine-tuning data is more important than the pre-training data size. We exploit this insight in defining an optimized system selection model for the studied tasks.
翻訳日:2021-03-12 14:48:12 公開日:2021-03-11
# 言語間単語埋め込みを用いた多言語ニューラルマシン翻訳における教師なし転送学習

Unsupervised Transfer Learning in Multilingual Neural Machine Translation with Cross-Lingual Word Embeddings ( http://arxiv.org/abs/2103.06689v1 )

ライセンス: Link先を確認
Carlos Mullov and Ngoc-Quan Pham and Alexander Waibel(参考訳) 本研究では,教師なし方式で多言語NMTシステムに新たな言語を追加することを検討する。 事前訓練された言語間単語埋め込みの活用により,言語に依存しない多言語文表現を活用して,新しい言語への一般化を容易にする。 ワード検索に言語間埋め込みを使用する一方で、ブラインドデコードと呼ばれるプロセスで、まだ完全に見えないソース言語からデコードします。 複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。 エンコーダの文表現から新しいターゲット言語へのマッピングをトレーニングするために,我々のモデルはオートエンコーダとして使用される。 エンコーダを凍結しながらポルトガル語からポルトガル語に翻訳する訓練は、英語-ポルトガル語で26 BLEUを達成し、入力に人工ノイズを追加すると28 BLEUまで達成します。 最後に,ノンイテレーティブなバックトランスレーションによるより実用的な適応アプローチを探求し,ブラインドデコードによる高品質な翻訳を実現するモデルの能力を活用する。 これにより、英語とポルトガル語で最大34.6 BLEUが得られ、実際のバイリンガルデータに適応したモデルでほぼ同値となる。

In this work we look into adding a new language to a multilingual NMT system in an unsupervised fashion. Under the utilization of pre-trained cross-lingual word embeddings we seek to exploit a language independent multilingual sentence representation to easily generalize to a new language. While using cross-lingual embeddings for word lookup we decode from a yet entirely unseen source language in a process we call blind decoding. Blindly decoding from Portuguese using a basesystem containing several Romance languages we achieve scores of 36.4 BLEU for Portuguese-English and 12.8 BLEU for Russian-English. In an attempt to train the mapping from the encoder sentence representation to a new target language we use our model as an autoencoder. Merely training to translate from Portuguese to Portuguese while freezing the encoder we achieve 26 BLEU on English-Portuguese, and up to 28 BLEU when adding artificial noise to the input. Lastly we explore a more practical adaptation approach through non-iterative backtranslation, exploiting our model's ability to produce high quality translations through blind decoding. This yields us up to 34.6 BLEU on English-Portuguese, attaining near parity with a model adapted on real bilingual data.
翻訳日:2021-03-12 14:47:55 公開日:2021-03-11
# 語彙置換による多言語機械翻訳の連続学習に向けて

Towards Continual Learning for Multilingual Machine Translation via Vocabulary Substitution ( http://arxiv.org/abs/2103.06799v1 )

ライセンス: Link先を確認
Xavier Garcia, Noah Constant, Ankur P. Parikh, Orhan Firat(参考訳) 本稿では,多言語機械翻訳モデルの言語能力を拡張するための直観的な語彙適応方式を提案し,多言語機械翻訳の効率的な連続学習への道を開く。 提案手法は,大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるのみであり,新しい言語に対してモノリンガルデータしか持たない場合でも,競合性能を提供する。

We propose a straightforward vocabulary adaptation scheme to extend the language capacity of multilingual machine translation models, paving the way towards efficient continual learning for multilingual machine translation. Our approach is suitable for large-scale datasets, applies to distant languages with unseen scripts, incurs only minor degradation on the translation performance for the original language pairs and provides competitive performance even in the case where we only possess monolingual data for the new languages.
翻訳日:2021-03-12 14:47:33 公開日:2021-03-11
# 条件付き,ファジィ,そして自己組織化マップの確率的解釈

A conditional, a fuzzy and a probabilistic interpretation of self-organising maps ( http://arxiv.org/abs/2103.06854v1 )

ライセンス: Link先を確認
Laura Giordano, Valentina Gliozzi, Daniele Theseider Dupr\'e(参考訳) 本稿では,説明論理の優先的意味論と自己組織マップの関係を,カテゴリー一般化の基礎となる心理学的メカニズムを説明するための候補として提案する。 特に、異なる概念に対する嗜好を考慮に入れた概念的マルチ参照セマンティクスが、最近デファジブルな記述論理のために提案され、SOMの論理的解釈を提供するために利用できることを示す。 また、ファジィ記述論理と確率論的な説明の観点から、SOMの論理的解釈も提供します。

In this paper we establish a link between preferential semantics for description logics and self-organising maps, which have been proposed as possible candidates to explain the psychological mechanisms underlying category generalisation. In particular, we show that a concept-wise multipreference semantics, which takes into account preferences with respect to different concepts and has been recently proposed for defeasible description logics, can be used to to provide a logical interpretation of SOMs. We also provide a logical interpretation of SOMs in terms of a fuzzy description logic as well as a probabilistic account.
翻訳日:2021-03-12 14:47:25 公開日:2021-03-11
# Read Like Humans: シーンテキスト認識のための自律的、双方向、反復言語モデリング

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition ( http://arxiv.org/abs/2103.06495v1 )

ライセンス: Link先を確認
Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang(参考訳) 言語知識はシーンのテキスト認識に非常に有益である。 しかし、エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法は研究課題である。 本論文では,1)暗黙的な言語モデル,2)一方向的特徴表現,3)ノイズ入力を伴う言語モデルから,言語モデルの能力が制限されることを論じる。 そこで我々は,シーンテキスト認識のための自律的,双方向かつ反復的なABINetを提案する。 まず、自律型は視覚と言語モデルの間の勾配フローをブロックし、明示的に言語モデリングを強制することを提案します。 次に,双方向特徴表現に基づく言語モデルとして,新たな双方向クローゼネットワーク(bcn)を提案する。 第3に、雑音入力の影響を効果的に緩和できる言語モデルに対する反復的修正の実行方法を提案する。 さらに,反復予測のアンサンブルに基づいて,ラベルのない画像から効果的に学習できる自己学習手法を提案する。 広範な実験は、abinetが低品質の画像に優れていることを示し、いくつかのメインストリームベンチマークで最先端の結果を達成した。 さらに、アンサンブルで訓練されたABINetは、人間レベルの認識を実現するための有望な改善を示している。 コードはhttps://github.com/F angShancheng/ABINetで入手できる。

Linguistic knowledge is of great benefit to scene text recognition. However, how to effectively model linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from: 1) implicitly language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet for scene text recognition. Firstly, the autonomous suggests to block gradient flow between vision and language models to enforce explicitly language modeling. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for language model which can effectively alleviate the impact of noise input. Additionally, based on the ensemble of iterative predictions, we propose a self-training method which can learn from unlabeled images effectively. Extensive experiments indicate that ABINet has superiority on low-quality images and achieves state-of-the-art results on several mainstream benchmarks. Besides, the ABINet trained with ensemble self-training shows promising improvement in realizing human-level recognition. Code is available at https://github.com/F angShancheng/ABINet.
翻訳日:2021-03-12 14:46:55 公開日:2021-03-11
# DualPoseNet:Poseの一貫性を学習したデュアルPoseネットワークを用いたカテゴリレベルの6Dオブジェクトポースとサイズ推定

DualPoseNet: Category-level 6D Object Pose and Size Estimation using Dual Pose Network with Refined Learning of Pose Consistency ( http://arxiv.org/abs/2103.06526v1 )

ライセンス: Link先を確認
Jiehong Lin, Zewei Wei, Zhihao Li, Songcen Xu, Kui Jia, Yuanqing Li(参考訳) カテゴリレベルの6Dオブジェクトポーズとサイズ推定は、9度自由度(9DoF)が回転、翻訳、およびオブジェクトのインスタンスのサイズの構成を予測することです。 2つの追加の回転角を学習することで、以前の関連するタスクを拡張する。 この一見小さな違いは、SO(3)の完全な回転空間における学習と予測のために技術的な課題を引き起こします。 本稿では,この課題に対するポーズ一貫性の学習を洗練し,DualPoseNetと略記したDual Pose Networkの新たな手法を提案する。 dualposenetは、共有ポーズエンコーダの上に2つの並列ポーズデコーダを積み重ねる。暗黙のデコーダは、オブジェクトが明示的なものとは異なる動作メカニズムでポーズを予測し、それによって、ポーズエンコーダのトレーニングに補完的な監督を課す。 球面畳み込みに基づくエンコーダを構築し,外観と形状観察によるポーズ感応的な特徴の埋め込み性を向上させる球面融合モジュールを設計した。 テストcadモデルがないと、2つのデコーダ間の予測ポーズ一貫性を自己適応的損失項を用いて強制することにより、テスト中に洗練されたポーズ予測を可能にする暗黙的デコーダの新規導入となる。 CAMERA25およびREAL275のベンチマーク9DoFオブジェクトのポーズデータセットに関する詳細な実験は、当社の設計の有効性を確認します。 DualPoseNetは、高精度な状態において、既存のメソッドよりも大きなマージンを持つ。

Category-level 6D object pose and size estimation is to predict 9 degrees-of-freedom (9DoF) pose configurations of rotation, translation, and size for object instances observed in single, arbitrary views of cluttered scenes. It extends previous related tasks with learning of the two additional rotation angles. This seemingly small difference poses technical challenges due to the learning and prediction in the full rotation space of SO(3). In this paper, we propose a new method of Dual Pose Network with refined learning of pose consistency for this task, shortened as DualPoseNet. DualPoseNet stacks two parallel pose decoders on top of a shared pose encoder, where the implicit decoder predicts object poses with a working mechanism different from that of the explicit one; they thus impose complementary supervision on the training of pose encoder. We construct the encoder based on spherical convolutions, and design a module of Spherical Fusion wherein for a better embedding of pose-sensitive features from the appearance and shape observations. Given no the testing CAD models, it is the novel introduction of the implicit decoder that enables the refined pose prediction during testing, by enforcing the predicted pose consistency between the two decoders using a self-adaptive loss term. Thorough experiments on the benchmark 9DoF object pose datasets of CAMERA25 and REAL275 confirm efficacy of our designs. DualPoseNet outperforms existing methods with a large margin in the regime of high precision.
翻訳日:2021-03-12 14:46:35 公開日:2021-03-11
# 校正および部分校正半一般ホモグラフィー

Calibrated and Partially Calibrated Semi-Generalized Homographies ( http://arxiv.org/abs/2103.06535v1 )

ライセンス: Link先を確認
Snehal Bhayani, Torsten Sattler, Daniel Barath, Patrik Beliansky, Janne Heikkila and Zuzana Kukelova(参考訳) 本稿では,視点と一般化カメラから半一般化ホモグラフィを推定する最初の極小解を提案する。 提案手法では,シーンプレーンによって誘導される5つの2D-2D画像ポイント対応を用いる。 そのうちの1つはパースペクティブカメラを完全な校正と仮定し、もう1つは未知の焦点距離と絶対ポーズパラメータを推定する。 この設定は、既知のカメラのセットに対して、新しいカメラが各ステップにローカライズされ、2d-3d対応が利用できないような、構造からの移動とイメージベースのローカライズパイプラインにおいて特に重要である。 巧妙なパラメトリゼーションと除去理想的な方法の結果として、我々のアプローチは次数 5 または 3 の単変数多項式を解くだけでよい。 提案した解法は、多くの合成および実世界の実験で実証されたように安定かつ効率的である。

In this paper, we propose the first minimal solutions for estimating the semi-generalized homography given a perspective and a generalized camera. The proposed solvers use five 2D-2D image point correspondences induced by a scene plane. One of them assumes the perspective camera to be fully calibrated, while the other solver estimates the unknown focal length together with the absolute pose parameters. This setup is particularly important in structure-from-motio n and image-based localization pipelines, where a new camera is localized in each step with respect to a set of known cameras and 2D-3D correspondences might not be available. As a consequence of a clever parametrization and the elimination ideal method, our approach only needs to solve a univariate polynomial of degree five or three. The proposed solvers are stable and efficient as demonstrated by a number of synthetic and real-world experiments.
翻訳日:2021-03-12 14:46:08 公開日:2021-03-11
# PrePRINT: マイニングシミュレーションデータのためのディープラーニングと手作業の機能の比較

PREPRINT: Comparison of deep learning and hand crafted features for mining simulation data ( http://arxiv.org/abs/2103.06552v1 )

ライセンス: Link先を確認
Theodoros Georgiou, Sebastian Schmitt, Thomas B\"ack, Nan Pu, Wei Chen, Michael Lew(参考訳) 数値流体力学(CFD)シミュレーションは、自動車形状、航空機部品などの工学設計の空力最適化など、多くの産業用途にとって非常に重要なツールです。 このようなシミュレーションの出力、特に計算された流れ場の出力は通常非常に複雑であり、特に時間依存のシミュレーションが研究される場合、現実的な3次元実世界の応用には解釈が難しい。 自動データ解析手法は保証されるが、データの非常に大きな次元によって非自明な障害が与えられる。 流れ場は典型的には3次元空間と時間(速度ベクトル値、乱流運動エネルギー、圧力、粘性)の計算格子の各点について6つの測定値からなる。 本稿では,このような高次元データセットから有意義な結果を自動抽出するタスクについて述べる。 このようなデータを処理できる深層学習手法を提案し,シミュレーションデータにおける関連する課題を解決するための訓練を行う。 空気翼に作用する抵抗と昇降力を予測すること。 また,同じ問題に対処し,多種多様なディスクリプタと検出器を比較するために,コンピュータビジョンから知られている古典的な手作り特徴の適応を提案する。 最後に,16,000フローフィールドを含む翼まわりの流れ場の2次元シミュレーションの大規模なデータセットをコンパイルし,比較を行った。 本研究では,深層学習に基づく手法と手作業による特徴に基づく手法により,提案データセット上のCFDシミュレーション出力の内容を的確に記述できることを示した。

Computational Fluid Dynamics (CFD) simulations are a very important tool for many industrial applications, such as aerodynamic optimization of engineering designs like cars shapes, airplanes parts etc. The output of such simulations, in particular the calculated flow fields, are usually very complex and hard to interpret for realistic three-dimensional real-world applications, especially if time-dependent simulations are investigated. Automated data analysis methods are warranted but a non-trivial obstacle is given by the very large dimensionality of the data. A flow field typically consists of six measurement values for each point of the computational grid in 3D space and time (velocity vector values, turbulent kinetic energy, pressure and viscosity). In this paper we address the task of extracting meaningful results in an automated manner from such high dimensional data sets. We propose deep learning methods which are capable of processing such data and which can be trained to solve relevant tasks on simulation data, i.e. predicting drag and lift forces applied on an airfoil. We also propose an adaptation of the classical hand crafted features known from computer vision to address the same problem and compare a large variety of descriptors and detectors. Finally, we compile a large dataset of 2D simulations of the flow field around airfoils which contains 16000 flow fields with which we tested and compared approaches. Our results show that the deep learning-based methods, as well as hand crafted feature based approaches, are well-capable to accurately describe the content of the CFD simulation output on the proposed dataset.
翻訳日:2021-03-12 14:45:51 公開日:2021-03-11
# Preprint: Norm Loss: ディープニューラルネットワークの効率的かつ効果的な正規化手法

Preprint: Norm Loss: An efficient yet effective regularization method for deep neural networks ( http://arxiv.org/abs/2103.06583v1 )

ライセンス: Link先を確認
Theodoros Georgiou, Sebastian Schmitt, Thomas B\"ack, Wei Chen, Michael Lew(参考訳) 畳み込みニューラルネットワークトレーニングは、勾配の爆発や消失、スケーリングベースの重み空間対称性、共変シフトなど、さまざまな問題に直面する可能性がある。 これらの問題に対処するため、研究者は重み正規化法とアクティベーション正規化法を開発した。 本研究では斜交多様体に基づく重み付きソフト正則化法を提案する。 提案手法は、各重みベクトルを1に近いノルム(すなわち1)に押し付ける損失関数を用いる。 重み行列はいわゆる斜多様体に向かって滑らかに回転する。 本手法はCIFAR-10, CIFAR-100, ImageNet 2012の2つの最新アーキテクチャであるResNetとワイドResNetを用いて評価した。 提案手法は計算のオーバーヘッドを無視可能とし,その性能が最先端,場合によってはそれよりも優れていることを示す。 さらに、結果はバッチサイズや正規化係数といったハイパーパラメータの設定に対する感度が低い。

Convolutional neural network training can suffer from diverse issues like exploding or vanishing gradients, scaling-based weight space symmetry and covariant-shift. In order to address these issues, researchers develop weight regularization methods and activation normalization methods. In this work we propose a weight soft-regularization method based on the Oblique manifold. The proposed method uses a loss function which pushes each weight vector to have a norm close to one, i.e. the weight matrix is smoothly steered toward the so-called Oblique manifold. We evaluate our method on the very popular CIFAR-10, CIFAR-100 and ImageNet 2012 datasets using two state-of-the-art architectures, namely the ResNet and wide-ResNet. Our method introduces negligible computational overhead and the results show that it is competitive to the state-of-the-art and in some cases superior to it. Additionally, the results are less sensitive to hyperparameter settings such as batch size and regularization factor.
翻訳日:2021-03-12 14:45:24 公開日:2021-03-11
# MagFace: 顔認識と品質評価のためのユニバーサル表現

MagFace: A Universal Representation for Face Recognition and Quality Assessment ( http://arxiv.org/abs/2103.06627v1 )

ライセンス: Link先を確認
Qiang Meng, Shichao Zhao, Zhida Huang, Feng Zhou(参考訳) 顔認識システムの性能は、取得した顔の変動が増加すると低下する。 先行作業は、前処理の顔品質を監視するか、顔機能と一緒にデータの不確実性を予測することにより、この問題を緩和します。 本論文では,与えられた顔の質を測ることができる普遍的特徴埋め込みを学習する損失のカテゴリであるMagFaceを提案する。 新しい損失の下では、主題が認識される可能性が高い場合、単調に埋め込み機能の大きさが増加することが証明できます。 さらに、MagFaceは、ハードサンプルを押しながら、簡単なサンプルをクラスセンターに引っ張ることで、よく構造化されたクラス内機能分布を学ぶための適応メカニズムを導入している。 これにより、ノイズの多い低品質サンプルでのモデルオーバーフィットを防ぎ、野生の顔認識を改善します。 顔認識、品質評価、クラスタリングに関する広範な実験は、最先端のものよりも優位性を示しています。 コードはhttps://github.com/I rvingMeng/MagFace.co mで入手できる。

The performance of face recognition system degrades when the variability of the acquired faces increases. Prior work alleviates this issue by either monitoring the face quality in pre-processing or predicting the data uncertainty along with the face feature. This paper proposes MagFace, a category of losses that learn a universal feature embedding whose magnitude can measure the quality of the given face. Under the new loss, it can be proven that the magnitude of the feature embedding monotonically increases if the subject is more likely to be recognized. In addition, MagFace introduces an adaptive mechanism to learn a wellstructured within-class feature distributions by pulling easy samples to class centers while pushing hard samples away. This prevents models from overfitting on noisy low-quality samples and improves face recognition in the wild. Extensive experiments conducted on face recognition, quality assessments as well as clustering demonstrate its superiority over state-of-the-arts. The code is available at https://github.com/I rvingMeng/MagFace.
翻訳日:2021-03-12 14:45:07 公開日:2021-03-11
# 位置認識のためのシームズネットワークの一般化コントラスト最適化

Generalized Contrastive Optimization of Siamese Networks for Place Recognition ( http://arxiv.org/abs/2103.06638v1 )

ライセンス: Link先を確認
Mar\'ia Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov(参考訳) 視覚位置認識はコンピュータビジョンにおける課題であり、カメラベースのローカライゼーションとナビゲーションシステムの主要なコンポーネントである。 近年,畳み込みニューラルネットワーク(CNN)は高い結果と優れた一般化能力を得た。 それらは通常、二分法で類似または類似とラベル付けされた画像のペアまたは三重項を使って訓練される。 実際には、2つの画像の類似性はバイナリではなく、むしろ連続である。 さらに、これらのcnnの訓練は計算が複雑であり、コストのかかるペアとトリプルトマイニング戦略を伴う。 本稿では,連続的な尺度として画像類似性に依存する一般コントラスト損失(GCL)関数を提案し,それをシアムCNNの訓練に利用する。 さらに,MSLS,TB-Places,7Sce nesデータセットを再アノテーションするために,画像対の自動アノテーションと類似度を示すラベルの3つの手法を提案する。 GCL関数を用いて訓練したシアムCNNと、改良されたアノテーションは、バイナリよりも一貫して優れていたことを実証する。 我々のモデルは、NetVLADを含む最先端の手法よりも優れたMSLSを訓練し、ピッツバーグ、東京TM、東京24/7データセットでよく一般化した。 さらに、GCL関数を用いたシアムネットワークのトレーニングは、複雑なペアマイニングを必要としない。 ソースコードはhttps://github.com/m arialeyvallina/gener alized_contrastive_l ossでリリースします。

Visual place recognition is a challenging task in computer vision and a key component of camera-based localization and navigation systems. Recently, Convolutional Neural Networks (CNNs) achieved high results and good generalization capabilities. They are usually trained using pairs or triplets of images labeled as either similar or dissimilar, in a binary fashion. In practice, the similarity between two images is not binary, but rather continuous. Furthermore, training these CNNs is computationally complex and involves costly pair and triplet mining strategies. We propose a Generalized Contrastive loss (GCL) function that relies on image similarity as a continuous measure, and use it to train a siamese CNN. Furthermore, we propose three techniques for automatic annotation of image pairs with labels indicating their degree of similarity, and deploy them to re-annotate the MSLS, TB-Places, and 7Scenes datasets. We demonstrate that siamese CNNs trained using the GCL function and the improved annotations consistently outperform their binary counterparts. Our models trained on MSLS outperform the state-of-the-art methods, including NetVLAD, and generalize well on the Pittsburgh, TokyoTM and Tokyo 24/7 datasets. Furthermore, training a siamese network using the GCL function does not require complex pair mining. We release the source code at https://github.com/m arialeyvallina/gener alized_contrastive_l oss.
翻訳日:2021-03-12 14:44:50 公開日:2021-03-11
# RGBDセンサデータへのリアルタイム表面適合

Real-Time Surface Fitting to RGBD Sensor Data ( http://arxiv.org/abs/2103.06644v1 )

ライセンス: Link先を確認
John Papadakis, Andrew R. Willis(参考訳) 本稿では,rgbdセンサデータから平面面を迅速に推定する新しい手法について述べる。 このアプローチは、標準的な代数的フィッティング方程式を、カメラキャリブレーション情報から直接、必要な回帰変数の多くを計算できる形式に操作する。 したがって、標準代数曲面の適合によって求められる計算負担の多くを事前計算することができる。 これは、特にRGBDポイントクラウドデータが通常の推定、曲率推定、ポリゴン化または3Dセグメンテーションアプリケーションのために分析されている場合にしばしばである多くの表面適合が行われる場合、大幅な時間とリソースの節約を提供します。 積分画像実装を用いて,提案手法は標準の代数的フィッティングアプローチと比較して有意な性能向上を示した。

This article describes novel approaches to quickly estimate planar surfaces from RGBD sensor data. The approach manipulates the standard algebraic fitting equations into a form that allows many of the needed regression variables to be computed directly from the camera calibration information. As such, much of the computational burden required by a standard algebraic surface fit can be pre-computed. This provides a significant time and resource savings, especially when many surface fits are being performed which is often the case when RGBD point-cloud data is being analyzed for normal estimation, curvature estimation, polygonization or 3D segmentation applications. Using an integral image implementation, the proposed approaches show a significant increase in performance compared to the standard algebraic fitting approaches.
翻訳日:2021-03-12 14:44:27 公開日:2021-03-11
# タイムスタンプからの時間的アクションセグメンテーション

Temporal Action Segmentation from Timestamp Supervision ( http://arxiv.org/abs/2103.06669v1 )

ライセンス: Link先を確認
Zhe Li, Yazan Abu Farha, Juergen Gall(参考訳) テンポラリアクションセグメンテーションアプローチは、最近非常に成功しています。 しかし、そのようなモデルを訓練するためにフレームワイズラベルでビデオに注釈をつけるのは、非常に高価で時間がかかります。 順序付けられたアクションリストのみを使用してトレーニングされた弱い教師付きメソッドは、アノテーションの労力をはるかに少なくするが、完全に監督されたアプローチよりもパフォーマンスはずっと悪い。 本稿では,時間的行動分割タスクのタイムスタンプ管理について紹介する。 タイムスタンプは弱い教師のアプローチに対して同等のアノテーションを必要とするが、より監督的なシグナルを提供する。 タイムスタンプの監視の有効性を示すために,タイムスタンプアノテーションのみを用いてセグメンテーションモデルを訓練する手法を提案する。 提案手法では, モデル出力とアノテーション付きタイムスタンプを用いて, 動作変化を検出してフレームワイズラベルを生成する。 さらに、予測確率がタイムスタンプまでの距離が増加するにつれて単調に減少させる信頼損失を導入する。 これにより、アクションの最も独特なフレームだけでなく、すべてがトレーニング中に学習されることが保証される。 4つのデータセットの評価は、タイムスタンプアノテーションで訓練されたモデルが、完全に監視されたアプローチに匹敵するパフォーマンスを達成することを示している。

Temporal action segmentation approaches have been very successful recently. However, annotating videos with frame-wise labels to train such models is very expensive and time consuming. While weakly supervised methods trained using only ordered action lists require much less annotation effort, the performance is still much worse than fully supervised approaches. In this paper, we introduce timestamp supervision for the temporal action segmentation task. Timestamps require a comparable annotation effort to weakly supervised approaches, and yet provide a more supervisory signal. To demonstrate the effectiveness of timestamp supervision, we propose an approach to train a segmentation model using only timestamps annotations. Our approach uses the model output and the annotated timestamps to generate frame-wise labels by detecting the action changes. We further introduce a confidence loss that forces the predicted probabilities to monotonically decrease as the distance to the timestamps increases. This ensures that all and not only the most distinctive frames of an action are learned during training. The evaluation on four datasets shows that models trained with timestamps annotations achieve comparable performance to the fully supervised approaches.
翻訳日:2021-03-12 14:44:14 公開日:2021-03-11
# ポリップセグメンテーションのための二重文脈関係ネットワーク

Duplex Contextual Relation Network for Polyp Segmentation ( http://arxiv.org/abs/2103.06725v1 )

ライセンス: Link先を確認
Zijin Yin, Kongming Liang, Zhanyu Ma, Jun Guo(参考訳) ポリープ分画は早期大腸癌の診断と治療において極めて重要である。 ポリプの形状、サイズ、色、テクスチャは様々であるため、正確なポリプのセグメンテーションは非常に難しい。 ポリプの多様性を緩和する1つの有望な方法は、アテンション機構などの各ピクセルのコンテキスト関係をモデル化することである。 しかし、従来の手法では、個々の画像内の位置間の依存関係を学習することのみに集中し、異なる画像間のコンテキスト関係を無視する。 本稿では,画像内のコンテキスト関係と画像間のコンテキスト関係の両方をキャプチャする二重文脈関係ネットワーク(dcrnet)を提案する。 具体的には、まず内部文脈関係モジュールを設計し、各位置と同一画像内のすべての位置との類似性を推定する。 次に、外部の文脈関連モジュールを組み込んで、異なる画像間の各位置と位置の類似度を推定する。 上記の2種類の類似性に基づき、画像内および画像間のコンテキスト領域埋め込みにより、1つの位置における特徴をさらに強化することができる。 すべての画像から埋め込まれた特徴領域を保存するため、メモリバンクはキューとして設計・運用される。 そこで,提案手法では,異なる画像からでも類似した特徴を関連付けることができる。 提案手法をEndoScene, Kvasir-SEG, 最近リリースされた大規模PICCOLOデータセット上で評価した。 実験の結果,提案したDCRNetは,広く利用されている評価指標で最先端の手法よりも優れていた。

Polyp segmentation is of great importance in the early diagnosis and treatment of colorectal cancer. Since polyps vary in their shape, size, color, and texture, accurate polyp segmentation is very challenging. One promising way to mitigate the diversity of polyps is to model the contextual relation for each pixel such as using attention mechanism. However, previous methods only focus on learning the dependencies between the position within an individual image and ignore the contextual relation across different images. In this paper, we propose Duplex Contextual Relation Network (DCRNet) to capture both within-image and cross-image contextual relations. Specifically, we first design Interior Contextual-Relation Module to estimate the similarity between each position and all the positions within the same image. Then Exterior Contextual-Relation Module is incorporated to estimate the similarity between each position and the positions across different images. Based on the above two types of similarity, the feature at one position can be further enhanced by the contextual region embedding within and across images. To store the characteristic region embedding from all the images, a memory bank is designed and operates as a queue. Therefore, the proposed method can relate similar features even though they come from different images. We evaluate the proposed method on the EndoScene, Kvasir-SEG and the recently released large-scale PICCOLO dataset. Experimental results show that the proposed DCRNet outperforms the state-of-the-art methods in terms of the widely-used evaluation metrics.
翻訳日:2021-03-12 14:43:54 公開日:2021-03-11
# ChallenCap: マルチモーダル参照を用いた人間的パフォーマンスの単眼3Dキャプチャ

ChallenCap: Monocular 3D Capture of Challenging Human Performances using Multi-Modal References ( http://arxiv.org/abs/2103.06747v1 )

ライセンス: Link先を確認
Yannan He, Anqi Pang, Xin Chen, Han Liang, Minye Wu, Yuexin Ma, Lan Xu(参考訳) 挑戦的な人間の動きを捉えることは、多くの応用に不可欠であるが、複雑な動きパターンや、単眼環境下での激しい自己隔離に苦しむ。 本論文では,マルチモーダルレファレンスを用いて,単一のRGBカメラを用いた3Dヒューマンモーションを新しい学習・最適化フレームワークでキャプチャするテンプレートベースのアプローチであるChallenCapを提案する。 時間的エンコーダデコーダを用いてペアワイズスパースビュー参照から動作詳細を抽出するジェネレーションネットワークを備えたハイブリッドモーション推論ステージと、無対のマーカーベースの参照を利用して、データ駆動方式で特定の挑戦的な動作特性を抽出するモーション識別装置を提案する。 さらに、教師付きマルチモーダル参照からの学習された動き詳細と入力画像参照からの信頼できる動きヒントを併用し、トラッキング精度を向上させるためのロバストな動き最適化ステージを採用する。 我々の新しい挑戦運動データセットに関する大規模な実験は、挑戦する人間の動きを捉えるアプローチの有効性と堅牢性を示している。

Capturing challenging human motions is critical for numerous applications, but it suffers from complex motion patterns and severe self-occlusion under the monocular setting. In this paper, we propose ChallenCap -- a template-based approach to capture challenging 3D human motions using a single RGB camera in a novel learning-and-optimiz ation framework, with the aid of multi-modal references. We propose a hybrid motion inference stage with a generation network, which utilizes a temporal encoder-decoder to extract the motion details from the pair-wise sparse-view reference, as well as a motion discriminator to utilize the unpaired marker-based references to extract specific challenging motion characteristics in a data-driven manner. We further adopt a robust motion optimization stage to increase the tracking accuracy, by jointly utilizing the learned motion details from the supervised multi-modal references as well as the reliable motion hints from the input image reference. Extensive experiments on our new challenging motion dataset demonstrate the effectiveness and robustness of our approach to capture challenging human motions.
翻訳日:2021-03-12 14:43:31 公開日:2021-03-11
# 地球に降りる:衛星からストリートビューへの地殻変動の合成

Coming Down to Earth: Satellite-to-Street View Synthesis for Geo-Localization ( http://arxiv.org/abs/2103.06818v1 )

ライセンス: Link先を確認
Aysim Toker, Qunjie Zhou, Maxim Maximov and Laura Leal-Taix\'e(参考訳) クロスビュー画像に基づくジオローカライゼーションの目的は、ジオタグ付き衛星画像の集合とマッチングすることで、所定のストリートビュー画像の位置を決定することである。 この課題は、両ドメイン間の劇的な視点と外見の違いから、非常に難しい。 衛星入力からリアルなストリートビューを合成することで,この不一致を明示的に解決できることを示す。 そこで本研究では,画像合成と検索を共同で検討する,新しいマルチタスクアーキテクチャを提案する。 この背景にある根拠は、2つの入力領域にまたがって画像を生成するのに使用すれば、検索に有用な潜在的な特徴表現を学習するためにネットワークをバイアスできるということです。 私たちの知る限りでは、衛星画像から現実的なストリートビューを作成し、対応するクエリストリートビューをエンドツーエンドで同時にローカライズする最初のアプローチです。 本実験では,CVUSAおよびCVACTベンチマークの最先端性能について検討した。 最後に,衛星・ストリートビュー合成の質的な結果を示す。

The goal of cross-view image based geo-localization is to determine the location of a given street view image by matching it against a collection of geo-tagged satellite images. This task is notoriously challenging due to the drastic viewpoint and appearance differences between the two domains. We show that we can address this discrepancy explicitly by learning to synthesize realistic street views from satellite inputs. Following this observation, we propose a novel multi-task architecture in which image synthesis and retrieval are considered jointly. The rationale behind this is that we can bias our network to learn latent feature representations that are useful for retrieval if we utilize them to generate images across the two input domains. To the best of our knowledge, ours is the first approach that creates realistic street views from satellite images and localizes the corresponding query street-view simultaneously in an end-to-end manner. In our experiments, we obtain state-of-the-art performance on the CVUSA and CVACT benchmarks. Finally, we show compelling qualitative results for satellite-to-street view synthesis.
翻訳日:2021-03-12 14:43:10 公開日:2021-03-11
# SMPLicit: 衣服のトポロジーを意識した生成モデル

SMPLicit: Topology-aware Generative Model for Clothed People ( http://arxiv.org/abs/2103.06871v1 )

ライセンス: Link先を確認
Enric Corona, Albert Pumarola, Guillem Aleny\`a, Gerard Pons-Moll, Francesc Moreno-Noguer(参考訳) 本稿では,身体のポーズ,形状,衣服の形状を共同で表現する新しい生成モデルであるSMPLicitを紹介する。 SMPLicitは、各種類の衣服の特定のモデルを訓練する必要がある既存の学習ベースのアプローチとは対照的に、統一された方法で異なる衣服トポロジ(例えば、SMPLicit)を表現できる。 スリーブレストップからパーカー、オープンジャケットまで)、衣服のサイズやタイトさ/緩みなどの他の特性を制御しながら。 本モデルは,tシャツ,パーカー,ジャケット,ショートパンツ,パンツ,スカート,靴,さらには髪まで,多種多様な衣服に適用できることを示す。 SMPLicitの表現の柔軟性は、SMPLの人体パラメータと、服の属性にセマンティックに解釈可能で整合した学習可能な潜在空間を条件とした暗黙のモデルに基づいている。 提案モデルは完全に差別化可能であり、より大きなエンドツーエンドのトレーニング可能なシステムへの使用を可能にする。 実験では,3dスキャンの装着や,服装者の画像の3d再構成にsmplicitが容易に利用できることを示す。 いずれの場合も、複雑な衣料品のジオメトリを検索し、複数の衣料品層で状況を処理し、簡単に衣料品の編集ができるツールを提供することで、最先端を越えられる。 この方向のさらなる研究を促進するため、コードとモデルをhttp://www.iri.upc.e du/people/ecorona/sm plicit/で公開します。

In this paper we introduce SMPLicit, a novel generative model to jointly represent body pose, shape and clothing geometry. In contrast to existing learning-based approaches that require training specific models for each type of garment, SMPLicit can represent in a unified manner different garment topologies (e.g. from sleeveless tops to hoodies and to open jackets), while controlling other properties like the garment size or tightness/looseness. We show our model to be applicable to a large variety of garments including T-shirts, hoodies, jackets, shorts, pants, skirts, shoes and even hair. The representation flexibility of SMPLicit builds upon an implicit model conditioned with the SMPL human body parameters and a learnable latent space which is semantically interpretable and aligned with the clothing attributes. The proposed model is fully differentiable, allowing for its use into larger end-to-end trainable systems. In the experimental section, we demonstrate SMPLicit can be readily used for fitting 3D scans and for 3D reconstruction in images of dressed people. In both cases we are able to go beyond state of the art, by retrieving complex garment geometries, handling situations with multiple clothing layers and providing a tool for easy outfit editing. To stimulate further research in this direction, we will make our code and model publicly available at http://www.iri.upc.e du/people/ecorona/sm plicit/.
翻訳日:2021-03-12 14:42:56 公開日:2021-03-11
# グラフニューラルネットワークは機能、エッジ、あるいは両方を使うべきか?

Should Graph Neural Networks Use Features, Edges, Or Both? ( http://arxiv.org/abs/2103.06857v1 )

ライセンス: Link先を確認
Lukas Faber and Yifan Lu and Roger Wattenhofer(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ上でアルゴリズムを学習する最初の選択肢である。 GNNは(i)ノード機能と(ii)エッジ情報をエンドツーエンドの学習アルゴリズムに統合することを約束する。 この約束は実際どのように機能するのか? 本稿では,グラフ分類問題の解決に必要な拡張GNNについて検討する。 グラフ分類において、GNN は部分の和以上のものではないことが分かりました。 また、機能とは異なり、エッジのみのモデルによる予測は必ずしもgnnに転送されないことも分かりました。

Graph Neural Networks (GNNs) are the first choice for learning algorithms on graph data. GNNs promise to integrate (i) node features as well as (ii) edge information in an end-to-end learning algorithm. How does this promise work out practically? In this paper, we study to what extend GNNs are necessary to solve prominent graph classification problems. We find that for graph classification, a GNN is not more than the sum of its parts. We also find that, unlike features, predictions with an edge-only model do not always transfer to GNNs.
翻訳日:2021-03-12 14:41:05 公開日:2021-03-11
# 部分分離データによる学習

Learning with partially separable data ( http://arxiv.org/abs/2103.06869v1 )

ライセンス: Link先を確認
Aida Khozaei, Hadi Moradi and Reshad Hosseini(参考訳) 分類タスクを非常に難しくする部分的な分離可能なデータタイプがあります。 言い換えれば、データの一部だけが情報的な意味であり、残りのデータを見ることは、分類のための区別可能なヒントを与えない。 この状況では、分類のための情報単位セットとしてラベル付きデータ全体を持つという典型的な仮定は機能しない。 したがって、上記の仮定による典型的な分類法はそのような状況では失敗する。 本研究では,典型的手法では分類できない部分分離型データ型を分類するためのフレームワークを提案する。 このフレームワークに基づくアルゴリズムは、反復クラスタリングアプローチを用いてデータの分離可能な部分群を検出しようとするものである。 そして、検出されたサブグループを分類プロセスで使用する。 提案手法は,自閉症スクリーニングのための実際のデータセット上でテストされ,自閉症児と正常児を区別する能力を示した。

There are partially separable data types that make classification tasks very hard. In other words, only parts of the data are informative meaning that looking at the rest of the data would not give any distinguishable hint for classification. In this situation, the typical assumption of having the whole labeled data as an informative unit set for classification does not work. Consequently, typical classification methods with the mentioned assumption fail in such a situation. In this study, we propose a framework for the classification of partially separable data types that are not classifiable using typical methods. An algorithm based on the framework is proposed that tries to detect separable subgroups of the data using an iterative clustering approach. Then the detected subgroups are used in the classification process. The proposed approach was tested on a real dataset for autism screening and showed its capability by distinguishing children with autism from normal ones, while the other methods failed to do so.
翻訳日:2021-03-12 14:40:57 公開日:2021-03-11
# マルチモーダル情報に基づく空間概念に基づく知識伝達のための階層ベイズモデル

Hierarchical Bayesian Model for the Transfer of Knowledge on Spatial Concepts based on Multimodal Information ( http://arxiv.org/abs/2103.06442v1 )

ライセンス: Link先を確認
Yoshinobu Hagiwara and Keishiro Taguchi and Satoshi Ishibushi and Akira Taniguchi and Tadahiro Taniguchi(参考訳) 本稿では,ロボットが経験豊かな環境から新しい環境へ場所の知識を伝達できる空間概念に基づく階層ベイズモデルを提案する。 空間概念に基づく知識の伝達は、環境に一般化された空間概念のパラメータを事前知識として、各環境において得られた観測に基づいて後続分布の計算過程としてモデル化される。 キッチンなどの一般的な場所における空間知識の一般化性能と、新しい環境における「エマの部屋」などのユニークな場所における空間知識の適応性能を評価する実験を行った。 実験では,画像と位置からの位置情報の予測タスクと位置情報からの位置情報の予測タスクとにおいて,提案手法と従来の手法の精度を比較した。 実験の結果,提案手法は,知識の伝達により,従来の方法よりも位置名や位置の予測精度が高いことが示された。

This paper proposes a hierarchical Bayesian model based on spatial concepts that enables a robot to transfer the knowledge of places from experienced environments to a new environment. The transfer of knowledge based on spatial concepts is modeled as the calculation process of the posterior distribution based on the observations obtained in each environment with the parameters of spatial concepts generalized to environments as prior knowledge. We conducted experiments to evaluate the generalization performance of spatial knowledge for general places such as kitchens and the adaptive performance of spatial knowledge for unique places such as `Emma's room' in a new environment. In the experiments, the accuracies of the proposed method and conventional methods were compared in the prediction task of location names from an image and a position, and the prediction task of positions from a location name. The experimental results demonstrated that the proposed method has a higher prediction accuracy of location names and positions than the conventional method owing to the transfer of knowledge.
翻訳日:2021-03-12 14:40:45 公開日:2021-03-11
# モデルベース強化学習によるユーザインタフェースの適応

Adapting User Interfaces with Model-based Reinforcement Learning ( http://arxiv.org/abs/2103.06807v1 )

ライセンス: Link先を確認
Kashyap Todi, Gilles Bailly, Luis A. Leiva, Antti Oulasvirta(参考訳) インターフェースへの適応には、変更がユーザに与えるポジティブな効果とネガティブな効果の両方を考慮する必要があります。 不注意に選択された適応は、例えば、サプライズや再学習の努力のために、ユーザに高いコストを課すか、未熟な部分最適化設計にプロセスを"トラップ"する。 しかし、ユーザーへの影響は、相互作用の過程で遅滞し、進化する要因に依存するため、予測することは困難です。 保守的な適応政策をもたらす適応的ユーザインターフェースの新たなアプローチを提案する。 モデルに基づく強化学習手法は適応の順序を計画し,予測hciモデルを用いてその効果を推定する。 本稿では,適応メニューを用いた経験的,シミュレーション的な結果から,非適応性と周波数ベースのポリシーの両方に優れることを示す。

Adapting an interface requires taking into account both the positive and negative effects that changes may have on the user. A carelessly picked adaptation may impose high costs to the user -- for example, due to surprise or relearning effort -- or "trap" the process to a suboptimal design immaturely. However, effects on users are hard to predict as they depend on factors that are latent and evolve over the course of interaction. We propose a novel approach for adaptive user interfaces that yields a conservative adaptation policy: It finds beneficial changes when there are such and avoids changes when there are none. Our model-based reinforcement learning method plans sequences of adaptations and consults predictive HCI models to estimate their effects. We present empirical and simulation results from the case of adaptive menus, showing that the method outperforms both a non-adaptive and a frequency-based policy.
翻訳日:2021-03-12 14:40:30 公開日:2021-03-11
# CVISにおけるロバスト2D/3D車両解析

Robust 2D/3D Vehicle Parsing in CVIS ( http://arxiv.org/abs/2103.06432v1 )

ライセンス: Link先を確認
Hui Miao, Feixiang Lu, Zongdai Liu, Liangjun Zhang, Dinesh Manocha, Bin Zhou(参考訳) 本稿では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。 提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。 まず,多視点データ不足に対処するために,データ拡張のための部分支援による新しいビュー合成アルゴリズムを提案する。 パーツベースのテクスチャインペインティングネットワークを自己監督でトレーニングします。 次に、ターゲットの6-DoFポーズでテクスチャモデルを背景画像にレンダリングします。 第2に,画像画素と3D点間の高密度マッピングを作成し,ロバストな2D/3D車両解析を行う手法を提案する。 第3に,実世界のトラフィックシナリオから1540以上のイメージ(14017インスタンス)を注釈する,ベンチマーク用の最初のcvisデータセットを構築しました。 これらの新しいアルゴリズムとデータセットを組み合わせて、CVISの2D/3D車両解析のための堅牢なアプローチを開発しました。 実際に,本手法は,2次元検出,インスタンス分割,6-DoFのポーズ推定において,それぞれ4.5%,4.3%,2.9%のSOTA法より優れていた。 詳細と結果はサプリメントに含まれている。 今後の研究を促進するため、ソースコードとデータセットをGitHubでリリースします。

We present a novel approach to robustly detect and perceive vehicles in different camera views as part of a cooperative vehicle-infrastructu re system (CVIS). Our formulation is designed for arbitrary camera views and makes no assumptions about intrinsic or extrinsic parameters. First, to deal with multi-view data scarcity, we propose a part-assisted novel view synthesis algorithm for data augmentation. We train a part-based texture inpainting network in a self-supervised manner. Then we render the textured model into the background image with the target 6-DoF pose. Second, to handle various camera parameters, we present a new method that produces dense mappings between image pixels and 3D points to perform robust 2D/3D vehicle parsing. Third, we build the first CVIS dataset for benchmarking, which annotates more than 1540 images (14017 instances) from real-world traffic scenarios. We combine these novel algorithms and datasets to develop a robust approach for 2D/3D vehicle parsing for CVIS. In practice, our approach outperforms SOTA methods on 2D detection, instance segmentation, and 6-DoF pose estimation, by 4.5%, 4.3%, and 2.9%, respectively. More details and results are included in the supplement. To facilitate future research, we will release the source code and the dataset on GitHub.
翻訳日:2021-03-12 14:40:02 公開日:2021-03-11
# 軸超解像の学習に基づくビュー外挿法

A learning-based view extrapolation method for axial super-resolution ( http://arxiv.org/abs/2103.06510v1 )

ライセンス: Link先を確認
Zhaolin Xiao, Jinglei Shi, Xiaoran Jiang, Christine Guillemot(参考訳) 軸光界分解能は、再焦点によって異なる深さで特徴を区別する能力を指します。 軸方向再焦点精度は、2つの識別可能な再焦点平面間の軸方向の最小距離に対応する。 高い再焦点精度は、顕微鏡のようないくつかの光場応用に必須である。 本論文では,せん断エピポーラ平面画像(EPI)の軸体積から新しい視点を抽出する学習に基づく手法を提案する。 古典的画像における拡張数値開口(NA)として、外挿光場は、より浅い深度(DOF)で焦点を合わせ、より正確な再焦点結果をもたらす。 最も重要なのは,提案手法が正確な深さ推定を必要としないことだ。 合成光と実光の両方の実験結果から、この方法は、プレノプトカメラ(特にプレノプト 1.0 カメラ)でキャプチャされたような小さなベースラインを持つ光フィールドだけでなく、より大きなベースラインを持つ光フィールドにも適用できることが示された。

Axial light field resolution refers to the ability to distinguish features at different depths by refocusing. The axial refocusing precision corresponds to the minimum distance in the axial direction between two distinguishable refocusing planes. High refocusing precision can be essential for some light field applications like microscopy. In this paper, we propose a learning-based method to extrapolate novel views from axial volumes of sheared epipolar plane images (EPIs). As extended numerical aperture (NA) in classical imaging, the extrapolated light field gives re-focused images with a shallower depth of field (DOF), leading to more accurate refocusing results. Most importantly, the proposed approach does not need accurate depth estimation. Experimental results with both synthetic and real light fields show that the method not only works well for light fields with small baselines as those captured by plenoptic cameras (especially for the plenoptic 1.0 cameras), but also applies to light fields with larger baselines.
翻訳日:2021-03-12 14:39:41 公開日:2021-03-11
# wenlan: 大規模マルチモーダル事前学習によるビジョンと言語橋渡し

WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training ( http://arxiv.org/abs/2103.06561v1 )

ライセンス: Link先を確認
Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, and Ji-Rong Wen(参考訳) マルチモーダル事前学習モデルは近年,視覚と言語を橋渡しする試みが盛んに行われている。 しかし、それらのほとんどは、テキストと画像のモダリティの間に強い意味的相関が存在すると仮定して、画像とテキストのペア間の相互モーダル相互作用を明示的にモデル化する。 この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である大規模マルチモーダル事前学習の相互モーダル相関を暗黙的にモデル化することを選択します。 具体的には,画像とテキストのペアに対する弱い相関仮定を用いて,cmcl(cross-modal contrastive learning)フレームワークにおける2-tower事前学習モデルを提案する。 単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。 大きなキューベースの辞書を構築することで、CMCLは限られたGPUリソースにより負のサンプルを組み込むことができます。 RUC-CAS-WenLanと呼ばれる中国の大規模なマルチソース画像テキストデータセットを構築し、CMCLモデルを事前学習する。 広範な実験は、プリトレーニングされたCMCLモデルが様々な下流タスクでUNITERとOpenAI CLIPの両方を上回っていることを示しています。

Multi-modal pre-training models have been intensively explored to bridge vision and language in recent years. However, most of them explicitly model the cross-modal interaction between image-text pairs, by assuming that there exists strong semantic correlation between the text and image modalities. Since this strong assumption is often invalid in real-world scenarios, we choose to implicitly model the cross-modal correlation for large-scale multi-modal pre-training, which is the focus of the Chinese project `WenLan' led by our team. Specifically, with the weak correlation assumption over image-text pairs, we propose a two-tower pre-training model within the cross-modal contrastive learning (CMCL) framework. Unlike OpenAI CLIP that adopts a simple contrastive learning method, we devise a more advanced algorithm by adapting the latest method MoCo into the cross-modal scenario. By building a large queue-based dictionary, our CMCL can incorporate more negative samples in limited GPU resources. We further construct a large Chinese multi-source image-text dataset called RUC-CAS-WenLan for pre-training our CMCL model. Extensive experiments demonstrate that the pre-trained CMCL model outperforms both UNITER and OpenAI CLIP on various downstream tasks.
翻訳日:2021-03-12 14:39:21 公開日:2021-03-11
# 低ランクおよびスパース表現に基づく高速ハイパースペクトル画像のデノイジングとインパインティング

Fast Hyperspectral Image Denoising and Inpainting Based on Low-Rank and Sparse Representations ( http://arxiv.org/abs/2103.06842v1 )

ライセンス: Link先を確認
Lina Zhuang and Jose M. Bioucas-Dias(参考訳) 本稿では、高速ハイパースペクトル復調(FastHyDe)、ガウス音とポアソン音に対処することができる復調アルゴリズム、高速ハイパースペクトルインペインティング(FastHyIn)、既知のバンド内の既知のピクセルからのいくつかの観測が欠落しているHSIを復元するためのインペインティングアルゴリズムの2つの非常に高速で競争力のあるハイパースペクトル画像(HSI)復元アルゴリズムを紹介します。 FastHyDeとFastHyInは、非常にコンパクトでスパースなHSI表現を完全に利用しています。 シミュレーションと実データによる一連の実験で、新しく導入されたFastHyDeとFastHyInは、最先端の手法と競合し、計算の複雑さははるかに低い。

This paper introduces two very fast and competitive hyperspectral image (HSI) restoration algorithms: fast hyperspectral denoising (FastHyDe), a denoising algorithm able to cope with Gaussian and Poissonian noise, and fast hyperspectral inpainting (FastHyIn), an inpainting algorithm to restore HSIs where some observations from known pixels in some known bands are missing. FastHyDe and FastHyIn fully exploit extremely compact and sparse HSI representations linked with their low-rank and self-similarity characteristics. In a series of experiments with simulated and real data, the newly introduced FastHyDe and FastHyIn compete with the state-of-the-art methods, with much lower computational complexity.
翻訳日:2021-03-12 14:38:57 公開日:2021-03-11
# 確率分布モデルによる多様なセマンティック画像合成

Diverse Semantic Image Synthesis via Probability Distribution Modeling ( http://arxiv.org/abs/2103.06878v1 )

ライセンス: Link先を確認
Zhentao Tan and Menglei Chai and Dongdong Chen and Jing Liao and Qi Chu and Bin Liu and Gang Hua and Nenghai Yu(参考訳) 意味的レイアウトをフォトリアリスティックな画像に変換するセマンティック画像合成は、一対多のマッピング問題である。 最近は目覚ましい進歩があったが、セマンティックレベルのマルチモーダルな結果を効率的に生成できる多様なセマンティック合成は依然として課題である。 本論文では,セマンティッククラス分布の観点から,セマンティックレベルあるいはインスタンスレベルでの多様な生成を自然にサポートする,新しい多様なセマンティックイメージ合成フレームワークを提案する。 本研究では、離散値ではなく連続確率分布としてクラスレベルの条件変調パラメータをモデル化し、ネットワーク全体で一貫性のあるインスタンス適応確率的サンプリングにより、インスタンスごとの変調パラメータをサンプリングする。 さらに,ペア参照からエンコードされた線形摂動パラメータを用いて事前ノイズ再マッピングを行い,教師付きトレーニングとexemplarベースのインスタンススタイル制御を容易にする。 複数のデータセットに対する広範囲な実験により、本手法は最先端の手法に比べて優れた多様性と同等の品質を達成できることを示した。 コードは \url{https://github.com/t zt101/INADE.git} で利用できる。

Semantic image synthesis, translating semantic layouts to photo-realistic images, is a one-to-many mapping problem. Though impressive progress has been recently made, diverse semantic synthesis that can efficiently produce semantic-level multimodal results, still remains a challenge. In this paper, we propose a novel diverse semantic image synthesis framework from the perspective of semantic class distributions, which naturally supports diverse generation at semantic or even instance level. We achieve this by modeling class-level conditional modulation parameters as continuous probability distributions instead of discrete values, and sampling per-instance modulation parameters through instance-adaptive stochastic sampling that is consistent across the network. Moreover, we propose prior noise remapping, through linear perturbation parameters encoded from paired references, to facilitate supervised training and exemplar-based instance style control at test time. Extensive experiments on multiple datasets show that our method can achieve superior diversity and comparable quality compared to state-of-the-art methods. Code will be available at \url{https://github.com/t zt101/INADE.git}
翻訳日:2021-03-12 14:38:39 公開日:2021-03-11
# Auto-COP:強化学習オプションを用いたコンテキスト指向プログラミングにおける適応生成

Auto-COP: Adaptation Generation in Context-Oriented Programming using Reinforcement Learning Options ( http://arxiv.org/abs/2103.06757v1 )

ライセンス: Link先を確認
Nicol\'as Cardozo and Ivana Dusparic(参考訳) 自己適応型ソフトウェアシステムは、実行環境の内部および外部の変化に応じて継続的に適応し、コンテキストとして捉えられる。 COPパラダイムは自己適応型システムを開発するための技術であり、その主な特徴を特殊プログラミング言語で捉えている。 COP適応は、周囲の環境からの感覚的な状況に応じてコンテキストが活性化および非アクティブ化されるため、ベースシステム内外で構成される独立したモジュールとして指定されます。 しかし、適応の定義、そのコンテキスト、および関連する専門的な行動は、設計時に指定する必要があります。 複雑なCPSでは、これは新しい予測されていない動作条件のために困難です。 実行時の適応生成を可能にする新しい技術であるAuto-COPを提案する。 Auto-COPは、以前のシステム実行のインスタンスに基づいてアクションシーケンスを構築するためにRLオプションを使用する。 オプションは環境との相互作用で探索され、各コンテキストに最適なオプションはCOPを利用する適応を生成するために使用されます。 Auto-COPを検証するために,ドライブアシスタントとロボット配送システムという,異なるシステム特性と応用領域を示す2つのケーススタディを提案する。 本稿では,実行時に生成されたauto-copコードの例を示し,適応に必要な状況(コンテキスト)の種類と,対応する各コンテキストに対する適応について述べる。 生成した適応は、ドメイン固有のパフォーマンス指標によって測定された正しいシステム動作を示すとともに、必要な実行/アクティベーションステップの数を2つに減らし、適応動作がプリミティブアクションの実行よりも適切であるように、ランニングシステムによって定期的に選択されることを示す。

Self-adaptive software systems continuously adapt in response to internal and external changes in their execution environment, captured as contexts. The COP paradigm posits a technique for the development of self-adaptive systems, capturing their main characteristics with specialized programming language constructs. COP adaptations are specified as independent modules composed in and out of the base system as contexts are activated and deactivated in response to sensed circumstances from the surrounding environment. However, the definition of adaptations, their contexts and associated specialized behavior, need to be specified at design time. In complex CPS this is intractable due to new unpredicted operating conditions. We propose Auto-COP, a new technique to enable generation of adaptations at run time. Auto-COP uses RL options to build action sequences, based on the previous instances of the system execution. Options are explored in interaction with the environment, and the most suitable options for each context are used to generate adaptations exploiting COP. To validate Auto-COP, we present two case studies exhibiting different system characteristics and application domains: a driving assistant and a robot delivery system. We present examples of Auto-COP code generated at run time, to illustrate the types of circumstances (contexts) requiring adaptation, and the corresponding generated adaptations for each context. We confirm that the generated adaptations exhibit correct system behavior measured by domain-specific performance metrics, while reducing the number of required execution/actuation steps by a factor of two showing that the adaptations are regularly selected by the running system as adaptive behavior is more appropriate than the execution of primitive actions.
翻訳日:2021-03-12 14:38:17 公開日:2021-03-11
# 不確実性下でのドローン・アズ・ア・サービス構成

Drone-as-a-Service Composition Under Uncertainty ( http://arxiv.org/abs/2103.06513v1 )

ライセンス: Link先を確認
Ali Hamdi, Flora D. Salim, Du Yong Kim, Azadeh Ghari Neiat, Athman Bouguettaya(参考訳) 我々は、ドローンベースの配送サービスであるdrone-as-a-service(d aas)を効果的に提供するための不確実性認識サービスアプローチを提案する。 具体的には,ドローンの動的時空間的特徴と飛行中の文脈に基づくdaasのサービスモデルを提案する。 提案されたDaaSサービスアプローチは、スケジューリング、ルート計画、構成という3つのコンポーネントで構成されている。 まず、Skywayネットワークを介してDaaSの旅程を生成するためのDaaSスケジューリングモデルを開発する。 第二に、気象不確実性下で最適なスカイウェイを選択する不確実性認識型DaaSルート計画アルゴリズムを提案する。 第3に,計画経路の各駅で最適なdaas合成を選択するための2つのdaas合成手法を開発した。 時空間DaaSの作曲家は、まず時空間の可用性とドローン能力に基づいて最適なDaaSを選択する。 予測的なDaaS作曲家は、最初の作曲家の結果を利用して、機械学習の分類方法を用いて、高速で正確なDaaS合成を可能にする。 我々は、他のDaaS QoS特性に加えて、新しい時空間的特徴セットを用いて分類器を訓練する。 実験の結果,提案手法の有効性と有効性を示した。

We propose an uncertainty-aware service approach to provide drone-based delivery services called Drone-as-a-Service (DaaS) effectively. Specifically, we propose a service model of DaaS based on the dynamic spatiotemporal features of drones and their in-flight contexts. The proposed DaaS service approach consists of three components: scheduling, route-planning, and composition. First, we develop a DaaS scheduling model to generate DaaS itineraries through a Skyway network. Second, we propose an uncertainty-aware DaaS route-planning algorithm that selects the optimal Skyways under weather uncertainties. Third, we develop two DaaS composition techniques to select an optimal DaaS composition at each station of the planned route. A spatiotemporal DaaS composer first selects the optimal DaaSs based on their spatiotemporal availability and drone capabilities. A predictive DaaS composer then utilises the outcome of the first composer to enable fast and accurate DaaS composition using several Machine Learning classification methods. We train the classifiers using a new set of spatiotemporal features which are in addition to other DaaS QoS properties. Our experiments results show the effectiveness and efficiency of the proposed approach.
翻訳日:2021-03-12 14:37:30 公開日:2021-03-11
# 制御ガウス過程ダイナミクスモデルとロボットクロスマニピュレーションへの応用

Controlled Gaussian Process Dynamical Models with Application to Robotic Cloth Manipulation ( http://arxiv.org/abs/2103.06615v1 )

ライセンス: Link先を確認
Fabio Amadio, Juan Antonio Delgado-Guerrero, Adri\`a Colom\'e and Carme Torras(参考訳) 過去数年間、ロボット布の操作は研究コミュニティ内で関連性を高めてきました。 剛性のある物体のロボット操作では大きな進歩があったが、布服などの非剛性物体の操作は依然として難しい課題である。 布の挙動に関する不確実性は、しばしばモデルに基づくアプローチを使う必要がある。 しかし、布モデルは高い次元を持つ。 したがって、マニピュレータに布の力学モデルを提供し、扱いやすい次元の状態空間で作業することの中間点を見つけることは困難である。 このため、文学におけるほとんどの布の操作アプローチは静的または準静的操作を行う。 本稿では,低次元多様体における布の力学をモデル化するガウス過程力学モデル(GPDM)のバリエーションを提案する。 GPDMは、動的特性を維持することができるより小さな次元の潜空間に高次元状態空間を投影する。 このような手法を用いて制御変数を元の定式化に追加する。 このようにして、布のダイナミクスで実行されるロボットコマンドを考慮に入れることが可能です。 この新しいバージョンを Controlled Gaussian Process Dynamical Model (C-GPDM) と呼んでいます。 さらに,従来のgpdm実現法の大部分で採用されているものよりもリッチなパラメータ化を特徴とする,モデルに対する代替カーネル表現を提案する。 提案手法のモデル化能力は、C-GPDMがかなり広い範囲の動作を一般化し、これまで目に見えない制御動作によって生成された布の振動を正確に予測できるというシミュレーションシナリオで検証されている。

Over the last years, robotic cloth manipulation has gained relevance within the research community. While significant advances have been made in robotic manipulation of rigid objects, the manipulation of non-rigid objects such as cloth garments is still a challenging problem. The uncertainty on how cloth behaves often requires the use of model-based approaches. However, cloth models have a very high dimensionality. Therefore, it is difficult to find a middle point between providing a manipulator with a dynamics model of cloth and working with a state space of tractable dimensionality. For this reason, most cloth manipulation approaches in literature perform static or quasi-static manipulation. In this paper, we propose a variation of Gaussian Process Dynamical Models (GPDMs) to model cloth dynamics in a low-dimensional manifold. GPDMs project a high-dimensional state space into a smaller dimension latent space which is capable of keeping the dynamic properties. Using such approach, we add control variables to the original formulation. In this way, it is possible to take into account the robot commands exerted on the cloth dynamics. We call this new version Controlled Gaussian Process Dynamical Model (C-GPDM). Moreover, we propose an alternative kernel representation for the model, characterized by a richer parameterization than the one employed in the majority of previous GPDM realizations. The modeling capacity of our proposal has been tested in a simulated scenario, where C-GPDM proved to be capable of generalizing over a considerably wide range of movements and correctly predicting the cloth oscillations generated by previously unseen sequences of control actions.
翻訳日:2021-03-12 14:37:10 公開日:2021-03-11
# Adaptive Projectionによる差分プライベートクエリのリリース

Differentially Private Query Release Through Adaptive Projection ( http://arxiv.org/abs/2103.06641v1 )

ライセンス: Link先を確認
Sergul Aydore, William Brown, Michael Kearns, Krishnaram Kenthapadi, Luca Melis, Aaron Roth, Ankit Siva(参考訳) 我々は, 差分プライバシーを前提として, $k$-way marginals のような膨大な数の統計クエリに対する回答を解放する新しいアルゴリズムを提案し, 実装し, 評価する。 提案手法では,単純な摂動を用いてプライベートデータセットの問合せに応答する投影機構の連続的な緩和を適応的に利用し,ノイズの多い回答に最も近い合成データセットの探索を試みる。 合成データセット領域を連続的に緩和することで、投射損失を微分可能とし、効率的なML最適化技術やツールの使用を可能にします。 すべてのクエリに前もって答えるのではなく、我々の(予測された)合成データが高いエラーを持つクエリを反復的かつ適応的に見つけることによって、私たちのプライバシ予算を司法的に利用します。 提案手法は,パラメータやデータセットの広範囲にわたる広範囲な実験評価を行い,特にプライバシ予算が小さい場合やクエリクラスが大きい場合において,既存のアルゴリズムよりも優れていることを見出した。

We propose, implement, and evaluate a new algorithm for releasing answers to very large numbers of statistical queries like $k$-way marginals, subject to differential privacy. Our algorithm makes adaptive use of a continuous relaxation of the Projection Mechanism, which answers queries on the private dataset using simple perturbation, and then attempts to find the synthetic dataset that most closely matches the noisy answers. We use a continuous relaxation of the synthetic dataset domain which makes the projection loss differentiable, and allows us to use efficient ML optimization techniques and tooling. Rather than answering all queries up front, we make judicious use of our privacy budget by iteratively and adaptively finding queries for which our (relaxed) synthetic data has high error, and then repeating the projection. We perform extensive experimental evaluations across a range of parameters and datasets, and find that our method outperforms existing algorithms in many cases, especially when the privacy budget is small or the query class is large.
翻訳日:2021-03-12 14:36:47 公開日:2021-03-11
# 量子コンピュータを用いた変分推論

Variational inference with a quantum computer ( http://arxiv.org/abs/2103.06720v1 )

ライセンス: Link先を確認
Marcello Benedetti, Brian Coyle, Mattia Fiorentini, Michael Lubasch, Matthias Rosenkranz(参考訳) 推論(inference)は、関連する変数の観測から、観察されない変数に関する結論を導くタスクである。 応用は、症状から病気を識別することから、価格変動から経済体制を分類することまで様々である。 残念ながら、正確な推論の実行は一般的には難しい。 確率分布は、観測されていない変数に対する後方分布を近似するために最適化される。 良好な近似を得るためには、柔軟で表現性の高い候補分布が望ましい。 本研究では,離散変数上の変分分布として量子ボーンマシンを提案する。 この目的を達成するために演算子変分推論の枠組みを適用する。 特に,敵意を持ったものと,カーネル化されたスタインの不一致に基づくものという,2つの具体化が採用されている。 ベイジアンネットワークの例を用いて,この手法を数値的に実証し,IBM量子コンピュータ上で実験を行う。 提案手法は,従来のコンピュータ上で効率よく表現可能な分布を用いた効率的な変分推定を可能にする。

Inference is the task of drawing conclusions about unobserved variables given observations of related variables. Applications range from identifying diseases from symptoms to classifying economic regimes from price movements. Unfortunately, performing exact inference is intractable in general. One alternative is variational inference, where a candidate probability distribution is optimized to approximate the posterior distribution over unobserved variables. For good approximations a flexible and highly expressive candidate distribution is desirable. In this work, we propose quantum Born machines as variational distributions over discrete variables. We apply the framework of operator variational inference to achieve this goal. In particular, we adopt two specific realizations: one with an adversarial objective and one based on the kernelized Stein discrepancy. We demonstrate the approach numerically using examples of Bayesian networks, and implement an experiment on an IBM quantum computer. Our techniques enable efficient variational inference with distributions beyond those that are efficiently representable on a classical computer.
翻訳日:2021-03-12 14:36:29 公開日:2021-03-11
# BODAME:モデル抽出に対する防御のためのバイレベル最適化

BODAME: Bilevel Optimization for Defense Against Model Extraction ( http://arxiv.org/abs/2103.06797v1 )

ライセンス: Link先を確認
Yuto Mori, Atsushi Nitanda, Akiko Takeda(参考訳) 機械学習を使用するサービスプロバイダにとって、モデル抽出攻撃は深刻な問題となっている。 我々は,攻撃者がクエリ・アクセスを用いてサービス・プロバイダのモデル上で最善の推測を行うという仮定の下でモデル抽出を防止するための敵対的設定を検討し,攻撃者のモデルの予測を真のモデルから著しく排除するサーロゲート・モデルを構築することを提案する。 非凸制約二値最適化問題としてこの問題を定式化し、カーネルモデルでは、多項式時間アルゴリズムを用いて非凸制約二値プログラムに変換し、大域的最適化を求める。 さらに, 確率的勾配降下に基づくアルゴリズムを用いて, より複雑なモデルに対して, 扱いやすい変換とアルゴリズムを与える。 数値実験により、攻撃者とサービス提供者の分布の差が大きい場合、サーロゲートモデルは既存の防御モデルとよく比較できることが示された。 また,サーロゲートモデルの一般化能力も実証的に確認した。

Model extraction attacks have become serious issues for service providers using machine learning. We consider an adversarial setting to prevent model extraction under the assumption that attackers will make their best guess on the service provider's model using query accesses, and propose to build a surrogate model that significantly keeps away the predictions of the attacker's model from those of the true model. We formulate the problem as a non-convex constrained bilevel optimization problem and show that for kernel models, it can be transformed into a non-convex 1-quadratically constrained quadratic program with a polynomial-time algorithm to find the global optimum. Moreover, we give a tractable transformation and an algorithm for more complicated models that are learned by using stochastic gradient descent-based algorithms. Numerical experiments show that the surrogate model performs well compared with existing defense models when the difference between the attacker's and service provider's distributions is large. We also empirically confirm the generalization ability of the surrogate model.
翻訳日:2021-03-12 14:36:16 公開日:2021-03-11
# 連続因果推論のための二重堅牢な信頼配列

Doubly robust confidence sequences for sequential causal inference ( http://arxiv.org/abs/2103.06476v1 )

ライセンス: Link先を確認
Ian Waudby-Smith, David Arbour, Ritwik Sinha, Edward H. Kennedy, and Aaditya Ramdas(参考訳) 本稿では,実験および観測環境における因果的影響に対する時間一様信頼シーケンス(CS)を導出する。 目標パラメータ $\psi$ に対する信頼シーケンスは、信頼区間 $(C_t)_{t=1}^\infty$ の列であり、これらの区間の全てが高い確率で $\psi$ を同時に取得する。 このようなCSは、サンプルサイズを事前に固定する必要がある古典的な固定時間信頼間隔とは異なり、任意の停止時間で$\psi$の有効な統計推論を提供します。 CSを構成する既存の方法は、ある仮定(確率変数の既知の境界など)が課される漸近的体制に焦点をあてるが、因果効果の2倍のローバスト推定子は(漸近的な)半パラメトリック理論に依存する。 非パラメトリック条件下での平均処理効果(ATE)に特に焦点をあてて、中央極限定理論の逐次バージョンを用いて因果推定のための大サンプルCSを構築する。 これらのcssにより、アナリストは新しいデータの代わりにateに関する統計的推論を更新でき、実験はデータに依存しない理由で継続的に監視、停止、または継続することができる。 最後に、これらのCSを他の因果推定器や推定器に容易に拡張し、様々な問題における逐次因果推定のための新しい枠組みを提供する。

This paper derives time-uniform confidence sequences (CS) for causal effects in experimental and observational settings. A confidence sequence for a target parameter $\psi$ is a sequence of confidence intervals $(C_t)_{t=1}^\infty$ such that every one of these intervals simultaneously captures $\psi$ with high probability. Such CSs provide valid statistical inference for $\psi$ at arbitrary stopping times, unlike classical fixed-time confidence intervals which require the sample size to be fixed in advance. Existing methods for constructing CSs focus on the nonasymptotic regime where certain assumptions (such as known bounds on the random variables) are imposed, while doubly-robust estimators of causal effects rely on (asymptotic) semiparametric theory. We use sequential versions of central limit theorem arguments to construct large-sample CSs for causal estimands, with a particular focus on the average treatment effect (ATE) under nonparametric conditions. These CSs allow analysts to update statistical inferences about the ATE in lieu of new data, and experiments can be continuously monitored, stopped, or continued for any data-dependent reason, all while controlling the type-I error rate. Finally, we describe how these CSs readily extend to other causal estimands and estimators, providing a new framework for sequential causal inference in a wide array of problems.
翻訳日:2021-03-12 14:35:59 公開日:2021-03-11
# 分割ビッグデータのための分散主部分空間解析:アルゴリズム,解析,実装

Distributed Principal Subspace Analysis for Partitioned Big Data: Algorithms, Analysis, and Implementation ( http://arxiv.org/abs/2103.06406v1 )

ライセンス: Link先を確認
Bingqing Xiang, Arpita Gang, and Waheed U. Bajwa(参考訳) 主部分空間解析(PSA)は、信号処理と機械学習における次元性低減のための最も一般的な手法の1つである。 しかし、集中型psaソリューションはビッグデータの現代において急速に無関係になり、サンプル数やサンプルの寸法が個々のマシンのストレージや計算能力を超えることが多い。 これにより分散PSAソリューションが研究され、データは複数のマシンにまたがって分割され、各マシン間の協調によって主部分空間の推定値が得られる。 本論文では,中央サーバを欠いたマシンの任意接続ネットワークという一般的な枠組みの下で,分散PSAの問題を再考する。 この点における論文の主な貢献は3つある。 まず、サンプルまたは(raw)フィーチャ間で分割されたデータの場合、分散psaに使用できる2つのアルゴリズムが論文で提案されている。 第二に,標本分割データの場合,提案するアルゴリズムとその変形を解析し,線形速度における真の部分空間への収束性を確立する。 第3に,提案手法の有効性を検証するため,合成データと実世界データの両方について広範な実験を行った。 特に、サンプルワイズ分割データの場合、ネットワークトポロジと通信コストの相互作用を研究するためにMPIベースの分散実装が実行され、提案されたアルゴリズムに対するストラグラーマシンの効果を研究する。

Principal Subspace Analysis (PSA) is one of the most popular approaches for dimensionality reduction in signal processing and machine learning. But centralized PSA solutions are fast becoming irrelevant in the modern era of big data, in which the number of samples and/or the dimensionality of samples often exceed the storage and/or computational capabilities of individual machines. This has led to study of distributed PSA solutions, in which the data are partitioned across multiple machines and an estimate of the principal subspace is obtained through collaboration among the machines. It is in this vein that this paper revisits the problem of distributed PSA under the general framework of an arbitrarily connected network of machines that lacks a central server. The main contributions of the paper in this regard are threefold. First, two algorithms are proposed in the paper that can be used for distributed PSA in the case of data that are partitioned across either samples or (raw) features. Second, in the case of sample-wise partitioned data, the proposed algorithm and a variant of it are analyzed, and their convergence to the true subspace at linear rates is established. Third, extensive experiments on both synthetic and real-world data are carried out to validate the usefulness of the proposed algorithms. In particular, in the case of sample-wise partitioned data, an MPI-based distributed implementation is carried out to study the interplay between network topology and communications cost as well as to study of effect of straggler machines on the proposed algorithms.
翻訳日:2021-03-12 14:34:39 公開日:2021-03-11
# 音声表現の多形式コントラスト学習

Multi-Format Contrastive Learning of Audio Representations ( http://arxiv.org/abs/2103.06508v1 )

ライセンス: Link先を確認
Luyu Wang, Aaron van den Oord(参考訳) 近年の進歩は、シングルモーダル法と比較してマルチモーダルトレーニングの利点を示唆している。 この見解とは対照的に、我々の研究では、同様の利益は単一のモダリティの異なる形式で訓練することで得られる。 特に,生音声とそのスペクトル表現との一致を最大化することにより,音声表現の学習におけるコントラスト学習フレームワークの利用について検討する。 このマルチフォーマット戦略によるシングルフォーマット戦略による大きな利益が得られます。 さらに,下流オーディオセットとesc-50分類タスクにおいて,音声のみの手法により,平均精度0.376,精度90.5%の新たな最先端結果が得られた。

Recent advances suggest the advantage of multi-modal training in comparison with single-modal methods. In contrast to this view, in our work we find that similar gain can be obtained from training with different formats of a single modality. In particular, we investigate the use of the contrastive learning framework to learn audio representations by maximizing the agreement between the raw audio and its spectral representation. We find a significant gain using this multi-format strategy against the single-format counterparts. Moreover, on the downstream AudioSet and ESC-50 classification task, our audio-only approach achieves new state-of-the-art results with a mean average precision of 0.376 and an accuracy of 90.5%, respectively.
翻訳日:2021-03-12 14:34:15 公開日:2021-03-11
# FPGAベースのエッジAIアプリケーションのためのデータ収集と加速基盤

Data Collection and Acceleration Infrastructure for FPGA-based Edge AI Applications ( http://arxiv.org/abs/2103.06518v1 )

ライセンス: Link先を確認
Hergys Rexha, Sebastien Lafond(参考訳) IoTアプリケーションによって生成されるデータが爆発的に増加し続ける中、産業用モノのインターネット(IIoT)、自動運転、医療イメージング、監視といったパフォーマンスクリティカルなアプリケーションの応答時間、消費電力、コスト目標を満たすために、データソースにコンピューティングパワーを近づける必要性が高まっています。 本稿では,実行時プラットフォームとアプリケーションデータを,プラットフォームに近いデータ収集エージェントを介してエッジおよびクラウドシステムに送信可能なfpgaベースのデータ収集・利用フレームワークを提案する。 エージェントはクラウドシステムに接続され、AIモデルをトレーニングしてFPGAベースのエッジプラットフォーム上で実行されるAIアプリケーションの全体的なエネルギー効率を向上させることができる。 実装部では、FPGAプラットフォームから関連するデータを収集し、フィードバックアクションを処理して受信するクラウドシステムにデータを送信し、エッジAIアプリケーションエネルギを効率的に実行することが可能であることを示す。 今後の作業として、エッジアプリケーションの実行を効率的に適応できるベースモデルをトレーニングし、デプロイし、継続的に改善する可能性を予測します。

As data being produced by IoT applications continues to explode, there's a growing need to bring computing power closer to the source of the data to meet the response-time, power-consumption and cost goals of performance-critical applications like Industrial Internet of Things (IIoT), Automated Driving, Medical Imaging or Surveillance among others. This paper proposes a FPGA-based data collection and utilization framework that allows runtime platform and application data to be sent to an edge and cloud system via data collection agents running close to the platform. Agents are connected to a cloud system able to train AI models to improve overall energy efficiency of an AI application executed on a FPGA-based edge platform. In the implementation part we show that it is feasible to collect relevant data from an FPGA platform, transmit the data to a cloud system for processing and receiving feedback actions to execute an edge AI application energy efficiently. As future work we foresee the possibility to train, deploy and continuously improve a base model able to efficiently adapt the execution of edge applications.
翻訳日:2021-03-12 14:34:02 公開日:2021-03-11
# 潜時空間におけるバンプハンティング

Bump Hunting in Latent Space ( http://arxiv.org/abs/2103.06595v1 )

ライセンス: Link先を確認
Bla\v{z} Bortolato, Barry M. Dillon, Jernej F. Kamenik, Aleks Smolkovi\v{c}(参考訳) 監視されていない異常検出は、例えばLHCで収集されたような、大規模なデータセットでまれな現象を検索する将来の分析に不可欠です。 この目的のために、LHCオリンピックマシンラーニングチャレンジデータセット上で競争的かつ堅牢に機能する物理学に触発された変動オートエンコーダ(VAE)アーキテクチャを紹介します。 本研究では,vae潜在性空間に直接物理観測対象を埋め込み,同時に分類器を明示的に不可知性に保ちながら,データセットに異常が存在することに起因するスペクトルの特徴を識別し特徴付ける方法を示す。

Unsupervised anomaly detection could be crucial in future analyses searching for rare phenomena in large datasets, as for example collected at the LHC. To this end, we introduce a physics inspired variational autoencoder (VAE) architecture which performs competitively and robustly on the LHC Olympics Machine Learning Challenge datasets. We demonstrate how embedding some physical observables directly into the VAE latent space, while at the same time keeping the classifier manifestly agnostic to them, can help to identify and characterise features in measured spectra as caused by the presence of anomalies in a dataset.
翻訳日:2021-03-12 14:33:43 公開日:2021-03-11
# 任意格子上の非局所構成モデルのためのフレーム非依存ベクトルクラウドニューラルネットワーク

Frame-independent vector-cloud neural network for nonlocal constitutive modelling on arbitrary grids ( http://arxiv.org/abs/2103.06685v1 )

ライセンス: Link先を確認
Xu-Hui Zhou, Jiequn Han, Heng Xiao(参考訳) 構成モデルは科学や工学における複雑なシステムのモデリングに広く使われ、第一原理に基づく、よく解かれたシミュレーションは、しばしば禁止的に高価である。 例えば、流体力学では、乱流や層乱流遷移のような非局所的な未解決物理学を記述するために構成モデルが必要となる。 特にレイノルズは、ラミナー-乱流遷移の乱流および間欠輸送方程式の応力モデルにおいて、対流-拡散偏微分方程式(PDE)を用いる。 しかし、従来のPDEベースの構成モデルは堅牢性が欠けており、さまざまなキャリブレーションデータに対応するには硬すぎることが多い。 本論文では,データを用いた学習が可能なベクタークラウドニューラルネットワークに基づくフレームに依存しない非局所構成モデルを提案する。 学習構成モデルは、その近傍の流れ情報に基づいて、ある時点における閉包変数を予測できる。 そのような非局所情報は点群で表され、それぞれに特徴ベクトルがアタッチされているので、入力はベクトルクラウドと呼ばれる。 雲は、フレーム非依存のニューラルネットワークを通じて閉包変数にマッピングされ、翻訳と回転の調整とクラウド内の点の順序付けの両方に不変である。 このネットワークは任意の数のグリッドポイントを入力として取り、流体流動シミュレーションで一般的に使用される非構造メッシュに適している。 提案されたネットワークの利点は、パラメータ化された周期的丘陵地形のファミリー上のスカラー輸送PDEで実証される。 数値計算の結果,ベクトルクラウドニューラルネットワークは非局所構成モデルとしてだけでなく,不規則領域上でのPDEの一般的なサロゲートモデルとしても有望なツールであることがわかった。

Constitutive models are widely used for modelling complex systems in science and engineering, where first-principle-base d, well-resolved simulations are often prohibitively expensive. For example, in fluid dynamics, constitutive models are required to describe nonlocal, unresolved physics such as turbulence and laminar-turbulent transition. In particular, Reynolds stress models for turbulence and intermittency transport equations for laminar-turbulent transition both utilize convection--diffusio n partial differential equations (PDEs). However, traditional PDE-based constitutive models can lack robustness and are often too rigid to accommodate diverse calibration data. We propose a frame-independent, nonlocal constitutive model based on a vector-cloud neural network that can be trained with data. The learned constitutive model can predict the closure variable at a point based on the flow information in its neighborhood. Such nonlocal information is represented by a group of points, each having a feature vector attached to it, and thus the input is referred to as vector cloud. The cloud is mapped to the closure variable through a frame-independent neural network, which is invariant both to coordinate translation and rotation and to the ordering of points in the cloud. As such, the network takes any number of arbitrarily arranged grid points as input and thus is suitable for unstructured meshes commonly used in fluid flow simulations. The merits of the proposed network are demonstrated on scalar transport PDEs on a family of parameterized periodic hill geometries. Numerical results show that the vector-cloud neural network is a promising tool not only as nonlocal constitutive models and but also as general surrogate models for PDEs on irregular domains.
翻訳日:2021-03-12 14:33:32 公開日:2021-03-11
# サービスロボットのためのスカベンジャーハント

A Scavenger Hunt for Service Robots ( http://arxiv.org/abs/2103.05225v2 )

ライセンス: Link先を確認
Harel Yedidsion, Jennifer Suriadinata, Zifan Xu, Stefan Debruyn, Peter Stone(参考訳) 人間人口の多い環境で汎用的なサービスタスクをこなせるロボットを作ることは、AIとロボティクス研究にとって長年大きな課題だった。 さまざまなタスクに関連する特に貴重なスキルの1つは、リクエストに応じてオブジェクトを見つけて取得する機能です。 本稿では,このスキルをScavenger Hunt (SH)ゲームとしてモデル化し,NP型確率的旅行購入問題の変種として定式化する。 この問題では、目的は、発見される可能性のある確率分布を考えると、できるだけ迅速にオブジェクトの集合を見つけることである。 シミュレーションと実際の移動ロボットにおけるSH問題に対するいくつかの解法アルゴリズムの性能について検討する。 Reinforcement Learning(RL)を使用してエージェントをトレーニングして最小限のコストパスを計画し、RLエージェントがさまざまなヒューリスティックアルゴリズムを上回り、最適なパフォーマンスを達成できることを示します。 そこで,本研究では,ロボットがダウンロードし,実行し,そこから学び,将来的なハントにおけるパフォーマンスを継続的に向上させることのできる,スキャベンジャーハントをアップロード可能な,公開可能なソフトウェアスタックと関連Webサイトを紹介した。

Creating robots that can perform general-purpose service tasks in a human-populated environment has been a longstanding grand challenge for AI and Robotics research. One particularly valuable skill that is relevant to a wide variety of tasks is the ability to locate and retrieve objects upon request. This paper models this skill as a Scavenger Hunt (SH) game, which we formulate as a variation of the NP-hard stochastic traveling purchaser problem. In this problem, the goal is to find a set of objects as quickly as possible, given probability distributions of where they may be found. We investigate the performance of several solution algorithms for the SH problem, both in simulation and on a real mobile robot. We use Reinforcement Learning (RL) to train an agent to plan a minimal cost path, and show that the RL agent can outperform a range of heuristic algorithms, achieving near optimal performance. In order to stimulate research on this problem, we introduce a publicly available software stack and associated website that enable users to upload scavenger hunts which robots can download, perform, and learn from to continually improve their performance on future hunts.
翻訳日:2021-03-12 12:22:57 公開日:2021-03-11
# 野生のディープフェイクビデオ:分析と検出

Deepfake Videos in the Wild: Analysis and Detection ( http://arxiv.org/abs/2103.04263v2 )

ライセンス: Link先を確認
Jiameng Pu, Neal Mangaokar, Lauren Kelly, Parantapa Bhattacharya, Kavya Sundaram, Mobin Javed, Bolun Wang, Bimal Viswanath(参考訳) aiが操作するビデオ、通称deepfakesは、新しい問題だ。 近年、学界や産業界の研究者が、いくつかの(自己作成)ベンチマークdeepfakeデータセットとdeepfake検出アルゴリズムに貢献している。 しかし、ディープフェイク動画の理解に向けた努力はほとんど行っていないため、この分野における研究貢献の現実的な適用性についての理解は限られている。 既存のデータセットで検出スキームがうまく機能していることが示されたとしても、実際のディープフェイクに対するメソッドの一般性は明らかでない。 まず、YouTubeとBilibiliからの1,869のビデオを含む、野生のディープフェイクビデオの最大のデータセットを収集し、提示し、コンテンツの4.8Mフレーム以上を抽出します。 第2に,実世界におけるディープフェイクコンテンツの成長パターン,人気,クリエーター,操作戦略,生産方法の包括的分析を行った。 第三に、我々は新しいデータセットを使って既存の防衛を体系的に評価し、実際の世界に配備する準備が整っていないことを観察する。 第四に、我々は防御を改善するための転送学習スキームと競争に勝った技術の可能性を模索します。

AI-manipulated videos, commonly known as deepfakes, are an emerging problem. Recently, researchers in academia and industry have contributed several (self-created) benchmark deepfake datasets, and deepfake detection algorithms. However, little effort has gone towards understanding deepfake videos in the wild, leading to a limited understanding of the real-world applicability of research contributions in this space. Even if detection schemes are shown to perform well on existing datasets, it is unclear how well the methods generalize to real-world deepfakes. To bridge this gap in knowledge, we make the following contributions: First, we collect and present the largest dataset of deepfake videos in the wild, containing 1,869 videos from YouTube and Bilibili, and extract over 4.8M frames of content. Second, we present a comprehensive analysis of the growth patterns, popularity, creators, manipulation strategies, and production methods of deepfake content in the real-world. Third, we systematically evaluate existing defenses using our new dataset, and observe that they are not ready for deployment in the real-world. Fourth, we explore the potential for transfer learning schemes and competition-winning techniques to improve defenses.
翻訳日:2021-03-12 12:22:37 公開日:2021-03-11
# T-Miner: DNNテキスト分類におけるトロイの木馬攻撃対策のためのジェネレーティブアプローチ

T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification ( http://arxiv.org/abs/2103.04264v2 )

ライセンス: Link先を確認
Ahmadreza Azizi, Ibrahim Asadullah Tahmid, Asim Waheed, Neal Mangaokar, Jiameng Pu, Mobin Javed, Chandan K. Reddy, Bimal Viswanath(参考訳) ディープニューラルネットワーク(dnn)分類器はトロイの木馬やバックドア攻撃に対して脆弱であることが知られており、分類器は攻撃者によって決定されたトロイの木馬トリガーを含む入力を誤分類するように操作される。 バックドアはモデルの整合性を損なうため、DNNベースの分類の状況に深刻な脅威をもたらす。 このような攻撃に対する複数の防御は画像ドメインの分類器に対して存在するが、テキストドメインの分類器を保護する努力は限られている。 我々は、DNNベースのテキスト分類器に対するトロイの木馬攻撃のための防御フレームワークであるTrojan-Miner(T-Miner )を紹介する。 T-Minerはシークエンス・ツー・シークエンス(seq-2-seq)生成モデルを用いて、疑わしい分類器を探索し、トロイの木馬トリガーを含む可能性が高いテキストシーケンスを生成する。 T-Minerは、生成モデルによって生成されたテキストを分析し、トリガーフレーズを含むかどうかを決定し、テストされた分類器にバックドアがあるかどうかを判断します。 T-Minerは、不審な分類器のトレーニングデータセットやクリーンな入力へのアクセスを必要とせず、代わりに合成された「非意味」テキスト入力を使用して生成モデルをトレーニングする。 3つのユビキタスDNNモデルアーキテクチャ、5つの分類タスク、さまざまなトリガーフレーズからなる1100モデルインスタンスのT-Minerを幅広く評価します。 T-Minerがトロイの木馬とクリーンモデルを98.75%の全体的な精度で検出し、クリーンモデルの偽陽性を低く抑えることを示した。 また、T-Minerはアダプティブアタッカーからの様々な標的の高度な攻撃に対して堅牢であることも示しています。

Deep Neural Network (DNN) classifiers are known to be vulnerable to Trojan or backdoor attacks, where the classifier is manipulated such that it misclassifies any input containing an attacker-determined Trojan trigger. Backdoors compromise a model's integrity, thereby posing a severe threat to the landscape of DNN-based classification. While multiple defenses against such attacks exist for classifiers in the image domain, there have been limited efforts to protect classifiers in the text domain. We present Trojan-Miner (T-Miner) -- a defense framework for Trojan attacks on DNN-based text classifiers. T-Miner employs a sequence-to-sequence (seq-2-seq) generative model that probes the suspicious classifier and learns to produce text sequences that are likely to contain the Trojan trigger. T-Miner then analyzes the text produced by the generative model to determine if they contain trigger phrases, and correspondingly, whether the tested classifier has a backdoor. T-Miner requires no access to the training dataset or clean inputs of the suspicious classifier, and instead uses synthetically crafted "nonsensical" text inputs to train the generative model. We extensively evaluate T-Miner on 1100 model instances spanning 3 ubiquitous DNN model architectures, 5 different classification tasks, and a variety of trigger phrases. We show that T-Miner detects Trojan and clean models with a 98.75% overall accuracy, while achieving low false positives on clean models. We also show that T-Miner is robust against a variety of targeted, advanced attacks from an adaptive attacker.
翻訳日:2021-03-12 12:22:16 公開日:2021-03-11