このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210526となっている論文です。

PDF登録状況(公開日: 20210526)

TitleAuthorsAbstract論文公表日・翻訳日
# 画素プロセッサアレイを用いたセンサ内cnn推定による直接サーボ制御

Direct Servo Control from In-Sensor CNN Inference with A Pixel Processor Array ( http://arxiv.org/abs/2106.07561v1 )

ライセンス: Link先を確認
Yanan Liu, Jianing Chen, Laurie Bose, Piotr Dudek, Walterio Mayol-Cuevas(参考訳) 本研究は,SCAMP-5 Pixel Processor Array (PPA) を用いた高速CNN推論による直接視覚感覚運動制御を示す。 我々はppasが知覚と行動のギャップを効果的に橋渡しできることを示す。 2値畳み込みニューラルネットワーク (CNN) は古典的な岩盤, 紙, はさみの分類問題に8000 FPS以上で使用される。 制御命令は、他の中間ハードウェアを使わずに、CNNの分類結果に従ってPPAからサーボモータに直接送られる。

This work demonstrates direct visual sensory-motor control using high-speed CNN inference via a SCAMP-5 Pixel Processor Array (PPA). We demonstrate how PPAs are able to efficiently bridge the gap between perception and action. A binary Convolutional Neural Network (CNN) is used for a classic rock, paper, scissors classification problem at over 8000 FPS. Control instructions are directly sent to a servo motor from the PPA according to the CNN's classification result without any other intermediate hardware.
翻訳日:2021-06-20 16:03:15 公開日:2021-05-26
# リツイート予測におけるツイートテキストとユーザ特徴の影響分析によるCOVID-19パンデミック時の情報拡散メカニズムの理解

Understanding Information Spreading Mechanisms During COVID-19 Pandemic by Analyzing the Impact of Tweet Text and User Features for Retweet Prediction ( http://arxiv.org/abs/2106.07344v1 )

ライセンス: Link先を確認
Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed(参考訳) 新型コロナウイルス(covid-19)は世界経済やほぼすべての人々の日常生活に影響を与えている。 これはTwitter、Facebookなどのソーシャルメディアプラットフォームでホットな話題となっている。 これらのソーシャルメディアプラットフォームにより、ユーザーは情報を共有できる他のユーザーと情報を共有できるため、情報を広めることができる。 Twitterのretweet機能により、ユーザーは元のコンテンツを変更せずに既存のコンテンツを他のユーザーと共有できる。 ソーシャルメディアプラットフォームの分析は、予防措置を講じるパンデミック中の緊急事態を検出するのに役立つ。 このような分析の1つは、covid-19関連ツイートのリツイート数を予測することだ。 最近、CIKMは、数値機能のみの使用に焦点を当てたCOVID-19ツイートのリツイート予測チャレンジを組織した。 しかし、我々の仮説では、ツイートテキストは正確なリツイート予測において重要な役割を果たす可能性がある。 本稿では,covid-19関連リツイート予測のための数値とテキストの機能を組み合わせる。 そこで本研究では,CNNとRNNをベースとした2つのモデルを提案し,これらのモデルの性能評価を行う。 評価の結果,ツイートテキストと数値的特徴を組み合わせると,リツイート予測の性能が大幅に向上することがわかった。

COVID-19 has affected the world economy and the daily life routine of almost everyone. It has been a hot topic on social media platforms such as Twitter, Facebook, etc. These social media platforms enable users to share information with other users who can reshare this information, thus causing this information to spread. Twitter's retweet functionality allows users to share the existing content with other users without altering the original content. Analysis of social media platforms can help in detecting emergencies during pandemics that lead to taking preventive measures. One such type of analysis is predicting the number of retweets for a given COVID-19 related tweet. Recently, CIKM organized a retweet prediction challenge for COVID-19 tweets focusing on using numeric features only. However, our hypothesis is, tweet text may play a vital role in an accurate retweet prediction. In this paper, we combine numeric and text features for COVID-19 related retweet predictions. For this purpose, we propose two CNN and RNN based models and evaluate the performance of these models on a publicly available TweetsCOV19 dataset using seven different evaluation metrics. Our evaluation results show that combining tweet text with numeric features improves the performance of retweet prediction significantly.
翻訳日:2021-06-20 16:02:54 公開日:2021-05-26
# (参考訳) 量子物理学にインスパイアされた分類データの説明可能な確率的分類器 [全文訳有]

An Explainable Probabilistic Classifier for Categorical Data Inspired to Quantum Physics ( http://arxiv.org/abs/2105.13988v1 )

ライセンス: CC BY 4.0
Emanuele Guidotti, Alfio Ferrara(参考訳) 本稿では,量子物理学における状態の重ね合わせの概念に触発された分類データの教師付き分類アルゴリズムであるスパーステンソル分類器(stc)を提案する。 特徴の重ね合わせとしての観察について,機械学習における波動粒子双対性の概念を紹介し,古典確率と量子確率を統一する一般化フレームワークを提案する。 STCは、他のほとんどの機械学習手法では利用できない幅広い望ましい特性を持っているが、同時に理解や使用が極めて容易であることを示す。 構造化データとテキスト分類におけるSTCの実証的評価は,本手法が標準分類器と深層学習の両方と比較して最先端の性能を実現していることを示す。 さらに、stcは、シングルインスタンスと各ターゲットラベルの両方に対して、その予測のネイティブな説明を提供する。

This paper presents Sparse Tensor Classifier (STC), a supervised classification algorithm for categorical data inspired by the notion of superposition of states in quantum physics. By regarding an observation as a superposition of features, we introduce the concept of wave-particle duality in machine learning and propose a generalized framework that unifies the classical and the quantum probability. We show that STC possesses a wide range of desirable properties not available in most other machine learning methods but it is at the same time exceptionally easy to comprehend and use. Empirical evaluation of STC on structured data and text classification demonstrates that our methodology achieves state-of-the-art performances compared to both standard classifiers and deep learning, at the additional benefit of requiring minimal data pre-processing and hyper-parameter tuning. Moreover, STC provides a native explanation of its predictions both for single instances and for each target label globally.
翻訳日:2021-06-01 03:43:22 公開日:2021-05-26
# (参考訳) 一般化誤差関数に基づくスパース回復 [全文訳有]

Sparse recovery based on the generalized error function ( http://arxiv.org/abs/2105.13189v1 )

ライセンス: CC BY 4.0
Zhiyong Zhou(参考訳) 本稿では,一般化された誤差関数に基づく新しいスパース回復法を提案する。 理論解析と実用的なアルゴリズムの両方を提示する。 現状のスパース回収法に対する提案手法の利点を示すために, 数値解析実験を行った。 磁気共鳴画像再構成(MRI)の実用化についても検討した。

In this paper, we propose a novel sparse recovery method based on the generalized error function. Both the theoretical analysis and the practical algorithms are presented. Numerical experiments are conducted to demonstrate the advantageous performance of the proposed approach over the state-of-the-art sparse recovery methods. Its practical application in magnetic resonance imaging (MRI) reconstruction is studied as well.
翻訳日:2021-05-29 15:54:21 公開日:2021-05-26
# (参考訳) コンピュータビジョンと競合する価値: 自動化されたAltテキストで人々を記述 [全文訳有]

Computer Vision and Conflicting Values: Describing People with Automated Alt Text ( http://arxiv.org/abs/2105.12754v1 )

ライセンス: CC BY 4.0
Margot Hanley, Solon Barocas, Karen Levy, Shiri Azenkot, Helen Nissenbaum(参考訳) 研究者は最近、画像中の人の説明を自動的に生成するコンピュータビジョンの使用によって引き起こされる様々な議論の的となっている問題に注意を向けている。 これらの懸念にもかかわらず、視覚障害者や視力低下者の情報への公平なアクセスを確保するために、自動画像記述が重要なツールとなっている。 本稿では,視覚障害者のための画像のテキスト記述を基本ケーススタディとして,コンピュータビジョンを用いてアルトテキストを制作している企業が直面している倫理的ジレンマについて検討する。 まず、人種、性別、年齢などのアイデンティティカテゴリに関してfacebookが採用したポリシーと、これらの用語をaltテキストで提示するかどうかに関する同社の決定を分析する。 次に、博物館のコミュニティで実践されている代替と手動のアプローチについて記述し、博物館がどのように文化的なアーティファクトのテキスト記述に含めるべきかを決定するかに焦点を当てる。 我々はこれらの政策を比較し、対照的な点を用いて、これらの政策選択の背後にある特定の理解を特徴付ける分析フレームワークを開発する。 我々は、これらの懸念のいくつかを横取りしているように見える2つの戦略を考察し、コンピュータービジョンによるアルトテキストの自動化による規範的ジレンマを避けるための簡単な方法がないと結論づける。

Scholars have recently drawn attention to a range of controversial issues posed by the use of computer vision for automatically generating descriptions of people in images. Despite these concerns, automated image description has become an important tool to ensure equitable access to information for blind and low vision people. In this paper, we investigate the ethical dilemmas faced by companies that have adopted the use of computer vision for producing alt text: textual descriptions of images for blind and low vision people, We use Facebook's automatic alt text tool as our primary case study. First, we analyze the policies that Facebook has adopted with respect to identity categories, such as race, gender, age, etc., and the company's decisions about whether to present these terms in alt text. We then describe an alternative -- and manual -- approach practiced in the museum community, focusing on how museums determine what to include in alt text descriptions of cultural artifacts. We compare these policies, using notable points of contrast to develop an analytic framework that characterizes the particular apprehensions behind these policy choices. We conclude by considering two strategies that seem to sidestep some of these concerns, finding that there are no easy ways to avoid the normative dilemmas posed by the use of computer vision to automate alt text.
翻訳日:2021-05-29 15:28:35 公開日:2021-05-26
# (参考訳) Networked Federated Multi-Task Learning [全文訳有]

Networked Federated Multi-Task Learning ( http://arxiv.org/abs/2105.12769v1 )

ライセンス: CC BY 4.0
Yasmin SarcheshmehPour, Yu Tian, Linli Zhang, Alexander Jung(参考訳) 多くの重要なアプリケーションドメインは、異種ローカルデータセットの分散コレクションを生成する。 これらのローカルデータセットは、しばしば、ローカルデータセット間の類似性のドメイン固有の概念から生じる内在的なネットワーク構造を介して関連づけられる。 類似性の異なる概念は時空間的近接、統計的依存関係、機能的関係によって引き起こされる。 このネットワーク構造を用いて、類似のローカルデータセットをほぼ均質なトレーニングセットに適応的にプールし、カスタマイズされたモデルを学ぶ。 我々の概念的貢献は、一般化全変動(gtv)を正規化として、ネットワーク型連合学習を定式化することである。 この定式化は非常に柔軟で、ラッソやディープニューラルネットワークを含むほぼすべてのパラメトリックモデルと組み合わせることができる。 我々は、フェデレートされたマルチタスク学習に対するよく知られたアプローチを統一し、大幅に拡張する。 私たちのアルゴリズムの主な貢献は、ワイヤレスネットワーク上のエッジコンピューティングのような分散コンピューティング環境に適した、新しい連合学習アルゴリズムです。 このアルゴリズムは、処理時間や無線チャネル帯域幅などの限られた計算資源から生じるモデル誤特定や数値誤差に対して頑健である。 我々の主な技術的貢献として、我々のアルゴリズムがほぼ最適な局所モデルを学ぶように、局所モデルとそれらのネットワーク構造について正確な条件を提供する。 本研究では,ローカルモデルの(情報-)幾何とネットワークの(クラスタ-)幾何との間の興味深い相互作用を明らかにする。

Many important application domains generate distributed collections of heterogeneous local datasets. These local datasets are often related via an intrinsic network structure that arises from domain-specific notions of similarity between local datasets. Different notions of similarity are induced by spatiotemporal proximity, statistical dependencies, or functional relations. We use this network structure to adaptively pool similar local datasets into nearly homogenous training sets for learning tailored models. Our main conceptual contribution is to formulate networked federated learning using the concept of generalized total variation (GTV) minimization as a regularizer. This formulation is highly flexible and can be combined with almost any parametric model including Lasso or deep neural networks. We unify and considerably extend some well-known approaches to federated multi-task learning. Our main algorithmic contribution is a novel federated learning algorithm that is well suited for distributed computing environments such as edge computing over wireless networks. This algorithm is robust against model misspecification and numerical errors arising from limited computational resources including processing time or wireless channel bandwidth. As our main technical contribution, we offer precise conditions on the local models as well on their network structure such that our algorithm learns nearly optimal local models. Our analysis reveals an interesting interplay between the (information-) geometry of local models and the (cluster-) geometry of their network.
翻訳日:2021-05-29 14:50:46 公開日:2021-05-26
# (参考訳) 統計的深さと機械学習:関数型データ分析におけるカーネル平均埋め込みと深さ [全文訳有]

Statistical Depth Meets Machine Learning: Kernel Mean Embeddings and Depth in Functional Data Analysis ( http://arxiv.org/abs/2105.12778v1 )

ライセンス: CC BY 4.0
George Wynne and Stanislav Nagy(参考訳) 統計的深さは、ある点が基準確率測度と比較されるかを示す行為である。 深さは多変量空間や関数空間に住むデータにランキングや順序を導入することを可能にする。 広く応用され、多くの実験的な成功をおさめながら、機能深度を解析する理論的な進歩はほとんど行われていない。 本稿では、関数データに対する一般的な$h$-deepthと関連する統計深度を、統計機械学習で広く使われているカーネル平均埋め込みとみなす方法について述べる。 この接続は、関数深度の統計的性質に関するオープンな質問に対する回答を促進するとともに、関数データの深さと経験的特性関数に基づく手順のリンクを提供する。

Statistical depth is the act of gauging how representative a point is compared to a reference probability measure. The depth allows introducing rankings and orderings to data living in multivariate, or function spaces. Though widely applied and with much experimental success, little theoretical progress has been made in analysing functional depths. This article highlights how the common $h$-depth and related statistical depths for functional data can be viewed as a kernel mean embedding, a technique used widely in statistical machine learning. This connection facilitates answers to open questions regarding statistical properties of functional depths, as well as it provides a link between the depth and empirical characteristic function based procedures for functional data.
翻訳日:2021-05-29 14:22:06 公開日:2021-05-26
# (参考訳) ATRIA: In-DRAM CNN処理のためのビット並列確率的算術に基づく加速器 [全文訳有]

ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for In-DRAM CNN Processing ( http://arxiv.org/abs/2105.12781v1 )

ライセンス: CC0 1.0
Supreeth Mysore Shivanandamurthy, Ishan. G. Thakkar, Sayed Ahmad Salehi(参考訳) 機械学習と人工知能(AI)に関する現実の応用において、畳み込みニューラルネットワーク(CNN)が急速に普及し、CNN推論とトレーニングのためのハードウェアアクセラレータ設計が最近提案されている。 本稿では、エネルギー効率とCNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器ATRIAを提案する。 ATRIAはDRAMセルアレイに軽量な修正を加え、DRAM内での乗算(MAC)演算のビット並列確率演算に基づく加速度を実装する。 ATRIAは、CNN推論処理のレイテンシ、スループット、効率を大幅に改善し、わずか5連続のメモリ操作サイクルで16のMAC操作を実行する。 我々は、ATRIA上の4つのベンチマークCNNの推論タスクをマッピングし、その性能を以前の5つの最先端のDRAM CNNアクセラレータと比較した。 分析の結果,ATRIAのCNN推論精度は3.5%低下し,フレーム/秒(FPS)の最大3.2倍,効率(FPS/W/mm2)の最大10倍の改善が得られた。

With the rapidly growing use of Convolutional Neural Networks (CNNs) in real-world applications related to machine learning and Artificial Intelligence (AI), several hardware accelerator designs for CNN inference and training have been proposed recently. In this paper, we present ATRIA, a novel bit-pArallel sTochastic aRithmetic based In-DRAM Accelerator for energy-efficient and high-speed inference of CNNs. ATRIA employs light-weight modifications in DRAM cell arrays to implement bit-parallel stochastic arithmetic based acceleration of multiply-accumulate (MAC) operations inside DRAM. ATRIA significantly improves the latency, throughput, and efficiency of processing CNN inferences by performing 16 MAC operations in only five consecutive memory operation cycles. We mapped the inference tasks of four benchmark CNNs on ATRIA to compare its performance with five state-of-the-art in-DRAM CNN accelerators from prior work. The results of our analysis show that ATRIA exhibits only 3.5% drop in CNN inference accuracy and still achieves improvements of up to 3.2x in frames-per-second (FPS) and up to 10x in efficiency (FPS/W/mm2), compared to the best-performing in-DRAM accelerator from prior work.
翻訳日:2021-05-29 13:43:31 公開日:2021-05-26
# (参考訳) TexRel:関係性に関する創発的コミュニケーションのためのデータセットのグリーンファミリー [全文訳有]

TexRel: a Green Family of Datasets for Emergent Communications on Relations ( http://arxiv.org/abs/2105.12804v1 )

ライセンス: CC BY 4.0
Hugh Perkins(参考訳) 本稿では,創発的コミュニケーション,特に関係研究の場として,新しいデータセットTexRelを提案する。 他の関係データセットと比較すると、texrelは緊急通信の文脈で過剰に適合しないように十分な大きさながら、迅速なトレーニングと実験を提供する。 シンボリックインプットと比べ、TexRelはより現実的な代替手段を提供するが、効率的で学習が速い。 我々はTexRelと関連する関係データセットShapeworldを比較した。 我々は,送信側アーキテクチャ,受信側アーキテクチャ,エンドツーエンドアーキテクチャに対して,TexRelのベースライン性能結果を提供する。 形状,色,関係の文脈におけるマルチタスク学習が,精度,位相的類似性,クラスタリング精度に及ぼす影響を検討した。 潜在意味空間の拡大が構成性の指標を改善するかどうかを検討する。 我々は、texrel を用いた実験の結果の再現に関するケーススタディを最近の論文で実施し、記号入力を用いたが、texrel からの独自の非記号的インプットを用いている。

We propose a new dataset TexRel as a playground for the study of emergent communications, in particular for relations. By comparison with other relations datasets, TexRel provides rapid training and experimentation, whilst being sufficiently large to avoid overfitting in the context of emergent communications. By comparison with using symbolic inputs, TexRel provides a more realistic alternative whilst remaining efficient and fast to learn. We compare the performance of TexRel with a related relations dataset Shapeworld. We provide baseline performance results on TexRel for sender architectures, receiver architectures and end-to-end architectures. We examine the effect of multitask learning in the context of shapes, colors and relations on accuracy, topological similarity and clustering precision. We investigate whether increasing the size of the latent meaning space improves metrics of compositionality. We carry out a case-study on using TexRel to reproduce the results of an experiment in a recent paper that used symbolic inputs, but using our own non-symbolic inputs, from TexRel, instead.
翻訳日:2021-05-29 13:19:19 公開日:2021-05-26
# (参考訳) isoperimetry によるロバストネスの普遍的法則 [全文訳有]

A Universal Law of Robustness via Isoperimetry ( http://arxiv.org/abs/2105.12806v1 )

ライセンス: CC BY 4.0
S\'ebastien Bubeck, Mark Sellke(参考訳) 古典的には、パラメータの数が満たすべき方程式の数よりも大きい限り、パラメータ化されたモデルクラスとのデータの補間が可能である。 ディープラーニングにおけるファズリング現象は、モデルが古典理論が示唆するよりも多くのパラメータで訓練されていることである。 我々はこの現象の理論的説明を提案する。 広範にわたるデータ分散とモデルクラスでは、データをスムーズに補間したい場合、過剰パラメータ化が必要であることを証明します。 つまり、スムーズな補間には単なる補間よりも$d$のパラメータが必要であり、$d$は周囲のデータ次元である。 多項式サイズの重みを持つ滑らかなパラメトリケート関数クラスと、同値性を検証する共変量分布の普遍的なロバスト性法則を証明する。 2層ニューラルネットワークとガウス共変量の場合、この法則はbubeck、li、nagarajによって先行研究で予想された。

Classically, data interpolation with a parametrized model class is possible as long as the number of parameters is larger than the number of equations to be satisfied. A puzzling phenomenon in deep learning is that models are trained with many more parameters than what this classical theory would suggest. We propose a theoretical explanation for this phenomenon. We prove that for a broad class of data distributions and model classes, overparametrization is necessary if one wants to interpolate the data smoothly. Namely we show that smooth interpolation requires $d$ times more parameters than mere interpolation, where $d$ is the ambient data dimension. We prove this universal law of robustness for any smoothly parametrized function class with polynomial size weights, and any covariate distribution verifying isoperimetry. In the case of two-layers neural networks and Gaussian covariates, this law was conjectured in prior work by Bubeck, Li and Nagaraj.
翻訳日:2021-05-29 12:53:17 公開日:2021-05-26
# (参考訳) ViPTT-Net:胸部CTによる結核型分類のための時空間モデルの作成 [全文訳有]

ViPTT-Net: Video pretraining of spatio-temporal model for tuberculosis type classification from chest CT scans ( http://arxiv.org/abs/2105.12810v1 )

ライセンス: CC BY 4.0
Hasib Zunair, Aimon Rahman, and Nabeel Mohammed(参考訳) 事前トレーニングは、限られたデータから学習し、一般化を改善するためのディープラーニングワークフローへの関心を喚起した。 これは2次元画像分類タスクに共通しているが、胸部CT解釈のような3次元医療画像タスクへの応用は限られている。 胸部CT画像から結核型分類を意図した,現実的なビデオの事前学習が,スクラッチからモデルをトレーニングするよりも,パフォーマンスを向上させることができるかどうかを検討する。 空間的特徴と時間的特徴の両方を組み込んだハイブリッド畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)モデルを構築し、CTスキャンの各軸スライスから特徴を抽出し、これらの特徴のシーケンスをCTスキャンの分類のためにRNNに入力する。 我々のモデルは ViPTT-Net と呼ばれ、人間の活動のラベル付き1300本以上のビデオクリップで訓練され、その後、結核型のラベル付き胸部CTスキャンで微調整された。 ビデオ上での事前学習により表現性が向上し,カッパスコア0.17から0.35までのモデル検証性能が大幅に向上することが判明した。 ImageCLEF 2021 tuberculosis - Kappaスコア0.20のTBT分類タスクにおいて,画像情報のみを用いた最終テストにおいて,臨床メタデータを使用しない2位に到達した。 すべてのコードとモデルは利用可能である。

Pretraining has sparked groundswell of interest in deep learning workflows to learn from limited data and improve generalization. While this is common for 2D image classification tasks, its application to 3D medical imaging tasks like chest CT interpretation is limited. We explore the idea of whether pretraining a model on realistic videos could improve performance rather than training the model from scratch, intended for tuberculosis type classification from chest CT scans. To incorporate both spatial and temporal features, we develop a hybrid convolutional neural network (CNN) and recurrent neural network (RNN) model, where the features are extracted from each axial slice of the CT scan by a CNN, these sequence of image features are input to a RNN for classification of the CT scan. Our model termed as ViPTT-Net, was trained on over 1300 video clips with labels of human activities, and then fine-tuned on chest CT scans with labels of tuberculosis type. We find that pretraining the model on videos lead to better representations and significantly improved model validation performance from a kappa score of 0.17 to 0.35, especially for under-represented class samples. Our best method achieved 2nd place in the ImageCLEF 2021 Tuberculosis - TBT classification task with a kappa score of 0.20 on the final test set with only image information (without using clinical meta-data). All codes and models are made available.
翻訳日:2021-05-29 12:32:10 公開日:2021-05-26
# (参考訳) 予測保守における異常検出:時間的非教師付き異常検出アルゴリズムの新しい評価フレームワーク [全文訳有]

Anomaly Detection in Predictive Maintenance: A New Evaluation Framework for Temporal Unsupervised Anomaly Detection Algorithms ( http://arxiv.org/abs/2105.12818v1 )

ライセンス: CC0 1.0
Jacinto Carrasco, Irina Markova, David L\'opez, Ignacio Aguilera, Diego Garc\'ia, Marta Garc\'ia-Barzana, Manuel Arias-Rodil, Juli\'an Luengo, Francisco Herrera(参考訳) 異常検出の研究は、異常なインスタンスを表すものの統一的な定義を欠いている。 異常の性質自体の相違は、アルゴリズムの設計と実験の複数のパラダイムにつながる。 予測メンテナンスは特別なケースであり、異常は回避しなければならない障害を表す。 外れ値や新規性検出や時系列分類などの時系列研究は、これまで見られず正確に注釈付けされていない単一の点ではないため、この分野における異常の概念には適用されない。 さらに、注釈付き異常データがないため、多くのベンチマークは教師付きシナリオから適応される。 これらの問題に対処するために、正および負のインスタンスの概念を区間に一般化し、教師なし異常検出アルゴリズムを評価する。 また、時系列シナリオのROC曲線計算の一般化であるPreceding Window ROCの提案により、評価のための不均衡スキームも維持する。 また,この機構を確立された時系列異常検出ベンチマークから提案した一般化に適応させて早期発見に報いる。 したがって、提案は異なるシナリオに対する柔軟な評価フレームワークである。 本定義の有用性を示すために,企業ArcelorMittalが提供する実世界の時系列問題とビッグデータアルゴリズムのケーススタディを含め,提案手法と評価手法を比較した。

The research in anomaly detection lacks a unified definition of what represents an anomalous instance. Discrepancies in the nature itself of an anomaly lead to multiple paradigms of algorithms design and experimentation. Predictive maintenance is a special case, where the anomaly represents a failure that must be prevented. Related time-series research as outlier and novelty detection or time-series classification does not apply to the concept of an anomaly in this field, because they are not single points which have not been seen previously and may not be precisely annotated. Moreover, due to the lack of annotated anomalous data, many benchmarks are adapted from supervised scenarios. To address these issues, we generalise the concept of positive and negative instances to intervals to be able to evaluate unsupervised anomaly detection algorithms. We also preserve the imbalance scheme for evaluation through the proposal of the Preceding Window ROC, a generalisation for the calculation of ROC curves for time-series scenarios. We also adapt the mechanism from a established time-series anomaly detection benchmark to the proposed generalisations to reward early detection. Therefore, the proposal represents a flexible evaluation framework for the different scenarios. To show the usefulness of this definition, we include a case study of Big Data algorithms with a real-world time-series problem provided by the company ArcelorMittal, and compare the proposal with an evaluation method.
翻訳日:2021-05-29 12:18:52 公開日:2021-05-26
# (参考訳) 共通画像CNNを用いた映像中の物体検出の課題 [全文訳有]

Issues in Object Detection in Videos using Common Single-Image CNNs ( http://arxiv.org/abs/2105.12822v1 )

ライセンス: CC BY 4.0
Spencer Ploeger and Lucas Dasovic(参考訳) コンピュータビジョンの増大する分野はオブジェクト検出である。 物体検出は、産業プロセス、医療画像分析、自動運転車などの多くの用途で使われている。 ビデオ中の物体を検出する能力は重要だ。 オブジェクト検出システムは、大規模な画像データセットで訓練される。 自動運転車のようなアプリケーションにとって、オブジェクト検出システムはビデオ内の複数のフレームを通してオブジェクトを識別できることが重要である。 これらのシステムをビデオに適用するには多くの問題がある。 明るさの影や変化は、システムが誤ってオブジェクトフレームを識別し、意図しないシステム応答を引き起こす可能性がある。 オブジェクト検出に多くのニューラルネットワークが使われており、もしフレーム間でオブジェクトを接続する方法があったら、これらの問題は排除できるだろう。 これらのニューラルネットワークがビデオ内のオブジェクトの識別を良くするためには、再トレーニングが必要だ。 データセットは、連続するビデオフレームを表すイメージと、一致する地上構造層で作成されなければならない。 これらのデータセットを生成できる手法を提案する。 接地層は動く物体のみを含む。 この層を生成するために、flownet2-pytorchは、新しいマグニチュード法を用いたフローマスクの作成に使用された。 また、Mask R-CNNやRefinenetのようなネットワークを使ってセグメンテーションマスクを生成する。 これらのセグメンテーションマスクは、フレーム内で検出されたすべてのオブジェクトを含む。 このセグメンテーションマスクをフローマスク接地層と比較することにより、損失関数を生成する。 この損失関数は、ビデオ上で一貫した予測を行うためにニューラルネットワークをトレーニングするために使用できる。 システムは複数のビデオサンプルでテストされ、各フレームに損失が発生し、将来の作業でオブジェクト検出ニューラルネットワークのトレーニングに使用されるマグニチュード法の能力が証明された。

A growing branch of computer vision is object detection. Object detection is used in many applications such as industrial process, medical imaging analysis, and autonomous vehicles. The ability to detect objects in videos is crucial. Object detection systems are trained on large image datasets. For applications such as autonomous vehicles, it is crucial that the object detection system can identify objects through multiple frames in video. There are many problems with applying these systems to video. Shadows or changes in brightness that can cause the system to incorrectly identify objects frame to frame and cause an unintended system response. There are many neural networks that have been used for object detection and if there was a way of connecting objects between frames then these problems could be eliminated. For these neural networks to get better at identifying objects in video, they need to be re-trained. A dataset must be created with images that represent consecutive video frames and have matching ground-truth layers. A method is proposed that can generate these datasets. The ground-truth layer contains only moving objects. To generate this layer, FlowNet2-Pytorch was used to create the flow mask using the novel Magnitude Method. As well, a segmentation mask will be generated using networks such as Mask R-CNN or Refinenet. These segmentation masks will contain all objects detected in a frame. By comparing this segmentation mask to the flow mask ground-truth layer, a loss function is generated. This loss function can be used to train a neural network to be better at making consistent predictions on video. The system was tested on multiple video samples and a loss was generated for each frame, proving the Magnitude Method's ability to be used to train object detection neural networks in future work.
翻訳日:2021-05-29 11:52:54 公開日:2021-05-26
# (参考訳) DNNV: ディープニューラルネットワーク検証のためのフレームワーク [全文訳有]

DNNV: A Framework for Deep Neural Network Verification ( http://arxiv.org/abs/2105.12841v1 )

ライセンス: CC BY 4.0
David Shriver, Sebastian Elbaum, Matthew B. Dwyer(参考訳) 多くの高度なディープニューラルネットワーク(DNN)検証アルゴリズムにもかかわらず、DNN検証開発者、ユーザ、研究者はまだいくつかの課題に直面している。 まず、検証者は、新しいDNN操作とプロパティタイプをサポートするために、急速に変化するDNNフィールドと競合する必要がある。 第2に、検証者ユーザは、問題を特定するために検証者入力形式を選択する負担がある。 多くの入力フォーマットのため、この決定はユーザーが実行できる検証を著しく制限することができる。 最後に、研究者は、異なる検証器を実行するために必要な入力形式が多数存在するため、検証器の評価と比較を行うためのベンチマークの再使用の困難に直面している。 既存のベンチマークは、ベンチマークが導入されたもの以外の検証者がサポートするフォーマットではめったにない。 本稿では,DNN検証研究者,開発者,ユーザに対する負担を軽減するフレームワークであるDNNVを紹介する。 DNNVは入力と出力のフォーマットを標準化し、DNNプロパティを指定するためのシンプルだが表現力のあるDSLを含み、DNN検証のアプリケーション、開発、比較を容易にする強力な単純化と縮小操作を提供する。 DNNVが既存のベンチマークに対する検証サポートを30%から74%に向上することを示す。

Despite the large number of sophisticated deep neural network (DNN) verification algorithms, DNN verifier developers, users, and researchers still face several challenges. First, verifier developers must contend with the rapidly changing DNN field to support new DNN operations and property types. Second, verifier users have the burden of selecting a verifier input format to specify their problem. Due to the many input formats, this decision can greatly restrict the verifiers that a user may run. Finally, researchers face difficulties in re-using benchmarks to evaluate and compare verifiers, due to the large number of input formats required to run different verifiers. Existing benchmarks are rarely in formats supported by verifiers other than the one for which the benchmark was introduced. In this work we present DNNV, a framework for reducing the burden on DNN verifier researchers, developers, and users. DNNV standardizes input and output formats, includes a simple yet expressive DSL for specifying DNN properties, and provides powerful simplification and reduction operations to facilitate the application, development, and comparison of DNN verifiers. We show how DNNV increases the support of verifiers for existing benchmarks from 30% to 74%.
翻訳日:2021-05-29 11:42:18 公開日:2021-05-26
# (参考訳) マルチソース弱教師付き名前付きエンティティ認識のための隠れマルコフモデルの作成 [全文訳有]

BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition ( http://arxiv.org/abs/2105.12848v1 )

ライセンス: CC BY 4.0
Yinghao Li, Pranav Shetty, Lucas Liu, Chao Zhang, Le Song(参考訳) 複数の弱監督源からノイズの多いラベルを用いて、名前付きエンティティ認識(NER)モデルを学習する問題について検討する。 人間よりも安価だが、弱い情報源は通常不完全、不正確、または矛盾した予測をもたらす。 このような課題に対処するために,条件付き隠れマルコフモデル(CHMM)を提案する。 それは、教師なし学習を通じて弱いソースからラベルを集約する隠れマルコフモデルの能力を継承する。 しかし、CHMMは、入力トークンのBERT埋め込みからトークン単位の遷移と放出確率を予測することにより、隠れマルコフモデルの柔軟性とコンテキスト表現能力を高める。 さらに,CHMMの予測を交互学習アプローチ(CHMM-AlT)で洗練する。 BERTベースのNERモデルをCHMMによって推論されたラベルで微調整し、このBERT-NERの出力はCHMMを訓練するための追加の弱いソースと見なされる。 種々の領域から得られた4つのデータセットの評価から,本手法は弱視下ベースラインよりも広いマージンで優れていることが示された。

We study the problem of learning a named entity recognition (NER) model using noisy la-bels from multiple weak supervision sources. Though cheaper than human annotators, weak sources usually yield incomplete, inaccurate, or contradictory predictions. To address such challenges, we propose a conditional hidden Markov model (CHMM). It inherits the hidden Markov model's ability to aggregating the labels from weak sources through unsupervised learning. However, CHMM enhances the hidden Markov model's flexibility and context representation capability by predicting token-wise transition and emission probabilities from the BERT embeddings of the input tokens. In addition, we refine CHMM's prediction with an alternate-training approach (CHMM-AlT). It fine-tunes a BERT-based NER model with the labels inferred by CHMM, and this BERT-NER's output is regarded as an additional weak source to train the CHMM in return. Evaluation on four datasets from various domains shows that our method is superior to the weakly super-vised baselines by a wide margin.
翻訳日:2021-05-29 11:04:42 公開日:2021-05-26
# (参考訳) CARLS:クロスプラットフォーム非同期表現学習システム [全文訳有]

CARLS: Cross-platform Asynchronous Representation Learning System ( http://arxiv.org/abs/2105.12849v1 )

ライセンス: CC BY-SA 4.0
Chun-Ta Lu, Yun Zeng, Da-Cheng Juan, Yicheng Fan, Zhe Li, Jan Dlabal, Yi-Ting Chen, Arjun Gopalan, Allan Heydon, Chun-Sung Ferng, Reah Miyara, Ariel Fuxman, Futang Peng, Zhen Li, Tom Duerig, Andrew Tomkins(参考訳) 本研究では,モデルトレーナー,ナレッジメーカ,ナレッジバンクなど複数のコンポーネントをハードウェアプラットフォーム全体で非同期に連携させることにより,既存のディープラーニングフレームワークのキャパシティを向上するための新しいフレームワークであるCARLSを提案する。 提案したCARLSは、グラフニューラルネットワークのノード埋め込みやモデル予測からの信頼できる疑似ラベルなど、トレーニング中に推測または発見された追加知識からモデルトレーニングが恩恵を受ける学習パラダイムに特に適している。 また、CARLSによって効率的にスケールアップできる例として、半教師付き学習、カリキュラム学習、マルチモーダル学習の3つの学習パラダイムについて説明する。 https://github.com/t ensorflow/neural-str uctured-learning/tre e/master/research/ca rls

In this work, we propose CARLS, a novel framework for augmenting the capacity of existing deep learning frameworks by enabling multiple components -- model trainers, knowledge makers and knowledge banks -- to concertedly work together in an asynchronous fashion across hardware platforms. The proposed CARLS is particularly suitable for learning paradigms where model training benefits from additional knowledge inferred or discovered during training, such as node embeddings for graph neural networks or reliable pseudo labels from model predictions. We also describe three learning paradigms -- semi-supervised learning, curriculum learning and multimodal learning -- as examples that can be scaled up efficiently by CARLS. One version of CARLS has been open-sourced and available for download at: https://github.com/t ensorflow/neural-str uctured-learning/tre e/master/research/ca rls
翻訳日:2021-05-29 10:35:47 公開日:2021-05-26
# DSLR: 逆学習オートエンコーダを用いた動的-静的LiDARスキャン再構成

DSLR: Dynamic to Static LiDAR Scan Reconstruction Using Adversarially Trained Autoencoder ( http://arxiv.org/abs/2105.12774v1 )

ライセンス: Link先を確認
Prashant Kumar, Sabyasachi Sahoo, Vanshil Shah, Vineetha Kondameedi, Abhinav Jain, Akshaj Verma, Chiranjib Bhattacharyya, Vinay Viswanathan(参考訳) ダイナミック・トゥ・スタティック・トランスレーション (dynamic to static translation, dst) と呼ばれる動的物体を含むシーンのライダースキャンによる静的環境の正確な再構築は、自律ナビゲーションにおける重要な研究分野である。 この問題は近年、視的SLAMのために検討されているが、私たちの知る限り、DSTをLiDARスキャンに対処する作業は行われていない。 この問題は、自動運転車にLiDARが広く採用されていることによる重要な問題である。 そこで本研究では,LiDARスキャンに適用した場合に,視覚領域向けに開発された技術の現状について述べる。 我々は,動的スキャンと静的スキャンのマッピングを,対向的に訓練されたオートエンコーダを用いて学習する,深層生成モデルDSLRを開発した。 我々のモデルは、明示的なセグメンテーションラベルを使わずに静的スキャンを生成するLiDAR上のDSTの最初の解を得る。 DSLRは、ペア化された動的静的スキャンがないので、常に実世界のデータに適用できない。 本研究では,Unsupervised Domain Adaptationを用いて,実世界のデータ転送のためのDSLR-UDAを提案する。 さらに、セグメント化情報が利用可能であれば、DSLRをDSLR-Segに拡張して、再構築品質をさらに向上する。 DSLRは、シミュレートされた実世界のデータセットにアートパフォーマンスの状態を与え、少なくとも4倍の改善を示す。 既存のベースラインとは異なり、DSLRは、動的環境におけるSLAMのような自律ナビゲーションに関連するタスクの許容範囲内で、その復元品質を持つ実用的なモデルであることを示す。

Accurate reconstruction of static environments from LiDAR scans of scenes containing dynamic objects, which we refer to as Dynamic to Static Translation (DST), is an important area of research in Autonomous Navigation. This problem has been recently explored for visual SLAM, but to the best of our knowledge no work has been attempted to address DST for LiDAR scans. The problem is of critical importance due to wide-spread adoption of LiDAR in Autonomous Vehicles. We show that state-of the art methods developed for the visual domain when adapted for LiDAR scans perform poorly. We develop DSLR, a deep generative model which learns a mapping between dynamic scan to its static counterpart through an adversarially trained autoencoder. Our model yields the first solution for DST on LiDAR that generates static scans without using explicit segmentation labels. DSLR cannot always be applied to real world data due to lack of paired dynamic-static scans. Using Unsupervised Domain Adaptation, we propose DSLR-UDA for transfer to real world data and experimentally show that this performs well in real world settings. Additionally, if segmentation information is available, we extend DSLR to DSLR-Seg to further improve the reconstruction quality. DSLR gives the state of the art performance on simulated and real-world datasets and also shows at least 4x improvement. We show that DSLR, unlike the existing baselines, is a practically viable model with its reconstruction quality within the tolerable limits for tasks pertaining to autonomous navigation like SLAM in dynamic environments.
翻訳日:2021-05-28 16:43:52 公開日:2021-05-26
# データ中毒による部分依存の騙し

Fooling Partial Dependence via Data Poisoning ( http://arxiv.org/abs/2105.12837v1 )

ライセンス: Link先を確認
Hubert Baniecki, Wojciech Kretowicz, Przemyslaw Biecek(参考訳) 複雑な予測モデルを理解するために多くの手法が開発され、ホック後のモデル説明可能性に高い期待が寄せられている。 このような説明は堅牢でも信頼に値するものでもないことが分かり、騙される可能性がある。 本稿では,表型データに基づいてトレーニングされた予測モデルを説明する最も一般的な手法として,部分依存(プロット,プロファイル,PDP)攻撃手法を提案する。 特に,ブラックボックスモデルをサポートする上で,監査性が必須の特質となった金融・医療アプリケーションにおいて,PDを逆向きに操作できることを示す。 この愚かさは、データを汚染して曲げ、遺伝的アルゴリズムと勾配アルゴリズムを用いて、所望の方向に説明をシフトすることで行われる。 私たちの知る限りでは、これは変数依存の説明に対して攻撃を行う最初の仕事です。 遺伝的アルゴリズムを用いた新しいアプローチは、モデル非依存と説明非依存の両方の方法を一般化するので、非常に転送性が高い。

Many methods have been developed to understand complex predictive models and high expectations are placed on post-hoc model explainability. It turns out that such explanations are not robust nor trustworthy, and they can be fooled. This paper presents techniques for attacking Partial Dependence (plots, profiles, PDP), which are among the most popular methods of explaining any predictive model trained on tabular data. We showcase that PD can be manipulated in an adversarial manner, which is alarming, especially in financial or medical applications where auditability became a must-have trait supporting black-box models. The fooling is performed via poisoning the data to bend and shift explanations in the desired direction using genetic and gradient algorithms. To the best of our knowledge, this is the first work performing attacks on variable dependence explanations. The novel approach of using a genetic algorithm for doing so is highly transferable as it generalizes both ways: in a model-agnostic and an explanation-agnostic manner.
翻訳日:2021-05-28 16:36:21 公開日:2021-05-26
# 密度推定と近似のための拡張KRnet

Augmented KRnet for density estimation and approximation ( http://arxiv.org/abs/2105.12866v1 )

ライセンス: Link先を確認
Xiaoliang Wan and Kejun Tang(参考訳) 本研究では,離散モデルと連続モデルの両方を含む拡張KRnetを提案する。 フローベース生成モデリングの難しさの1つはトランスポートマップの可逆性を維持することである。 この正確な可逆性は、2つの分離された次元群間で情報を交換するために特定のパターンを用いて実NVPで達成されている。 KRnetは、Knothe-Rosenblatt再構成をトランスポートマップの構造に組み込むことで、データ次元間の情報交換を強化するために開発された。 正確な可逆性の維持のため、全てのデータ次元の完全な非線形更新はkrnetの3つのイテレーションを必要とする。 この問題を緩和するため、データ次元間の通信のチャネルとして機能する拡張次元を追加します。 拡張krnetでは、完全に非線形な更新が2回のイテレーションで達成される。 また、拡張KRnetは、正確な可逆性を保ち、離散化ODEに対して随伴法を定式化して正確な勾配が得られるように、ニューラルオーダの離散化として再構成可能であることを示す。 モデルの有効性を示す数値実験が実施されている。

In this work, we have proposed augmented KRnets including both discrete and continuous models. One difficulty in flow-based generative modeling is to maintain the invertibility of the transport map, which is often a trade-off between effectiveness and robustness. The exact invertibility has been achieved in the real NVP using a specific pattern to exchange information between two separated groups of dimensions. KRnet has been developed to enhance the information exchange among data dimensions by incorporating the Knothe-Rosenblatt rearrangement into the structure of the transport map. Due to the maintenance of exact invertibility, a full nonlinear update of all data dimensions needs three iterations in KRnet. To alleviate this issue, we will add augmented dimensions that act as a channel for communications among the data dimensions. In the augmented KRnet, a fully nonlinear update is achieved in two iterations. We also show that the augmented KRnet can be reformulated as the discretization of a neural ODE, where the exact invertibility is kept such that the adjoint method can be formulated with respect to the discretized ODE to obtain the exact gradient. Numerical experiments have been implemented to demonstrate the effectiveness of our models.
翻訳日:2021-05-28 16:35:54 公開日:2021-05-26
# CogView: トランスフォーマーによるテキスト-画像生成のマスタリング

CogView: Mastering Text-to-Image Generation via Transformers ( http://arxiv.org/abs/2105.13290v1 )

ライセンス: Link先を確認
Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang(参考訳) 一般領域におけるテキスト・ツー・イメージ生成は、生成モデルと相互理解の両方を必要とする、長い間オープンな問題であった。 本稿では,VQ-VAEトークンを用いた4ビリオンパラメトリックトランスであるCogViewを提案する。 また、下流の様々なタスクの微調整戦略を実証する。 スタイル学習、超解像度、テキストイメージのランキングとファッションデザイン、事前学習を安定させる方法など。 NaN損失を排除。 CogView(ゼロショット)は、ぼやけたMS COCO上で新しい最先端のFIDを実現し、以前のGANベースモデルと最近の類似のDALL-Eより優れている。

Text-to-Image generation in the general domain has long been an open problem, which requires both generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView (zero-shot) achieves a new state-of-the-art FID on blurred MS COCO, outperforms previous GAN-based models and a recent similar work DALL-E.
翻訳日:2021-05-28 16:33:43 公開日:2021-05-26
# XOmiVAE:高次元オミクスデータを用いた癌分類のための解釈可能なディープラーニングモデル

XOmiVAE: an interpretable deep learning model for cancer classification using high-dimensional omics data ( http://arxiv.org/abs/2105.12807v1 )

ライセンス: Link先を確認
Eloise Withnell, Xiaoyu Zhang, Kai Sun, Yike Guo(参考訳) ディープラーニングベースのアプローチは、オミクスデータをモデル化することを約束している。 しかし、現在の統計的および伝統的な機械学習アプローチに比べて制限の1つは、説明可能性の欠如であり、信頼性を低下させるだけでなく、"ブラックボックス"モデルから新しい知識を得る可能性を制限する。 本稿では,高次元オミクスデータを用いた癌分類のための新しい解釈可能な深層学習モデルであるxomivaeについて述べる。 XOmiVAEは、特定の予測のための各遺伝子および潜伏次元の寄与値と、遺伝子と潜伏次元の相関を得ることができる。 また、XOmiVAEは、教師なし分類と教師なしクラスタリングの結果の両方をディープラーニングネットワークから説明できることを明らかにした。 我々の知る限り、XOmiVAEは、変分オートエンコーダによって生成された新しいクラスタを説明するための、最初に活性化されたディープラーニング解釈手法の1つである。 XOmiVAEが生み出した結果は,生物医学的知識と下流タスクの性能の両方で検証された。 XOmiVAEは、ディープラーニングに基づくがん分類とクラスタリングを、生物学的アノテーションや文献を含む現在のドメイン知識と整合させ、深層学習モデルから新たなバイオメディカル知識発見の可能性を示している。 トップXOmiVAEが選択した遺伝子と次元は、がん分類の性能に大きな影響を及ぼした。 さらに,腫瘍分類のための深層学習モデルを解釈する際に重要なステップを提供する。 例えば、生物学的に意味のある背景サンプルを選択することの重要性と、潜在次元を説明するための接続重みに基づく方法の限界を示す。

Deep learning based approaches have proven promising to model omics data. However, one of the current limitations compared to statistical and traditional machine learning approaches is the lack of explainability, which not only reduces the reliability, but limits the potential for acquiring novel knowledge from unpicking the "black-box" models. Here we present XOmiVAE, a novel interpretable deep learning model for cancer classification using high-dimensional omics data. XOmiVAE is able to obtain contribution values of each gene and latent dimension for a specific prediction, and the correlation between genes and the latent dimensions. It is also revealed that XOmiVAE can explain both the supervised classification and the unsupervised clustering results from the deep learning network. To the best of our knowledge, XOmiVAE is one of the first activated-based deep learning interpretation method to explain novel clusters generated by variational autoencoders. The results generated by XOmiVAE were validated by both the biomedical knowledge and the performance of downstream tasks. XOmiVAE explanations of deep learning based cancer classification and clustering aligned with current domain knowledge including biological annotation and literature, which shows great potential for novel biomedical knowledge discovery from deep learning models. The top XOmiVAE selected genes and dimensions shown significant influence to the performance of cancer classification. Additionally, we offer important steps to consider when interpreting deep learning models for tumour classification. For instance, we demonstrate the importance of choosing background samples that makes biological sense and the limitations of connection weight based methods to explain latent dimensions.
翻訳日:2021-05-28 16:32:54 公開日:2021-05-26
# MTH-IDS:自動車用多階層ハイブリッド侵入検知システム

MTH-IDS: A Multi-Tiered Hybrid Intrusion Detection System for Internet of Vehicles ( http://arxiv.org/abs/2105.13289v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Moubayed, Abdallah Shami(参考訳) 現在、コネクテッドカーや自動運転車を含む現代の車両は、様々な機能を実装するために車内ネットワークを介して接続された多くの電子制御ユニットを含んでいる。 現代の車両は他の車両、インフラ、スマートデバイスとの通信を可能にするため、自動車からあらゆる技術を通して外部ネットワークに接続されている。 しかし、現代の車両の機能性と接続性の向上は、車内ネットワークと外部ネットワークの両方をターゲットにしたサイバー攻撃に対する脆弱性を増大させる。 車両網を確保するため、多くの研究者は悪意のあるサイバー攻撃を検出する機械学習手法を利用する侵入検知システム(idss)の開発に注力している。 本稿では,車内ネットワークと外部ネットワークの脆弱性について論じ,シグネチャベースIDSと異常ベースIDSを組み合わせた多層ハイブリッドIDSを提案し,車両ネットワークに対する既知の攻撃と未知の攻撃の両方を検出する。 実験の結果,車載ネットワークデータを表すCAN-Intrusion-datase tでは99.99%,外部車載ネットワークデータを示すCICIDS2017データセットでは99.88%の精度で,様々な種類の既知の攻撃を検出できることがわかった。 ゼロデイアタック検出では、上記の2つのデータセットでそれぞれ0.963と0.800のF1スコアを達成する。 車両レベルマシンにおける各データパケットの平均処理時間は0.6ms以下であり、リアルタイム車両システムにおける提案システムの実現可能性を示している。 これにより提案したIDSの有効性と効率性が強調される。

Modern vehicles, including connected vehicles and autonomous vehicles, nowadays involve many electronic control units connected through intra-vehicle networks to implement various functionalities and perform actions. Modern vehicles are also connected to external networks through vehicle-to-everythin g technologies, enabling their communications with other vehicles, infrastructures, and smart devices. However, the improving functionality and connectivity of modern vehicles also increase their vulnerabilities to cyber-attacks targeting both intra-vehicle and external networks due to the large attack surfaces. To secure vehicular networks, many researchers have focused on developing intrusion detection systems (IDSs) that capitalize on machine learning methods to detect malicious cyber-attacks. In this paper, the vulnerabilities of intra-vehicle and external networks are discussed, and a multi-tiered hybrid IDS that incorporates a signature-based IDS and an anomaly-based IDS is proposed to detect both known and unknown attacks on vehicular networks. Experimental results illustrate that the proposed system can detect various types of known attacks with 99.99% accuracy on the CAN-intrusion-datase t representing the intra-vehicle network data and 99.88% accuracy on the CICIDS2017 dataset illustrating the external vehicular network data. For the zero-day attack detection, the proposed system achieves high F1-scores of 0.963 and 0.800 on the above two datasets, respectively. The average processing time of each data packet on a vehicle-level machine is less than 0.6 ms, which shows the feasibility of implementing the proposed system in real-time vehicle systems. This emphasizes the effectiveness and efficiency of the proposed IDS.
翻訳日:2021-05-28 16:32:12 公開日:2021-05-26
# ルーデム記述に基づく一般ゲームヒューリスティック予測

General Game Heuristic Prediction Based on Ludeme Descriptions ( http://arxiv.org/abs/2105.12846v1 )

ライセンス: Link先を確認
Matthew Stephenson, Dennis J. N. J. Soemers, Eric Piette, Cameron Browne(参考訳) 本稿では,ludii汎用ゲームシステムにおけるゲーム用汎用ゲームヒューリスティックの性能について検討する。 これらの結果に基づいて,各ゲーム記述ファイルに基づいて,これらのヒューリスティックスの性能を予測するために,回帰学習モデルを訓練する。 ludiiで利用可能なゲームと、それらを定義する異なるludemの凝縮した分析も提供します。

This paper investigates the performance of different general-game-playing heuristics for games in the Ludii general game system. Based on these results, we train several regression learning models to predict the performance of these heuristics based on each game's description file. We also provide a condensed analysis of the games available in Ludii, and the different ludemes that define them.
翻訳日:2021-05-28 16:25:34 公開日:2021-05-26
# 魚眼カメラを用いたワイヤレス充電アライメントのオンライン学習システム

An Online Learning System for Wireless Charging Alignment using Surround-view Fisheye Cameras ( http://arxiv.org/abs/2105.12763v1 )

ライセンス: Link先を確認
Ashok Dahal, Varun Ravi Kumar, Senthil Yogamani and Ciaran Eising(参考訳) 電気自動車はますます一般的になり、誘導充電パッドは電気自動車を充電するための便利で効率的な手段と考えられている。 しかし、ドライバは通常、効率的な誘導充電に必要な精度で車両を調整できないため、2つの充電プレートの自動アライメントが望ましい。 車両車両の電化と並行して、サラウンドビューカメラシステムを利用した自動駐車システムが人気が高まっている。 本研究では,車体を誘導充電パッドで検出し,位置決めし,自動調整するサラウンドビューカメラアーキテクチャに基づくシステムを提案する。 チャージパッドのビジュアルデザインは標準化されておらず、事前には知られていない。 したがって、オフライントレーニングに依存するシステムは、いくつかの状況で失敗する。 そこで本研究では,車両とチャージパッドを手動で連携させ,セマンティクスセグメンテーションや奥行きからの弱い監督と組み合わせることで,ビデオ内のチャージパッドを自動注釈する分類器を学習し,さらなるトレーニングを行うオンライン学習手法を提案する。 このように、これまで見えない充電パッドに直面した場合、ドライバーは1回だけ手動で車両を調整する必要がある。 充電パッドは地面に平らであるため、距離から検出するのは容易ではない。 そこで我々は,より広い範囲からのアライメントを可能にするために,Visual SLAMパイプラインを用いて充電パッドに対するランドマークを学習する。 ビデオhttps://youtu.be/_cl cmkw4uyoに示されているように、自動走行車の作業システムを示す。 さらなる研究を奨励するために、本研究で使用されるchargepadデータセットを共有します。

Electric Vehicles are increasingly common, with inductive chargepads being considered a convenient and efficient means of charging electric vehicles. However, drivers are typically poor at aligning the vehicle to the necessary accuracy for efficient inductive charging, making the automated alignment of the two charging plates desirable. In parallel to the electrification of the vehicular fleet, automated parking systems that make use of surround-view camera systems are becoming increasingly popular. In this work, we propose a system based on the surround-view camera architecture to detect, localize and automatically align the vehicle with the inductive chargepad. The visual design of the chargepads is not standardized and not necessarily known beforehand. Therefore a system that relies on offline training will fail in some situations. Thus we propose an online learning method that leverages the driver's actions when manually aligning the vehicle with the chargepad and combine it with weak supervision from semantic segmentation and depth to learn a classifier to auto-annotate the chargepad in the video for further training. In this way, when faced with a previously unseen chargepad, the driver needs only manually align the vehicle a single time. As the chargepad is flat on the ground, it is not easy to detect it from a distance. Thus, we propose using a Visual SLAM pipeline to learn landmarks relative to the chargepad to enable alignment from a greater range. We demonstrate the working system on an automated vehicle as illustrated in the video https://youtu.be/_cL CmkW4UYo. To encourage further research, we will share a chargepad dataset used in this work.
翻訳日:2021-05-28 16:24:32 公開日:2021-05-26
# cofga:航空画像からの物体の細粒度分類のためのデータセット

cofga: A Dataset for Fine Grained Classification of Objects from Aerial Imagery ( http://arxiv.org/abs/2105.12786v1 )

ライセンス: Link先を確認
Eran Dahan, Tzvi Diskin, Amit Amram, Amit Moryossef, Omer Koren(参考訳) 頭上画像における物体の検出と分類は、コンピュータビジョンにおいて重要な2つの問題である。 この領域の様々な研究領域の中で、高解像度衛星や空中撮像装置の最近の進歩により、様々な実世界の応用において、物体のきめ細かい分類が広く行われている。 クラス間の小さなバリエーションと粒度の細かい性質によって引き起こされる大きなクラス内変異は、特に低リソースの場合において難しい課題となる。 本稿では,細粒度分類研究の進展に向けて,新しいオープンデータセットcofgaを提案する。 2,104枚の画像は、515cmの地上サンプリング距離で空中撮像システムから収集され、ほとんどの公共のオーバーヘッド画像データセットよりも高い空間分解能を提供する。 データセット中の14256個の注釈付きオブジェクトは、2つのクラス、15のサブクラス、14のユニークな特徴、8の知覚された色に分類され、37の異なるラベルが付けられ、他のどの画像データセットよりもきめ細かい分類に適している。 我々はCOFGAを他のオーバーヘッド画像データセットと比較し、このタスクのために実施したオープンデータサイエンスコンペティションで行われた、いくつかの際立った微粒分類アプローチについて述べる。

Detection and classification of objects in overhead images are two important and challenging problems in computer vision. Among various research areas in this domain, the task of fine-grained classification of objects in overhead images has become ubiquitous in diverse real-world applications, due to recent advances in high-resolution satellite and airborne imaging systems. The small inter-class variations and the large intra class variations caused by the fine grained nature make it a challenging task, especially in low-resource cases. In this paper, we introduce COFGA a new open dataset for the advancement of fine-grained classification research. The 2,104 images in the dataset are collected from an airborne imaging system at 5 15 cm ground sampling distance, providing higher spatial resolution than most public overhead imagery datasets. The 14,256 annotated objects in the dataset were classified into 2 classes, 15 subclasses, 14 unique features, and 8 perceived colors a total of 37 distinct labels making it suitable to the task of fine-grained classification more than any other publicly available overhead imagery dataset. We compare COFGA to other overhead imagery datasets and then describe some distinguished fine-grain classification approaches that were explored during an open data-science competition we have conducted for this task.
翻訳日:2021-05-28 16:23:53 公開日:2021-05-26
# RSCA:リアルタイムセグメンテーションに基づくコンテキスト認識テキスト検出

RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection ( http://arxiv.org/abs/2105.12789v1 )

ライセンス: Link先を確認
Jiachen Li, Yuan Lin, Rongrong Liu, Chiu Man Ho and Humphrey Shi(参考訳) 近年,曲面テキストインスタンス上で正確なピクセルレベルの予測を行い,アンカーの処理に時間を要することなくリアルタイムの推論を容易にするため,任意の形状のテキスト検出にシーンテキスト検出法が広く採用されている。 しかし、現在のセグメンテーションベースのモデルは、曲面テキストの形状を学べず、しばしばより正確な検出のために複雑なラベル割り当てや繰り返し機能集約を必要とする。 本稿では,局所的な空間的変換をモデル化し,ラベルの割り当てを個別に単純化した,局所的コンテキスト・アウェア・アップサンプリングと動的テキスト・スピネル・ラベリングという2つの手法を用いて,シーンテキスト検出のための強固なベースラインを設定する,任意の形状のシーンテキスト検出のためのリアルタイムセグメンテーションに基づくコンテキスト・アウェアモデルを提案する。 これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。 提案手法の有効性を検証するため,複数のベンチマーク実験を行った。 RSCA-640は、CTW1500データセット上の48.3 FPSで83.9%のF測定値に達した。

Segmentation-based scene text detection methods have been widely adopted for arbitrary-shaped text detection recently, since they make accurate pixel-level predictions on curved text instances and can facilitate real-time inference without time-consuming processing on anchors. However, current segmentation-based models are unable to learn the shapes of curved texts and often require complex label assignments or repeated feature aggregations for more accurate detection. In this paper, we propose RSCA: a Real-time Segmentation-based Context-Aware model for arbitrary-shaped scene text detection, which sets a strong baseline for scene text detection with two simple yet effective strategies: Local Context-Aware Upsampling and Dynamic Text-Spine Labeling, which model local spatial transformation and simplify label assignments separately. Based on these strategies, RSCA achieves state-of-the-art performance in both speed and accuracy, without complex label assignments or repeated feature aggregations. We conduct extensive experiments on multiple benchmarks to validate the effectiveness of our method. RSCA-640 reaches 83.9% F-measure at 48.3 FPS on CTW1500 dataset.
翻訳日:2021-05-28 16:23:16 公開日:2021-05-26
# ソーシャルメディア投稿におけるマルチモーダルセマンティック不整合検出

Multi-Modal Semantic Inconsistency Detection in Social Media News Posts ( http://arxiv.org/abs/2105.12855v1 )

ライセンス: Link先を確認
Scott McCrae, Kehan Wang, Avideh Zakhor(参考訳) コンピュータ生成コンテンツやディープフェイクが着実に改善されるにつれて、マルチメディアの法医学へのセマンティックアプローチがより重要になる。 本稿では,ソーシャルメディアのニュース投稿におけるビデオの出現とテキストキャプションのセマンティックな矛盾を識別する新しい分類アーキテクチャを提案する。 本研究では,キャプションのテキスト解析,音声自動転写,セマンティックビデオ解析,オブジェクト検出,名前付きエンティティ一貫性,顔認証に基づくアンサンブル手法を用いて,ソーシャルメディア投稿中の動画とキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。 このアプローチをトレーニングし、テストするために、分析のために、4000の現実世界のFacebookニュース投稿からなるビデオベースのデータセットをキュレートする。 マルチモーダルアプローチは、キャプションと外観のランダムなミスマッチに対して60.5%の精度を達成し、ユニモーダルモデルの精度は50%以下である。 さらにアブレーション研究は、意味的不整合を正しく識別するために、モダリティ間の融合の必要性を確認する。

As computer-generated content and deepfakes make steady improvements, semantic approaches to multimedia forensics will become more important. In this paper, we introduce a novel classification architecture for identifying semantic inconsistencies between video appearance and text caption in social media news posts. We develop a multi-modal fusion framework to identify mismatches between videos and captions in social media posts by leveraging an ensemble method based on textual analysis of the caption, automatic audio transcription, semantic video analysis, object detection, named entity consistency, and facial verification. To train and test our approach, we curate a new video-based dataset of 4,000 real-world Facebook news posts for analysis. Our multi-modal approach achieves 60.5% classification accuracy on random mismatches between caption and appearance, compared to accuracy below 50% for uni-modal models. Further ablation studies confirm the necessity of fusion across modalities for correctly identifying semantic inconsistencies.
翻訳日:2021-05-28 16:22:44 公開日:2021-05-26
# 科学的画像偽造検知器のベンチマーク

Benchmarking Scientific Image Forgery Detectors ( http://arxiv.org/abs/2105.12872v1 )

ライセンス: Link先を確認
Jo\~ao P. Cardenuto, Anderson Rocha(参考訳) 科学的画像整合性領域は、困難な研究ボトルネックを示し、法医学的手法の設計と評価に利用可能なデータセットが欠如している。 そのデータ感度は法的なハードルを生み出し、あらゆる種類のアクセス可能な法医学ベンチマークを構築するために、実際の改ざんされたケースに頼ることを防ぎます。 このボトルネックを緩和するため,研究の完全性コミュニティが報告した最も一般的な画像偽造操作を再現する拡張可能なオープンソースライブラリを提案する。 このライブラリと現実的な科学的画像を用いて、豊富な地上構造を持つ巨大な科学的偽画像ベンチマーク(39,423画像)を作成する。 さらに,画像重複による抽出論文の多さを考慮し,提案したデータセットにおける最先端の複写移動検出手法を,ソースとコピー領域との整合性を主張する新たな指標を用いて評価する。 データセットとソースコードは、論文の受理時に自由に利用できる。

The scientific image integrity area presents a challenging research bottleneck, the lack of available datasets to design and evaluate forensic techniques. Its data sensitivity creates a legal hurdle that prevents one to rely on real tampered cases to build any sort of accessible forensic benchmark. To mitigate this bottleneck, we present an extendable open-source library that reproduces the most common image forgery operations reported by the research integrity community: duplication, retouching, and cleaning. Using this library and realistic scientific images, we create a large scientific forgery image benchmark (39,423 images) with an enriched ground-truth. In addition, concerned about the high number of retracted papers due to image duplication, this work evaluates the state-of-the-art copy-move detection methods in the proposed dataset, using a new metric that asserts consistent match detection between the source and the copied region. The dataset and source-code will be freely available upon acceptance of the paper.
翻訳日:2021-05-28 16:22:15 公開日:2021-05-26
# クラウドソーシングにおける不正資格労働の定量化と回避

Quantifying and Avoiding Unfair Qualification Labour in Crowdsourcing ( http://arxiv.org/abs/2105.12762v1 )

ライセンス: Link先を確認
Jonathan K. Kummerfeld(参考訳) 大規模な労働は、少なくとも連邦政府の最低賃金に相当する賃金を群衆労働者に支払うことに賛成している。 一方、高品質なアノテーションの収集に関する調査は、作業者が以前一定のタスクを完了したことを要求した資格の使用を示唆している。 まともな給与を払えば、労働者がすでに多くの仕事をこなす必要がある場合、労働者は、公正な賃金を得る前に、相当な低賃金の仕事を完成させる必要がある。 労働者の議論の分析と研究者の指導を通じて、労働者は、より良い有給タスクに必要な資格を得るために、有給タスクに約2.25ヶ月を費やすと見積もっている。 本研究では,2つのNLPタスクにおける資格と作業品質の相関性について検討する。 高品質なデータを収集しながら作業者の負担を軽減することが可能である。

Extensive work has argued in favour of paying crowd workers a wage that is at least equivalent to the U.S. federal minimum wage. Meanwhile, research on collecting high quality annotations suggests using a qualification that requires workers to have previously completed a certain number of tasks. If most requesters who pay fairly require workers to have completed a large number of tasks already then workers need to complete a substantial amount of poorly paid work before they can earn a fair wage. Through analysis of worker discussions and guidance for researchers, we estimate that workers spend approximately 2.25 months of full time effort on poorly paid tasks in order to get the qualifications needed for better paid tasks. We discuss alternatives to this qualification and conduct a study of the correlation between qualifications and work quality on two NLP tasks. We find that it is possible to reduce the burden on workers while still collecting high quality data.
翻訳日:2021-05-28 16:17:44 公開日:2021-05-26
# Convex Combination Belief Propagation Algorithms

Convex Combination Belief Propagation Algorithms ( http://arxiv.org/abs/2105.12815v1 )

ライセンス: Link先を確認
Anna Grim and Pedro Felzenszwalb(参考訳) グラフィカルモデルを用いた推論のための新しいメッセージパッシングアルゴリズムを提案する。 標準 min-sum および sum-product belief propagation アルゴリズムは、グラフが木構造であるときに収束することが保証されるが、収束せず、グラフが周期を含むとき初期化に敏感である。 本稿では,グラフのトポロジによらず,一意解に収束することが保証される標準信念伝搬アルゴリズムの変更について述べる。

We introduce new message passing algorithms for inference with graphical models. The standard min-sum and sum-product belief propagation algorithms are guaranteed to converge when the graph is tree-structured, but may not converge and can be sensitive to the initialization when the graph contains cycles. This paper describes modifications to the standard belief propagation algorithms that are guaranteed to converge to a unique solution regardless of the topology of the graph.
翻訳日:2021-05-28 16:13:24 公開日:2021-05-26
# trade the event: ニュースベースのイベント駆動トレーディングのための企業イベント検出

Trade the Event: Corporate Events Detection for News-Based Event-Driven Trading ( http://arxiv.org/abs/2105.12825v1 )

ライセンス: Link先を確認
Zhihan Zhou, Liqian Ma, Han Liu(参考訳) 本稿では、ニュース記事から企業イベントを検知して株価変動を予測するイベント駆動取引戦略を提案する。 テキストの特徴(例:back-of-words)や感情を利用して直接株価を予測する既存のモデルとは異なり、企業イベントを株価運動の原動力とみなし、企業イベントの発生時に起こりうる一時的な株価過誤から利益を得る。 提案する戦略の中核は、双方向イベント検出モデルである。 低レベルイベント検出器は各トークンからイベントの存在を識別し、高レベルイベント検出器は記事全体の表現と低レベル検出結果を統合して、記事レベルのイベントを検出する。 また,企業イベント検出およびニュースに基づく株価予測ベンチマークのための,詳細な注釈付きデータセットedtを開発した。 EDTには9721のニュース記事、トークンレベルのイベントラベル、303893のニュース記事、ミニレベルタイムスタンプ、総合的な株価ラベルが含まれている。 EDTの実験では、提案された戦略が勝利率のベースライン、市場の過剰なリターン、各取引における平均リターンを上回ります。

In this paper, we introduce an event-driven trading strategy that predicts stock movements by detecting corporate events from news articles. Unlike existing models that utilize textual features (e.g., bag-of-words) and sentiments to directly make stock predictions, we consider corporate events as the driving force behind stock movements and aim to profit from the temporary stock mispricing that may occur when corporate events take place. The core of the proposed strategy is a bi-level event detection model. The low-level event detector identifies events' existences from each token, while the high-level event detector incorporates the entire article's representation and the low-level detected results to discover events at the article-level. We also develop an elaborately-annotate d dataset EDT for corporate event detection and news-based stock prediction benchmark. EDT includes 9721 news articles with token-level event labels as well as 303893 news articles with minute-level timestamps and comprehensive stock price labels. Experiments on EDT indicate that the proposed strategy outperforms all the baselines in winning rate, excess returns over the market, and the average return on each transaction.
翻訳日:2021-05-28 16:10:36 公開日:2021-05-26
# DFPN: 変形可能なフレーム予測ネットワーク

DFPN: Deformable Frame Prediction Network ( http://arxiv.org/abs/2105.12794v1 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, A. Murat Tekalp(参考訳) 学習フレーム予測は、コンピュータビジョンとビデオ圧縮に現在関心がある問題である。 フレーム予測を学習するためにいくつかの深層ネットワークアーキテクチャが提案されているが、私たちの知る限りでは、フレーム予測に変形可能な畳み込みを用いることに基づく作業はない。 本研究では,タスク指向の暗黙動作モデリングと次のフレーム予測のための変形可能なフレーム予測ネットワーク(DFPN)を提案する。 実験の結果, dfpnモデルにより, 次のフレーム予測において, 技術結果が得られた。 私たちのモデルと結果はhttps://github.com/m akinyilmaz/dfpn.comで閲覧できます。

Learned frame prediction is a current problem of interest in computer vision and video compression. Although several deep network architectures have been proposed for learned frame prediction, to the best of our knowledge, there is no work based on using deformable convolutions for frame prediction. To this effect, we propose a deformable frame prediction network (DFPN) for task oriented implicit motion modeling and next frame prediction. Experimental results demonstrate that the proposed DFPN model achieves state of the art results in next frame prediction. Our models and results are available at https://github.com/m akinyilmaz/DFPN.
翻訳日:2021-05-28 16:09:05 公開日:2021-05-26
# HDXplore:脳にインスパイアされた超次元コンピューティングのブラックボックス自動テスト

HDXplore: Automated Blackbox Testing of Brain-Inspired Hyperdimensional Computing ( http://arxiv.org/abs/2105.12770v1 )

ライセンス: Link先を確認
Rahul Thapa, Dongning Ma, Xun Jiao(参考訳) 人間の脳の働きに触発されて、新しい超次元コンピューティング(HDC)がますます注目を集めている。 HDCは、実際の数値ではなく、神経活動の深い抽象的なパターンで計算する脳の動作メカニズムに基づく、新たなコンピューティングスキームである。 DNNのような従来のMLアルゴリズムと比較して、HDCはよりメモリ中心であり、比較的小さなモデルサイズ、少ない計算コスト、ワンショット学習などの利点を与え、低コストのコンピューティングプラットフォームにおいて有望な候補となる。 しかし、HDCモデルの堅牢性は体系的に研究されていない。 本稿では,blackbox differential testingベースのフレームワークであるhdxploreの開発により,hdcモデルの予期せぬ動作や不正確な動作を体系的に明らかにする。 我々は,複数のHDCモデルを相互参照オラクルと同じような機能で利用し,手動による入力のチェックやラベル付けを避ける。 また,HDXploreで異なる摂動機構を提案する。 HDXploreは、HDCモデルの何千もの誤ったコーナーケースの振る舞いを自動的に見つける。 本稿では,HDXploreが生成したコーナーケースを用いてHDCモデルを再学習し,最大9%の精度でモデルの精度を向上させることを提案する。

Inspired by the way human brain works, the emerging hyperdimensional computing (HDC) is getting more and more attention. HDC is an emerging computing scheme based on the working mechanism of brain that computes with deep and abstract patterns of neural activity instead of actual numbers. Compared with traditional ML algorithms such as DNN, HDC is more memory-centric, granting it advantages such as relatively smaller model size, less computation cost, and one-shot learning, making it a promising candidate in low-cost computing platforms. However, the robustness of HDC models have not been systematically studied. In this paper, we systematically expose the unexpected or incorrect behaviors of HDC models by developing HDXplore, a blackbox differential testing-based framework. We leverage multiple HDC models with similar functionality as cross-referencing oracles to avoid manual checking or labeling the original input. We also propose different perturbation mechanisms in HDXplore. HDXplore automatically finds thousands of incorrect corner case behaviors of the HDC model. We propose two retraining mechanisms and using the corner cases generated by HDXplore to retrain the HDC model, we can improve the model accuracy by up to 9%.
翻訳日:2021-05-28 16:06:19 公開日:2021-05-26
# 自己監視バグ検出と修復

Self-Supervised Bug Detection and Repair ( http://arxiv.org/abs/2105.12787v1 )

ライセンス: Link先を確認
Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt(参考訳) 機械学習に基づくプログラム分析は、ソフトウェア開発を支援するための形式的および確率論的推論を統合するという約束を最近示した。 しかし,大規模なコーパスが存在しないため,これらの分析の訓練は困難である。 そこで本研究では,バグ検出と修復の自己教師型学習手法であるBugLabを紹介する。 buglabは,(1)コードのバグの検出と修復を学ぶ検出器モデル,(2)検出者がトレーニングデータとして使用するバギーコードを作成することを学ぶセレクタモデル,の2つのモデルを共同でトレーニングする。 buglabのpython実装は、2374の実際のバグのテストデータセットでベースラインメソッドを最大30%改善し、19の未知のバグをオープンソースソフトウェアで発見する。

Machine learning-based program analyses have recently shown the promise of integrating formal and probabilistic reasoning towards aiding software development. However, in the absence of large annotated corpora, training these analyses is challenging. Towards addressing this, we present BugLab, an approach for self-supervised learning of bug detection and repair. BugLab co-trains two models: (1) a detector model that learns to detect and repair bugs in code, (2) a selector model that learns to create buggy code for the detector to use as training data. A Python implementation of BugLab improves by up to 30% upon baseline methods on a test dataset of 2374 real-life bugs and finds 19 previously unknown bugs in open-source software.
翻訳日:2021-05-28 16:05:46 公開日:2021-05-26
# スマートフォンを見込み客に推薦するハイブリッドレコメンダシステム

A Hybrid Recommender System for Recommending Smartphones to Prospective Customers ( http://arxiv.org/abs/2105.12876v1 )

ライセンス: Link先を確認
Pratik K. Biswas, Songlin Liu(参考訳) レコメンダシステムは、高度な情報フィルタリング戦略を用いて検索時間を短縮し、特定のユーザに最も関連する項目を提案する機械学習システムのサブクラスである。 ハイブリッドレコメンデータシステムは、補完的な利点の恩恵を受けるために、さまざまな方法で複数のレコメンデーション戦略を組み合わせる。 いくつかのハイブリッドレコメンデータシステムは、より堅牢なビルドシステムに対する協調フィルタリングとコンテンツベースのアプローチを組み合わせています。 本稿では,代替最小二乗法(als)に基づくコラボレーティブフィルタリングとディープラーニングを組み合わせることにより,コラボレーティブなフィルタリング手法,特にコールドスタート問題に関する制限を克服したハイブリッドレコメンダシステムを提案する。 本質的に、我々はALS(協調フィルタリング)の出力を用いて、ビッグデータ処理フレームワークにおける特徴、文脈、構造、シーケンシャルな情報を組み合わせたディープニューラルネットワーク(DNN)のレコメンデーションに影響を与える。 我々は,提案するハイブリッドアーキテクチャの有効性を検証する実験を,スマートフォンを顧客に推奨し,その性能を他のオープンソースレコメンデータと比較した。 その結果,提案システムは既存のハイブリッドレコメンダシステムよりも優れていることがわかった。

Recommender Systems are a subclass of machine learning systems that employ sophisticated information filtering strategies to reduce the search time and suggest the most relevant items to any particular user. Hybrid recommender systems combine multiple recommendation strategies in different ways to benefit from their complementary advantages. Some hybrid recommender systems have combined collaborative filtering and content-based approaches to build systems that are more robust. In this paper, we propose a hybrid recommender system, which combines Alternative Least Squares (ALS) based collaborative filtering with deep learning to enhance recommendation performance as well as overcome the limitations associated with the collaborative filtering approach, especially concerning its cold start problem. In essence, we use the outputs from ALS (collaborative filtering) to influence the recommendations from a Deep Neural Network (DNN), which combines characteristic, contextual, structural and sequential information, in a big data processing framework. We have conducted several experiments in testing the efficacy of the proposed hybrid architecture in recommending smartphones to prospective customers and compared its performance with other open-source recommenders. The results have shown that the proposed system has outperformed several existing hybrid recommender systems.
翻訳日:2021-05-28 16:05:26 公開日:2021-05-26
# シーケンス並列性:4D並列性を実現する

Sequence Parallelism: Making 4D Parallelism Possible ( http://arxiv.org/abs/2105.13120v1 )

ライセンス: Link先を確認
Shenggui Li, Fuzhao Xue, Yongbin Li, Yang You(参考訳) トランスフォーマでは、セルフアテンションが強力なコンテキスト認識表現を学ぶためのキーモジュールである。 しかし、自己注意はシーケンス長に関して二次記憶要求に悩まされ、GPU上でより長いシーケンスを処理することが制限される。 本稿では,入力シーケンス長制限を破ってgpu上で長いシーケンスでトレーニングするメモリ効率のよい並列処理手法であるsequence parallelismを提案する。 既存の並列処理と比較して、我々のアプローチはシーケンス全体を保持するために単一のデバイスを必要としない。 具体的には、入力シーケンスを複数のチャンクに分割し、各チャンクを対応するデバイス(すなわち、)に供給する。 GPU)。 注意出力を計算するため、GPU間の注意埋め込みを通信する。 リングオールリデューサにインスパイアされたリング型通信と自己注意計算を統合し,リング自己注意(RSA)を提案する。 私たちの実装は完全にPyTorchをベースにしています。 追加のコンパイラやライブラリの変更がなければ、このアプローチはデータ並列処理やパイプライン並列処理と互換性があります。 実験の結果,バッチサイズやシーケンス長のスケーリングでは,シーケンス並列性が良好に動作することがわかった。 テンソル並列処理と比較して、64 nvidia p100 gpuまでスケールアップすると、それぞれ13.7\times$と$3.0\times$のバッチサイズとシーケンス長がそれぞれ達成された。 今後,データ,パイプライン,テンソル並列処理とシーケンシャル並列処理を統合して,4次元並列処理による大規模モデルをさらにトレーニングする予定です。

Within Transformer, self-attention is the key module to learn powerful context-aware representations. However, self-attention suffers from quadratic memory requirements with respect to the sequence length, which limits us to process longer sequence on GPU. In this work, we propose sequence parallelism, a memory efficient parallelism method to help us break input sequence length limitation and train with longer sequence on GPUs. Compared with existing parallelism, our approach no longer requires a single device to hold the whole sequence. Specifically, we split the input sequence into multiple chunks and feed each chunk into its corresponding device (i.e. GPU). To compute the attention output, we communicate attention embeddings among GPUs. Inspired by ring all-reduce, we integrated ring-style communication with self-attention calculation and proposed Ring Self-Attention (RSA). Our implementation is fully based on PyTorch. Without extra compiler or library changes, our approach is compatible with data parallelism and pipeline parallelism. Experiments show that sequence parallelism performs well when scaling with batch size and sequence length. Compared with tensor parallelism, our approach achieved $13.7\times$ and $3.0\times$ maximum batch size and sequence length respectively when scaling up to 64 NVIDIA P100 GPUs. We plan to integrate our sequence parallelism with data, pipeline and tensor parallelism to further train large-scale models with 4D parallelism in our future work.
翻訳日:2021-05-28 16:04:22 公開日:2021-05-26
# 圧縮センシングに基づく再構成と推論のための深層学習技術 -ユビキタスシステムの視点から

Deep Learning Techniques for Compressive Sensing-Based Reconstruction and Inference -- A Ubiquitous Systems Perspective ( http://arxiv.org/abs/2105.13191v1 )

ライセンス: Link先を確認
Alina L. Machidon and Veljko Pejovic(参考訳) 圧縮センシング(CS)は、サンプリング率を減らす数学的にエレガントなツールであり、より広い範囲のデバイスにコンテキスト認識をもたらす可能性がある。 それにもかかわらず、サンプリングと再構成アルゴリズムの実践的な問題は、特に異種ユビキタスデバイスにおいて、現実世界領域におけるCSのさらなる増殖を妨げる。 深層学習(DL)は、サンプリング行列を適応し、信号を再構成し、圧縮されたサンプルを学習するためのCSを自然に補完する。 CS-DL統合は近年、かなりの研究関心を集めているが、まだ徹底的な調査は行われておらず、Ubicompドメインの現実の実装にCS-DLを導入するための実践的な問題にも光を当てていない。 本稿では,CS-DLを効率的にするための主要なアイデアを抽出し,CS-DL研究空間における主要なトレンドを特定し,Ubicompドメイン内でのCS-DLの今後の進化に関するガイドラインを導出する。

Compressive sensing (CS) is a mathematically elegant tool for reducing the sampling rate, potentially bringing context-awareness to a wider range of devices. Nevertheless, practical issues with the sampling and reconstruction algorithms prevent further proliferation of CS in real world domains, especially among heterogeneous ubiquitous devices. Deep learning (DL) naturally complements CS for adapting the sampling matrix, reconstructing the signal, and learning form the compressed samples. While the CS-DL integration has received substantial research interest recently, it has not yet been thoroughly surveyed, nor has the light been shed on practical issues towards bringing the CS-DL to real world implementations in the ubicomp domain. In this paper we identify main possible ways in which CS and DL can interplay, extract key ideas for making CS-DL efficient, identify major trends in CS-DL research space, and derive guidelines for future evolution of CS-DL within the ubicomp domain.
翻訳日:2021-05-28 16:03:06 公開日:2021-05-26
# PyTouch: タッチ処理のための機械学習ライブラリ

PyTouch: A Machine Learning Library for Touch Processing ( http://arxiv.org/abs/2105.12791v1 )

ライセンス: Link先を確認
Mike Lambeta, Huazhe Xu, Jingwei Xu, Po-Wei Chou, Shaoxiong Wang, Trevor Darrell, Roberto Calandra(参考訳) リッチな触覚センサが利用可能になるにつれて、制御や意思決定に使用できる高レベルの信号に生のタッチ計測を効率よく効果的に処理できるオープンソースと統合ソフトウェアが等しく必要となる。 本稿では,タッチセンシング信号の処理に特化した最初の機械学習ライブラリであるpytouchを提案する。 PyTouchはモジュラーで使いやすいように設計されており、アプリケーションや研究が構築可能な、スケーラブルで実証されたパフォーマンス検証済みのモジュールを構築するためのライブラリを提供することで、触覚センサコミュニティを統合することを目的として、最先端のタッチ処理機能をサービスとして提供する。 タッチ検出やスリップ,オブジェクトポーズ推定など,タッチ処理タスクにおける触覚センサによる実世界データに対するpytouchの評価を行う。 pytouchはhttps://github.com/f acebookresearch/pyto uchでオープンソースである。

With the increased availability of rich tactile sensors, there is an equally proportional need for open-source and integrated software capable of efficiently and effectively processing raw touch measurements into high-level signals that can be used for control and decision-making. In this paper, we present PyTouch -- the first machine learning library dedicated to the processing of touch sensing signals. PyTouch, is designed to be modular, easy-to-use and provides state-of-the-art touch processing capabilities as a service with the goal of unifying the tactile sensing community by providing a library for building scalable, proven, and performance-validate d modules over which applications and research can be built upon. We evaluate PyTouch on real-world data from several tactile sensors on touch processing tasks such as touch detection, slip and object pose estimations. PyTouch is open-sourced at https://github.com/f acebookresearch/pyto uch .
翻訳日:2021-05-28 16:01:30 公開日:2021-05-26
# 視覚応用のためのフルスタックアクセラレーション探索手法

A Full-stack Accelerator Search Technique for Vision Applications ( http://arxiv.org/abs/2105.12842v1 )

ライセンス: Link先を確認
Dan Zhang, Safeen Huda, Ebrahim Songhori, Quoc Le, Anna Goldie, Azalia Mirhoseini(参考訳) 急速に変化するMLモデルランドスケープは、特定のデータセンタースケールのワークロードに最適化されたハードウェアアクセラレータを構築するユニークな機会を提供する。 ハードウェアデータパス,ソフトウェアスケジューリング,オペレーションフュージョンやテンソルパディングといったコンパイラパスなど,ハードウェアソフトウェアスタック内の重要な設計決定をカバーする幅広い最適化環境を定義する,ハードウェアアクセラレーション検索フレームワークであるfast(full-stack accelerator search technique)を提案する。 高速は任意の数と種類のディープラーニングワークロードに使用できるが、本論文では、単一または小さなビジョンモデルに対する最適化にフォーカスし、汎用mlアクセラレータに比べて大幅に高速かつ電力効率の高い設計を実現する。 efficientnet、resnet50v2、ocr推論性能でtpu-v3と比較すると、単一ワークロードに最適化された高速設計により、最善のケースで6倍、平均で4倍のperf/tdp(ピークパワー)を改善することができる。 限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。 さらに,TPU-v3のスケジュール改善による1.8倍高速化の可能性を示す。

The rapidly-changing ML model landscape presents a unique opportunity for building hardware accelerators optimized for specific datacenter-scale workloads. We propose Full-stack Accelerator Search Technique (FAST), a hardware accelerator search framework that defines a broad optimization environment covering key design decisions within the hardware-software stack, including hardware datapath, software scheduling, and compiler passes such as operation fusion and tensor padding. Although FAST can be used on any number and type of deep learning workload, in this paper we focus on optimizing for a single or small set of vision models, resulting in significantly faster and more power-efficient designs relative to a general purpose ML accelerator. When evaluated on EfficientNet, ResNet50v2, and OCR inference performance relative to a TPU-v3, designs generated by FAST optimized for single workloads can improve Perf/TDP (peak power) by over 6x in the best case and 4x on average. On a limited workload subset, FAST improves Perf/TDP 2.85x on average, with a reduction to 2.35x for a single design optimized over the set of workloads. In addition, we demonstrate a potential 1.8x speedup opportunity for TPU-v3 with improved scheduling.
翻訳日:2021-05-28 16:01:06 公開日:2021-05-26
# BioNavi-NP:天然物の生合成ナビゲータ

BioNavi-NP: Biosynthesis Navigator for Natural Products ( http://arxiv.org/abs/2105.13121v1 )

ライセンス: Link先を確認
Shuangjia Zheng, Tao Zeng, Chengtao Li, Binghong Chen, Connor W. Coley, Yuedong Yang, Ruibo Wu(参考訳) 合成マスターであるnatureは、300,000以上の天然物(nps)を生産し、npsの膨大な化学空間のためfdaが提供する薬物の主要な構成要素である。 現在までに、約33,000の既知の酵素触媒反応に関与する検証済みnps化合物は3万以下であり、カスケード結合酵素触媒による生合成経路も少ない。 したがって, コンピュータ支援による生合成予測が重要である。 そこで我々は,新しい(AND-OR木)計画アルゴリズム,拡張分子トランスフォーマーニューラルネットワーク,一般的な有機変換と生合成ステップを組み合わせたトレーニングセットを通じて,NPやNP様化合物の生合成経路を予測する,ナビゲートでユーザフレンドリなツールキットであるBioNavi-NPを開発した。 広範な評価により,bionavi-npは90%の試験化合物の生合成経路を同定し, 73%の検証済みビルディングブロックを回収し, 従来の規則に基づくアプローチを著しく上回っていることが明らかとなった。 さらに、BioNavi-NPは、生物学的に可塑性経路の列挙能力に優れていた。 この意味で、BioNavi-NPは、天然物の複雑な生合成経路を再設計する最先端のツールキットであり、総合成や半合成、経路の解明、再構築への応用がある。

Nature, a synthetic master, creates more than 300,000 natural products (NPs) which are the major constituents of FDA-proved drugs owing to the vast chemical space of NPs. To date, there are fewer than 30,000 validated NPs compounds involved in about 33,000 known enzyme catalytic reactions, and even fewer biosynthetic pathways are known with complete cascade-connected enzyme catalysis. Therefore, it is valuable to make computer-aided bio-retrosynthesis predictions. Here, we develop BioNavi-NP, a navigable and user-friendly toolkit, which is capable of predicting the biosynthetic pathways for NPs and NP-like compounds through a novel (AND-OR Tree)-based planning algorithm, an enhanced molecular Transformer neural network, and a training set that combines general organic transformations and biosynthetic steps. Extensive evaluations reveal that BioNavi-NP generalizes well to identifying the reported biosynthetic pathways for 90% of test compounds and recovering the verified building blocks for 73%, significantly outperforming conventional rule-based approaches. Moreover, BioNavi-NP also shows an outstanding capacity of biologically plausible pathways enumeration. In this sense, BioNavi-NP is a leading-edge toolkit to redesign complex biosynthetic pathways of natural products with applications to total or semi-synthesis and pathway elucidation or reconstruction.
翻訳日:2021-05-28 15:59:19 公開日:2021-05-26
# 学習画像圧縮のための自己組織化変分オートエンコーダ(Self-VAE)

Self-Organized Variational Autoencoders (Self-VAE) for Learned Image Compression ( http://arxiv.org/abs/2105.12107v2 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, Onur Kele\c{s}, Hilal G\"uven, A. Murat Tekalp, Junaid Malik, Serkan K{\i}ranyaz(参考訳) エンドツーエンドに最適化された画像圧縮では、一般化された分割正規化(GDN)を備えた畳み込み変分オートエンコーダを用いて画像を潜時空間に変換するのが一般的である。 近年,一組の代替品から最良の非線形性を学ぶオペレーショナルニューラルネットワーク (ONNs) や,テイラー級数を介して任意の非線形性を近似する自己組織化変種Self-ONNsが,畳み込み層と固定された非線形活性化の限界に対処するために提案されている。 本稿では,変分オートエンコーダの畳み込み層とgdn層を自己組織型操作層に置き換え,より強固な非線形性を利用した新しい自己組織型変分オートエンコーダ(self-vae)アーキテクチャを提案する。 実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。

In end-to-end optimized learned image compression, it is standard practice to use a convolutional variational autoencoder with generalized divisive normalization (GDN) to transform images into a latent space. Recently, Operational Neural Networks (ONNs) that learn the best non-linearity from a set of alternatives, and their self-organized variants, Self-ONNs, that approximate any non-linearity via Taylor series have been proposed to address the limitations of convolutional layers and a fixed nonlinear activation. In this paper, we propose to replace the convolutional and GDN layers in the variational autoencoder with self-organized operational layers, and propose a novel self-organized variational autoencoder (Self-VAE) architecture that benefits from stronger non-linearity. The experimental results demonstrate that the proposed Self-VAE yields improvements in both rate-distortion performance and perceptual image quality.
翻訳日:2021-05-28 11:32:45 公開日:2021-05-26
# (参考訳) 記号式検証のための欠陥データセット [全文訳有]

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v2 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-28 08:48:40 公開日:2021-05-26
# (参考訳) IGO-QNN: Inductive Grover Oracularizationのための量子ニューラルネットワークアーキテクチャ [全文訳有]

IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization ( http://arxiv.org/abs/2105.11603v2 )

ライセンス: CC BY 4.0
Areeq I. Hasan(参考訳) 本稿では,Groverのアルゴリズムを機械学習フレームワークに統合する新たなパラダイムとして,インダクティブGrover Oracular quantum Neural Network (IGO-QNN)を提案する。 このモデルは、パラメータ化された量子ニューロンの隠れた層をエンタングルシナプスを介して密結合し、データベースヒットのトレーニング例からトレーニング可能な動的グローバー探索オラクルを符号化する変分量子回路を定義する。 これにより、Groverの非構造化探索アルゴリズムの幅広い問題適用範囲を拡大し、解検証器の分析記述に欠ける問題の大部分を含むようにし、不構造化探索における2次的なスピードアップを可能にした。 グローバーのoracularizationのこの一般化は、深層強化学習、コンピュータビジョン、より一般的には、既存のモデルの上部にある特徴ベクトル分類器として特に有効であるかもしれない。

We propose a novel paradigm of integration of Grover's algorithm in a machine learning framework: the inductive Grover oracular quantum neural network (IGO-QNN). The model defines a variational quantum circuit with hidden layers of parameterized quantum neurons densely connected via entangle synapses to encode a dynamic Grover's search oracle that can be trained from a set of database-hit training examples. This widens the range of problem applications of Grover's unstructured search algorithm to include the vast majority of problems lacking analytic descriptions of solution verifiers, allowing for quadratic speed-up in unstructured search for the set of search problems with relationships between input and output spaces that are tractably underivable deductively. This generalization of Grover's oracularization may prove particularly effective in deep reinforcement learning, computer vision, and, more generally, as a feature vector classifier at the top of an existing model.
翻訳日:2021-05-28 08:38:37 公開日:2021-05-26
# (参考訳) SG-PALM:高速物理的解釈可能なテンソルグラフモデル [全文訳有]

SG-PALM: a Fast Physically Interpretable Tensor Graphical Model ( http://arxiv.org/abs/2105.12271v1 )

ライセンス: CC BY 4.0
Yu Wang and Alfred Hero(参考訳) 本研究では,高次元テンソル変量データの条件依存構造を学習するための新しいグラフィカルモデル推論手法SG-PALMを提案する。 他の多くのテンソルグラフィカルモデルとは異なり、提案モデルは解釈可能で高次元にスケーラブルである。 物理的解釈性は、SG-PALMがベースとするシルヴェスター生成(Sylvester Generative, SG)モデルから従う:モデルはポアソン型の偏微分方程式の解である任意の観測過程に対して正確である。 スケーラビリティは、SG-PALMがトレーニング中に使用する高速な近位交互線形化最小化(PALM)手順から導かれる。 SG-PALM はその目的関数の大域的最適値に線形収束する(すなわち幾何収束率)。 我々は,SG-PALMのスケーラビリティと精度を,多モードイメージングデータによる太陽フレアの時空間予測問題として示す。

We propose a new graphical model inference procedure, called SG-PALM, for learning conditional dependency structure of high-dimensional tensor-variate data. Unlike most other tensor graphical models the proposed model is interpretable and computationally scalable to high dimension. Physical interpretability follows from the Sylvester generative (SG) model on which SG-PALM is based: the model is exact for any observation process that is a solution of a partial differential equation of Poisson type. Scalability follows from the fast proximal alternating linearized minimization (PALM) procedure that SG-PALM uses during training. We establish that SG-PALM converges linearly (i.e., geometric convergence rate) to a global optimum of its objective function. We demonstrate the scalability and accuracy of SG-PALM for an important but challenging climate prediction problem: spatio-temporal forecasting of solar flares from multimodal imaging data.
翻訳日:2021-05-28 03:59:21 公開日:2021-05-26
# (参考訳) FINNger -- 子供のための数学学習を容易にする人工知能の適用 [全文訳有]

FINNger -- Applying artificial intelligence to ease math learning for children ( http://arxiv.org/abs/2105.12281v1 )

ライセンス: CC0 1.0
Rafael Baldasso Audibert and Vinicius Marinho Maschio(参考訳) 子どもたちは、タブレットやスマートフォンなどのモダンな電子機器を使うことができる。 こうしたデバイスが世界中で普及し、世界第三の国にも広がり、アクセスが容易になったことで、この状況は驚くほど加速した。 また、幼児は就学前のある科目を学ぶのが難しいことが知られている。 我々は社会として、アルファベット化に重点を置いているが、結局、子供は別の重要な分野である数学に違いを持つことになる。 この研究により、我々は、子どもたちがそのような技術アプリケーションを使うときに、多くの楽しむことができるという事実を、新しい畳み込みニューラルネットワークを用いて、低年齢の子どもの知識と概念を理解する能力を向上させることで、楽しい活動と楽しい活動のギャップを縮めようとする、直感的なアプリケーションの基礎を作ることができる。

Kids have an amazing capacity to use modern electronic devices such as tablets, smartphones, etc. This has been incredibly boosted by the ease of access of these devices given the expansion of such devices through the world, reaching even third world countries. Also, it is well known that children tend to have difficulty learning some subjects at pre-school. We as a society focus extensively on alphabetization, but in the end, children end up having differences in another essential area: Mathematics. With this work, we create the basis for an intuitive application that could join the fact that children have a lot of ease when using such technological applications, trying to shrink the gap between a fun and enjoyable activity with something that will improve the children knowledge and ability to understand concepts when in a low age, by using a novel convolutional neural network to achieve so, named FINNger.
翻訳日:2021-05-28 03:11:25 公開日:2021-05-26
# (参考訳) クエリプランエンコーダを用いたデータベースワークロードのキャラクタリゼーション [全文訳有]

Database Workload Characterization with Query Plan Encoders ( http://arxiv.org/abs/2105.12287v1 )

ライセンス: CC BY 4.0
Debjyoti Paul, Jie Cao, Feifei Li, Vivek Srikumar(参考訳) スマートデータベースは人工知能(AI)技術を採用して、.emインスタンスの最適性を実現している。 理由は、すべてのデータベースが異なるワークロードで動作し、最適なパフォーマンスを達成するために特定のリソースと設定を要求するからです。 これにより、システム内で実行されるワークロードとその機能を包括的に理解する必要性が高まります。 この作業負荷特性問題に対処するため,クエリ計画から本質的な特徴と相関関係を学習するクエリプランエンコーダを提案する。 事前学習したエンコーダはクエリの「em構造」と「em計算性能」を独立にキャプチャします。 事前訓練されたエンコーダは、転送学習プロセスを高速化するワークロードに適応可能であることを示す。 複数の下流タスクを持つ構造エンコーダと性能エンコーダの独立評価を行った。 クエリプランエンコーダの全体的な評価のために,2つのダウンストリームタスク (i) クエリレイテンシ予測と (ii) クエリ分類を設計した。 これらのタスクは特徴に基づくワークロードの特徴付けの重要性を示している。 また,表現学習とドメイン適応性の有効性を検証するため,個々のエンコーダについて広範な実験を行った。

Smart databases are adopting artificial intelligence (AI) technologies to achieve {\em instance optimality}, and in the future, databases will come with prepackaged AI models within their core components. The reason is that every database runs on different workloads, demands specific resources, and settings to achieve optimal performance. It prompts the necessity to understand workloads running in the system along with their features comprehensively, which we dub as workload characterization. To address this workload characterization problem, we propose our query plan encoders that learn essential features and their correlations from query plans. Our pretrained encoders capture the {\em structural} and the {\em computational performance} of queries independently. We show that our pretrained encoders are adaptable to workloads that expedite the transfer learning process. We performed independent assessments of structural encoder and performance encoders with multiple downstream tasks. For the overall evaluation of our query plan encoders, we architect two downstream tasks (i) query latency prediction and (ii) query classification. These tasks show the importance of feature-based workload characterization. We also performed extensive experiments on individual encoders to verify the effectiveness of representation learning and domain adaptability.
翻訳日:2021-05-28 03:00:11 公開日:2021-05-26
# (参考訳) 重み補正によるブロック密度重み付きネットワーク

Block Dense Weighted Networks with Augmented Degree Correction ( http://arxiv.org/abs/2105.12290v1 )

ライセンス: CC BY 4.0
Benjamin Leinwand, Vladas Pipiras(参考訳) 重み付けされた接続を持つ密集したネットワークは、たいていのノードが互いに接続しているにもかかわらず、各ノードのコミュニティメンバーシップによって異なるエッジ重みのパターンが出現する、構造のようなコミュニティを示すことが多い。 本研究では,異なるコミュニティ間で異なる接続パターンを持つ重み付きネットワークの生成と推定を行う新しいフレームワークを提案する。 提案したモデルでは,個々のノード特性を各ノードを接続するエッジにマッピングする関数のクラスに依存しており,エッジ数に対して少数のパラメータを必要としながら,柔軟性を実現する。 推定手法を活用することにより,複数のデータセットを収集できない状況において有用な,同一の頂点上で新たなネットワークを生成するブートストラップ手法も開発する。 これらの手法の性能は理論、シミュレーション、実データで分析される。

Dense networks with weighted connections often exhibit a community like structure, where although most nodes are connected to each other, different patterns of edge weights may emerge depending on each node's community membership. We propose a new framework for generating and estimating dense weighted networks with potentially different connectivity patterns across different communities. The proposed model relies on a particular class of functions which map individual node characteristics to the edges connecting those nodes, allowing for flexibility while requiring a small number of parameters relative to the number of edges. By leveraging the estimation techniques, we also develop a bootstrap methodology for generating new networks on the same set of vertices, which may be useful in circumstances where multiple data sets cannot be collected. Performance of these methods are analyzed in theory, simulations, and real data.
翻訳日:2021-05-28 02:30:22 公開日:2021-05-26
# (参考訳) ロバストなバイリンガル語彙誘導のための単語埋め込み変換 [全文訳有]

Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon Induction ( http://arxiv.org/abs/2105.12297v1 )

ライセンス: CC BY 4.0
Hailong Cao and Tiejun Zhao(参考訳) 非教師的バイリンガル語彙誘導(UBLI)において,単言語コーパスで独立に訓練されたソースとターゲット単語の埋め込みを調整することにより,大きな進歩を遂げた。 ほとんどのUBLIモデルの一般的な仮定は、2つの言語の埋め込み空間が概同型であるということである。 したがって、その性能は同型度、特に語源的および類型的遠隔言語によって制限される。 この問題に対処するため,同型性を高める変換に基づく手法を提案する。 2つの言語の埋め込みは、回転とスケーリングによって互いに一致させる。 この方法はいかなる種類の監督も必要とせず、任意の言語対に適用できる。 バイリンガル語彙誘導のベンチマークデータセットでは、最先端の手法と比較して競争力や優れた性能が得られ、特に遠い言語では強い結果が得られている。

Great progress has been made in unsupervised bilingual lexicon induction (UBLI) by aligning the source and target word embeddings independently trained on monolingual corpora. The common assumption of most UBLI models is that the embedding spaces of two languages are approximately isomorphic. Therefore the performance is bound by the degree of isomorphism, especially on etymologically and typologically distant languages. To address this problem, we propose a transformation-based method to increase the isomorphism. Embeddings of two languages are made to match with each other by rotating and scaling. The method does not require any form of supervision and can be applied to any language pair. On a benchmark data set of bilingual lexicon induction, our approach can achieve competitive or superior performance compared to state-of-the-art methods, with particularly strong results being found on distant languages.
翻訳日:2021-05-28 02:28:05 公開日:2021-05-26
# (参考訳) SGPT:Aspect-based Sentiment Analysisのための意味グラフに基づく事前学習 [全文訳有]

SGPT: Semantic Graphs based Pre-training for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2105.12305v1 )

ライセンス: CC BY 4.0
Yong Qian, Zhongqing Wang, Rong Xiao, Chen Chen and Haihong Tang(参考訳) 過去の研究では、感情分析のための事前学習言語モデルの有効性が示されている。 However, most of these studies ignore the importance of sentimental information for pre-trained models.Therefore, we fully investigate the sentimental information for pre-trained models and enhance pre-trained language models with semantic graphs for sentiment analysis.In particular, we introduce Semantic Graphs based Pre-training(SGPT) using semantic graphs to obtain synonym knowledge for aspect-sentiment pairs and similar aspect/sentiment terms.We then optimize the pre-trained language model with the semantic graphs.Empirical studies on several downstream tasks show that proposed model outperforms strong pre-trained baselines. また,事前学習モデルに対して提案する意味グラフの有効性を示す。

Previous studies show effective of pre-trained language models for sentiment analysis. However, most of these studies ignore the importance of sentimental information for pre-trained models.Therefore, we fully investigate the sentimental information for pre-trained models and enhance pre-trained language models with semantic graphs for sentiment analysis.In particular, we introduce Semantic Graphs based Pre-training(SGPT) using semantic graphs to obtain synonym knowledge for aspect-sentiment pairs and similar aspect/sentiment terms.We then optimize the pre-trained language model with the semantic graphs.Empirical studies on several downstream tasks show that proposed model outperforms strong pre-trained baselines. The results also show the effectiveness of proposed semantic graphs for pre-trained model.
翻訳日:2021-05-28 02:18:17 公開日:2021-05-26
# (参考訳) 読み、聞き、そして見る:中国のスペルチェックに役立つマルチモーダル情報を活用する [全文訳有]

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking ( http://arxiv.org/abs/2105.12306v1 )

ライセンス: CC BY 4.0
Heng-Da Xu, Zhongli Li, Qingyu Zhou, Chao Li, Zizhen Wang, Yunbo Cao, Heyan Huang and Xian-Ling Mao(参考訳) Chinese Spell Checking (CSC) は、中国語におけるユーザ生成テキストの誤字を検出し、訂正することを目的としている。 中国語の綴りの誤りのほとんどは、意味的に、音韻的に、またはグラフィカルに類似した文字で誤用される。 以前の試みはこの現象に気づき、この課題に類似性を利用することを試みた。 しかし、これらの手法はヒューリスティックまたは手作りの混乱セットを用いて正しいキャラクタを予測する。 本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。 ReaLiSeモデルは,(1)入力文字のセマンティック,音声,グラフィック情報をキャプチャし,(2)これらのモーダルの情報を選択的に混合して正しい出力を予測することによって,CSCタスクに取り組む。 SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。

Chinese Spell Checking (CSC) aims to detect and correct erroneous characters for user-generated text in the Chinese language. Most of the Chinese spelling errors are misused semantically, phonetically or graphically similar characters. Previous attempts noticed this phenomenon and try to use the similarity for this task. However, these methods use either heuristics or handcrafted confusion sets to predict the correct character. In this paper, we propose a Chinese spell checker called ReaLiSe, by directly leveraging the multimodal information of the Chinese characters. The ReaLiSe model tackles the CSC task by (1) capturing the semantic, phonetic and graphic information of the input characters, and (2) selectively mixing the information in these modalities to predict the correct output. Experiments on the SIGHAN benchmarks show that the proposed model outperforms strong baselines by a large margin.
翻訳日:2021-05-28 02:03:57 公開日:2021-05-26
# (参考訳) 前景セグメンテーションニューラルネットワークモデルの性能解析 [全文訳有]

Performance Analysis of a Foreground Segmentation Neural Network Model ( http://arxiv.org/abs/2105.12311v1 )

ライセンス: CC BY-SA 4.0
Joel Tom\'as Morais, Ant\'onio Ramires Fernandes, Andr\'e Leite Ferreira, Bruno Faria(参考訳) 近年はセグメンテーションへの関心が高まっており、不正検出、公衆衛生における異常検出、侵入検知など幅広い用途で利用されている。 我々は,FgSegNet_v2のアブレーション研究を行い,その3段階を解析した: (i) Encoder, (ii) Feature Pooling Module, (iii) Decoder。 本研究の結果は, 上記の方法の変動が, 技術結果の状態を超越したものである。 CDNet2014、SBI2015、CityScapesの3つのデータセットがテストに使用されている。 cdnet2014では、主に低フレームのサブセットで、最先端に比べて全体的な改善がありました。 state of the art(sbi2015とcityscapes datasets)に比較して、照明条件の違いなど、非常に異なる条件下で結果を生成するため、このアプローチは有望である。

In recent years the interest in segmentation has been growing, being used in a wide range of applications such as fraud detection, anomaly detection in public health and intrusion detection. We present an ablation study of FgSegNet_v2, analysing its three stages: (i) Encoder, (ii) Feature Pooling Module and (iii) Decoder. The result of this study is a proposal of a variation of the aforementioned method that surpasses state of the art results. Three datasets are used for testing: CDNet2014, SBI2015 and CityScapes. In CDNet2014 we got an overall improvement compared to the state of the art, mainly in the LowFrameRate subset. The presented approach is promising as it produces comparable results with the state of the art (SBI2015 and Cityscapes datasets) in very different conditions, such as different lighting conditions.
翻訳日:2021-05-28 01:31:06 公開日:2021-05-26
# (参考訳) 雑音音声データセットを用いた音声強調訓練システム [全文訳有]

Training Speech Enhancement Systems with Noisy Speech Datasets ( http://arxiv.org/abs/2105.12315v1 )

ライセンス: CC BY-SA 4.0
Koichi Saito, Stefan Uhlich, Giorgio Fabbro, Yuki Mitsufuji(参考訳) 近年,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)システムの利用が盛んに行われている。 訓練中、これらのシステムはクリーンな音声データを必要とする - 理想的には、様々な音響条件、多くの異なる話者特性と与えられたサンプリングレート(例えば、フルバンドSEの48kHz)に対して。 しかし、このようなクリーンな音声データを得るのは簡単ではない。 同時に、音響/スピーカ/サンプリングレート特性を所望とする自動音声認識(asr)のための材料も多数公開されており、ノイズロバストなasrシステムを実現するため、背景雑音も含む。 したがって、そのようなデータをseシステムのトレーニングに使うのは簡単ではない。 本稿では,雑音の多い音声データに基づくSEシステムの訓練に2つの改良点を提案する。 まず、雑音の多い音声のターゲットに対して頑健な損失関数のいくつかの修正を提案する。 特に、時間周波数ビンを平均化する前のサンプル軸上で中央値を計算することで、そのようなデータを使用することができる。 さらに,混合不変学習(MixIT)のための雑音増強手法を提案する。 実験ではMozilla Common Voiceデータセットを使用し、ロバストな損失関数を使用することで、従来の方法でトレーニングされたシステムと比較して、PSSQを最大0.19改善することを示した。 同様に、MixITでは、提案したノイズ拡張を使用すると、PSSQで最大0.27の改善が見られる。

Recently, deep neural network (DNN)-based speech enhancement (SE) systems have been used with great success. During training, such systems require clean speech data - ideally, in large quantity with a variety of acoustic conditions, many different speaker characteristics and for a given sampling rate (e.g., 48kHz for fullband SE). However, obtaining such clean speech data is not straightforward - especially, if only considering publicly available datasets. At the same time, a lot of material for automatic speech recognition (ASR) with the desired acoustic/speaker/sam pling rate characteristics is publicly available except being clean, i.e., it also contains background noise as this is even often desired in order to have ASR systems that are noise-robust. Hence, using such data to train SE systems is not straightforward. In this paper, we propose two improvements to train SE systems on noisy speech data. First, we propose several modifications of the loss functions, which make them robust against noisy speech targets. In particular, computing the median over the sample axis before averaging over time-frequency bins allows to use such data. Furthermore, we propose a noise augmentation scheme for mixture-invariant training (MixIT), which allows using it also in such scenarios. For our experiments, we use the Mozilla Common Voice dataset and we show that using our robust loss function improves PESQ by up to 0.19 compared to a system trained in the traditional way. Similarly, for MixIT we can see an improvement of up to 0.27 in PESQ when using our proposed noise augmentation.
翻訳日:2021-05-28 01:14:37 公開日:2021-05-26
# (参考訳) SimNet: 現実の観察からリアクティブな自動運転シミュレーションを学ぶ [全文訳有]

SimNet: Learning Reactive Self-driving Simulations from Real-world Observations ( http://arxiv.org/abs/2105.12332v1 )

ライセンス: CC BY 4.0
Luca Bergamini, Yawei Ye, Oliver Scheel, Long Chen, Chih Hu, Luca Del Pero, Blazej Osinski, Hugo Grimmett, Peter Ondruska(参考訳) 本稿では,運転体験を現実的にシミュレートできる簡易なエンドツーエンドトレーニング可能な機械学習システムを提案する。 これは、コストと時間を要する道路テストに頼ることなく、自動運転システムのパフォーマンスの検証に使用できる。 特に,シミュレーション問題をマルコフ過程としてモデル化し,ディープニューラルネットワークを用いて状態分布と遷移関数の両方をモデル化する。 これらは、植物またはキネマティックモデルという形で手作りをする必要なく、既存の生の観測から直接訓練することができる。 必要なのは、歴史的なトラフィックエピソードのデータセットだけです。 我々の定式化によってシステムは、自動運転車の振る舞いに現実的に反応するシーンを決して見えないようにすることができる。 我々は,1000時間の走行ログを直接トレーニングし,シミュレーションの2つの重要な特性として現実性と反応性の両方を測定する。 同時に,人間の運転ログからトレーニングした最先端ML計画システムの性能評価にも本手法を適用した。 この計画システムは,非反応性シミュレーションではテストが困難であった先行報告の因果的混乱問題に起因する。 私たちの知る限りでは、これは極めて現実的なデータ駆動シミュレーションと、自動運転車のクローズドループ評価を直接統合した最初の作品です。 シミュレーション開発をさらに促進するために、データ、コード、事前訓練されたモデルを公開します。

In this work, we present a simple end-to-end trainable machine learning system capable of realistically simulating driving experiences. This can be used for the verification of self-driving system performance without relying on expensive and time-consuming road testing. In particular, we frame the simulation problem as a Markov Process, leveraging deep neural networks to model both state distribution and transition function. These are trainable directly from the existing raw observations without the need for any handcrafting in the form of plant or kinematic models. All that is needed is a dataset of historical traffic episodes. Our formulation allows the system to construct never seen scenes that unfold realistically reacting to the self-driving car's behaviour. We train our system directly from 1,000 hours of driving logs and measure both realism, reactivity of the simulation as the two key properties of the simulation. At the same time, we apply the method to evaluate the performance of a recently proposed state-of-the-art ML planning system trained from human driving logs. We discover this planning system is prone to previously unreported causal confusion issues that are difficult to test by non-reactive simulation. To the best of our knowledge, this is the first work that directly merges highly realistic data-driven simulations with a closed-loop evaluation for self-driving vehicles. We make the data, code, and pre-trained models publicly available to further stimulate simulation development.
翻訳日:2021-05-28 00:58:37 公開日:2021-05-26
# (参考訳) avモーションプランナーの訓練にはどんなデータが必要ですか? [全文訳有]

What data do we need for training an AV motion planner? ( http://arxiv.org/abs/2105.12337v1 )

ライセンス: CC BY 4.0
Long Chen, Lukas Platinsky, Stefanie Speichert, Blazej Osinski, Oliver Scheel, Yawei Ye, Hugo Grimmett, Luca del Pero, Peter Ondruska(参考訳) 本研究では,擬似学習に基づくAVプランナの訓練に必要なセンサデータについて検討した。 マシンを学習したプランナーはトレーニングデータに非常に飢えており、通常は自律運転に使用される同じセンサーを備えた車両を使用して収集される。 これは費用がかかり、スケールできない。 より安価なセンサーを代わりに使用すれば、データの可用性が向上し、データボリュームの要求が大きく、可用性が低い分野において重要なものになる。 最大1000時間分の実証実験を行い、10倍の低品質データでのトレーニングが1倍のavグレードのデータをプランナーのパフォーマンスで上回っていることを確認した。 重要な意味は、より安価なセンサーが実際に使用できるということだ。 これはデータアクセスを改善し、模倣ベースのモーションプランニングの分野を民主化するのに役立つ。 これと並行して,知覚範囲,視野,精度,データボリュームの関数としてプランナー性能の感度解析を行い,低品質データが依然として優れた計画結果を提供する理由について述べる。

We investigate what grade of sensor data is required for training an imitation-learning-b ased AV planner on human expert demonstration. Machine-learned planners are very hungry for training data, which is usually collected using vehicles equipped with the same sensors used for autonomous operation. This is costly and non-scalable. If cheaper sensors could be used for collection instead, data availability would go up, which is crucial in a field where data volume requirements are large and availability is small. We present experiments using up to 1000 hours worth of expert demonstration and find that training with 10x lower-quality data outperforms 1x AV-grade data in terms of planner performance. The important implication of this is that cheaper sensors can indeed be used. This serves to improve data access and democratize the field of imitation-based motion planning. Alongside this, we perform a sensitivity analysis of planner performance as a function of perception range, field-of-view, accuracy, and data volume, and the reason why lower-quality data still provide good planning results.
翻訳日:2021-05-28 00:40:05 公開日:2021-05-26
# (参考訳) SAAを圧倒するデータ駆動アプローチ [全文訳有]

A data-driven approach to beating SAA out-of-sample ( http://arxiv.org/abs/2105.12342v1 )

ライセンス: CC BY 4.0
Jun-ya Gotoh, Michael Jong Kim, Andrew E.B. Lim(参考訳) 分散ロバスト最適化 (DRO) 問題の解法は、サンプル平均近似 (SAA) よりも期待外報酬が高くなることがあるが、保証はない。 本稿では,分布的楽観的最適化(doo)モデルのクラスを紹介し,最悪ケース(dro)モデルだけでなく,最良ケース(doo)モデルも考慮すれば,常にsaaを"ビート"することが可能であることを示す。 楽観的なソリューションは、最悪のケースやsaaオプティマイザよりもモデルエラーに敏感であり、従って堅牢性が低い。

While solutions of Distributionally Robust Optimization (DRO) problems can sometimes have a higher out-of-sample expected reward than the Sample Average Approximation (SAA), there is no guarantee. In this paper, we introduce the class of Distributionally Optimistic Optimization (DOO) models, and show that it is always possible to "beat" SAA out-of-sample if we consider not just worst-case (DRO) models but also best-case (DOO) ones. We also show, however, that this comes at a cost: Optimistic solutions are more sensitive to model error than either worst-case or SAA optimizers, and hence are less robust.
翻訳日:2021-05-28 00:21:13 公開日:2021-05-26
# (参考訳) 効率的なランキングのためのサブモジュラーカーネル [全文訳有]

Submodular Kernels for Efficient Rankings ( http://arxiv.org/abs/2105.12356v1 )

ライセンス: CC BY-SA 4.0
Michelangelo Conserva, Marc Peter Deisenroth, K S Sesh Kumar(参考訳) ランク付けされたデータに対する多くのアルゴリズムは、ランク付けによって引き起こされる複雑な幾何学的構造によって、オブジェクトの数が増えるにつれて計算的に難解になる。 その他の課題として、部分的なランク付けがある。 選好が知られているランキングは、すべてのオブジェクトのサブセットのみである。 これらの理由から、最先端のメソッドは、レコメンデーションシステムのような現実世界のアプリケーションにはスケールできない。 ランク付けのためのサブモジュールカーネルを導出するために、ランク付けされたデータの幾何学的構造とオブジェクトに関する追加情報を活用することで、この問題に対処する。 サブモジュラーカーネルは、サブモジュラー最適化の効率とカーネルベースの方法の理論的な性質を組み合わせる。 本研究では, サブモジュールカーネルは, 最先端カーネルと比較して計算コストを大幅に削減し, 実験性能を良好に保ちながら, 大規模データセットに十分対応できることを実証する。

Many algorithms for ranked data become computationally intractable as the number of objects grows due to complex geometric structure induced by rankings. An additional challenge is posed by partial rankings, i.e. rankings in which the preference is only known for a subset of all objects. For these reasons, state-of-the-art methods cannot scale to real-world applications, such as recommender systems. We address this challenge by exploiting geometric structure of ranked data and additional available information about the objects to derive a submodular kernel for ranking. The submodular kernel combines the efficiency of submodular optimization with the theoretical properties of kernel-based methods. We demonstrate that the submodular kernel drastically reduces the computational cost compared to state-of-the-art kernels and scales well to large datasets while attaining good empirical performance.
翻訳日:2021-05-28 00:01:37 公開日:2021-05-26
# (参考訳) イベントカメラのキャリブレーション方法 [全文訳有]

How to Calibrate Your Event Camera ( http://arxiv.org/abs/2105.12362v1 )

ライセンス: CC BY 4.0
Manasi Muglikar and Mathias Gehrig and Daniel Gehrig and Davide Scaramuzza(参考訳) 画像再構成を用いた汎用イベントカメラキャリブレーションフレームワークを提案する。 ledパターンや外部画面を点滅させる代わりに、ニューラルネットワークベースの画像再構成が、イベントカメラの本質的および極端なキャリブレーションのタスクに適していることを示す。 提案手法の利点は,能動照明に依存しない標準キャリブレーションパターンを使用することである。 さらに,本手法により,フレームベースセンサとイベントベースセンサの外部キャリブレーションを複雑化することなく行うことが可能となる。 シミュレーションと実世界の実験の両方で、画像再構成による校正は共通の歪みモデルと幅広い歪みパラメータの下で正確であることが示されている。

We propose a generic event camera calibration framework using image reconstruction. Instead of relying on blinking LED patterns or external screens, we show that neural-network-based image reconstruction is well suited for the task of intrinsic and extrinsic calibration of event cameras. The advantage of our proposed approach is that we can use standard calibration patterns that do not rely on active illumination. Furthermore, our approach enables the possibility to perform extrinsic calibration between frame-based and event-based sensors without additional complexity. Both simulation and real-world experiments indicate that calibration through image reconstruction is accurate under common distortion models and a wide variety of distortion parameters
翻訳日:2021-05-27 23:37:50 公開日:2021-05-26
# (参考訳) つぶやきにおける基本的・抑うつ的感情識別:マルチラベル分類実験 [全文訳有]

Basic and Depression Specific Emotion Identification in Tweets: Multi-label Classification Experiments ( http://arxiv.org/abs/2105.12364v1 )

ライセンス: CC BY 4.0
Nawshad Farruque, Chenyang Huang, Osmar Zaiane, Randy Goebel(参考訳) 本稿では,工芸品の多ラベル分類の助けを借りて,基本的および抑うつ的マルチ感情マイニングに関する実証分析を行った。 4つの感情の心理学的モデルから共通の感情からなるハイブリッド感情モデルから基本的な感情を選択する。 さらに,抑うつ分析における感情モデルの重要性から,感情モデルに新たな感情カテゴリーを加える。 これらの追加感情のほとんどは、これまでの感情マイニング研究では使われていない。 実験により,コストセンシティブなRandSVMアルゴリズムとディープラーニングモデルの両方が,マクロF測度とマイクロF測度の両方で頑健であることが示された。 これは、これらのアルゴリズムがマルチラベル学習において広く知られているデータ不均衡問題に対処する上で優れていることを示唆している。 さらに、深層学習の応用が最善を尽くし、拡張された感情カテゴリの深い意味的特徴のモデリングに最先端を与えました。

In this paper, we present empirical analysis on basic and depression specific multi-emotion mining in Tweets with the help of state of the art multi-label classifiers. We choose our basic emotions from a hybrid emotion model consisting of the common emotions from four highly regarded psychological models of emotions. Moreover, we augment that emotion model with new emotion categories because of their importance in the analysis of depression. Most of those additional emotions have not been used in previous emotion mining research. Our experimental analyses show that a cost sensitive RankSVM algorithm and a Deep Learning model are both robust, measured by both Macro F-measures and Micro F-measures. This suggests that these algorithms are superior in addressing the widely known data imbalance problem in multi-label learning. Moreover, our application of Deep Learning performs the best, giving it an edge in modeling deep semantic features of our extended emotional categories.
翻訳日:2021-05-27 23:22:26 公開日:2021-05-26
# (参考訳) スポンサー検索における空間的キーワード検索 [全文訳有]

Quotient Space-Based Keyword Retrieval in Sponsored Search ( http://arxiv.org/abs/2105.12371v1 )

ライセンス: CC BY 4.0
Yijiang Lian, Shuang Li, Chaobing Feng, YanFeng Zhu(参考訳) 主要な検索エンジンが一致した商品のマッチング要求を同義語レベルに緩和したため、同義語キーワード検索はスポンサー検索にとって重要な問題となっている。 クエリとキーワードの同義関係は極めて少ないため、従来の情報検索フレームワークはこのシナリオでは非効率である。 本稿では,この問題に対処するために,新しい商空間ベース検索フレームワークを提案する。 キーワード間の同義性を数学的同値関係として考えると、同義語を1つの代表に圧縮することができ、対応する商空間はキーワードリポジトリのサイズを大幅に削減できる。 そして、クエリとキーワード代表との間で埋め込みベースの検索が直接実行される。 余剰空間に基づく検索のセマンティックギャップを軽減するために、キーワードキーワードとクエリキーワードの同義関係の両方を検出するために単一のセマンティックサイメモデルを用いる。 実験の結果,提案手法により,メモリコストやリコール効率の面で,同義語検索性能を大幅に向上させることができることがわかった。 この方法はBaiduのオンライン検索システムでうまく実装されており、収益を大幅に改善している。

Synonymous keyword retrieval has become an important problem for sponsored search ever since major search engines relax the exact match product's matching requirement to a synonymous level. Since the synonymous relations between queries and keywords are quite scarce, the traditional information retrieval framework is inefficient in this scenario. In this paper, we propose a novel quotient space-based retrieval framework to address this problem. Considering the synonymy among keywords as a mathematical equivalence relation, we can compress the synonymous keywords into one representative, and the corresponding quotient space would greatly reduce the size of the keyword repository. Then an embedding-based retrieval is directly conducted between queries and the keyword representatives. To mitigate the semantic gap of the quotient space-based retrieval, a single semantic siamese model is utilized to detect both the keyword--keyword and query-keyword synonymous relations. The experiments show that with our quotient space-based retrieval method, the synonymous keyword retrieving performance can be greatly improved in terms of memory cost and recall efficiency. This method has been successfully implemented in Baidu's online sponsored search system and has yielded a significant improvement in revenue.
翻訳日:2021-05-27 23:08:00 公開日:2021-05-26
# (参考訳) 実世界の自律システムのための継続的学習:アルゴリズム、挑戦、フレームワーク [全文訳有]

Continual Learning for Real-World Autonomous Systems: Algorithms, Challenges and Frameworks ( http://arxiv.org/abs/2105.12374v1 )

ライセンス: CC BY 4.0
Khadija Shaheen, Muhammad Abdullah Hanif, Osman Hasan, Muhammad Shafique(参考訳) 凍結された事前学習されたモデルは、非定常データ分布を効果的に処理できないため、連続学習は現実世界のすべてのアプリケーションにとって不可欠である。 本研究の目的は,計算モデルの連続学習を可能にする最先端手法を検討することである。 我々は主に、かなり大きな(あるいは無限の)シーケンシャルデータからオンライン形式で連続学習を行う学習アルゴリズムに焦点を合わせ、計算量とメモリリソースを著しく少なくする。 我々は、自律現実システムにおける連続学習に関連する重要な課題を批判的に分析し、計算、メモリ、ネットワーク/モデル複雑さの観点から現在の手法を比較した。 また,3つの主要な自律システム(自動運転車,無人航空機,ロボット)における連続学習アルゴリズムの実装について簡単に説明する。 本稿では,これらの自律システムの学習方法とその強みと限界について概説する。

Continual learning is essential for all real-world applications, as frozen pre-trained models cannot effectively deal with non-stationary data distributions. The purpose of this study is to review the state-of-the-art methods that allow continuous learning of computational models over time. We primarily focus on the learning algorithms that perform continuous learning in an online fashion from considerably large (or infinite) sequential data and require substantially low computational and memory resources. We critically analyze the key challenges associated with continual learning for autonomous real-world systems and compare current methods in terms of computations, memory, and network/model complexity. We also briefly describe the implementations of continuous learning algorithms under three main autonomous systems, i.e., self-driving vehicles, unmanned aerial vehicles, and robotics. The learning methods of these autonomous systems and their strengths and limitations are extensively explored in this article.
翻訳日:2021-05-27 22:56:56 公開日:2021-05-26
# (参考訳) SentEmojiBot: 絵文字による会話生成の共感 [全文訳有]

SentEmojiBot: Empathising Conversations Generation with Emojis ( http://arxiv.org/abs/2105.12399v1 )

ライセンス: CC BY 4.0
Akhilesh Ravi, Amit Yadav, Jainish Chauhan, Jatin Dholakia, Naman Jain and Mayank Singh(参考訳) 対話エージェントの利用が増えれば、人間のように共感して反応するインプリッド感情を理解し、認識することが極めて望ましい。 従来の技術を用いたチャットボットは、テキストのコンテキストと意味に基づいて感情を分析し、顔を通じて表現される感情の理解を欠いている。 表情を表す絵文字は、感情を表現する有望な方法です。 しかし、どのAIシステムも、共感的な会話生成に絵文字を使用していない。 我々は、semojiデータセットに基づくsemojibotを提案し、絵文字とテキストの組み合わせによる共感的な会話を生成する。 評価指標は、BERTベースのモデルがバニラトランスモデルより優れていることを示している。 ユーザ研究によれば、このモデルによって生成された対話は理解可能であり、絵文字を追加することで会話の共感特性が9.8%向上した。

The increasing use of dialogue agents makes it extremely desirable for them to understand and acknowledge the implied emotions to respond like humans with empathy. Chatbots using traditional techniques analyze emotions based on the context and meaning of the text and lack the understanding of emotions expressed through face. Emojis representing facial expressions present a promising way to express emotions. However, none of the AI systems utilizes emojis for empathetic conversation generation. We propose, SentEmojiBot, based on the SentEmoji dataset, to generate empathetic conversations with a combination of emojis and text. Evaluation metrics show that the BERT-based model outperforms the vanilla transformer model. A user study indicates that the dialogues generated by our model were understandable and adding emojis improved empathetic traits in conversations by 9.8%
翻訳日:2021-05-27 22:11:03 公開日:2021-05-26
# (参考訳) 外観と形状を異にする非教師的部分分割 [全文訳有]

Unsupervised Part Segmentation through Disentangling Appearance and Shape ( http://arxiv.org/abs/2105.12405v1 )

ライセンス: CC BY 4.0
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu(参考訳) 対象部品の非監視的発見とセグメント化の問題について検討し, 中間的局所表現として本質的な対象構造を見つけ, より説明可能な認識結果を提供する。 最近の教師なしメソッドでは、取得にコストがかかるが、オブジェクトセグメンテーションマスクやサリエンシーマップなどの追加情報に依存する、注釈付きデータへの依存が大幅に緩和されている。 このような依存を取り除き、さらに部品のセグメンテーション性能を向上させるため、追加の被写体マスク情報を用いずに、被写体部品の外観と形状表現と復元損失を区別して新しいアプローチを開発する。 劣化した解を避けるため、ボトルネックブロックは外観表現を絞って拡大するように設計され、幾何学と外観のより効果的な絡み合いを生じさせる。 自己教師付き部分分類損失と改良された幾何集中制約を組み合わせることで、より一貫性のある部分と意味的意味をセグメント化することができる。 顔, 鳥, PASCAL VOCなどの多種多様な物体に対する総合的な実験により, 提案手法の有効性が示された。

We study the problem of unsupervised discovery and segmentation of object parts, which, as an intermediate local representation, are capable of finding intrinsic object structure and providing more explainable recognition results. Recent unsupervised methods have greatly relaxed the dependency on annotated data which are costly to obtain, but still rely on additional information such as object segmentation mask or saliency map. To remove such a dependency and further improve the part segmentation performance, we develop a novel approach by disentangling the appearance and shape representations of object parts followed with reconstruction losses without using additional object mask information. To avoid degenerated solutions, a bottleneck block is designed to squeeze and expand the appearance representation, leading to a more effective disentanglement between geometry and appearance. Combined with a self-supervised part classification loss and an improved geometry concentration constraint, we can segment more consistent parts with semantic meanings. Comprehensive experiments on a wide variety of objects such as face, bird, and PASCAL VOC objects demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-27 22:00:41 公開日:2021-05-26
# (参考訳) 多時間画像超解像における置換不変性と不確かさ [全文訳有]

Permutation invariance and uncertainty in multitemporal image super-resolution ( http://arxiv.org/abs/2105.12409v1 )

ライセンス: CC BY 4.0
Diego Valsesia, Enrico Magli(参考訳) 近年の進歩は、低解像度画像の多時間収集から始まり、深層ニューラルネットワークがリモートセンシング画像の超解像に極めて効果的であることを示している。 しかし、既存のモデルは時間的置換の問題を無視しており、入力画像の時間的順序付けはスーパーレゾリューションタスクに関連する情報を持ち合わせておらず、訓練で利用可能な(しばしば不足している)基礎的真理データと非効率に陥る。 したがって、モデルは時間的順序に依存する特徴抽出器を学ぶべきではない。 本稿では,時間的置換に完全不変なモデルの構築が性能とデータ効率を著しく改善することを示す。 さらに,超解像の不確かさを定量化して,最終ユーザが製品の局所的な品質を知らせる方法について検討する。 本研究では,不確実性が時系列の時間的変動とどのように相関するかを示す。 proba-vチャレンジデータセットにおける実験は、自己センシングを必要とせず、技術の状況よりも大幅に改善され、データ効率が向上し、トレーニングデータのわずか25%でチャレンジ勝者のパフォーマンスに到達した。

Recent advances have shown how deep neural networks can be extremely effective at super-resolving remote sensing imagery, starting from a multitemporal collection of low-resolution images. However, existing models have neglected the issue of temporal permutation, whereby the temporal ordering of the input images does not carry any relevant information for the super-resolution task and causes such models to be inefficient with the, often scarce, ground truth data that available for training. Thus, models ought not to learn feature extractors that rely on temporal ordering. In this paper, we show how building a model that is fully invariant to temporal permutation significantly improves performance and data efficiency. Moreover, we study how to quantify the uncertainty of the super-resolved image so that the final user is informed on the local quality of the product. We show how uncertainty correlates with temporal variation in the series, and how quantifying it further improves model performance. Experiments on the Proba-V challenge dataset show significant improvements over the state of the art without the need for self-ensembling, as well as improved data efficiency, reaching the performance of the challenge winner with just 25% of the training data.
翻訳日:2021-05-27 21:58:32 公開日:2021-05-26
# (参考訳) 過去と未来を関連づけたヒューマンアクションの予測とjaccardの類似性対策 [全文訳有]

Anticipating human actions by correlating past with the future with Jaccard similarity measures ( http://arxiv.org/abs/2105.12414v1 )

ライセンス: CC BY 4.0
Basura Fernando, Samitha Herath(参考訳) 本稿では,jaccard vector similarity, jaccard cross-correlation, jaccard frobenius inner product on covariancesという3つの新しい類似性尺度を用いて,過去の特徴と今後の特徴を関連付けることで,早期行動認識と予測のための枠組みを提案する。 UCF101およびJHMDBデータセットにおけるこれらの新しい損失の組合せと我々のフレームワークを用いて、観察率20の91.7%と83.5%の精度で早期行動認識の最先端結果を得る。 同様に、epic-kitchen55 と breakfast datasets for action anticipation はそれぞれ 20.35 と 41.8 top-1 の精度を得た。

We propose a framework for early action recognition and anticipation by correlating past features with the future using three novel similarity measures called Jaccard vector similarity, Jaccard cross-correlation and Jaccard Frobenius inner product over covariances. Using these combinations of novel losses and using our framework, we obtain state-of-the-art results for early action recognition in UCF101 and JHMDB datasets by obtaining 91.7 % and 83.5 % accuracy respectively for an observation percentage of 20. Similarly, we obtain state-of-the-art results for Epic-Kitchen55 and Breakfast datasets for action anticipation by obtaining 20.35 and 41.8 top-1 accuracy respectively.
翻訳日:2021-05-27 21:32:59 公開日:2021-05-26
# (参考訳) 逆行性ロバスト性に対する深発性プロトタイプ [全文訳有]

Deep Repulsive Prototypes for Adversarial Robustness ( http://arxiv.org/abs/2105.12427v1 )

ライセンス: CC BY 4.0
Alex Serban, Erik Poll and Joost Visser(参考訳) 敵対的な例に対する多くの防御策が提案されているが、堅牢な機械学習モデルを見つけることは依然として未解決の問題である。 現在最も説得力のある防御は敵の訓練であり、敵の例で設定された訓練データを補完する。 しかし、対人訓練はトレーニング時間に大きく影響を与え、代表的な対人サンプルの発見に依存する。 本稿では,大クラス分離を施した出力空間上でのモデルを学習し,逆訓練を行わずに頑健性を得る。 出力空間を大分離したクラスプロトタイプに分割する手法を導入し,それを保存するためのモデルを訓練する。 実験の結果、これらのプロトタイプで訓練されたモデルは、私たちがdeep repulsive prototypeと呼んでいるが、敵のトレーニングと競合する堅牢性を獲得し、また天然サンプルの精度も向上していることがわかった。 さらに、モデルは大きな摂動サイズに対してより弾力性がある。 例えば,cifar-10では50%以上のロバスト性,自然試料では92%,cifar-100では20%以上のロバスト性が得られた。 どちらのデータセットに対しても、モデルは敵に訓練されたモデルよりも大きな摂動に対して堅牢性を維持した。

While many defences against adversarial examples have been proposed, finding robust machine learning models is still an open problem. The most compelling defence to date is adversarial training and consists of complementing the training data set with adversarial examples. Yet adversarial training severely impacts training time and depends on finding representative adversarial samples. In this paper we propose to train models on output spaces with large class separation in order to gain robustness without adversarial training. We introduce a method to partition the output space into class prototypes with large separation and train models to preserve it. Experimental results shows that models trained with these prototypes -- which we call deep repulsive prototypes -- gain robustness competitive with adversarial training, while also preserving more accuracy on natural samples. Moreover, the models are more resilient to large perturbation sizes. For example, we obtained over 50% robustness for CIFAR-10, with 92% accuracy on natural samples and over 20% robustness for CIFAR-100, with 71% accuracy on natural samples without adversarial training. For both data sets, the models preserved robustness against large perturbations better than adversarially trained models.
翻訳日:2021-05-27 21:12:59 公開日:2021-05-26
# (参考訳) 大規模言語から絶滅危惧言語へのニューラル・モルフォロジー・データセットと多言語モデル [全文訳有]

Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered ( http://arxiv.org/abs/2105.12428v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen, Niko Partanen, Jack Rueter, Khalid Alnajjar(参考訳) 形態素豊かな言語の形態素解析,生成,補間のためのニューラルモデルを訓練する。 本稿では,22言語を対象に,FSTからかなりの量のトレーニングデータを自動抽出する手法を提案する。 ニューラルネットワークモデルはFSTと同じタグセットに従っており、FSTと一緒にフォールバックシステムとして使用できる。 ソースコード、モデル、データセットがZenodoでリリースされた。

We train neural models for morphological analysis, generation and lemmatization for morphologically rich languages. We present a method for automatically extracting substantially large amount of training data from FSTs for 22 languages, out of which 17 are endangered. The neural models follow the same tagset as the FSTs in order to make it possible to use them as fallback systems together with the FSTs. The source code, models and datasets have been released on Zenodo.
翻訳日:2021-05-27 20:50:48 公開日:2021-05-26
# (参考訳) Web検索活動を用いたインフルエンザ流行のニューラルネットワーク予測の不確かさの推定 [全文訳有]

Estimating the Uncertainty of Neural Network Forecasts for Influenza Prevalence Using Web Search Activity ( http://arxiv.org/abs/2105.12433v1 )

ライセンス: CC BY 4.0
Michael Morris, Peter Hayes, Ingemar J. Cox, Vasileios Lampos(参考訳) インフルエンザはパンデミックになりうる感染性疾患であり、その感染率を予測することは効果的な対応を計画するための重要な仕事である。 研究によると、Web検索活動はインフルエンザモデルを改善するために利用できる。 ニューラルネットワーク(NN)は最先端の予測精度を提供するが、その推定に不確実性は一般的に含まない。 本稿では,ベイズニューラルネットワーク(BNN)を用いて,従来のNNと比較して予測精度を著しく損なうことなく,予測とそれに対応する不確実性を両立させることができることを示す。 提案手法は,データとモデルの不確実性,計測ノイズとモデル仕様の2つの原因を考察する。 実験は14年間のイングランドのデータを用いて行われ、このデータセットの過去4回のインフルエンザシーズンにおけるモデルの精度を評価する。 従来の指標と競合するベースラインや不確実性推定を組み込んだエラー関数を含む,異なるモデルの性能を評価する。 実験分析の結果,両源を同時に考えることは,どちらを別々に考えるよりも優れていることがわかった。 また,不確実性源の双方をモデル化した繰り返し層を有するBNNは,地平線を7日以上予測する上で,これらの指標に対して優れた精度が得られることを示す。

Influenza is an infectious disease with the potential to become a pandemic, and hence, forecasting its prevalence is an important undertaking for planning an effective response. Research has found that web search activity can be used to improve influenza models. Neural networks (NN) can provide state-of-the-art forecasting accuracy but do not commonly incorporate uncertainty in their estimates, something essential for using them effectively during decision making. In this paper, we demonstrate how Bayesian Neural Networks (BNNs) can be used to both provide a forecast and a corresponding uncertainty without significant loss in forecasting accuracy compared to traditional NNs. Our method accounts for two sources of uncertainty: data and model uncertainty, arising due to measurement noise and model specification, respectively. Experiments are conducted using 14 years of data for England, assessing the model's accuracy over the last 4 flu seasons in this dataset. We evaluate the performance of different models including competitive baselines with conventional metrics as well as error functions that incorporate uncertainty estimates. Our empirical analysis indicates that considering both sources of uncertainty simultaneously is superior to considering either one separately. We also show that a BNN with recurrent layers that models both sources of uncertainty yields superior accuracy for these metrics for forecasting horizons greater than 7 days.
翻訳日:2021-05-27 19:40:00 公開日:2021-05-26
# (参考訳) IMUを利用したペン手書き認識システムの実現に向けて [全文訳有]

Towards an IMU-based Pen Online Handwriting Recognizer ( http://arxiv.org/abs/2105.12434v1 )

ライセンス: CC BY 4.0
Mohamad Wehbi, Tim Hamann, Jens Barth, Peter Kaempf, Dario Zanca, and Bjoern Eskofier(参考訳) ほとんどのオンライン手書き認識システムは、位置データを抽出するために特定の筆記面を使用する必要がある。 本稿では,紙に書き込まれたテキストをデジタル化する慣性測定単位(imus)に基づく,単語認識のためのオンライン手書き認識システムを提案する。 これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。 本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを併用し,逐次セグメンテーションを必要とせずに生センサデータを単語に解釈できるコネクショニスト時分割損失を用いて訓練する。 我々は,複数のセンサエンハンスペンを用いて収集した単語のデータセットを用いて,辞書や言語モデルを用いずに,文字誤り率17.97%と17.08%をそれぞれ有意なテストセットで評価した。

Most online handwriting recognition systems require the use of specific writing surfaces to extract positional data. In this paper we present a online handwriting recognition system for word recognition which is based on inertial measurement units (IMUs) for digitizing text written on paper. This is obtained by means of a sensor-equipped pen that provides acceleration, angular velocity, and magnetic forces streamed via Bluetooth. Our model combines convolutional and bidirectional LSTM networks, and is trained with the Connectionist Temporal Classification loss that allows the interpretation of raw sensor data into words without the need of sequence segmentation. We use a dataset of words collected using multiple sensor-enhanced pens and evaluate our model on distinct test sets of seen and unseen words achieving a character error rate of 17.97% and 17.08%, respectively, without the use of a dictionary or language model
翻訳日:2021-05-27 19:08:11 公開日:2021-05-26
# (参考訳) システムレベルでの自動NLG測定値の統計的利点 [全文訳有]

The statistical advantage of automatic NLG metrics at the system level ( http://arxiv.org/abs/2105.12437v1 )

ライセンス: CC BY 4.0
Johnny Tian-Zheng Wei and Robin Jia(参考訳) 生成システムの期待出力品質の推定は、nlgの中核である。 本稿では,システムレベルの品質を推定する上で,自動メトリクスは人間に劣るという考えを定式化する。 統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。 これらの推定器の誤差をペアワイズ予測(どの生成系が良いのか?)で比較する。 ブートストラップを使う。 この誤差を測定することは複雑で、予測はノイズに対して評価され、人間は真実ではなくラベルを予測し、計量予測は計算されたテストセットに基づいて変動する。 バイアス分散雑音分解を適用することで、この誤差をノイズフリーで無限のテストセット設定に調整する。 分析では、測定値の調整された誤差を人間と導出された完全なセグメントレベルの注釈器と比較し、両者は、収集された判断数に依存する偏りのない推定値である。 MTでは,人的判断数が少ない場合と,比較したシステム間の品質差が小さい場合とで,測定値が統計的優位性により人間より優れる2つの設定を同定する。 我々の分析を再現するデータとコードは、https://github.com/j ohntzwei/metric-stat istical-Advantage で入手できる。

Estimating the expected output quality of generation systems is central to NLG. This paper qualifies the notion that automatic metrics are not as good as humans in estimating system-level quality. Statistically, humans are unbiased, high variance estimators, while metrics are biased, low variance estimators. We compare these estimators by their error in pairwise prediction (which generation system is better?) using the bootstrap. Measuring this error is complicated: predictions are evaluated against noisy, human predicted labels instead of the ground truth, and metric predictions fluctuate based on the test sets they were calculated on. By applying a bias-variance-noise decomposition, we adjust this error to a noise-free, infinite test set setting. Our analysis compares the adjusted error of metrics to humans and a derived, perfect segment-level annotator, both of which are unbiased estimators dependent on the number of judgments collected. In MT, we identify two settings where metrics outperform humans due to a statistical advantage in variance: when the number of human judgments used is small, and when the quality difference between compared systems is small. The data and code to reproduce our analyses are available at https://github.com/j ohntzwei/metric-stat istical-advantage .
翻訳日:2021-05-27 18:50:27 公開日:2021-05-26
# (参考訳) ギブンデータ」パラダイムは両方の文化を損なう [全文訳有]

The "given data" paradigm undermines both cultures ( http://arxiv.org/abs/2105.12478v1 )

ライセンス: CC BY 4.0
Tyler McCormick(参考訳) breiman氏はシンプルなビジュアルを中心に,"統計モデリング:2つの文化"を組織している。 極右のデータは、矢印付きの「黒い箱」に強制され、出力に変換された第2の矢印によって左にカタパルトされる。 ブレイマンは、統計学における2つの文化の区別をカプセル化したこの視覚の2つの解釈を仮定する。 分割は「ブラックボックス」で何が起こるかだ、と彼は主張する。 このコメントでは、統計学のより広い視点で議論し、そのために、統計的革新と実践のための実りある領域として「前」と「後」の質問を高めます。

Breiman organizes "Statistical modeling: The two cultures" around a simple visual. Data, to the far right, are compelled into a "black box" with an arrow and then catapulted left by a second arrow, having been transformed into an output. Breiman then posits two interpretations of this visual as encapsulating a distinction between two cultures in statistics. The divide, he argues is about what happens in the "black box." In this comment, I argue for a broader perspective on statistics and, in doing so, elevate questions from "before" and "after" the box as fruitful areas for statistical innovation and practice.
翻訳日:2021-05-27 18:23:47 公開日:2021-05-26
# (参考訳) 合成コンテンツ識別のための活性化空間におけるパターン検出 [全文訳有]

Pattern Detection in the Activation Space for Identifying Synthesized Content ( http://arxiv.org/abs/2105.12479v1 )

ライセンス: CC BY 4.0
Celia Cintas, Skyler Speakman, Girmaw Abebe Tadesse, Victor Akinwande, Edward McFowland III, Komminist Weldemariam(参考訳) GAN(Generative Adversarial Networks)は、最近、低次元ランダムノイズからのフォトリアリスティック画像合成において、前例のない成功を収めている。 高品質なコンテンツを大規模に合成する能力は、生成されたサンプルが深刻な社会的、政治的、健康、ビジネス上の危険をもたらす誤報につながる可能性があるため、潜在的なリスクをもたらす。 トレーニング済みニューラルネットワークの内部層における異常なノードアクティベーションのサブセットを検出することにより、生成されたコンテンツを特定するためのSubsetGANを提案する。 これらのノードは群として、実際のデータから生成される活性化の期待分布から逸脱する非パラメトリック測度を最大化する。 これにより,その分布を事前に知ることなく合成画像の識別が可能となる。 SubsetGANは、ノードのサブセットを効率よくスコアし、最大スコアに寄与する事前訓練された分類器内のノードのグループを返す。 分類器は、複数のソースのサンプルや異なるGANの識別器ネットワークで訓練された一般的な偽分類器である。 提案手法は, 既存の検出手法に比べて, 既存のGAN(PGGAN, StarGAN, CycleGAN) や, 生成されたコンテントの比率よりも高い検出能力を示す。

Generative Adversarial Networks (GANs) have recently achieved unprecedented success in photo-realistic image synthesis from low-dimensional random noise. The ability to synthesize high-quality content at a large scale brings potential risks as the generated samples may lead to misinformation that can create severe social, political, health, and business hazards. We propose SubsetGAN to identify generated content by detecting a subset of anomalous node-activations in the inner layers of pre-trained neural networks. These nodes, as a group, maximize a non-parametric measure of divergence away from the expected distribution of activations created from real data. This enable us to identify synthesised images without prior knowledge of their distribution. SubsetGAN efficiently scores subsets of nodes and returns the group of nodes within the pre-trained classifier that contributed to the maximum score. The classifier can be a general fake classifier trained over samples from multiple sources or the discriminator network from different GANs. Our approach shows consistently higher detection power than existing detection methods across several state-of-the-art GANs (PGGAN, StarGAN, and CycleGAN) and over different proportions of generated content.
翻訳日:2021-05-27 18:20:34 公開日:2021-05-26
# (参考訳) 線形関数近似を用いたオフポリシー自然アクターの有限サンプル解析 [全文訳有]

Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation ( http://arxiv.org/abs/2105.12540v1 )

ライセンス: CC BY 4.0
Zaiwei Chen, Sajad Khodadadian, Siva Theja Maguluri(参考訳) 本稿では,線形関数近似を用いた非政治的自然なアクター批判アルゴリズムの新たな変種を開発し,これらのアルゴリズムの既知収束バウンダリを全て上回る,$\mathcal{O}(\epsilon^{-3})$のサンプル複雑性を確立する。 関数近似に基づく政策評価における致命的な三分の一の相違を克服するために,n$-step td-learningアルゴリズムを適切に選択したn$を有する批判者を開発した。 我々は,この批判者に対して,独立興味を持つ定数および減少ステップサイズの下で有限個の収束境界を提示する。 さらに、関数近似の下で自然ポリシー勾配の変種を開発し、$T$反復後の$\mathcal{O}(1/T)$の収束率を改善した。 アクターと批評家の有限サンプルエラー境界を組み合わせると、$\mathcal{o}(\epsilon^{-3})$ のサンプル複雑性が得られる。 サンプルの複雑さの境界は、行動ポリシーがすべての状態とアクションを十分に探求しているという仮定に基づいており、これは関連する文献と比べてはるかに軽い仮定である。

In this paper, we develop a novel variant of off-policy natural actor-critic algorithm with linear function approximation and we establish a sample complexity of $\mathcal{O}(\epsilon^{-3})$, outperforming all the previously known convergence bounds of such algorithms. In order to overcome the divergence due to deadly triad in off-policy policy evaluation under function approximation, we develop a critic that employs $n$-step TD-learning algorithm with a properly chosen $n$. We present finite-sample convergence bounds on this critic under both constant and diminishing step sizes, which are of independent interest. Furthermore, we develop a variant of natural policy gradient under function approximation, with an improved convergence rate of $\mathcal{O}(1/T)$ after $T$ iterations. Combining the finite sample error bounds of actor and the critic, we obtain the $\mathcal{O}(\epsilon^{-3})$ sample complexity. We derive our sample complexity bounds solely based on the assumption that the behavior policy sufficiently explores all the states and actions, which is a much lighter assumption compared to the related literature.
翻訳日:2021-05-27 17:57:45 公開日:2021-05-26
# (参考訳) 量子特徴写像の自動設計 [全文訳有]

Automatic design of quantum feature maps ( http://arxiv.org/abs/2105.12626v1 )

ライセンス: CC BY 4.0
Sergio Altares-L\'opez, Angela Ribeiro, Juan Jos\'e Garc\'ia-Ripoll(参考訳) 本稿では,量子サポートベクトルマシン(qsvm)を用いた分類のための最適アドホックans\"atzeの自動生成手法を提案する。 この方法はNSGA-II多目的遺伝的アルゴリズムに基づいており、精度を最大化し、アンザッツサイズを最小化することができる。 本手法の有効性を,非線形データセットを用いた実例で実証し,結果の回路とその出力を解釈する。 また,本手法の妥当性を向上する他の応用分野や,量子機械学習の利点を理解するための古典的分類器との比較についても述べる。

We propose a new technique for the automatic generation of optimal ad-hoc ans\"atze for classification by using quantum support vector machine (QSVM). This efficient method is based on NSGA-II multiobjective genetic algorithms which allow both maximize the accuracy and minimize the ansatz size. It is demonstrated the validity of the technique by a practical example with a non-linear dataset, interpreting the resulting circuit and its outputs. We also show other application fields of the technique that reinforce the validity of the method, and a comparison with classical classifiers in order to understand the advantages of using quantum machine learning.
翻訳日:2021-05-27 17:01:14 公開日:2021-05-26
# (参考訳) ディープネットワークのない衛星画像のエッジ検出 [全文訳有]

Edge Detection for Satellite Images without Deep Networks ( http://arxiv.org/abs/2105.12633v1 )

ライセンス: CC BY 4.0
Joshua Abraham, Calden Wloka(参考訳) 衛星画像は農業、ナビゲーション、都市計画など多くの応用分野で広く利用されている。 多くの場合、衛星画像は大量の画像と高いピクセル数の両方を含むため、衛星データセットは計算コストがかかる。 衛星画像解析への最近のアプローチは、深層学習法に重点を置いている。 非常に強力だが、ディープラーニングには、特殊なコンピューティングハードウェアの要件や、トレーニングデータへの高い依存など、いくつかの欠点がある。 大きな衛星データセットを扱う場合、計算資源とトレーニングデータアノテーションの両方のコストは禁じられるかもしれない。

Satellite imagery is widely used in many application sectors, including agriculture, navigation, and urban planning. Frequently, satellite imagery involves both large numbers of images as well as high pixel counts, making satellite datasets computationally expensive to analyze. Recent approaches to satellite image analysis have largely emphasized deep learning methods. Though extremely powerful, deep learning has some drawbacks, including the requirement of specialized computing hardware and a high reliance on training data. When dealing with large satellite datasets, the cost of both computational resources and training data annotation may be prohibitive.
翻訳日:2021-05-27 16:42:28 公開日:2021-05-26
# (参考訳) インスタンス対応潜時空間探索による不整形顔属性編集 [全文訳有]

Disentangled Face Attribute Editing via Instance-Aware Latent Space Search ( http://arxiv.org/abs/2105.12660v1 )

ライセンス: CC BY 4.0
Yuxuan Han, Jiaolong Yang, and Ying Fu(参考訳) 近年の研究では、GAN(Generative Adversarial Networks)の潜在空間に、多様な顔属性編集アプリケーションを可能にする、豊富な意味方向が存在することが示されている。 しかし、既存のメソッドは属性のばらつきのばらつきに苦しむ可能性があり、望ましいメソッドを変更する際に他の属性が望ましくない変更となる。 既存の手法で使われている意味方向は属性レベルであり、特にGANのトレーニングセットにおける属性分布バイアスの存在下では、複雑な属性相関をモデル化することは困難である。 本稿では,インスタンス認識型潜在空間探索による属性編集のための意味的方向探索を行う新しいフレームワーク (ials) を提案する。 インスタンス情報は、入力画像上で評価された属性分類器の集合からの監督を利用して注入される。 さらに,属性変換と不等角化の有効性を定量化するための不等角変換(dt)メトリックを提案し,それに基づく属性レベルとインスタンス固有の方向の最適な制御因子を求める。 GAN生成画像と実世界の画像の両方に対する実験結果から,本手法は近年提案されている最先端手法よりも高い性能を示した。 コードはhttps://github.com/y xuhan/ialsで入手できる。

Recent works have shown that a rich set of semantic directions exist in the latent space of Generative Adversarial Networks (GANs), which enables various facial attribute editing applications. However, existing methods may suffer poor attribute variation disentanglement, leading to unwanted change of other attributes when altering the desired one. The semantic directions used by existing methods are at attribute level, which are difficult to model complex attribute correlations, especially in the presence of attribute distribution bias in GAN's training set. In this paper, we propose a novel framework (IALS) that performs Instance-Aware Latent-Space Search to find semantic directions for disentangled attribute editing. The instance information is injected by leveraging the supervision from a set of attribute classifiers evaluated on the input images. We further propose a Disentanglement-Tran sformation (DT) metric to quantify the attribute transformation and disentanglement efficacy and find the optimal control factor between attribute-level and instance-specific directions based on it. Experimental results on both GAN-generated and real-world images collectively show that our method outperforms state-of-the-art methods proposed recently by a wide margin. Code is available at https://github.com/y xuhan/IALS.
翻訳日:2021-05-27 16:28:23 公開日:2021-05-26
# (参考訳) 映像中の生体ロコモーションの検出 : 計算的アプローチ

Detecting Biological Locomotion in Video: A Computational Approach ( http://arxiv.org/abs/2105.12661v1 )

ライセンス: CC BY 4.0
Soo Min Kang and Richard P. Wildes(参考訳) 動物は、食物を探し、適切な生息地を見つけ、獲物を探し、捕食者から逃れたり、交尾相手を探すなど、様々な理由で共生する。 生物多様性の大規模さは、大きなロコモトリーデザインとモード多様性に寄与している。 様々な生き物は、足、翼、ひれ、その他の手段を使って世界を移動する。 本報告では,一般生物種の移動を生物移動と呼ぶ。 未処理映像におけるバイオロコモーションを検出するための計算手法を提案する。 顕著なことに、生体の身体部位が環境をナビゲートする動きは、運動中の非生物対象に欠落する傾向の特徴的なシグネチャであるオーバーレイド非対称振動パターンと全体的な位置進行の組み合わせによってモデル化することができる。 対象の共通運動(外節運動)と部分の局所運動(内節運動)の違いとともに、非対称振動を伴う位置進行のこの重要な特徴を利用して、生体運動を検出する。 追跡対象におけるこれらの形質の存在を計測し、移動中の生物学的実体に対応するかどうかを判定するアルゴリズムを開発した。 学習と組み合わせた汎用的特徴に基づく別のアルゴリズムは、関連する調査領域の構成要素から組み立てられ、比較の基礎として提示される。 自然環境下での生体および非生物学的対象の幅広い移動を包含する新しいバイオロコモーションデータセットを提供する。 また、現存する迷彩動物データセットに対するバイオロコモーションアノテーションを提供する。 提案アルゴリズムは,非対称振動と外在的/内在的運動の相違による位置変化の異なる特徴に基づいて,バイオロコモーションを確実に検出できるという仮説を裏付ける。

Animals locomote for various reasons: to search for food, find suitable habitat, pursue prey, escape from predators, or seek a mate. The grand scale of biodiversity contributes to the great locomotory design and mode diversity. Various creatures make use of legs, wings, fins and other means to move through the world. In this report, we refer to the locomotion of general biological species as biolocomotion. We present a computational approach to detect biolocomotion in unprocessed video. Significantly, the motion exhibited by the body parts of a biological entity to navigate through an environment can be modeled by a combination of an overall positional advance with an overlaid asymmetric oscillatory pattern, a distinctive signature that tends to be absent in non-biological objects in locomotion. We exploit this key trait of positional advance with asymmetric oscillation along with differences in an object's common motion (extrinsic motion) and localized motion of its parts (intrinsic motion) to detect biolocomotion. An algorithm is developed to measure the presence of these traits in tracked objects to determine if they correspond to a biological entity in locomotion. An alternative algorithm, based on generic features combined with learning is assembled out of components from allied areas of investigation, also is presented as a basis of comparison. A novel biolocomotion dataset encompassing a wide range of moving biological and non-biological objects in natural settings is provided. Also, biolocomotion annotations to an extant camouflage animals dataset are provided. Quantitative results indicate that the proposed algorithm considerably outperforms the alternative approach, supporting the hypothesis that biolocomotion can be detected reliably based on its distinct signature of positional advance with asymmetric oscillation and extrinsic/intrinsic motion dissimilarity.
翻訳日:2021-05-27 16:07:46 公開日:2021-05-26
# (参考訳) 音声対話解析のための韻律セグメンテーション [全文訳有]

Prosodic segmentation for parsing spoken dialogue ( http://arxiv.org/abs/2105.12667v1 )

ライセンス: CC BY 4.0
Elizabeth Nielsen, Mark Steedman, Sharon Goldwater(参考訳) 音声対話のパーシングは、不一致や、文のような単位間の目印のない境界など、独特な困難を引き起こす。 以前の研究によると、prosodyは不均一なスピーチを解析するのに役立ちます(tran et al.)。 しかし、パーサーへの入力は、既存の音声アプリケーションでは正しくない文のような単位(SUs)に分割されていると仮定している。 入力として全対話を受信するパーサー(ターンベースモデル)に対して,ゴールド標準のSU(SUベースモデル)の代わりに韻律がどのように影響するかを検討する。 イングリッシュスイッチボードコーパスの実験では、書き起こしのみを使用する場合、ターンベースのモデルではsusのセグメント化に問題があり、suベースのモデルよりもパース性能が低下することが判明した。 しかし、prosodyは金の標準suバウンダリを効果的に置き換えることができる: prosodyでは、ターンベースのモデルはsuベースのモデル(それぞれ90.79対90.65 f1スコア)と同様に機能するが、1つではなく2つのタスク(suセグメンテーションとパース)を実行する(ペアリングのみ)。 分析によると、このコーパスにとってピッチと強度の特徴が最も重要であるのは、モデルがSU境界と音声の拡散を正しく区別できるようにするためである。

Parsing spoken dialogue poses unique difficulties, including disfluencies and unmarked boundaries between sentence-like units. Previous work has shown that prosody can help with parsing disfluent speech (Tran et al. 2018), but has assumed that the input to the parser is already segmented into sentence-like units (SUs), which isn't true in existing speech applications. We investigate how prosody affects a parser that receives an entire dialogue turn as input (a turn-based model), instead of gold standard pre-segmented SUs (an SU-based model). In experiments on the English Switchboard corpus, we find that when using transcripts alone, the turn-based model has trouble segmenting SUs, leading to worse parse performance than the SU-based model. However, prosody can effectively replace gold standard SU boundaries: with prosody, the turn-based model performs as well as the SU-based model (90.79 vs. 90.65 F1 score, respectively), despite performing two tasks (SU segmentation and parsing) rather than one (parsing alone). Analysis shows that pitch and intensity features are the most important for this corpus, since they allow the model to correctly distinguish an SU boundary from a speech disfluency -- a distinction that the model otherwise struggles to make.
翻訳日:2021-05-27 16:06:01 公開日:2021-05-26
# (参考訳) アノテーションのないゼロショット医療エンティティ検索:知識グラフセマンティックスから学ぶ [全文訳有]

Zero-shot Medical Entity Retrieval without Annotation: Learning From Rich Knowledge Graph Semantics ( http://arxiv.org/abs/2105.12682v1 )

ライセンス: CC BY 4.0
Luyang Kong, Christopher Winestock, Parminder Bhatia(参考訳) 医療機関の検索は、様々な医療システムにおける情報の理解と伝達に不可欠な要素である。 現在のアプローチは特定の医療領域でうまく機能する傾向にあるが、目に見えないサブ分野にはあまり一般化しない。 これは、新しい医療状況や薬物治療が頻発するにつれて、公衆衛生の危機下で懸念が高まります。 ゼロショット検索は医療コーパスの曖昧さと変動性が高いため困難であり、言及と概念の正確な類似性尺度を構築するのが困難である。 しかし、医療知識グラフ(KG)には、多数の同義語を含む豊富な意味論と、そのキュレートされたグラフィカル構造が含まれている。 この貴重な情報を活用するために,効率的なゼロショットエンティティ検索モデルを学習するための一連の学習タスクを提案する。 人間のアノテーションを必要とせずに、知識グラフに富んだアーキテクチャは、BM25やクリニカルBERTなどの一般的なゼロショットベンチマークを、UMLS、SNOMED、ICD-10など、複数の主要な医療オントロジーで7%から30%上回っている。

Medical entity retrieval is an integral component for understanding and communicating information across various health systems. Current approaches tend to work well on specific medical domains but generalize poorly to unseen sub-specialties. This is of increasing concern under a public health crisis as new medical conditions and drug treatments come to light frequently. Zero-shot retrieval is challenging due to the high degree of ambiguity and variability in medical corpora, making it difficult to build an accurate similarity measure between mentions and concepts. Medical knowledge graphs (KG), however, contain rich semantics including large numbers of synonyms as well as its curated graphical structures. To take advantage of this valuable information, we propose a suite of learning tasks designed for training efficient zero-shot entity retrieval models. Without requiring any human annotation, our knowledge graph enriched architecture significantly outperforms common zero-shot benchmarks including BM25 and Clinical BERT with 7% to 30% higher recall across multiple major medical ontologies, such as UMLS, SNOMED, and ICD-10.
翻訳日:2021-05-27 15:40:17 公開日:2021-05-26
# (参考訳) クラスタリングのための距離メトリック学習における二重情報探索 [全文訳有]

Exploring dual information in distance metric learning for clustering ( http://arxiv.org/abs/2105.12703v1 )

ライセンス: CC BY 4.0
Rodrigo Randel and Daniel Aloise and Alain Hertz(参考訳) 距離メトリック学習アルゴリズムは、データポイント間の類似性と距離を適切に測定することを目的としている。 クラスタリングの文脈では、メトリックラーニングは一般的に専門家が提供したサイド情報の補助として適用され、最も一般的には「不可能リンク」と「必然的リンク制約」という形で表現される。 この設定では、距離メトリック学習アルゴリズムは、必然的なリンク制約に関連するデータポイントのペアを移動させ、一方、不可能リンク制約に関わるポイントのペアは互いに離れる。 これらのアルゴリズムが効果的であるためには、専門家の知識、信念、期待に合致した距離メトリックを使うことが重要であり、サイド情報に固執する変換はデータセットの幾何学的性質を保存すべきである。 また、専門家が提供した制約をフィルタリングして、最も有用なものだけを保持し、クラスタリングプロセスに害を与えるものだけを拒絶することも興味深い。 これらの問題に対処するため,我々は,半教師付きクラスタリング問題のペアワイズ制約に関連する2つの情報を活用することを提案する。 実験によれば、距離メトリック学習アルゴリズムは、この2つの情報を統合することで恩恵を受ける。

Distance metric learning algorithms aim to appropriately measure similarities and distances between data points. In the context of clustering, metric learning is typically applied with the assist of side-information provided by experts, most commonly expressed in the form of cannot-link and must-link constraints. In this setting, distance metric learning algorithms move closer pairs of data points involved in must-link constraints, while pairs of points involved in cannot-link constraints are moved away from each other. For these algorithms to be effective, it is important to use a distance metric that matches the expert knowledge, beliefs, and expectations, and the transformations made to stick to the side-information should preserve geometrical properties of the dataset. Also, it is interesting to filter the constraints provided by the experts to keep only the most useful and reject those that can harm the clustering process. To address these issues, we propose to exploit the dual information associated with the pairwise constraints of the semi-supervised clustering problem. Experiments clearly show that distance metric learning algorithms benefit from integrating this dual information.
翻訳日:2021-05-27 15:31:31 公開日:2021-05-26
# (参考訳) enhance to read better: 手書き文書画像エンハンスメントのための生成型adversarial networkの改良

Enhance to Read Better: An Improved Generative Adversarial Network for Handwritten Document Image Enhancement ( http://arxiv.org/abs/2105.12710v1 )

ライセンス: CC BY 4.0
Sana Khamekhem Jemni and Mohamed Ali Souibgui and Yousri Kessentini and Alicia Forn\'es(参考訳) 手書きの文書画像は、紙の老化、日々のシナリオ(しわ、ほこりなど)といったさまざまな理由により、劣化の影響を強く受けます。 ), 走査不良などがあった。 これらのアーティファクトは、現在の手書き文字認識(HTR)アルゴリズムに対して多くの可読性問題を引き起こし、その効率を著しく劣化させる。 本稿では,劣化文書をクリーンで読みやすい形式に復元するgans(generative adversarial network)に基づくエンド・ツー・エンドのアーキテクチャを提案する。 劣化した文書の視覚的品質を向上しようとする最もよく知られた文書ビナライゼーション手法とは異なり、提案アーキテクチャでは、生成した文書画像をより読みやすくする手書き文字認識器を統合する。 私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。 劣化したアラビア語とラテン語の手書き文書を広範囲に実験した結果、ganアーキテクチャに認識器を統合するの有用性が示され、劣化した文書画像の視覚的品質と可読性が向上した。 さらに,本課題では,合成劣化したラテン手書き画像を用いて事前学習したモデルを微調整し,h-dibco 2018チャレンジの最先端技術を上回る結果を得た。

Handwritten document images can be highly affected by degradation for different reasons: Paper ageing, daily-life scenarios (wrinkles, dust, etc.), bad scanning process and so on. These artifacts raise many readability issues for current Handwritten Text Recognition (HTR) algorithms and severely devalue their efficiency. In this paper, we propose an end to end architecture based on Generative Adversarial Networks (GANs) to recover the degraded documents into a clean and readable form. Unlike the most well-known document binarization methods, which try to improve the visual quality of the degraded document, the proposed architecture integrates a handwritten text recognizer that promotes the generated document image to be more readable. To the best of our knowledge, this is the first work to use the text information while binarizing handwritten documents. Extensive experiments conducted on degraded Arabic and Latin handwritten documents demonstrate the usefulness of integrating the recognizer within the GAN architecture, which improves both the visual quality and the readability of the degraded document images. Moreover, we outperform the state of the art in H-DIBCO 2018 challenge, after fine tuning our pre-trained model with synthetically degraded Latin handwritten images, on this task.
翻訳日:2021-05-27 14:58:58 公開日:2021-05-26
# (参考訳) Sli2Vol: 自己監督学習による単一スライスからの3Dボリュームアノテーション [全文訳有]

Sli2Vol: Annotate a 3D Volume from a Single Slice with Self-Supervised Learning ( http://arxiv.org/abs/2105.12722v1 )

ライセンス: CC BY 4.0
Pak-Hei Yeung, Ana I.L. Namburete, Weidi Xie(参考訳) この研究の目的は、任意の興味のある構造(soi)を1つのスライス(すなわち)にアノテートするだけで3dボリュームに分割することである。 半自動3Dセグメンテーション) 本研究では,2次元スライス分割を連続スライス間の親和性行列で単純に伝播させることにより,高精度なスライス分割を実現することができることを示す。 具体的には,提案フレームワークであるsli2volと,教師なし/自己教師なしの2つのスライス登録アプローチを比較し,8つの公開データセット(ctとmriスキャンの両方)で9つの異なるsoiにまたがる。 パラメータチューニングがなければ、同じモデルはDiceスコア(0-100スケール)で、トレーニング中に目に見えないものを含め、ほとんどのベンチマークで80以上のパフォーマンスを達成する。 本研究は,提案手法が,異なるマシンと異なる sois を用いたデータ間で一般化可能であることを示す。 ソースコードはhttps://github.com/p akheiyeung/Sli2Vol.c omで公開されている。

The objective of this work is to segment any arbitrary structures of interest (SOI) in 3D volumes by only annotating a single slice, (i.e. semi-automatic 3D segmentation). We show that high accuracy can be achieved by simply propagating the 2D slice segmentation with an affinity matrix between consecutive slices, which can be learnt in a self-supervised manner, namely slice reconstruction. Specifically, we compare the proposed framework, termed as Sli2Vol, with supervised approaches and two other unsupervised/ self-supervised slice registration approaches, on 8 public datasets (both CT and MRI scans), spanning 9 different SOIs. Without any parameter-tuning, the same model achieves superior performance with Dice scores (0-100 scale) of over 80 for most of the benchmarks, including the ones that are unseen during training. Our results show generalizability of the proposed approach across data from different machines and with different SOIs: a major use case of semi-automatic segmentation methods where fully supervised approaches would normally struggle. The source code will be made publicly available at https://github.com/p akheiyeung/Sli2Vol.
翻訳日:2021-05-27 14:57:39 公開日:2021-05-26
# (参考訳) ブラーの精度、不確実性、ロバスト性を改善するための空間平滑化 [全文訳有]

Blurs Make Results Clearer: Spatial Smoothings to Improve Accuracy, Uncertainty, and Robustness ( http://arxiv.org/abs/2105.12639v1 )

ライセンス: CC BY 4.0
Namuk Park, Songkuk Kim(参考訳) ベイズニューラルネットワーク(BNN)は不確実性推定とロバストネスの分野で成功している。 ベイジアンNNは信頼性の高い結果を生成するために大量の予測を必要とするため、計算コストが大幅に増加する。 この問題を軽減するために,CNNの隣接する特徴写像点をアンサンブルする空間平滑化法を提案する。 モデルにいくつかのぼやけ層を追加することによって、空間平滑化は、アンサンブルサイズ全体のbnnの精度、不確実性推定、ロバスト性を向上させることを実証的に示す。 特に,空間平滑化を取り入れたBNNは,少数のアンサンブルだけで高い予測性能を実現する。 さらに、この手法は標準決定論的ニューラルネットワークにも適用でき、性能を向上させることができる。 多くの証拠は、この改善が損失景観の平ら化と平ら化に起因することを示唆している。 さらに, 空間平滑化の特別な場合として, 先行作品, グローバル平均プーリング, プリアクティベーション, および relu6 について, 基本的な説明を与える。 これらは精度を向上させるだけでなく、空間平滑化と同じ方法でロスランドスケープを滑らかにすることで不確実性推定とロバスト性を向上させる。 コードはhttps://github.com/x xxnell/spatial-smoot hing.comで入手できる。

Bayesian neural networks (BNNs) have shown success in the areas of uncertainty estimation and robustness. However, a crucial challenge prohibits their use in practice: Bayesian NNs require a large number of predictions to produce reliable results, leading to a significant increase in computational cost. To alleviate this issue, we propose spatial smoothing, a method that ensembles neighboring feature map points of CNNs. By simply adding a few blur layers to the models, we empirically show that the spatial smoothing improves accuracy, uncertainty estimation, and robustness of BNNs across a whole range of ensemble sizes. In particular, BNNs incorporating the spatial smoothing achieve high predictive performance merely with a handful of ensembles. Moreover, this method also can be applied to canonical deterministic neural networks to improve the performances. A number of evidences suggest that the improvements can be attributed to the smoothing and flattening of the loss landscape. In addition, we provide a fundamental explanation for prior works - namely, global average pooling, pre-activation, and ReLU6 - by addressing to them as special cases of the spatial smoothing. These not only enhance accuracy, but also improve uncertainty estimation and robustness by making the loss landscape smoother in the same manner as the spatial smoothing. The code is available at https://github.com/x xxnell/spatial-smoot hing.
翻訳日:2021-05-27 14:18:32 公開日:2021-05-26
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v2 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-27 13:47:14 公開日:2021-05-26
# airnet: 空気上でのニューラルネットワークの伝送

AirNet: Neural Network Transmission over the Air ( http://arxiv.org/abs/2105.11166v2 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 多くの新興エッジアプリケーションの最先端性能はディープニューラルネットワーク(DNN)によって達成されている。 多くの場合、これらのDNNは位置と時間に敏感であり、特定のDNNのパラメータは、時間に敏感な推論タスクを実行するために、エッジサーバからエッジデバイスに迅速かつ効率的に配信されなければならない。 本稿では,DNNの効率的な無線配信を可能にする新しいトレーニングおよびアナログ伝送手法であるAirNetを紹介する。 まず,dnnをノイズインジェクションで訓練し,無線チャネルノイズに対応する。 また,伝送に必要なチャネル帯域幅を削減し,さらに大きなモデルから知識蒸留を行い,チャネルの摂動にも拘わらず良好な性能を実現するため,プルーニングを用いる。 本研究では,同じ帯域幅と電力制約下でのディジタル代替品と比較して,AirNetはテスト精度が有意に高いことを示す。 また、チャネル品質による優雅な劣化を示し、正確なチャネル推定の要求を低減させる。

State-of-the-art performance for many emerging edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location and time sensitive, and the parameters of a specific DNN must be delivered from an edge server to the edge device rapidly and efficiently to carry out time-sensitive inference tasks. We introduce AirNet, a novel training and analog transmission method that allows efficient wireless delivery of DNNs. We first train the DNN with noise injection to counter the wireless channel noise. We also employ pruning to reduce the channel bandwidth necessary for transmission, and perform knowledge distillation from a larger model to achieve satisfactory performance, despite the channel perturbations. We show that AirNet achieves significantly higher test accuracy compared to digital alternatives under the same bandwidth and power constraints. It also exhibits graceful degradation with channel quality, which reduces the requirement for accurate channel estimation.
翻訳日:2021-05-27 13:46:31 公開日:2021-05-26
# コミュニケーション効率からの語彙学習バイアスの出現と転落

The advent and fall of a vocabulary learning bias from communicative efficiency ( http://arxiv.org/abs/2105.11519v2 )

ライセンス: Link先を確認
David Carrera-Casado and Ramon Ferrer-i-Cancho(参考訳) 十分に幼い子どもが新しい単語に遭遇すると、語彙に語が存在しない意味にアタッチする傾向があることはよく知られている。 これまでの研究では,戦略は情報理論の観点から最適であることが示されている。 しかし、情報理論モデルは、高齢者や多言語話者における語彙学習バイアスの弱さを説明せず、zipfの意味周波数法則、すなわち単語の意味の数と頻度の間の非線形関係を再現するものではない。 ここでは、その法則を再現するためにチャネルされるモデルの一般化を考える。 新たなモデルの解析により,高齢者や多言語系におけるバイアスの弱化や消失に伴い,バイアスが一貫して消失する相空間の領域が明らかになった。 ディープラーニング時代において、このモデルは将来の実験研究のための透明な低次元ツールであり、Zipfのランク周波数法則の起源に光を当てるために設計された理論フレームワークの予測力を示す。

It is well-known that, when sufficiently young children encounter a new word, they tend to attach it to a meaning that does not have a word yet in their lexicon. In previous research, the strategy was shown to be optimal from an information theoretic standpoint. However, the information theoretic model employed neither explains the weakening of that vocabulary learning bias in older children or polylinguals nor reproduces Zipf's meaning-frequency law, namely the non-linear relationship between the number of meanings of a word and its frequency. Here we consider a generalization of the model that is channeled to reproduce that law. The analysis of the new model reveals regions of the phase space where the bias disappears consistently with the weakening or loss of the bias in older children or polylinguals. In the deep learning era, the model is a transparent low-dimensional tool for future experimental research and illustrates the predictive power of a theoretical framework originally designed to shed light on the origins of Zipf's rank-frequency law.
翻訳日:2021-05-27 13:45:30 公開日:2021-05-26
# predict then interpolate: 安定な分類器を学習する単純なアルゴリズム

Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers ( http://arxiv.org/abs/2105.12628v1 )

ライセンス: Link先を確認
Yujia Bao, Shiyu Chang, Regina Barzilay(参考訳) 環境にまたがって安定な相関関係を学習するための単純なアルゴリズムであるpredictor then interpolate (pi)を提案する。 このアルゴリズムは、ある環境で訓練された分類器を使って別の環境の例を予測した場合、どの相関が不安定であるかという誤りが情報となるという直感から導かれる。 本研究では、正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができることを示す。 オラクル補間係数はアクセスできないので、そのような補間全体にわたって最悪のケースリスクを最小限に抑えるために、群的ロバストな最適化を用いる。 本手法はテキスト分類と画像分類の両方で評価する。 実験の結果,本アルゴリズムはロバストな分類器(合成環境では23.85%,自然環境では12.41%)を学習できることがわかった。 私たちのコードとデータはhttps://github.com/y ujiabao/predict-then -interpolateで入手できます。

We propose Predict then Interpolate (PI), a simple algorithm for learning correlations that are stable across environments. The algorithm follows from the intuition that when using a classifier trained on one environment to make predictions on examples from another environment, its mistakes are informative as to which correlations are unstable. In this work, we prove that by interpolating the distributions of the correct predictions and the wrong predictions, we can uncover an oracle distribution where the unstable correlation vanishes. Since the oracle interpolation coefficients are not accessible, we use group distributionally robust optimization to minimize the worst-case risk across all such interpolations. We evaluate our method on both text classification and image classification. Empirical results demonstrate that our algorithm is able to learn robust classifiers (outperforms IRM by 23.85% on synthetic environments and 12.41% on natural environments). Our code and data are available at https://github.com/Y ujiaBao/Predict-then -Interpolate.
翻訳日:2021-05-27 13:45:04 公開日:2021-05-26
# 深層学習を用いた強化サンプル学習戦略を用いた浸潤性胆管癌の予測

Predicting invasive ductal carcinoma using a Reinforcement Sample Learning Strategy using Deep Learning ( http://arxiv.org/abs/2105.12564v1 )

ライセンス: Link先を確認
Rushabh Patel(参考訳) 浸潤性胆管癌は、致死率が高く死亡率の高い、おそらく致命的な疾患である。 悪性腫瘍は、女性のがんによる2番目に多い死因である。 マンモグラフィーは大量検出および浸潤性管癌の診断に極めて有用な資源である。 我々は,マンモグラムに畳み込みニューラルネットワーク(CNN)を用いた浸潤性管癌の診断支援手法を提案している。 マンモグラムの画像の明瞭度や構造が異なるため、微小石灰化や腫瘤などの大きながんの特徴を観察することは困難であり、これらの特徴を解釈し診断することがしばしば困難である。 本研究の目的は,浸潤性胆管癌コンピュータ支援診断(cad)システムにおける特徴抽出と分類を完全自動化する新しい方法を確立することである。 本稿では,乳房マンモグラム画像における畳み込みニューラルネットワークを用いて,特徴抽出とトレーニング速度を向上させる腫瘍分類アルゴリズムを提案する。 アルゴリズムには2つの貢献がある。

Invasive ductal carcinoma is a prevalent, potentially deadly disease associated with a high rate of morbidity and mortality. Its malignancy is the second leading cause of death from cancer in women. The mammogram is an extremely useful resource for mass detection and invasive ductal carcinoma diagnosis. We are proposing a method for Invasive ductal carcinoma that will use convolutional neural networks (CNN) on mammograms to assist radiologists in diagnosing the disease. Due to the varying image clarity and structure of certain mammograms, it is difficult to observe major cancer characteristics such as microcalcification and mass, and it is often difficult to interpret and diagnose these attributes. The aim of this study is to establish a novel method for fully automated feature extraction and classification in invasive ductal carcinoma computer-aided diagnosis (CAD) systems. This article presents a tumor classification algorithm that makes novel use of convolutional neural networks on breast mammogram images to increase feature extraction and training speed. The algorithm makes two contributions.
翻訳日:2021-05-27 13:44:39 公開日:2021-05-26
# 都市交通シナリオにおける歩行者軌道予測のための社会的相互作用重み付き時空間畳み込みニューラルネットワーク

Social-IWSTCNN: A Social Interaction-Weighted Spatio-Temporal Convolutional Neural Network for Pedestrian Trajectory Prediction in Urban Traffic Scenarios ( http://arxiv.org/abs/2105.12436v1 )

ライセンス: Link先を確認
Chi Zhang (1), Christian Berger (1), Marco Dozza (2) ((1) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden, (2) Department of Maritime Sciences and Mechanics, Chalmers University of Technology, Gothenburg, Sweden)(参考訳) 都市シナリオにおける歩行者軌道予測は自動運転に不可欠である。 歩行者の行動は、自身の歴史経路と他者との相互作用の両方に影響されているため、この課題は困難である。 前回の研究では、これらの相互作用をプール機構や手作りの注意重みでモデル化した。 本稿では,空間的特徴と時間的特徴を含む社会的相互作用重み付き時空間畳み込みニューラルネットワーク(Social-IWSTCNN)を提案する。 歩行者の空間的および社会的相互作用の特徴を学習するための新しいデザイン,すなわち社会的相互作用抽出器を提案する。 以前のほとんどの研究は、ETHとUCYデータセットを使用しており、5つのシーンを含むが、訓練と評価のために都市交通シナリオを広範囲にカバーしていない。 本稿では,最近リリースされた大規模Waymo Open Datasetを都市交通シナリオに利用し,都市訓練シーン374面と76面の都市試験シーンを用いて,提案アルゴリズムの性能を最新技術(SOTA)モデルと比較して解析する。 その結果,このアルゴリズムは平均変位誤差(ADE)と最終変位誤差(FDE)の両方において,社会LSTM,社会GAN,社会STGCNNなどのSOTAアルゴリズムよりも優れていた。 さらに、私たちのSocial-IWSTCNNはデータ前処理速度の54.8倍、テスト全体の4.7倍高速である。

Pedestrian trajectory prediction in urban scenarios is essential for automated driving. This task is challenging because the behavior of pedestrians is influenced by both their own history paths and the interactions with others. Previous research modeled these interactions with pooling mechanisms or aggregating with hand-crafted attention weights. In this paper, we present the Social Interaction-Weighted Spatio-Temporal Convolutional Neural Network (Social-IWSTCNN), which includes both the spatial and the temporal features. We propose a novel design, namely the Social Interaction Extractor, to learn the spatial and social interaction features of pedestrians. Most previous works used ETH and UCY datasets which include five scenes but do not cover urban traffic scenarios extensively for training and evaluation. In this paper, we use the recently released large-scale Waymo Open Dataset in urban traffic scenarios, which includes 374 urban training scenes and 76 urban testing scenes to analyze the performance of our proposed algorithm in comparison to the state-of-the-art (SOTA) models. The results show that our algorithm outperforms SOTA algorithms such as Social-LSTM, Social-GAN, and Social-STGCNN on both Average Displacement Error (ADE) and Final Displacement Error (FDE). Furthermore, our Social-IWSTCNN is 54.8 times faster in data pre-processing speed, and 4.7 times faster in total test speed than the current best SOTA algorithm Social-STGCNN.
翻訳日:2021-05-27 13:44:15 公開日:2021-05-26
# 最新サリエンシーモデリングのための領域内外の校正予測

Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling ( http://arxiv.org/abs/2105.12441v1 )

ライセンス: Link先を確認
Akis Linardos, Matthias K\"ummerer, Ori Press, Matthias Bethge(参考訳) 2014年以降、トランスファーラーニングは空間塩分濃度予測の改善の鍵となっているが、過去3~5年間の進歩は停滞している。 我々は,deepgaze ii から採用した同じ readout architecture と learning protocol を使用して,さまざまなimagenet バックボーンをテストする大規模転送学習研究を行っている。 DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。 しかし、より優れたImageNetモデルをバックボーンとして(例えばEfficientNetB5)テストし続けるにつれて、サリエンシ予測のさらなる改善は見られません。 バックボーンを解析することで、他のデータセットへの一般化は大幅に異なり、モデルはその固定予測において常に過信されていることが分かる。 複数のバックボーンを原則的に組み合わせることで、未発見のデータセットに対する十分な信頼性のキャリブレーションが可能になることを示す。 これにより、DeepGaze IIよりも15%改善され、MIT1003では93%に向上し、すべての利用可能なメトリクス(AUC:88.3%、sAUC:79.4%、CC:82.4%)でMIT/Tuebingen Saliency Benchmarkの新たな技術状況が記録された。

Since 2014 transfer learning has become the key driver for the improvement of spatial saliency prediction; however, with stagnant progress in the last 3-5 years. We conduct a large-scale transfer learning study which tests different ImageNet backbones, always using the same read out architecture and learning protocol adopted from DeepGaze II. By replacing the VGG19 backbone of DeepGaze II with ResNet50 features we improve the performance on saliency prediction from 78% to 85%. However, as we continue to test better ImageNet models as backbones (such as EfficientNetB5) we observe no additional improvement on saliency prediction. By analyzing the backbones further, we find that generalization to other datasets differs substantially, with models being consistently overconfident in their fixation predictions. We show that by combining multiple backbones in a principled manner a good confidence calibration on unseen datasets can be achieved. This yields a significant leap in benchmark performance in and out-of-domain with a 15 percent point improvement over DeepGaze II to 93% on MIT1003, marking a new state of the art on the MIT/Tuebingen Saliency Benchmark in all available metrics (AUC: 88.3%, sAUC: 79.4%, CC: 82.4%).
翻訳日:2021-05-27 13:43:38 公開日:2021-05-26
# 学習したモデルでアニマトロニックな顔を動かす「Smile Like You」

Smile Like You Mean It: Driving Animatronic Robotic Face with Learned Models ( http://arxiv.org/abs/2105.12724v1 )

ライセンス: Link先を確認
Boyuan Chen, Yuhang Hu, Lianfeng Li, Sara Cummings, Hod Lipson(参考訳) 人間のようなソーシャルロボットを作るには、インテリジェントで汎用的な表情を作り出す能力が不可欠だ。 現在、この分野の進歩は、それぞれの表情を人間がプログラムする必要があるという事実によって妨げられている。 ロボットの動作を、人間と対話する際に生じるさまざまな状況にリアルタイムで適応させるためには、ロボットは人間のラベルを必要とせずに自らを訓練し、迅速な行動決定を行い、獲得した知識を多様な新しい文脈に一般化する必要がある。 我々は,ソフトスキンを用いた身体的アニマトロニックなロボット顔の設計と,表情模倣のための視覚に基づく自己教師付き学習フレームワークの開発により,この課題に対処した。 我々のアルゴリズムは,ロボットの運動モデル,カメラキャリブレーション,あるいは事前定義された表現セットに関する知識を必要としない。 学習プロセスを生成モデルと逆モデルに分解することにより、我々のフレームワークは単一の運動バブリングデータセットを用いて訓練することができる。 包括的評価から,本手法は多種多様な被験者の顔のまねを正確かつ多様に行うことができることが示された。 プロジェクトのwebサイトはhttp://www.cs.columb ia.edu/~bchen/aiface /にある。

Ability to generate intelligent and generalizable facial expressions is essential for building human-like social robots. At present, progress in this field is hindered by the fact that each facial expression needs to be programmed by humans. In order to adapt robot behavior in real time to different situations that arise when interacting with human subjects, robots need to be able to train themselves without requiring human labels, as well as make fast action decisions and generalize the acquired knowledge to diverse and new contexts. We addressed this challenge by designing a physical animatronic robotic face with soft skin and by developing a vision-based self-supervised learning framework for facial mimicry. Our algorithm does not require any knowledge of the robot's kinematic model, camera calibration or predefined expression set. By decomposing the learning process into a generative model and an inverse model, our framework can be trained using a single motor babbling dataset. Comprehensive evaluations show that our method enables accurate and diverse face mimicry across diverse human subjects. The project website is at http://www.cs.columb ia.edu/~bchen/aiface /
翻訳日:2021-05-27 13:43:00 公開日:2021-05-26
# LMMSのリロード:トランスフォーマーベースの曖昧さ回避のためのセンス埋め込み

LMMS Reloaded: Transformer-based Sense Embeddings for Disambiguation and Beyond ( http://arxiv.org/abs/2105.12449v1 )

ライセンス: Link先を確認
Daniel Loureiro, Al\'ipio M\'ario Jorge, Jose Camacho-Collados(参考訳) ニューラルアプローチに基づく分布意味論は自然言語処理の基礎であり、人間の意味表現にも驚くべきつながりがある。 最近のトランスフォーマーベースの言語モデルは、単に自己スーパービジョンの産物として、感覚固有の情報を確実に伝達する文脈表現を生成できることが証明されている。 先行研究により、これらの文脈表現は、大義の在庫を感覚埋め込みとして正確に表現するために使用することができ、word sense disambiguation (wsd)タスクに対する距離ベースのソリューションが、タスクのために特別に訓練されたモデルよりも優れていることが示されている。 それでも、これらのニューラル言語モデル(nlms)を使用して、各nlmの意味表現能力をよりうまく活用できる感覚埋め込みを生成する方法については、多くの理解が残っている。 本研究では,14種類のnlm変異の探索分析により,nlmの全層からの情報を活用するための,より原則的な手法を提案する。 また、タスク固有のモデルとは対照的に、これらの感覚埋め込みの汎用性を強調し、WSD以外のいくつかの感覚関連タスクに適用し、従来の作業よりも提案したアプローチによる性能向上を実証した。 最後に、層およびモデルの性能変化に関する予期せぬ発見と、下流タスクへの潜在的な応用について論じる。

Distributional semantics based on neural approaches is a cornerstone of Natural Language Processing, with surprising connections to human meaning representation as well. Recent Transformer-based Language Models have proven capable of producing contextual word representations that reliably convey sense-specific information, simply as a product of self-supervision. Prior work has shown that these contextual representations can be used to accurately represent large sense inventories as sense embeddings, to the extent that a distance-based solution to Word Sense Disambiguation (WSD) tasks outperforms models trained specifically for the task. Still, there remains much to understand on how to use these Neural Language Models (NLMs) to produce sense embeddings that can better harness each NLM's meaning representation abilities. In this work we introduce a more principled approach to leverage information from all layers of NLMs, informed by a probing analysis on 14 NLM variants. We also emphasize the versatility of these sense embeddings in contrast to task-specific models, applying them on several sense-related tasks, besides WSD, while demonstrating improved performance using our proposed approach over prior work focused on sense embeddings. Finally, we discuss unexpected findings regarding layer and model performance variations, and potential applications for downstream tasks.
翻訳日:2021-05-27 13:42:31 公開日:2021-05-26
# 辞書によるセメム知識ベースの自動構築

Automatic Construction of Sememe Knowledge Bases via Dictionaries ( http://arxiv.org/abs/2105.12585v1 )

ライセンス: Link先を確認
Fanchao Qi, Yangyi Chen, Fengyu Wang, Zhiyuan Liu, Xiao Chen, Maosong Sun(参考訳) セメムは言語学における最小意味単位として定義される。 セメム知識ベース(SKB)は、セメムを付加した単語で構成され、セメムを自然言語処理に適用することができる。 これまでのところ、多くの研究が様々なタスクにおけるskbのユニークな利点と効果を示してきた。 しかし、ほとんどの言語にはskbがなく、skbの手動構成は時間消費と労働集約である。 そこで本研究では,既存の辞書を用いた簡易かつ完全自動的なskb構築手法を提案する。 本手法を用いて英語skbとフランス語skbを構築し,本質的および極端的観点から総合的な評価を行う。 実験の結果、自動構築されたイングランドのskbは、手作業で構築するのに数十年かかる最も広く使われているskbであるhownetよりも優れていることが判明した。 また、英語とフランス語のSKBは、複数の下流タスクにおいて明らかにパフォーマンスの向上をもたらす。 この論文のコードとデータ(著作権付き辞書を除く)はhttps://github.com/t hunlp/DictSKBで取得できる。

A sememe is defined as the minimum semantic unit in linguistics. Sememe knowledge bases (SKBs), which comprise words annotated with sememes, enable sememes to be applied to natural language processing. So far a large body of research has showcased the unique advantages and effectiveness of SKBs in various tasks. However, most languages have no SKBs, and manual construction of SKBs is time-consuming and labor-intensive. To tackle this challenge, we propose a simple and fully automatic method of building an SKB via an existing dictionary. We use this method to build an English SKB and a French SKB, and conduct comprehensive evaluations from both intrinsic and extrinsic perspectives. Experimental results demonstrate that the automatically built English SKB is even superior to HowNet, the most widely used SKB that takes decades to build manually. And both the English and French SKBs can bring obvious performance enhancement in multiple downstream tasks. All the code and data of this paper (except the copyrighted dictionaries) can be obtained at https://github.com/t hunlp/DictSKB.
翻訳日:2021-05-27 13:41:56 公開日:2021-05-26
# 符号バック翻訳による単言語データによる手話翻訳の改善

Improving Sign Language Translation with Monolingual Data by Sign Back-Translation ( http://arxiv.org/abs/2105.12397v1 )

ライセンス: Link先を確認
Hao Zhou, Wengang Zhou, Weizhen Qi, Junfu Pu, Houqiang Li(参考訳) 既存の手話翻訳 (slt) の先駆的研究にもかかわらず、並列的な手話データの量が限られているなど、非自明な障害がある。 この並列データボトルネックに対処するために,大規模な音声言語テキストをSLT訓練に組み込んだ手話バック翻訳(SignBT)手法を提案する。 テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをグロスシーケンスに逆変換する。 そして、推定された光沢対符号バンクから断片を特徴レベルでスプライシングして対符号シーケンスを生成する。 最後に、合成並列データはエンコーダデコーダSLTフレームワークのエンドツーエンドトレーニングの強力なサプリメントとして機能する。 SLT 研究を促進するため,大規模連続 SLT データセットである CSL-Daily をさらに貢献する。 言語翻訳と用語レベルのアノテーションの両方を提供する。 このトピックは、人々の日常生活(旅行、ショッピング、医療など)に関するもので、最も可能性の高いアプリケーションシナリオである。 CSL-Dailyにおいて,SLT法の大規模実験結果と解析を行った。 提案手法により,従来のslt法に比べて大幅な改善が得られた。

Despite existing pioneering works on sign language translation (SLT), there is a non-trivial obstacle, i.e., the limited quantity of parallel sign-text data. To tackle this parallel data bottleneck, we propose a sign back-translation (SignBT) approach, which incorporates massive spoken language texts into SLT training. With a text-to-gloss translation model, we first back-translate the monolingual text to its gloss sequence. Then, the paired sign sequence is generated by splicing pieces from an estimated gloss-to-sign bank at the feature level. Finally, the synthetic parallel data serves as a strong supplement for the end-to-end training of the encoder-decoder SLT framework. To promote the SLT research, we further contribute CSL-Daily, a large-scale continuous SLT dataset. It provides both spoken language translations and gloss-level annotations. The topic revolves around people's daily lives (e.g., travel, shopping, medical care), the most likely SLT application scenario. Extensive experimental results and analysis of SLT methods are reported on CSL-Daily. With the proposed sign back-translation method, we obtain a substantial improvement over previous state-of-the-art SLT methods.
翻訳日:2021-05-27 13:41:29 公開日:2021-05-26
# マルチソース機能による教師なしビデオ要約

Unsupervised Video Summarization via Multi-source Features ( http://arxiv.org/abs/2105.12532v1 )

ライセンス: Link先を確認
Hussain Kanafani, Junaid Ahmed Ghauri, Sherzod Hakimov, Ralph Ewerth(参考訳) ビデオ要約は、オリジナルビデオの本質を伝えるコンパクトだが代表的なビジュアル要約を作成することを目的としている。 教師なしアプローチの利点は、要約能力を学び、より広い範囲のドメインに一般化するために人間のアノテーションを必要としないことである。 これまでの作業は、ImageNetデータに基づいて事前トレーニングされたモデルに基づいていた、同じタイプのディープ機能に依存していた。 そこで本研究では,複数の特徴源とチャンクとストライド融合を組み込むことにより,視覚コンテンツのさらなる情報を提供する。 また,TVSumとSumMeの2つのベンチマークを総合評価するために,本手法を4つの最先端手法と比較した。 これらの2つのアプローチは、報告された結果を再現するために私たち自身によって実装されました。 評価の結果から,両データセットについて最新の結果を得るとともに,評価手法における先行研究の問題点を浮き彫りにした。 最後に,2つのベンチマークデータセットのビデオに対してエラー解析を行い,誤分類の原因を要約し,同定する。

Video summarization aims at generating a compact yet representative visual summary that conveys the essence of the original video. The advantage of unsupervised approaches is that they do not require human annotations to learn the summarization capability and generalize to a wider range of domains. Previous work relies on the same type of deep features, typically based on a model pre-trained on ImageNet data. Therefore, we propose the incorporation of multiple feature sources with chunk and stride fusion to provide more information about the visual content. For a comprehensive evaluation on the two benchmarks TVSum and SumMe, we compare our method with four state-of-the-art approaches. Two of these approaches were implemented by ourselves to reproduce the reported results. Our evaluation shows that we obtain state-of-the-art results on both datasets, while also highlighting the shortcomings of previous work with regard to the evaluation methodology. Finally, we perform error analysis on videos for the two benchmark datasets to summarize and spot the factors that lead to misclassifications.
翻訳日:2021-05-27 13:41:00 公開日:2021-05-26
# 対照的なフーリエ特徴を持つ模倣のための確率的表現学習

Provable Representation Learning for Imitation with Contrastive Fourier Features ( http://arxiv.org/abs/2105.12272v1 )

ライセンス: Link先を確認
Ofir Nachum, Mengjiao Yang(参考訳) 模擬学習では,対象実証の集合に対して,最大習熟訓練を通じて未知の目標ポリシーに適合する行動ポリシーを学習することが一般的である。 本研究では,ダウンストリーム模倣学習のサンプル効率を確実に向上する低次元状態表現を学習するために,ターゲット分布からかなり離れたオフライン体験を用いて検討する。 この設定における中心的な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないため、ターゲットポリシーが異なる振る舞いをするエイリアス状態に対する表現学習目的の可能性を秘めている。 この課題を克服するために、ターゲットポリシーと最大様態で訓練された低次元ポリシーとの間の性能差の上限を与える表現学習目標を導出し、ターゲットポリシー自体が低次元構造を示すかどうかに関わらず、この境界は厳密である。 本手法の実用性に目を向けると, 遷移ダイナミクスを暗黙のエネルギーベースモデルや, 特殊な場合においては, ランダムなフーリエ特徴によって表現される暗黙の線形モデルで近似した, コントラスト学習として実装できることを示す。 テーブル状環境と高次元アタリゲームの両方の実験は,提案した目的の実用的メリットを定量的に証明する。

In imitation learning, it is common to learn a behavior policy to match an unknown target policy via max-likelihood training on a collected set of target demonstrations. In this work, we consider using offline experience datasets - potentially far from the target distribution - to learn low-dimensional state representations that provably accelerate the sample-efficiency of downstream imitation learning. A central challenge in this setting is that the unknown target policy itself may not exhibit low-dimensional behavior, and so there is a potential for the representation learning objective to alias states in which the target policy acts differently. Circumventing this challenge, we derive a representation learning objective which provides an upper bound on the performance difference between the target policy and a lowdimensional policy trained with max-likelihood, and this bound is tight regardless of whether the target policy itself exhibits low-dimensional structure. Moving to the practicality of our method, we show that our objective can be implemented as contrastive learning, in which the transition dynamics are approximated by either an implicit energy-based model or, in some special cases, an implicit linear model with representations given by random Fourier features. Experiments on both tabular environments and high-dimensional Atari games provide quantitative evidence for the practical benefits of our proposed objective.
翻訳日:2021-05-27 13:40:08 公開日:2021-05-26
# オーバーラップスコアを使って崩壊ベンチマークを改善する

Using the Overlapping Score to Improve Corruption Benchmarks ( http://arxiv.org/abs/2105.12357v1 )

ライセンス: Link先を確認
Alfred Laugros and Alice Caplier and Matthieu Ospici(参考訳) ニューラルネットワークは通常、ブラーやノイズ、低照度条件など、現実世界のアプリケーションで発生するさまざまな汚職に敏感である。 これらの一般的な腐敗に対するニューラルネットワークのロバスト性を評価するために、ベンチマークに集まったモデリングされた腐敗のグループを使うのが一般的です。 残念ながら、ベンチマークが独立した汚職の多様さを表すかどうかを決定する客観的な基準は存在しない。 本稿では,汚職ベンチマークの欠陥を明らかにするために使用できる,汚職重なりスコアと呼ばれる指標を提案する。 これらの腐敗とニューラルネットワークのロバスト性が相関すると、2つの腐敗が重なる。 汚職間の重複を考慮して、既存のベンチマークを改善したり、より良いベンチマークを構築するのに役立ちます。

Neural Networks are sensitive to various corruptions that usually occur in real-world applications such as blurs, noises, low-lighting conditions, etc. To estimate the robustness of neural networks to these common corruptions, we generally use a group of modeled corruptions gathered into a benchmark. Unfortunately, no objective criterion exists to determine whether a benchmark is representative of a large diversity of independent corruptions. In this paper, we propose a metric called corruption overlapping score, which can be used to reveal flaws in corruption benchmarks. Two corruptions overlap when the robustnesses of neural networks to these corruptions are correlated. We argue that taking into account overlappings between corruptions can help to improve existing benchmarks or build better ones.
翻訳日:2021-05-27 13:39:11 公開日:2021-05-26
# 要塞化地域を検知する学習

Learning to Detect Fortified Areas ( http://arxiv.org/abs/2105.12385v1 )

ライセンス: Link先を確認
Allan Gr{\o}nlund and Jonas Tranberg(参考訳) LiDARデータから作られた格子地形モデルのような高解像度のデータモデルは、現代の地理情報システムアプリケーションにとって必須条件である。 非常に正確なデジタル地形モデルの基礎を提供するのに加えて、LiDARデータは、水、建物、植生などの関連する要素を含むと考えられる表面のどの部分を構成するかの分類にも広く用いられている。 本稿では, 道路, 歩道, 駐車スペース, 舗装された車道, テラスなどによって, 与えられた面のどの領域が要塞化されているかを分類する問題を考える。 lidarデータと直交写真を組み合わせることで、現代の機械学習アルゴリズムの勾配が木や畳み込みニューラルネットワークが、現実世界の大規模データで強固な領域をいかにうまく検出できるかを示す。 今回検討したLiDARデータの特徴,特にリターンの信号強度を測定する強度特性は,測定を行った実際のLiDARセンサに大きく依存している。 これは、特にパターンマッチングアルゴリズムの一般化能力において非常に問題であり、これは、テストデータのデータ特徴が、モデルがトレーニングしたデータと大きく異なる可能性があることを意味する。 本稿では,すべてのセンサシステムから新たな共通表現へとデータ変換を行うニューラルネットワーク組込みアーキテクチャを設計し,学習データとテストデータが同じセンサから生み出すかどうかを判定するアルゴリズム的解法を提案する。 最終的なアルゴリズムの精度は96%以上、AUCのスコアは0.99以上である。

High resolution data models like grid terrain models made from LiDAR data are a prerequisite for modern day Geographic Information Systems applications. Besides providing the foundation for the very accurate digital terrain models, LiDAR data is also extensively used to classify which parts of the considered surface comprise relevant elements like water, buildings and vegetation. In this paper we consider the problem of classifying which areas of a given surface are fortified by for instance, roads, sidewalks, parking spaces, paved driveways and terraces. We consider using LiDAR data and orthophotos, combined and alone, to show how well the modern machine learning algorithms Gradient Boosted Trees and Convolutional Neural Networks are able to detect fortified areas on large real world data. The LiDAR data features, in particular the intensity feature that measures the signal strength of the return, that we consider in this project are heavily dependent on the actual LiDAR sensor that made the measurement. This is highly problematic, in particular for the generalisation capability of pattern matching algorithms, as this means that data features for test data may be very different from the data the model is trained on. We propose an algorithmic solution to this problem by designing a neural net embedding architecture that transforms data from all the different sensor systems into a new common representation that works as well as if the training data and test data originated from the same sensor. The final algorithm result has an accuracy above 96 percent, and an AUC score above 0.99.
翻訳日:2021-05-27 13:38:54 公開日:2021-05-26
# dynamic probabilistic pruning: 異なる粒度でハードウェア制約されたpruningの汎用フレームワーク

Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities ( http://arxiv.org/abs/2105.12686v1 )

ライセンス: Link先を確認
Lizeth Gonzalez-Carabarin, Iris A.M. Huijben, Bastiaan S. Veeling, Alexandre Schmid, Ruud J.G. van Sloun(参考訳) 非構造化ニューラルネットワークプルーニングアルゴリズムは、印象的な圧縮速度を達成した。 しかし、結果として生じる(通常不規則な)スパース行列は効率的なハードウェア実装を阻害し、さらなるメモリ使用量と複雑な制御ロジックをもたらし、非構造化プラニングの利点を減少させる。 これにより、フィルタ全体やレイヤーを汚染する構造的な粗粒のプルーニングソリューションが促進され、柔軟性を犠牲にして効率的な実装が可能になる。 本稿では, 異なる粒度(重み, カーネル, フィルタ, フィーチャーマップ)でのプルーニングを容易にするとともに, 効率的なメモリ構成を維持しつつ, フレキシブルな新しいプルーニング機構を提案する。 出力ニューロンごとに正確にk-out-n重みをプルーニングするか、すべての特徴写像に対して正確にn-out-nカーネルをプルーニングする)。 このアルゴリズムを動的確率プランニング(DPP)と呼ぶ。 DPP は Gumbel-softmax 緩和を利用して k-out-of-n サンプリングを微分可能とし、エンドツーエンドの最適化を容易にする。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。 関連して、DPPの非マグニチュードに基づく性質は、ネットワークをさらに圧縮するために、プルーニングと重み量子化の合同最適化を可能にする。 最後に,層内のプルーニングマスクの信頼性とプルーニング多様性を示す新たな情報理論的指標を提案する。

Unstructured neural network pruning algorithms have achieved impressive compression rates. However, the resulting - typically irregular - sparse matrices hamper efficient hardware implementations, leading to additional memory usage and complex control logic that diminishes the benefits of unstructured pruning. This has spurred structured coarse-grained pruning solutions that prune entire filters or even layers, enabling efficient implementation at the expense of reduced flexibility. Here we propose a flexible new pruning mechanism that facilitates pruning at different granularities (weights, kernels, filters/feature maps), while retaining efficient memory organization (e.g. pruning exactly k-out-of-n weights for every output neuron, or pruning exactly k-out-of-n kernels for every feature map). We refer to this algorithm as Dynamic Probabilistic Pruning (DPP). DPP leverages the Gumbel-softmax relaxation for differentiable k-out-of-n sampling, facilitating end-to-end optimization. We show that DPP achieves competitive compression rates and classification accuracy when pruning common deep learning models trained on different benchmark datasets for image classification. Relevantly, the non-magnitude-based nature of DPP allows for joint optimization of pruning and weight quantization in order to even further compress the network, which we show as well. Finally, we propose novel information theoretic metrics that show the confidence and pruning diversity of pruning masks within a layer.
翻訳日:2021-05-27 13:38:16 公開日:2021-05-26
# 人間の動きから二足歩行を学習する

Learning Bipedal Robot Locomotion from Human Movement ( http://arxiv.org/abs/2105.12277v1 )

ライセンス: Link先を確認
Michael Taylor, Sergey Bashkirov, Javier Fernandez Rico, Ike Toriyama, Naoyuki Miyada, Hideki Yanagisawa, Kensaku Ishizuka(参考訳) 人間的な例から人型ロボットを教えることは、その運動に人間のような性質を与える機会を与える。 本研究では,実世界2足歩行ロボットに人間のモーションキャプチャデータから直接動作を指示する強化学習に基づく手法を提案する。 シミュレーション環境でのトレーニングから,実世界のトレーニングイテレーションやオフラインステップを必要とせずに,物理的ロボット上での実行へとシームレスに移行する。 ロボットとモーションキャプチャーアクタのジョイント構成の相違を克服するため,本手法では運動再ターゲティングを訓練プロセスに組み込む。 ドメインランダム化技術は、シミュレーションシステムと物理システムの違いを補うために用いられる。 本研究では, 動的歩行サイクルから複雑なバランスや振れまで, 内部で開発したヒューマノイドロボットの動作を実演する。 コントローラは、モーションキャプチャーデータによって付与されたスタイルを保存し、ロボットに安全な操作をもたらす優れた障害モードを示す。 この研究は研究目的のみに行われた。

Teaching an anthropomorphic robot from human example offers the opportunity to impart humanlike qualities on its movement. In this work we present a reinforcement learning based method for teaching a real world bipedal robot to perform movements directly from human motion capture data. Our method seamlessly transitions from training in a simulation environment to executing on a physical robot without requiring any real world training iterations or offline steps. To overcome the disparity in joint configurations between the robot and the motion capture actor, our method incorporates motion re-targeting into the training process. Domain randomization techniques are used to compensate for the differences between the simulated and physical systems. We demonstrate our method on an internally developed humanoid robot with movements ranging from a dynamic walk cycle to complex balancing and waving. Our controller preserves the style imparted by the motion capture data and exhibits graceful failure modes resulting in safe operation for the robot. This work was performed for research purposes only.
翻訳日:2021-05-27 13:37:39 公開日:2021-05-26
# フェデレートトランスファー学習と説明可能なAIを用いたECGモニタリングヘルスケアシステムの設計

Designing ECG Monitoring Healthcare System with Federated Transfer Learning and Explainable AI ( http://arxiv.org/abs/2105.12497v1 )

ライセンス: Link先を確認
Ali Raza, Kim Phuc Tran, Ludovic Koehl and Shujun Li(参考訳) 深層学習は心電図(ecg)データを用いて異なる不整脈を分類する上で重要な役割を果たす。 それでも、ディープラーニングモデルのトレーニングは通常、大量のデータを必要とするため、プライバシの懸念を引き起こす可能性がある。 残念ながら、大量の医療データを単一のサイロから容易に収集することはできない。 さらに、ディープラーニングモデルはブラックボックスのようなもので、予測結果の説明性はなく、臨床医療でしばしば必要とされる。 これにより、現実世界の健康システムにおけるディープラーニングの適用が制限される。 本稿では,ECGベースの医療アプリケーションのための統合環境において,新しい説明可能な人工知能(XAI)ベースのディープラーニングフレームワークを設計する。 フェデレーション設定は、データ可用性やプライバシの懸念といった問題を解決するために使用される。 さらに,提案フレームワークでは,畳み込みニューラルネットワーク(cnn)に基づいて,オートエンコーダと分類器を用いて不整脈を効果的に分類する。 さらに,提案する分類器の上位にxaiベースのモジュールを提案し,分類結果を説明し,臨床実践者が迅速かつ信頼性の高い意思決定を行うのを支援する。 提案フレームワークはmit-bih不整脈データベースを用いてトレーニングおよびテストを行った。 この分類器は, ノイズデータとクリーンデータを用いた不整脈検出では, 94%, 98%の精度で5倍のクロスバリデーションが得られた。

Deep learning play a vital role in classifying different arrhythmias using the electrocardiography (ECG) data. Nevertheless, training deep learning models normally requires a large amount of data and it can lead to privacy concerns. Unfortunately, a large amount of healthcare data cannot be easily collected from a single silo. Additionally, deep learning models are like black-box, with no explainability of the predicted results, which is often required in clinical healthcare. This limits the application of deep learning in real-world health systems. In this paper, we design a new explainable artificial intelligence (XAI) based deep learning framework in a federated setting for ECG-based healthcare applications. The federated setting is used to solve issues such as data availability and privacy concerns. Furthermore, the proposed framework setting effectively classifies arrhythmia's using an autoencoder and a classifier, both based on a convolutional neural network (CNN). Additionally, we propose an XAI-based module on top of the proposed classifier to explain the classification results, which help clinical practitioners make quick and reliable decisions. The proposed framework was trained and tested using the MIT-BIH Arrhythmia database. The classifier achieved accuracy up to 94% and 98% for arrhythmia detection using noisy and clean data, respectively, with five-fold cross-validation.
翻訳日:2021-05-27 13:37:15 公開日:2021-05-26
# 深層学習によるコミュニティ検出に関する包括的調査

A Comprehensive Survey on Community Detection with Deep Learning ( http://arxiv.org/abs/2105.12584v1 )

ライセンス: Link先を確認
Xing Su, Shan Xue, Fanzhen Liu, Jia Wu, Jian Yang, Chuan Zhou, Wenbin Hu, Cecile Paris, Surya Nepal, Di Jin, Quan Z. Sheng, Philip S. Yu(参考訳) コミュニティは、ネットワーク内の他のコミュニティと異なるメンバーの特徴とつながりを明らかにします。 ネットワーク分析において,コミュニティの検出は非常に重要である。 古典的なスペクトルクラスタリングと統計的推測手法にもかかわらず,近年,コミュニティ検出のための深層学習技術が発展し,高次元ネットワークデータの処理に長けている。 したがって、深層学習によるコミュニティ検出の最近の進歩の総合的な概要は、学者と実践者の両方にとってタイムリーである。 本調査は,ディープニューラルネットワークを用いたディープラーニングモデル,ディープ非負行列分解,ディープスパースフィルタリングなど,最先端手法のさまざまなカテゴリをカバーする新たな分類法を考案し,提案する。 主なカテゴリ、すなわちディープニューラルネットワークは、さらに畳み込みネットワーク、グラフアテンションネットワーク、生成的逆ネットワーク、オートエンコーダに分けられる。 この調査では、人気のあるベンチマークデータセット、モデル評価メトリクス、実験設定に対処するオープンソース実装も要約している。 次に、様々な領域におけるコミュニティ検出の実践的応用と実装シナリオについて論じる。 最後に,この急速に成長するディープラーニング分野における課題を提案することによって,今後の方向性を概説する。

A community reveals the features and connections of its members that are different from those in other communities in a network. Detecting communities is of great significance in network analysis. Despite the classical spectral clustering and statistical inference methods, we notice a significant development of deep learning techniques for community detection in recent years with their advantages in handling high dimensional network data. Hence, a comprehensive overview of community detection's latest progress through deep learning is timely to both academics and practitioners. This survey devises and proposes a new taxonomy covering different categories of the state-of-the-art methods, including deep learning-based models upon deep neural networks, deep nonnegative matrix factorization and deep sparse filtering. The main category, i.e., deep neural networks, is further divided into convolutional networks, graph attention networks, generative adversarial networks and autoencoders. The survey also summarizes the popular benchmark data sets, model evaluation metrics, and open-source implementations to address experimentation settings. We then discuss the practical applications of community detection in various domains and point to implementation scenarios. Finally, we outline future directions by suggesting challenging topics in this fast-growing deep learning field.
翻訳日:2021-05-27 13:36:41 公開日:2021-05-26
# 複数の$l_p$-threatモデルに対する1の価格での逆ロバスト性と他の脅威モデルへの高速微調整方法

Adversarial robustness against multiple $l_p$-threat models at the price of one and how to quickly fine-tune robust models to another threat model ( http://arxiv.org/abs/2105.12508v1 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) 対向的堅牢性を実現するために, 対向的トレーニング (AT) を単一$l_p$-threatモデルで行うことが広く議論されている。 しかし、安全クリティカルなシステムでは、全ての$l_p$-threatモデルを同時に実行する必要がある。 本稿では,$l_p$-threatモデルの結合に対する対角的ロバスト性を実現するための,シンプルで効率的なトレーニング手法を開発する。 我々の新しい$l_1+l_\infty$-ATスキームは、異なる$l_p$-ボールの幾何学的考察と、1つの$l_p$-threatモデルに対する通常の逆トレーニングのコストに基づいている。 さらに、我々の$l_1+l_\infty$-ATスキームを用いることで、$l_p$-robustモデル($p \in \{1,2,\infty\}$)をわずか3つのエポックで微調整し、複数のノルム対向ロバスト性を達成することを示す。 このようにして、複数のノルムのロバスト性に関する以前の報告をcifar-10で$6\%以上増加させ、私たちの知るところでは、複数の標準ロバスト性を持つ最初のimagenetモデルについて報告します。 さらに,異なる脅威モデル間の対向ロバスト性の一般的な移動について検討し,CIFAR-10における以前のSOTA $l_1$-robustnessを約10\%向上させる。

Adversarial training (AT) in order to achieve adversarial robustness wrt single $l_p$-threat models has been discussed extensively. However, for safety-critical systems adversarial robustness should be achieved wrt all $l_p$-threat models simultaneously. In this paper we develop a simple and efficient training scheme to achieve adversarial robustness against the union of $l_p$-threat models. Our novel $l_1+l_\infty$-AT scheme is based on geometric considerations of the different $l_p$-balls and costs as much as normal adversarial training against a single $l_p$-threat model. Moreover, we show that using our $l_1+l_\infty$-AT scheme one can fine-tune with just 3 epochs any $l_p$-robust model (for $p \in \{1,2,\infty\}$) and achieve multiple norm adversarial robustness. In this way we boost the previous state-of-the-art reported for multiple-norm robustness by more than $6\%$ on CIFAR-10 and report up to our knowledge the first ImageNet models with multiple norm robustness. Moreover, we study the general transfer of adversarial robustness between different threat models and in this way boost the previous SOTA $l_1$-robustness on CIFAR-10 by almost $10\%$.
翻訳日:2021-05-27 13:34:56 公開日:2021-05-26
# 映像処理における機械学習の透明化に向けて

Towards Transparent Application of Machine Learning in Video Processing ( http://arxiv.org/abs/2105.12700v1 )

ライセンス: Link先を確認
Luka Murn, Marc Gorriz Blanch, Maria Santamaria, Fiona Rivera, Marta Mrak(参考訳) より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。 人工知能(AI)の先進的な形態と見なされるこの新技術は、これまで予期せぬ能力をもたらす。 しかし、それらは典型的には、資源不足のブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。 したがって、それらの応用は予測不可能であり、大規模な用途(例えば、)では一般的に信頼できない。 ライブ放送)。 この研究の目的は、ビデオ処理アプリケーションにおける学習モデルを理解し、最適化することで、それらを組み込んだシステムがより信頼できる方法で使用できるようにすることである。 この文脈では、ビデオ制作および配信アプリケーションのための機械学習の実装における透明性の向上を目的とした学習モデルの簡易化のための原則を導入する。 これらの原理はビデオ圧縮の例で示されており、関連するディープラーニングモデルを単純化することで、ビットレートの節約と複雑さの低減がいかに達成できるかを示している。

Machine learning techniques for more efficient video compression and video enhancement have been developed thanks to breakthroughs in deep learning. The new techniques, considered as an advanced form of Artificial Intelligence (AI), bring previously unforeseen capabilities. However, they typically come in the form of resource-hungry black-boxes (overly complex with little transparency regarding the inner workings). Their application can therefore be unpredictable and generally unreliable for large-scale use (e.g. in live broadcast). The aim of this work is to understand and optimise learned models in video processing applications so systems that incorporate them can be used in a more trustworthy manner. In this context, the presented work introduces principles for simplification of learned models targeting improved transparency in implementing machine learning for video production and distribution applications. These principles are demonstrated on video compression examples, showing how bitrate savings and reduced complexity can be achieved by simplifying relevant deep learning models.
翻訳日:2021-05-27 13:34:12 公開日:2021-05-26
# Masked Noun-Phrase 予測による教師なし代名詞分解

Unsupervised Pronoun Resolution via Masked Noun-Phrase Prediction ( http://arxiv.org/abs/2105.12392v1 )

ライセンス: Link先を確認
Ming Shen, Pratyay Banerjee, Chitta Baral(参考訳) 本研究では,完全教師なし環境で代名詞解決に取り組むための事前学習戦略であるMasked Noun-Phrase Prediction (MNPP)を提案する。 まず,様々な代名詞解決データセットの事前学習モデルを評価する。 提案手法は,全データセットにおける従来の教師なし手法を大きなマージンで上回っている。 次に、WinoGrande-SとXSでトレーニング済みのモデルを微調整する。 提案手法は,WinoGrandeの残りの3つのオフィシャルスプリットを微調整した後,高いAUCスコアを達成し,RoBERTa-largeベースラインを大きなマージンで上回った。

In this work, we propose Masked Noun-Phrase Prediction (MNPP), a pre-training strategy to tackle pronoun resolution in a fully unsupervised setting. Firstly, We evaluate our pre-trained model on various pronoun resolution datasets without any finetuning. Our method outperforms all previous unsupervised methods on all datasets by large margins. Secondly, we proceed to a few-shot setting where we finetune our pre-trained model on WinoGrande-S and XS. Our method outperforms RoBERTa-large baseline with large margins, meanwhile, achieving a higher AUC score after further finetuning on the remaining three official splits of WinoGrande.
翻訳日:2021-05-27 13:32:54 公開日:2021-05-26
# トークン化と下流モデルの統合最適化

Joint Optimization of Tokenization and Downstream Model ( http://arxiv.org/abs/2105.12410v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki and Naoaki Okazaki(参考訳) 従来のトークン化器は下流のタスクやモデルから分離されているため、タスクやモデルに応じて適切なトークン化を出力することはできない。 本稿では,トークン化器とモデルの共同最適化により,与えられた下流モデルに適切なトークン化を求める手法を提案する。 提案手法は, 下流モデルで計算した損失値を用いてトークン化者を訓練する以外に制限がなく, 提案手法を任意のNLPタスクに適用することができる。 さらに,提案手法を用いて,すでに訓練済みのモデルのトークン化を後処理として検討することができる。 したがって,提案手法は様々な状況に適用できる。 提案手法が3言語でテキスト分類の性能向上に寄与するか,8言語で機械翻訳を行った。 実験の結果,提案手法はトークン化の適否を判定することで性能を向上できることがわかった。

Since traditional tokenizers are isolated from a downstream task and model, they cannot output an appropriate tokenization depending on the task and model, although recent studies imply that the appropriate tokenization improves the performance. In this paper, we propose a novel method to find an appropriate tokenization to a given downstream model by jointly optimizing a tokenizer and the model. The proposed method has no restriction except for using loss values computed by the downstream model to train the tokenizer, and thus, we can apply the proposed method to any NLP task. Moreover, the proposed method can be used to explore the appropriate tokenization for an already trained model as post-processing. Therefore, the proposed method is applicable to various situations. We evaluated whether our method contributes to improving performance on text classification in three languages and machine translation in eight language pairs. Experimental results show that our proposed method improves the performance by determining appropriate tokenizations.
翻訳日:2021-05-27 13:32:37 公開日:2021-05-26
# バイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習

Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2105.12523v1 )

ライセンス: Link先を確認
Yangyifan Xu, Yijin Liu, Fandong Meng, Jiajun Zhang, Jinan Xu, Jie Zhou(参考訳) 近年,トークンレベルの適応トレーニングは,異なるトークンに異なるトレーニング重みを割り当てることで,クロスエントロピー損失関数を調整し,トークンの不均衡問題を軽減し,機械翻訳における有望な改善を実現している。 しかし、従来の手法では、ソース言語を考慮せずにターゲット言語の静的単語頻度情報のみを使用しており、機械翻訳のようなバイリンガルタスクには不十分である。 本稿では,両言語主義の観点から目標トークンの学習困難度を測定し,トークンレベルの適応訓練を改善するために適応重みを割り当てる,新しいバイリンガル相互情報(BMI)に基づく適応目標を提案する。 この方法はbmiの高いトークンに対してより大きなトレーニング重みを割り当て、簡単なトークンは粗い粒度で更新され、難しいトークンは細かい粒度で更新される。 WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。 さらなる分析により,本手法は語彙多様性を向上できることが確認された。

Recently, token-level adaptive training has achieved promising improvement in machine translation, where the cross-entropy loss function is adjusted by assigning different training weights to different tokens, in order to alleviate the token imbalance problem. However, previous approaches only use static word frequency information in the target language without considering the source language, which is insufficient for bilingual tasks like machine translation. In this paper, we propose a novel bilingual mutual information (BMI) based adaptive objective, which measures the learning difficulty for each target token from the perspective of bilingualism, and assigns an adaptive weight accordingly to improve token-level adaptive training. This method assigns larger training weights to tokens with higher BMI, so that easy tokens are updated with coarse granularity while difficult tokens are updated with fine granularity. Experimental results on WMT14 English-to-German and WMT19 Chinese-to-English demonstrate the superiority of our approach compared with the Transformer baseline and previous token-level adaptive training approaches. Further analyses confirm that our method can improve the lexical diversity.
翻訳日:2021-05-27 13:32:15 公開日:2021-05-26
# テキストにおける騙し検出と個人主義・集団主義の文化的次元との関係

Deception detection in text and its relation to the cultural dimension of individualism/collec tivism ( http://arxiv.org/abs/2105.12530v1 )

ライセンス: Link先を確認
Katerina Papantoniou, Panagiotis Papadakos, Theodore Patkos, Giorgos Flouris, Ion Androutsopoulos, Dimitris Plexousakis(参考訳) 誤認検出は、直接的物理的およびコンピュータによる通信の両方において多くの応用のタスクである。 私たちの焦点は、文化をまたがるテキストの自動誤認検出です。 我々は文化を個人主義/集団主義の次元のプリズムを通して捉え、国を代理として使うことで文化を近似する。 社会心理学の分野から最近導かれた結論を出発点として,文化をまたがるデセプションの特定の言語的特徴の用法の違いが確認でき,個人主義・集団主義の分断に関して規範に帰着できるかどうかを考察する。 また,異文化間テキストの誤読検出タスクのための普遍的特徴集合が存在するかどうかについても検討する。 我々は,様々な特徴集合とアプローチの予測能力を評価する。 我々は、音韻、形態、構文に基づく幅広いn-gram特徴、単語・音素数、代名詞使用、トークン埋め込みなど他の言語的手がかりを実験することにより、文化・言語認識分類器を作成する。 我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)の11のデータセットを用いて実験を行い、ロジスティック回帰と細調整されたBERTモデルという2つの分類手法を適用した。 その結果,タスクはかなり複雑で,要求も高いことがわかった。 いくつかの言語は文化的な起源を持ち、多様なドメインや同じ言語のデータセット設定の文脈で一致している。 これは代名詞の用法や知覚言語における感情表現においてより顕著である。 本研究の結果,文化と言語をまたいだ誤認の自動検出は,統一的な方法では処理できず,文化の違いや関心領域に関する知識も加えるべきであることが示された。

Deception detection is a task with many applications both in direct physical and in computer-mediated communication. Our focus is on automatic deception detection in text across cultures. We view culture through the prism of the individualism/collec tivism dimension and we approximate culture by using country as a proxy. Having as a starting point recent conclusions drawn from the social psychology discipline, we explore if differences in the usage of specific linguistic features of deception across cultures can be confirmed and attributed to norms in respect to the individualism/collec tivism divide. We also investigate if a universal feature set for cross-cultural text deception detection tasks exists. We evaluate the predictive power of different feature sets and approaches. We create culture/language-awa re classifiers by experimenting with a wide range of n-gram features based on phonology, morphology and syntax, other linguistic cues like word and phoneme counts, pronouns use, etc., and token embeddings. We conducted our experiments over 11 datasets from 5 languages i.e., English, Dutch, Russian, Spanish and Romanian, from six countries (US, Belgium, India, Russia, Mexico and Romania), and we applied two classification methods i.e, logistic regression and fine-tuned BERT models. The results showed that our task is fairly complex and demanding. There are indications that some linguistic cues of deception have cultural origins, and are consistent in the context of diverse domains and dataset settings for the same language. This is more evident for the usage of pronouns and the expression of sentiment in deceptive language. The results of this work show that the automatic deception detection across cultures and languages cannot be handled in a unified manner, and that such approaches should be augmented with knowledge about cultural differences and the domains of interest.
翻訳日:2021-05-27 13:31:46 公開日:2021-05-26
# アノテータとしての言語モデル:対話要約のためのダイアログプの検討

Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization ( http://arxiv.org/abs/2105.12544v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Libo Qin, Bing Qin, Ting Liu(参考訳) 現在の対話要約システムは通常、より強力な対話モデリング機能を得るために、テキストを多くの一般的な意味的特徴(キーワードやトピックなど)でエンコードする。 しかし、これらの機能は、ダイアログに依存しない、あるいは人間のアノテーションに依存するオープンドメインツールキットによって得られる。 本稿では,対話応答生成のための事前学習モデルであるDialoGPTを,対話背景知識を符号化した教師なし対話アノテータとして開発する方法を示す。 ダイアロGPTを用いて、2つの対話要約データセット(SAMSumとAMI)に3種類の特徴をラベル付けし、事前学習モデルと非訓練モデルを用いて要約する。 実験の結果,提案手法は両データセットにおいて著しく改善し,samsumデータセット上で新たな最先端性能を実現することができた。

Current dialogue summarization systems usually encode the text with a number of general semantic features (e.g., keywords and topics) to gain more powerful dialogue modeling capabilities. However, these features are obtained via open-domain toolkits that are dialog-agnostic or heavily relied on human annotations. In this paper, we show how DialoGPT, a pre-trained model for conversational response generation, can be developed as an unsupervised dialogue annotator, which takes advantage of dialogue background knowledge encoded in DialoGPT. We apply DialoGPT to label three types of features on two dialogue summarization datasets, SAMSum and AMI, and employ pre-trained and non pre-trained models as our summarizes. Experimental results show that our proposed method can obtain remarkable improvements on both datasets and achieves new state-of-the-art performance on the SAMSum dataset.
翻訳日:2021-05-27 13:30:58 公開日:2021-05-26
# NNCFR:ニューラルネットワークによる反ファクトレグレストの最小化

NNCFR: Minimize Counterfactual Regret with Neural Networks ( http://arxiv.org/abs/2105.12328v1 )

ライセンス: Link先を確認
Huale Li, Xuan Wang, Zengyue Guo, Jiajia Zhang, Shuhan Qi(参考訳) ファクトファクトレグレスト最小化(CFR)は、不完全な情報を持つ2つのプレイヤーゼロサムゲームにおいて、近似ナッシュ平衡を求める一般的な方法である。 CFRはゲームツリー全体を反復的に切り刻むことでゲームを解決し、より大きなゲームのスケーラビリティを制限する。 従来,大規模ゲームにcfrを適用する場合,大規模ゲームはまず小規模ゲームに抽象化される。 第2に、CFRは抽象ゲームを解くために使用される。 そして最後に、ソリューション戦略はオリジナルの大規模ゲームにマッピングされます。 しかし、このプロセスにはかなりの専門知識が必要であり、抽象化の正確さは専門知識と密接に関連している。 さらに、抽象化は特定の情報を失い、最終的にはソリューション戦略の精度に影響を与える。 この問題に向けて、最近の方法である‘textit{Deep CFR’は、完全なゲームにおいて深層ニューラルネットワークを直接CFRに適用することにより、抽象化と専門知識の必要性を軽減する。 本稿では、値ネットワークとしてデュエルネットウォクを構築することにより、より高速な収束性を持つ、より改良された \textit{Deep CFR} である \textit{Neural Network Counterfactual Regret Minimization (NNCFR)} を紹介する。 さらに、評価モジュールは、値ネットワークとモンテカルロを組み合わせることで設計され、値ネットワークの近似誤差を低減する。 さらに、新しい損失関数は、提案された \textit{nncfr} のポリシーネットワークを訓練する手順で設計されており、ポリシーネットワークをより安定させるのに役立つ。 実験により, \textit{NNCFR} は \textit{Deep CFR} よりも高速に収束し,より安定に動作し, テストゲームにおける操作性やヘッド・ツー・ヘッドのパフォーマンスに対して, \textit{Deep CFR} よりも優れていた。

Counterfactual Regret Minimization (CFR)} is the popular method for finding approximate Nash equilibrium in two-player zero-sum games with imperfect information. CFR solves games by travsersing the full game tree iteratively, which limits its scalability in larger games. When applying CFR to solve large-scale games in previously, large-scale games are abstracted into small-scale games firstly. Secondly, CFR is used to solve the abstract game. And finally, the solution strategy is mapped back to the original large-scale game. However, this process requires considerable expert knowledge, and the accuracy of abstraction is closely related to expert knowledge. In addition, the abstraction also loses certain information, which will eventually affect the accuracy of the solution strategy. Towards this problem, a recent method, \textit{Deep CFR} alleviates the need for abstraction and expert knowledge by applying deep neural networks directly to CFR in full games. In this paper, we introduces \textit{Neural Network Counterfactual Regret Minimization (NNCFR)}, an improved variant of \textit{Deep CFR} that has a faster convergence by constructing a dueling netwok as the value network. Moreover, an evaluation module is designed by combining the value network and Monte Carlo, which reduces the approximation error of the value network. In addition, a new loss function is designed in the procedure of training policy network in the proposed \textit{NNCFR}, which can be good to make the policy network more stable. The extensive experimental tests are conducted to show that the \textit{NNCFR} converges faster and performs more stable than \textit{Deep CFR}, and outperforms \textit{Deep CFR} with respect to exploitability and head-to-head performance on test games.
翻訳日:2021-05-27 13:30:36 公開日:2021-05-26
# 組合せテストのための不完全なMaxSATアプローチ

Incomplete MaxSAT Approaches for Combinatorial Testing ( http://arxiv.org/abs/2105.12552v1 )

ライセンス: Link先を確認
Carlos Ans\'otegui, Felip Many\`a, Jesus Ojeda, Josep M. Salvia, Eduard Torres(参考訳) 本稿では,最小長の制約を持つ混合被覆配列を構築するための満足度(sat)に基づく手法を提案する。 この問題はシステム障害検出のための組合せテストの中心にある。 特に,最大満足度 (MaxSAT) 技術を適用し, 最適解と準最適解をそれぞれ計算するために, 完全解と不完全解の異なるクラスに対する効率的な符号化を記述する方法を示す。 同様に、MaxSAT技術を通して、制約を組み込むために拡張するタプル数問題(タプル数問題)を解く方法を示す。 この問題に対して、我々は新しいMaxSATベースの不完全アルゴリズムを提供する。 制約ベンチマーク付き混合被覆アレイについて行った広範囲な実験評価と最新ツールとの比較により,提案手法の良好な性能が確認された。

We present a Satisfiability (SAT)-based approach for building Mixed Covering Arrays with Constraints of minimum length, referred to as the Covering Array Number problem. This problem is central in Combinatorial Testing for the detection of system failures. In particular, we show how to apply Maximum Satisfiability (MaxSAT) technology by describing efficient encodings for different classes of complete and incomplete MaxSAT solvers to compute optimal and suboptimal solutions, respectively. Similarly, we show how to solve through MaxSAT technology a closely related problem, the Tuple Number problem, which we extend to incorporate constraints. For this problem, we additionally provide a new MaxSAT-based incomplete algorithm. The extensive experimental evaluation we carry out on the available Mixed Covering Arrays with Constraints benchmarks and the comparison with state-of-the-art tools confirm the good performance of our approaches.
翻訳日:2021-05-27 13:29:46 公開日:2021-05-26
# PSGAN++:ロバストな詳細な保存メイクアップ転送と削除

PSGAN++: Robust Detail-Preserving Makeup Transfer and Removal ( http://arxiv.org/abs/2105.12324v1 )

ライセンス: Link先を確認
Si Liu, Wentao Jiang, Chen Gao, Ran He, Jiashi Feng, Bo Li, Shuicheng Yan(参考訳) 本稿では,参照画像からソース画像へメークアップを転送し,メークアップ画像からメークアップを除去することを目的としたメークアップ転送と削除を同時に行う。 既存の手法は制約のあるシナリオでは大きな進歩を遂げているが、ポーズや表情の違いが大きい画像間でメイクアップを転送したり、頬のブラッシュや鼻のハイライトのようなメイクアップの詳細を扱うことは依然として非常に困難である。 また、入力面の特定の部分の転写や転写の際のメークアップの程度を制御できない。 そこで本研究では,psgan++ を提案する。psgan++ は精細なメイクアップ転送と効果的なメイクアップ除去の両方を行うことができる。 PSGAN++はメイクアップ・ディスティル・ネットワーク(Makeup Distill Network)を使用してメイクアップ情報を抽出し、空間認識メイク行列に埋め込む。 また、基準画像からソース画像のメイクアップがどう変化するかを特定するための注意メイクアップモーフィングモジュールと、選択されたメイクアップディテール領域内でモデルを監督するメイクアップディテールロスとを考案する。 一方,PSGAN++では,メイクアップ画像からのアイデンティティ情報をアイデンティティ行列に埋め込むために,ID Distill Networkを適用している。 最後に、得られたメークアップ/アイデンティティ行列をスタイル転送ネットワークに供給し、特徴マップを編集してメークアップ転送または削除を行う。 提案するPSGAN++の有効性を評価するため,多様なポーズや表現を持つ画像を含むWildデータセットと,高解像度な画像を含むMakeup Transfer High-Resolutionデータセットを収集した。 実験により、psgan++はポーズや表現の差異が大きい場合にも、細かいメイクアップディテールで最先端の結果が得られるだけでなく、部分的あるいは程度制御可能なメイクアップ転送も可能であることが示されている。

In this paper, we address the makeup transfer and removal tasks simultaneously, which aim to transfer the makeup from a reference image to a source image and remove the makeup from the with-makeup image respectively. Existing methods have achieved much advancement in constrained scenarios, but it is still very challenging for them to transfer makeup between images with large pose and expression differences, or handle makeup details like blush on cheeks or highlight on the nose. In addition, they are hardly able to control the degree of makeup during transferring or to transfer a specified part in the input face. In this work, we propose the PSGAN++, which is capable of performing both detail-preserving makeup transfer and effective makeup removal. For makeup transfer, PSGAN++ uses a Makeup Distill Network to extract makeup information, which is embedded into spatial-aware makeup matrices. We also devise an Attentive Makeup Morphing module that specifies how the makeup in the source image is morphed from the reference image, and a makeup detail loss to supervise the model within the selected makeup detail area. On the other hand, for makeup removal, PSGAN++ applies an Identity Distill Network to embed the identity information from with-makeup images into identity matrices. Finally, the obtained makeup/identity matrices are fed to a Style Transfer Network that is able to edit the feature maps to achieve makeup transfer or removal. To evaluate the effectiveness of our PSGAN++, we collect a Makeup Transfer In the Wild dataset that contains images with diverse poses and expressions and a Makeup Transfer High-Resolution dataset that contains high-resolution images. Experiments demonstrate that PSGAN++ not only achieves state-of-the-art results with fine makeup details even in cases of large pose/expression differences but also can perform partial or degree-controllable makeup transfer.
翻訳日:2021-05-27 13:29:25 公開日:2021-05-26
# 複数のドメインエキスパートによる協調学習 - 個人再識別のためのマルチソースドメイン一般化

Multiple Domain Experts Collaborative Learning: Multi-Source Domain Generalization For Person Re-Identification ( http://arxiv.org/abs/2105.12355v1 )

ライセンス: Link先を確認
Shijie Yu, Feng Zhu, Dapeng Chen, Rui Zhao, Haobin Chen, Shixiang Tang, Jinguo Zhu, Yu Qiao(参考訳) 近年では、人物再同定(ReID)が著しく進歩している。 しかし、現在のReIDアプローチでは、テスト対象ドメインが、ドメインシフト問題として知られるトレーニングドメインとは異なる特性を示す場合、パフォーマンスが著しく低下する。 ReIDをより実用的で汎用的にするために、ドメイン一般化(DG)問題として人物を再同定し、MD-ExCo(Multiple Domain Experts Collaborative Learning)という新しいトレーニングフレームワークを提案する。 具体的には、MD-ExCoは普遍的な専門家といくつかのドメインエキスパートで構成されている。 各ドメインエキスパートは特定のドメインから学ぶことに集中し、定期的に他のドメインエキスパートとコミュニケーションを取り、メタ学習のやり方で学習戦略を規制し、過度な適合を避ける。 さらに、ユニバーサルエキスパートはドメインの専門家から知識を集め、フィードバックとしてそれらに監督を提供する。 DG-ReIDベンチマークの大規模な実験により、我々のMD-ExCoは最先端の手法よりも高い性能を示し、ReIDモデルの一般化能力を向上させる能力を示している。

Recent years have witnessed significant progress in person re-identification (ReID). However, current ReID approaches suffer from considerable performance degradation when the test target domains exhibit different characteristics from the training ones, known as the domain shift problem. To make ReID more practical and generalizable, we formulate person re-identification as a Domain Generalization (DG) problem and propose a novel training framework, named Multiple Domain Experts Collaborative Learning (MD-ExCo). Specifically, the MD-ExCo consists of a universal expert and several domain experts. Each domain expert focuses on learning from a specific domain, and periodically communicates with other domain experts to regulate its learning strategy in the meta-learning manner to avoid overfitting. Besides, the universal expert gathers knowledge from the domain experts, and also provides supervision to them as feedback. Extensive experiments on DG-ReID benchmarks show that our MD-ExCo outperforms the state-of-the-art methods by a large margin, showing its ability to improve the generalization capability of the ReID models.
翻訳日:2021-05-27 13:28:30 公開日:2021-05-26
# KLIEPに基づく都市交通シーンにおける連続合成と実画像適応の密度比推定

KLIEP-based Density Ratio Estimation for Semantically Consistent Synthetic to Real Images Adaptation in Urban Traffic Scenes ( http://arxiv.org/abs/2105.12549v1 )

ライセンス: Link先を確認
Artem Savkin and Federico Tombari(参考訳) 合成データは、多くのディープラーニングベースのコンピュータビジョンタスクに応用されている。 合成データのみを訓練したアルゴリズムの限られた性能は、生成的逆数フレームワークに基づくような領域適応手法によってアプローチされてきた。 本稿では,対人訓練だけで翻訳画像に意味的不整合を導入する方法を示す。 この問題に対処するために,KLIEPに基づく密度比推定手法を用いた密度予測手法を提案する。 最後に、上記の戦略は、自律運転の文脈において、基礎となる手法の翻訳画像の品質とセマンティックセグメンテーションタスクのユーザビリティを向上させることを示す。

Synthetic data has been applied in many deep learning based computer vision tasks. Limited performance of algorithms trained solely on synthetic data has been approached with domain adaptation techniques such as the ones based on generative adversarial framework. We demonstrate how adversarial training alone can introduce semantic inconsistencies in translated images. To tackle this issue we propose density prematching strategy using KLIEP-based density ratio estimation procedure. Finally, we show that aforementioned strategy improves quality of translated images of underlying method and their usability for the semantic segmentation task in the context of autonomous driving.
翻訳日:2021-05-27 13:28:00 公開日:2021-05-26
# カモフラージュ物体検出のためのコンテキスト対応クロスレベル融合ネットワーク

Context-aware Cross-level Fusion Network for Camouflaged Object Detection ( http://arxiv.org/abs/2105.12555v1 )

ライセンス: Link先を確認
Yujia Sun, Geng Chen, Tao Zhou, Yi Zhang, Nian Liu(参考訳) カモフラージュされた物体検出(COD)は、物体とその周囲の境界のコントラストが低いため難しい課題である。 さらに、カモフラージュされた物体の外観は、例えば、物体の大きさや形状などによって大きく異なり、正確なCODの難しさが増す。 本稿では,cod課題に対処するために,コンテキスト認識型クロスレベル融合ネットワーク(c2f-net)を提案する。 具体的には,アテンション誘導型クロスレベル核融合モジュール (ACFM) を提案する。 融合した機能は提案されたDual-branch Global Context Module (DGCM)に送られ、リッチなグローバルなコンテキスト情報を利用するためのマルチスケールな特徴表現が得られる。 C2F-Netでは、この2つのモジュールはカスケード方式で高レベルな機能で実行される。 C2F-Netは有効なCODモデルであり、最先端のモデルよりも優れています。 私たちのコードは、https://github.com/t hograce/C2FNetで公開されています。

Camouflaged object detection (COD) is a challenging task due to the low boundary contrast between the object and its surroundings. In addition, the appearance of camouflaged objects varies significantly, e.g., object size and shape, aggravating the difficulties of accurate COD. In this paper, we propose a novel Context-aware Cross-level Fusion Network (C2F-Net) to address the challenging COD task. Specifically, we propose an Attention-induced Cross-level Fusion Module (ACFM) to integrate the multi-level features with informative attention coefficients. The fused features are then fed to the proposed Dual-branch Global Context Module (DGCM), which yields multi-scale feature representations for exploiting rich global context information. In C2F-Net, the two modules are conducted on high-level features using a cascaded manner. Extensive experiments on three widely used benchmark datasets demonstrate that our C2F-Net is an effective COD model and outperforms state-of-the-art models remarkably. Our code is publicly available at: https://github.com/t hograce/C2FNet.
翻訳日:2021-05-27 13:27:44 公開日:2021-05-26
# 機械の映像符号化に関する最近の標準開発動向

Recent Standard Development Activities on Video Coding for Machines ( http://arxiv.org/abs/2105.12653v1 )

ライセンス: Link先を確認
Wen Gao, Shan Liu, Xiaozhong Xu, Manouchehr Rafie, Yuan Zhang, Igor Curcio(参考訳) 近年、ビデオデータはインターネットトラフィックを支配し、主要なデータフォーマットの1つとなっている。 新興の5Gとモノのインターネット(IoT)技術により、エッジデバイスによって生成されるビデオが増え、ネットワークを介して送信され、マシンによって消費される。 機械が消費するビデオの量は、人間が消費するビデオの量を超える。 マシンビジョンタスクには、オブジェクトの検出、セグメンテーション、トラッキング、その他のマシンベースのアプリケーションが含まれる。 一方,映像データの量が多いため,伝送前に映像を圧縮することが不可欠である。 このように、機械の効率的なビデオ符号化(VCM)は、学術や産業において重要なトピックとなっている。 2019年7月、国際標準化機構(MPEG)は、VCMというアドホックグループを設立し、標準化作業の潜在的な要件について研究した。 本稿では,MPEG VCMグループにおける最近の開発活動について述べる。 具体的には、まずユースケース、要件、処理パイプライン、潜在的なVCM標準の計画、続いて、マシンビジョンタスク、データセット、評価メトリクス、アンカー生成を含む評価フレームワークについて、MPEG VCMグループの概要を紹介する。 本稿では,MPEG VCMグループによって発行されたCall for Evidenceに対する最近の対応について述べる。

In recent years, video data has dominated internet traffic and becomes one of the major data formats. With the emerging 5G and internet of things (IoT) technologies, more and more videos are generated by edge devices, sent across networks, and consumed by machines. The volume of video consumed by machine is exceeding the volume of video consumed by humans. Machine vision tasks include object detection, segmentation, tracking, and other machine-based applications, which are quite different from those for human consumption. On the other hand, due to large volumes of video data, it is essential to compress video before transmission. Thus, efficient video coding for machines (VCM) has become an important topic in academia and industry. In July 2019, the international standardization organization, i.e., MPEG, created an Ad-Hoc group named VCM to study the requirements for potential standardization work. In this paper, we will address the recent development activities in the MPEG VCM group. Specifically, we will first provide an overview of the MPEG VCM group including use cases, requirements, processing pipelines, plan for potential VCM standards, followed by the evaluation framework including machine-vision tasks, dataset, evaluation metrics, and anchor generation. We then introduce technology solutions proposed so far and discuss the recent responses to the Call for Evidence issued by MPEG VCM group.
翻訳日:2021-05-27 13:27:15 公開日:2021-05-26
# 低解像度情報も重要である:人物再同定のためのマルチレゾリューション表現の学習

Low Resolution Information Also Matters: Learning Multi-Resolution Representations for Person Re-Identification ( http://arxiv.org/abs/2105.12684v1 )

ライセンス: Link先を確認
Guoqing Zhang, Yuhao Chen, Weisi Lin, Arun Chandran, Xuan Jing(参考訳) ビデオ監視と鑑識分野における一般的なタスクとして、人物再識別(re-id)は、オーバーラップされたカメラから撮影された人物画像とマッチングすることを目的としている。 制約のないシナリオでは、人物画像はしばしば分解ミスマッチ問題、すなわち \emph{Cross-Resolution Person Re-ID} に悩まされる。 この問題を解決するため、既存のほとんどの手法では、高分解能画像(LR)を高分解能画像(HR)に復元する。 しかし、HR特徴抽出のみに集中し、元のLR画像から有効な情報を無視する。 本研究では,特徴抽出における解像度の影響を考察し,emph{\textbf{m}ulti- resolution \textbf{r}epresentations \textbf{j}oint \textbf{l}earning} (\textbf{mrjl}) と呼ばれる新しい人物識別法を開発した。 本手法は,レゾリューション・コンストラクション・ネットワーク(RRN)とデュアル・フィーチャー・フュージョン・ネットワーク(DFFN)から構成される。 RRNは、HRバージョンとLRバージョンをエンコーダと2つのデコーダで構築するために入力画像を使用し、DFFNはデュアルブランチ構造を採用し、マルチ解像度画像から人物表現を生成する。 5つのベンチマークに関する総合的な実験は、提案したMRJLが最先端の手法よりも優れていることを検証している。

As a prevailing task in video surveillance and forensics field, person re-identification (re-ID) aims to match person images captured from non-overlapped cameras. In unconstrained scenarios, person images often suffer from the resolution mismatch problem, i.e., \emph{Cross-Resolution Person Re-ID}. To overcome this problem, most existing methods restore low resolution (LR) images to high resolution (HR) by super-resolution (SR). However, they only focus on the HR feature extraction and ignore the valid information from original LR images. In this work, we explore the influence of resolutions on feature extraction and develop a novel method for cross-resolution person re-ID called \emph{\textbf{M}ulti-Resolution \textbf{R}epresentations \textbf{J}oint \textbf{L}earning} (\textbf{MRJL}). Our method consists of a Resolution Reconstruction Network (RRN) and a Dual Feature Fusion Network (DFFN). The RRN uses an input image to construct a HR version and a LR version with an encoder and two decoders, while the DFFN adopts a dual-branch structure to generate person representations from multi-resolution images. Comprehensive experiments on five benchmarks verify the superiority of the proposed MRJL over the relevent state-of-the-art methods.
翻訳日:2021-05-27 13:26:42 公開日:2021-05-26
# 物体検出と物体位置推定のための深層学習:サーベイ

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey ( http://arxiv.org/abs/2105.12694v1 )

ライセンス: Link先を確認
Feifei Shao, Long Chen, Jian Shao, Wei Ji, Shaoning Xiao, Lu Ye, Yueting Zhuang, Jun Xiao(参考訳) 弱教師付きオブジェクト検出(wsod)とローカライズ(wsol)、すなわちイメージレベルラベルを用いた画像内のバウンディングボックスによる複数インスタンスと単一インスタンスの検出は、cvコミュニティにおける長年の課題である。 オブジェクト検出におけるディープニューラルネットワークの成功により、WSODとWSOLはどちらも前例のない注目を集めている。 深層学習時代には,WSOD法やWSOL法など数多くの技術が提案されている。 そこで本稿では,wso は wsod のサブタスクであると考え,最近の wsod の成果を総合的に調査する。 具体的には、まず、背景、課題、基本的なフレームワークを含むWSODの定式化と設定を説明します。 一方,検出性能を向上させるための高度な技術や訓練手法を総括し,分析した。 次に、WSODの広く使われているデータセットと評価指標を紹介する。 最後に、WSODの今後の方向性について論じる。 これらの要約は、将来のWSODとWSOLの研究に役立つと考えています。

Weakly-Supervised Object Detection (WSOD) and Localization (WSOL), i.e., detecting multiple and single instances with bounding boxes in an image using image-level labels, are long-standing and challenging tasks in the CV community. With the success of deep neural networks in object detection, both WSOD and WSOL have received unprecedented attention. Hundreds of WSOD and WSOL methods and numerous techniques have been proposed in the deep learning era. To this end, in this paper, we consider WSOL is a sub-task of WSOD and provide a comprehensive survey of the recent achievements of WSOD. Specifically, we firstly describe the formulation and setting of the WSOD, including the background, challenges, basic framework. Meanwhile, we summarize and analyze all advanced techniques and training tricks for improving detection performance. Then, we introduce the widely-used datasets and evaluation metrics of WSOD. Lastly, we discuss the future directions of WSOD. We believe that these summaries can help pave a way for future research on WSOD and WSOL.
翻訳日:2021-05-27 13:25:58 公開日:2021-05-26
# 自律運転のための空間的・文脈的深層ネットワークベースマルチモーダル歩行者検出

Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For Autonomous Driving ( http://arxiv.org/abs/2105.12713v1 )

ライセンス: Link先を確認
Kinjal Dasgupta, Arindam Das, Sudip Das, Ujjwal Bhattacharya and Senthil Yogamani(参考訳) 歩行者検出は自律運転システムの最も重要なモジュールである。 この用途にはカメラが一般的に用いられるが、低照度夜間の運転では品質が著しく劣化する。 一方、熱カメラ画像の品質は、同様の条件下では影響を受けない。 本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。 その新しい空間的深層ネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。 異なる2つの変形可能なResNeXt-50エンコーダで構成され、2つのモードから特徴抽出を行う。 これら2つのエンコードされた機能の融合は、グラフ注意ネットワークと機能融合ユニットの複数のグループで構成されるマルチモーダル機能埋め込みモジュール(MuFEm)内で行われる。 MuFEmの最後の特徴融合ユニットの出力は、空間的精錬のために2つのCRFに渡される。 4つの異なる方向を横断する4つのrnnの助けを借りて、チャネルごとに注意を払い、文脈情報を抽出することにより、さらなる機能強化を実現する。 最後に、これらの特徴マップを1段デコーダで使用して、各歩行者のバウンディングボックスとスコアマップを生成する。 我々は,kaist,cvc-14,utokyo の3つのマルチモーダル歩行者検出ベンチマークデータセットについて,提案フレームワークの広範な実験を行った。 それぞれの結果により,それぞれの最先端性能が向上した。 この作業の概要と質的な結果を示す短いビデオはhttps://youtu.be/FDJ dSifuuCsで見ることができる。

Pedestrian Detection is the most critical module of an Autonomous Driving system. Although a camera is commonly used for this purpose, its quality degrades severely in low-light night time driving scenarios. On the other hand, the quality of a thermal camera image remains unaffected in similar conditions. This paper proposes an end-to-end multimodal fusion model for pedestrian detection using RGB and thermal images. Its novel spatio-contextual deep network architecture is capable of exploiting the multimodal input efficiently. It consists of two distinct deformable ResNeXt-50 encoders for feature extraction from the two modalities. Fusion of these two encoded features takes place inside a multimodal feature embedding module (MuFEm) consisting of several groups of a pair of Graph Attention Network and a feature fusion unit. The output of the last feature fusion unit of MuFEm is subsequently passed to two CRFs for their spatial refinement. Further enhancement of the features is achieved by applying channel-wise attention and extraction of contextual information with the help of four RNNs traversing in four different directions. Finally, these feature maps are used by a single-stage decoder to generate the bounding box of each pedestrian and the score map. We have performed extensive experiments of the proposed framework on three publicly available multimodal pedestrian detection benchmark datasets, namely KAIST, CVC-14, and UTokyo. The results on each of them improved the respective state-of-the-art performance. A short video giving an overview of this work along with its qualitative results can be seen at https://youtu.be/FDJ dSifuuCs.
翻訳日:2021-05-27 13:25:33 公開日:2021-05-26
# ネスト変換器の集約

Aggregating Nested Transformers ( http://arxiv.org/abs/2105.12723v1 )

ライセンス: Link先を確認
Zizhao Zhang, Han Zhang, Long Zhao, Ting Chen, Tomas Pfister(参考訳) 階層構造は近年のビジョントランスフォーマーで人気があるが、機能するためには高度な設計と大規模なデータセットが必要である。 本研究では,重複しない画像ブロックに基本局所トランスフォーマーをネストし,それらを階層的に集約する手法を検討する。 ブロック集約関数は,クロスブロック非局所情報通信を実現する上で重要な役割を担っている。 この観察結果から,元のビジョン変換器に小さなコード変更を加えた簡易アーキテクチャを設計し,既存手法と比較して性能が向上した。 実験の結果,提案手法はより高速に収束し,優れた一般化を実現するためにトレーニングデータを必要とすることがわかった。 例えば、100/300エポックでImageNetでトレーニングされた68Mパラメータを持つNesTは、22.3\%/83.8\%の精度を224\times 224$の画像サイズで評価し、最大57%\%のパラメータ削減で以前の手法より優れている。 CIFAR10上で6MパラメータをスクラッチからトレーニングしたNesTは、単一のGPUを使用して9,6\%の精度を達成する。 画像分類以外にも、重要なアイデアを画像生成に拡張し、NesTが以前のトランスフォーマーベースのジェネレータよりも8$\times$高速な強力なデコーダに導くことを示す。 さらに,学習したモデルを視覚的に解釈する新しい手法を提案する。

Although hierarchical structures are popular in recent vision transformers, they require sophisticated designs and massive datasets to work well. In this work, we explore the idea of nesting basic local transformers on non-overlapping image blocks and aggregating them in a hierarchical manner. We find that the block aggregation function plays a critical role in enabling cross-block non-local information communication. This observation leads us to design a simplified architecture with minor code changes upon the original vision transformer and obtains improved performance compared to existing methods. Our empirical results show that the proposed method NesT converges faster and requires much less training data to achieve good generalization. For example, a NesT with 68M parameters trained on ImageNet for 100/300 epochs achieves $82.3\%/83.8\%$ accuracy evaluated on $224\times 224$ image size, outperforming previous methods with up to $57\%$ parameter reduction. Training a NesT with 6M parameters from scratch on CIFAR10 achieves $96\%$ accuracy using a single GPU, setting a new state of the art for vision transformers. Beyond image classification, we extend the key idea to image generation and show NesT leads to a strong decoder that is 8$\times$ faster than previous transformer based generators. Furthermore, we also propose a novel method for visually interpreting the learned model.
翻訳日:2021-05-27 13:25:01 公開日:2021-05-26
# hidden killer: 構文トリガーによる見えないテキストのバックドア攻撃

Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger ( http://arxiv.org/abs/2105.12400v1 )

ライセンス: Link先を確認
Fanchao Qi, Mukai Li, Yangyi Chen, Zhengyan Zhang, Zhiyuan Liu, Yasheng Wang, Maosong Sun(参考訳) バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威の一種だ。 トレーニングでバックドアを注入された後、被害者モデルは、事前に設計されたトリガーが埋め込まれた入力に対して、逆特定された出力を生成するが、推論中に通常の入力に対して適切に振る舞う。 創発的攻撃の一種として、自然言語処理(NLP)におけるバックドア攻撃は不十分である。 我々の知る限り、ほとんどの既存のテキストバックドア攻撃手法は、通常のサンプルに追加の内容をトリガーとして挿入しているため、トリガー埋め込みされたサンプルが検出され、バックドア攻撃はそれほどの手間をかけずにブロックされる。 本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。 本手法はインサート・ベースの手法と同等の攻撃性能(ほぼ100%成功率)を達成できるが,より視認性が高く,防御に対する強い抵抗力を有することを示すため,広範な実験を行った。 また,本研究の結果から,テキストバックドア攻撃の悪影響が明らかとなった。 この論文のコードとデータは、https://github.com/t hunlp/HiddenKiller.c omで入手できる。

Backdoor attacks are a kind of insidious security threat against machine learning models. After being injected with a backdoor in training, the victim model will produce adversary-specified outputs on the inputs embedded with predesigned triggers but behave properly on normal inputs during inference. As a sort of emergent attack, backdoor attacks in natural language processing (NLP) are investigated insufficiently. As far as we know, almost all existing textual backdoor attack methods insert additional contents into normal samples as triggers, which causes the trigger-embedded samples to be detected and the backdoor attacks to be blocked without much effort. In this paper, we propose to use syntactic structure as the trigger in textual backdoor attacks. We conduct extensive experiments to demonstrate that the syntactic trigger-based attack method can achieve comparable attack performance (almost 100\% success rate) to the insertion-based methods but possesses much higher invisibility and stronger resistance to defenses. These results also reveal the significant insidiousness and harmfulness of textual backdoor attacks. All the code and data of this paper can be obtained at https://github.com/t hunlp/HiddenKiller.
翻訳日:2021-05-27 13:24:22 公開日:2021-05-26
# GeomCA:データ表現の幾何学的評価

GeomCA: Geometric Evaluation of Data Representations ( http://arxiv.org/abs/2105.12486v1 )

ライセンス: Link先を確認
Petra Poklukar, Anastasia Varava, Danica Kragic(参考訳) 下流のタスクに頼らずに学習した表現の品質を評価することは、表現学習における課題の1つだ。 本研究では,幾何学的および位相的性質に基づいて表現空間を評価する幾何成分解析(geomca)アルゴリズムを提案する。 geomcaは、生成したモデルとは独立に、任意の次元の表現に適用することができる。 コントラスト学習モデルや生成モデル,教師付き学習モデルなど,さまざまなシナリオから得られた表現を分析して,その適用性を示す。

Evaluating the quality of learned representations without relying on a downstream task remains one of the challenges in representation learning. In this work, we present Geometric Component Analysis (GeomCA) algorithm that evaluates representation spaces based on their geometric and topological properties. GeomCA can be applied to representations of any dimension, independently of the model that generated them. We demonstrate its applicability by analyzing representations obtained from a variety of scenarios, such as contrastive learning models, generative models and supervised learning models.
翻訳日:2021-05-27 13:23:54 公開日:2021-05-26
# 連続凸近似に基づく制約強化学習のためのオフポリティ最適化

Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning ( http://arxiv.org/abs/2105.12545v1 )

ライセンス: Link先を確認
Chang Tian, An Liu, Guang Huang and Wu Luo(参考訳) 平均コストの文脈でマルコフ決定過程 (CMDP) として定式化される一般制約強化学習問題を解決するために, 連続凸近似に基づくオフポリチ最適化 (SCAOPO) アルゴリズムを提案する。 SCAOPOは、凸代用関数を持つ元の問題における目的関数と制約関数を置き換えることで得られる凸目標/実現可能性最適化問題の列を解くことに基づいている。 各イテレーションにおいて、凸代理問題はラグランジュ双対法で効率的に解けるが、そのポリシーは高次元関数でパラメータ化される。 さらに、SCAOPOは以前の更新から古い体験を再利用できるので、オンラインで環境を学ぶ必要がある現実のエンジニアリングシステムにデプロイする際の実装コストを大幅に削減できます。 時変状態分布と非政治学習によって生じる確率バイアスにもかかわらず、実現可能な初期点を持つSCAOPOは、元の問題のカルシュ=クーン=タッカー点(KKT)にほぼ確実に収束することができる。

We propose a successive convex approximation based off-policy optimization (SCAOPO) algorithm to solve the general constrained reinforcement learning problem, which is formulated as a constrained Markov decision process (CMDP) in the context of average cost. The SCAOPO is based on solving a sequence of convex objective/feasibilit y optimization problems obtained by replacing the objective and constraint functions in the original problems with convex surrogate functions. At each iteration, the convex surrogate problem can be efficiently solved by Lagrange dual method even the policy is parameterized by a high-dimensional function. Moreover, the SCAOPO enables to reuse old experiences from previous updates, thereby significantly reducing the implementation cost when deployed in the real-world engineering systems that need to online learn the environment. In spite of the time-varying state distribution and the stochastic bias incurred by the off-policy learning, the SCAOPO with a feasible initial point can still provably converge to a Karush-Kuhn-Tucker (KKT) point of the original problem almost surely.
翻訳日:2021-05-27 13:23:40 公開日:2021-05-26
# ニューラルラジオシティ

Neural Radiosity ( http://arxiv.org/abs/2105.12319v1 )

ライセンス: Link先を確認
Saeed Hadadan, Shuhong Chen, Matthias Zwicker(参考訳) 従来の放射能法と同様に, 残差のノルムを最小化し, レンダリング方程式を解くアルゴリズムであるneural radiosityを導入する。 放射能の手法で用いられる伝統的な基底関数、例えば分割多項式やメッシュレス基底関数は、典型的には拡散面からの等方散乱を表現することに限られる。 代わりに,ニューラルネットワークを用いて4次元放射率分布全体の表現を行い,残差のノルムを最小化するネットワークパラメータを直接最適化することを提案する。 提案手法は,従来のラジオシティ技術と同様のレンダリング画像からレンダリング方程式を分離し,シーンの任意のビューを効率的に合成する。 さらに,従来の手法と比較して解法の収束性を向上させる幾何学習機能を用いたネットワークアーキテクチャを提案する。 提案手法は, 実装が容易なアルゴリズムを導出し, 非拡散面を有する様々なシーンでその効果を実証する。

We introduce Neural Radiosity, an algorithm to solve the rendering equation by minimizing the norm of its residual similar as in traditional radiosity techniques. Traditional basis functions used in radiosity techniques, such as piecewise polynomials or meshless basis functions are typically limited to representing isotropic scattering from diffuse surfaces. Instead, we propose to leverage neural networks to represent the full four-dimensional radiance distribution, directly optimizing network parameters to minimize the norm of the residual. Our approach decouples solving the rendering equation from rendering (perspective) images similar as in traditional radiosity techniques, and allows us to efficiently synthesize arbitrary views of a scene. In addition, we propose a network architecture using geometric learnable features that improves convergence of our solver compared to previous techniques. Our approach leads to an algorithm that is simple to implement, and we demonstrate its effectiveness on a variety of scenes with non-diffuse surfaces.
翻訳日:2021-05-27 13:23:13 公開日:2021-05-26
# 階層型サービスのための畳み込みニューラルネットワークの確率論的選択暗号化

Probabilistic Selective Encryption of Convolutional Neural Networks for Hierarchical Services ( http://arxiv.org/abs/2105.12344v1 )

ライセンス: Link先を確認
Jinyu Tian, Jiantao Zhou, and Jia Duan(参考訳) モデル保護は、商用サービスに畳み込みニューラルネットワーク(CNN)をデプロイする際に必要不可欠である。 本研究では,CNNモデルを不正アクセスから保護するための選択的暗号化(SE)アルゴリズムを提案する。 提案手法はまず,PSS (Probabilistic Selection Strategy) を用いて重要なモデルパラメータを選択する。 次に、分散保存ランダムマスク(dprm)と呼ばれる設計された暗号化手法で最も重要なパラメータを暗号化し、モデルパラメータのごく一部だけを暗号化することで性能低下を最大化する。 我々はまた、重要なモデルパラメータの様々な量を復号化できるアクセス許可のセットを設計する。 したがって、モデルパフォーマンスの異なるレベルをユーザに自然に提供することができる。 提案手法は, 畳み込み層の8%のパラメータを暗号化するだけで, 分類モデルVGG19を効果的に保護できることを示す。 また,提案モデルであるdncnnで提案するモデル保護スキームを実装し,階層的デノージングサービスを示す。

Model protection is vital when deploying Convolutional Neural Networks (CNNs) for commercial services, due to the massive costs of training them. In this work, we propose a selective encryption (SE) algorithm to protect CNN models from unauthorized access, with a unique feature of providing hierarchical services to users. Our algorithm firstly selects important model parameters via the proposed Probabilistic Selection Strategy (PSS). It then encrypts the most important parameters with the designed encryption method called Distribution Preserving Random Mask (DPRM), so as to maximize the performance degradation by encrypting only a very small portion of model parameters. We also design a set of access permissions, using which different amounts of the most important model parameters can be decrypted. Hence, different levels of model performance can be naturally provided for users. Experimental results demonstrate that the proposed scheme could effectively protect the classification model VGG19 by merely encrypting 8% parameters of convolutional layers. We also implement the proposed model protection scheme in the denoising model DnCNN, showcasing the hierarchical denoising services
翻訳日:2021-05-27 13:22:51 公開日:2021-05-26
# 最新の運転支援システムの構成と応用:レビュー

Composition and Application of Current Advanced Driving Assistance System: A Review ( http://arxiv.org/abs/2105.12348v1 )

ライセンス: Link先を確認
Xinran Li, Kuo-Yi Lin, Min Meng, Xiuxian Li, Li Li, Yiguang Hong(参考訳) 運転安全に対する意識の高まりと高度な技術の発展により、advanced driving assistance system (adas) はより精度と低価格の車両に装備されるようになった。 この分野での最近の進歩は、adasの従来の知識、最先端の研究、そして現実世界における新しい応用をまとめたレビューを求めている。 この種のレビューの助けを借りて、この分野の新参者は基本的な知識を手軽に得ることができ、他の研究者は将来の開発の可能性にインスパイアされる可能性がある。 本稿では,そのハードウェアサポートと計算アルゴリズムを分析し,adasについて概説する。 様々な種類の知覚センサが、内部の特徴分類、設置位置、ADAS機能のサポート、およびprosとconsから導入されている。 異なるセンサの比較は、それぞれのadas機能に固有の特徴と特定の用途から結論づけられ、図示される。 従来の手法と斬新なアイデアの両方から,ADAS関数の現在のアルゴリズムを収集し,本論文で簡潔に紹介する。 また、異なる機関によるADASの定義に関する議論を本論文で概説し、特に中国におけるADASに関する今後のアプローチを紹介する。

Due to the growing awareness of driving safety and the development of sophisticated technologies, advanced driving assistance system (ADAS) has been equipped in more and more vehicles with higher accuracy and lower price. The latest progress in this field has called for a review to sum up the conventional knowledge of ADAS, the state-of-the-art researches, and novel applications in real-world. With the help of this kind of review, newcomers in this field can get basic knowledge easier and other researchers may be inspired with potential future development possibility. This paper makes a general introduction about ADAS by analyzing its hardware support and computation algorithms. Different types of perception sensors are introduced from their interior feature classifications, installation positions, supporting ADAS functions, and pros and cons. The comparisons between different sensors are concluded and illustrated from their inherent characters and specific usages serving for each ADAS function. The current algorithms for ADAS functions are also collected and briefly presented in this paper from both traditional methods and novel ideas. Additionally, discussions about the definition of ADAS from different institutes are reviewed in this paper, and future approaches about ADAS in China are introduced in particular.
翻訳日:2021-05-27 13:22:24 公開日:2021-05-26
# 彼らはどうするの? 自己避難アーチタイプをモデル化する

What will they do? Modelling self-evacuation archetypes ( http://arxiv.org/abs/2105.12366v1 )

ライセンス: Link先を確認
Dhirendra Singh and Ken Strahan and Jim McLennan and Joel Robertson and Bhagya Wickramasinghe(参考訳) オーストラリア・ビクトリア州のブラック・サタデー・ブッシュ火災から10年が経ち、市民避難のコンピューターシミュレーションが緊急サービスで使われ始めている。 火災の進行モデリングはビクトリア州中のあらゆるレベルの政府の戦略的および運用的設定に組み込まれているが、そのような火災に対するコミュニティの反応のモデリングは本格的に評価され始めたばかりである。 コミュニティの反応モデルがブッシュファイアの計画と準備に不可欠なものになるためには、対処すべき重要な問題は次のとおりである。 一般的にこの理解は、コミュニティやサービス内のローカルな経験や専門知識から生まれたものだが、よりインフォームドなデータ駆動アプローチに移行する傾向がある。 本稿では,この領域の救急部門における最新の作業について報告する。 特に,Strahanらの応用について論じる。 ビクトリア州における地域避難のエージェントベースモデルへの自己救済アーチタイプ この作業は、いくつかの緊急管理ステークホルダー間のコラボレーションをモデル化する統合的なブッシュファイア避難モデルの一部である。

A decade on from the devastating Black Saturday bushfires in Victoria, Australia, we are at a point where computer simulations of community evacuations are starting to be used within the emergency services. While fire progression modelling is embedded in strategic and operational settings at all levels of government across Victoria, modelling of community response to such fires is only just starting to be evaluated in earnest. For community response models to become integral to bushfire planning and preparedness, the key question to be addressed is: when faced with a bushfire, what will a community really do? Typically this understanding has come from local experience and expertise within the community and services, however the trend is to move towards more informed data driven approaches. In this paper we report on the latest work within the emergency sector in this space. Particularly, we discuss the application of Strahan et al.'s self-evacuation archetypes to an agent-based model of community evacuation in regional Victoria. This work is part of the consolidated bushfire evacuation modelling collaboration between several emergency management stakeholders.
翻訳日:2021-05-27 13:21:55 公開日:2021-05-26
# ライドシェアリングの説明: ユーザ満足度向上のための説明の選択

Explaining Ridesharing: Selection of Explanations for Increasing User Satisfaction ( http://arxiv.org/abs/2105.12500v1 )

ライセンス: Link先を確認
David Zar, Noam Hazon, Amos Azaria(参考訳) 交通サービスは現代のスマートシティの発展において重要な役割を担っている。 特に、同様の経路で乗客をまとめるオンデマンド配車サービスは、既にいくつかの大都市圏で運行されている。 これらのサービスは、交通費、道路渋滞、co2排出量を減らすことで、社会的および環境面で大きな利益を享受できる。 残念なことに、こうしたライドシェアリングサービスを使う人はあまりいない。 サービスからのユーザの満足度を高めることで、より多くの人が利用できるようになると信じており、その結果として、待ち時間、コスト、旅行時間、サービス可用性といったサービスの質が向上するでしょう。 利用者満足度を高める一つの方法は、自家用タクシーや公共交通などの代替交通手段を比較する適切な説明を提供することである。 例えば、プライベートタクシーの乗車に50%以上の費用がかかると言われた場合、乗客はシェアライドに満足するかもしれない。 そのため、ユーザの満足度を高めるための説明を提供するエージェントを開発することが問題となる。 我々は,この環境をシグナリングゲームとしてモデル化し,完全なベイズ均衡に従う有理エージェントが,乗客の代替案に関するすべての情報を明らかにする必要があることを示す。 さらに,その代替案と共有ライドを与えることで,ユーザの満足度を高める可能性のある説明を選択する,機械学習ベースのエージェントを開発した。 人間からのフィードバックを使って、機械学習ベースのエージェントは、ユーザー満足度の観点から、合理的エージェントと説明をランダムに選択するエージェントよりも優れています。

Transportation services play a crucial part in the development of modern smart cities. In particular, on-demand ridesharing services, which group together passengers with similar itineraries, are already operating in several metropolitan areas. These services can be of significant social and environmental benefit, by reducing travel costs, road congestion and CO2 emissions. Unfortunately, despite their advantages, not many people opt to use these ridesharing services. We believe that increasing the user satisfaction from the service will cause more people to utilize it, which, in turn, will improve the quality of the service, such as the waiting time, cost, travel time, and service availability. One possible way for increasing user satisfaction is by providing appropriate explanations comparing the alternative modes of transportation, such as a private taxi ride and public transportation. For example, a passenger may be more satisfied from a shared-ride if she is told that a private taxi ride would have cost her 50% more. Therefore, the problem is to develop an agent that provides explanations that will increase the user satisfaction. We model our environment as a signaling game and show that a rational agent, which follows the perfect Bayesian equilibrium, must reveal all of the information regarding the possible alternatives to the passenger. In addition, we develop a machine learning based agent that, when given a shared-ride along with its possible alternatives, selects the explanations that are most likely to increase user satisfaction. Using feedback from humans we show that our machine learning based agent outperforms the rational agent and an agent that randomly chooses explanations, in terms of user satisfaction.
翻訳日:2021-05-27 13:21:26 公開日:2021-05-26
# 新規選択モナドを用いたシーケンシャルゲームにおける最適戦略の探索

Finding optimal strategies in sequential games with the novel selection monad ( http://arxiv.org/abs/2105.12514v1 )

ライセンス: Link先を確認
Johannes Hartmann(参考訳) 最近発見されたモナド Tx = Selection (x -> r) -> r は、シーケンシャルゲームにおいて最適な戦略を導くエレガントな方法を提供する。 この論文の中で,選択モナドを用いて最適なゲームと逐次ゲームのためのaiを計算する有用な機能セットを提供するライブラリを開発した。 これらのai実装をサポートするための選択モナド機能を検討するために、haskellを使った3つのケーススタディが開発された。 これらのケーススタディは、ゲームAIをエレガントに実装する方法を示している。 さらに、これらのケーススタディのパフォーマンス分析を行い、パフォーマンスを向上させる主要なポイントを特定した。

The recently discovered monad, Tx = Selection (x -> r) -> r, provides an elegant way to finnd optimal strategies in sequential games. During this thesis, a library was developed which provides a set of useful functions using the selection monad to compute optimal games and AIs for sequential games. In order to explore the selection monads ability to support these AI implementations, three example case studies were developed using Haskell: The two-player game Connect Four, a Sudoku solver and a simplified version of Chess. These case studies show how to elegantly implement a game AI. Furthermore, a performance analysis of these case studies was done, identifying the major points where performance can be increased.
翻訳日:2021-05-27 13:20:49 公開日:2021-05-26
# Swarmを作るリーダーの回転するリーダーたち:医療バーチャル・コミュニティにおける成長のソーシャルネットワーク決定要因

It is rotating leaders who build the swarm: social network determinants of growth for healthcare virtual communities of practice ( http://arxiv.org/abs/2105.12659v1 )

ライセンス: Link先を確認
G. Antonacci, A. Fronzetti Colladon, A. Stefanini, P. Gloor(参考訳) 目的:本稿の目的は,ソーシャルネットワークと意味分析の指標を用いて実施した7年間の縦断調査を通じて,医療仮想実践コミュニティ(vcops)の成長に影響を及ぼす要因を明らかにすることである。 ソーシャルインタラクションの3つの側面(コネクティビティ、対話性、言語使用)に沿ってオンラインコミュニケーションを研究することで、VCoPマネージャにコミュニティの成功を改善するための貴重な洞察を提供することを目指している。 設計・方法論・アプローチ: 7年間にわたるコミュニケーション(2008年4月から2015年4月)と、同じWebプラットフォームに共存する16の異なる医療VCoPの14,000人のメンバが分析された。 多段階回帰モデルを用いて、時間とともにコミュニティの成長の主要な要因を明らかにした。 独立変数は、ソーシャルネットワークと意味分析尺度から派生した。 結果: 構造的および内容的変数がコミュニティの成長を予測できることが判明した。 徐々に、その構造がより中央集権化され、リーダーはよりダイナミックになり(それらはより回転する)、投稿で使われる言語はより複雑になる。 研究上の制限/影響: 利用可能なデータセットには1つのWebプラットフォームと限られた数のコントロール変数が含まれていた。 本研究の成果をまとめるためには,実験を他のヘルスケアvcopsで再現する必要がある。 originality/value: この研究は、コミュニティメンバー間のインタラクションパターン、これらのインタラクションのダイナミックな進化、言語の使用を考慮して、プロフェッショナルコミュニティの成長の確立と育成に有用な推奨を提供する。 新たな分析ツールと革新的なインタラクションメトリクスの使用が,リーダシップの回転など,コミュニティの成長に大きな影響を与える可能性がある。

Purpose: The purpose of this paper is to identify the factors influencing the growth of healthcare virtual communities of practice (VCoPs) through a seven-year longitudinal study conducted using metrics from social-network and semantic analysis. By studying online communication along the three dimensions of social interactions (connectivity, interactivity and language use), the authors aim to provide VCoP managers with valuable insights to improve the success of their communities. Design/methodology/a pproach: Communications over a period of seven years (April 2008 to April 2015) and between 14,000 members of 16 different healthcare VCoPs coexisting on the same web platform were analysed. Multilevel regression models were used to reveal the main determinants of community growth over time. Independent variables were derived from social network and semantic analysis measures. Findings: Results show that structural and content-based variables predict the growth of the community. Progressively, more people will join a community if its structure is more centralised, leaders are more dynamic (they rotate more) and the language used in the posts is less complex. Research limitations/implicat ions: The available data set included one Web platform and a limited number of control variables. To consolidate the findings of the present study, the experiment should be replicated on other healthcare VCoPs. Originality/value: The study provides useful recommendations for setting up and nurturing the growth of professional communities, considering, at the same time, the interaction patterns among the community members, the dynamic evolution of these interactions and the use of language. New analytical tools are presented, together with the use of innovative interaction metrics, that can significantly influence community growth, such as rotating leadership.
翻訳日:2021-05-27 13:19:45 公開日:2021-05-26
# ドイツ語音声認識における音韻変換のためのマルチタスク学習

Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech Recognition ( http://arxiv.org/abs/2105.12708v1 )

ライセンス: Link先を確認
Julia Pritzen, Michael Gref, Christoph Schmidt, Dietlind Z\"uhlke(参考訳) 英語のような借用語は、ドイツ語の音声認識における課題である。 ドイツ語の単語に比べて不規則な発音のため、自動生成された発音辞書は、しばしばアングリシズムの誤り音素配列を含む。 本稿では,グラニュムから音素への変換のためのマルチタスクシーケンスからシーケンスへのアプローチを提案し,アングリシズムの音声化を改善する。 英語とドイツ語の単語を区別する分類器を用いて,音素から音素へのグラフモデルを拡張した。 このアプローチでは、分類結果に応じて異なる発音を生成することを学習する。 既存のドイツ語音声認識モデルに付加された補足的英語発音辞書の作成に本モデルを用いた。 専用のアングリシズム評価セットを用いて,ベースラインモデルと比較してアングリシズムの認識を改善し,単語誤り率を1%,アングリシズムエラー率を3%削減した。 マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。

Loanwords, such as Anglicisms, are a challenge in German speech recognition. Due to their irregular pronunciation compared to native German words, automatically generated pronunciation dictionaries often include faulty phoneme sequences for Anglicisms. In this work, we propose a multitask sequence-to-sequence approach for grapheme-to-phoneme conversion to improve the phonetization of Anglicisms. We extended a grapheme-to-phoneme model with a classifier to distinguish Anglicisms from native German words. With this approach, the model learns to generate pronunciations differently depending on the classification result. We used our model to create supplementary Anglicism pronunciation dictionaries that are added to an existing German speech recognition model. Tested on a dedicated Anglicism evaluation set, we improved the recognition of Anglicisms compared to a baseline model, reducing the word error rate by 1 % and the Anglicism error rate by 3 %. We show that multitask learning can help solving the challenge of loanwords in German speech recognition.
翻訳日:2021-05-27 13:19:02 公開日:2021-05-26
# cbanet:単一ネットワークを用いた複雑化とビットレート適応型深部画像圧縮

CBANet: Towards Complexity and Bitrate Adaptive Deep Image Compression using a Single Network ( http://arxiv.org/abs/2105.12386v1 )

ライセンス: Link先を確認
Jinyang Guo, Dong Xu, Guo Lu(参考訳) 本稿では,異なる計算量制約下で可変ビットレート符号化をサポートするために,単一のネットワークを学習することを目的とした,cbanetと呼ばれる新しい深層画像圧縮フレームワークを提案する。 既存の最先端学習ベースの画像圧縮フレームワークとは対照的に,計算複雑性に関する制約を導入することなく,レートゆがみトレードオフのみを考慮し,動的計算複雑性制約下でのレートと歪みのトレードオフを検討する。 具体的には,1つのデコーダで画像のデコードを行うために,各ブランチがデコーダの計算予算のごく一部だけを取る,新しいマルチブランチ複雑性適応モジュールを提案する。 異なる枝数を用いて、視覚的品質の異なる再構成画像を容易に生成することができる。 さらに,1つのデコーダを用いて可変ビットレート復号化を実現するため,送信対象ビットレートにおいて,ベースビットレートから期待表現へ表現を投影するビットレート適応モジュールを提案する。 そして、送信された表現を対象ビットレートに投影し、デコード処理のベースビットレートに戻す。 提案したビット適応モジュールは,デプロイメントプラットフォームのストレージ要件を大幅に削減することができる。 その結果、CBANetは1つの1つのコーデックで、様々な計算複雑性制約の下で複数のビットレートデコーディングをサポートできます。 2つのベンチマークデータセットに関する総合的な実験は、深部画像圧縮におけるCBANetの有効性を示す。

In this paper, we propose a new deep image compression framework called Complexity and Bitrate Adaptive Network (CBANet), which aims to learn one single network to support variable bitrate coding under different computational complexity constraints. In contrast to the existing state-of-the-art learning based image compression frameworks that only consider the rate-distortion trade-off without introducing any constraint related to the computational complexity, our CBANet considers the trade-off between the rate and distortion under dynamic computational complexity constraints. Specifically, to decode the images with one single decoder under various computational complexity constraints, we propose a new multi-branch complexity adaptive module, in which each branch only takes a small portion of the computational budget of the decoder. The reconstructed images with different visual qualities can be readily generated by using different numbers of branches. Furthermore, to achieve variable bitrate decoding with one single decoder, we propose a bitrate adaptive module to project the representation from a base bitrate to the expected representation at a target bitrate for transmission. Then it will project the transmitted representation at the target bitrate back to that at the base bitrate for the decoding process. The proposed bit adaptive module can significantly reduce the storage requirement for deployment platforms. As a result, our CBANet enables one single codec to support multiple bitrate decoding under various computational complexity constraints. Comprehensive experiments on two benchmark datasets demonstrate the effectiveness of our CBANet for deep image compression.
翻訳日:2021-05-27 13:17:53 公開日:2021-05-26
# 胸部疾患分類における肺と心臓領域の重み付け特徴

Weighing Features of Lung and Heart Regions for Thoracic Disease Classification ( http://arxiv.org/abs/2105.12430v1 )

ライセンス: Link先を確認
Jiansheng Fang, Yanwu Xu, Yitian Zhao, Yuguang Yan, Junling Liu and Jiang Liu(参考訳) 胸部X線は胸部疾患のスクリーニングにおいて最も一般的で安価な放射線検査である。 胸部x線スクリーニング領域の知識によれば、病理情報は通常は肺と心臓の領域に置かれる。 しかし、実際に領域レベルのアノテーションを取得するのはコストがかかるため、モデルトレーニングは主に画像レベルのクラスラベルに依存しており、コンピュータ支援胸部X線スクリーニングでは極めて困難である。 この問題を解決するために, 胸部疾患分類に不可欠な病理情報を含む地域を特定する手法が近年提案されている。 そこで本研究では,肺および心臓領域からの識別情報を探索する新しい深層学習フレームワークを提案する。 我々は,グローバル画像からグローバルアテンションマップを学ぶために,マルチスケールアテンションモジュールを備えた特徴抽出器を設計する。 疾患特異的な手がかりを効果的に活用するために,よく訓練されたピクセルワイドセグメンテーションモデルを用いて病理情報を含む肺と心臓の領域を特定し,バイナライズマスクを生成する。 学習したグローバルアテンションマップとバイナライズマスクに要素的論理的および演算子を導入することにより,各画素が肺および心臓領域に対して1ドル,他領域に対して0ドルとなる局所アテンションマップを得る。 アテンションマップにおける非肺および心臓領域の特徴をゼロにすることで、肺および心臓領域における疾患特異的な手がかりを効果的に活用することができる。 グローバルとローカルの特徴を融合させる既存の手法と比較して,肺や心臓に特有の視覚手がかりを弱めるのを避けるため,特徴重み付けを採用する。 胸部X-ray14データセットのベンチマーク分割により,本手法が最先端の手法と比較して優れた性能を発揮することを示す。

Chest X-rays are the most commonly available and affordable radiological examination for screening thoracic diseases. According to the domain knowledge of screening chest X-rays, the pathological information usually lay on the lung and heart regions. However, it is costly to acquire region-level annotation in practice, and model training mainly relies on image-level class labels in a weakly supervised manner, which is highly challenging for computer-aided chest X-ray screening. To address this issue, some methods have been proposed recently to identify local regions containing pathological information, which is vital for thoracic disease classification. Inspired by this, we propose a novel deep learning framework to explore discriminative information from lung and heart regions. We design a feature extractor equipped with a multi-scale attention module to learn global attention maps from global images. To exploit disease-specific cues effectively, we locate lung and heart regions containing pathological information by a well-trained pixel-wise segmentation model to generate binarization masks. By introducing element-wise logical AND operator on the learned global attention maps and the binarization masks, we obtain local attention maps in which pixels are $1$ for lung and heart region and $0$ for other regions. By zeroing features of non-lung and heart regions in attention maps, we can effectively exploit their disease-specific cues in lung and heart regions. Compared to existing methods fusing global and local features, we adopt feature weighting to avoid weakening visual cues unique to lung and heart regions. Evaluated by the benchmark split on the publicly available chest X-ray14 dataset, the comprehensive experiments show that our method achieves superior performance compared to the state-of-the-art methods.
翻訳日:2021-05-27 13:17:15 公開日:2021-05-26
# 自律型ドローンナビゲーションのための複数ステレオビジョンカメラ設計の利点について

On the Advantages of Multiple Stereo Vision Camera Designs for Autonomous Drone Navigation ( http://arxiv.org/abs/2105.12691v1 )

ライセンス: Link先を確認
Rui Pimentel de Figueiredo, Jakob Grimm Hansen, Jonas Le Fevre, Martim Brand\~ao, Erdal Kayacan(参考訳) 本研究では,自律ナビゲーションのための最先端計画およびマッピングアルゴリズムと組み合わせたマルチカメラUAVの性能設計と評価について紹介する。 このシステムは、再構成可能なマルチステレオカメラシステムによって提供される3Dおよび意味情報を備えたNext-Best-View (NBV)計画のための最先端の水平探査技術を活用する。 我々は、自律ドローンによる検査タスクにアプローチを採用し、自律的な探索とマッピングのシナリオでそれらを評価します。 本稿では,マルチステレオカメラ飛行システムの利点と限界,およびカメラ数とマッピング性能のトレードオフについて論じる。

In this work we showcase the design and assessment of the performance of a multi-camera UAV, when coupled with state-of-the-art planning and mapping algorithms for autonomous navigation. The system leverages state-of-the-art receding horizon exploration techniques for Next-Best-View (NBV) planning with 3D and semantic information, provided by a reconfigurable multi stereo camera system. We employ our approaches in an autonomous drone-based inspection task and evaluate them in an autonomous exploration and mapping scenario. We discuss the advantages and limitations of using multi stereo camera flying systems, and the trade-off between number of cameras and mapping performance.
翻訳日:2021-05-27 13:16:28 公開日:2021-05-26
# 期待値を用いた高次元回帰のためのアルゴリズムに基づく多重検出影響尺度

An algorithm-based multiple detection influence measure for high dimensional regression using expectile ( http://arxiv.org/abs/2105.12286v1 )

ライセンス: Link先を確認
Amadou Barry, Nikhil Bhagwat, Bratislav Misic, Jean-Baptiste Poline and Celia M. T. Greenwood(参考訳) 影響観測の同定は、偏りのある推定器から引き出された誤った結論を防止できるデータ分析の重要な部分である。 しかし、高次元データでは、この識別は困難である。 古典的および最近開発された手法は、同じデータセットに複数の影響のある観測がある場合、しばしば性能が良くない。 特に、現在の方法では、同様の特性を持ついくつかの影響観測を隠蔽している場合や、よく観測された観測によって広がる空間の境界付近にある影響観測が湿地を覆っている場合に失敗することがある。 そこで本研究では,現在の限界に対処する影響のある観測を識別するための,アルゴリズムに基づく多段階多重検出手法を提案する。 データ中の望ましくない変動を識別し、キャプチャする3段階のアルゴリズム、$\asymmip,$は、非対称相関にインスパイアされた2つの補完的な統計に基づいており、期待値に基づいている。 シミュレーションは競合する手法よりも高い検出力を示す。 結果として生じる漸近分布の使用は、ブートストラップのような計算的に要求される手順を必要とせずに、影響のある観測を検知する。 自閉症脳画像データ交換ニューロイメージングデータセットへの本手法の適用により、皮質厚みに基づくよりバランスよく正確な脳成熟度予測が可能となった。 github for a free r package that implements our algorithm: \texttt{asymmip} (\url{github.com/ambarry/h idetify})を参照。

The identification of influential observations is an important part of data analysis that can prevent erroneous conclusions drawn from biased estimators. However, in high dimensional data, this identification is challenging. Classical and recently-developed methods often perform poorly when there are multiple influential observations in the same dataset. In particular, current methods can fail when there is masking several influential observations with similar characteristics, or swamping when the influential observations are near the boundary of the space spanned by well-behaved observations. Therefore, we propose an algorithm-based, multi-step, multiple detection procedure to identify influential observations that addresses current limitations. Our three-step algorithm to identify and capture undesirable variability in the data, $\asymMIP,$ is based on two complementary statistics, inspired by asymmetric correlations, and built on expectiles. Simulations demonstrate higher detection power than competing methods. Use of the resulting asymptotic distribution leads to detection of influential observations without the need for computationally demanding procedures such as the bootstrap. The application of our method to the Autism Brain Imaging Data Exchange neuroimaging dataset resulted in a more balanced and accurate prediction of brain maturity based on cortical thickness. See our GitHub for a free R package that implements our algorithm: \texttt{asymMIP} (\url{github.com/AmBarry/h idetify}).
翻訳日:2021-05-27 13:16:07 公開日:2021-05-26
# 演算子オートエンコーダ:符号化された分子グラフによる物理操作の学習

Operator Autoencoders: Learning Physical Operations on Encoded Molecular Graphs ( http://arxiv.org/abs/2105.12295v1 )

ライセンス: Link先を確認
Willis Hoke, Daniel Shea, and Stephen Casey(参考訳) 分子動力学シミュレーションは複雑な非線形力学を持つデータを生成する。 そのような動的システムの時間ステップの挙動を線形作用素で表すことができれば、将来の状態は高価なシミュレーションなしで直接推測できる。 オートエンコーダと物理時間ステップ演算子を組み合わせることで、分子グラフの関連する構造的特徴と、トレーニングプロセス中にシステムの基礎となる物理学の両方を分離することができる。 本研究では,分子動力学シミュレーションから時系列容積データのグラフ構造表現を構築するパイプラインを開発する。 次に、オートエンコーダをトレーニングし、オートエンコーダで訓練された線形作用素の適用により、将来のタイムステップを予測する潜在空間への非線形写像を求める。 オートエンコーダ出力の寸法を増加させることにより、物理時間ステップ演算子の精度を向上させる。

Molecular dynamics simulations produce data with complex nonlinear dynamics. If the timestep behavior of such a dynamic system can be represented by a linear operator, future states can be inferred directly without expensive simulations. The use of an autoencoder in combination with a physical timestep operator allows both the relevant structural characteristics of the molecular graphs and the underlying physics of the system to be isolated during the training process. In this work, we develop a pipeline for establishing graph-structured representations of time-series volumetric data from molecular dynamics simulations. We then train an autoencoder to find nonlinear mappings to a latent space where future timesteps can be predicted through application of a linear operator trained in tandem with the autoencoder. Increasing the dimensionality of the autoencoder output is shown to improve the accuracy of the physical timestep operator.
翻訳日:2021-05-27 13:14:26 公開日:2021-05-26
# TreeBERT: プログラミング言語のためのツリーベース事前訓練モデル

TreeBERT: A Tree-Based Pre-Trained Model for Programming Language ( http://arxiv.org/abs/2105.12485v1 )

ライセンス: Link先を確認
Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu(参考訳) ソースコードは定義された構文規則に基づいて抽象構文木(AST)に解析できる。 しかし,事前学習では,木構造を学習プロセスに組み込む研究はほとんど行われていない。 本稿では,プログラム言語指向生成タスクを改善するツリーベース事前学習モデルであるTreeBERTを提案する。 ツリー構造を利用するために、TreeBERTはコードに対応するASTを合成パスのセットとして表現し、ノード位置の埋め込みを導入する。 このモデルは,木面言語モデリング (TMLM) とノード順序予測 (NOP) をハイブリッド目的として訓練する。 TMLMは、ツリーの特性に応じて設計された新しいマスキング戦略を使用して、モデルがASTを理解し、ASTの欠落したセマンティクスを推測するのに役立つ。 NOPでは、TreeBERTはAST内のノードの順序制約を学習することで、構文構造を抽出する。 複数のプログラミング言語をカバーするデータセット上でTreeBERTを事前訓練した。 コード要約とコードドキュメンテーションタスクでは、TreeBERTは他のトレーニング済みモデルやこれらのタスク用に設計された最先端モデルよりも優れています。 さらに、TreeBERTは、事前訓練された未学習のプログラミング言語に移行すると、うまく機能する。

Source code can be parsed into the abstract syntax tree (AST) based on defined syntax rules. However, in pre-training, little work has considered the incorporation of tree structure into the learning process. In this paper, we present TreeBERT, a tree-based pre-trained model for improving programming language-oriented generation tasks. To utilize tree structure, TreeBERT represents the AST corresponding to the code as a set of composition paths and introduces node position embedding. The model is trained by tree masked language modeling (TMLM) and node order prediction (NOP) with a hybrid objective. TMLM uses a novel masking strategy designed according to the tree's characteristics to help the model understand the AST and infer the missing semantics of the AST. With NOP, TreeBERT extracts the syntactical structure by learning the order constraints of nodes in AST. We pre-trained TreeBERT on datasets covering multiple programming languages. On code summarization and code documentation tasks, TreeBERT outperforms other pre-trained models and state-of-the-art models designed for these tasks. Furthermore, TreeBERT performs well when transferred to the pre-trained unseen programming language.
翻訳日:2021-05-27 13:14:05 公開日:2021-05-26
# リンク予測における語彙外実体

Out-of-Vocabulary Entities in Link Prediction ( http://arxiv.org/abs/2105.12524v1 )

ライセンス: Link先を確認
Caglar Demir and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフの埋め込み技術は、ベクトル表現に基づく機械学習アプローチの多元性に相応しい知識グラフを作るための鍵となる。 リンク予測はしばしば、これらの埋め込みの品質を評価するプロキシとして使用される。 リンク予測のためのベンチマークの作成が時間を要する作業であることを考えると、この問題に関するほとんどの研究はほんの数ベンチマークしか使っていない。 ベンチマークはアルゴリズムの公正な比較に不可欠であるため、それらの品質を保証することは、リンク予測とipsoファクト埋め込み知識グラフのためのより良いソリューションを開発するための確固たる基盤となる。 ベンチマークの最初の研究は、開発からいくつかのベンチマークデータセットのテストフラグメントにリークする情報に関する制限を指摘した。 我々は、リンク予測アプローチの評価によく使われる3つのベンチマークのうち、テストおよび検証セットの語彙外エンティティのより一般的な制限を発見した。 このようなエンティティを検出・削除するアプローチの実装と、データセット wn18rr, fb15k-237, yago3-10 の修正版を提供する。 WN18RR, FB15K-237, YAGO3-10の補正版について行った実験から, 最先端手法の計測性能は, p値<1%, <1.4%, <1%で有意に変化したことが示唆された。 総じて、wn18rrのすべての指標において、最先端のアプローチは平均で3.29 \pm 0.24\%$である。 これは、以前の作品で達成された結論のいくつかを再考する必要があることを意味する。 実験と修正データセットをhttps://github.com/d ice-group/OOV-In-Lin k-Predictionで公開しています。

Knowledge graph embedding techniques are key to making knowledge graphs amenable to the plethora of machine learning approaches based on vector representations. Link prediction is often used as a proxy to evaluate the quality of these embeddings. Given that the creation of benchmarks for link prediction is a time-consuming endeavor, most work on the subject matter uses only a few benchmarks. As benchmarks are crucial for the fair comparison of algorithms, ensuring their quality is tantamount to providing a solid ground for developing better solutions to link prediction and ipso facto embedding knowledge graphs. First studies of benchmarks pointed to limitations pertaining to information leaking from the development to the test fragments of some benchmark datasets. We spotted a further common limitation of three of the benchmarks commonly used for evaluating link prediction approaches: out-of-vocabulary entities in the test and validation sets. We provide an implementation of an approach for spotting and removing such entities and provide corrected versions of the datasets WN18RR, FB15K-237, and YAGO3-10. Our experiments on the corrected versions of WN18RR, FB15K-237, and YAGO3-10 suggest that the measured performance of state-of-the-art approaches is altered significantly with p-values <1%, <1.4%, and <1%, respectively. Overall, state-of-the-art approaches gain on average absolute $3.29 \pm 0.24\%$ in all metrics on WN18RR. This means that some of the conclusions achieved in previous works might need to be revisited. We provide an open-source implementation of our experiments and corrected datasets at at https://github.com/d ice-group/OOV-In-Lin k-Prediction.
翻訳日:2021-05-27 13:13:38 公開日:2021-05-26
# ローカル、グローバル、スケールに依存したノードの役割

Local, global and scale-dependent node roles ( http://arxiv.org/abs/2105.12598v1 )

ライセンス: Link先を確認
Michael Scholkemper and Michael T. Schaub(参考訳) 本論文は,ソーシャル・ネットワーク分析において最初に出現した構造同値や自己同型同値といったノード同値の概念を再検討し,社会システムにおけるアクタの役割を特徴付けるものであるが,それ以来,グラフベースの学習タスクには独立した関心が寄せられている。 伝統的に、そのような正確なノード等価性は、ノードの1つのホップ近傍または大域グラフ構造によって定義される。 ここでは、ノードロールを割り当てるときに、ノードのegoネットワークがどの距離で考慮されるべきかを記述するスケールパラメータで、正確なノードロールを形式化します。 本研究では, 深さ3 または 4 のロールが, ノード分類タスクを高精度に実行するのに十分な情報を持っていることを示す数値実験を行う。 これらの知見は, 比較的小さな近傍サイズに対して, ノード特徴を(非)監督的に非線形に集約することにより, 埋め込みの観点から近似ノードの役割を計算するグラフ学習手法の成功を裏付けるものである。 実際、我々の考えに基づいて、最近のグラフニューラルネットワークアーキテクチャと同等の結果を達成する浅い分類器を構築することができる。

This paper re-examines the concept of node equivalences like structural equivalence or automorphic equivalence, which have originally emerged in social network analysis to characterize the role an actor plays within a social system, but have since then been of independent interest for graph-based learning tasks. Traditionally, such exact node equivalences have been defined either in terms of the one hop neighborhood of a node, or in terms of the global graph structure. Here we formalize exact node roles with a scale-parameter, describing up to what distance the ego network of a node should be considered when assigning node roles - motivated by the idea that there can be local roles of a node that should not be determined by nodes arbitrarily far away in the network. We present numerical experiments that show how already "shallow" roles of depth 3 or 4 carry sufficient information to perform node classification tasks with high accuracy. These findings corroborate the success of recent graph-learning approaches that compute approximate node roles in terms of embeddings, by nonlinearly aggregating node features in an (un)supervised manner over relatively small neighborhood sizes. Indeed, based on our ideas we can construct a shallow classifier achieving on par results with recent graph neural network architectures.
翻訳日:2021-05-27 13:12:57 公開日:2021-05-26
# 修飾分子表現を用いた深層学習モデルによる有機分子の水溶性予測

Predicting Aqueous Solubility of Organic Molecules Using Deep Learning Models with Varied Molecular Representations ( http://arxiv.org/abs/2105.12638v1 )

ライセンス: Link先を確認
Gihan Panapitiya, Michael Girard, Aaron Hollas, Vijay Murugesan, Wei Wang, Emily Saldanha(参考訳) 分子の水溶性を決定することは、多くの医薬品、環境、エネルギー貯蔵用途において重要なステップである。 数十年にわたる努力にもかかわらず、これらのアプリケーションの多くに十分な精度を持つ溶解度予測モデルの開発には依然として課題がある。 本研究の目的は,幅広い有機分子の溶解度を予測できる汎用モデルを開発することである。 Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. 分子ディスクリプタを用いたモデルでは,GNNモデルでも優れた性能が得られた。 モデル性能に影響を与える分子特性を理解し,どの分子構造に関する情報が最も価値があるかを理解するために特徴解析を行い,モデル性能に対するデータ可用性の影響を理解するために,転送学習とデータサイズ研究を行う。

Determining the aqueous solubility of molecules is a vital step in many pharmaceutical, environmental, and energy storage applications. Despite efforts made over decades, there are still challenges associated with developing a solubility prediction model with satisfactory accuracy for many of these applications. The goal of this study is to develop a general model capable of predicting the solubility of a broad range of organic molecules. Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. We find that models using molecular descriptors achieve the best performance, with GNN models also achieving good performance. We perform extensive error analysis to understand the molecular properties that influence model performance, perform feature analysis to understand which information about molecular structure is most valuable for prediction, and perform a transfer learning and data size study to understand the impact of data availability on model performance.
翻訳日:2021-05-27 13:12:23 公開日:2021-05-26
# 構造因果モデルの興味深いパラメータ

Intriguing Parameters of Structural Causal Models ( http://arxiv.org/abs/2105.12697v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami and Kristian Kersting(参考訳) 近年,特に深層ニューラルネットワークにおいて,敵対的攻撃に注目が集まっている。 ここでは、それらは自然界においてより一般的であり、例えば任意の微分可能な摂動オプティマイザのようなより大きなモデルのクラスに容易に影響を及ぼすことができると論じる。 さらに,このような攻撃はドメイン内の隠れた共同創設者によって決定され,その攻撃と因果関係の間に新たなつながりが生まれることを示した。 この因果的視点の確立は、構造的因果モデルのデータ生成プロセスがその後の最適化に与える影響によって特徴付けられる。 本稿では,エネルギー系の線形割当,最短経路,実世界問題という3つの組合せ最適化問題に対するパラメータの存在を明らかにする。 また, 本実験では, 微分可能な摂動オプティマイザに対するこれらの攻撃による不安な結果も明らかにし, 結果の致命的な重要性を浮き彫りにする。

In recent years there has been a lot of focus on adversarial attacks, especially on deep neural networks. Here, we argue that they are more general in nature and can easily affect a larger class of models, e.g., any differentiable perturbed optimizers. We further show that such attacks can be determined by the hidden confounders in a domain, thus drawing a novel connection between such attacks and causality. Establishing this causal perspective is characterized by the influence of the structural causal model's data generating process on the subsequent optimization thereby exhibiting intriguing parameters of the former. We reveal the existence of such parameters for three combinatorial optimization problems, namely linear assignment, shortest path and a real world problem of energy systems. Our empirical examination also unveils worrisome consequences of these attacks on differentiable perturbed optimizers thereby highlighting the criticality of our findings.
翻訳日:2021-05-27 13:11:54 公開日:2021-05-26
# マルコフジャンプ系に対する同値な二次制御

Certainty Equivalent Quadratic Control for Markov Jump Systems ( http://arxiv.org/abs/2105.12358v1 )

ライセンス: Link先を確認
Zhe Du, Yahya Sattar, Davoud Ataee Tarzanagh, Laura Balzano, Samet Oymak and Necmiye Ozay(参考訳) 現実世界の制御アプリケーションは、しばしば突然の変化や変動を伴う複雑なダイナミクスを伴う。 markov jump linear systems (mjs)は、そのようなダイナミクスをモデリングするためのリッチなフレームワークを提供する。 広範な歴史にもかかわらず、MJS制御のパラメータ感度に関する理論的理解は幾らか欠如している。 そこで本研究では,2次コスト関数を持つMJSのモデルベース最適制御のロバスト性について検討する。 系行列とマルコフ遷移行列における不確実性がそれぞれ$\epsilon$ と $\eta$ で区切られていると仮定すると、(i)結合リッカティ方程式に対する解と(ii)最適コストに対して、それぞれ$\mathcal{o}(\epsilon + \eta)$ と$\mathcal{o}((\epsilon + \eta)^2) で崩壊する明示的な摂動境界を与えることによって、ロバストネスの結果が確立される。

Real-world control applications often involve complex dynamics subject to abrupt changes or variations. Markov jump linear systems (MJS) provide a rich framework for modeling such dynamics. Despite an extensive history, theoretical understanding of parameter sensitivities of MJS control is somewhat lacking. Motivated by this, we investigate robustness aspects of certainty equivalent model-based optimal control for MJS with quadratic cost function. Given the uncertainty in the system matrices and in the Markov transition matrix is bounded by $\epsilon$ and $\eta$ respectively, robustness results are established for (i) the solution to coupled Riccati equations and (ii) the optimal cost, by providing explicit perturbation bounds which decay as $\mathcal{O}(\epsilon + \eta)$ and $\mathcal{O}((\epsilon + \eta)^2)$ respectively.
翻訳日:2021-05-27 13:10:25 公開日:2021-05-26
# 深層畳み込みニューラルネットワークを用いた音声分類とタグ付けのための受容場正規化手法

Receptive Field Regularization Techniques for Audio Classification and Tagging with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2105.12395v1 )

ライセンス: Link先を確認
Khaled Koutini, Hamid Eghbal-zadeh, Gerhard Widmer(参考訳) 本稿では,様々な音声タスクにおいて,よく知られた畳み込みニューラルネットワーク(CNN)アーキテクチャの性能について検討する。 CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。 不十分なrfは、cnnのトレーニングデータに適合する能力を制限する。 対照的に、過剰なrfを持つcnnはトレーニングデータに過度に適合し、見えないテストデータに一般化できない傾向がある。 最先端のCNNアーキテクチャでは、コンピュータビジョンやその他のドメインがレイヤーの数でより深くなり、RFサイズが大きくなるため、複数のオーディオ分類やタグ付けタスクのパフォーマンスが低下する。 我々は、よく知られたCNNアーキテクチャとそのビルディングブロックが受容領域に与える影響について研究する。 本研究では,cnnのrf制御を体系的に行う手法を提案し,様々な音声分類やタギングタスク,データセット上での結果アーキテクチャを体系的にテストする。 実験により,提案手法を用いてCNNのRFを正則化することにより,大規模データセット上でのモデルの一般化,より優れた複雑なアーキテクチャ,事前学習モデルを大幅に改善できることが示された。 提案したCNNは,複数の課題(DCASE,MediaEval)において,音響シーンの分類から音楽の感情検出,主題認識,楽器認識に至るまで,複数のタスクにおいて最先端の成果を達成している。

In this paper, we study the performance of variants of well-known Convolutional Neural Network (CNN) architectures on different audio tasks. We show that tuning the Receptive Field (RF) of CNNs is crucial to their generalization. An insufficient RF limits the CNN's ability to fit the training data. In contrast, CNNs with an excessive RF tend to over-fit the training data and fail to generalize to unseen testing data. As state-of-the-art CNN architectures-in computer vision and other domains-tend to go deeper in terms of number of layers, their RF size increases and therefore they degrade in performance in several audio classification and tagging tasks. We study well-known CNN architectures and how their building blocks affect their receptive field. We propose several systematic approaches to control the RF of CNNs and systematically test the resulting architectures on different audio classification and tagging tasks and datasets. The experiments show that regularizing the RF of CNNs using our proposed approaches can drastically improve the generalization of models, out-performing complex architectures and pre-trained models on larger datasets. The proposed CNNs achieve state-of-the-art results in multiple tasks, from acoustic scene classification to emotion and theme detection in music to instrument recognition, as demonstrated by top ranks in several pertinent challenges (DCASE, MediaEval).
翻訳日:2021-05-27 13:09:55 公開日:2021-05-26
# 限られた知識を持つグラフ埋め込みモデルにおける逆攻撃フレームワーク

Adversarial Attack Framework on Graph Embedding Models with Limited Knowledge ( http://arxiv.org/abs/2105.12419v1 )

ライセンス: Link先を確認
Heng Chang, Yu Rong, Tingyang Xu, Wenbing Huang, Honglei Zhang, Peng Cui, Xin Wang, Wenwu Zhu, Junzhou Huang(参考訳) 学術分野と産業分野の両方におけるグラフ埋め込みモデルの成功により、グラフ埋め込みの頑健性は必然的にグラフ学習において重要な問題となる。 既存の作業は、通常、ホワイトボックス方式で攻撃を行う: 敵の損失を構築するには、予測やラベルにアクセスする必要がある。 しかし、予測/ラベルが使えないため、実際のグラフ学習システムではホワイトボックス攻撃は現実的ではない。 この論文は、現在のフレームワークをより汎用的で柔軟な意味で推進し、ブラックボックス駆動の様々なグラフ埋め込みモデルに対処する必要がある。 グラフ信号処理とグラフ埋め込みモデルの間の理論的関係を考察し,グラフ埋め込みモデルをグラフフィルタを用いた一般グラフ信号処理として定式化する。 そこで我々は、汎用的な敵攻撃機GF-Attackを設計する。 ラベルやモデル予測にアクセスせずに、GF-Attackはブラックボックス方式でグラフフィルタに直接攻撃を実行することができる。 さらに,GF-Attackがグラフ埋め込みモデルの層数を知ることなく効果的に攻撃できることを示す。 GF-Attackの一般化を検証するため、4つのグラフ埋め込みモデル上で攻撃者を構成する。 複数のベンチマークデータセットに対するGF-Attackの有効性を検証する。

With the success of the graph embedding model in both academic and industry areas, the robustness of graph embedding against adversarial attack inevitably becomes a crucial problem in graph learning. Existing works usually perform the attack in a white-box fashion: they need to access the predictions/labels to construct their adversarial loss. However, the inaccessibility of predictions/labels makes the white-box attack impractical to a real graph learning system. This paper promotes current frameworks in a more general and flexible sense -- we demand to attack various kinds of graph embedding models with black-box driven. We investigate the theoretical connections between graph signal processing and graph embedding models and formulate the graph embedding model as a general graph signal process with a corresponding graph filter. Therefore, we design a generalized adversarial attacker: GF-Attack. Without accessing any labels and model predictions, GF-Attack can perform the attack directly on the graph filter in a black-box fashion. We further prove that GF-Attack can perform an effective attack without knowing the number of layers of graph embedding models. To validate the generalization of GF-Attack, we construct the attacker on four popular graph embedding models. Extensive experiments validate the effectiveness of GF-Attack on several benchmark datasets.
翻訳日:2021-05-27 13:09:21 公開日:2021-05-26
# 大規模レコメンデーションモデル推論を満足する低精度ハードウェアアーキテクチャ

Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale ( http://arxiv.org/abs/2105.12676v1 )

ライセンス: Link先を確認
Zhaoxia (Summer) Deng, Jongsoo Park, Ping Tak Peter Tang, Haixin Liu, Jie (Amy) Yang, Hector Yuen, Jianyu Huang, Daya Khudia, Xiaohan Wei, Ellie Wen, Dhruv Choudhary, Raghuraman Krishnamoorthi, Carole-Jean Wu, Satish Nadathur, Changkyu Kim, Maxim Naumov, Sam Naghshineh, Mikhail Smelyanskiy(参考訳) 機械学習(ML)の急激な成功と、MLモデルの複雑さの未完成な成長は、モデル推論を高速化するために、CPUとアクセラレータアーキテクチャの両方において、ML固有の多くの設計を動機づけた。 これらのアーキテクチャは多様であるが、高度に最適化された低精度算術は多くが共有するコンポーネントである。 印象的な計算スループットは、しばしばこれらのアーキテクチャによってベンチマークMLモデルで示される。 それでも、facebookのパーソナライズサービスにとって重要なレコメンデーションシステムのようなプロダクションモデルが要求され複雑である。これらのシステムは、推論毎に数十億のパラメータを持つ計算にもかかわらず、高い予測精度を維持しながら、低レイテンシで毎月数十億のユーザを応答的に提供しなければならない。 これらの低精度アーキテクチャは、当社の製品レコメンデーションシステムとうまく機能するのか? そうです。 しかし、大きな努力がなければ。 本稿では,低精度ハードウェアへの参照レコメンデーションモデルの適用,低精度コンピューティングカーネルの最適化,およびトピックトレンドやユーザの関心が必然的に進化する期間を通じて,モデルの精度を維持するためのツールチェーンの設計と開発について紹介する。 これらの低精度技術の実践は、従来の汎用CPUにデプロイされない最大5倍の複雑さのモデルをデプロイしながら、データセンタの容量の削減に役立ちました。 これらの教訓は、ハードウェアアーキテクチャとソフトウェアエンジニアリングのより良い共同設計を促進し、業界におけるMLの最先端を後押しするものだと考えています。

Tremendous success of machine learning (ML) and the unabated growth in ML model complexity motivated many ML-specific designs in both CPU and accelerator architectures to speed up the model inference. While these architectures are diverse, highly optimized low-precision arithmetic is a component shared by most. Impressive compute throughputs are indeed often exhibited by these architectures on benchmark ML models. Nevertheless, production models such as recommendation systems important to Facebook's personalization services are demanding and complex: These systems must serve billions of users per month responsively with low latency while maintaining high prediction accuracy, notwithstanding computations with many tens of billions parameters per inference. Do these low-precision architectures work well with our production recommendation systems? They do. But not without significant effort. We share in this paper our search strategies to adapt reference recommendation models to low-precision hardware, our optimization of low-precision compute kernels, and the design and development of tool chain so as to maintain our models' accuracy throughout their lifespan during which topic trends and users' interests inevitably evolve. Practicing these low-precision technologies helped us save datacenter capacities while deploying models with up to 5X complexity that would otherwise not be deployed on traditional general-purpose CPUs. We believe these lessons from the trenches promote better co-design between hardware architecture and software engineering and advance the state of the art of ML in industry.
翻訳日:2021-05-27 13:08:51 公開日:2021-05-26