このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201119となっている論文です。

PDF登録状況(公開日: 20201119)

TitleAuthorsAbstract論文公表日・翻訳日
# リビングマシン:非定型アニマシーの研究

Living Machines: A study of atypical animacy ( http://arxiv.org/abs/2005.11140v2 )

ライセンス: Link先を確認
Mariona Coll Ardanuy, Federico Nanni, Kaspar Beelen, Kasra Hosseini, Ruth Ahnert, Jon Lawrence, Katherine McDonough, Giorgia Tolfo, Daniel CS Wilson, Barbara McGillivray(参考訳) 本稿では,テキスト中のエンティティがアニメーションとして表現されているかどうかを判断するタスクである,アニマシー検出に対する新しいアプローチを提案する。 特に、この研究は非典型的アニマシーに焦点を当て、通常無生物、特に機械がアニメーター属性を与えられるシナリオを検証している。 これを解決するために、我々は19世紀の英語の文に基づいて、非定型的アニマシー検出のための最初のデータセットを作成しました。 本手法は,最近の言語モデル,特にbert文脈化単語埋め込みの革新を基盤とし,単語のきめ細かい文脈特性をよりよく把握する。 異なるコンテキストに容易に適応可能な、完全に教師なしのパイプラインを示し、確立されたanimacyデータセットと新たに導入されたリソースでそのパフォーマンスを報告します。 本手法は,特に高度に複雑な言語形態に適用した場合に,非定型的異性性をかなり正確に評価できることを示す。

This paper proposes a new approach to animacy detection, the task of determining whether an entity is represented as animate in a text. In particular, this work is focused on atypical animacy and examines the scenario in which typically inanimate objects, specifically machines, are given animate attributes. To address it, we have created the first dataset for atypical animacy detection, based on nineteenth-century sentences in English, with machines represented as either animate or inanimate. Our method builds on recent innovations in language modeling, specifically BERT contextualized word embeddings, to better capture fine-grained contextual properties of words. We present a fully unsupervised pipeline, which can be easily adapted to different contexts, and report its performance on an established animacy dataset and our newly introduced resource. We show that our method provides a substantially more accurate characterization of atypical animacy, especially when applied to highly complex forms of language use.
翻訳日:2022-11-30 09:06:56 公開日:2020-11-19
# GANを用いた合成観察健康データ:医療研究の緩やかな普及から、最終的にはデジタル双生児まで?

Synthetic Observational Health Data with GANs: from slow adoption to a boom in medical research and ultimately digital twins? ( http://arxiv.org/abs/2005.13510v3 )

ライセンス: Link先を確認
Jeremy Georges-Filteau, Elisa Cirillo(参考訳) 患者医療のために収集された後、健康情報学や医学研究の発展を持続させることで、患者の健康増進に役立つ。 患者に関するデータや、それを保護するための規制が極めてプライベートだからだ。 Generative Adversarial Networks (GAN) は、現実的な合成データを生成する生成モデルを学ぶための画期的な方法として最近登場した。 彼らは、自動運転車、不正検出、産業分野におけるデジタル双子シミュレーション、医療画像など、複数の分野のプラクティスに革命をもたらした。 デジタル双生児の概念は、疾患の進行のモデル化や定量化に容易に応用できる。 さらに、GANは、データ不足、クラス不均衡、まれな疾患、プライバシーの保護など、医療における一般的な問題に関連する多くの機能を備えている。 プライバシーを守るohdへのオープンアクセスは、科学研究に変革をもたらす可能性がある。 新型コロナウイルス(COVID-19)の最中に、医療システムは前例のない課題に直面している。 これらの事実を踏まえると、ganに関する出版物はohdにかなり不足しているように思われる。 この緩やかな採用の理由を明らかにするため,本論文を広くレビューした。 以上の結果から,ohdの特性は,既存のganアルゴリズム(最先端のモデルが直接転送可能であった医療画像とは異なり)に対して当初困難であり,評価合成データには明確な指標が欠落していたことが判明した。 予想以上に多くの出版物が2017年からゆっくりと始まっており、それ以来増加傾向にある。 OHDの難しさは残り、評価、一貫性、ベンチマーク、データモデリング、再現性に関する問題について議論する。

After being collected for patient care, Observational Health Data (OHD) can further benefit patient well-being by sustaining the development of health informatics and medical research. Vast potential is unexploited because of the fiercely private nature of patient-related data and regulations to protect it. Generative Adversarial Networks (GANs) have recently emerged as a groundbreaking way to learn generative models that produce realistic synthetic data. They have revolutionized practices in multiple domains such as self-driving cars, fraud detection, digital twin simulations in industrial sectors, and medical imaging. The digital twin concept could readily apply to modelling and quantifying disease progression. In addition, GANs posses many capabilities relevant to common problems in healthcare: lack of data, class imbalance, rare diseases, and preserving privacy. Unlocking open access to privacy-preserving OHD could be transformative for scientific research. In the midst of COVID-19, the healthcare system is facing unprecedented challenges, many of which of are data related for the reasons stated above. Considering these facts, publications concerning GAN applied to OHD seemed to be severely lacking. To uncover the reasons for this slow adoption, we broadly reviewed the published literature on the subject. Our findings show that the properties of OHD were initially challenging for the existing GAN algorithms (unlike medical imaging, for which state-of-the-art model were directly transferable) and the evaluation synthetic data lacked clear metrics. We find more publications on the subject than expected, starting slowly in 2017, and since then at an increasing rate. The difficulties of OHD remain, and we discuss issues relating to evaluation, consistency, benchmarking, data modelling, and reproducibility.
翻訳日:2022-11-28 08:39:42 公開日:2020-11-19
# SEFR:超低消費電力デバイスのための高速線形時間分類器

SEFR: A Fast Linear-Time Classifier for Ultra-Low Power Devices ( http://arxiv.org/abs/2006.04620v2 )

ライセンス: Link先を確認
Hamidreza Keshavarz, Mohammad Saniee Abadeh, Reza Rawassizadeh(参考訳) バッテリー駆動デバイス上で機械学習アルゴリズムを実行する上での根本的な課題は、リソースに制約があるため、時間とエネルギーの制限である。 これらのデバイス上で実行できるリソース効率の高い分類アルゴリズムがあるが、その精度はリソース効率のために犠牲になることが多い。 本稿では, トレーニングとテストの両段階において, 線形時間複雑性を有する超低消費電力分類器SEFRを提案する。 SEFRは、分類精度の点で最先端分類器に匹敵するが、バイナリクラスデータセットにおける最先端分類器とベースライン分類器の平均の63倍のエネルギー効率と70倍のエネルギー効率を持つ。 SEFRのエネルギーとメモリ消費は非常に重要ではなく、マイクロコントローラ上で列車とテストの両方のフェーズを実行できる。 我々の知る限り、これは超低消費電力デバイスでのトレーニングとテストの両方を実行するために特別に設計された最初の多目的分類アルゴリズムである。

A fundamental challenge for running machine learning algorithms on battery-powered devices is the time and energy limitations, as these devices have constraints on resources. There are resource-efficient classifier algorithms that can run on these devices, but their accuracy is often sacrificed for resource efficiency. Here, we propose an ultra-low power classifier, SEFR, with linear time complexity, both in the training and the testing phases. SEFR is comparable to state-of-the-art classifiers in terms of classification accuracy, but it is 63 times faster and 70 times more energy efficient than the average of state-of-the-art and baseline classifiers on binary class datasets. The energy and memory consumption of SEFR is very insignificant, and it can even perform both train and test phases on microcontrollers. To our knowledge, this is the first multipurpose classification algorithm specifically designed to perform both training and testing on ultra-low power devices.
翻訳日:2022-11-24 00:41:43 公開日:2020-11-19
# シナプス流の反復保存によるデータのないニューラルネットワークの切断

Pruning neural networks without any data by iteratively conserving synaptic flow ( http://arxiv.org/abs/2006.05467v3 )

ライセンス: Link先を確認
Hidenori Tanaka, Daniel Kunin, Daniel L. K. Yamins, Surya Ganguli(参考訳) 深層ニューラルネットワークのパラメータを抽出することは、トレーニング中とテスト時に両方の時間、メモリ、エネルギーが節約される可能性があるため、大きな関心を集めている。 最近の研究は、高価なトレーニングとプルーニングサイクルを通じて、初期化時に当選した宝くじや未熟なトレーニング可能なサブネットの存在を特定している。 トレーニングなしで、あるいは実際にデータを見ることなく、初期化時に、高度にスパースなトレーニング可能なサブネットワークを特定できるだろうか? 理論駆動型アルゴリズム設計を通じて,この問題に対する肯定的な回答を提供する。 まず,初期化における既存の勾配ベースプルーニングアルゴリズムが層分割に苦しむ理由を説明する保存則を数学的に定式化し,実験的に検証した。 この理論はまた、層崩壊を完全に回避し、新しいプルーニングアルゴリズムであるIterative Synaptic Flow Pruning(SynFlow)を動機付けている。 このアルゴリズムは、スパーシティ制約を受ける初期化時にネットワークを経由するシナプス強度の総フローを維持すると解釈できる。 特に、このアルゴリズムはトレーニングデータに言及せず、様々なモデル(VGGとResNet)、データセット(CIFAR-10/100とTiny ImageNet)、およびスパース性制約(最大99.9%)の初期化において、既存の最先端のプルーニングアルゴリズムと一貫して競合する。 したがって、データ非依存なpruningアルゴリズムは、初期化時にどのシナプスが重要なのかを定量化するためにデータを使用する必要がある既存のパラダイムに挑戦します。

Pruning the parameters of deep neural networks has generated intense interest due to potential savings in time, memory and energy both during training and at test time. Recent works have identified, through an expensive sequence of training and pruning cycles, the existence of winning lottery tickets or sparse trainable subnetworks at initialization. This raises a foundational question: can we identify highly sparse trainable subnetworks at initialization, without ever training, or indeed without ever looking at the data? We provide an affirmative answer to this question through theory driven algorithm design. We first mathematically formulate and experimentally verify a conservation law that explains why existing gradient-based pruning algorithms at initialization suffer from layer-collapse, the premature pruning of an entire layer rendering a network untrainable. This theory also elucidates how layer-collapse can be entirely avoided, motivating a novel pruning algorithm Iterative Synaptic Flow Pruning (SynFlow). This algorithm can be interpreted as preserving the total flow of synaptic strengths through the network at initialization subject to a sparsity constraint. Notably, this algorithm makes no reference to the training data and consistently competes with or outperforms existing state-of-the-art pruning algorithms at initialization over a range of models (VGG and ResNet), datasets (CIFAR-10/100 and Tiny ImageNet), and sparsity constraints (up to 99.99 percent). Thus our data-agnostic pruning algorithm challenges the existing paradigm that, at initialization, data must be used to quantify which synapses are important.
翻訳日:2022-11-23 13:23:38 公開日:2020-11-19
# 広畳み込みニューラルネットワークのためのマルチグリッド・イン・チャンネルアーキテクチャ

Multigrid-in-Channels Architectures for Wide Convolutional Neural Networks ( http://arxiv.org/abs/2006.06799v2 )

ライセンス: Link先を確認
Jonathan Ephrath, Lars Ruthotto, Eran Treister(参考訳) 本稿では,標準畳み込みニューラルネットワーク(CNN)のチャネル数に関して,パラメータ数の2次成長に対処するマルチグリッド手法を提案する。 多くのスペーサー畳み込み演算子を持つネットワークはフルネットワークと同等の性能が得られるため、標準的なCNNには冗長性があることが示されている。 しかし、このような行動につながるスパーシティパターンは通常ランダムであり、ハードウェア効率を阻害する。 本稿では,チャネルの完全結合を実現し,パラメータ数がネットワーク幅に線形に比例するcnnアーキテクチャを構築するためのマルチグリッド・イン・チャネルアプローチを提案する。 この目的のために、汎用CNNにおける各畳み込み層を、構造化(グループ化された)畳み込みからなる多層層に置き換える。 残差ネットワークとmobilenetv2にこの戦略を適用すると,精度に悪影響を及ぼすことなくパラメータ数を大幅に削減できることを示す。 したがって、パラメータや操作数を劇的に増加させることなく、ネットワークを広げることができる。

We present a multigrid approach that combats the quadratic growth of the number of parameters with respect to the number of channels in standard convolutional neural networks (CNNs). It has been shown that there is a redundancy in standard CNNs, as networks with much sparser convolution operators can yield similar performance to full networks. The sparsity patterns that lead to such behavior, however, are typically random, hampering hardware efficiency. In this work, we present a multigrid-in-channels approach for building CNN architectures that achieves full coupling of the channels, and whose number of parameters is linearly proportional to the width of the network. To this end, we replace each convolution layer in a generic CNN with a multilevel layer consisting of structured (i.e., grouped) convolutions. Our examples from supervised image classification show that applying this strategy to residual networks and MobileNetV2 considerably reduces the number of parameters without negatively affecting accuracy. Therefore, we can widen networks without dramatically increasing the number of parameters or operations.
翻訳日:2022-11-22 09:26:51 公開日:2020-11-19
# Noise2Inpaint: インペインティング・アンロールによる参照なしの学習

Noise2Inpaint: Learning Referenceless Denoising by Inpainting Unrolling ( http://arxiv.org/abs/2006.09450v2 )

ライセンス: Link先を確認
Burhaneddin Yaman, Seyed Amir Hossein Hosseini, Mehmet Ak\c{c}akaya(参考訳) ディープラーニングに基づく画像切り離し手法が最近,その性能向上により普及している。 従来、これらの手法は教師付き方式で訓練されており、ノイズの多い入力とクリーンなターゲット画像対を必要とする。 近年,ノイズの多い画像のみからノイズを除去する方法が提案されている。 これらの方法はピクセル間のノイズが統計的に独立であると仮定し、基礎となる画像ピクセルは近隣の空間的相関を示す。 これらの手法は、画像画素を2つの解離集合に分割するマスキング手法に依存しており、一方はネットワークへの入力として、もう一方は損失を定義するために使用される。 しかし、これらの従来の自己教師型アプローチは、マスキングモデルを明示的に考慮することなく、純粋にデータ駆動型正規化ニューラルネットワークに依存している。 本稿では,これらの自己教師付きアプローチに基づいて,ノイズ2インパイント(n2i)という,正規化画像インパイントフレームワークにデノジング問題を再キャストするトレーニング手法を導入する。 これにより、ノイズの異なる統計的特性を必要に応じて組み込む客観的関数が利用可能となる。 この目的関数の解法としてアルゴリズムアンロール法を用いて反復最適化を行い,エンドツーエンドネットワークを訓練する。 トレーニングパラダイムは、以前の作品からのマスキングアプローチに従い、ピクセルを2つの異なる集合に分割する。 重要なのは、そのうちの1つが未登録のネットワークにデータ忠実性(data fidelity)を課すのに使われ、もう1つは損失を定義していることだ。 我々は、N2Iが実世界のデータセットをデノナイズすることに成功し、純粋にデータ駆動型であるNoss2Selfと比較して詳細を保存できることを実証した。

Deep learning based image denoising methods have been recently popular due to their improved performance. Traditionally, these methods are trained in a supervised manner, requiring a set of noisy input and clean target image pairs. More recently, self-supervised approaches have been proposed to learn denoising from only noisy images. These methods assume that noise across pixels is statistically independent, and the underlying image pixels show spatial correlations across neighborhoods. These methods rely on a masking approach that divides the image pixels into two disjoint sets, where one is used as input to the network while the other is used to define the loss. However, these previous self-supervised approaches rely on a purely data-driven regularization neural network without explicitly taking the masking model into account. In this work, building on these self-supervised approaches, we introduce Noise2Inpaint (N2I), a training approach that recasts the denoising problem into a regularized image inpainting framework. This allows us to use an objective function, which can incorporate different statistical properties of the noise as needed. We use algorithm unrolling to unroll an iterative optimization for solving this objective function and train the unrolled network end-to-end. The training paradigm follows the masking approach from previous works, splitting the pixels into two disjoint sets. Importantly, one of these is now used to impose data fidelity in the unrolled network, while the other still defines the loss. We demonstrate that N2I performs successful denoising on real-world datasets, while better preserving details compared to its purely data-driven counterpart Noise2Self.
翻訳日:2022-11-20 20:57:47 公開日:2020-11-19
# ランク付けされた選好データの2サンプルテストとモデリング仮定の役割

Two-Sample Testing on Ranked Preference Data and the Role of Modeling Assumptions ( http://arxiv.org/abs/2006.11909v2 )

ライセンス: Link先を確認
Charvi Rastogi, Sivaraman Balakrishnan, Nihar B. Shah, Aarti Singh(参考訳) 多くのアプリケーションはランク付けされた選好データに対して2サンプルテストを必要とする。 例えば、クラウドソーシングでは、人が提供した対数比較データがレーティング変換対比較に類似しているかどうかという長年の疑問がある。 他の例としては、スポーツデータ分析やピアグレーディングがある。 本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。 ペアワイズ比較データのための2つのサンプルテストでは、2つのサンプルセットの分布を正しく区別するために必要となるサンプル複雑性の上界を確立する。 我々のテストは本質的に分布の仮定を必要としない。 そして、結果が(minimaxの意味で)定数まで密接であることを示す相補的な下界を証明します。 ペアワイズ比較モデル(wst, mst, sst, btl や thurstone などパラメータベース)の下限を証明し, 仮定をモデル化する役割について検討した。 また,部分的(あるいは全体的)ランキングデータを用いた2つのサンプルテストの問題に対して,テストアルゴリズムと関連するサンプル複雑性境界を提供する。 実世界の対数比較データに2つのサンプルテストを適用することで、評価とランキングが実際には異なると結論づける。 一方,テストでは2シーズン間の欧州サッカーチームの相対成績に有意な差は認められなかった。 最後に、実世界の部分的および総合的なランキングデータセットに2サンプルテストを適用し、性別、年齢、居住地域に基づく人口統計学的に有意な差を見出した。

A number of applications require two-sample testing on ranked preference data. For instance, in crowdsourcing, there is a long-standing question of whether pairwise comparison data provided by people is distributed similar to ratings-converted-to-comparisons. Other examples include sports data analysis and peer grading. In this paper, we design two-sample tests for pairwise comparison data and ranking data. For our two-sample test for pairwise comparison data, we establish an upper bound on the sample complexity required to correctly distinguish between the distributions of the two sets of samples. Our test requires essentially no assumptions on the distributions. We then prove complementary lower bounds showing that our results are tight (in the minimax sense) up to constant factors. We investigate the role of modeling assumptions by proving lower bounds for a range of pairwise comparison models (WST, MST,SST, parameter-based such as BTL and Thurstone). We also provide testing algorithms and associated sample complexity bounds for the problem of two-sample testing with partial (or total) ranking data.Furthermore, we empirically evaluate our results via extensive simulations as well as two real-world datasets consisting of pairwise comparisons. By applying our two-sample test on real-world pairwise comparison data, we conclude that ratings and rankings provided by people are indeed distributed differently. On the other hand, our test recognizes no significant difference in the relative performance of European football teams across two seasons. Finally, we apply our two-sample test on a real-world partial and total ranking dataset and find a statistically significant difference in Sushi preferences across demographic divisions based on gender, age and region of residence.
翻訳日:2022-11-18 12:07:26 公開日:2020-11-19
# ランダム森林における関節

Joints in Random Forests ( http://arxiv.org/abs/2006.14937v3 )

ライセンス: Link先を確認
Alvaro H. C. Correia, Robert Peharz, Cassio de Campos(参考訳) 決定木(DT)とランダムフォレスト(RF)は、日々の機械学習実践者やデータ科学者にとって重要な、強力な識別学習者およびツールである。 しかし、その差別的な性質のため、特徴の欠如した入力を処理したり、外れ値を検出するための原則的な方法が欠如しているため、計算技術や別個の生成モデルと組み合わせる必要がある。 本稿では,DTとRFが自然に生成モデルとして解釈可能であることを示す。 この再解釈は、それらに特徴空間上の完全な合同分布を与え、新しいハイブリッド生成判別モデル群である生成決定木(gedts)と生成森林(gefs)をもたらす。 このモデルのファミリはDTとRFの全体的な特性を保持しつつ、余剰化によって欠落した特徴を扱える。 ベイズ整合性の結果に対して頻繁に行われる仮定では、GeDTとGeFの整合性は、ランダムに欠落した場合に、欠落した入力特徴のパターンに拡張される。 経験的に、我々のモデルは、K-アネレスト近接計算のような欠落データを扱う一般的なルーチンよりも優れており、また、入力特徴の限界確率を監視して自然に外れ値を検出することができることを示す。

Decision Trees (DTs) and Random Forests (RFs) are powerful discriminative learners and tools of central importance to the everyday machine learning practitioner and data scientist. Due to their discriminative nature, however, they lack principled methods to process inputs with missing features or to detect outliers, which requires pairing them with imputation techniques or a separate generative model. In this paper, we demonstrate that DTs and RFs can naturally be interpreted as generative models, by drawing a connection to Probabilistic Circuits, a prominent class of tractable probabilistic models. This reinterpretation equips them with a full joint distribution over the feature space and leads to Generative Decision Trees (GeDTs) and Generative Forests (GeFs), a family of novel hybrid generative-discriminative models. This family of models retains the overall characteristics of DTs and RFs while additionally being able to handle missing features by means of marginalisation. Under certain assumptions, frequently made for Bayes consistency results, we show that consistency in GeDTs and GeFs extend to any pattern of missing input features, if missing at random. Empirically, we show that our models often outperform common routines to treat missing data, such as K-nearest neighbour imputation, and moreover, that our models can naturally detect outliers by monitoring the marginal probability of input features.
翻訳日:2022-11-17 02:47:21 公開日:2020-11-19
# Remix: リバランスミックス

Remix: Rebalanced Mixup ( http://arxiv.org/abs/2007.03943v3 )

ライセンス: Link先を確認
Hsin-Ping Chou, Shih-Chieh Chang, Jia-Yu Pan, Wei Wei, Da-Cheng Juan(参考訳) 深層画像分類器は、トレーニングデータがかなりクラス不均衡である場合、しばしば性能が良くない。 本研究では,mixupの定式化を緩和し,特徴量とラベルの混合要因を解消する新しい正規化手法であるremixを提案する。 具体的には、2つのサンプルを混ぜると、特徴がmixupと同じ方法で混合されるのに対して、Remixは少数派に不当に高い重みを与えることで、少数派に有利なラベルを割り当てる。 そうすることによって、分類器は決定境界を多数派クラスに向け、多数派クラスと少数派クラスの一般化誤差のバランスをとることを学習する。 我々は, クラス不均衡状態下でのミックスアップ, マニホールドミックスアップ, カットミックスなどの最先端の正規化手法について検討し, 提案手法がcifar-10, cifar-100, cinic-10によって構築された不均衡データセット上で, それらの最新技術, 再重み付けおよび再サンプリング技術を大きく上回ることを示した。 iNaturalist 2018では、実世界の大規模不均衡データセット上でRemixを評価した。 実験の結果、remixは以前の方法よりも一貫性があり、大幅な改善が得られた。

Deep image classifiers often perform poorly when training data are heavily class-imbalanced. In this work, we propose a new regularization technique, Remix, that relaxes Mixup's formulation and enables the mixing factors of features and labels to be disentangled. Specifically, when mixing two samples, while features are mixed in the same fashion as Mixup, Remix assigns the label in favor of the minority class by providing a disproportionately higher weight to the minority class. By doing so, the classifier learns to push the decision boundaries towards the majority classes and balance the generalization error between majority and minority classes. We have studied the state-of-the art regularization techniques such as Mixup, Manifold Mixup and CutMix under class-imbalanced regime, and shown that the proposed Remix significantly outperforms these state-of-the-arts and several re-weighting and re-sampling techniques, on the imbalanced datasets constructed by CIFAR-10, CIFAR-100, and CINIC-10. We have also evaluated Remix on a real-world large-scale imbalanced dataset, iNaturalist 2018. The experimental results confirmed that Remix provides consistent and significant improvements over the previous methods.
翻訳日:2022-11-12 12:40:00 公開日:2020-11-19
# 半教師付きタスク駆動データ拡張による医用画像セグメンテーション

Semi-supervised Task-driven Data Augmentation for Medical Image Segmentation ( http://arxiv.org/abs/2007.05363v2 )

ライセンス: Link先を確認
Krishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Ertunc Erdil, Anton Becker, Olivio Donati, Ender Konukoglu(参考訳) 教師付き学習に基づくセグメンテーション手法は通常、テスト時にうまく一般化するために多くの注釈付きトレーニングデータを必要とする。 医療応用では、専門家から大量の注釈付きサンプルを取得するのに時間がかかり費用がかかるため、そのようなデータセットのキュレーションは好ましくない。 その結果,注記例を限定した学習法が文献に多数提案されている。 残念なことに、この論文における提案されたアプローチは、画像セグメント化のためのランダムなデータ拡張よりも有意な利得を得られていない。 本研究では,合成データ生成器がセグメント化タスクに最適化された限定ラベルデータによる学習のためのタスク駆動データ拡張手法を提案する。 提案手法は, 加法強度変換と変形場として2組の変換を用いて, 強度と形状の変動をモデル化する。 両方の変換は半教師付きフレームワークでラベル付きとラベルなしの例を使って最適化されている。 心的, 前立腺, 膵の3つの医学的データセットに対する実験により, 本手法は, 限られたアノテーション設定における画像分割に対する標準拡張および半教師付きアプローチよりも有意に優れていることが示された。 コードはhttps://github.com/krishnabits001/task$\_$driven$\_$data$\_$augmentationで公開されている。

Supervised learning-based segmentation methods typically require a large number of annotated training data to generalize well at test time. In medical applications, curating such datasets is not a favourable option because acquiring a large number of annotated samples from experts is time-consuming and expensive. Consequently, numerous methods have been proposed in the literature for learning with limited annotated examples. Unfortunately, the proposed approaches in the literature have not yet yielded significant gains over random data augmentation for image segmentation, where random augmentations themselves do not yield high accuracy. In this work, we propose a novel task-driven data augmentation method for learning with limited labeled data where the synthetic data generator, is optimized for the segmentation task. The generator of the proposed method models intensity and shape variations using two sets of transformations, as additive intensity transformations and deformation fields. Both transformations are optimized using labeled as well as unlabeled examples in a semi-supervised framework. Our experiments on three medical datasets, namely cardic, prostate and pancreas, show that the proposed approach significantly outperforms standard augmentation and semi-supervised approaches for image segmentation in the limited annotation setting. The code is made publicly available at https://github.com/krishnabits001/task$\_$driven$\_$data$\_$augmentation.
翻訳日:2022-11-12 04:17:26 公開日:2020-11-19
# 知識蒸留による教師なしマルチターゲットドメイン適応

Unsupervised Multi-Target Domain Adaptation Through Knowledge Distillation ( http://arxiv.org/abs/2007.07077v4 )

ライセンス: Link先を確認
Le Thanh Nguyen-Meidine, Atif Belal, Madhu Kiran, Jose Dolz, Louis-Antoine Blais-Morin, Eric Granger(参考訳) 教師なしドメイン適応(Unsupervised domain adapt、UDA)は、対象ドメインw.r.t.ラベル付きデータからのラベルなしデータの分散の間のドメインシフトの問題を軽減する。 単一ターゲットのUDAシナリオは文献でよく研究されているが、マルチターゲットドメイン適応(MTDA)は、例えばマルチカメラビデオ監視アプリケーションにおいて、その実用的重要性にもかかわらず、ほとんど探索されていない。 MTDA問題は、ターゲットドメインごとに1つの特殊なモデルを適用することで解決できるが、現実の多くのアプリケーションではコストがかかりすぎる。 MTDAの目標を複数達成することは提案されているが, モデル特異性と精度の低下につながる可能性がある。 本稿では,複数の対象領域にまたがる一般化が可能なCNNを訓練するための,教師なしMTDA手法を提案する。 MTDA (Multi-Teacher MTDA) 法は,複数の教師から一般学生へ対象ドメイン知識を反復蒸留するために,KD (Multi-Teacher knowledge distillation) に依存する。 KDプロセスはプログレッシブな方法で実行され、各教師は、ドメイン適応機能を直接学習するのではなく、特定のターゲットに対してUDAを実行する方法を訓練する。 最後に、mt-mtdaは、各教師の知識を組み合わせるのではなく、知識を蒸留する教師の間で交互に交流し、学習時の目標(教師)の特異性を維持する。 MT-MTDA はいくつかの挑戦的 UDA ベンチマークの最先端手法と比較し,提案手法が複数の対象領域に対して高い精度が得られることを示す実験結果を得た。 私たちのコードは、https://github.com/LIVIAETS/MT-MTDAで利用可能です。

Unsupervised domain adaptation (UDA) seeks to alleviate the problem of domain shift between the distribution of unlabeled data from the target domain w.r.t. labeled data from the source domain. While the single-target UDA scenario is well studied in the literature, Multi-Target Domain Adaptation (MTDA) remains largely unexplored despite its practical importance, e.g., in multi-camera video-surveillance applications. The MTDA problem can be addressed by adapting one specialized model per target domain, although this solution is too costly in many real-world applications. Blending multiple targets for MTDA has been proposed, yet this solution may lead to a reduction in model specificity and accuracy. In this paper, we propose a novel unsupervised MTDA approach to train a CNN that can generalize well across multiple target domains. Our Multi-Teacher MTDA (MT-MTDA) method relies on multi-teacher knowledge distillation (KD) to iteratively distill target domain knowledge from multiple teachers to a common student. The KD process is performed in a progressive manner, where the student is trained by each teacher on how to perform UDA for a specific target, instead of directly learning domain adapted features. Finally, instead of combining the knowledge from each teacher, MT-MTDA alternates between teachers that distill knowledge, thereby preserving the specificity of each target (teacher) when learning to adapt to the student. MT-MTDA is compared against state-of-the-art methods on several challenging UDA benchmarks, and empirical results show that our proposed model can provide a considerably higher level of accuracy across multiple target domains. Our code is available at: https://github.com/LIVIAETS/MT-MTDA
翻訳日:2022-11-10 15:00:51 公開日:2020-11-19
# MCUNet:IoTデバイスに関する微妙なディープラーニング

MCUNet: Tiny Deep Learning on IoT Devices ( http://arxiv.org/abs/2007.10319v2 )

ライセンス: Link先を確認
Ji Lin, Wei-Ming Chen, Yujun Lin, John Cohn, Chuang Gan, Song Han(参考訳) マイクロコントローラユニット(MCU)に基づく小さなIoTデバイス上での機械学習は、魅力的だが難しい。 我々は,効率的なニューラルアーキテクチャ(tinynas)と軽量推論エンジン(tinyengine)を共同で設計するフレームワークであるmcunetを提案する。 TinyNASは2段階のニューラルアーキテクチャ検索アプローチを採用しており、まず検索空間を最適化してリソース制約に適合させ、次に最適化された検索空間でネットワークアーキテクチャを専門化する。 TinyNASは、低検索コストで様々な制約(デバイス、レイテンシ、エネルギー、メモリなど)を自動的に処理できる。TinyEngineは、検索スペースを拡張し、より大きなモデルに適合するメモリ効率の高い推論ライブラリである。 TinyEngineは、階層的な最適化よりも全体的なネットワークトポロジに従ってメモリスケジューリングを適応させ、メモリ使用量を4.8倍に減らし、TF-Lite MicroやCMSIS-NNと比較して1.7-3.3倍高速化する。 MCUNet は、市販のマイクロコントローラで 70% ImageNet Top1 の精度を初めて達成し、量子化された MobileNetV2 や ResNet-18 と比較して、3.5倍のSRAMと5.7倍の Flash を使用する。 ビジュアル&オーディオのウェイクワードタスクでは、MCUNetは最先端の精度を達成し、3.7-4.1倍のピークSRAMを持つMobileNetV2やProxylessNASベースのソリューションよりも2.4-3.4倍高速で動作する。 我々の研究は、IoTデバイス上で常時オンの小さな機械学習の時代が到来したことを示唆している。 コードとモデルはここで見ることができる。

Machine learning on tiny IoT devices based on microcontroller units (MCU) is appealing but challenging: the memory of microcontrollers is 2-3 orders of magnitude smaller even than mobile phones. We propose MCUNet, a framework that jointly designs the efficient neural architecture (TinyNAS) and the lightweight inference engine (TinyEngine), enabling ImageNet-scale inference on microcontrollers. TinyNAS adopts a two-stage neural architecture search approach that first optimizes the search space to fit the resource constraints, then specializes the network architecture in the optimized search space. TinyNAS can automatically handle diverse constraints (i.e.device, latency, energy, memory) under low search costs.TinyNAS is co-designed with TinyEngine, a memory-efficient inference library to expand the search space and fit a larger model. TinyEngine adapts the memory scheduling according to the overall network topology rather than layer-wise optimization, reducing the memory usage by 4.8x, and accelerating the inference by 1.7-3.3x compared to TF-Lite Micro and CMSIS-NN. MCUNet is the first to achieves >70% ImageNet top1 accuracy on an off-the-shelf commercial microcontroller, using 3.5x less SRAM and 5.7x less Flash compared to quantized MobileNetV2 and ResNet-18. On visual&audio wake words tasks, MCUNet achieves state-of-the-art accuracy and runs 2.4-3.4x faster than MobileNetV2 and ProxylessNAS-based solutions with 3.7-4.1x smaller peak SRAM. Our study suggests that the era of always-on tiny machine learning on IoT devices has arrived. Code and models can be found here: https://tinyml.mit.edu.
翻訳日:2022-11-08 14:17:07 公開日:2020-11-19
# 非剛性形状マッチングのための2重反復補正法

A Dual Iterative Refinement Method for Non-rigid Shape Matching ( http://arxiv.org/abs/2007.13049v2 )

ライセンス: Link先を確認
Rui Xiang, Rongjie Lai, Hongkai Zhao(参考訳) 本研究では,2つのほぼ等尺形状間の密接な対応のために,単純で効率的な二重反復精製法を提案する。 重要なアイデアは、空間的およびスペクトル的、あるいは局所的およびグローバル的特徴のような二重の情報を補完的かつ効果的な方法で使用し、次のイテレーションで使用するために現在のイテレーションからより正確な情報を抽出することである。 現在の対応から始まる各DIRイテレーションでは、各点におけるズームインプロセスを使用して、局所写像歪み基準により、よくマッチしたアンカーペアを選択する。 これらの選択されたアンカーペアは、選択されたアンカーペアの容量に適応的に一致するスペクトル特徴(または他の適切なグローバル特徴)を整列するために使用される。 データ適応的な方法で補完情報を効果的に組み合わせることで、DIRは効率性だけでなく、数回のイテレーションで正確な結果のレンダリングにも堅牢である。 適切なデュアル機能を選択することで、DIRはパッチや部分的なマッチングも扱える柔軟性を持つ。 様々なデータセットに関する広範囲な実験は、精度と効率の両面で、他の最先端手法よりもdirが優れていることを示している。

In this work, a simple and efficient dual iterative refinement (DIR) method is proposed for dense correspondence between two nearly isometric shapes. The key idea is to use dual information, such as spatial and spectral, or local and global features, in a complementary and effective way, and extract more accurate information from current iteration to use for the next iteration. In each DIR iteration, starting from current correspondence, a zoom-in process at each point is used to select well matched anchor pairs by a local mapping distortion criterion. These selected anchor pairs are then used to align spectral features (or other appropriate global features) whose dimension adaptively matches the capacity of the selected anchor pairs. Thanks to the effective combination of complementary information in a data-adaptive way, DIR is not only efficient but also robust to render accurate results within a few iterations. By choosing appropriate dual features, DIR has the flexibility to handle patch and partial matching as well. Extensive experiments on various data sets demonstrate the superiority of DIR over other state-of-the-art methods in terms of both accuracy and efficiency.
翻訳日:2022-11-06 19:52:21 公開日:2020-11-19
# pixl2r: ピクセルから報酬へのマッピングによる自然言語による強化学習の指導

PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping Pixels to Rewards ( http://arxiv.org/abs/2007.15543v2 )

ライセンス: Link先を確認
Prasoon Goyal, Scott Niekum, Raymond J. Mooney(参考訳) 強化学習(rl)、特にスパース報酬の設定では、しばしば環境との膨大なインタラクションを必要とするため、複雑な問題への適用性が制限される。 これを解決するために、いくつかの先行したアプローチが自然言語を使ってエージェントの探索をガイドしている。 しかしながら、これらのアプローチは通常、環境の構造化された表現上で動作し、自然言語コマンドで何らかの構造を仮定する。 そこで本研究では,課題の自然言語記述を自由形式として,画素を直接報酬にマッピングするモデルを提案する。 メタワールドロボット操作領域における実験では,言語に基づく報酬が,少なからぬ報酬設定と密集した報酬設定の両方において,政策学習のサンプル効率を大幅に向上させることが示された。

Reinforcement learning (RL), particularly in sparse reward settings, often requires prohibitively large numbers of interactions with the environment, thereby limiting its applicability to complex problems. To address this, several prior approaches have used natural language to guide the agent's exploration. However, these approaches typically operate on structured representations of the environment, and/or assume some structure in the natural language commands. In this work, we propose a model that directly maps pixels to rewards, given a free-form natural language description of the task, which can then be used for policy learning. Our experiments on the Meta-World robot manipulation domain show that language-based rewards significantly improves the sample efficiency of policy learning, both in sparse and dense reward settings.
翻訳日:2022-11-05 13:15:05 公開日:2020-11-19
# GraphKKE: マイクロバイオーム解析のためのグラフカーネルクープマン

GraphKKE: Graph Kernel Koopman Embedding for Human Microbiome Analysis ( http://arxiv.org/abs/2008.05903v3 )

ライセンス: Link先を確認
Kateryna Melnyk, Stefan Klus, Gr\'egoire Montavon, Tim Conrad(参考訳) ますます多くの疾患が、肥満、糖尿病、一部のがんなど、マイクロバイオーム構成の障害と強く関連していることが判明している。 現代のハイスループットオミクス技術のおかげで、ヒトのマイクロバイオームとその健康状態への影響を直接分析することができる。 微生物群落は長期間にわたって監視され、メンバー間の関係が探究される。 これらの関係は時間発展グラフによって説明できる。 微生物群集が, 抗生物質曝露や病気, 一般の力学特性など, 多様な摂動に対する応答を理解するためには, ヒトの微生物群集の時間進化グラフを解析する必要がある。 これは微生物間の複雑な相互作用とメタ安定ダイナミクスのために特に困難になる。 この問題を解決する鍵は、時間発展するグラフを元のダイナミクスを保存する固定長特徴ベクトルとして表現することである。 本稿では、転送演算子とグラフカーネルのスペクトル解析に基づいて、時間進化グラフの埋め込みを学習する手法を提案する。 本手法は,生成した合成データと実世界のデータの両方に対して,時間発展グラフの一時的な変化をキャプチャできることを実証する。 本手法の有効性を示す実験を行った。 さらに,本手法をヒトのマイクロバイオームデータに適用し,動的プロセスの研究を行った。

More and more diseases have been found to be strongly correlated with disturbances in the microbiome constitution, e.g., obesity, diabetes, or some cancer types. Thanks to modern high-throughput omics technologies, it becomes possible to directly analyze human microbiome and its influence on the health status. Microbial communities are monitored over long periods of time and the associations between their members are explored. These relationships can be described by a time-evolving graph. In order to understand responses of the microbial community members to a distinct range of perturbations such as antibiotics exposure or diseases and general dynamical properties, the time-evolving graph of the human microbial communities has to be analyzed. This becomes especially challenging due to dozens of complex interactions among microbes and metastable dynamics. The key to solving this problem is the representation of the time-evolving graphs as fixed-length feature vectors preserving the original dynamics. We propose a method for learning the embedding of the time-evolving graph that is based on the spectral analysis of transfer operators and graph kernels. We demonstrate that our method can capture temporary changes in the time-evolving graph on both created synthetic data and real-world data. Our experiments demonstrate the efficacy of the method. Furthermore, we show that our method can be applied to human microbiome data to study dynamic processes.
翻訳日:2022-10-31 05:03:58 公開日:2020-11-19
# 決定論と不決定論の組み合わせ

Combining Determinism and Indeterminism ( http://arxiv.org/abs/2009.03996v4 )

ライセンス: Link先を確認
Michael Stephen Fiske(参考訳) 我々の目標は、量子ランダム性から測定された非決定性と計算決定性を組み合わせた数学的演算を構築し、非機械的挙動を計算に保存することである。 公式には、計算可能な列挙可能(c.e.)と双免疫集合に適用される操作に関するいくつかの結果がここで証明される。 自然数に対する再配列操作を発達させながら、双免疫的再配列は自然数 $\mathbb{n}$ 上の無限対称群 (sym$(\mathbb{n})$) の非可算部分群を生成することを発見した。 この新しい非可算部分群は双免疫対称群と呼ばれる。 両免疫対称群は自然数上の有限対称群を含み、したがって非常に推移的であることを示す。 さらに、双免疫対称群は点収束トポロジーに関してSym$(\mathbb{N})$で密接である。 bi-immune symmetric groupと1つ以上のbi-immune rerangementsによって生成されるそのサブグループの完全な構造は不明である。

Our goal is to construct mathematical operations that combine indeterminism measured from quantum randomness with computational determinism so that non-mechanistic behavior is preserved in the computation. Formally, some results about operations applied to computably enumerable (c.e.) and bi-immune sets are proven here, where the objective is for the operations to preserve bi-immunity. While developing rearrangement operations on the natural numbers, we discovered that the bi-immune rearrangements generate an uncountable subgroup of the infinite symmetric group (Sym$(\mathbb{N})$) on the natural numbers $\mathbb{N}$. This new uncountable subgroup is called the bi-immune symmetric group. We show that the bi-immune symmetric group contains the finitary symmetric group on the natural numbers, and consequently is highly transitive. Furthermore, the bi-immune symmetric group is dense in Sym$(\mathbb{N})$ with respect to the pointwise convergence topology. The complete structure of the bi-immune symmetric group and its subgroups generated by one or more bi-immune rearrangements is unknown.
翻訳日:2022-10-22 19:46:12 公開日:2020-11-19
# リッチ不完全調停フレームワークに関する一考察

A Note on Rich Incomplete Argumentation Frameworks ( http://arxiv.org/abs/2009.04869v3 )

ライセンス: Link先を確認
Jean-Guy Mailly(参考訳) 近年,抽象的議論における質的不確実性が注目されている。 この話題に関する最初の研究は、攻撃の存在に関する不確実性、次に議論の存在、そして最終的に両方の不確実性を組み合わせたものである。 その結果、IAF(Incomplete Argumentation Framework)が実現した。 しかし、制御議論フレームワーク(cafs)の文脈において、別の種類の不確実性が導入された。不確実性指向との相反関係、すなわち、2つの議論の間に攻撃があることは間違いないが、攻撃の実際の方向は不明である。 ここでは、以前IAFやCAFで導入された3種類の不確実性を組み合わせたRich IAFを正式に定義する。 IAFよりも厳密に表現力のあるこの新モデルは、計算複雑性の爆発に苦しむことはない。 また、SATに基づく既存の計算手法は、新しいフレームワークに容易に適用できる。

Recently, qualitative uncertainty in abstract argumentation has received much attention. The first works on this topic introduced uncertainty about the presence of attacks, then about the presence of arguments, and finally combined both kinds of uncertainty. This results in the Incomplete Argumentation Framework (IAFs). But another kind of uncertainty was introduced in the context of Control Argumentation Frameworks (CAFs): it consists in a conflict relation with uncertain orientation, i.e. we are sure that there is an attack between two arguments, but the actual direction of the attack is unknown. Here, we formally define Rich IAFs, that combine the three different kinds of uncertainty that were previously introduced in IAFs and CAFs. We show that this new model, although strictly more expressive than IAFs, does not suffer from a blow up of computational complexity. Also, the existing computational approach based on SAT can be easily adapted to the new framework.
翻訳日:2022-10-20 03:38:08 公開日:2020-11-19
# 変分単語マスクの学習によるニューラルテキスト分類器の解釈性の向上

Learning Variational Word Masks to Improve the Interpretability of Neural Text Classifiers ( http://arxiv.org/abs/2010.00667v3 )

ライセンス: Link先を確認
Hanjie Chen, Yangfeng Ji(参考訳) 解釈可能なニューラルテキスト分類器を構築するために、これまでの研究の多くは、本質的に解釈可能なモデルの設計や忠実な説明を見つけることに集中してきた。 モデル解釈性を改善するための新しい作業がちょうど始まったばかりであり、多くの既存の手法はトレーニングで追加の入力として事前情報または人間のアノテーションを必要とする。 この制限に対処するために,タスク固有の重要な単語を自動的に学習し,分類に関する無関係な情報を減らすための変分ワードマスク(vmask)手法を提案する。 提案手法は,7つのベンチマークテキスト分類データセット上で,3つのニューラルテキスト分類器 (CNN, LSTM, BERT) を用いて評価する。 モデル予測精度と解釈可能性の両方を改善する上で,VMASKの有効性を示す実験を行った。

To build an interpretable neural text classifier, most of the prior work has focused on designing inherently interpretable models or finding faithful explanations. A new line of work on improving model interpretability has just started, and many existing methods require either prior information or human annotations as additional inputs in training. To address this limitation, we propose the variational word mask (VMASK) method to automatically learn task-specific important words and reduce irrelevant information on classification, which ultimately improves the interpretability of model predictions. The proposed method is evaluated with three neural text classifiers (CNN, LSTM, and BERT) on seven benchmark text classification datasets. Experiments show the effectiveness of VMASK in improving both model prediction accuracy and interpretability.
翻訳日:2022-10-12 07:17:05 公開日:2020-11-19
# xda: トランスファー学習による正確で堅牢な分解

XDA: Accurate, Robust Disassembly with Transfer Learning ( http://arxiv.org/abs/2010.00770v3 )

ライセンス: Link先を確認
Kexin Pei, Jonas Guan, David Williams-King, Junfeng Yang, Suman Jana(参考訳) 削除されたバイナリの正確かつ堅牢な分解は難しい。 難易度の根源は、命令や関数境界のような高レベルな構造が削除されたバイナリには存在せず、不完全な情報に基づいて回復しなければならないことである。 現在の分解アプローチは、リカバリを近似するためにヒューリスティックや単純なパターンマッチングに依存するが、これらのメソッドはしばしば不正確で不安定であり、特にコンパイラの最適化が違う。 我々は,機械コードに存在する異なるコンテキスト依存を学習し,その知識を正確かつ堅牢な分解のために伝達する,移動学習に基づく分解フレームワークXDAを提案する。 マスキング言語モデリングによる自己教師型学習タスクを設計し,バイナリ内のバイト列間の相互作用を学習する。 このタスクからの出力は、入力バイナリのバイトトークン間の高度なコンテキスト依存をエンコードするバイト埋め込みで、下流の分解タスク用に微調整することができる。 本研究では,SPEC CPU2017,SPEC CPU2006,BAPコーパスから抽出した3,121個のバイナリから,関数境界とアセンブリ命令を復元する2つの分解タスクにおけるXDAの性能を評価する。 バイナリはGCC、ICC、MSVCによって、x86/x64 WindowsおよびLinuxプラットフォーム上で4つの最適化レベルでコンパイルされる。 XDAは、関数境界と命令をそれぞれ回復する際の99.0%と99.7%のF1スコアを達成した。 また、最速のMLベースのアプローチと同等の速度を維持しており、IDA Proのような手書きの分解器よりも最大38倍高速である。 我々はXDAのコードをhttps://github.com/CUMLSec/XDAでリリースします。

Accurate and robust disassembly of stripped binaries is challenging. The root of the difficulty is that high-level structures, such as instruction and function boundaries, are absent in stripped binaries and must be recovered based on incomplete information. Current disassembly approaches rely on heuristics or simple pattern matching to approximate the recovery, but these methods are often inaccurate and brittle, especially across different compiler optimizations. We present XDA, a transfer-learning-based disassembly framework that learns different contextual dependencies present in machine code and transfers this knowledge for accurate and robust disassembly. We design a self-supervised learning task motivated by masked Language Modeling to learn interactions among byte sequences in binaries. The outputs from this task are byte embeddings that encode sophisticated contextual dependencies between input binaries' byte tokens, which can then be finetuned for downstream disassembly tasks. We evaluate XDA's performance on two disassembly tasks, recovering function boundaries and assembly instructions, on a collection of 3,121 binaries taken from SPEC CPU2017, SPEC CPU2006, and the BAP corpus. The binaries are compiled by GCC, ICC, and MSVC on x86/x64 Windows and Linux platforms over 4 optimization levels. XDA achieves 99.0% and 99.7% F1 score at recovering function boundaries and instructions, respectively, surpassing the previous state-of-the-art on both tasks. It also maintains speed on par with the fastest ML-based approach and is up to 38x faster than hand-written disassemblers like IDA Pro. We release the code of XDA at https://github.com/CUMLSec/XDA.
翻訳日:2022-10-12 02:37:19 公開日:2020-11-19
# $f$-GAIL:ジェネレーティブ・逆模倣学習のための$f$-divergenceの学習

$f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2010.01207v2 )

ライセンス: Link先を確認
Xin Zhang, Yanhua Li, Ziming Zhang, Zhi-Li Zhang(参考訳) イミテーションラーニング(IL)は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。 差分を定量化するために、様々な模擬学習アルゴリズムが事前に決定された分岐を用いて提案されている。 専門家による一連のデモンストレーションが与えられたら、データ効率を向上して専門家のポリシーをより正確に回復できますか? そこで本研究では,$f$-divergence ファミリーから不一致尺度を自動学習し,専門家のような振る舞いを生成可能なポリシである $f$-gail を提案する。 ILベースラインと様々な事前定義されたばらつき対策を比較すると、$f$-GAILは6つの物理ベースの制御タスクにおいて、より高いデータ効率でより良いポリシーを学習する。

Imitation learning (IL) aims to learn a policy from expert demonstrations that minimizes the discrepancy between the learner and expert behaviors. Various imitation learning algorithms have been proposed with different pre-determined divergences to quantify the discrepancy. This naturally gives rise to the following question: Given a set of expert demonstrations, which divergence can recover the expert policy more accurately with higher data efficiency? In this work, we propose $f$-GAIL, a new generative adversarial imitation learning (GAIL) model, that automatically learns a discrepancy measure from the $f$-divergence family as well as a policy capable of producing expert-like behaviors. Compared with IL baselines with various predefined divergence measures, $f$-GAIL learns better policies with higher data efficiency in six physics-based control tasks.
翻訳日:2022-10-12 00:23:41 公開日:2020-11-19
# 不確実性を考慮したマルチモーダルセンシングによるアルツハイマー認知症の重症度予測

Uncertainty-Aware Multi-Modal Ensembling for Severity Prediction of Alzheimer's Dementia ( http://arxiv.org/abs/2010.01440v2 )

ライセンス: Link先を確認
Utkarsh Sarawgi, Wazeer Zulfikar, Rishab Khincha, Pattie Maes(参考訳) ニューラルネットワーク(nns)の信頼性は、医療のような安全クリティカルなアプリケーションにおいて不可欠であり、不確実性推定は、展開におけるnnsの信頼性を強調するために広く研究されている方法である。 本研究では,マルチモーダルセンシングによるアルツハイマー型認知症重症度予測のための不確実性認識促進手法を提案する。 音響的・認知的・言語的特徴にまたがる不確実性の伝播は、データの異義性に頑健なアンサンブルシステムを生み出す。 不確実性推定に基づく異なるモダリティを重み付けて,本手法がシステム全体のエントロピーを低減しつつ,最先端の手法を上回ることを示すために,主題に依存しないバランスデータセットであるbenchmark adressデータセットを実験した。 この仕事は公正で意識的なモデルを促進することを目的としています。 ソースコードはhttps://github.com/wazeerzulfikar/alzheimers-dementiaで入手できる。

Reliability in Neural Networks (NNs) is crucial in safety-critical applications like healthcare, and uncertainty estimation is a widely researched method to highlight the confidence of NNs in deployment. In this work, we propose an uncertainty-aware boosting technique for multi-modal ensembling to predict Alzheimer's Dementia Severity. The propagation of uncertainty across acoustic, cognitive, and linguistic features produces an ensemble system robust to heteroscedasticity in the data. Weighing the different modalities based on the uncertainty estimates, we experiment on the benchmark ADReSS dataset, a subject-independent and balanced dataset, to show that our method outperforms the state-of-the-art methods while also reducing the overall entropy of the system. This work aims to encourage fair and aware models. The source code is available at https://github.com/wazeerzulfikar/alzheimers-dementia
翻訳日:2022-10-11 11:45:13 公開日:2020-11-19
# ミューオン分光分析のための機械学習アプローチ

Machine Learning approach to muon spectroscopy analysis ( http://arxiv.org/abs/2010.04742v2 )

ライセンス: Link先を確認
T. Tula, G. M\"oller, J. Quintanilla, S. R. Giblin, A. D. Hillier, E. E. McCabe, S. Ramos, D. S. Barker, S. Gibson(参考訳) 近年、人工知能技術は物理科学の問題に適用することで非常に成功したことが証明されている。 ここでは、ミューオン分光実験からデータを分析するツールとして、主成分分析(PCA)と呼ばれる教師なし機械学習アルゴリズムを適用する。 具体的には,ML法を用いて各種材料の相転移を検出する。 ミューオン分光法における測定量は非対称性関数であり、試料の力学と組み合わせて固有磁場の分布に関する情報を保持することができる。 非対称性関数の形状の鋭い変化 - 異なる温度で測定すると、相転移を示す。 ミューオン分光データを処理する既存の方法は回帰分析に基づいているが、適切な適合関数を選択するには、プローブされた物質の基礎となる物理学に関する知識が必要である。 逆に主成分分析は非対称性曲線の小さな差に焦点をあて、研究されたサンプルについて事前の仮定なしに機能する。 本手法は, ミューオン分光実験における相転移の検出に有効であり, 特に実験物質の物理が完全には分かっていない場合, 電流解析の代替として有効であることがわかった。 さらに,本手法は,1つの材料に対してのみデータを取るか,異なる物理特性を持つ多くの材料に対して同時に解析を行うかに関わらず,多数の測定値に対して最適であることがわかった。

In recent years, Artificial Intelligence techniques have proved to be very successful when applied to problems in physical sciences. Here we apply an unsupervised Machine Learning (ML) algorithm called Principal Component Analysis (PCA) as a tool to analyse the data from muon spectroscopy experiments. Specifically, we apply the ML technique to detect phase transitions in various materials. The measured quantity in muon spectroscopy is an asymmetry function, which may hold information about the distribution of the intrinsic magnetic field in combination with the dynamics of the sample. Sharp changes of shape of asymmetry functions - measured at different temperatures - might indicate a phase transition. Existing methods of processing the muon spectroscopy data are based on regression analysis, but choosing the right fitting function requires knowledge about the underlying physics of the probed material. Conversely, Principal Component Analysis focuses on small differences in the asymmetry curves and works without any prior assumptions about the studied samples. We discovered that the PCA method works well in detecting phase transitions in muon spectroscopy experiments and can serve as an alternative to current analysis, especially if the physics of the studied material are not entirely known. Additionally, we found out that our ML technique seems to work best with large numbers of measurements, regardless of whether the algorithm takes data only for a single material or whether the analysis is performed simultaneously for many materials with different physical properties.
翻訳日:2022-10-09 06:06:15 公開日:2020-11-19
# バックドア透かしによるオープンソースのデータセット保護

Open-sourced Dataset Protection via Backdoor Watermarking ( http://arxiv.org/abs/2010.05821v3 )

ライセンス: Link先を確認
Yiming Li, Ziqi Zhang, Jiawang Bai, Baoyuan Wu, Yong Jiang, Shu-Tao Xia(参考訳) ディープラーニングの急速な発展は、研究者がアルゴリズムの有効性を簡単に検証できる高品質なオープンソースデータセット(例:ImageNet)のリリースから恩恵を受けている。 既存のほとんどすべてのオープンソースデータセットは、商業目的ではなく、学術目的や教育目的にのみ適用する必要があるが、それでもそれらを保護するよい方法はない。 本稿では,オープンソース画像分類データセットを,サードパーティモデルのトレーニングに使用するかどうかを検証することで保護する手法である \emph{backdoor embedded based dataset watermarking} を提案する。 具体的には,提案手法は, \emph{dataset watermarking} と \emph{dataset verification} の2つの主要なプロセスを含む。 私たちは、古典的な中毒ベースのバックドア攻撃(例えば$、badnets)をデータセットのウォーターマーキングに採用し、事前に定義されたターゲットクラスでラベル付けされたいくつかの良質なサンプルに特定のトリガー(例えば$、ローカルパッチ)を追加することで、いくつかの毒サンプルを生成します。 提案するバックドアに基づく透かし法に基づいて,良性サンプルの疑わしいサードパーティモデルとそれに対応する透かし付きサンプル(トリガー付き画像)が生成した後方確率に基づいて,データセット検証のための仮説テストを行った。 提案手法の有効性を検証するため,いくつかのベンチマークデータセットの実験を行った。

The rapid development of deep learning has benefited from the release of some high-quality open-sourced datasets ($e.g.$, ImageNet), which allows researchers to easily verify the effectiveness of their algorithms. Almost all existing open-sourced datasets require that they can only be adopted for academic or educational purposes rather than commercial purposes, whereas there is still no good way to protect them. In this paper, we propose a \emph{backdoor embedding based dataset watermarking} method to protect an open-sourced image-classification dataset by verifying whether it is used for training a third-party model. Specifically, the proposed method contains two main processes, including \emph{dataset watermarking} and \emph{dataset verification}. We adopt classical poisoning-based backdoor attacks ($e.g.$, BadNets) for dataset watermarking, ie, generating some poisoned samples by adding a certain trigger ($e.g.$, a local patch) onto some benign samples, labeled with a pre-defined target class. Based on the proposed backdoor-based watermarking, we use a hypothesis test guided method for dataset verification based on the posterior probability generated by the suspicious third-party model of the benign samples and their correspondingly watermarked samples ($i.e.$, images with trigger) on the target class. Experiments on some benchmark datasets are conducted, which verify the effectiveness of the proposed method.
翻訳日:2022-10-08 05:30:08 公開日:2020-11-19
# 適応グラフ追跡に基づくトラックレット予測

Tracklets Predicting Based Adaptive Graph Tracking ( http://arxiv.org/abs/2010.09015v3 )

ライセンス: Link先を確認
Chaobing Shan, Chunbo Wei, Bing Deng, Jianqiang Huang, Xian-Sheng Hua, Xiaoliang Cheng, Kewei Liang(参考訳) 既存の追跡手法のほとんどは、特徴コサイン距離とボックスオーバーラップを線形に組み合わせて検出されたボックスをトラックレットにリンクする。 しかし、2つの異なるフレームの物体の矛盾した特徴の問題はまだ残っている。 また、特徴を抽出する際には、外観情報のみを利用するため、位置関係もトラックレットの情報も考慮しない。 本稿では,マルチオブジェクト追跡のための精度とエンドツーエンドの学習フレームワーク,すなわち \textbf{tpagt} を提案する。 動作予測に基づいて現在のフレームのトラックレットの特徴を再抽出し、特徴の一貫性を欠く問題を解決する鍵となる。 tpagtの適応グラフニューラルネットワークは、位置、外観、歴史的情報を融合するために採用され、異なるオブジェクトを識別する上で重要な役割を果たす。 学習段階では, バランスの取れないサンプルを克服するために, バランスの取れたmse損失を提案する。 実験の結果,本手法は最先端の性能に到達した。 MOT16チャレンジでは76.5 % MOTA、MOT17チャレンジでは76.2 % MOTAを達成している。

Most of the existing tracking methods link the detected boxes to the tracklets using a linear combination of feature cosine distances and box overlap. But the problem of inconsistent features of an object in two different frames still exists. In addition, when extracting features, only appearance information is utilized, neither the location relationship nor the information of the tracklets is considered. We present an accurate and end-to-end learning framework for multi-object tracking, namely \textbf{TPAGT}. It re-extracts the features of the tracklets in the current frame based on motion predicting, which is the key to solve the problem of features inconsistent. The adaptive graph neural network in TPAGT is adopted to fuse locations, appearance, and historical information, and plays an important role in distinguishing different objects. In the training phase, we propose the balanced MSE LOSS to successfully overcome the unbalanced samples. Experiments show that our method reaches state-of-the-art performance. It achieves 76.5\% MOTA on the MOT16 challenge and 76.2\% MOTA on the MOT17 challenge.
翻訳日:2022-10-06 04:25:07 公開日:2020-11-19
# min-max最適化とゲームのための適応的外勾配法

Adaptive extra-gradient methods for min-max optimization and games ( http://arxiv.org/abs/2010.12100v2 )

ライセンス: Link先を確認
Kimon Antonakopoulos and E. Veronica Belmega and Panayotis Mertikopoulos(参考訳) 本稿では,前回観測した勾配データの幾何を自動的に活用し,後回からより有意義な超勾配ステップを行う,min-max最適化アルゴリズムの新たなファミリーを提案する。 この適応機構により、オプティマイザによる事前チューニングを必要とせず、問題の滑らかさを自動で検出する。 その結果、アルゴリズムは次数-最適収束率を同時に達成し、すなわち、滑らかな問題における$\mathcal{o}(1/\varepsilon)$の反復と、非スムース問題における$\mathcal{o}(1/\varepsilon^2)$の反復で$\varepsilon$-optimalの解に収束する。 重要なことに、これらの保証は、典型的には文献で仮定される標準有界性やリプシッツ連続性条件を一切必要とせず、特に特異点を持つ問題(資源割り当て問題など)にも適用される。 この適応は、フィンスラー計量に基づく幾何学的装置と、手前の方法の鋭い収束率を導出できる適切な選択されたミラープロックステンプレートを使用することによって達成される。

We present a new family of min-max optimization algorithms that automatically exploit the geometry of the gradient data observed at earlier iterations to perform more informative extra-gradient steps in later ones. Thanks to this adaptation mechanism, the proposed method automatically detects whether the problem is smooth or not, without requiring any prior tuning by the optimizer. As a result, the algorithm simultaneously achieves order-optimal convergence rates, i.e., it converges to an $\varepsilon$-optimal solution within $\mathcal{O}(1/\varepsilon)$ iterations in smooth problems, and within $\mathcal{O}(1/\varepsilon^2)$ iterations in non-smooth ones. Importantly, these guarantees do not require any of the standard boundedness or Lipschitz continuity conditions that are typically assumed in the literature; in particular, they apply even to problems with singularities (such as resource allocation problems and the like). This adaptation is achieved through the use of a geometric apparatus based on Finsler metrics and a suitably chosen mirror-prox template that allows us to derive sharp convergence rates for the methods at hand.
翻訳日:2022-10-04 08:43:06 公開日:2020-11-19
# wnut-2020タスク1概要:wet labプロトコルからのエンティティとリレーションの抽出

WNUT-2020 Task 1 Overview: Extracting Entities and Relations from Wet Lab Protocols ( http://arxiv.org/abs/2010.14576v3 )

ライセンス: Link先を確認
Jeniya Tabassum, Sydney Lee, Wei Xu, Alan Ritter(参考訳) 本稿では,WNUT 2020におけるウェットラボ情報抽出作業の結果について述べる。 このタスクは、(1)名前付きエンティティ認識(ner)タスク13名、(2)関係抽出(re)タスク2名という2つのサブタスクで構成されていた。 本稿では,タスク,データアノテーションプロセス,コーパス統計について概説し,各サブタスクに対応するシステムの概要について述べる。

This paper presents the results of the wet lab information extraction task at WNUT 2020. This task consisted of two sub tasks: (1) a Named Entity Recognition (NER) task with 13 participants and (2) a Relation Extraction (RE) task with 2 participants. We outline the task, data annotation process, corpus statistics, and provide a high-level overview of the participating systems for each sub task.
翻訳日:2022-10-02 12:07:27 公開日:2020-11-19
# WMT20用Volctrans機械翻訳システム

The Volctrans Machine Translation System for WMT20 ( http://arxiv.org/abs/2010.14806v2 )

ライセンス: Link先を確認
Liwei Wu, Xiao Pan, Zehui Lin, Yaoming Zhu, Mingxuan Wang, Lei Li(参考訳) 本稿では,WMT20共有ニュース翻訳タスクにおけるVolcTransシステムについて述べる。 私たちは8つの翻訳の方向に参加した。 我々の基本的なシステムはトランスフォーマーに基づいており、いくつかの変種(より広い変圧器、より深い変圧器、動的畳み込み)がある。 最終システムは、テキスト前処理、データ選択、合成データ生成、高度なモデルアンサンブル、多言語事前学習を含む。

This paper describes our VolcTrans system on WMT20 shared news translation task. We participated in 8 translation directions. Our basic systems are based on Transformer, with several variants (wider or deeper Transformers, dynamic convolutions). The final system includes text pre-process, data selection, synthetic data generation, advanced model ensemble, and multilingual pre-training.
翻訳日:2022-10-02 05:21:26 公開日:2020-11-19
# 強化学習と繰り返しニューラルネットワークによる擬似乱数生成

Pseudo Random Number Generation through Reinforcement Learning and Recurrent Neural Networks ( http://arxiv.org/abs/2011.02909v2 )

ライセンス: Link先を確認
Luca Pasqualini and Maurizio Parton(参考訳) Pseudo-Random Number Generator (PRNG) は、乱数の性質を近似する数列を生成するアルゴリズムである。 これらの数字は中級暗号やソフトウェアアプリケーションで広く使われている。 テストスイートは、生成されたシーケンスの統計特性をチェックすることにより、PRNGの品質を評価するために使用される。 これらの配列は一般にビット単位で表される。 本稿では,全状態が生成されたシーケンスの周期であり,各時間ステップにおける観察がその状態に追加されたビット列である部分可観測マルコフ決定過程(mdp)を解決するためのポリシーを学習することにより,prngを生成するタスクに対する強化学習(rl)アプローチを提案する。 我々は、LSTMメモリにMDP状態の隠蔽部分の重要な特徴を抽出することで、異なる時間ステップにおける観測間の時間的関係をモデル化するために、Long-Short Term Memory (LSTM)アーキテクチャを使用する。 PRNGを部分的に観測可能なMDPとLSTMアーキテクチャでモデル化することは、以前の研究で導入された完全に観測可能なフィードフォワードRLアプローチの結果を大幅に改善することを示します。

A Pseudo-Random Number Generator (PRNG) is any algorithm generating a sequence of numbers approximating properties of random numbers. These numbers are widely employed in mid-level cryptography and in software applications. Test suites are used to evaluate PRNGs quality by checking statistical properties of the generated sequences. These sequences are commonly represented bit by bit. This paper proposes a Reinforcement Learning (RL) approach to the task of generating PRNGs from scratch by learning a policy to solve a partially observable Markov Decision Process (MDP), where the full state is the period of the generated sequence and the observation at each time step is the last sequence of bits appended to such state. We use a Long-Short Term Memory (LSTM) architecture to model the temporal relationship between observations at different time steps, by tasking the LSTM memory with the extraction of significant features of the hidden portion of the MDP's states. We show that modeling a PRNG with a partially observable MDP and a LSTM architecture largely improves the results of the fully observable feedforward RL approach introduced in previous work.
翻訳日:2022-10-01 04:38:46 公開日:2020-11-19
# openstreetmap と知識グラフのリンク -- スキーマに依存しない地理情報のためのリンク発見

Linking OpenStreetMap with Knowledge Graphs -- Link Discovery for Schema-Agnostic Volunteered Geographic Information ( http://arxiv.org/abs/2011.05841v3 )

ライセンス: Link先を確認
Nicolas Tempelmeier, Elena Demidova(参考訳) ウィキデータやDBpediaのような一般的な知識グラフで捉えた地理的実体の表現はしばしば不完全である。 openstreetmap (osm) は、これらの表現を補完する可能性の高いオープンでボランティア的な地理情報の豊富なソースである。 しかし、知識グラフエンティティとOSMノード間のアイデンティティリンクは依然として稀である。 これらの設定におけるリンク発見の問題は、厳密なスキーマの欠如とosmにおけるユーザ定義ノード表現の不均一性のため、特に困難である。 本稿では,OSMノードと知識グラフ内の地理的エンティティ間のIDリンクを予測する新しいリンク発見手法であるOSM2KGを提案する。 OSM2KGアプローチのコアは、埋め込みにおけるセマンティックノードの類似性をキャプチャする、新しい潜在的でコンパクトなOSMノード表現である。 OSM2KGはこの潜在表現を採用し、リンク予測のための教師付きモデルをトレーニングし、トレーニング用のOSMと知識グラフの間の既存のリンクを利用する。 いくつかのOSMデータセットとWikidataおよびDBpediaナレッジグラフを用いて実験を行い、OSM2KGがアイデンティティリンクを確実に発見できることを実証した。 OSM2KGは、Wikidataで92.05%、DBpediaで94.17%、Wikidataで21.82ポイントのスコアアップを達成した。

Representations of geographic entities captured in popular knowledge graphs such as Wikidata and DBpedia are often incomplete. OpenStreetMap (OSM) is a rich source of openly available, volunteered geographic information that has a high potential to complement these representations. However, identity links between the knowledge graph entities and OSM nodes are still rare. The problem of link discovery in these settings is particularly challenging due to the lack of a strict schema and heterogeneity of the user-defined node representations in OSM. In this article, we propose OSM2KG - a novel link discovery approach to predict identity links between OSM nodes and geographic entities in a knowledge graph. The core of the OSM2KG approach is a novel latent, compact representation of OSM nodes that captures semantic node similarity in an embedding. OSM2KG adopts this latent representation to train a supervised model for link prediction and utilises existing links between OSM and knowledge graphs for training. Our experiments conducted on several OSM datasets, as well as the Wikidata and DBpedia knowledge graphs, demonstrate that OSM2KG can reliably discover identity links. OSM2KG achieves an F1 score of 92.05% on Wikidata and of 94.17% on DBpedia on average, which corresponds to a 21.82 percentage points increase in F1 score on Wikidata compared to the best performing baselines.
翻訳日:2022-09-29 05:43:56 公開日:2020-11-19
# 模擬捜索救助作業における人間戦略の予測

Predicting Human Strategies in Simulated Search and Rescue Task ( http://arxiv.org/abs/2011.07656v2 )

ライセンス: Link先を確認
Vidhi Jain, Rohit Jena, Huao Li, Tejus Gupta, Dana Hughes, Michael Lewis, Katia Sycara(参考訳) 捜索救助のシナリオでは、救助者は環境や探査戦略について異なる知識を持っている可能性がある。 救助者の心の中に何があるかを理解することで、観察者エージェントは、彼らのタスクを効率的に遂行するのに役立つ重要な情報を積極的に支援することができる。 そこで本研究では, 追跡観測に基づく救助者のモデルを構築し, その戦略を予測することを提案する。 救助者の心をモデル化する取り組みとして,マインクラフトにおける人間参加による簡単な探索・救助タスクから始める。 我々は,トリアージ戦略と救助者の次の位置を予測するために,ニューラルシーケンスモデルを定式化する。 ニューラルネットワークはデータ駆動なので、トレーニングのための多様な人工的な「偽人間」エージェントセットを設計し、人間レスキューの軌道データでテストします。 エージェントを評価するために,得られたすべての背景知識を明示的に組み込んだエビデンス蓄積法と比較し,期待される性能に対する上限を与える。 さらに,オブザーバ/予測者が人間である実験を行う。 我々は,人間の観測者と比較して計算手法の予測精度の点で結果を示す。

In a search and rescue scenario, rescuers may have different knowledge of the environment and strategies for exploration. Understanding what is inside a rescuer's mind will enable an observer agent to proactively assist them with critical information that can help them perform their task efficiently. To this end, we propose to build models of the rescuers based on their trajectory observations to predict their strategies. In our efforts to model the rescuer's mind, we begin with a simple simulated search and rescue task in Minecraft with human participants. We formulate neural sequence models to predict the triage strategy and the next location of the rescuer. As the neural networks are data-driven, we design a diverse set of artificial "faux human" agents for training, to test them with limited human rescuer trajectory data. To evaluate the agents, we compare it to an evidence accumulation method that explicitly incorporates all available background knowledge and provides an intended upper bound for the expected performance. Further, we perform experiments where the observer/predictor is human. We show results in terms of prediction accuracy of our computational approaches as compared with that of human observers.
翻訳日:2022-09-25 07:54:06 公開日:2020-11-19
# 深層学習による微粒環境のマルチクラス酵母セグメンテーション

Multiclass Yeast Segmentation in Microstructured Environments with Deep Learning ( http://arxiv.org/abs/2011.08062v2 )

ライセンス: Link先を確認
Tim Prangemeier, Christian Wildner, Andr\'e O. Fran\c{c}ani, Christoph Reich, Heinz Koeppl(参考訳) 細胞分割は顕微鏡データから定量的な単細胞情報を抽出する上で大きなボトルネックである。 この課題は、マイクロ構造化環境の設定において誇張されている。 ディープラーニングアプローチは一般的な細胞セグメンテーションタスクに有用であることが証明されているが、酵母-ミクロ構造設定のための既存のセグメンテーションツールは従来の機械学習アプローチに依存している。 本稿では,各酵母細胞のマルチクラスセグメンテーションを訓練した畳み込みニューラルネットワークについて述べる。 トレーニング、検証、テストのために記録されたデータセットの概要と典型的なユースケースについて説明する。 本手法は, 典型的な合成生物学的応用を念頭に, 酵母の微構造環境における分節化への貢献を示す。 モデルが頑健なセグメンテーションの結果を達成し、従来の最先端の精度と速度を両立させる。 高速かつ正確なセグメンテーションの組み合わせは、後部データ処理に有用であるだけでなく、数千の閉じ込められたセルのオンラインモニタリングや、画像処理の観点からクローズドループ最適実験設計を可能にする。

Cell segmentation is a major bottleneck in extracting quantitative single-cell information from microscopy data. The challenge is exasperated in the setting of microstructured environments. While deep learning approaches have proven useful for general cell segmentation tasks, existing segmentation tools for the yeast-microstructure setting rely on traditional machine learning approaches. Here we present convolutional neural networks trained for multiclass segmenting of individual yeast cells and discerning these from cell-similar microstructures. We give an overview of the datasets recorded for training, validating and testing the networks, as well as a typical use-case. We showcase the method's contribution to segmenting yeast in microstructured environments with a typical synthetic biology application in mind. The models achieve robust segmentation results, outperforming the previous state-of-the-art in both accuracy and speed. The combination of fast and accurate segmentation is not only beneficial for a posteriori data processing, it also makes online monitoring of thousands of trapped cells or closed-loop optimal experimental design feasible from an image processing perspective.
翻訳日:2022-09-25 01:27:45 公開日:2020-11-19
# マイクロプロセッサ性能バグの自動検出

Automatic Microprocessor Performance Bug Detection ( http://arxiv.org/abs/2011.08781v2 )

ライセンス: Link先を確認
Erick Carvajal Barboza and Sara Jacob and Mahesh Ketkar and Michael Kishinevsky and Paul Gratz and Jiang Hu(参考訳) プロセス設計の検証とデバッグは困難で複雑な作業であり、設計プロセスのライオンのシェアを消費します。 特に新しいマイクロアーキテクチャでは、その機能よりもプロセッサの性能に影響する設計バグをキャッチするのは特に難しい。 これは機能的なバグとは異なり、複雑な長期実行ベンチマークにおける新しいマイクロアーキテクチャの正しいプロセッサ性能が決定論的に知られていないためである。 したがって、新しいマイクロアーキテクチャのベンチマークを行う場合、新しいマイクロアーキテクチャのパフォーマンスが前世代の性能を上回る場合、設計に顕著な性能低下があるにもかかわらず、その設計が正しいと仮定することができる。 本研究では,マイクロプロセッサの性能欠陥を検出するための2段階の機械学習手法を提案する。 その結果,研究対象のアプリケーションの平均IPC影響が1%以上であるマイクロプロセッサコア性能バグの91.5%を,偽陽性ゼロのバグフリー設計と比較して検出した。 メモリシステムのバグを評価した結果,偽陽性ゼロで100%検出できることがわかった。 さらに、検出は自動で、パフォーマンスエンジニアの時間はほとんど必要ありません。

Processor design validation and debug is a difficult and complex task, which consumes the lion's share of the design process. Design bugs that affect processor performance rather than its functionality are especially difficult to catch, particularly in new microarchitectures. This is because, unlike functional bugs, the correct processor performance of new microarchitectures on complex, long-running benchmarks is typically not deterministically known. Thus, when performance benchmarking new microarchitectures, performance teams may assume that the design is correct when the performance of the new microarchitecture exceeds that of the previous generation, despite significant performance regressions existing in the design. In this work, we present a two-stage, machine learning-based methodology that is able to detect the existence of performance bugs in microprocessors. Our results show that our best technique detects 91.5% of microprocessor core performance bugs whose average IPC impact across the studied applications is greater than 1% versus a bug-free design with zero false positives. When evaluated on memory system bugs, our technique achieves 100% detection with zero false positives. Moreover, the detection is automatic, requiring very little performance engineer time.
翻訳日:2022-09-24 18:03:42 公開日:2020-11-19
# 車両エッジコンピューティングとネットワークにおけるコンテンツキャッシングのための深層強化学習と許可ブロックチェーン

Deep Reinforcement Learning and Permissioned Blockchain for Content Caching in Vehicular Edge Computing and Networks ( http://arxiv.org/abs/2011.08449v2 )

ライセンス: Link先を確認
Yueyue Dai, Du Xu, Ke Zhang, Sabita Maharjan (Senior Member, IEEE) and Yan Zhang (Fellow, IEEE)(参考訳) Vehicular Edge Computing(VEC)は、大量のデータとマルチメディアコンテンツを車両に近接してキャッシュできるようにする、有望なパラダイムである。 しかし、車両のモビリティと動的無線チャネル条件は、最適なコンテンツキャッシングポリシーを設計することを困難にしている。 さらに、非常に機密性の高い個人情報により、車両は信頼できないキャッシュプロバイダにコンテンツをキャッシュする意思がないかもしれない。 深層強化学習(drl)は,高次元および時間的特徴によって問題を解決する新たな手法である。 permission blockchainは、セキュアで分散化されたピアツーピアトランザクション環境を確立することができる。 本稿では、DRLとブロックチェーンを車載ネットワークに統合し、インテリジェントでセキュアなコンテンツキャッシングを行う。 まず、車両がコンテンツキャッシングを行い、基地局がパーミッション化されたブロックチェーンを維持する、分散型コンテンツキャッシングフレームワークを提案する。 そこで我々は,モビリティを考慮した最適なコンテンツキャッシュ方式を設計するために,高度なDRLアプローチを利用する。 最後に,ブロック検証プロセスの高速化を目的としたブロック検証手法であるProof-of-Utility (PoU)を提案する。 セキュリティ分析の結果,提案するブロックチェーンによるコンテンツキャッシングによって,セキュリティとプライバシ保護が実現可能であることが分かりました。 Uberの実際のデータセットに基づく数値結果は、DRLにインスパイアされたコンテンツキャッシング方式が2つのベンチマークポリシーを大幅に上回っていることを示している。

Vehicular Edge Computing (VEC) is a promising paradigm to enable huge amount of data and multimedia content to be cached in proximity to vehicles. However, high mobility of vehicles and dynamic wireless channel condition make it challenge to design an optimal content caching policy. Further, with much sensitive personal information, vehicles may be not willing to caching their contents to an untrusted caching provider. Deep Reinforcement Learning (DRL) is an emerging technique to solve the problem with high-dimensional and time-varying features. Permission blockchain is able to establish a secure and decentralized peer-to-peer transaction environment. In this paper, we integrate DRL and permissioned blockchain into vehicular networks for intelligent and secure content caching. We first propose a blockchain empowered distributed content caching framework where vehicles perform content caching and base stations maintain the permissioned blockchain. Then, we exploit the advanced DRL approach to design an optimal content caching scheme with taking mobility into account. Finally, we propose a new block verifier selection method, Proof-of-Utility (PoU), to accelerate block verification process. Security analysis shows that our proposed blockchain empowered content caching can achieve security and privacy protection. Numerical results based on a real dataset from Uber indicate that the DRL-inspired content caching scheme significantly outperforms two benchmark policies.
翻訳日:2022-09-24 17:40:03 公開日:2020-11-19
# 大規模事前学習によるテキスト分類のためのニューラル半教師付き学習

Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining ( http://arxiv.org/abs/2011.08626v2 )

ライセンス: Link先を確認
Zijun Sun, Chun Fan, Xiaofei Sun, Yuxian Meng, Fei Wu and Jiwei Li(参考訳) 大規模言語モデル(LM)事前学習の文脈では、どのようにしてUを最大限に活用できるかは理解されていない。 ドメイン内のLMプリトレーニングや擬似ラベル生成に使用するべきか? 擬似ラベルベースの半教師付きモデルを実際にどのように実装すべきか? 異なるサイズのD、異なるサイズのUなどに関するパフォーマンスに、いかに異なる半教師付き戦略が影響するか。 本稿では,大規模LM事前学習におけるテキスト分類作業における半教師あり学習の包括的研究を行う。 Our studies shed important lights on the behavior of semi-supervised learning methods: (1) with the presence of in-domain pretraining LM on U, open-domain LM pretraining is unnecessary; (2) both the in-domain pretraining strategy and the pseudo-label based strategy introduce significant performance boosts, with the former performing better with larger U, the latter performing better with smaller U, and the combination leading to the largest performance boost; (3) self-training (pretraining first on pseudo labels D' and then fine-tuning on D) yields better performances when D is small, while joint training on the combination of pseudo labels D' and the original dataset D yields better performances when D is large. 半教師付き学習戦略を用いることで、IMDBデータセット上で50のトレーニングデータポイントしか持たず、約93.8%の精度で、完全なIMDBデータセットで96.6%の競争性能が得られる。 我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。

The goal of semi-supervised learning is to utilize the unlabeled, in-domain dataset U to improve models trained on the labeled dataset D. Under the context of large-scale language-model (LM) pretraining, how we can make the best use of U is poorly understood: is semi-supervised learning still beneficial with the presence of large-scale pretraining? should U be used for in-domain LM pretraining or pseudo-label generation? how should the pseudo-label based semi-supervised model be actually implemented? how different semi-supervised strategies affect performances regarding D of different sizes, U of different sizes, etc. In this paper, we conduct comprehensive studies on semi-supervised learning in the task of text classification under the context of large-scale LM pretraining. Our studies shed important lights on the behavior of semi-supervised learning methods: (1) with the presence of in-domain pretraining LM on U, open-domain LM pretraining is unnecessary; (2) both the in-domain pretraining strategy and the pseudo-label based strategy introduce significant performance boosts, with the former performing better with larger U, the latter performing better with smaller U, and the combination leading to the largest performance boost; (3) self-training (pretraining first on pseudo labels D' and then fine-tuning on D) yields better performances when D is small, while joint training on the combination of pseudo labels D' and the original dataset D yields better performances when D is large. Using semi-supervised learning strategies, we are able to achieve a performance of around 93.8% accuracy with only 50 training data points on the IMDB dataset, and a competitive performance of 96.6% with the full IMDB dataset. Our work marks an initial step in understanding the behavior of semi-supervised learning models under the context of large-scale pretraining.
翻訳日:2022-09-24 16:39:39 公開日:2020-11-19
# オンラインのパージングは、後悔をなくした

Online Paging with a Vanishing Regret ( http://arxiv.org/abs/2011.09439v2 )

ライセンス: Link先を確認
Yuval Emek, Shay Kutten, Yangguang Shi(参考訳) 本稿では,オンラインアルゴリズムが複数の予測器にアクセスでき,ページ到着時刻の予測列を生成するオンラインページング問題の変種について考察する。 予測器は時折予測誤差を発生させ、そのうちの少なくとも1つが予測誤差のサブ線形数を生成すると仮定する。 この仮定は、最適オフラインアルゴリズムに対する時間平均後悔が無限大になる傾向にあるランダム化オンラインアルゴリズムの設計に十分であることを示す。 これは、全情報アクセスモデル、各ラウンドにおいてオンラインアルゴリズムがすべての予測者の予測を受け取り、各ラウンドにおいてオンラインアルゴリズムが単一の予測子をクエリするバンディットアクセスモデルの両方に対して(異なる後悔の範囲で)保持される。 不正確な予測を利用するオンラインアルゴリズムは、ここ数年で関心が高まりつつあるが、私たちの知る限りでは、このトピックを、無制限な要求シーケンスを持つオンライン問題に対する複数の予測器の文脈で研究する最初の論文である。 さらに、私たちの知る限りでは、この論文は、合理的な仮定の下で古典的なオンライン問題に対する後悔をなくし、オンラインアルゴリズムを目標とする(そして達成する)最初の論文でもある。

This paper considers a variant of the online paging problem, where the online algorithm has access to multiple predictors, each producing a sequence of predictions for the page arrival times. The predictors may have occasional prediction errors and it is assumed that at least one of them makes a sublinear number of prediction errors in total. Our main result states that this assumption suffices for the design of a randomized online algorithm whose time-average regret with respect to the optimal offline algorithm tends to zero as the time tends to infinity. This holds (with different regret bounds) for both the full information access model, where in each round, the online algorithm gets the predictions of all predictors, and the bandit access model, where in each round, the online algorithm queries a single predictor. While online algorithms that exploit inaccurate predictions have been a topic of growing interest in the last few years, to the best of our knowledge, this is the first paper that studies this topic in the context of multiple predictors for an online problem with unbounded request sequences. Moreover, to the best of our knowledge, this is also the first paper that aims for (and achieves) online algorithms with a vanishing regret for a classic online problem under reasonable assumptions.
翻訳日:2022-09-24 05:13:30 公開日:2020-11-19
# システム障害のための説明可能なAI: 障害復旧における人的支援を改善する説明を生成する

Explainable AI for System Failures: Generating Explanations that Improve Human Assistance in Fault Recovery ( http://arxiv.org/abs/2011.09407v2 )

ライセンス: Link先を確認
Devleena Das, Siddhartha Banerjee, Sonia Chernova(参考訳) インテリジェントシステムの能力の増大に伴い、人工知能(AI)とロボットの日常生活への統合が増加している。 しかし、そのような複雑な人間環境で対話する場合、ロボットのような知的システムの故障は避けられず、ユーザからの回復支援を必要とする。 本研究では,AIエージェントの計画実行中に発生する障害の自然言語による自動説明を開発する。 これらの説明は、専門家でないユーザーが回復支援を提供するために異なる障害点を理解するのを助けることに焦点を当てて開発されている。 具体的には,非専門家ユーザがシステム障害の根本原因を理解し,適切な障害復旧を選択するための,コンテキストベースの情報型を導入する。 さらに,既存のシーケンス・ツー・シーケンス・方法論を拡張して,文脈に基づく説明を自動的に生成する。 そうすることで、さまざまな障害タイプと障害シナリオの両方に対して、コンテキストベースの説明を一般化するモデルの開発が可能になります。

With the growing capabilities of intelligent systems, the integration of artificial intelligence (AI) and robots in everyday life is increasing. However, when interacting in such complex human environments, the failure of intelligent systems, such as robots, can be inevitable, requiring recovery assistance from users. In this work, we develop automated, natural language explanations for failures encountered during an AI agents' plan execution. These explanations are developed with a focus of helping non-expert users understand different point of failures to better provide recovery assistance. Specifically, we introduce a context-based information type for explanations that can both help non-expert users understand the underlying cause of a system failure, and select proper failure recoveries. Additionally, we extend an existing sequence-to-sequence methodology to automatically generate our context-based explanations. By doing so, we are able develop a model that can generalize context-based explanations over both different failure types and failure scenarios.
翻訳日:2022-09-24 04:46:42 公開日:2020-11-19
# 自己学習ネットワーク

Self-Gradient Networks ( http://arxiv.org/abs/2011.09364v2 )

ライセンス: Link先を確認
Hossein Aboutalebi, Mohammad Javad Shafiee Alexander Wong(参考訳) ディープニューラルネットワークを騙すための敵意攻撃の驚くべき効果は、安全とセキュリティクリティカルな領域でディープラーニングを広く採用する上で、大きなハードルとなる。 ディープニューラルネットワークの敵対的脆弱性の発見以来、敵防衛メカニズムが提案されているが、この問題を完全に理解し対処するには長い道のりがある。 本研究では,敵対的攻撃が極めて効果的である理由の一つとして,ニューラルネットワークの勾配流を暗黙的に突破し活用する能力がある,という仮説を立てる。 このような勾配流を生来利用する能力は、このような攻撃に対する防御を極めて困難にする。 この仮説に動機づけられた我々は、深層ニューラルネットワークアーキテクチャがトレーニング中に自身の勾配流に明示的に入り込むことができれば、防御能力を著しく向上させることができると論じる。 この事実に触発されて、我々は、敵対的摂動に対してより強固になるように設計された新しいディープニューラルネットワークアーキテクチャである自己勾配ネットワークの概念を導入する。 勾配フロー情報は、標準的なトレーニングプロセスで達成できる以上の摂動安定性を達成するために、自己勾配ネットワーク内で活用される。 提案する自己段階的ネットワークの挙動をよりよく把握するために理論的解析を行い、この追加の勾配流情報を活用する効果を示す。 提案する自己勾配型ネットワークアーキテクチャは,より効率的かつ効果的な対向トレーニングを可能にし,対向ロバストなソリューションへの収束を少なくとも10倍高速化する。 CIFAR10データセットをPGDとCWの摂動下で10%改善し、最先端の対角学習戦略と比較した場合の自己段階的ネットワークの有効性を示した。

The incredible effectiveness of adversarial attacks on fooling deep neural networks poses a tremendous hurdle in the widespread adoption of deep learning in safety and security-critical domains. While adversarial defense mechanisms have been proposed since the discovery of the adversarial vulnerability issue of deep neural networks, there is a long path to fully understand and address this issue. In this study, we hypothesize that part of the reason for the incredible effectiveness of adversarial attacks is their ability to implicitly tap into and exploit the gradient flow of a deep neural network. This innate ability to exploit gradient flow makes defending against such attacks quite challenging. Motivated by this hypothesis we argue that if a deep neural network architecture can explicitly tap into its own gradient flow during the training, it can boost its defense capability significantly. Inspired by this fact, we introduce the concept of self-gradient networks, a novel deep neural network architecture designed to be more robust against adversarial perturbations. Gradient flow information is leveraged within self-gradient networks to achieve greater perturbation stability beyond what can be achieved in the standard training process. We conduct a theoretical analysis to gain better insights into the behaviour of the proposed self-gradient networks to illustrate the efficacy of leverage this additional gradient flow information. The proposed self-gradient network architecture enables much more efficient and effective adversarial training, leading to faster convergence towards an adversarially robust solution by at least 10X. Experimental results demonstrate the effectiveness of self-gradient networks when compared with state-of-the-art adversarial learning strategies, with 10% improvement on the CIFAR10 dataset under PGD and CW adversarial perturbations.
翻訳日:2022-09-24 03:35:41 公開日:2020-11-19
# 最適性プロファイルのマッチングによる逆強化学習

Inverse Reinforcement Learning via Matching of Optimality Profiles ( http://arxiv.org/abs/2011.09264v2 )

ライセンス: Link先を確認
Luis Haug, Ivan Ovinnikov, Eugene Bykovets(参考訳) 逆強化学習(IRL)の目的は、タスクを実行するエージェントの振る舞いを説明する報酬関数を推論することである。 ほとんどのアプローチが示している仮定は、その行動がほぼ最適であるということである。 しかし、現実のシナリオの多くでは、真の最適動作の例は少なく、より簡単に得られる準最適または不均質な性能のデモンストレーションのセットを効果的に活用することが望ましい。 本稿では,このようなデモンストレーションから報酬関数を,デモ中に収集した報酬の分布(あるいはより一般的には,累積割引後の報酬の分布)という形で,弱い監視信号とともに学習するアルゴリズムを提案する。 我々は、このような分布を最適性プロファイル(Optimity profiles)と呼び、例えば、人間の専門家の見解を反映するであろうデモの最適性の度合いの要約と見なしている。 最適性プロファイルと少量の追加監督を与えられたアルゴリズムは、ニューラルネットワークとしてモデル化された報酬関数に適合し、対応する誘導分布と最適性プロファイルとのワッサーシュタイン距離を本質的に最小化する。 本手法は,報奨機能に適合するデモンストレーションを最適化するために訓練されたポリシーが,報奨機能を学習できることを示す。

The goal of inverse reinforcement learning (IRL) is to infer a reward function that explains the behavior of an agent performing a task. The assumption that most approaches make is that the demonstrated behavior is near-optimal. In many real-world scenarios, however, examples of truly optimal behavior are scarce, and it is desirable to effectively leverage sets of demonstrations of suboptimal or heterogeneous performance, which are easier to obtain. We propose an algorithm that learns a reward function from such demonstrations together with a weak supervision signal in the form of a distribution over rewards collected during the demonstrations (or, more generally, a distribution over cumulative discounted future rewards). We view such distributions, which we also refer to as optimality profiles, as summaries of the degree of optimality of the demonstrations that may, for example, reflect the opinion of a human expert. Given an optimality profile and a small amount of additional supervision, our algorithm fits a reward function, modeled as a neural network, by essentially minimizing the Wasserstein distance between the corresponding induced distribution and the optimality profile. We show that our method is capable of learning reward functions such that policies trained to optimize them outperform the demonstrations used for fitting the reward functions.
翻訳日:2022-09-24 03:28:10 公開日:2020-11-19
# 自己教師付き学習と一般化による正確な注水能力を得るロボット

Robot Gaining Accurate Pouring Skills through Self-Supervised Learning and Generalization ( http://arxiv.org/abs/2011.10150v1 )

ライセンス: Link先を確認
Yongqiang Huang, Juan Wilches, Yu Sun(参考訳) 注ぐ作業は、人間の日常生活で最も一般的に実行される作業の一つであり、注ぐ材料の種類や源の形状、容器の受け取りなど、複数の要因によって精度が影響を受ける。 そこで本研究では,制御されていない実験から注水ダイナミクス,注水動作,成果を学習し,正確な注水を行うセルフ教師付き学習手法を提案する。 学習された注水モデルは、不慣れな注水カップの使用など、異なる条件下での自己監督練習によって一般化される。 提案手法をまず,トレーニングセットから1つのコンテナと,新しいが類似した4つのコンテナを用いて評価した。 提案手法は、通常の人間よりも5杯すべてに類似した注水速度で注水精度を向上した。 精度と注ぐスピードは、最先端の作業よりも優れています。 また,訓練セットのものとは大きく異なる非適応コンテナを用いた自己教師あり一般化手法についても評価した。 自己監督的な一般化は、不慣れな容器の注ぐ誤差を所望の精度レベルに減少させる。

Pouring is one of the most commonly executed tasks in humans' daily lives, whose accuracy is affected by multiple factors, including the type of material to be poured and the geometry of the source and receiving containers. In this work, we propose a self-supervised learning approach that learns the pouring dynamics, pouring motion, and outcomes from unsupervised demonstrations for accurate pouring. The learned pouring model is then generalized by self-supervised practicing to different conditions such as using unaccustomed pouring cups. We have evaluated the proposed approach first with one container from the training set and four new but similar containers. The proposed approach achieved better pouring accuracy than a regular human with a similar pouring speed for all five cups. Both the accuracy and pouring speed outperform state-of-the-art works. We have also evaluated the proposed self-supervised generalization approach using unaccustomed containers that are far different from the ones in the training set. The self-supervised generalization reduces the pouring error of the unaccustomed containers to the desired accuracy level.
翻訳日:2022-09-23 22:02:21 公開日:2020-11-19
# 血液細胞トランスクリプトームデータの統計的および機械学習による患者の新型コロナウイルス重症度予測

Predicting Patient COVID-19 Disease Severity by means of Statistical and Machine Learning Analysis of Blood Cell Transcriptome Data ( http://arxiv.org/abs/2011.10657v1 )

ライセンス: Link先を確認
Sakifa Aktar, Md. Martuza Ahamad, Md. Rashed-Al-Mahfuz, AKM Azad, Shahadat Uddin, A H M Kamal, Salem A. Alyami, Ping-I Lin, Sheikh Mohammed Shariful Islam, Julian M.W. Quinn, Valsamma Eapen, and Mohammad Ali Moni(参考訳) 導入:新型コロナウイルス患者の重症度と死亡リスクの正確な予測は、ケアデリバリーとリソース割り当てを大幅に改善する。 疾患の重症度に影響を及ぼす既往の相乗効果など、多くの患者関連要因がある。 末梢血サンプルの迅速自動分析が広く利用可能であることから, 臨床予後予測に新型コロナウイルス患者の末梢血データがどのように用いられるか検討した。 方法: 統計的比較法と相関法を機械学習アルゴリズムと組み合わせることで, 新型コロナウイルス患者から得られた臨床データセットを調査した。後者は, 決定木, ランダムフォレスト, 勾配ブースティングマシンの変種, サポートベクターマシン, k-nearest近傍, 深層学習法である。 結果: 血液検査で測定可能ないくつかの臨床指標が, 健常者と新型コロナウイルス陽性者の間で判別され, その後の重症化の予測値を示した。 そこで我々は,90%以上の重症度と死亡率予測の精度と精度を示す分析手法を多数開発した。 結論: 患者の日常的な臨床データを分析し, より正確な患者結果の予測を可能にする手法を開発した。 この種のアプローチは、患者の血液の標準的な病院検査結果を用いて、死亡リスクの高いcovid-19患者を特定できるため、治療を最適化することができる。

Introduction: For COVID-19 patients accurate prediction of disease severity and mortality risk would greatly improve care delivery and resource allocation. There are many patient-related factors, such as pre-existing comorbidities that affect disease severity. Since rapid automated profiling of peripheral blood samples is widely available, we investigated how such data from the peripheral blood of COVID-19 patients might be used to predict clinical outcomes. Methods: We thus investigated such clinical datasets from COVID-19 patients with known outcomes by combining statistical comparison and correlation methods with machine learning algorithms; the latter included decision tree, random forest, variants of gradient boosting machine, support vector machine, K-nearest neighbour and deep learning methods. Results: Our work revealed several clinical parameters measurable in blood samples, which discriminated between healthy people and COVID-19 positive patients and showed predictive value for later severity of COVID-19 symptoms. We thus developed a number of analytic methods that showed accuracy and precision for disease severity and mortality outcome predictions that were above 90%. Conclusions: In sum, we developed methodologies to analyse patient routine clinical data which enables more accurate prediction of COVID-19 patient outcomes. This type of approaches could, by employing standard hospital laboratory analyses of patient blood, be utilised to identify, COVID-19 patients at high risk of mortality and so enable their treatment to be optimised.
翻訳日:2022-09-23 22:02:05 公開日:2020-11-19
# 音響モーフィングのためのボトルネック識別損失を有する終端終端拡張変分オートエンコーダ -予備的検討-

End-To-End Dilated Variational Autoencoder with Bottleneck Discriminative Loss for Sound Morphing -- A Preliminary Study ( http://arxiv.org/abs/2011.09744v1 )

ライセンス: Link先を確認
Matteo Lionello and Hendrik Purwins(参考訳) 本稿では,音声モーフィングのためのエンドツーエンド変分オートエンコーダ(vae)に関する予備的検討を行う。 ダイレーション層(DC-VAE)を持つVAEと、通常の畳み込み層(CC-VAE)を持つVAEの2種類を比較した。 以下の損失関数を組み合わせます。 1)入力信号再構成のための時間領域平均二乗誤差 2)kullback-leiblerのボトルネック層における標準正規分布への偏り,および 3) ボトルネック表現から算出した分類損失。 音声桁のデータベース上では,音響クラスがボトルネック層で分離していることを示すために,1-nearest近傍の分類を用いる。 本稿では,VAEデコーダが潜伏層(ボトルネック層)のクラス中心を,音声領域におけるそのクラスの音の中心にどのように投射するかの尺度として,Mel- frequency cepstrum coefficient dynamic time warping (MFCC-DTW)の偏差を導入する。 MFCC-DTW偏差と1-NN分類では、DC-VAEはCC-VAEより優れている。 これらの結果は,DC-VAEデコーダが音声領域から潜時空間へのマッピング時のトポロジをよりよく保存するので,DC-VAEはCC-VAEよりも音のモーフィングに適していることを示している。 音声の数字とドラムの音の変形を例に挙げる。

We present a preliminary study on an end-to-end variational autoencoder (VAE) for sound morphing. Two VAE variants are compared: VAE with dilation layers (DC-VAE) and VAE only with regular convolutional layers (CC-VAE). We combine the following loss functions: 1) the time-domain mean-squared error for reconstructing the input signal, 2) the Kullback-Leibler divergence to the standard normal distribution in the bottleneck layer, and 3) the classification loss calculated from the bottleneck representation. On a database of spoken digits, we use 1-nearest neighbor classification to show that the sound classes separate in the bottleneck layer. We introduce the Mel-frequency cepstrum coefficient dynamic time warping (MFCC-DTW) deviation as a measure of how well the VAE decoder projects the class center in the latent (bottleneck) layer to the center of the sounds of that class in the audio domain. In terms of MFCC-DTW deviation and 1-NN classification, DC-VAE outperforms CC-VAE. These results for our parametrization and our dataset indicate that DC-VAE is more suitable for sound morphing than CC-VAE, since the DC-VAE decoder better preserves the topology when mapping from the audio domain to the latent space. Examples are given both for morphing spoken digits and drum sounds.
翻訳日:2022-09-23 22:00:44 公開日:2020-11-19
# 量子多重カーネル学習

Quantum Multiple Kernel Learning ( http://arxiv.org/abs/2011.09694v1 )

ライセンス: Link先を確認
Seyed Shakib Vedaie, Moslem Noori, Jaspreet S. Oberoi, Barry C. Sanders, Ehsan Zahedinejad(参考訳) カーネルメソッドは、概念的な単純さと多くの機械学習タスクでの優れたパフォーマンスのために、機械学習アプリケーションにおいて重要な役割を果たす。 複雑な関数を近似するモデルの能力を参照する機械学習モデルの表現性は、これらのタスクにおけるその性能に大きな影響を与える。 カーネルマシンの表現性を高める一つのアプローチは、複数のカーネルを結合してより表現力のある複合カーネルに到達することである。 このアプローチをMKL(Multiple kernel Learning)と呼ぶ。 本研究では,複数の量子カーネルを組み合わせた量子MKL法を提案する。 本手法は,1量子ビット(dqc1)を持つ決定論的量子計算のパワーを利用して,古典的に難解な量子カーネルの集合に対する結合カーネルを推定する。 組み合わせたカーネル推定は個々のカーネルを明示的に計算することなく達成されるが、より優れた表現性を達成するために個々のカーネルのチューニングが可能である。 2つの二進分類問題(合成データセットとドイツのクレジットデータセット)のシミュレーションを行い、量子mkl法が単一量子カーネルマシンよりも優れていることを証明した。

Kernel methods play an important role in machine learning applications due to their conceptual simplicity and superior performance on numerous machine learning tasks. Expressivity of a machine learning model, referring to the ability of the model to approximate complex functions, has a significant influence on its performance in these tasks. One approach to enhancing the expressivity of kernel machines is to combine multiple individual kernels to arrive at a more expressive combined kernel. This approach is referred to as multiple kernel learning (MKL). In this work, we propose an MKL method we refer to as quantum MKL, which combines multiple quantum kernels. Our method leverages the power of deterministic quantum computing with one qubit (DQC1) to estimate the combined kernel for a set of classically intractable individual quantum kernels. The combined kernel estimation is achieved without explicitly computing each individual kernel, while still allowing for the tuning of individual kernels in order to achieve better expressivity. Our simulations on two binary classification problems---one performed on a synthetic dataset and the other on a German credit dataset---demonstrate the superiority of the quantum MKL method over single quantum kernel machines.
翻訳日:2022-09-23 21:55:04 公開日:2020-11-19
# 決定的点過程のwasserstein学習

Wasserstein Learning of Determinantal Point Processes ( http://arxiv.org/abs/2011.09712v1 )

ライセンス: Link先を確認
Lucas Anquetil, Mike Gartrell, Alain Rakotomamonjy, Ugo Tanielian, Cl\'ement Calauz\`enes(参考訳) 決定的点過程(dpps)は離散部分集合選択のエレガントな確率モデルとして注目されている。 DPP学習におけるほとんどの先行研究は、最大推定(MLE)に焦点を当てている。 効率的かつスケーラブルなMLEアプローチでは、サブセットの類似性情報を一切利用せず、離散データの真の生成分布の回復に失敗する可能性がある。 本研究では、DPPサンプリングアルゴリズムの微分緩和を導出することにより、観測された部分集合からなるモデルとデータ間のワッサーシュタイン距離を最小化する新しいDPP学習手法を提案する。 実世界のデータセットを評価した結果、我々のWasserstein学習アプローチは、MLEを用いて訓練されたDPPと比較して、生成タスクにおける予測性能を大幅に改善することを示した。

Determinantal point processes (DPPs) have received significant attention as an elegant probabilistic model for discrete subset selection. Most prior work on DPP learning focuses on maximum likelihood estimation (MLE). While efficient and scalable, MLE approaches do not leverage any subset similarity information and may fail to recover the true generative distribution of discrete data. In this work, by deriving a differentiable relaxation of a DPP sampling algorithm, we present a novel approach for learning DPPs that minimizes the Wasserstein distance between the model and data composed of observed subsets. Through an evaluation on a real-world dataset, we show that our Wasserstein learning approach provides significantly improved predictive performance on a generative task compared to DPPs trained using MLE.
翻訳日:2022-09-23 21:54:45 公開日:2020-11-19
# リチウムイオン電池の電流状態推定のための時間畳み込みネットワークアプローチ

A Temporal Convolution Network Approach to State-of-Charge Estimation in Li-ion Batteries ( http://arxiv.org/abs/2011.09775v1 )

ライセンス: Link先を確認
Aniruddh Herle, Janamejaya Channegowda, Dinakar Prabhu(参考訳) 電気自動車(EV)はここ数年で劇的に拡大している。 すべての交通手段を電化することへの関心が大幅に高まっている。 EVは主にリチウムイオン電池パックのようなエネルギー貯蔵システムによって駆動される。 バッテリーパックの総容量はEVで利用可能な範囲に換算する。 State of Charge (SOC) は、利用可能なバッテリー容量と総容量の比率であり、パーセンテージで表される。 SOCを正確に推定し、EVで使用中に利用可能な範囲を決定することが重要である。 本稿では,時間的畳み込みネットワーク(TCN)を用いてSOCを推定する。 これはSOC推定タスクのためのTCNの最初の実装である。 HWFET, LA92, UDDS, US06などの様々なドライブサイクルで, 1 C および 25 {\deg}Celsius で推定を行う。 TCNアーキテクチャは99.1%の精度を達成した。

Electric Vehicle (EV) fleets have dramatically expanded over the past several years. There has been significant increase in interest to electrify all modes of transportation. EVs are primarily powered by Energy Storage Systems such as Lithium-ion Battery packs. Total battery pack capacity translates to the available range in an EV. State of Charge (SOC) is the ratio of available battery capacity to total capacity and is expressed in percentages. It is crucial to accurately estimate SOC to determine the available range in an EV while it is in use. In this paper, a Temporal Convolution Network (TCN) approach is taken to estimate SOC. This is the first implementation of TCNs for the SOC estimation task. Estimation is carried out on various drive cycles such as HWFET, LA92, UDDS and US06 drive cycles at 1 C and 25 {\deg}Celsius. It was found that TCN architecture achieved an accuracy of 99.1%.
翻訳日:2022-09-23 21:53:53 公開日:2020-11-19
# ニューラルネットワークを用いた虚血性心疾患の新しい分類

Novel Classification of Ischemic Heart Disease Using Artificial Neural Network ( http://arxiv.org/abs/2011.09801v1 )

ライセンス: Link先を確認
Giulia Silveri, Marco Merlo, Luca Restivo, Gianfranco Sinagra, Agostino Accardo(参考訳) 虚血性心疾患(ihd)は、不安定狭心症、心筋梗塞、突然の心臓死に発症する前に、その静かな行動によって生じる微妙な病理である。 パラメータ抽出型心拍変動(HRV)信号に適用した機械学習技術は、いくつかの心臓疾患の早期診断において貴重な支援であると考えられる。 しかし, これまでに, 少数のHRVパラメータに適用した人工ニューラルネットワーク(ANN)を用いて, IHD患者を同定した。 本研究は,965名の被験者の大規模なコホートにおいて,ANNに対して適用された線形および非線形のHRVパラメータを用いて,高い精度でIHD患者を識別できる特徴を同定した。 主成分分析とステップワイズ回帰を用いて,一連のANNに対して,元の17パラメータを入力として使用した5パラメータに削減した。 82%の精度は平均RR,LFn,SD1,性別と年齢パラメータと2つの隠れニューロンを用いて達成された。

Ischemic heart disease (IHD), particularly in its chronic stable form, is a subtle pathology due to its silent behavior before developing in unstable angina, myocardial infarction or sudden cardiac death. Machine learning techniques applied to parameters extracted form heart rate variability (HRV) signal seem to be a valuable support in the early diagnosis of some cardiac diseases. However, so far, IHD patients were identified using Artificial Neural Networks (ANNs) applied to a limited number of HRV parameters and only to very few subjects. In this study, we used several linear and non-linear HRV parameters applied to ANNs, in order to confirm these results on a large cohort of 965 sample of subjects and to identify which features could discriminate IHD patients with high accuracy. By using principal component analysis and stepwise regression, we reduced the original 17 parameters to five, used as inputs, for a series of ANNs. The highest accuracy of 82% was achieved using meanRR, LFn, SD1, gender and age parameters and two hidden neurons.
翻訳日:2022-09-23 21:53:43 公開日:2020-11-19
# マルチタスク・アタック

Multi-Task Adversarial Attack ( http://arxiv.org/abs/2011.09824v1 )

ライセンス: Link先を確認
Pengxin Guo, Yuancheng Xu, Baijiong Lin, Yu Zhang(参考訳) ディープニューラルネットワークは、様々な分野で目覚ましい性能を達成したが、敵の攻撃に弱いことが示されている。 以前の敵攻撃の研究は、主にシングルタスク設定に焦点を当てていた。 しかし、実際のアプリケーションでは、異なるタスクのために複数のモデルを同時に攻撃することが望ましい。 この目的のために,マルチタスク攻撃(MTA)を提案する。マルチタスク攻撃(MTA)は,タスク間の共通知識を活用することで,複数のタスクに対する敵の例を効率的に作成できる統合フレームワークである。 より具体的には、MTAは全てのタスクのための共有エンコーダと複数のタスク固有のデコーダからなる対向摂動のジェネレータを使用する。 共有エンコーダのおかげで、MTAはストレージコストを削減し、複数のタスクを同時に攻撃する際の推論を高速化する。 さらに,提案フレームワークは,標的攻撃や非標的攻撃に対して,インスタンス毎および普遍的な摂動を生成するのに使用できる。 Office-31とNYUv2データセットの実験結果によると、MTAはシングルタスクのデータセットと比較して、攻撃の質を向上させることができる。

Deep neural networks have achieved impressive performance in various areas, but they are shown to be vulnerable to adversarial attacks. Previous works on adversarial attacks mainly focused on the single-task setting. However, in real applications, it is often desirable to attack several models for different tasks simultaneously. To this end, we propose Multi-Task adversarial Attack (MTA), a unified framework that can craft adversarial examples for multiple tasks efficiently by leveraging shared knowledge among tasks, which helps enable large-scale applications of adversarial attacks on real-world systems. More specifically, MTA uses a generator for adversarial perturbations which consists of a shared encoder for all tasks and multiple task-specific decoders. Thanks to the shared encoder, MTA reduces the storage cost and speeds up the inference when attacking multiple tasks simultaneously. Moreover, the proposed framework can be used to generate per-instance and universal perturbations for targeted and non-targeted attacks. Experimental results on the Office-31 and NYUv2 datasets demonstrate that MTA can improve the quality of attacks when compared with its single-task counterpart.
翻訳日:2022-09-23 21:53:23 公開日:2020-11-19
# 最短経路共分散行列の推定

Estimation of Shortest Path Covariance Matrices ( http://arxiv.org/abs/2011.09986v1 )

ライセンス: Link先を確認
Raj Kumar Maity and Cameron Musco(参考訳) 共分散行列 $\mathbf{\Sigma} \in \mathbb{R}^{d\times d}$ of a distribution $\mathcal D$ over $\mathbb{R}^d$ のサンプル複雑性を、$\mathbf{\Sigma}$がグラフ構造であると仮定して検討する。 特に,2つの測定値間の共分散が$d$ノードを持つグラフにおける最短経路距離によって決定される最短経路共分散行列に着目した。 このような行列はトエプリッツと循環共分散行列を一般化し、信号処理応用において広く適用され、2つの測定値の共分散は時間または空間におけるそれらの間の(最短経路)距離に依存する。 ベクトルサンプルの複雑さを最小化することに注力する:$\mathcal{D}$から引き出されたサンプルの数とエントリサンプルの複雑さ:各サンプルで読み込まれたエントリの数。 入力サンプルの複雑さは、信号処理応用における測定機器のコストに相当する。 スペクトルノルム誤差$\epsilon \left\|\mathbf{\sigma}\right\|_2$ just $o(\sqrt{d})$ entry sample complexity and $\tilde o(r^2/\epsilon^2)$ vector sample complexity ここで$d$は下層のグラフの直径、$r \le d$は$\mathbf{\sigma}$のランクである。 提案手法は,Toeplitz共分散推定のためのスパース定規をグラフ設定に拡張することに基づく。 特別な場合、$\mathbf{\Sigma}$ がローランクのToeplitz行列であるとき、我々の結果は最先端の証明と非常に単純な証明で一致する。 また、情報理論上の下限を上限値の$d$まで満たし、このギャップを閉じる方向についても議論します。

We study the sample complexity of estimating the covariance matrix $\mathbf{\Sigma} \in \mathbb{R}^{d\times d}$ of a distribution $\mathcal D$ over $\mathbb{R}^d$ given independent samples, under the assumption that $\mathbf{\Sigma}$ is graph-structured. In particular, we focus on shortest path covariance matrices, where the covariance between any two measurements is determined by the shortest path distance in an underlying graph with $d$ nodes. Such matrices generalize Toeplitz and circulant covariance matrices and are widely applied in signal processing applications, where the covariance between two measurements depends on the (shortest path) distance between them in time or space. We focus on minimizing both the vector sample complexity: the number of samples drawn from $\mathcal{D}$ and the entry sample complexity: the number of entries read in each sample. The entry sample complexity corresponds to measurement equipment costs in signal processing applications. We give a very simple algorithm for estimating $\mathbf{\Sigma}$ up to spectral norm error $\epsilon \left\|\mathbf{\Sigma}\right\|_2$ using just $O(\sqrt{D})$ entry sample complexity and $\tilde O(r^2/\epsilon^2)$ vector sample complexity, where $D$ is the diameter of the underlying graph and $r \le d$ is the rank of $\mathbf{\Sigma}$. Our method is based on extending the widely applied idea of sparse rulers for Toeplitz covariance estimation to the graph setting. In the special case when $\mathbf{\Sigma}$ is a low-rank Toeplitz matrix, our result matches the state-of-the-art, with a far simpler proof. We also give an information theoretic lower bound matching our upper bound up to a factor $D$ and discuss some directions towards closing this gap.
翻訳日:2022-09-23 21:52:49 公開日:2020-11-19
# Parrot: 強化学習のためのデータ駆動行動優先

Parrot: Data-Driven Behavioral Priors for Reinforcement Learning ( http://arxiv.org/abs/2011.10024v1 )

ライセンス: Link先を確認
Avi Singh, Huihan Liu, Gaoyue Zhou, Albert Yu, Nicholas Rhinehart, Sergey Levine(参考訳) 強化学習は柔軟な意思決定と制御のための一般的なフレームワークを提供するが、エージェントが学ぶべき新しいタスクごとに広範なデータ収集を必要とする。 自然言語処理やコンピュータビジョンといった他の機械学習分野では、新しいタスクの学習をブートストラップするために以前収集した大規模なデータセットを事前トレーニングすることが、新しいタスクを学習する際にデータ要求を減らす強力なパラダイムとして現れている。 本稿では,RLエージェントに対して同様に有用な事前学習を可能にするにはどうすればよいのか,という質問を行う。 そこで本研究では, 様々な課題から, 実験で観察された複雑な入出力関係を捉えた行動事前学習手法を提案し, rlエージェントが新たな行動を試す能力に支障をきたすことなく, 新たなタスクを迅速に学習できることを示す。 提案手法は,画像観察とスパース報酬機能を含むロボット操作領域において,従来の手法よりもかなり高い精度で動作し,ロボット操作領域に対して,本手法の有効性を示す。

Reinforcement learning provides a general framework for flexible decision making and control, but requires extensive data collection for each new task that an agent needs to learn. In other machine learning fields, such as natural language processing or computer vision, pre-training on large, previously collected datasets to bootstrap learning for new tasks has emerged as a powerful paradigm to reduce data requirements when learning a new task. In this paper, we ask the following question: how can we enable similarly useful pre-training for RL agents? We propose a method for pre-training behavioral priors that can capture complex input-output relationships observed in successful trials from a wide range of previously seen tasks, and we show how this learned prior can be used for rapidly learning new tasks without impeding the RL agent's ability to try out novel behaviors. We demonstrate the effectiveness of our approach in challenging robotic manipulation domains involving image observations and sparse reward functions, where our method outperforms prior works by a substantial margin.
翻訳日:2022-09-23 21:51:50 公開日:2020-11-19
# インド胸部x線からの結核検診における深層学習 : 解析と更新

Deep Learning for Automated Screening of Tuberculosis from Indian Chest X-rays: Analysis and Update ( http://arxiv.org/abs/2011.09778v1 )

ライセンス: Link先を確認
Anushikha Singh, Brejesh Lall, B.K. Panigrahi, Anjali Agrawal, Anurag Agrawal, Balamugesh Thangakunam, DJ Christopher(参考訳) 背景と目的 結核(TB)は公衆衛生上の重要な問題であり、世界中の死因である。 TB患者の早期診断と治療が成功すれば、数百万人の死亡を回避できる。 TBの自動診断は、医学専門家や放射線技師が不足しているインドなどの先進国において、診断の迅速化と改善を支援する大きな可能性を秘めている。 これまで,胸部X線写真からTBの自動検出のための深層学習手法が提案されてきた。 しかし,インドの胸部X線写真データセットでは,肺のテクスチャが他国と比較して異なるため,これらの手法のいくつかの性能が最適以下であることが示唆された。 したがって、インドのデータセット上でのTBの正確かつ自動診断のための深層学習は重要な研究課題である。 方法:インドの胸部X線画像におけるTB診断のための畳み込みニューラルネットワーク(CNN)の性能について検討した。 AlexNet、GoogLenet、ResNetの3つの異なるトレーニング済みニューラルネットワークモデルを使用して、胸部X線画像を健康またはTB感染に分類する。 提案手法は前処理技術を必要としない。 また、事前訓練されたNNを機能開発ツールとして使用し、標準分類技術を適用する研究もある。 しかし,胸部x線からtbを診断し,エンドツーエンドnnモデルを試みる。 提案された可視化ツールは、大規模なデータセットのスクリーニングにおいて、放射線技師によっても使用できる。 結果: 提案手法はインド人住民のTBの診断に98.60%の感度で93.40%の精度を達成した。 結論: 文献に記載された手法に対して,提案手法の性能を検証した。 提案手法は,インドや深センのデータセット上でのアートの状態を上回ります。

Background and Objective: Tuberculosis (TB) is a significant public health issue and a leading cause of death worldwide. Millions of deaths can be averted by early diagnosis and successful treatment of TB patients. Automated diagnosis of TB holds vast potential to assist medical experts in expediting and improving its diagnosis, especially in developing countries like India, where there is a shortage of trained medical experts and radiologists. To date, several deep learning based methods for automated detection of TB from chest radiographs have been proposed. However, the performance of a few of these methods on the Indian chest radiograph data set has been suboptimal, possibly due to different texture of the lungs on chest radiographs of Indian subjects compared to other countries. Thus deep learning for accurate and automated diagnosis of TB on Indian datasets remains an important subject of research. Methods: The proposed work explores the performance of convolutional neural networks (CNNs) for the diagnosis of TB in Indian chest x-ray images. Three different pre-trained neural network models, AlexNet, GoogLenet, and ResNet are used to classify chest x-ray images into healthy or TB infected. The proposed approach does not require any pre-processing technique. Also, other works use pre-trained NNs as a tool for crafting features and then apply standard classification techniques. However, we attempt an end to end NN model based diagnosis of TB from chest x-rays. The proposed visualization tool can also be used by radiologists in the screening of large datasets. Results: The proposed method achieved 93.40% accuracy with 98.60% sensitivity to diagnose TB for the Indian population. Conclusions: The performance of the proposed method is also tested against techniques described in the literature. The proposed method outperforms the state of art on Indian and Shenzhen datasets.
翻訳日:2022-09-23 21:45:40 公開日:2020-11-19
# 再帰的ディーププリアービデオ:臓器オンチップ実験の時間経過顕微鏡のための超解像アルゴリズム

Recursive Deep Prior Video: a Super Resolution algorithm for Time-Lapse Microscopy of organ-on-chip experiments ( http://arxiv.org/abs/2011.09855v1 )

ライセンス: Link先を確認
Pasquale Cascarano, Maria Colomba Comes, Arianna Mencattini, Maria Carla Parrini, Elena Loli Piccolomini, Eugenio Martinelli(参考訳) organ-on-chips (oocs) に基づく生物実験では、光時間経過顕微鏡 (tlm) を用いて、基礎となる生物学的過程の観察可能なシグネチャである細胞の動きを直接観察する。 高い空間分解能は、TLMによる記録実験から細胞動態と相互作用を捉えるのに不可欠である。 残念ながら、物理的およびコストの制限のため、高解像度ビデオの取得は必ずしも不可能ではない。 そこで本研究では,よく知られたDeep Image Prior(DIP)を,トレーニングを必要とせずにTLM Video Super Resolution(SR)に拡張する,ディープラーニングに基づく新しいアルゴリズムを提案する。 RDPV(Recursive Deep Prior Video)法では,新しい手法が提案されている。 DIPネットワークアーキテクチャの重みは、新しい再帰的更新ルールと効率的な早期停止基準とを組み合わせて、フレーム毎に初期化される。 さらに、DIP損失関数は2つの異なるトータル変分(TV)に基づいてペナル化される。 この方法は、合成、すなわち人工生成、および腫瘍と免疫の相互作用に関連するooc実験の実際のビデオで検証されている。 達成された結果は、最先端のトレーニングされたディープラーニングsrアルゴリズムと比較される。

Biological experiments based on organ-on-chips (OOCs) exploit light Time-Lapse Microscopy (TLM) for a direct observation of cell movement that is an observable signature of underlying biological processes. A high spatial resolution is essential to capture cell dynamics and interactions from recorded experiments by TLM. Unfortunately, due to physical and cost limitations, acquiring high resolution videos is not always possible. To overcome the problem, we present here a new deep learning-based algorithm that extends the well known Deep Image Prior (DIP) to TLM Video Super Resolution (SR) without requiring any training. The proposed Recursive Deep Prior Video (RDPV) method introduces some novelties. The weights of the DIP network architecture are initialized for each of the frames according to a new recursive updating rule combined with an efficient early stopping criterion. Moreover, the DIP loss function is penalized by two different Total Variation (TV) based terms. The method has been validated on synthetic, i.e., artificially generated, as well as real videos from OOC experiments related to tumor-immune interaction. Achieved results are compared with several state-of-the-art trained deep learning SR algorithms showing outstanding performances.
翻訳日:2022-09-23 21:45:14 公開日:2020-11-19
# オールインフォーカス虹彩カメラ

All-in-Focus Iris Camera With a Great Capture Volume ( http://arxiv.org/abs/2011.09908v1 )

ライセンス: Link先を確認
Kunbo Zhang, Zhenteng Shen, Yunlong Wang, Zhenan Sun(参考訳) iris認識システムの画像ボリュームは、生体計測応用におけるスループットと協調性に制限を与えてきた。 多くの改良試験は、漸進的な性能向上と複雑な光学設計により、スタンドオフアイリス認識において支配的な固定焦点レンズに取って代わることができない。 本研究では,焦点可変レンズと2次元ステアリングミラーを用いた新しいオールインフォーカスアイリスイメージングシステムを開発し,時空間多重化法により捕捉体積を大幅に拡張する。 フィールド拡張システムの虹彩画像深度は機械的な動きを必要とせず、極端に高速で焦点面を調整することができる。 さらに、モータ化された反射鏡は、光線を適応的に操舵し、水平及び垂直の視野をアクティブに拡張する。 提案したオールインフォーカスアイリスカメラは、従来の長焦点レンズと比較して37.5倍の3.9mまで被写界深度を増大させる。 また,この3次元光ビームステアリングシステムを用いて,動的焦点スタックを用いたマルチパーソンアイリスのリアルタイムリフォーカスと,移動参加者に対する連続アイリス認識の可能性について実験的に実証した。

Imaging volume of an iris recognition system has been restricting the throughput and cooperation convenience in biometric applications. Numerous improvement trials are still impractical to supersede the dominant fixed-focus lens in stand-off iris recognition due to incremental performance increase and complicated optical design. In this study, we develop a novel all-in-focus iris imaging system using a focus-tunable lens and a 2D steering mirror to greatly extend capture volume by spatiotemporal multiplexing method. Our iris imaging depth of field extension system requires no mechanical motion and is capable to adjust the focal plane at extremely high speed. In addition, the motorized reflection mirror adaptively steers the light beam to extend the horizontal and vertical field of views in an active manner. The proposed all-in-focus iris camera increases the depth of field up to 3.9 m which is a factor of 37.5 compared with conventional long focal lens. We also experimentally demonstrate the capability of this 3D light beam steering imaging system in real-time multi-person iris refocusing using dynamic focal stacks and the potential of continuous iris recognition for moving participants.
翻訳日:2022-09-23 21:44:56 公開日:2020-11-19
# 畳み込みスパース問題に対する近位勾配法に基づく効率的なコンセンサスモデル

Efficient Consensus Model based on Proximal Gradient Method applied to Convolutional Sparse Problems ( http://arxiv.org/abs/2011.10100v1 )

ライセンス: Link先を確認
Gustavo Silva, Paul Rodriguez(参考訳) 逆問題に対するシフト不変モデルである畳み込みスパース表現(CSR)は、信号/画像処理、機械学習、コンピュータビジョンの分野で大きな注目を集めている。 csrにおける最も難しい問題は、直接かつ低コストの解が達成しにくい $min_x \sum_i f_i(x) + g(x)$ という形式の複合関数の最小化である。 しかし、ADMMコンセンサスのような半分散定式化が重要な計算上の利点をもたらすことが報告されている。 本研究は,近位勾配(PG)アプローチに基づく効率的なコンセンサスアルゴリズムの詳細な理論的解析を導出し,詳述する。 ADMMに対する提案アルゴリズムの有効性は,古典的な畳み込み辞書学習問題において主に評価される。 さらに、一般化されたコンセンサス法は、正規化項を持つ凸関数の和が1つの大域変数を共有する場合、他の最適化問題の解決に利用できる。 例として, 提案アルゴリズムは, 異常検出タスクに対する別の特定の畳み込み問題にも適用できる。

Convolutional sparse representation (CSR), shift-invariant model for inverse problems, has gained much attention in the fields of signal/image processing, machine learning and computer vision. The most challenging problems in CSR implies the minimization of a composite function of the form $min_x \sum_i f_i(x) + g(x)$, where a direct and low-cost solution can be difficult to achieve. However, it has been reported that semi-distributed formulations such as ADMM consensus can provide important computational benefits. In the present work, we derive and detail a thorough theoretical analysis of an efficient consensus algorithm based on proximal gradient (PG) approach. The effectiveness of the proposed algorithm with respect to its ADMM counterpart is primarily assessed in the classic convolutional dictionary learning problem. Furthermore, our consensus method, which is generically structured, can be used to solve other optimization problems, where a sum of convex functions with a regularization term share a single global variable. As an example, the proposed algorithm is also applied to another particular convolutional problem for the anomaly detection task.
翻訳日:2022-09-23 21:37:05 公開日:2020-11-19
# 潜在逆バイアス--ディープニューラルネットワークにおける衝突型バイアスの軽減

Latent Adversarial Debiasing: Mitigating Collider Bias in Deep Neural Networks ( http://arxiv.org/abs/2011.11486v1 )

ライセンス: Link先を確認
Luke Darlow, Stanis{\l}aw Jastrz\k{e}bski, Amos Storkey(参考訳) 衝突型バイアスは、ニューラルネットワークが対処できないようなサンプル選択バイアスの有害な形態である。 このバイアスは、基礎となる因果信号がトレーニングデータ収集手順によって他の結合信号と強く相関するときに現れる。 コンファウンディング信号が分かり易い状況では、ディープニューラルネットワークがこれにラッチし、結果として得られるモデルは、悪質なテストシナリオに一般化する。 ここで、故障の原因は、ニューラルネットワークの深い構造と、使用可能な時に簡単に計算可能なシグナルを優先する、強欲な勾配駆動学習プロセスの組み合わせにあると論じています。 学習データの100%にコンファウンディング信号が存在する場合でも,潜伏性逆バイアスデバイアス(lad)を用いてバイアス分離トレーニングデータを生成することにより,この問題を軽減できることを示す。 これらの逆例としてニューラルネットワークをトレーニングすることで、衝突型バイアス設定における一般化を改善することができる。 実験によれば、ladは、背景色mnistで76.12%、前景色mnistで35.47%、破損したcifar-10で8.27%の上昇を示した。

Collider bias is a harmful form of sample selection bias that neural networks are ill-equipped to handle. This bias manifests itself when the underlying causal signal is strongly correlated with other confounding signals due to the training data collection procedure. In the situation where the confounding signal is easy-to-learn, deep neural networks will latch onto this and the resulting model will generalise poorly to in-the-wild test scenarios. We argue herein that the cause of failure is a combination of the deep structure of neural networks and the greedy gradient-driven learning process used - one that prefers easy-to-compute signals when available. We show it is possible to mitigate against this by generating bias-decoupled training data using latent adversarial debiasing (LAD), even when the confounding signal is present in 100% of the training data. By training neural networks on these adversarial examples,we can improve their generalisation in collider bias settings. Experiments show state-of-the-art performance of LAD in label-free debiasing with gains of 76.12% on background coloured MNIST, 35.47% on fore-ground coloured MNIST, and 8.27% on corrupted CIFAR-10.
翻訳日:2022-09-23 21:36:46 公開日:2020-11-19
# ML4H概要トラック2020

ML4H Abstract Track 2020 ( http://arxiv.org/abs/2011.11554v1 )

ライセンス: Link先を確認
Emily Alsentzer, Matthew B. A. McDermott, Fabian Falck, Suproteem K. Sarkar, Subhrajit Roy, Stephanie L. Hyland(参考訳) NeurIPS 2020でのML4H(Machine Learning for Health)ワークショップで受け入れられた抽象化のコレクション。 このインデックスは完全ではなく、一部の抽象概念がインクルージョンのオプトアウトを選択したためである。

A collection of the accepted abstracts for the Machine Learning for Health (ML4H) workshop at NeurIPS 2020. This index is not complete, as some accepted abstracts chose to opt-out of inclusion.
翻訳日:2022-09-23 21:36:23 公開日:2020-11-19
# ReAssert: アサート生成のためのディープラーニング

ReAssert: Deep Learning for Assert Generation ( http://arxiv.org/abs/2011.09784v1 )

ライセンス: Link先を確認
Robert White and Jens Krinke(参考訳) 自動テストコード生成は、ソフトウェアを構築するのに必要な時間と労力を削減し、その正確性と堅牢性を高めます。 本稿では,制約の少ない以前の作業よりも正確なアサートを生成するjunitテストアサートの自動生成手法であるre-assertを提案する。 これはプロジェクトを個別にターゲットし、学習のための正確なコードからテストへのトレーサビリティを使い、アサートレステストファーストを書くことなく、メソッドアンダーテストから直接アサートステートメントを生成することによって達成される。 また,最先端のディープラーニングモデルであるre reformerと,先行研究の2つのモデルを用いて再評価と既存のアプローチであるatlasを,語彙的正確性,不合理性,動的解析を用いて活用する。 ReAssertの評価では、1つのプロジェクトに対して生成されたアサーションの44%が基礎的な真実と正確に一致しており、コンパイルするアサーションの51%まで増加しています。 また、ATLASの結果はReformerの使用によって改善され、生成したアサーションの28%が根拠の真実と正確に一致する。 改革派は独自の主張の最大割合(71%)を生み出し、改革派が最も有用な主張を生んでいるというさらなる証拠を与える。

The automated generation of test code can reduce the time and effort required to build software while increasing its correctness and robustness. In this paper, we present RE-ASSERT, an approach for the automated generation of JUnit test asserts which produces more accurate asserts than previous work with fewer constraints. This is achieved by targeting projects individually, using precise code-to-test traceability for learning and by generating assert statements from the method-under-test directly without the need to write an assert-less test first. We also utilise Reformer, a state-of-the-art deep learning model, along with two models from previous work to evaluate ReAssert and an existing approach, known as ATLAS, using lexical accuracy,uniqueness, and dynamic analysis. Our evaluation of ReAssert shows up to 44% of generated asserts for a single project match exactly with the ground truth, increasing to 51% for generated asserts that compile. We also improve on the ATLAS results through our use of Reformer with 28% of generated asserts matching exactly with the ground truth. Reformer also produces the greatest proportion of unique asserts (71%), giving further evidence that Reformer produces the most useful asserts.
翻訳日:2022-09-23 21:36:00 公開日:2020-11-19
# ホーン記述論理における一階補修性と連結クエリの含意

First Order-Rewritability and Containment of Conjunctive Queries in Horn Description Logics ( http://arxiv.org/abs/2011.09836v1 )

ライセンス: Link先を確認
Meghyn Bienvenu, Peter Hansen, Carsten Lutz, Frank Wolter(参考訳) el と horn-shif の記述論理で定式化されたオントロジーの存在下での連結クエリのfo-rewritabilityと関連するクエリ封じ込め問題について検討した。 キャラクタリゼーションの提供とは別に、NExpTime経由のExpTimeから2ExpTimeまで、いくつかの興味深い効果を指摘しながら、複雑さの結果を確立します。 特にFO書き換えは、逆ロールが存在する場合のアトミッククエリよりも、結合クエリでは複雑である。

We study FO-rewritability of conjunctive queries in the presence of ontologies formulated in a description logic between EL and Horn-SHIF, along with related query containment problems. Apart from providing characterizations, we establish complexity results ranging from ExpTime via NExpTime to 2ExpTime, pointing out several interesting effects. In particular, FO-rewriting is more complex for conjunctive queries than for atomic queries when inverse roles are present, but not otherwise.
翻訳日:2022-09-23 21:35:38 公開日:2020-11-19
# 音声感情認識のための深い局所的特徴学習

Deep Residual Local Feature Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2011.09767v1 )

ライセンス: Link先を確認
Sattaya Singkul, Thakorn Chatchaisathaporn, Boontawee Suntisrivaraporn and Kuntpong Woraratpanya(参考訳) コールセンターサービスのようなサービス効率を改善するため、今日のグローバルビジネスでは音声感情認識(ser)が重要な役割を担っている。 近年のSERはディープラーニングアプローチに基づいている。 しかし、ディープラーニングの効率性は、レイヤーの数、すなわち深いレイヤーの数、より高い効率に依存する。 一方,深い層は,勾配の消失,学習率の低下,高消費化の原因となっている。 そこで本稿では,既存の局所特徴学習ブロック (LFLB) の再設計を提案する。 この新しい設計は、deep residual local feature learning block (deepreslflb)と呼ばれる。 DeepResLFLBは、LFLB、残留局所特徴学習ブロック(ResLFLB)、多層パーセプトロン(MLP)の3つのカスケードブロックから構成される。 lflbは、階層的相関の抽出とともに局所相関の学習のために構築されており、deepreslflbは、脱落勾配の解消と過剰フィッティングの低減のために残差学習を使用して、深層でのより詳細な説明に繰り返し学習を活用できる。 emodb と ravdess という2つのデータセットに基づいて、提案された deepreslflb は、標準メトリクスで評価することで、パフォーマンスを大幅に向上させることができる。

Speech Emotion Recognition (SER) is becoming a key role in global business today to improve service efficiency, like call center services. Recent SERs were based on a deep learning approach. However, the efficiency of deep learning depends on the number of layers, i.e., the deeper layers, the higher efficiency. On the other hand, the deeper layers are causes of a vanishing gradient problem, a low learning rate, and high time-consuming. Therefore, this paper proposed a redesign of existing local feature learning block (LFLB). The new design is called a deep residual local feature learning block (DeepResLFLB). DeepResLFLB consists of three cascade blocks: LFLB, residual local feature learning block (ResLFLB), and multilayer perceptron (MLP). LFLB is built for learning local correlations along with extracting hierarchical correlations; DeepResLFLB can take advantage of repeatedly learning to explain more detail in deeper layers using residual learning for solving vanishing gradient and reducing overfitting; and MLP is adopted to find the relationship of learning and discover probability for predicted speech emotions and gender types. Based on two available published datasets: EMODB and RAVDESS, the proposed DeepResLFLB can significantly improve performance when evaluated by standard metrics: accuracy, precision, recall, and F1-score.
翻訳日:2022-09-23 21:35:02 公開日:2020-11-19
# 深部LF-Net:重症不健康な画像を含むインドの胸部X線写真からのセマンティック肺分画

Deep LF-Net: Semantic Lung Segmentation from Indian Chest Radiographs Including Severely Unhealthy Images ( http://arxiv.org/abs/2011.09695v1 )

ライセンス: Link先を確認
Anushikha Singh, Brejesh Lall, B. K. Panigrahi, Anjali Agrawal, Anurag Agrawal, DJ Christopher, Balamugesh Thangakunam(参考訳) 胸部X線写真(胸部X線、CxR)は、肺癌、結核、肺炎などの肺疾患の診断において重要な役割を担っている。 肺の自動分割は、cxr検査のためのコンピュータ支援診断ツールを設計するための重要なステップである。 正確な肺分画は、健康問題、年齢、性別による肺の形状のばらつきのため、極めて困難であると考えられている。 提案研究は,CxRからの肺の正確な分画に対する効率的な深部畳み込みニューラルネットワークの使用について検討した。 我々は、deeplabアーキテクチャ、エンコーダデコーダ、拡張畳み込みを統合し、高速トレーニングと高精度で意味的肺分節を行うdeeplabv3+ネットワークを試みている。 Resnet18 と Mobilenetv2 は,Deeplabv3+ モデルに関連付けられ,性能解析を行った。 提案手法は、ニューラルネットワークに入力する前に胸部X線画像の事前処理技術を必要としない。 セマンティクスセグメンテーション中に生じた偽陽性を除去するために形態学的操作が用いられた。 臨床的に確認された結核、慢性閉塞性肺疾患、間質性肺疾患、胸水、肺癌患者の健康および不健康なCxRを含むインド人のCxRデータセットを構築した。 提案手法は,インドcxrデータセットの688画像に対して,そのロバスト性を検証するために異常な画像を含む実験を行った。 また,日本放射線技術学会,米国モンゴメリー郡,中国深センなど,一般的なベンチマークデータセットを用いて,最先端比較実験を行った。 本手法の性能を文献に記載した手法と比較し,インドおよびパブリックデータセット上での肺分画の精度を最も高く評価した。

A chest radiograph, commonly called chest x-ray (CxR), plays a vital role in the diagnosis of various lung diseases, such as lung cancer, tuberculosis, pneumonia, and many more. Automated segmentation of the lungs is an important step to design a computer-aided diagnostic tool for examination of a CxR. Precise lung segmentation is considered extremely challenging because of variance in the shape of the lung caused by health issues, age, and gender. The proposed work investigates the use of an efficient deep convolutional neural network for accurate segmentation of lungs from CxR. We attempt an end to end DeepLabv3+ network which integrates DeepLab architecture, encoder-decoder, and dilated convolution for semantic lung segmentation with fast training and high accuracy. We experimented with the different pre-trained base networks: Resnet18 and Mobilenetv2, associated with the Deeplabv3+ model for performance analysis. The proposed approach does not require any pre-processing technique on chest x-ray images before being fed to a neural network. Morphological operations were used to remove false positives that occurred during semantic segmentation. We construct a CxR dataset of the Indian population that contain healthy and unhealthy CxRs of clinically confirmed patients of tuberculosis, chronic obstructive pulmonary disease, interstitial lung disease, pleural effusion, and lung cancer. The proposed method is tested on 688 images of our Indian CxR dataset including images with severe abnormal findings to validate its robustness. We also experimented on commonly used benchmark datasets such as Japanese Society of Radiological Technology; Montgomery County, USA; and Shenzhen, China for state-of-the-art comparison. The performance of our method is tested against techniques described in the literature and achieved the highest accuracy for lung segmentation on Indian and public datasets.
翻訳日:2022-09-23 21:34:18 公開日:2020-11-19
# RPNのFew-Shotオブジェクト検出の改善

Cooperating RPN's Improve Few-Shot Object Detection ( http://arxiv.org/abs/2011.10142v1 )

ライセンス: Link先を確認
Weilin Zhang, Yu-Xiong Wang, David A. Forsyth(参考訳) 画像内のオブジェクトを非常に少ないトレーニング例から検出する学習few-shotオブジェクト検出 - プロポーザルボックスを見ている分類器がトレーニングデータを持たないため、難しい。 特に難しいトレーニング体制は、1つまたは2つのトレーニング例がある場合に発生する。 この場合、地域提案ネットワーク(RPN)が1つのハイ・クロスオーバー・ユニオン(IOU)トレーニングボックスを欠いている場合、その分類器のモデルがオブジェクトの外観に大きく影響する可能性がある。 我々は複数の異なるが協調的なRPNを使用する。 私たちのRPNは異なるように訓練されていますが、あまり変わりません。これはCOCOとPASCALVOCの最先端技術よりも、非常にパフォーマンスが向上します。 この効果は分類器やデータセットの選択とは独立しているようだ。

Learning to detect an object in an image from very few training examples - few-shot object detection - is challenging, because the classifier that sees proposal boxes has very little training data. A particularly challenging training regime occurs when there are one or two training examples. In this case, if the region proposal network (RPN) misses even one high intersection-over-union (IOU) training box, the classifier's model of how object appearance varies can be severely impacted. We use multiple distinct yet cooperating RPN's. Our RPN's are trained to be different, but not too different; doing so yields significant performance improvements over state of the art for COCO and PASCAL VOC in the very few-shot setting. This effect appears to be independent of the choice of classifier or dataset.
翻訳日:2022-09-23 21:28:07 公開日:2020-11-19
# スプリットニューラルネットワークを用いた階層クラスタリングによる欠落特徴のロバスト性

Robustness to Missing Features using Hierarchical Clustering with Split Neural Networks ( http://arxiv.org/abs/2011.09596v1 )

ライセンス: Link先を確認
Rishab Khincha, Utkarsh Sarawgi, Wazeer Zulfikar, Pattie Maes(参考訳) 欠落したデータの問題は長い間持続し続けており、機械学習と統計データ分析において大きな障害となっている。 この分野の過去の研究では、欠落したデータを埋めるために様々なデータインプテーション技術を使ったり、欠落したデータでニューラルネットワーク(nns)をトレーニングしたりしている。 本研究では,階層的クラスタリングを用いて類似した入力機能をクラスタ化し,協調的損失を伴う比例分割ニューラルネットワークを訓練する,単純かつ効果的な手法を提案する。 本手法を一連のベンチマークデータセット上で評価し,単純な計算手法を用いても有望な改善を示す。 これは、モデルアーキテクチャにおける類似した機能のクラスタを通じて学ぶことによるものです。 ソースコードはhttps://github.com/usarawgi911/Robustness-to-Missing-Featuresで入手できる。

The problem of missing data has been persistent for a long time and poses a major obstacle in machine learning and statistical data analysis. Past works in this field have tried using various data imputation techniques to fill in the missing data, or training neural networks (NNs) with the missing data. In this work, we propose a simple yet effective approach that clusters similar input features together using hierarchical clustering and then trains proportionately split neural networks with a joint loss. We evaluate this approach on a series of benchmark datasets and show promising improvements even with simple imputation techniques. We attribute this to learning through clusters of similar features in our model architecture. The source code is available at https://github.com/usarawgi911/Robustness-to-Missing-Features
翻訳日:2022-09-23 21:27:30 公開日:2020-11-19
# アクティブラーニングによる決定境界のホモロジーの探索

Finding the Homology of Decision Boundaries with Active Learning ( http://arxiv.org/abs/2011.09645v1 )

ライセンス: Link先を確認
Weizhi Li, Gautam Dasarathy, Karthikeyan Natesan Ramamurthy, and Visar Berisha(参考訳) モデル選択やメタ学習に関わる問題に対して,分類器の決定境界を正確にかつ効率的に特徴付けることが重要である。 トポロジカルなデータ分析に触発されて、そのホモロジーを用いた決定境界のキャラクタリゼーションが、最近、一般的かつ強力なツールとして登場した。 本稿では,意思決定境界のホモロジーを回復するための能動的学習アルゴリズムを提案する。 このアルゴリズムはラベルが必要なサンプルを逐次かつ適応的に選択する。 提案手法を理論的に解析し,アクティブラーニングアルゴリズムの問合せ複雑性が,基礎となる多様体の固有複雑性に依存することを示した。 本稿では,このフレームワークを用いて,データセットに対する最もパフォーマンスの高い機械学習モデルを選択することの有効性を示す。 いくつかの標準データセットにおける実験は、ホモロジーの回復におけるサンプル複雑性の改善を示し、モデル選択のためのフレームワークの実用性を示している。 アルゴリズムと実験結果のソースコードはhttps://github.com/wayne0908/Active-Learning-Homologyで公開されている。

Accurately and efficiently characterizing the decision boundary of classifiers is important for problems related to model selection and meta-learning. Inspired by topological data analysis, the characterization of decision boundaries using their homology has recently emerged as a general and powerful tool. In this paper, we propose an active learning algorithm to recover the homology of decision boundaries. Our algorithm sequentially and adaptively selects which samples it requires the labels of. We theoretically analyze the proposed framework and show that the query complexity of our active learning algorithm depends naturally on the intrinsic complexity of the underlying manifold. We demonstrate the effectiveness of our framework in selecting best-performing machine learning models for datasets just using their respective homological summaries. Experiments on several standard datasets show the sample complexity improvement in recovering the homology and demonstrate the practical utility of the framework for model selection. Source code for our algorithms and experimental results is available at https://github.com/wayne0908/Active-Learning-Homology.
翻訳日:2022-09-23 21:27:17 公開日:2020-11-19
# 不均一グラフのためのスケーラブルグラフニューラルネットワーク

Scalable Graph Neural Networks for Heterogeneous Graphs ( http://arxiv.org/abs/2011.09679v1 )

ライセンス: Link先を確認
Lingfan Yu, Jiajun Shen, Jinyang Li, Adam Lerer(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データ上で学習する一般的なパラメトリックモデルである。 近年の研究では、GNNは機能スムーシングにグラフを主に使用しており、大規模グラフへのスケールアップが困難なエンドツーエンドの特徴階層を使用するのではなく、単にグラフスムースなノード機能を操作することで、ベンチマークタスクで競合する結果を示している、と論じられている。 本研究では、これらの結果が異種グラフに拡張可能かどうかを問うとともに、異なるエンティティ間の複数のタイプの関係を符号化する。 本研究では,関係グラフのランダムサンプリング部分グラフに対して,隣り合う特徴の分類器を訓練するNighbor Averaging over Relation Subgraphs (NARS)を提案する。 学習時間と推論時間の両方において、これらのノード機能の集合をメモリ効率のよい方法で計算できるようにする最適化について述べる。 NARSは、より高価なGNNベースの手法よりも高いパフォーマンスで、いくつかのベンチマークデータセット上でのアート精度の新たな状態を達成する

Graph neural networks (GNNs) are a popular class of parametric model for learning over graph-structured data. Recent work has argued that GNNs primarily use the graph for feature smoothing, and have shown competitive results on benchmark tasks by simply operating on graph-smoothed node features, rather than using end-to-end learned feature hierarchies that are challenging to scale to large graphs. In this work, we ask whether these results can be extended to heterogeneous graphs, which encode multiple types of relationship between different entities. We propose Neighbor Averaging over Relation Subgraphs (NARS), which trains a classifier on neighbor-averaged features for randomly-sampled subgraphs of the "metagraph" of relations. We describe optimizations to allow these sets of node features to be computed in a memory-efficient way, both at training and inference time. NARS achieves a new state of the art accuracy on several benchmark datasets, outperforming more expensive GNN-based methods
翻訳日:2022-09-23 21:27:00 公開日:2020-11-19
# ディープラーニングモデルのチューニングについて:データマイニングの視点から

On tuning deep learning models: a data mining perspective ( http://arxiv.org/abs/2011.09857v1 )

ライセンス: Link先を確認
M.M. Ozturk(参考訳) ディープラーニングアルゴリズムは、そのノードの根底にある接続機構によって異なる。 様々なハイパーパラメータを持ち、特定のアルゴリズムによって設定されるか、ランダムに選択される。 一方、ディープラーニングアルゴリズムのハイパーパラメータは、機械学習タスクのパフォーマンス向上に役立つ可能性がある。 本稿では,ディープラーニングモデルのハイパーパラメータから生じる問題に対処する研究者を対象に,チューニングガイドラインを提案する。 そこで, チューニングとデータマイニングの観点から, 4種類のディープラーニングアルゴリズムについて検討した。 さらに,4つの深層学習アルゴリズムを用いて,ハイパーパラメータの共通探索法を評価する。 本研究の結果によれば,正規化は分類性能の向上に寄与する。 この機能の数は、ディープラーニングアルゴリズムの精度の低下には寄与していない。 精度は低いが、データマイニングにおいて信頼性の高い結果に到達するためには、均一な分布がより重要である。

Deep learning algorithms vary depending on the underlying connection mechanism of nodes of them. They have various hyperparameters that are either set via specific algorithms or randomly chosen. Meanwhile, hyperparameters of deep learning algorithms have the potential to help enhance the performance of the machine learning tasks. In this paper, a tuning guideline is provided for researchers who cope with issues originated from hyperparameters of deep learning models. To that end, four types of deep learning algorithms are investigated in terms of tuning and data mining perspective. Further, common search methods of hyperparameters are evaluated on four deep learning algorithms. Normalization helps increase the performance of classification, according to the results of this study. The number of features has not contributed to the decline in the accuracy of deep learning algorithms. Even though high sparsity results in low accuracy, a uniform distribution is much more crucial to reach reliable results in terms of data mining.
翻訳日:2022-09-23 21:26:17 公開日:2020-11-19
# 空間構造を用いたカテゴリクラスタリングのための類似度に基づく距離

Similarity-based Distance for Categorical Clustering using Space Structure ( http://arxiv.org/abs/2011.09887v1 )

ライセンス: Link先を確認
Utkarsh Nath, Shikha Asrani, Rahul Katarya(参考訳) クラスタリングはオブジェクトのグループにパターンを配置し、結果として同様のオブジェクトをグループ化する。 オブジェクトは必ずしも数値的ではない属性を持ち、時には属性が属することのできるドメインやカテゴリを持つことがある。 このようなデータは分類データと呼ばれる。 分類データのグループ化には、多くのクラスタリングアルゴリズムが使われており、その中でkモードアルゴリズムが最も重要な結果を与えている。 それでもまだ改善の余地はたくさんあります。 k-means、ファジィc-means、階層型アルゴリズムといったアルゴリズムは、数値データにはるかに適している。 本稿では,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度に基づく距離(SBD)を提案する。 実験の結果,SBC(空間構造に基づくクラスタリング)型アルゴリズムを用いて提案した距離(SBD)は,分類的データセットを用いた場合,k-modesや他のSBC型アルゴリズムよりも有意に優れていた。

Clustering is spotting pattern in a group of objects and resultantly grouping the similar objects together. Objects have attributes which are not always numerical, sometimes attributes have domain or categories to which they could belong to. Such data is called categorical data. To group categorical data many clustering algorithms are used, among which k- modes algorithm has so far given the most significant results. Nevertheless, there is still a lot which could be improved. Algorithms like k-means, fuzzy-c-means or hierarchical have given far better accuracies with numerical data. In this paper, we have proposed a novel distance metric, similarity-based distance (SBD) to find the distance between objects of categorical data. Experiments have shown that our proposed distance (SBD), when used with the SBC (space structure based clustering) type algorithm significantly outperforms the existing algorithms like k-modes or other SBC type algorithms when used on categorical datasets.
翻訳日:2022-09-23 21:26:07 公開日:2020-11-19
# 多項ロジットバンドに対する完全ギャップ依存境界

Fully Gap-Dependent Bounds for Multinomial Logit Bandit ( http://arxiv.org/abs/2011.09998v1 )

ライセンス: Link先を確認
Jiaqi Yang(参考訳) 我々は,マルチノミナルロジット (mnl) のバンディット問題について検討し,各時間ステップにおいて,販売者は,n$ アイテムのプールから最大$k$ の品揃えを提供し,購入者は mnl 選択モデルに従ってその品目からアイテムを購入する。 目標はモデルパラメータを学習し、期待される収益を最大化することです。 ご紹介します (i)$S^*$を$\widetilde{O}(\sum_{i = 1}^N \Delta_i^{-2})$高確率の時間ステップで識別するアルゴリズム。 (ii)$o(\sum_{i \notin s^*} k\delta_i^{-1} \log t)$の時間ステップで後悔するアルゴリズム。 我々の知る限り、我々のアルゴリズムは、すべての項目の最適以下のギャップに完全に依存するギャップ依存境界を達成した最初のアルゴリズムである。 我々の技術貢献には、MNLバンド問題とマルチアームバンディットにおけるトップ$K$アーム識別問題の変種を関連付けるアルゴリズムフレームワーク、一般化エポックベースの提供手順、層ベースの適応推定手順が含まれる。

We study the multinomial logit (MNL) bandit problem, where at each time step, the seller offers an assortment of size at most $K$ from a pool of $N$ items, and the buyer purchases an item from the assortment according to a MNL choice model. The objective is to learn the model parameters and maximize the expected revenue. We present (i) an algorithm that identifies the optimal assortment $S^*$ within $\widetilde{O}(\sum_{i = 1}^N \Delta_i^{-2})$ time steps with high probability, and (ii) an algorithm that incurs $O(\sum_{i \notin S^*} K\Delta_i^{-1} \log T)$ regret in $T$ time steps. To our knowledge, our algorithms are the first to achieve gap-dependent bounds that fully depends on the suboptimality gaps of all items. Our technical contributions include an algorithmic framework that relates the MNL-bandit problem to a variant of the top-$K$ arm identification problem in multi-armed bandits, a generalized epoch-based offering procedure, and a layer-based adaptive estimation procedure.
翻訳日:2022-09-23 21:25:52 公開日:2020-11-19
# DiffusionNet:ディープラーニングを用いた時間依存偏微分方程式の解の高速化

DiffusionNet: Accelerating the solution of Time-Dependent partial differential equations using deep learning ( http://arxiv.org/abs/2011.10015v1 )

ライセンス: Link先を確認
Mahmoud Asem(参考訳) 本稿では,時間依存偏微分方程式の1次元と2次元の解法を解くためのディープラーニングフレームワークを提案する。 2次元過渡熱伝導問題をディリクレ境界条件で解くことでDiffusionNetソルバを実証する。 モデルは、交代方向暗黙法を用いて計算された解データに基づいて訓練される。 モデルでは,解の開始時間ステップ,初期条件,4つの境界条件,時間ステップサイズ,拡散率定数,グリッドステップサイズといった7つの変数の組み合わせから解を予測できる。 高速化のために,複数の時間ステップを繰り返すと,時間依存型pdeの解を予測し,その解を並列化可能なチャンクに分割することにより,解の速度を改善する。 我々は、最小限の変更で幅広い偏微分方程式を解くことができる柔軟なアーキテクチャを構築しようとしている。 Inviscid Burgers方程式と定常熱伝導を解くために、過渡的熱伝導を解くのと同じネットワークアーキテクチャをモデルに適用し、モデル性能を関連する研究と比較することで、モデル柔軟性を実証する。 このモデルにより, 問題に対する解の誤差を低減できることを示した。

We present our deep learning framework to solve and accelerate the Time-Dependent partial differential equation's solution of one and two spatial dimensions. We demonstrate DiffusionNet solver by solving the 2D transient heat conduction problem with Dirichlet boundary conditions. The model is trained on solution data calculated using the Alternating direction implicit method. We show the model's ability to predict the solution from any combination of seven variables: the starting time step of the solution, initial condition, four boundary conditions, and a combined variable of the time step size, diffusivity constant, and grid step size. To improve speed, we exploit our model capability to predict the solution of the Time-dependent PDE after multiple time steps at once to improve the speed of solution by dividing the solution into parallelizable chunks. We try to build a flexible architecture capable of solving a wide range of partial differential equations with minimal changes. We demonstrate our model flexibility by applying our model with the same network architecture used to solve the transient heat conduction to solve the Inviscid Burgers equation and Steady-state heat conduction, then compare our model performance against related studies. We show that our model reduces the error of the solution for the investigated problems.
翻訳日:2022-09-23 21:25:22 公開日:2020-11-19
# Korniaによる微分データ拡張

Differentiable Data Augmentation with Kornia ( http://arxiv.org/abs/2011.09832v1 )

ライセンス: Link先を確認
Jian Shi, Edgar Riba, Dmytro Mishkin, Francesc Moreno and Anguelos Nicolaou(参考訳) 本稿では,空間(2d)テンソルと体積(3d)テンソルの両方に対して,kornia differentiable data augmentation(dda)モジュールのレビューを行う。 このモジュールはkorniaからの差別化可能なコンピュータビジョンソリューションを活用して、データ拡張(da)パイプラインと戦略を既存のpytorchコンポーネント(例えば、autograd for differentiability、optimize for optimization)に統合することを目的としている。 さらに、異なるDAフレームワークを比較したベンチマークと、Kornia DDAを利用するいくつかのアプローチの短いレビューを提供している。

In this paper we present a review of the Kornia differentiable data augmentation (DDA) module for both for spatial (2D) and volumetric (3D) tensors. This module leverages differentiable computer vision solutions from Kornia, with an aim of integrating data augmentation (DA) pipelines and strategies to existing PyTorch components (e.g. autograd for differentiability, optim for optimization). In addition, we provide a benchmark comparing different DA frameworks and a short review for a number of approaches that make use of Kornia DDA.
翻訳日:2022-09-23 21:18:54 公開日:2020-11-19
# ディープフェイク検出に対する敵対的脅威 : 実践的展望

Adversarial Threats to DeepFake Detection: A Practical Perspective ( http://arxiv.org/abs/2011.09957v1 )

ライセンス: Link先を確認
Paarth Neekhara, Brian Dolhansky, Joanna Bitton, Cristian Canton Ferrer(参考訳) 顔で操作された画像やビデオやDeepFakesは、誤報や個人を消毒するために悪用される。 したがって、DeepFakesの検出は、ソーシャルメディアプラットフォームやその他のメディア共有Webサイトの信頼性を高めるために不可欠である。 最先端のDeepFake検出技術は、敵の例に弱いことが知られているニューラルネットワークベースの分類モデルに依存している。 本研究では,最先端のDeepFake検出手法の脆弱性を実用的観点から検討する。 ブラックボックス設定のDeepFake検出器に対して,敵が分類モデルを完全に知識を持っていないような攻撃を行う。 本研究では,異なるモデル間での逆摂動の伝達の程度を調査し,逆例の伝達性を改善する手法を提案する。 また、攻撃者間で容易に共有できるため、非常に現実的な攻撃シナリオを示すUniversal Adversarial Perturbationsを使って、よりアクセスしやすい攻撃を作成する。 我々は,deepfake detection challenge (dfdc) の入賞項目について評価を行い,転送可能かつアクセス可能な敵攻撃の設計により,実際の攻撃シナリオにおいて容易にバイパスできることを実証する。

Facially manipulated images and videos or DeepFakes can be used maliciously to fuel misinformation or defame individuals. Therefore, detecting DeepFakes is crucial to increase the credibility of social media platforms and other media sharing web sites. State-of-the art DeepFake detection techniques rely on neural network based classification models which are known to be vulnerable to adversarial examples. In this work, we study the vulnerabilities of state-of-the-art DeepFake detection methods from a practical stand point. We perform adversarial attacks on DeepFake detectors in a black box setting where the adversary does not have complete knowledge of the classification models. We study the extent to which adversarial perturbations transfer across different models and propose techniques to improve the transferability of adversarial examples. We also create more accessible attacks using Universal Adversarial Perturbations which pose a very feasible attack scenario since they can be easily shared amongst attackers. We perform our evaluations on the winning entries of the DeepFake Detection Challenge (DFDC) and demonstrate that they can be easily bypassed in a practical attack scenario by designing transferable and accessible adversarial attacks.
翻訳日:2022-09-23 21:18:26 公開日:2020-11-19
# シーンの3Dレイアウトを予測するための学習

Learning to Predict the 3D Layout of a Scene ( http://arxiv.org/abs/2011.09977v1 )

ライセンス: Link先を確認
Jihao Andreas Lin, Jakob Br\"unker, Daniel F\"ahrmann(参考訳) これまで2Dオブジェクト検出は大幅に改善されてきたが、コンピュータビジョンの現実的な応用にはシーンの3Dレイアウトを理解する必要がある。 最近の3d検出では、lidar point cloudが予測に使われている。 本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。 rgb画像を使用することで、2次元検出器を3d検出ヘッドで拡張することで、最近の2dオブジェクト検出器の成熟度と成功を活用できる。 本稿では,この3次元検出ヘッドを設計するための回帰法と分類法を含む,異なるアプローチと実験について論じる。 さらに,サブプロブレムと実装の詳細が全体の予測結果に与える影響を評価する。 トレーニングにはkittiデータセットを使用し、クラスラベル付きストリートトラフィックシーン、2dバウンディングボックス、3dアノテーションの7自由度で構成されています。 最後のアーキテクチャは、より高速なR-CNNに基づいています。 畳み込みバックボーンの出力は、関心のあるすべての領域に対する固定サイズの特徴マップである。 ネットワークヘッド内の完全な連結層は、オブジェクトクラスを提案し、2Dバウンディングボックスレグレッションを実行する。 ネットワークヘッドを3d検出ヘッドで拡張し、分類によって3dバウンディングボックスのあらゆる自由度を予測する。 公式のkittiベンチマークで要求される3次元交差率70%で測定した中程度に難しいデータに対して平均47.3%の精度を達成し,従来の単一rgb法を大差で上回った。

While 2D object detection has improved significantly over the past, real world applications of computer vision often require an understanding of the 3D layout of a scene. Many recent approaches to 3D detection use LiDAR point clouds for prediction. We propose a method that only uses a single RGB image, thus enabling applications in devices or vehicles that do not have LiDAR sensors. By using an RGB image, we can leverage the maturity and success of recent 2D object detectors, by extending a 2D detector with a 3D detection head. In this paper we discuss different approaches and experiments, including both regression and classification methods, for designing this 3D detection head. Furthermore, we evaluate how subproblems and implementation details impact the overall prediction result. We use the KITTI dataset for training, which consists of street traffic scenes with class labels, 2D bounding boxes and 3D annotations with seven degrees of freedom. Our final architecture is based on Faster R-CNN. The outputs of the convolutional backbone are fixed sized feature maps for every region of interest. Fully connected layers within the network head then propose an object class and perform 2D bounding box regression. We extend the network head by a 3D detection head, which predicts every degree of freedom of a 3D bounding box via classification. We achieve a mean average precision of 47.3% for moderately difficult data, measured at a 3D intersection over union threshold of 70%, as required by the official KITTI benchmark; outperforming previous state-of-the-art single RGB only methods by a large margin.
翻訳日:2022-09-23 21:18:08 公開日:2020-11-19
# Cube++照明推定データセット

The Cube++ Illumination Estimation Dataset ( http://arxiv.org/abs/2011.10028v1 )

ライセンス: Link先を確認
Egor Ershov, Alex Savchik, Illya Semenkov, Nikola Bani\'c, Alexander Belokopytov, Daria Senshina, Karlo Koscevi\'c, Marko Suba\v{s}i\'c, Sven Lon\v{c}ari\'c(参考訳) 計算色濃度は、シーン照明が物体の色に与える影響を低減する重要なタスクである。 そのため、ほとんどのデジタルカメラの画像処理パイプラインには欠かせない部分である。 計算色定数の重要な部分の1つは、照明推定、すなわち照明色の推定である。 照明推定法を提案する場合、一般に利用可能なデータセットの画像から得られた誤差メトリクスの値を提供することで、その精度を報告する。 しかし、時間とともにこれらのデータセットの多くは、画像の不足、不適切な画質、シーンの多様性の欠如、バージョントラッキングの欠如、さまざまな仮定の違反、gdpr規制違反、追加の撮影手順情報の欠如などの問題を抱えていることが示されている。 本稿では,これらの問題の多くを緩和し,照明推定研究を支援するための新しい照明推定データセットを提案する。 既知の照明色を持つ4890の画像と、学習プロセスをより正確にするための追加のセマンティックデータで構成されている。 SpyderCubeのカラーターゲットを使用するため、各画像には異なる方向をカバーする2つの地中照度記録がある。 そのためデータセットは、単一または2つの照度推定を行うメソッドのトレーニングとテストに使用できる。 これにより、多くの類似したデータセットよりも優れている。 データセットはsimplecube++より小さく、関連するコードはhttps://github.com/visillect/cubeplus/で入手できる。

Computational color constancy has the important task of reducing the influence of the scene illumination on the object colors. As such, it is an essential part of the image processing pipelines of most digital cameras. One of the important parts of the computational color constancy is illumination estimation, i.e. estimating the illumination color. When an illumination estimation method is proposed, its accuracy is usually reported by providing the values of error metrics obtained on the images of publicly available datasets. However, over time it has been shown that many of these datasets have problems such as too few images, inappropriate image quality, lack of scene diversity, absence of version tracking, violation of various assumptions, GDPR regulation violation, lack of additional shooting procedure info, etc. In this paper, a new illumination estimation dataset is proposed that aims to alleviate many of the mentioned problems and to help the illumination estimation research. It consists of 4890 images with known illumination colors as well as with additional semantic data that can further make the learning process more accurate. Due to the usage of the SpyderCube color target, for every image there are two ground-truth illumination records covering different directions. Because of that, the dataset can be used for training and testing of methods that perform single or two-illuminant estimation. This makes it superior to many similar existing datasets. The datasets, it's smaller version SimpleCube++, and the accompanying code are available at https://github.com/Visillect/CubePlusPlus/.
翻訳日:2022-09-23 21:17:26 公開日:2020-11-19
# LiDARセグメンテーションのための円筒・非対称3次元畳み込みネットワーク

Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation ( http://arxiv.org/abs/2011.10033v1 )

ライセンス: Link先を確認
Xinge Zhu, Hui Zhou, Tai Wang, Fangzhou Hong, Yuexin Ma, Wei Li, Hongsheng Li, Dahua Lin(参考訳) 大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。 この会社は点雲の競争力を示しているが、必然的に3Dトポロジーと幾何学的関係を変更・放棄する。 自然な治療法は、3Dボクセル化と3D畳み込みネットワークを利用することである。 しかし、屋外の点雲では、このような方法で得られる改善は極めて限られていることがわかった。 重要な理由は、屋外の点雲の性質、すなわち空間密度と密度の変化である。 そこで本研究では, 円筒状分割と非対称な3次元畳み込みネットワークを設計し, これらの特性を維持しながら3次元幾何学的パタンを探索する, 屋外LiDARセグメンテーションの新しい枠組みを提案する。 さらに、ボクセルに基づくラベルエンコーディングの干渉を軽減するために、ポイントワイズリファインメントモジュールを導入する。 提案モデルを2つの大規模データセット,すなわちsemantickittiとnuscene上で評価する。 提案手法はセマンティックKITTIのリーダーボードにおける第1位を達成し,既存のnuScenesの手法を約4%のマージンで上回っている。 さらに、提案した3Dフレームワークは、LiDARのパノプティクスセグメンテーションやLiDARの3D検出にも適している。

State-of-the-art methods for large-scale driving-scene LiDAR segmentation often project the point clouds to 2D space and then process them via 2D convolution. Although this corporation shows the competitiveness in the point cloud, it inevitably alters and abandons the 3D topology and geometric relations. A natural remedy is to utilize the3D voxelization and 3D convolution network. However, we found that in the outdoor point cloud, the improvement obtained in this way is quite limited. An important reason is the property of the outdoor point cloud, namely sparsity and varying density. Motivated by this investigation, we propose a new framework for the outdoor LiDAR segmentation, where cylindrical partition and asymmetrical 3D convolution networks are designed to explore the 3D geometric pat-tern while maintaining these inherent properties. Moreover, a point-wise refinement module is introduced to alleviate the interference of lossy voxel-based label encoding. We evaluate the proposed model on two large-scale datasets, i.e., SemanticKITTI and nuScenes. Our method achieves the 1st place in the leaderboard of SemanticKITTI and outperforms existing methods on nuScenes with a noticeable margin, about 4%. Furthermore, the proposed 3D framework also generalizes well to LiDAR panoptic segmentation and LiDAR 3D detection.
翻訳日:2022-09-23 21:17:06 公開日:2020-11-19
# Dual Contradistinctive Generative Autoencoder

Dual Contradistinctive Generative Autoencoder ( http://arxiv.org/abs/2011.10063v1 )

ライセンス: Link先を確認
Gaurav Parmar, Dacheng Li, Kwonjoon Lee, Zhuowen Tu(参考訳) 本稿では, 同時推論(再構成)と合成(サンプリング)を行う生成自己エンコーダを改善するために, 二重不連続損失を持つ新たな生成自己エンコーダモデルを提案する。 本モデルはdual contradistinctive generative autoencoder (dc-vae) と名付けられ、インスタンスレベルの識別損失(再構築/合成のインスタンスレベルの忠実性を維持する)と、セットレベルの敵対的損失(構築/合成のためのセットレベルの忠実性を高める)を両立させる。 32x32, 64x64, 128x128, 512x512の異なる解像度のdc-vaeによる広範囲な実験結果が報告されている。 直流-VAEにおけるVAEの2つの不連続的な損失は、アーキテクチャ上の変更なしに、ベースラインのVAEに対して有意な質的かつ定量的な性能向上をもたらす。 画像再構成、画像合成、画像補間、表現学習のための生成的オートエンコーダの最先端または競争結果が観察される。 DC-VAEは汎用のVAEモデルであり、コンピュータビジョンや機械学習における様々な下流タスクに適用できる。

We present a new generative autoencoder model with dual contradistinctive losses to improve generative autoencoder that performs simultaneous inference (reconstruction) and synthesis (sampling). Our model, named dual contradistinctive generative autoencoder (DC-VAE), integrates an instance-level discriminative loss (maintaining the instance-level fidelity for the reconstruction/synthesis) with a set-level adversarial loss (encouraging the set-level fidelity for there construction/synthesis), both being contradistinctive. Extensive experimental results by DC-VAE across different resolutions including 32x32, 64x64, 128x128, and 512x512 are reported. The two contradistinctive losses in VAE work harmoniously in DC-VAE leading to a significant qualitative and quantitative performance enhancement over the baseline VAEs without architectural changes. State-of-the-art or competitive results among generative autoencoders for image reconstruction, image synthesis, image interpolation, and representation learning are observed. DC-VAE is a general-purpose VAE model, applicable to a wide variety of downstream tasks in computer vision and machine learning.
翻訳日:2022-09-23 21:16:40 公開日:2020-11-19
# 少数ショット学習のためのプロトタイプ適応型ハイブリッド一貫性トレーニング

Hybrid Consistency Training with Prototype Adaptation for Few-Shot Learning ( http://arxiv.org/abs/2011.10082v1 )

ライセンス: Link先を確認
Meng Ye, Xiao Lin, Giedrius Burachas, Ajay Divakaran, Yi Yao(参考訳) FSL(Few-Shot Learning)は、低データ状態におけるモデルの一般化能力を改善することを目的としている。 近年のFSL研究は,メートル法学習,メタラーニング,表現学習などを通じて着実に進展している。 しかし、FSLは以下の長期にわたる困難のため、依然として挑戦的である。 1)見学クラスと見学クラスは相容れないため、トレーニングとテストの間に分散シフトが生じます。 2) テスト中は,ラベル付きサポート例からラベル付きクエリ例まで,ラベル付きサポート例を確実に外挿することが困難になる。 最初の課題に取り組むために、リニアな振る舞いを局所的に課する補間機能や、サンプルのバリエーションに対する堅牢な埋め込みを学習するデータ拡張一貫性など、補間一貫性を併用するハイブリッド一貫性トレーニングを導入する。 第2の課題は、プロトタイプベースのトランスダクティブ推論をより信頼性の高いものにするため、未ラベルの例を使用して機能を反復的に正規化し、プロトタイプに適応することです。 提案手法は,5つのFSLデータセットに類似したバックボーンを持つ最先端の手法よりも2%から5%改善し,さらに,より難易度の高いドメイン間FSLでは7%から8%改善した。

Few-Shot Learning (FSL) aims to improve a model's generalization capability in low data regimes. Recent FSL works have made steady progress via metric learning, meta learning, representation learning, etc. However, FSL remains challenging due to the following longstanding difficulties. 1) The seen and unseen classes are disjoint, resulting in a distribution shift between training and testing. 2) During testing, labeled data of previously unseen classes is sparse, making it difficult to reliably extrapolate from labeled support examples to unlabeled query examples. To tackle the first challenge, we introduce Hybrid Consistency Training to jointly leverage interpolation consistency, including interpolating hidden features, that imposes linear behavior locally and data augmentation consistency that learns robust embeddings against sample variations. As for the second challenge, we use unlabeled examples to iteratively normalize features and adapt prototypes, as opposed to commonly used one-time update, for more reliable prototype-based transductive inference. We show that our method generates a 2% to 5% improvement over the state-of-the-art methods with similar backbones on five FSL datasets and, more notably, a 7% to 8% improvement for more challenging cross-domain FSL.
翻訳日:2022-09-23 21:16:18 公開日:2020-11-19
# HMFlow:小型・高速運動物体のためのハイブリッドマッチング光フローネットワーク

HMFlow: Hybrid Matching Optical Flow Network for Small and Fast-Moving Objects ( http://arxiv.org/abs/2011.09654v1 )

ライセンス: Link先を確認
Suihanjin Yu, Youmin Zhang, Chen Wang, Xiao Bai, Liang Zhang, Edwin R. Hancock(参考訳) オプティカルフロー推定タスクでは,大きな変位問題に対処し,効率と速度を提供するために,粗粒度対細(c2f)制動戦略が広く用いられている。 しかし、第1画像と第2画像の間の小さな探索範囲によって制限されているため、現在の粗い微細な光フローネットワークは、粗い解像度レベルで消える小さく速く動く物体を捕捉することができない。 この問題に対処するため,GMC(Global Matching Component)を導入し,グローバルマッチング機能を実現する。 本稿では,GMCを既存の粗大なネットワークにシームレスに統合し,新しいHMM(Hybrid Matching Optical Flow Network)を提案する。 提案するHMFlowは,高精度でモデルサイズが小さいだけでなく,グローバルなマッチング機能を用いて,局所的なマッチング機能にミスマッチした小型で高速な移動物体の発見を誘導することができる。 評価のための新しいデータセット、small and fast-moving chairs(sfchairs)も構築しました。 実験の結果,提案ネットワークは,特に小型で高速に移動可能な領域において,かなりの性能を発揮することがわかった。

In optical flow estimation task, coarse-to-fine (C2F) warping strategy is widely used to deal with the large displacement problem and provides efficiency and speed. However, limited by the small search range between the first images and warped second images, current coarse-to-fine optical flow networks fail to capture small and fast-moving objects which disappear at coarse resolution levels. To address this problem, we introduce a lightweight but effective Global Matching Component (GMC) to grab global matching features. We propose a new Hybrid Matching Optical Flow Network (HMFlow) by integrating GMC into existing coarse-to-fine networks seamlessly. Besides keeping in high accuracy and small model size, our proposed HMFlow can apply global matching features to guide the network to discover the small and fast-moving objects mismatched by local matching features. We also build a new dataset, named Small and Fast-Moving Chairs (SFChairs), for evaluation. The experimental results show that our proposed network achieves considerable performance, especially at regions with small and fast-moving objects.
翻訳日:2022-09-23 21:10:21 公開日:2020-11-19
# 正準領域検出によるデフォーカスブラ検出

Defocus Blur Detection via Salient Region Detection Prior ( http://arxiv.org/abs/2011.09677v1 )

ライセンス: Link先を確認
Ming Qian and Min Xia and Chunyi Sun and Zhiwei Wang and Liguo Weng(参考訳) デジタル一眼レフカメラ(DSLR: Digital Single Lens Reflex Camera)で撮影した写真では、デフォーカスのぼやけが常に起こっている。 Defocus blur Detectionは、画像の焦点領域と深度領域を分離することを目的としている。 現在のデフォーカスブラー検出の研究は主にネットワークの設計、損失関数の最適化、マルチストリーム戦略の適用に焦点を当てているが、これらの研究はトレーニングデータの不足に注意を払っていない。 本研究では,上記のデータ短縮問題に対処するために,デフォーカスボケ検出とサルエント領域検出という2つのタスク間の関係を再考する。 ボケ効果の画像では,ほとんどの場合,塩分領域と深度領域が重複していることが明らかである。 そこで,まずネットワークを高度領域検出タスクでトレーニングし,その後,事前学習したモデルをデフォーカスボケ検出タスクに転送する。 さらに,デフォーカスブラー検出のための新しいネットワークを提案する。 実験により、転送戦略は多くの現行モデルでうまく機能し、ネットワークの優位性を実証した。

Defocus blur always occurred in photos when people take photos by Digital Single Lens Reflex Camera(DSLR), giving salient region and aesthetic pleasure. Defocus blur Detection aims to separate the out-of-focus and depth-of-field areas in photos, which is an important work in computer vision. Current works for defocus blur detection mainly focus on the designing of networks, the optimizing of the loss function, and the application of multi-stream strategy, meanwhile, these works do not pay attention to the shortage of training data. In this work, to address the above data-shortage problem, we turn to rethink the relationship between two tasks: defocus blur detection and salient region detection. In an image with bokeh effect, it is obvious that the salient region and the depth-of-field area overlap in most cases. So we first train our network on the salient region detection tasks, then transfer the pre-trained model to the defocus blur detection tasks. Besides, we propose a novel network for defocus blur detection. Experiments show that our transfer strategy works well on many current models, and demonstrate the superiority of our network.
翻訳日:2022-09-23 21:09:59 公開日:2020-11-19
# スタイル介入:スタイルベースのジェネレータで空間的絡み合いを実現するには?

Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators? ( http://arxiv.org/abs/2011.09699v1 )

ライセンス: Link先を確認
Yunfan Liu, Qi Li, Zhenan Sun, Tieniu Tan(参考訳) スタイルベースジェネレータ(例えばStyleGAN)を用いたGAN(Generative Adversarial Networks)は、画像合成のセマンティックコントロールをうまく実現し、近年の研究により、潜時コードを変更することで解釈可能な画像翻訳が得られることが明らかになった。 しかし、低レベルの画像コンテンツに関しては、潜在空間を移動すると対応する画像に「散発的に絡み合った変更」が起こるため、ローカル編集が必要な多くの実世界のアプリケーションでは望ましくない。 そこで本研究では,「スタイル空間」の特性を解析し,事前学習したスタイル・ジェネレータを用いて局所翻訳を制御する可能性を検討する。 具体的には,任意の入力画像に適応し,柔軟な目的の下で自然な翻訳効果を提示できる軽量な最適化に基づくアルゴリズムである「スタイル介入」を提案する。 フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集におけるフレームワークの性能を検証する。 また,本手法の有効性を定量的に評価したところ,提案アルゴリズムは様々な面で最先端のベンチマークよりも優れていることがわかった。

Generative Adversarial Networks (GANs) with style-based generators (e.g. StyleGAN) successfully enable semantic control over image synthesis, and recent studies have also revealed that interpretable image translations could be obtained by modifying the latent code. However, in terms of the low-level image content, traveling in the latent space would lead to `spatially entangled changes' in corresponding images, which is undesirable in many real-world applications where local editing is required. To solve this problem, we analyze properties of the 'style space' and explore the possibility of controlling the local translation with pre-trained style-based generators. Concretely, we propose 'Style Intervention', a lightweight optimization-based algorithm which could adapt to arbitrary input images and render natural translation effects under flexible objectives. We verify the performance of the proposed framework in facial attribute editing on high-resolution images, where both photo-realism and consistency are required. Extensive qualitative results demonstrate the effectiveness of our method, and quantitative measurements also show that the proposed algorithm outperforms state-of-the-art benchmarks in various aspects.
翻訳日:2022-09-23 21:09:19 公開日:2020-11-19
# 3次元分解による顔偽造検出

Face Forgery Detection by 3D Decomposition ( http://arxiv.org/abs/2011.09737v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Hao Wang, Hongyan Fei, Zhen Lei, Stan Z. Li(参考訳) 偽メディアが大衆に害を与える恐れがあるため、デジタル顔認証が注目されている。 しかし、近年の進歩により偽造信号を低等級に減らすことができた。 画像をいくつかの構成要素に可逆的に分解する分解は、隠された偽造の詳細をハイライトする有望な方法である。 本稿では,顔画像を基礎となる3次元幾何学と照明環境の介入の産物とみなし,それをコンピュータグラフィックスビューで分解する。 具体的には、顔画像を3d形状、共通のテクスチャ、アイデンティティテクスチャ、環境光、そして直接光に分解することで、悪魔は直接の光とアイデンティティテクスチャにあることが分かる。 そこで本研究では, 直接光と識別テクスチャを組み合わせた顔のディテールを, 微妙な偽造パターンを検出する手がかりとして活用することを提案する。 さらに,操作された領域を監視対象の注意機構で強調し,顔画像と顔の細部の両方をマルチモーダルタスクとして活用する2ストリーム構造を導入する。 顔の細部から抽出した余分な特徴の有効性を広範な実験により示し, 最先端の性能を実現する。

Detecting digital face manipulation has attracted extensive attention due to fake media's potential harms to the public. However, recent advances have been able to reduce the forgery signals to a low magnitude. Decomposition, which reversibly decomposes an image into several constituent elements, is a promising way to highlight the hidden forgery details. In this paper, we consider a face image as the production of the intervention of the underlying 3D geometry and the lighting environment, and decompose it in a computer graphics view. Specifically, by disentangling the face image into 3D shape, common texture, identity texture, ambient light, and direct light, we find the devil lies in the direct light and the identity texture. Based on this observation, we propose to utilize facial detail, which is the combination of direct light and identity texture, as the clue to detect the subtle forgery patterns. Besides, we highlight the manipulated region with a supervised attention mechanism and introduce a two-stream structure to exploit both face image and facial detail together as a multi-modality task. Extensive experiments indicate the effectiveness of the extra features extracted from the facial detail, and our method achieves the state-of-the-art performance.
翻訳日:2022-09-23 21:08:56 公開日:2020-11-19
# カスケードテキストストローク検出と消去によるシーンの除去

Scene text removal via cascaded text stroke detection and erasing ( http://arxiv.org/abs/2011.09768v1 )

ライセンス: Link先を確認
Xuewei Bian, Chaoqun Wang, Weize Quan, Juntao Ye, Xiaopeng Zhang, Dong-Ming Yan(参考訳) 近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。 しかし、これらの手法は典型的には一部のテキストを残し、視覚的に不快な結果を得る。 本研究では,高精度なテキストストローク検出に基づく"エンドツーエンド"フレームワークを提案する。 具体的には,テキスト除去問題をテキストストローク検出とストローク除去に分離する。 テキストストローク検出ネットワークとテキスト除去生成ネットワークを設計し,これら2つのサブ課題を別々に解決する。 そして、これらの2つのネットワークを処理ユニットとして組み合わせ、このユニットをカスケードして、テキスト除去の最終モデルを得る。 実験の結果,提案手法はシーンテキストの検索と消去において,最先端の手法よりも優れていた。 現在公開されているデータセットはすべて合成されており、異なるメソッドのパフォーマンスを適切に測定できないため、我々は関連する研究を促進するために新しい実世界のデータセットを構築します。

Recent learning-based approaches show promising performance improvement for scene text removal task. However, these methods usually leave some remnants of text and obtain visually unpleasant results. In this work, we propose a novel "end-to-end" framework based on accurate text stroke detection. Specifically, we decouple the text removal problem into text stroke detection and stroke removal. We design a text stroke detection network and a text removal generation network to solve these two sub-problems separately. Then, we combine these two networks as a processing unit, and cascade this unit to obtain the final model for text removal. Experimental results demonstrate that the proposed method significantly outperforms the state-of-the-art approaches for locating and erasing scene text. Since current publicly available datasets are all synthetic and cannot properly measure the performance of different methods, we therefore construct a new real-world dataset, which will be released to facilitate the relevant research.
翻訳日:2022-09-23 21:08:35 公開日:2020-11-19
# 時空間クラスタリングによる時空間ビデオシーンテキストの検出に向けて

Towards Spatio-Temporal Video Scene Text Detection via Temporal Clustering ( http://arxiv.org/abs/2011.09781v1 )

ライセンス: Link先を確認
Yuanqiang Cai, Chang Liu, Weiqiang Wang, Qixiang Ye(参考訳) 空間領域におけるバウンディングボックスアノテーションのみにより、既存のビデオシーンテキスト検出(VSTD)ベンチマークでは、ビデオフレーム間のテキストインスタンスの時間的関係が欠如しており、ビデオテキスト関連アプリケーションの開発を妨げている。 本稿では、STVText4と呼ばれる大規模ベンチマーク、よく設計された時空間検出基準(STDM)、時間クラスタリング(TC)と呼ばれる新しいクラスタリングベースのベースライン手法を体系的に導入する。 stvtext4はst-vstd(st-vstd)と呼ばれるvstdの挑戦的で有望な方向性を開き、空間領域と時間領域の両方でビデオシーンのテキストを同時に検出する。 STVText4には、106ビデオの161,347の動画フレームから14万件以上のテキストインスタンスが含まれており、各インスタンスには、空間境界ボックスと時間範囲だけでなく、可視性、密度、スケール、ライフサイクルを含む4つの固有の属性が注釈付けされている。 ビデオシーケンスにおける同一テキストの連続的な伝播により、TCは、ST-VSTDの強いベースラインとなるテキストの空間的四辺及び時間範囲を正確に出力することができる。 実験により,本手法の有効性とSTVText4の学術的,実践的価値を実証した。 データセットとコードは近く提供される。

With only bounding-box annotations in the spatial domain, existing video scene text detection (VSTD) benchmarks lack temporal relation of text instances among video frames, which hinders the development of video text-related applications. In this paper, we systematically introduce a new large-scale benchmark, named as STVText4, a well-designed spatial-temporal detection metric (STDM), and a novel clustering-based baseline method, referred to as Temporal Clustering (TC). STVText4 opens a challenging yet promising direction of VSTD, termed as ST-VSTD, which targets at simultaneously detecting video scene texts in both spatial and temporal domains. STVText4 contains more than 1.4 million text instances from 161,347 video frames of 106 videos, where each instance is annotated with not only spatial bounding box and temporal range but also four intrinsic attributes, including legibility, density, scale, and lifecycle, to facilitate the community. With continuous propagation of identical texts in the video sequence, TC can accurately output the spatial quadrilateral and temporal range of the texts, which sets a strong baseline for ST-VSTD. Experiments demonstrate the efficacy of our method and the great academic and practical value of the STVText4. The dataset and code will be available soon.
翻訳日:2022-09-23 21:08:23 公開日:2020-11-19
# DeepMorph: 可変ベクトル描画におけるビットストリングの抑制システム

DeepMorph: A System for Hiding Bitstrings in Morphable Vector Drawings ( http://arxiv.org/abs/2011.09783v1 )

ライセンス: Link先を確認
S{\o}ren Rasmussen, Karsten {\O}stergaard Noe, Oliver Gyldenberg Hjermitslev and Henrik Pedersen(参考訳) ベクトル描画のための情報埋め込み手法であるdeepmorphを提案する。 スケーラブルベクターグラフィックス(svg)ファイルのようなベクター描画を提供し、描画プリミティブ(線、円など)を摂動させることで、画像にビット文字列を埋め込む。 これにより、元のビットストリングを復元するためにデコードできるモルヒド画像が得られる。 このユースケースは、よく知られたQRコードに似ているが、われわれのソリューションは、クリエイティブたちに自分のデザインの図面を通してデジタル情報を転送する芸術的自由を提供する。 この方法は、共同で訓練された2つのニューラルネットワークと、ビットストリングを描画プリミティブの摂動に変換するエンコーダネットワークと、変形した描画の画像からビットストリングを回復するデコーダネットワークとを含む。 バックプロパゲーションによるエンドツーエンドのトレーニングを可能にするために,描画プリミティブの摂動に対して異なるソフトラスタライザを導入する。 実世界の撮像条件にロバスト性を加えるために、ソフトラスタライザとデコーダの間に画像破損を注入する。 さらに、オブジェクト検出およびカメラポーズ推定システムの追加により、複雑なシーンにおける図面のデコードや、拡張現実アプリケーションで使用するマーカーとしての図面の利用が可能になる。 本手法は,印刷された絵の実際の写真からビットストリングを確実に回収し,創造者が芸術的画像を介してデジタル情報を転送するための新しいソリューションを提供する。

We introduce DeepMorph, an information embedding technique for vector drawings. Provided a vector drawing, such as a Scalable Vector Graphics (SVG) file, our method embeds bitstrings in the image by perturbing the drawing primitives (lines, circles, etc.). This results in a morphed image that can be decoded to recover the original bitstring. The use-case is similar to that of the well-known QR code, but our solution provides creatives with artistic freedom to transfer digital information via drawings of their own design. The method comprises two neural networks, which are trained jointly: an encoder network that transforms a bitstring into a perturbation of the drawing primitives, and a decoder network that recovers the bitstring from an image of the morphed drawing. To enable end-to-end training via back propagation, we introduce a soft rasterizer, which is differentiable with respect to perturbations of the drawing primitives. In order to add robustness towards real-world image capture conditions, image corruptions are injected between the soft rasterizer and the decoder. Further, the addition of an object detection and camera pose estimation system enables decoding of drawings in complex scenes as well as use of the drawings as markers for use in augmented reality applications. We demonstrate that our method reliably recovers bitstrings from real-world photos of printed drawings, thereby providing a novel solution for creatives to transfer digital information via artistic imagery.
翻訳日:2022-09-23 21:07:58 公開日:2020-11-19
# 動的ランク1畳み込みによるインスタンスとパノプティックセグメンテーションの統一

Unifying Instance and Panoptic Segmentation with Dynamic Rank-1 Convolutions ( http://arxiv.org/abs/2011.09796v1 )

ライセンス: Link先を確認
Hao Chen, Chunhua Shen, Zhi Tian(参考訳) 近年、完全畳み込み型1段階ネットワークは、例えばセグメンテーションのような2段階フレームワークに比べて優れた性能を示しており、計算量が少なく高品質のマスク予測を生成できる。 さらに、彼らのシンプルなデザインは、共同マルチタスク学習の新しい機会を開く。 本稿では, セマンティックセグメンテーションのための単一分類層, 完全畳み込みインスタンスセグメンテーションネットワークが, 最先端のパン光学セグメンテーション品質を実現することを実証する。 これは、セマンティックとインスタンスセグメンテーションの両方に有用な低レベルの詳細な特徴と高レベルのコンテキスト情報を効率的にマージできる新しい動的モジュールであるDR1Convによって実現されている。 重要な点として,提案手法であるdr1maskでは,単一層を付加することでパノプティカルセグメンテーションを行うことができる。 我々の知る限り、DR1Maskは、インスタンスとセマンティックセマンティックセマンティクスの両方の共有機能マップを有効性と効率の両方を考慮して活用する最初の単眼セマンティクスフレームワークである。 私たちのフレームワークの方がずっと効率的です -- 以前の最高の2つの分岐アプローチの2倍の速度ですが、統一されたフレームワークは、両方のタスクのパフォーマンスを改善するために同じコンテキストモジュールを使用する機会を開きます。 副産物として、インスタンスセグメンテーションのみを実行する場合、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。 コードは、https://git.io/AdelaiDet.comで入手できる。

Recently, fully-convolutional one-stage networks have shown superior performance comparing to two-stage frameworks for instance segmentation as typically they can generate higher-quality mask predictions with less computation. In addition, their simple design opens up new opportunities for joint multi-task learning. In this paper, we demonstrate that adding a single classification layer for semantic segmentation, fully-convolutional instance segmentation networks can achieve state-of-the-art panoptic segmentation quality. This is made possible by our novel dynamic rank-1 convolution (DR1Conv), a novel dynamic module that can efficiently merge high-level context information with low-level detailed features which is beneficial for both semantic and instance segmentation. Importantly, the proposed new method, termed DR1Mask, can perform panoptic segmentation by adding a single layer. To our knowledge, DR1Mask is the first panoptic segmentation framework that exploits a shared feature map for both instance and semantic segmentation by considering both efficacy and efficiency. Not only our framework is much more efficient -- twice as fast as previous best two-branch approaches, but also the unified framework opens up opportunities for using the same context module to improve the performance for both tasks. As a byproduct, when performing instance segmentation alone, DR1Mask is 10% faster and 1 point in mAP more accurate than previous state-of-the-art instance segmentation network BlendMask. Code is available at: https://git.io/AdelaiDet
翻訳日:2022-09-23 21:07:34 公開日:2020-11-19
# 事前学習された言語モデルは、オープンドメインの対話を理解できるか?

Are Pre-trained Language Models Knowledgeable to Ground Open Domain Dialogues? ( http://arxiv.org/abs/2011.09708v1 )

ライセンス: Link先を確認
Yufan Zhao, Wei Wu, Can Xu(参考訳) 事前学習言語モデルを用いた知識基底対話生成について検討する。 ベンチマークで新たな最先端を追求する代わりに、事前トレーニングされたモデルのパラメータに格納された知識が、既にオープンドメインの対話をグラウンドするのに十分なものであるかどうかを理解し、それによって、生成時の外部の知識ソースへの依存性を取り除こうと試みます。 ベンチマーク実験を通じて、知識を含むいくつかの対話を微調整することで、事前学習された言語モデルは、自動評価と人的判断において外部知識を必要とする最先端のモデルよりも優れており、私たちが提起した質問に対する肯定的な回答が示唆されている。

We study knowledge-grounded dialogue generation with pre-trained language models. Instead of pursuing new state-of-the-art on benchmarks, we try to understand if the knowledge stored in parameters of the pre-trained models is already enough to ground open domain dialogues, and thus allows us to get rid of the dependency on external knowledge sources in generation. Through extensive experiments on benchmarks, we find that by fine-tuning with a few dialogues containing knowledge, the pre-trained language models can outperform the state-of-the-art model that requires external knowledge in automatic evaluation and human judgment, suggesting a positive answer to the question we raised.
翻訳日:2022-09-23 21:00:46 公開日:2020-11-19
# 階層グラフマスクを用いたBERT上のFact-level ExtractiveSummarization

Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT ( http://arxiv.org/abs/2011.09739v1 )

ライセンス: Link先を確認
Ruifeng Yuan, Zili Wang, Wenjie Li(参考訳) 現在の抽出要約モデルのほとんどは、有能な文を選択して要約を生成する。 しかし, 文章レベルの抽出要約の問題点の1つは, 人間の筆記した金の要約とオラクルの文ラベルとの間にギャップがあることである。 本稿では,より優れた抽出的要約のためのファクトレベルの意味単位を抽出することを提案する。 また,テキスト情報の多層的な粒度をモデルに組み込んだ階層構造も導入する。 さらに、階層グラフマスクを用いてBERTにモデルを組み込む。 これにより、モデルを拡大することなく、自然言語理解におけるBERTの能力と構造情報を組み合わせることができる。 CNN/DaliyMailデータセットの実験は、我々のモデルが最先端の結果を得ることを示す。

Most current extractive summarization models generate summaries by selecting salient sentences. However, one of the problems with sentence-level extractive summarization is that there exists a gap between the human-written gold summary and the oracle sentence labels. In this paper, we propose to extract fact-level semantic units for better extractive summarization. We also introduce a hierarchical structure, which incorporates the multi-level of granularities of the textual information into the model. In addition, we incorporate our model with BERT using a hierarchical graph mask. This allows us to combine BERT's ability in natural language understanding and the structural information without increasing the scale of the model. Experiments on the CNN/DaliyMail dataset show that our model achieves state-of-the-art results.
翻訳日:2022-09-23 21:00:32 公開日:2020-11-19
# オンラインNLUツールは必要か?

Do We Need Online NLU Tools? ( http://arxiv.org/abs/2011.09825v1 )

ライセンス: Link先を確認
Petr Lorenc, Petr Marek, Jan Pichl, Jakub Konr\'ad and Jan \v{S}ediv\'y(参考訳) 意図認識は、あらゆる会話型AIアプリケーションに不可欠なアルゴリズムである。 入力メッセージを意味のあるクラスに分類する責任がある。 多くのボット開発プラットフォームでは、NLUパイプラインの設定が可能です。 現在、いくつかのインテント認識サービスがAPIとして利用可能です。 しかし、意図認識サービスとオープンソースアルゴリズムの比較は存在しない。 多くの要因により、インテント認識に対する正しいアプローチの選択が実際に難しい。 本稿では,アプリケーションに最適な意図認識アルゴリズムを選択するための基準を提案する。 評価のためのデータセットを提案する。 最後に,公開nluサービスとインテント認識のためのオープンソースアルゴリズムを比較した。

The intent recognition is an essential algorithm of any conversational AI application. It is responsible for the classification of an input message into meaningful classes. In many bot development platforms, we can configure the NLU pipeline. Several intent recognition services are currently available as an API, or we choose from many open-source alternatives. However, there is no comparison of intent recognition services and open-source algorithms. Many factors make the selection of the right approach to the intent recognition challenging in practice. In this paper, we suggest criteria to choose the best intent recognition algorithm for an application. We present a dataset for evaluation. Finally, we compare selected public NLU services with selected open-source algorithms for intent recognition.
翻訳日:2022-09-23 21:00:11 公開日:2020-11-19
# マルチモーダル主観的文脈モデリングと認識

Multi-Modal Subjective Context Modelling and Recognition ( http://arxiv.org/abs/2011.09671v1 )

ライセンス: Link先を確認
Qiang Shen and Stefano Teso and Wanyi Zhang and Hao Xu and Fausto Giunchiglia(参考訳) パーソナルアシスタントのようなアプリケーションは、ユーザのコンテキスト、例えば、どこにいて、何をしているか、誰と一緒にいるのかを認識する必要があります。 コンテキスト情報は通常、ユーザのスマートフォン上のgpsセンサーや加速度計など、センサデータから推測される。 この予測タスクはコンテキスト認識と呼ばれる。 適切に定義されたコンテキストモデルは、認識を成功させるために基本となる。 しかし、既存のモデルには2つの大きな制限がある。 まず、位置や活動など、少数の側面に焦点を当てる。つまり、テーマに基づく認識手法は、アスペクト間相関の少ない計算と利用しかできない。 第二に、既存のモデルは一般的にコンテキストが客観的であると仮定するが、ほとんどのアプリケーションではコンテキストがユーザの視点から最もよく見える。 これらの要因を無視することは、文脈モデルの有用性を制限し、認識を妨げる。 我々は,時間,場所,活動,社会的関係,対象の5次元を捉える新しい存在論的文脈モデルを提案する。 さらに,本モデルは,主観的アノテーションと推論を自然にサポートする3つの記述レベル(目的的コンテキスト,機械的コンテキスト,主観的コンテキスト)を定義している。

Applications like personal assistants need to be aware ofthe user's context, e.g., where they are, what they are doing, and with whom. Context information is usually inferred from sensor data, like GPS sensors and accelerometers on the user's smartphone. This prediction task is known as context recognition. A well-defined context model is fundamental for successful recognition. Existing models, however, have two major limitations. First, they focus on few aspects, like location or activity, meaning that recognition methods based onthem can only compute and leverage few inter-aspect correlations. Second, existing models typically assume that context is objective, whereas in most applications context is best viewed from the user's perspective. Neglecting these factors limits the usefulness of the context model and hinders recognition. We present a novel ontological context model that captures five dimensions, namely time, location, activity, social relations and object. Moreover, our model defines three levels of description(objective context, machine context and subjective context) that naturally support subjective annotations and reasoning.An initial context recognition experiment on real-world data hints at the promise of our model.
翻訳日:2022-09-23 20:59:43 公開日:2020-11-19
# 計画空間説明による反復計画:ツールとユーザスタディ

Iterative Planning with Plan-Space Explanations: A Tool and User Study ( http://arxiv.org/abs/2011.09705v1 )

ライセンス: Link先を確認
Rebecca Eifler and J\"org Hoffmann(参考訳) さまざまなアプリケーション設定において、計画タスクのユーザの好み - 正確な最適化の目的 - を導き出すことは困難である。 考えられる改善の1つは、反復的なプロセスとして計画し、ユーザが反復的にサンプル計画を洗練し修正できるようにすることである。 このようなプロセスをサポートするための重要なステップは、現在の計画に関するユーザの質問に答える説明である。 特に、関連する質問は「なぜ$p$を満たさない計画を提案するのか? このような問題は計画空間、すなわち可能な代替計画の集合に関係している。 プランとプロパティの依存関係という観点で、このような質問に答える最近のアプローチを採用し、プランとスペースの説明を含む、人間主導の反復計画のためのツールとユーザインターフェースを実装します。 このツールは標準のWebブラウザで動作し、開発者とユーザの両方にシンプルなユーザーインターフェイスを提供する。 本研究は,反復計画における計画属性依存説明の有用性を示す最初のユーザ調査を行う。

In a variety of application settings, the user preference for a planning task - the precise optimization objective - is difficult to elicit. One possible remedy is planning as an iterative process, allowing the user to iteratively refine and modify example plans. A key step to support such a process are explanations, answering user questions about the current plan. In particular, a relevant kind of question is "Why does the plan you suggest not satisfy $p$?", where p is a plan property desirable to the user. Note that such a question pertains to plan space, i.e., the set of possible alternative plans. Adopting the recent approach to answer such questions in terms of plan-property dependencies, here we implement a tool and user interface for human-guided iterative planning including plan-space explanations. The tool runs in standard Web browsers, and provides simple user interfaces for both developers and users. We conduct a first user study, whose outcome indicates the usefulness of plan-property dependency explanations in iterative planning.
翻訳日:2022-09-23 20:59:22 公開日:2020-11-19
# 限られた予算によるMOEA/Dの実環境問題における制約処理手法の探索

Exploring Constraint Handling Techniques in Real-world Problems on MOEA/D with Limited Budget of Evaluations ( http://arxiv.org/abs/2011.09722v1 )

ライセンス: Link先を確認
Felipe Vaz, Yuri Lavinas, Claus Aranha and Marcelo Ladeira(参考訳) 多目的最適化(MOP)問題に対する優れた解を見つけることは、特に制約のあるMOPを考える場合、難しい問題と考えられる。 したがって、mopのコンテキストにおけるほとんどの作業は、異なる制約がmopソルバのパフォーマンスにどのように影響するかを深く調べていない。 ここでは、複雑な実世界のMOPを解く際によく用いられるMOEA/Dに対する異なる制約処理技術(CHT)の効果について検討する。 さらに,決定空間である三段階罰則の探索に焦点を当てた簡易かつ効果的なCHTを導入する。 これらのCHTをMOEA/Dで2つの模擬MOPと6つの解析MOP(合計8つ)で探索する。 本研究の結果は,最も優れたCHTは問題依存であるが,本提案の3段階罰則は,ハードシミュレートカー設計のMOPにおける超体積値の競争結果と顕著な性能を達成できることを示す。

Finding good solutions for Multi-objective Optimization (MOPs) Problems is considered a hard problem, especially when considering MOPs with constraints. Thus, most of the works in the context of MOPs do not explore in-depth how different constraints affect the performance of MOP solvers. Here, we focus on exploring the effects of different Constraint Handling Techniques (CHTs) on MOEA/D, a commonly used MOP solver when solving complex real-world MOPs. Moreover, we introduce a simple and effective CHT focusing on the exploration of the decision space, the Three Stage Penalty. We explore each of these CHTs in MOEA/D on two simulated MOPs and six analytic MOPs (eight in total). The results of this work indicate that while the best CHT is problem-dependent, our new proposed Three Stage Penalty achieves competitive results and remarkable performance in terms of hypervolume values in the hard simulated car design MOP.
翻訳日:2022-09-23 20:59:07 公開日:2020-11-19
# 計測誤差を考慮したベイズネットワーク構造学習の改善

Improving Bayesian Network Structure Learning in the Presence of Measurement Error ( http://arxiv.org/abs/2011.09776v1 )

ライセンス: Link先を確認
Yang Liu, Anthony C. Constantinou, ZhiGao Guo(参考訳) ベイジアンネットワークのグラフを観測データから学習する構造学習アルゴリズムは、データが変数の真の分布を正しく反映していると仮定することで、しばしばそうする。 しかし、この仮定は測定誤差の存在下では成立せず、スプリアスエッジにつながる可能性がある。 これらのアルゴリズムの合成性能が実世界の性能を過大評価する理由の1つである。 本稿では,任意の構造学習アルゴリズムの最後に追加学習フェーズとして追加でき,潜在的な偽正のエッジを除去する補正学習フェーズとして機能するアルゴリズムについて述べる。 その結果,提案アルゴリズムは,測定誤差の存在下で異なる学習クラスにまたがる4つの確立された構造学習アルゴリズムのグラフィカルスコアを改善することができた。

Structure learning algorithms that learn the graph of a Bayesian network from observational data often do so by assuming the data correctly reflect the true distribution of the variables. However, this assumption does not hold in the presence of measurement error, which can lead to spurious edges. This is one of the reasons why the synthetic performance of these algorithms often overestimates real-world performance. This paper describes an algorithm that can be added as an additional learning phase at the end of any structure learning algorithm, and serves as a correction learning phase that removes potential false positive edges. The results show that the proposed correction algorithm successfully improves the graphical score of four well-established structure learning algorithms spanning different classes of learning in the presence of measurement error.
翻訳日:2022-09-23 20:58:50 公開日:2020-11-19
# 逆役割を持つホーン記述論理における保守的拡張

Conservative Extensions in Horn Description Logics with Inverse Roles ( http://arxiv.org/abs/2011.09858v1 )

ライセンス: Link先を確認
Jean Christoph Jung, Carsten Lutz, Mauricio Martel, Thomas Schneider(参考訳) 本研究では,保存的拡張の決定可能性と計算複雑性,および逆役割を持つホーン記述論理 (dls) の分離可能性と関連概念について検討する。 我々は,すべての連結クエリに対する回答が変更されないこと,概念包含,役割包含,機能アサーションが変更されないこと,といった帰納的保存拡張について,クエリ保存拡張と定義した。 問合せ保存拡大の上限は、決定可能性を確立するための標準アプローチの基礎である普遍モデル間の非有界準同型の観点からのキャラクタリゼーションが逆役割の存在下で失敗するため、特に困難である。 我々は、非有界準同型と有界準同型を慎重に混合し、ツリーオートマトンとモザイク技法を組み合わせた決定手順を可能にする特徴付けに頼る。 本研究の主な成果は,ELI と Horn-ALCHIF と Horn-ALC と Horn-ALCHIF 間の全ての DL において2ExpTime 完全であり,ELHIF_\bot 間の全ての DL において2ExpTime 完全である。 同じ結果が不分離性や補足性にも当てはまる。

We investigate the decidability and computational complexity of conservative extensions and the related notions of inseparability and entailment in Horn description logics (DLs) with inverse roles. We consider both query conservative extensions, defined by requiring that the answers to all conjunctive queries are left unchanged, and deductive conservative extensions, which require that the entailed concept inclusions, role inclusions, and functionality assertions do not change. Upper bounds for query conservative extensions are particularly challenging because characterizations in terms of unbounded homomorphisms between universal models, which are the foundation of the standard approach to establishing decidability, fail in the presence of inverse roles. We resort to a characterization that carefully mixes unbounded and bounded homomorphisms and enables a decision procedure that combines tree automata and a mosaic technique. Our main results are that query conservative extensions are 2ExpTime-complete in all DLs between ELI and Horn-ALCHIF and between Horn-ALC and Horn-ALCHIF, and that deductive conservative extensions are 2ExpTime-complete in all DLs between ELI and ELHIF_\bot. The same results hold for inseparability and entailment.
翻訳日:2022-09-23 20:58:37 公開日:2020-11-19
# 変分ベイズニューラルネットワーク:後方整合性、分類精度、計算課題

Variational Bayes Neural Network: Posterior Consistency, Classification Accuracy and Computational Challenges ( http://arxiv.org/abs/2011.09592v1 )

ライセンス: Link先を確認
Shrijita Bhattacharya, Zihuan Liu, Tapabrata Maiti(参考訳) ベイジアンニューラルネットワークモデル(BNN)は、スケーラブルな計算の進歩と、様々なアプリケーションにおける複雑な予測問題の解決におけるその有用性により、近年で復活している。 bnnの人気と有用性にもかかわらず、従来のマルコフ連鎖モンテカルロベースの実装は高い計算コストに苦しんでおり、大規模研究におけるこの強力な技術の使用は制限されている。 変分ベイズ推論は、いくつかの計算問題を回避できる代替手段となっている。 このアプローチは機械学習で人気があるが、統計学への応用はやや限られている。 本稿では,変分ベイズニューラルネットワーク推定手法と関連する統計理論について述べる。 数値アルゴリズムとその実装について詳述する。 非パラメトリックベイズ統計学における望ましい性質である後続一貫性の理論も発展している。 この理論は、事前分布と変分族を特徴付ける予測精度とガイドラインの評価を提供する。 真の後部への変分後部の使用の損失も定量化されている。 この開発は、軽度の認知障害からアルツハイマー病へ移行するための予測ツールを構築する、重要なバイオメディカルエンジニアリングアプリケーションによって動機付けられている。 予測子は多モードであり、複雑な対話関係を含む。

Bayesian neural network models (BNN) have re-surged in recent years due to the advancement of scalable computations and its utility in solving complex prediction problems in a wide variety of applications. Despite the popularity and usefulness of BNN, the conventional Markov Chain Monte Carlo based implementation suffers from high computational cost, limiting the use of this powerful technique in large scale studies. The variational Bayes inference has become a viable alternative to circumvent some of the computational issues. Although the approach is popular in machine learning, its application in statistics is somewhat limited. This paper develops a variational Bayesian neural network estimation methodology and related statistical theory. The numerical algorithms and their implementational are discussed in detail. The theory for posterior consistency, a desirable property in nonparametric Bayesian statistics, is also developed. This theory provides an assessment of prediction accuracy and guidelines for characterizing the prior distributions and variational family. The loss of using a variational posterior over the true posterior has also been quantified. The development is motivated by an important biomedical engineering application, namely building predictive tools for the transition from mild cognitive impairment to Alzheimer's disease. The predictors are multi-modal and may involve complex interactive relations.
翻訳日:2022-09-23 20:53:27 公開日:2020-11-19
# 深層学習に基づく補間法のニアショアベースメトリーへの応用

Application of Deep Learning-based Interpolation Methods to Nearshore Bathymetry ( http://arxiv.org/abs/2011.09707v1 )

ライセンス: Link先を確認
Yizhou Qian, Mojtaba Forghani, Jonghyun Harry Lee, Matthew Farthing, Tyler Hesser, Peter Kitanidis, Eric Darve(参考訳) 沿岸域の海底の地形であるニアショア水位計は, 津波帯の流体力学を予測し, 地下の特徴を避けるための経路計画に不可欠である。 そのため、船舶運行、沿岸管理、リスクアセスメントなど、幅広い用途においてますます重要になっている。 しかし, 予算制約やロジスティック制約のため, 海岸近辺の浴槽の直接高分解能調査はほとんど行われない。 スパース観測のみを利用できる別の選択肢は、ガウス過程回帰(gpr、kriging)を使用することである。 しかしGPRは、砂のバーや水中の物体の周囲に見られるような、鋭い勾配のパターンを認識するのが難しい。 本研究では, 深層学習に基づく深部潜水計測手法について, 疎度・マルチスケール計測による評価を行った。 本稿では, 深部ニューラルネットワーク(DNN)を用いて, 深部潜水量計の後方推定を計算し, 後方分布からサンプルを抽出する条件付き生成逆ネットワーク(cGAN)を提案する。 ノースカロライナ州ダックにある米国陸軍工兵科フィールド研究施設(frf)が提供する近海調査から得られた合成データに基づいてニューラルネットワークを訓練する。 本手法を実際の調査におけるkriging法と,人工的に鋭い勾配を付加した調査と比較した。 DNNによる直接推定は、このアプリケーションにおいてKrigingよりも優れた予測を与えることを示す。 不確実性定量化にはDNNを用いたブートストラップを用いる。 また,深層学習とKrigingを組み合わせたDNN-Kriging法を提案する。

Nearshore bathymetry, the topography of the ocean floor in coastal zones, is vital for predicting the surf zone hydrodynamics and for route planning to avoid subsurface features. Hence, it is increasingly important for a wide variety of applications, including shipping operations, coastal management, and risk assessment. However, direct high resolution surveys of nearshore bathymetry are rarely performed due to budget constraints and logistical restrictions. Another option when only sparse observations are available is to use Gaussian Process regression (GPR), also called Kriging. But GPR has difficulties recognizing patterns with sharp gradients, like those found around sand bars and submerged objects, especially when observations are sparse. In this work, we present several deep learning-based techniques to estimate nearshore bathymetry with sparse, multi-scale measurements. We propose a Deep Neural Network (DNN) to compute posterior estimates of the nearshore bathymetry, as well as a conditional Generative Adversarial Network (cGAN) that samples from the posterior distribution. We train our neural networks based on synthetic data generated from nearshore surveys provided by the U.S.\ Army Corps of Engineer Field Research Facility (FRF) in Duck, North Carolina. We compare our methods with Kriging on real surveys as well as surveys with artificially added sharp gradients. Results show that direct estimation by DNN gives better predictions than Kriging in this application. We use bootstrapping with DNN for uncertainty quantification. We also propose a method, named DNN-Kriging, that combines deep learning with Kriging and shows further improvement of the posterior estimates.
翻訳日:2022-09-23 20:52:52 公開日:2020-11-19
# リアルタイム建築エネルギーシミュレーションのための気象データ作成

Preparing Weather Data for Real-Time Building Energy Simulation ( http://arxiv.org/abs/2011.09733v1 )

ライセンス: Link先を確認
Maryam MeshkinKiya, Riccardo Paolini(参考訳) 本研究では,異常検出や欠測値の埋込みなど,気象データの品質管理のための枠組みを提案する。 気象データは、異常な値が結果に欠陥を与え、データが失われると予期せぬシミュレーションプロセスが終了するという、ビルパフォーマンスシミュレーションの基本的なインプットである。 伝統的に、気象データに欠落した値を埋め込むことは周期的または線形補間によって行われる。 しかし、欠落した値が連続時間を超えると、従来の手法の精度が議論の対象となる。 本研究では,他の教師付き学習手法と比較して,ニューラルネットワークがデータ計算の精度を高める方法を示す。 この枠組みは、イタリアのミラノにある近くの気象観測所のネットワークを通じて、観測地点の温度と相対湿度データを予測することによって検証される。 提案手法は, 高精度かつ高速な品質制御によるリアルタイム建築シミュレーションを容易にする。

This study introduces a framework for quality control of measured weather data, including anomaly detection, and infilling missing values. Weather data is a fundamental input to building performance simulations, in which anomalous values defect the results while missing data lead to an unexpected termination of the simulation process. Traditionally, infilling missing values in weather data is performed through periodic or linear interpolations. However, when missing values exceed many consecutive hours, the accuracy of traditional methods is subject to debate. This study demonstrates how Neural Networks can increase the accuracy of data imputation when compared to other supervised learning methods. The framework is validated by predicting missing temperature and relative humidity data for an observation site, through a network of nearby weather stations in Milan, Italy. Results show that the proposed method can facilitate real-time building simulations with accurate and rapid quality control.
翻訳日:2022-09-23 20:52:26 公開日:2020-11-19
# ほぼPCA時間におけるリストデコダブル平均推定

List-Decodable Mean Estimation in Nearly-PCA Time ( http://arxiv.org/abs/2011.09973v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Daniel Kongsgaard, Jerry Li, Kevin Tian(参考訳) 伝統的に、ロバスト統計は汚染されたデータに耐性のある推定器の設計に重点を置いてきた。 ロバストリストのデコダブルな学習は、少数派の$\frac 1 k$のデータセットだけが関心の分布から引き出され、残りのデータに仮定されることのない、より困難な体制に焦点をあてる。 高次元におけるリストデコタブル平均推定の基本課題について検討する。 我々の主な成果は、ほぼPCA時間で動作する最適なサンプルの複雑さと誤差率を持つ有界共分散分布に対するリストデコタブル平均推定アルゴリズムである。 基底真理分布が$\mathbb{R}^d$に有界共分散を持つと仮定すると、我々のアルゴリズムは、真理からの距離$O(\sqrt{k})$である$O(k)$の候補平均のリストを出力する。 我々のアルゴリズムは、すべての$k = O(\sqrt{d}) \cup \Omega(d)$に対して、時間$\widetilde{O}(ndk)$で実行される。 また、我々のアルゴリズムの変種には、回復保証に$o(\sqrt{\log k})$因子を犠牲にして、すべての$k$に対して$\widetilde{o}(ndk)$が実行可能であることも示しています。 このランタイムは、データ上で1$k$-PCAを実行するコストの対数的要因と一致します。 我々の研究に先立ち、最も高速な平均推定アルゴリズムはランタイムを$\widetilde{O}(n^2 d k^2)$と$\widetilde{O}(nd k^{\ge 6})$としていた。 提案手法は,リストデコジブル学習環境における多項式時間平均推定法として最も単純なものと考えられる,新しいソフトダウンウェイト法である$\mathsf{SIFT}$に基づいている。 高速アルゴリズムを開発するために、我々は、我々が開発しているkyファン行列乗算重み法(英語版)の注意深い"ウィンウィンウィン"分析を通じて、$\mathsf{sift}$の計算コストを増加させます。

Traditionally, robust statistics has focused on designing estimators tolerant to a minority of contaminated data. Robust list-decodable learning focuses on the more challenging regime where only a minority $\frac 1 k$ fraction of the dataset is drawn from the distribution of interest, and no assumptions are made on the remaining data. We study the fundamental task of list-decodable mean estimation in high dimensions. Our main result is a new list-decodable mean estimation algorithm for bounded covariance distributions with optimal sample complexity and error rate, running in nearly-PCA time. Assuming the ground truth distribution on $\mathbb{R}^d$ has bounded covariance, our algorithm outputs a list of $O(k)$ candidate means, one of which is within distance $O(\sqrt{k})$ from the truth. Our algorithm runs in time $\widetilde{O}(ndk)$ for all $k = O(\sqrt{d}) \cup \Omega(d)$, where $n$ is the size of the dataset. We also show that a variant of our algorithm has runtime $\widetilde{O}(ndk)$ for all $k$, at the expense of an $O(\sqrt{\log k})$ factor in the recovery guarantee. This runtime matches up to logarithmic factors the cost of performing a single $k$-PCA on the data, which is a natural bottleneck of known algorithms for (very) special cases of our problem, such as clustering well-separated mixtures. Prior to our work, the fastest list-decodable mean estimation algorithms had runtimes $\widetilde{O}(n^2 d k^2)$ and $\widetilde{O}(nd k^{\ge 6})$. Our approach builds on a novel soft downweighting method, $\mathsf{SIFT}$, which is arguably the simplest known polynomial-time mean estimation technique in the list-decodable learning setting. To develop our fast algorithms, we boost the computational cost of $\mathsf{SIFT}$ via a careful "win-win-win" analysis of an approximate Ky Fan matrix multiplicative weights procedure we develop, which we believe may be of independent interest.
翻訳日:2022-09-23 20:52:13 公開日:2020-11-19
# 高分解能リモートセンシング画像における地空間オブジェクトセグメンテーションのためのフォアグラウンド対応関係ネットワーク

Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2011.09766v1 )

ライセンス: Link先を確認
Zhuo Zheng, Yanfei Zhong, Junjue Wang, Ailong Ma(参考訳) 地理空間オブジェクトのセグメンテーションは、特定の意味的セグメンテーションタスクとして、常に大きなスケールの変動、背景のクラス内ばらつき、高空間分解能(HSR)リモートセンシング画像における前景背景の不均衡に直面している。 しかし, 一般意味セグメンテーション手法では, 大地観測場面で発生する他の2つの問題を十分に考慮せず, 自然場面のスケール変動に着目している。 本稿では,フォアグラウンドモデリングの欠如に問題があり,この2つの問題を緩和するために,関係ベースおよび最適化ベースフォアグラウンドモデリングの観点からフォアグラウンド対応ネットワーク(FarSeg)を提案する。 関係の観点から、farsegは前景関係の学習に伴う前景関連コンテキストを通じて前景特徴の識別を強化する。 一方、最適化の観点からは、バランスの取れた最適化のためのトレーニング中の前景の例と背景の硬い例に焦点を合わせるために、前景の最適化を提案する。 大規模データセットを用いて得られた実験結果から,提案手法は最先端の汎用セマンティックセグメンテーション法よりも優れ,速度と精度のトレードオフが良好であることが示唆された。 コードは \url{https://github.com/z-zheng/farseg} で利用可能である。

Geospatial object segmentation, as a particular semantic segmentation task, always faces with larger-scale variation, larger intra-class variance of background, and foreground-background imbalance in the high spatial resolution (HSR) remote sensing imagery. However, general semantic segmentation methods mainly focus on scale variation in the natural scene, with inadequate consideration of the other two problems that usually happen in the large area earth observation scene. In this paper, we argue that the problems lie on the lack of foreground modeling and propose a foreground-aware relation network (FarSeg) from the perspectives of relation-based and optimization-based foreground modeling, to alleviate the above two problems. From perspective of relation, FarSeg enhances the discrimination of foreground features via foreground-correlated contexts associated by learning foreground-scene relation. Meanwhile, from perspective of optimization, a foreground-aware optimization is proposed to focus on foreground examples and hard examples of background during training for a balanced optimization. The experimental results obtained using a large scale dataset suggest that the proposed method is superior to the state-of-the-art general semantic segmentation methods and achieves a better trade-off between speed and accuracy. Code has been made available at: \url{https://github.com/Z-Zheng/FarSeg}.
翻訳日:2022-09-23 20:51:03 公開日:2020-11-19
# SentiLSTM:レストランレビューの感性分析のためのディープラーニングアプローチ

SentiLSTM: A Deep Learning Approach for Sentiment Analysis of Restaurant Reviews ( http://arxiv.org/abs/2011.09684v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque, Iqbal H. Sarker(参考訳) インターネットへのアクセスの難しさと様々なWeb 2.0アプリケーションの進化により、テキストデータ生成の量は大幅に増加した。 これらのテキストデータ生産は、人々が、ツイート、Facebook投稿、ステータス、ブログの書き込み、レビューという形式で、製品やサービスに対する意見、感情、感情を表現するために生まれた。 感性分析は、特に特定の話題に対する著者の態度が肯定的か否定的か中立かを決定するために、テキストで表される意見を計算的に識別し分類するプロセスを扱う。 顧客レビューの影響は、レストランに対する顧客の態度を認識する上で重要である。 したがって、レビューから感情を自動的に検出することは、レストランのオーナーやサービス提供者や顧客が意思決定やサービスをより満足させるのに有利である。 本稿では,レストランの客が提供したレビューを正極性と負極性に分類する,深層学習に基づく手法(bilstm)を提案する。 提案手法を評価するために8435のレビューからなるコーパスを構築した。 さらに,提案手法と他の機械学習アルゴリズムとの比較分析を行った。 テストデータセットの評価の結果、BiLSTM技術は91.35%の精度で生成された。

The amount of textual data generation has increased enormously due to the effortless access of the Internet and the evolution of various web 2.0 applications. These textual data productions resulted because of the people express their opinion, emotion or sentiment about any product or service in the form of tweets, Facebook post or status, blog write up, and reviews. Sentiment analysis deals with the process of computationally identifying and categorizing opinions expressed in a piece of text, especially in order to determine whether the writer's attitude toward a particular topic is positive, negative, or neutral. The impact of customer review is significant to perceive the customer attitude towards a restaurant. Thus, the automatic detection of sentiment from reviews is advantageous for the restaurant owners, or service providers and customers to make their decisions or services more satisfactory. This paper proposes, a deep learning-based technique (i.e., BiLSTM) to classify the reviews provided by the clients of the restaurant into positive and negative polarities. A corpus consists of 8435 reviews is constructed to evaluate the proposed technique. In addition, a comparative analysis of the proposed technique with other machine learning algorithms presented. The results of the evaluation on test dataset show that BiLSTM technique produced in the highest accuracy of 91.35%.
翻訳日:2022-09-23 20:49:50 公開日:2020-11-19
# バングラ語テキストコンテンツにおける感情分類--比較研究

Sentiment Classification in Bangla Textual Content: A Comparative Study ( http://arxiv.org/abs/2011.10106v1 )

ライセンス: Link先を確認
Md. Arid Hasan, Jannatul Tajrin, Shammur Absar Chowdhury, Firoj Alam(参考訳) 感情分析は、製品に対する社会的・政治的課題やユーザー体験に対する私たちの見解を理解するために広く使われてきた。 NLPのコアであり、よく研究されている領域の1つである。 しかしながら、Banglaのような低リソース言語では、リソースの不足が大きな課題のひとつです。 バングラの現在の文献におけるもうひとつの重要な制限は、列車/テストの分割が明確に定義されていないことによる比較結果の欠如である。 本研究では,いくつかの感情ラベル付きデータセットと,古典的および深層学習アルゴリズムを用いた分類器の設計について検討する。 本研究では,従来のアルゴリズムにはSVMとRandom Forestがあり,ディープラーニングアルゴリズムにはCNN,FastText,Transformerベースのモデルがある。 モデル性能と時間資源の複雑さの観点から、これらのモデルを比較します。 これまでのバングラでは研究されていないトランスフォーマーベースのモデルが、他のモデルよりも優れています。 さらに,各クラス毎の値スコアに基づいて,重み付き辞書内容のリストを作成した。 次に,データセット内のクラス毎の重要項目について分析を行った。 再現性のために、公開データ分割とランキングの辞書リストを作成します。 得られた結果は、ベンチマークとして将来の研究に使用できる。

Sentiment analysis has been widely used to understand our views on social and political agendas or user experiences over a product. It is one of the cores and well-researched areas in NLP. However, for low-resource languages, like Bangla, one of the prominent challenge is the lack of resources. Another important limitation, in the current literature for Bangla, is the absence of comparable results due to the lack of a well-defined train/test split. In this study, we explore several publicly available sentiment labeled datasets and designed classifiers using both classical and deep learning algorithms. In our study, the classical algorithms include SVM and Random Forest, and deep learning algorithms include CNN, FastText, and transformer-based models. We compare these models in terms of model performance and time-resource complexity. Our finding suggests transformer-based models, which have not been explored earlier for Bangla, outperform all other models. Furthermore, we created a weighted list of lexicon content based on the valence score per class. We then analyzed the content for high significance entries per class, in the datasets. For reproducibility, we make publicly available data splits and the ranked lexicon list. The presented results can be used for future studies as a benchmark.
翻訳日:2022-09-23 20:42:46 公開日:2020-11-19
# tal: 超音波舌イメージング,音声,リップビデオの同期マルチスピーカーコーパス

TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging, audio, and lip videos ( http://arxiv.org/abs/2011.09804v1 )

ライセンス: Link先を確認
Manuel Sam Ribeiro, Jennifer Sanger, Jing-Xuan Zhang, Aciel Eshky, Alan Wrench, Korin Richmond, Steve Renals(参考訳) Tongue and Lips corpus (TaL) は, 音声, 超音波舌画像, リップビデオの多話者コーパスである。 TaL1は1人のプロの音声タレント、男性の英語母語話者の6つの録音セッション、TaL80は81人の英語母語話者の音声タレント経験のない録音セッションである。 総じて、コーパスには24時間の並行超音波、ビデオ、音声データが含まれており、そのうち約13.5時間は音声である。 本稿では,コーパスについて述べるとともに,音声認識,音声合成(調音-音響マッピング),超音波と音声の自動同期などのタスクのベンチマーク結果を示す。 TaLコーパスはCC BY-NC 4.0ライセンスで公開されている。

We present the Tongue and Lips corpus (TaL), a multi-speaker corpus of audio, ultrasound tongue imaging, and lip videos. TaL consists of two parts: TaL1 is a set of six recording sessions of one professional voice talent, a male native speaker of English; TaL80 is a set of recording sessions of 81 native speakers of English without voice talent experience. Overall, the corpus contains 24 hours of parallel ultrasound, video, and audio data, of which approximately 13.5 hours are speech. This paper describes the corpus and presents benchmark results for the tasks of speech recognition, speech synthesis (articulatory-to-acoustic mapping), and automatic synchronisation of ultrasound to audio. The TaL corpus is publicly available under the CC BY-NC 4.0 license.
翻訳日:2022-09-23 20:42:32 公開日:2020-11-19
# ルールベース対話システムにおける生涯学習

Lifelong Knowledge Learning in Rule-based Dialogue Systems ( http://arxiv.org/abs/2011.09811v1 )

ライセンス: Link先を確認
Bing Liu and Chuhe Mei(参考訳) 現在のチャットボットや対話システムの主な弱点の1つは、デプロイ後に会話中にオンラインで学習しないことである。 これは大きな機会の喪失です。 明らかに、各人間のユーザーは、他人にとって役に立つかもしれない世界に関する多くの知識を持っている。 チャット中にチャットボットがユーザーから学べるなら、その知識基盤を大きく広げ、ユーザーに対してより良いサービスを提供していくだろう。 本稿では,ルールベースのチャットボットにそのような学習機能を構築することで,ユーザとのチャットにおいて,新たな知識を継続的に獲得することを提案する。 多くの実環境にデプロイされたチャットボットはルールベースであるため、この作業は有用である。

One of the main weaknesses of current chatbots or dialogue systems is that they do not learn online during conversations after they are deployed. This is a major loss of opportunity. Clearly, each human user has a great deal of knowledge about the world that may be useful to others. If a chatbot can learn from their users during chatting, it will greatly expand its knowledge base and serve its users better. This paper proposes to build such a learning capability in a rule-based chatbot so that it can continuously acquire new knowledge in its chatting with users. This work is useful because many real-life deployed chatbots are rule-based.
翻訳日:2022-09-23 20:42:18 公開日:2020-11-19
# 太陽光発電パネルの起始故障検出システム

Explainable Incipient Fault Detection Systems for Photovoltaic Panels ( http://arxiv.org/abs/2011.09843v1 )

ライセンス: Link先を確認
S. Sairam, Seshadhri Srinivasan, G. Marafioti, B. Subathra, G. Mathisen, and Korkut Bekiroglu(参考訳) 本稿では, PVパネルの異常発生に対するeXplainable Fault Detection and Diagnosis System (XFDDS)を提案する。 XFDDSはモデルベースとデータ駆動フレームワークを組み合わせたハイブリッドアプローチである。 PVパネル用モデルベースFDDには、初期断層を検出するための低照射条件下での高忠実度モデルがない。 これを解決するために、新しい照射ベースの3ダイオードモデル(IB3DM)を提案する。 低照度条件でも高い精度が得られる9つのパラメータモデルであり、ノイズから初期断層を検出する重要な側面である。 PVデータを利用するには、起始断層を検出する能力のため、極端な勾配上昇(XGBoost)を用いる。 説明可能性の欠如、サンプルインスタンスの機能変動、偽アラームはデータ駆動型fddメソッドの課題である。 これらの欠点は、XGBoostとIB3DMのハイブリッド化と、eXplainable Artificial Intelligence (XAI)技術の使用によって克服されている。 XGBoost と IB3DM を組み合わせるために,誤報を低減し,初期故障を検出するための説明をトリガーする故障信号計測法が提案されている。 説明可能性を得るために、eXplainable Artificial Intelligence (XAI)アプリケーションを開発した。 ローカル解釈可能なモデル非依存説明(lime)フレームワークを使用し、データインスタンスの分類子出力の説明を提供する。 これらの説明は、現場エンジニアや技術者がトラブルシューティングやメンテナンスを行うのに役立つ。 提案するXFDDSは、異なるPV技術を用いた実験により、その利点を実証した。

This paper presents an eXplainable Fault Detection and Diagnosis System (XFDDS) for incipient faults in PV panels. The XFDDS is a hybrid approach that combines the model-based and data-driven framework. Model-based FDD for PV panels lacks high fidelity models at low irradiance conditions for detecting incipient faults. To overcome this, a novel irradiance based three diode model (IB3DM) is proposed. It is a nine parameter model that provides higher accuracy even at low irradiance conditions, an important aspect for detecting incipient faults from noise. To exploit PV data, extreme gradient boosting (XGBoost) is used due to its ability to detecting incipient faults. Lack of explainability, feature variability for sample instances, and false alarms are challenges with data-driven FDD methods. These shortcomings are overcome by hybridization of XGBoost and IB3DM, and using eXplainable Artificial Intelligence (XAI) techniques. To combine the XGBoost and IB3DM, a fault-signature metric is proposed that helps reducing false alarms and also trigger an explanation on detecting incipient faults. To provide explainability, an eXplainable Artificial Intelligence (XAI) application is developed. It uses the local interpretable model-agnostic explanations (LIME) framework and provides explanations on classifier outputs for data instances. These explanations help field engineers/technicians for performing troubleshooting and maintenance operations. The proposed XFDDS is illustrated using experiments on different PV technologies and our results demonstrate the perceived benefits.
翻訳日:2022-09-23 20:42:03 公開日:2020-11-19
# GL-Coarsener: AMGソルバのための粗いグリッド階層を構築するグラフ表現学習フレームワーク

GL-Coarsener: A Graph representation learning framework to construct coarse grid hierarchy for AMG solvers ( http://arxiv.org/abs/2011.09994v1 )

ライセンス: Link先を確認
Reza Namazi, Arsham Zolanvari, Mahdi Sani, Seyed Amir Ali Ghafourian Ghahramani(参考訳) 多くの数値スキームでは、計算複雑性は問題のサイズと非線形にスケールする。 直接法あるいは最も反復的な方法を用いて方程式の線形系を解くことは典型的な例である。 代数的マルチグリッド法(albraic multi-grid method, amg)は、方程式の大きな線形系を効率的に解くための数値解法である。 AMG法の主な違いの1つは、粗い格子が与えられた細い格子からどのように構築されるかである。 AMG法にはグラフとアグリゲーションに基づく粗大化法という2つの主要なクラスがある。 本稿では,グラフ表現学習とクラスタリングアルゴリズムを利用した集約型粗大化フレームワークを提案する。 提案手法は,AMG研究分野に機械学習の能力を導入し,今後の研究への新たな視点を開く。 提案手法はグラフ表現学習法を用いて,係数の基底行列から得られたグラフの潜在特徴を学習する。 抽出した特徴を用いて,細かなグリッドから粗いグリッドを生成した。 提案手法は並列計算能力が高い。 実験により,大規模システムに対する提案手法の効率は,他の集約型手法とよく似ており,マルチグリッド解法の設計におけるグラフ表現学習の能力が高いことを示した。

In many numerical schemes, the computational complexity scales non-linearly with the problem size. Solving a linear system of equations using direct methods or most iterative methods is a typical example. Algebraic multi-grid (AMG) methods are numerical methods used to solve large linear systems of equations efficiently. One of the main differences between AMG methods is how the coarser grid is constructed from a given fine grid. There are two main classes of AMG methods; graph and aggregation based coarsening methods. Here we propose an aggregation-based coarsening framework leveraging graph representation learning and clustering algorithms. Our method introduces the power of machine learning into the AMG research field and opens a new perspective for future researches. The proposed method uses graph representation learning techniques to learn latent features of the graph obtained from the underlying matrix of coefficients. Using these extracted features, we generated a coarser grid from the fine grid. The proposed method is highly capable of parallel computations. Our experiments show that the proposed method's efficiency in solving large systems is closely comparable with other aggregation-based methods, demonstrating the high capability of graph representation learning in designing multi-grid solvers.
翻訳日:2022-09-23 20:41:39 公開日:2020-11-19
# ラデマッハ複雑性とシャノンエントロピーに基づくAIの不確かさの理論

A Theory on AI Uncertainty Based on Rademacher Complexity and Shannon Entropy ( http://arxiv.org/abs/2011.11484v1 )

ライセンス: Link先を確認
Mingyong Zhou(参考訳) 本稿では,古典的ラデマッハ複雑性とシャノンエントロピーに基づくAI深層学習ニューラルネットワークの不確実性調査に関する理論的議論を行う。 まず、古典的ラデマッハ複雑性とシャノンエントロピーが定義によって量によって密接に関連していることが示される。 第2に,コミュニケーションに関するシャノンの数学的理論[3]に基づいて,分類問題におけるAIの正しさと精度を保証する基準を導出する。 最後に、Peter Barlette氏の研究に基づいて、AI分類における正確性と正確性を保証するために、緩和条件と厳密な条件の両方を示す。 本論文ではシャノン理論に基づくシャノンエントロピーの観点で条件を解明することで,vapnik-cheronenkis,gaussian complexityなどの他の複雑性測定の観点で他の基準を探索することが容易になる。 分類問題に対するAIの精度と正確性に関する理論的研究のために,シャノンエントロピーに関する0.5に近い基準を導出した。

In this paper, we present a theoretical discussion on AI deep learning neural network uncertainty investigation based on the classical Rademacher complexity and Shannon entropy. First it is shown that the classical Rademacher complexity and Shannon entropy is closely related by quantity by definitions. Secondly based on the Shannon mathematical theory on communication [3], we derive a criteria to ensure AI correctness and accuracy in classifications problems. Last but not the least based on Peter Barlette's work, we show both a relaxing condition and a stricter condition to guarantee the correctness and accuracy in AI classification . By elucidating in this paper criteria condition in terms of Shannon entropy based on Shannon theory, it becomes easier to explore other criteria in terms of other complexity measurements such as Vapnik-Cheronenkis, Gaussian complexity by taking advantage of the relations studies results in other references. A close to 0.5 criteria on Shannon entropy is derived in this paper for the theoretical investigation of AI accuracy and correctness for classification problems.
翻訳日:2022-09-23 20:34:44 公開日:2020-11-19
# 関数近似を用いた強化学習のためのオンラインモデル選択

Online Model Selection for Reinforcement Learning with Function Approximation ( http://arxiv.org/abs/2011.09750v1 )

ライセンス: Link先を確認
Jonathan N. Lee, Aldo Pacchiano, Vidya Muthukumar, Weihao Kong, Emma Brunskill(参考訳) 深層強化学習は目覚ましい成功を収めていますが、多くの場合、大量のインタラクションデータが必要です。 この結果はおそらく予想外であり、複雑な関数近似を使うにはより多くのデータが必要であり、線型マルコフ決定過程の初期の理論的結果は線形近似の次元に匹敵する後悔の限界を与える。 理想的には、最適なポリシーを符号化するのに十分な近似の最小次元を自動的に識別したい。 この目的に向けて、既知の後悔保証を持つ候補 rl アルゴリズムが与えられたとき、関数近似を伴う rl におけるモデル選択の問題を考える。 学習者の目標は、それが \textit{a priori} であることを知らずに最適なアルゴリズムの複雑さに適応することである。 単純な統計テストを用いて,ますます複雑なモデルを逐次拒否するメタアルゴリズムを提案する。 実現可能性を満たす少なくとも1つの候補が与えられた場合、メタアルゴリズムが最適な複雑性に適応することを証明し、$\tilde{O}(L^{5/6} T^{2/3})が最適候補の$\tilde{O}(\sqrt T)が後悔すると、$T$はエピソード数であり、$L$はアルゴリズムの数である。 次元と地平線の依存関係は最良の候補に対して最適であり、メタアルゴリズムアプローチは複数の候補アルゴリズムとモデルを組み込むのに柔軟です。 最後に、メタアルゴリズムは、候補が達成できる最大値間のギャップに依存する、インスタンス依存の後悔境界を著しく改善することを示す。

Deep reinforcement learning has achieved impressive successes yet often requires a very large amount of interaction data. This result is perhaps unsurprising, as using complicated function approximation often requires more data to fit, and early theoretical results on linear Markov decision processes provide regret bounds that scale with the dimension of the linear approximation. Ideally, we would like to automatically identify the minimal dimension of the approximation that is sufficient to encode an optimal policy. Towards this end, we consider the problem of model selection in RL with function approximation, given a set of candidate RL algorithms with known regret guarantees. The learner's goal is to adapt to the complexity of the optimal algorithm without knowing it \textit{a priori}. We present a meta-algorithm that successively rejects increasingly complex models using a simple statistical test. Given at least one candidate that satisfies realizability, we prove the meta-algorithm adapts to the optimal complexity with $\tilde{O}(L^{5/6} T^{2/3})$ regret compared to the optimal candidate's $\tilde{O}(\sqrt T)$ regret, where $T$ is the number of episodes and $L$ is the number of algorithms. The dimension and horizon dependencies remain optimal with respect to the best candidate, and our meta-algorithmic approach is flexible to incorporate multiple candidate algorithms and models. Finally, we show that the meta-algorithm automatically admits significantly improved instance-dependent regret bounds that depend on the gaps between the maximal values attainable by the candidates.
翻訳日:2022-09-23 20:34:25 公開日:2020-11-19
# GANと移動学習を用いた都市サーベイランスビデオにおける異常事象検出

Abnormal Event Detection in Urban Surveillance Videos Using GAN and Transfer Learning ( http://arxiv.org/abs/2011.09619v1 )

ライセンス: Link先を確認
Ali Atghaei, Soroush Ziaeinejad, Mohammad Rahmati(参考訳) 都市監視ビデオにおける異常事象検出(AED)には複数の課題がある。 他のコンピュータビジョン問題とは異なり、AEDはフレームの内容にのみ依存するわけではない。 また、場面における物体の外観や動きにも依存する。 AED問題に対処する様々な手法が提案されている。 これらのうち、ディープラーニングに基づく手法が最良の結果を示している。 本稿では,深層学習法に基づき,時空間データを扱うことで映像中の異常事象を検出・発見する効果的な方法を提案する。 本稿では,gans(generative adversarial network)を用いて,事前学習された畳み込みニューラルネットワーク(cnn)上で転送学習アルゴリズムを実行する。 映像の光フロー情報を処理することにより、モデルの効率をさらに向上させる。 本稿では,AED問題に対する2つのベンチマークデータセット(UCSD Peds1とUCSD Peds2)について実験を行い,その結果を他の手法と比較する。 比較は、AUC(Area Under curve)やTPR(true positive rate)といった様々な基準に基づいている。 実験の結果,提案手法は群集シーンの異常事象を効果的に検出・検出できることがわかった。

Abnormal event detection (AED) in urban surveillance videos has multiple challenges. Unlike other computer vision problems, the AED is not solely dependent on the content of frames. It also depends on the appearance of the objects and their movements in the scene. Various methods have been proposed to address the AED problem. Among those, deep learning based methods show the best results. This paper is based on deep learning methods and provides an effective way to detect and locate abnormal events in videos by handling spatio temporal data. This paper uses generative adversarial networks (GANs) and performs transfer learning algorithms on pre trained convolutional neural network (CNN) which result in an accurate and efficient model. The efficiency of the model is further improved by processing the optical flow information of the video. This paper runs experiments on two benchmark datasets for AED problem (UCSD Peds1 and UCSD Peds2) and compares the results with other previous methods. The comparisons are based on various criteria such as area under curve (AUC) and true positive rate (TPR). Experimental results show that the proposed method can effectively detect and locate abnormal events in crowd scenes.
翻訳日:2022-09-23 20:33:43 公開日:2020-11-19
# 深層学習モデルのセマンティック連続性に関する実験的研究

An Experimental Study of Semantic Continuity for Deep Learning Models ( http://arxiv.org/abs/2011.09789v1 )

ライセンス: Link先を確認
Shangxi Wu and Jitao Sang and Xian Zhao and Lizhang Chen(参考訳) 入力空間における小さな摂動は、モデル出力に意味レベルの干渉を引き起こす傾向がある。 意味的不連続性はこれらの不適切なトレーニングターゲットから生じ、敵意の強固さや解釈可能性などの悪名高い問題に寄与すると主張している。 まず,既存のディープラーニングモデルにおける意味的不連続性の証拠を提供するためにデータ解析を行い,理論上はモデルが滑らかな勾配を得て意味的指向の特徴を学ぶことを可能にする単純な意味的連続性制約を設計する。 定性的かつ定量的な実験は、意味論的連続的なモデルが非意味的な情報の使用を減らすことに成功し、逆の堅牢性、解釈可能性、モデル転送、マシンバイアスの改善にさらに貢献することを示した。

Deep learning models suffer from the problem of semantic discontinuity: small perturbations in the input space tend to cause semantic-level interference to the model output. We argue that the semantic discontinuity results from these inappropriate training targets and contributes to notorious issues such as adversarial robustness, interpretability, etc. We first conduct data analysis to provide evidence of semantic discontinuity in existing deep learning models, and then design a simple semantic continuity constraint which theoretically enables models to obtain smooth gradients and learn semantic-oriented features. Qualitative and quantitative experiments prove that semantically continuous models successfully reduce the use of non-semantic information, which further contributes to the improvement in adversarial robustness, interpretability, model transfer, and machine bias.
翻訳日:2022-09-23 20:33:26 公開日:2020-11-19
# 不均一コントラスト学習:コンパクトな視覚表現のための空間情報の符号化

Heterogeneous Contrastive Learning: Encoding Spatial Information for Compact Visual Representations ( http://arxiv.org/abs/2011.09941v1 )

ライセンス: Link先を確認
Xinyue Huo, Lingxi Xie, Longhui Wei, Xiaopeng Zhang, Hao Li, Zijie Yang, Wengang Zhou, Houqiang Li, Qi Tian(参考訳) コントラスト学習は自己指導型視覚表現学習において大きな成功を収めてきたが、既存のアプローチは視覚表現にとって重要な空間情報を無視している。 本稿では,HCL(ヘテロジニアス・コントラクティブ・ラーニング)を提案する。この手法は,エンコーディング段階に空間情報を付加することで,コントラクティブ・オブジェクトと強データ拡張操作との間の学習の不整合を緩和する。 我々はHCLの有効性を示す。 (i)事例識別において高い精度を達成すること、及び (ii)前訓練コストを半分に抑えつつ、一連の下流作業において既存の前訓練方法を超えること。 さらに,本手法は視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。

Contrastive learning has achieved great success in self-supervised visual representation learning, but existing approaches mostly ignored spatial information which is often crucial for visual representation. This paper presents heterogeneous contrastive learning (HCL), an effective approach that adds spatial information to the encoding stage to alleviate the learning inconsistency between the contrastive objective and strong data augmentation operations. We demonstrate the effectiveness of HCL by showing that (i) it achieves higher accuracy in instance discrimination and (ii) it surpasses existing pre-training methods in a series of downstream tasks while shrinking the pre-training costs by half. More importantly, we show that our approach achieves higher efficiency in visual representations, and thus delivers a key message to inspire the future research of self-supervised visual representation learning.
翻訳日:2022-09-23 20:32:49 公開日:2020-11-19
# 雑音ラベルの誤差境界補正

Error-Bounded Correction of Noisy Labels ( http://arxiv.org/abs/2011.10077v1 )

ライセンス: Link先を確認
Songzhu Zheng, Pengxiang Wu, Aman Goswami, Mayank Goswami, Dimitris Metaxas, Chao Chen(参考訳) 大規模な注釈付きデータを収集するには、ラベルノイズ、すなわち不正なクラスラベルを導入することは避けられない。 ラベルノイズに対して頑健であるためには、多くの手法がノイズ分類器(すなわち、ノイズトレーニングデータでトレーニングされたモデル)に依存し、ラベルが信頼できるかどうかを判断する。 しかし、なぜこのヒューリスティックがうまく機能するのかは不明である。 本稿では,これらの手法に関する最初の理論的説明を行う。 ノイズ分類器の予測は、トレーニングデータのラベルがクリーンかどうかを示す良い指標となることが証明される。 理論的な結果に基づいて,雑音分類器の予測に基づいてラベルを補正する新しいアルゴリズムを提案する。 補正されたラベルは、高い確率で真のベイズ最適分類器と一致する。 ラベル補正アルゴリズムをディープニューラルネットワークのトレーニングとトレーニングモデルに組み込んで,複数の公開データセットで優れたテストパフォーマンスを実現します。

To collect large scale annotated data, it is inevitable to introduce label noise, i.e., incorrect class labels. To be robust against label noise, many successful methods rely on the noisy classifiers (i.e., models trained on the noisy training data) to determine whether a label is trustworthy. However, it remains unknown why this heuristic works well in practice. In this paper, we provide the first theoretical explanation for these methods. We prove that the prediction of a noisy classifier can indeed be a good indicator of whether the label of a training data is clean. Based on the theoretical result, we propose a novel algorithm that corrects the labels based on the noisy classifier prediction. The corrected labels are consistent with the true Bayesian optimal classifier with high probability. We incorporate our label correction algorithm into the training of deep neural networks and train models that achieve superior testing performance on multiple public datasets.
翻訳日:2022-09-23 20:32:02 公開日:2020-11-19
# contextized relation embedded (cre) による関係抽出

Relation Extraction with Contextualized Relation Embedding (CRE) ( http://arxiv.org/abs/2011.09658v1 )

ライセンス: Link先を確認
Xiaoyu Chen and Rohan Badlani(参考訳) 関係抽出はコーパスが与えられた2つのエンティティ間の関係インスタンスを識別するタスクであり、知識ベースモデリングはエンティティ間の関係の観点から知識ベースを表現するタスクである。 本稿では,意味情報と知識ベースモデリングを新たな方法で統合した関係抽出タスクのアーキテクチャを提案する。 既存の関係抽出法は、知識ベースモデリングを使用しないか、reタスクに別々に訓練されたkbモデルを使用する。 関係抽出においてKBモデリングを内部化するモデルアーキテクチャを提案する。 このモデルは、文を文脈化された関係埋め込みにエンコードする新しいアプローチを適用し、パラメータ化されたエンティティ埋め込みと一緒に使用して関係インスタンスをスコアする。 提案したCREモデルは、The New York Times Annotated CorpusとFreeBaseから派生したデータセット上でのアートパフォーマンスの状態を達成している。 ソースコードが公開されている。

Relation extraction is the task of identifying relation instance between two entities given a corpus whereas Knowledge base modeling is the task of representing a knowledge base, in terms of relations between entities. This paper proposes an architecture for the relation extraction task that integrates semantic information with knowledge base modeling in a novel manner. Existing approaches for relation extraction either do not utilize knowledge base modelling or use separately trained KB models for the RE task. We present a model architecture that internalizes KB modeling in relation extraction. This model applies a novel approach to encode sentences into contextualized relation embeddings, which can then be used together with parameterized entity embeddings to score relation instances. The proposed CRE model achieves state of the art performance on datasets derived from The New York Times Annotated Corpus and FreeBase. The source code has been made available.
翻訳日:2022-09-23 20:25:43 公開日:2020-11-19
# 3次元医用画像セグメンテーションのための双方向RNNに基づくFew Shot Learning

Bidirectional RNN-based Few Shot Learning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2011.09608v1 )

ライセンス: Link先を確認
Soopil Kim, Sion An, Philip Chikontwe, Sang Hyun Park(参考訳) 3次元医用画像における臓器の分離は, 正確な診断と縦断的研究に必要である。 ディープラーニングを用いた最近の進歩は、多くのセグメンテーションタスクで成功をおさめているが、大規模なデータセットはハイパフォーマンスのために必要であり、アノテーションプロセスは時間消費と労働集約の両方である。 本稿では,対象臓器アノテーションの限られたトレーニングサンプルを用いて,正確な臓器分類を行うための3次元ショットセグメンテーションフレームワークを提案する。 これを実現するために、U-Netライクネットワークは、隣接するスライス間の符号化された特徴の一貫性を学習する双方向ゲートリカレントユニット(GRU)を含む、サポートデータの2次元スライスとクエリ画像の関係を学習することによりセグメンテーションを予測するように設計されている。 また,対象画像とオルガンの特性を,任意にサポートしてテストする前にモデルを更新し,サポートデータからサンプリングした問合せデータを問合せすることで適応させる転送学習手法を提案する。 異なる臓器のアノテーションを用いた3次元ctデータセットを用いて,提案モデルを評価した。 我々のモデルは、最先端のいくつかのショットセグメンテーションモデルよりも大幅に性能を向上し、より多くのターゲットトレーニングデータで訓練された完全教師付きモデルに匹敵する結果を得た。

Segmentation of organs of interest in 3D medical images is necessary for accurate diagnosis and longitudinal studies. Though recent advances using deep learning have shown success for many segmentation tasks, large datasets are required for high performance and the annotation process is both time consuming and labor intensive. In this paper, we propose a 3D few shot segmentation framework for accurate organ segmentation using limited training samples of the target organ annotation. To achieve this, a U-Net like network is designed to predict segmentation by learning the relationship between 2D slices of support data and a query image, including a bidirectional gated recurrent unit (GRU) that learns consistency of encoded features between adjacent slices. Also, we introduce a transfer learning method to adapt the characteristics of the target image and organ by updating the model before testing with arbitrary support and query data sampled from the support data. We evaluate our proposed model using three 3D CT datasets with annotations of different organs. Our model yielded significantly improved performance over state-of-the-art few shot segmentation models and was comparable to a fully supervised model trained with more target training data.
翻訳日:2022-09-23 20:24:41 公開日:2020-11-19
# 視覚的質問応答のための論理的一貫性損失

Logically Consistent Loss for Visual Question Answering ( http://arxiv.org/abs/2011.10094v1 )

ライセンス: Link先を確認
Anh-Cat Le-Ngo, Truyen Tran, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) 画像、背景知識、オブジェクトに関する一連の質問が与えられたとき、人間の学習者は質問形式や意味的なタスクに関わらず、質問に非常に一貫して答える。 ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、その優れた性能にもかかわらず、同じ分布(すなわち、d)の仮定によってそのような一貫性を保証することはできない。 本稿では,マルチタスク学習フレームワークにおける論理的一貫した損失を,ファミリーバッチとハイブリッドバッチと呼ばれるデータ組織とともに定式化し,この問題に対処する新しいモデルに依存しない論理制約を提案する。 本提案の有効性を示すため,MAC-net ベースの VQA マシンを論理的に一貫した損失とデータ構造を用いて学習・評価する。 実験により,提案する損失公式とハイブリッドバッチの導入により,一貫性が向上し,性能も向上することが確認された。 提案手法はMAC-netで検証されるが,解間の論理的整合性が存在する場合,他のQA手法で利用することができる。

Given an image, a back-ground knowledge, and a set of questions about an object, human learners answer the questions very consistently regardless of question forms and semantic tasks. The current advancement in neural-network based Visual Question Answering (VQA), despite their impressive performance, cannot ensure such consistency due to identically distribution (i.i.d.) assumption. We propose a new model-agnostic logic constraint to tackle this issue by formulating a logically consistent loss in the multi-task learning framework as well as a data organisation called family-batch and hybrid-batch. To demonstrate usefulness of this proposal, we train and evaluate MAC-net based VQA machines with and without the proposed logically consistent loss and the proposed data organization. The experiments confirm that the proposed loss formulae and introduction of hybrid-batch leads to more consistency as well as better performance. Though the proposed approach is tested with MAC-net, it can be utilised in any other QA methods whenever the logical consistency between answers exist.
翻訳日:2022-09-23 20:23:39 公開日:2020-11-19
# socaire:マドリードの都市空気質の予測とモニタリング

SOCAIRE: Forecasting and Monitoring Urban Air Quality in Madrid ( http://arxiv.org/abs/2011.09741v1 )

ライセンス: Link先を確認
Rodrigo de Medrano, V\'ictor de Buen Remiro, Jos\'e L. Aznarte(参考訳) 大気汚染濃度が高いことによる悪影響が証明されているため、大気汚染は公衆衛生と都市計画管理の主要な問題の一つとなっている。 世界中の都市が頻繁な低空気質のエピソードに直面するための緩和策を考えると、将来の汚染物質濃度を予測できる能力は非常に重要である。 本稿では,ニューラルモデルと統計的ネストモデルのベイズ的・時空間的アンサンブルに基づく操作ツールであるsocaireを提案する。 SOCAIREは内因性および外因性情報を統合し、マドリード市内のいくつかの汚染物質に対する将来的な濃度分布を予測する。 大気汚染物質の過去の濃度、人間の活動、数値的汚染推定、気象予報など、大気の質に寄与する可能性のある各コンポーネントのモデリングに焦点を当てている。 このツールはマドリードで現在運用中であり、48時間にわたって毎日の空気質予測を行い、複合イベントに関する確率的推論を通じて市の公式空気質 \noプロトコルに含まれる措置の活性化を予測している。

Air quality has become one of the main issues in public health and urban planning management, due to the proven adverse effects of high pollutant concentrations. Considering the mitigation measures that cities all over the world are taking in order to face frequent low air quality episodes, the capability of foreseeing future pollutant concentrations is of great importance. Through this paper, we present SOCAIRE, an operational tool based on a Bayesian and spatiotemporal ensemble of neural and statistical nested models. SOCAIRE integrates endogenous and exogenous information in order to predict and monitor future distributions of the concentration for several pollutants in the city of Madrid. It focuses on modeling each and every available component which might play a role in air quality: past concentrations of pollutants, human activity, numerical pollution estimation, and numerical weather predictions. This tool is currently in operation in Madrid, producing daily air quality predictions for the next 48 hours and anticipating the probability of the activation of the measures included in the city's official air quality \no protocols through probabilistic inferences about compound events.
翻訳日:2022-09-23 20:23:04 公開日:2020-11-19
# DeepRepair:実世界の運用環境におけるDNNのスタイルガイド修復

DeepRepair: Style-Guided Repairing for DNNs in the Real-world Operational Environment ( http://arxiv.org/abs/2011.09884v1 )

ライセンス: Link先を確認
Bing Yu and Hua Qi and Qing Guo and Felix Juefei-Xu and Xiaofei Xie and Lei Ma and Jianjun Zhao(参考訳) ディープニューラルネットワーク(DNN)は、ハイパフォーマンス(画像分類の高精度化など)のため、ドメイン間の様々な現実世界のアプリケーションに広く適用されている。 それでも、よく訓練されたDNNは、トレーニングデータセットの分布と運用環境における潜在的に未知のノイズ要因(天気、ぼやけ、騒音など)のミスマッチのために、運用環境での実践的な使用中にエラーを発生させることがある。 従って、DNNの実際のアプリケーションには、デプロイされたDNNの障害サンプル(すなわち、間違った予測)を正常またはクリーンなデータを扱う能力を損なわずに、どのように修正するかという、かなり重要な問題が発生する。 運用環境のノイズ要因によって引き起こされる、実際に収集できる障害サンプルの数は、しばしば限られています。 したがって、収集可能な限定的な障害サンプルに基づいて、より類似した障害をいかに修復するかは、かなり困難です。 本稿では,DNNを運用環境下で修復するためのスタイル誘導型データ拡張を提案する。 本稿では,障害データ内の未知の障害パターンを学習し,データ拡張によってトレーニングデータに導入するスタイル転送手法を提案する。 さらに、より効果的なスタイル誘導データ拡張のためのクラスタリングベースの障害データ生成を提案する。 実世界で発生しうる15の劣化要因を大規模に評価し、4つの最先端データ拡張法と2つのDNN修復法と比較し、本手法が運用環境における破損したデータに対するデプロイDNNを大幅に強化し、クリーンデータセットの精度をさらに高めることを示す。

Deep neural networks (DNNs) are being widely applied for various real-world applications across domains due to their high performance (e.g., high accuracy on image classification). Nevertheless, a well-trained DNN after deployment could oftentimes raise errors during practical use in the operational environment due to the mismatching between distributions of the training dataset and the potential unknown noise factors in the operational environment, e.g., weather, blur, noise etc. Hence, it poses a rather important problem for the DNNs' real-world applications: how to repair the deployed DNNs for correcting the failure samples (i.e., incorrect prediction) under the deployed operational environment while not harming their capability of handling normal or clean data. The number of failure samples we can collect in practice, caused by the noise factors in the operational environment, is often limited. Therefore, It is rather challenging how to repair more similar failures based on the limited failure samples we can collect. In this paper, we propose a style-guided data augmentation for repairing DNN in the operational environment. We propose a style transfer method to learn and introduce the unknown failure patterns within the failure data into the training data via data augmentation. Moreover, we further propose the clustering-based failure data generation for much more effective style-guided data augmentation. We conduct a large-scale evaluation with fifteen degradation factors that may happen in the real world and compare with four state-of-the-art data augmentation methods and two DNN repairing methods, demonstrating that our method can significantly enhance the deployed DNNs on the corrupted data in the operational environment, and with even better accuracy on clean datasets.
翻訳日:2022-09-23 20:16:19 公開日:2020-11-19
# テキストを使って画像検索を教える

Using Text to Teach Image Retrieval ( http://arxiv.org/abs/2011.09928v1 )

ライセンス: Link先を確認
Haoyu Dong, Ze Wang, Qiang Qiu, and Guillermo Sapiro(参考訳) 画像検索は、データモデリングの品質と特徴空間における距離測定に大きく依存する。 画像多様体の概念に基づいて,まず,ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現することを提案する。 特徴空間の近傍は現在、グラフ頂点または多様体のサンプルとして表される画像間の測地距離によって定義される。 限られた画像が利用できる場合、この多様体はわずかにサンプリングされ、測地計算とそれに対応する検索が困難になる。 これに対処するため、多様体サンプルを幾何学的に整列したテキストで拡張し、大量の文を使って画像について教えます。 画像検索を支援するためのテキストのパワーを示す標準的なデータセットに関する広範な結果に加えて、CLEVRに基づく新しいパブリックデータセットを導入し、視覚データとテキストデータのセマンティックな類似性を定量化する。 実験の結果, ジョイント埋め込み多様体は頑健な表現であり, 画像に対して所望の修正について, 画像のみとテキストによる指示を付与して画像検索を行うためのより良い基礎となることが示された。

Image retrieval relies heavily on the quality of the data modeling and the distance measurement in the feature space. Building on the concept of image manifold, we first propose to represent the feature space of images, learned via neural networks, as a graph. Neighborhoods in the feature space are now defined by the geodesic distance between images, represented as graph vertices or manifold samples. When limited images are available, this manifold is sparsely sampled, making the geodesic computation and the corresponding retrieval harder. To address this, we augment the manifold samples with geometrically aligned text, thereby using a plethora of sentences to teach us about images. In addition to extensive results on standard datasets illustrating the power of text to help in image retrieval, a new public dataset based on CLEVR is introduced to quantify the semantic similarity between visual data and text data. The experimental results show that the joint embedding manifold is a robust representation, allowing it to be a better basis to perform image retrieval given only an image and a textual instruction on the desired modifications over the image
翻訳日:2022-09-23 20:15:50 公開日:2020-11-19
# 効率的で効率的でロバストなニューラルネットワーク検索

Effective, Efficient and Robust Neural Architecture Search ( http://arxiv.org/abs/2011.09820v1 )

ライセンス: Link先を確認
Zhixiong Yue, Baijiong Lin, Xiaonan Huang, Yu Zhang(参考訳) 最近のadversarial attackの進歩は、ニューラルネットワークがニューラルネットワーク検索(nas)によって検索される脆弱性を示している。 NAS手法は最先端の性能を持つネットワークアーキテクチャを見つけることができるが、NASでは逆の堅牢性やリソース制約は無視されることが多い。 そこで本研究では,性能,ロバスト性,資源制約を考慮し,ニューラルネットワークアーキテクチャを探索する効率的で効率的でロバストなニューラルネットワーク探索法(e2rnas)を提案する。 提案手法の目的関数は, 従来のNAS法とは異なる2レベル多目的最適化問題として, 上層問題を用いた2レベル多目的最適化問題として定式化されている。 提案する目的関数の解法として,勾配に基づく多目的最適化アルゴリズムであるmultiple-gradient descent algorithmとbi-level optimizationを統合する。 ベンチマークデータセットを用いた実験により,提案手法は,モデルサイズと同等の分類精度で,逆向きに堅牢なアーキテクチャを見出すことができた。

Recent advances in adversarial attacks show the vulnerability of deep neural networks searched by Neural Architecture Search (NAS). Although NAS methods can find network architectures with the state-of-the-art performance, the adversarial robustness and resource constraint are often ignored in NAS. To solve this problem, we propose an Effective, Efficient, and Robust Neural Architecture Search (E2RNAS) method to search a neural network architecture by taking the performance, robustness, and resource constraint into consideration. The objective function of the proposed E2RNAS method is formulated as a bi-level multi-objective optimization problem with the upper-level problem as a multi-objective optimization problem, which is different from existing NAS methods. To solve the proposed objective function, we integrate the multiple-gradient descent algorithm, a widely studied gradient-based multi-objective optimization algorithm, with the bi-level optimization. Experiments on benchmark datasets show that the proposed E2RNAS method can find adversarially robust architectures with optimized model size and comparable classification accuracy.
翻訳日:2022-09-23 20:14:56 公開日:2020-11-19