このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200609となっている論文です。

PDF登録状況(公開日: 20200609)

TitleAuthorsAbstract論文公表日・翻訳日
# 雑音密度推定器を用いた学習生成モデル

Learning Generative Models using Denoising Density Estimators ( http://arxiv.org/abs/2001.02728v2 )

ライセンス: Link先を確認
Siavash A. Bigdeli, Geng Lin, Tiziano Portenier, L. Andrea Dunbar, Matthias Zwicker(参考訳) 与えられたサンプルセットの密度を推定し、その密度からサンプルを生成する確率モデルを学ぶことは、教師なし機械学習の基本的な課題の1つである。 ニューラルネットワークによってパラメータ化されるスカラー関数であるDDE(denoising density estimator)に基づく新しい生成モデルを導入し,データのカーネル密度 estimator を効率的に訓練する。 ddesを活用し,kl-divergenceを直接最小化することにより生成モデルを得るための新しい手法である。 生成モデルを得るアルゴリズムが正しい解に収束することが保証されていることを証明した。 本手法では,正規化フローのように特定のネットワークアーキテクチャを必要とせず,連続正規化フローのように常微分方程式ソルバを用いる。 実験の結果, 生成モデルトレーニングにおける密度推定と競合性能が有意に向上した。

Learning probabilistic models that can estimate the density of a given set of samples, and generate samples from that density, is one of the fundamental challenges in unsupervised machine learning. We introduce a new generative model based on denoising density estimators (DDEs), which are scalar functions parameterized by neural networks, that are efficiently trained to represent kernel density estimators of the data. Leveraging DDEs, our main contribution is a novel technique to obtain generative models by minimizing the KL-divergence directly. We prove that our algorithm for obtaining generative models is guaranteed to converge to the correct solution. Our approach does not require specific network architecture as in normalizing flows, nor use ordinary differential equation solvers as in continuous normalizing flows. Experimental results demonstrate substantial improvement in density estimation and competitive performance in generative model training.
翻訳日:2023-01-13 09:32:14 公開日:2020-06-09
# ユーザモデリングとレコメンデーションのための逐次行動からのパラメータ効率

Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation ( http://arxiv.org/abs/2001.04253v4 )

ライセンス: Link先を確認
Fajie Yuan, Xiangnan He, Alexandros Karatzoglou, Liguang Zhang(参考訳) 帰納的転送学習はコンピュータビジョンとnlpドメインに大きな影響を与えてきたが、レコメンダシステムの分野では使われていない。 ユーザとイテムのインタラクションシーケンスをモデル化したレコメンデーションを生成する研究が数多く行われているが、限られたデータしか存在しない下流のタスクにこれらのモデルを表現し、転送しようとする研究はほとんどない。 本稿では,クロスドメインレコメンデーションからユーザプロファイル予測に至るまで,タスクの多様性に適用可能な単一ユーザ表現を効果的に学習するタスクについて検討する。 大規模なトレーニング済みネットワークを微調整し、下流タスクに適用することは、そのようなタスクを解決する効果的な方法である。 しかし、細調整はパラメータ非効率であり、新しいタスクごとにモデル全体を再トレーニングする必要がある。 この問題を克服するために,パラメータ効率のよい転送学習アーキテクチャであるPeterRecを開発し,様々な下流タスクにオンザフライで設定できる。 具体的には、PeterRecは、一連の再学習ニューラルネットワークを注入することで、トレーニング済みのパラメータを微調整中に未修正のままにすることができる。 5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験アブレーションを行う。 さらに、PeterRecは、複数のドメインで効率的な転送学習を行い、モデルパラメータ全体を微調整するのに対して、同等または時として優れたパフォーマンスを実現する。 コードとデータセットはhttps://github.com/fajieyuan/sigir2020_peterrecで入手できる。

Inductive transfer learning has had a big impact on computer vision and NLP domains but has not been used in the area of recommender systems. Even though there has been a large body of research on generating recommendations based on modeling user-item interaction sequences, few of them attempt to represent and transfer these models for serving downstream tasks where only limited data exists. In this paper, we delve on the task of effectively learning a single user representation that can be applied to a diversity of tasks, from cross-domain recommendations to user profile predictions. Fine-tuning a large pre-trained network and adapting it to downstream tasks is an effective way to solve such tasks. However, fine-tuning is parameter inefficient considering that an entire model needs to be re-trained for every new task. To overcome this issue, we develop a parameter efficient transfer learning architecture, termed as PeterRec, which can be configured on-the-fly to various downstream tasks. Specifically, PeterRec allows the pre-trained parameters to remain unaltered during fine-tuning by injecting a series of re-learned neural networks, which are small but as expressive as learning the entire network. We perform extensive experimental ablation to show the effectiveness of the learned user representation in five downstream tasks. Moreover, we show that PeterRec performs efficient transfer learning in multiple domains, where it achieves comparable or sometimes better performance relative to fine-tuning the entire model parameters. Codes and datasets are available at https://github.com/fajieyuan/sigir2020_peterrec.
翻訳日:2023-01-11 23:50:35 公開日:2020-06-09
# covost:多言語音声からテキストへの翻訳コーパス

CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus ( http://arxiv.org/abs/2002.01320v2 )

ライセンス: Link先を確認
Changhan Wang, Juan Pino, Anne Wu, Jiatao Gu(参考訳) エンドツーエンドモデルの開発とAugmented LibriSpeechやMuST-Cといった新しいコーパスの作成により、スポケン言語翻訳が最近人気を回復した。 既存のデータセットには、ソース言語としての英語との言語ペア、非常に特定のドメイン、あるいはリソースの少ないものが含まれる。 我々は11言語から英語への多言語翻訳コーパスであるCoVoSTを導入し、11,000人以上の話者と60以上のアクセントで多様化した。 データセット作成手法を記述し、データの品質に関する実証的な証拠を提供する。 また、私たちの知る限り、音声言語翻訳のための最初のエンドツーエンド多言語モデルを含む初期ベンチマークも提供します。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。 また, CCライセンス下で, タトエバから派生した評価データも提供する。

Spoken language translation has recently witnessed a resurgence in popularity, thanks to the development of end-to-end models and the creation of new corpora, such as Augmented LibriSpeech and MuST-C. Existing datasets involve language pairs with English as a source language, involve very specific domains or are low resource. We introduce CoVoST, a multilingual speech-to-text translation corpus from 11 languages into English, diversified with over 11,000 speakers and over 60 accents. We describe the dataset creation methodology and provide empirical evidence of the quality of the data. We also provide initial benchmarks, including, to our knowledge, the first end-to-end many-to-one multilingual models for spoken language translation. CoVoST is released under CC0 license and free to use. We also provide additional evaluation data derived from Tatoeba under CC licenses.
翻訳日:2023-01-04 03:09:29 公開日:2020-06-09
# 差別化可能なバンディット探索

Differentiable Bandit Exploration ( http://arxiv.org/abs/2002.06772v2 )

ライセンス: Link先を確認
Craig Boutilier, Chih-Wei Hsu, Branislav Kveton, Martin Mladenov, Csaba Szepesvari, and Manzil Zaheer(参考訳) ベイズ帯域における探索ポリシーは、ある分布$\mathcal{P}$から引き出された問題インスタンスに対する平均報酬を最大化する。 本研究では,$\mathcal{p}$ のサンプルを用いて,未知分布 $\mathcal{p}$ に対するそのようなポリシーを学習する。 我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$\mathcal{P}$のプロパティを利用する。 これを実現するために、我々はポリシーを微分可能な方法でパラメータ化し、ポリシー勾配によってそれらを最適化する。 有効勾配推定器を導出し,新しい分散低減手法を導入する。 また、ニューラルネットワークや新しいソフトマックスポリシーなど、さまざまなバンドイットポリシークラスを分析し、実験する。 後者は後悔の保証があり、最適化の自然な出発点です。 我々の実験は我々のアプローチの汎用性を示している。 また、ニューラルネットワークポリシーは、サンプルインスタンスを通してのみ表現される暗黙のバイアスを学習することができる。

Exploration policies in Bayesian bandits maximize the average reward over problem instances drawn from some distribution $\mathcal{P}$. In this work, we learn such policies for an unknown distribution $\mathcal{P}$ using samples from $\mathcal{P}$. Our approach is a form of meta-learning and exploits properties of $\mathcal{P}$ without making strong assumptions about its form. To do this, we parameterize our policies in a differentiable way and optimize them by policy gradients, an approach that is general and easy to implement. We derive effective gradient estimators and introduce novel variance reduction techniques. We also analyze and experiment with various bandit policy classes, including neural networks and a novel softmax policy. The latter has regret guarantees and is a natural starting point for our optimization. Our experiments show the versatility of our approach. We also observe that neural network policies can learn implicit biases expressed only through the sampled instances.
翻訳日:2022-12-31 11:59:19 公開日:2020-06-09
# 可変摂動オプティマイザによる学習

Learning with Differentiable Perturbed Optimizers ( http://arxiv.org/abs/2002.08676v2 )

ライセンス: Link先を確認
Quentin Berthet, Mathieu Blondel, Olivier Teboul, Marco Cuturi, Jean-Philippe Vert, Francis Bach(参考訳) 機械学習パイプラインは、離散的な決定(例えば、ソート、最も近い隣人の選択、最短経路)を行うための最適化手順に依存することが多い。 これらの決定は容易に計算できるが、計算グラフのバックプロパゲーションを破る。 エンド・ツー・エンドで解決可能な学習問題の範囲を広げるために,最適化器を微分可能かつ局所的に一定でない操作に変換する体系的手法を提案する。 提案手法は確率論的に摂動型最適化器に依存し,既存の解法と容易に併用できる。 それらの誘導体を効率よく評価でき、選択した雑音振幅によって滑らかさを調整できる。 また, この枠組みが, 構造化予測において発達した損失の族とどのように結びつくかを示し, 学習課題に使用する理論的保証を与える。 様々なタスクにおけるアプローチの性能を実験的に実証する。

Machine learning pipelines often rely on optimization procedures to make discrete decisions (e.g., sorting, picking closest neighbors, or shortest paths). Although these discrete decisions are easily computed, they break the back-propagation of computational graphs. In order to expand the scope of learning problems that can be solved in an end-to-end fashion, we propose a systematic method to transform optimizers into operations that are differentiable and never locally constant. Our approach relies on stochastically perturbed optimizers, and can be used readily together with existing solvers. Their derivatives can be evaluated efficiently, and smoothness tuned via the chosen noise amplitude. We also show how this framework can be connected to a family of losses developed in structured prediction, and give theoretical guarantees for their use in learning tasks. We demonstrate experimentally the performance of our approach on various tasks.
翻訳日:2022-12-30 07:27:07 公開日:2020-06-09
# atari 2600ゲームにおける壊滅的干渉について

On Catastrophic Interference in Atari 2600 Games ( http://arxiv.org/abs/2002.12499v2 )

ライセンス: Link先を確認
William Fedus, Dibya Ghosh, John D. Martin, Marc G. Bellemare, Yoshua Bengio, Hugo Larochelle(参考訳) モデルなしの深層強化学習は非効率である。 仮説の一つは、環境内の破滅的な干渉が学習を妨げるというものである。 この仮説を、アーケード学習環境(ale)における大規模実証研究を通じて検証し、裏付けとなる証拠を見つけ出す。 干渉が台地の性能を損なうことを示し、ネットワークは台地以外のセグメントで、そこに到達するポリシーを劣化させることなく訓練することができない。 干渉を合成的に制御することで、アーキテクチャ、学習アルゴリズム、環境にまたがる性能向上を示す。 より洗練された分析により、ゲームの1つのセグメントを学ぶと予測エラーが他の場所で増加することが示されている。 本研究は,強化学習における壊滅的干渉とサンプル効率の関係を明らかにした。

Model-free deep reinforcement learning is sample inefficient. One hypothesis -- speculated, but not confirmed -- is that catastrophic interference within an environment inhibits learning. We test this hypothesis through a large-scale empirical study in the Arcade Learning Environment (ALE) and, indeed, find supporting evidence. We show that interference causes performance to plateau; the network cannot train on segments beyond the plateau without degrading the policy used to reach there. By synthetically controlling for interference, we demonstrate performance boosts across architectures, learning algorithms and environments. A more refined analysis shows that learning one segment of a game often increases prediction errors elsewhere. Our study provides a clear empirical link between catastrophic interference and sample efficiency in reinforcement learning.
翻訳日:2022-12-28 01:19:45 公開日:2020-06-09
# 離散確率変数に対する一般化ガムベル・ソフトマックス勾配推定器

Generalized Gumbel-Softmax Gradient Estimator for Various Discrete Random Variables ( http://arxiv.org/abs/2003.01847v2 )

ライセンス: Link先を確認
Weonyoung Joo, Dongjun Kim, Seungjae Shin, Il-Chul Moon(参考訳) 確率ノードの勾配の推定は、ニューラルネットワークパラメータの勾配降下最適化を可能にするディープジェネレーティブモデリングコミュニティにおける重要な研究課題の1つである。 この推定問題は、経路微分法を適用することができないため、確率ノードを離散化していると考えるとさらに複雑になる。 したがって、離散分布の確率的勾配推定は、スコア関数法または離散確率変数の連続緩和を必要とする。 本稿では,連続緩和を伴うGumbel-Softmax推定器の一般バージョンを提案し,この推定器は分類型やベルヌーイ以外の多種多様を含む確率分布の離散性を緩和することができる。 より詳しくは、離散確率変数のトランケーションとGumbel-Softmax トリックを緩和された再パラメータ化のための線形変換で利用する。 提案手法により、緩和された離散確率変数を再パラメータ化し、大規模確率計算グラフで逆伝播することができる。 本実験は,(1) 提案手法の有効性を示す合成データ分析,(2) VAEおよびトピックモデルへの応用,および,提案手法の有効性を示す。

Estimating the gradients of stochastic nodes is one of the crucial research questions in the deep generative modeling community, which enables the gradient descent optimization on neural network parameters. This estimation problem becomes further complex when we regard the stochastic nodes to be discrete because pathwise derivative techniques cannot be applied. Hence, the stochastic gradient estimation of discrete distributions requires either a score function method or continuous relaxation of the discrete random variables. This paper proposes a general version of the Gumbel-Softmax estimator with continuous relaxation, and this estimator is able to relax the discreteness of probability distributions including more diverse types, other than categorical and Bernoulli. In detail, we utilize the truncation of discrete random variables and the Gumbel-Softmax trick with a linear transformation for the relaxed reparameterization. The proposed approach enables the relaxed discrete random variable to be reparameterized and to backpropagated through a large scale stochastic computational graph. Our experiments consist of (1) synthetic data analyses, which show the efficacy of our methods; and (2) applications on VAE and topic model, which demonstrate the value of the proposed estimation in practices.
翻訳日:2022-12-26 12:14:22 公開日:2020-06-09
# 周波数可変ユニバーサル敵攻撃

Frequency-Tuned Universal Adversarial Attacks ( http://arxiv.org/abs/2003.05549v2 )

ライセンス: Link先を確認
Yingpeng Deng and Lina J. Karam(参考訳) 研究者は、画像集合に対する畳み込みニューラルネットワーク(cnn)の予測は、1つの画像非依存の摂動または普遍摂動によって著しく歪められ、通常、その知覚可能性を制限するために空間領域に経験的に固定された閾値を持つことを示した。 しかし,人間の知覚を考慮し,普遍的対人摂動の知覚可能性を高めるためにJND閾値を採用することを提案する。 そこで本研究では,周波数調整によるユニバーサルな摂動の計算手法を提案し,この手法により,局所的な周波数内容に摂動を適応させることで,知覚可能性と効率のバランスが良好であることを示す。 従来の普遍的対向攻撃法と比較して、周波数調整攻撃法は最先端の定量的結果が得られる。 提案手法は,ホワイトボックス攻撃とブラックボックス攻撃の両方において,ベースラインのパフォーマンスを著しく改善できることを実証する。

Researchers have shown that the predictions of a convolutional neural network (CNN) for an image set can be severely distorted by one single image-agnostic perturbation, or universal perturbation, usually with an empirically fixed threshold in the spatial domain to restrict its perceivability. However, by considering the human perception, we propose to adopt JND thresholds to guide the perceivability of universal adversarial perturbations. Based on this, we propose a frequency-tuned universal attack method to compute universal perturbations and show that our method can realize a good balance between perceivability and effectiveness in terms of fooling rate by adapting the perturbations to the local frequency content. Compared with existing universal adversarial attack techniques, our frequency-tuned attack method can achieve cutting-edge quantitative results. We demonstrate that our approach can significantly improve the performance of the baseline on both white-box and black-box attacks.
翻訳日:2022-12-24 15:00:20 公開日:2020-06-09
# Stuff と Things の差分処理:意味的セグメンテーションのための単純な教師なし領域適応法

Differential Treatment for Stuff and Things: A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation ( http://arxiv.org/abs/2003.08040v3 )

ライセンス: Link先を確認
Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerio Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Humphrey Shi(参考訳) 本研究では、ソースドメイン(合成データ)とターゲットドメイン(実データ)とのドメインシフトを緩和することにより、意味的セグメンテーションのための教師なしドメイン適応の問題を考える。 最先端のアプローチは、セマンティクスレベルアライメントの実行がドメインシフトの問題に取り組むのに役立つことを証明します。 カテゴリが異なるドメインの画像間で類似した外観を共有するのが一般的であるのに対して、オブジェクトインスタンス(オブジェクトインスタンス)の方がはるかに大きな違いがあるという観察に基づいて、私たちは、領域や物事に対する異なる戦略によるセマンティックレベルのアライメントを改善することを提案する。 1)各クラスの特徴表現を作成し,対象ドメインからソースドメインへのアライメント操作を行う。 2) 対象のカテゴリについては,各インスタンスの特徴表現を生成し,対象ドメイン内のインスタンスに対して,ソースドメインの最も類似したインスタンスと整合するように促します。 このようにして、モノのカテゴリ内の個々の違いも過度な無視を緩和すると考えられる。 提案手法に加えて, 分布の不一致を最小限に抑えるために, 現在の逆損失が不安定である理由をさらに明らかにし, ソースとターゲットドメイン間の類似点やインスタンス特徴を最小化することにより, この問題を緩和できることを示す。 我々は,2つの非教師なし領域適応タスク,すなわち都市景観へのgta5,都市景観へのシンセシアの広範な実験を行い,新たな最先端セグメンテーション精度を達成する。

We consider the problem of unsupervised domain adaptation for semantic segmentation by easing the domain shift between the source domain (synthetic data) and the target domain (real data) in this work. State-of-the-art approaches prove that performing semantic-level alignment is helpful in tackling the domain shift issue. Based on the observation that stuff categories usually share similar appearances across images of different domains while things (i.e. object instances) have much larger differences, we propose to improve the semantic-level alignment with different strategies for stuff regions and for things: 1) for the stuff categories, we generate feature representation for each class and conduct the alignment operation from the target domain to the source domain; 2) for the thing categories, we generate feature representation for each individual instance and encourage the instance in the target domain to align with the most similar one in the source domain. In this way, the individual differences within thing categories will also be considered to alleviate over-alignment. In addition to our proposed method, we further reveal the reason why the current adversarial loss is often unstable in minimizing the distribution discrepancy and show that our method can help ease this issue by minimizing the most similar stuff and instance features between the source and the target domains. We conduct extensive experiments in two unsupervised domain adaptation tasks, i.e. GTA5 to Cityscapes and SYNTHIA to Cityscapes, and achieve the new state-of-the-art segmentation accuracy.
翻訳日:2022-12-22 09:49:06 公開日:2020-06-09
# クロスコンシスタンシートレーニングによる半教師付き意味セグメンテーション

Semi-Supervised Semantic Segmentation with Cross-Consistency Training ( http://arxiv.org/abs/2003.09005v3 )

ライセンス: Link先を確認
Yassine Ouali, C\'eline Hudelot, Myriam Tami(参考訳) 本稿では,意味セグメンテーションのための新しいクロスコンシステンシーに基づく半教師付きアプローチを提案する。 一貫性トレーニングは、クラスタの仮定の下でラベルのないデータを活用するための強力な半教師付き学習フレームワークであることが証明されている。 本研究では,まず,意味的セグメンテーションにおいて,低密度領域は入力よりも隠れ表現内でより明瞭であることを示す。 そこで本研究では,エンコーダの出力に適用される異なる摂動に対して,予測の不一致を強制するクロスコンシスタンストレーニングを提案する。 具体的には、利用可能なラベル付き例を用いて共有エンコーダとメインデコーダを教師付きで訓練する。 ラベル付けされていない例を活用するため,本手法では,主復号器と補助復号器との整合性を強制し,エンコーダの出力の異なる摂動バージョンを入力とし,その結果,エンコーダの表現を改善する。 提案手法は単純で,画像レベルラベルや画素レベルラベルなどの付加的なトレーニング信号を使用するように拡張することができる。 そこで我々は,各成分の有効性を解明するためにアブレーション研究を行い,いくつかのデータセットで最新の結果が得られたことを示すため,広範な実験を行った。

In this paper, we present a novel cross-consistency based semi-supervised approach for semantic segmentation. Consistency training has proven to be a powerful semi-supervised learning framework for leveraging unlabeled data under the cluster assumption, in which the decision boundary should lie in low-density regions. In this work, we first observe that for semantic segmentation, the low-density regions are more apparent within the hidden representations than within the inputs. We thus propose cross-consistency training, where an invariance of the predictions is enforced over different perturbations applied to the outputs of the encoder. Concretely, a shared encoder and a main decoder are trained in a supervised manner using the available labeled examples. To leverage the unlabeled examples, we enforce a consistency between the main decoder predictions and those of the auxiliary decoders, taking as inputs different perturbed versions of the encoder's output, and consequently, improving the encoder's representations. The proposed method is simple and can easily be extended to use additional training signal, such as image-level labels or pixel-level labels across different domains. We perform an ablation study to tease apart the effectiveness of each component, and conduct extensive experiments to demonstrate that our method achieves state-of-the-art results in several datasets.
翻訳日:2022-12-22 04:43:35 公開日:2020-06-09
# ハイブリッドニューロシンボリックモデルによる新しい概念の生成

Generating new concepts with hybrid neuro-symbolic models ( http://arxiv.org/abs/2003.08978v3 )

ライセンス: Link先を確認
Reuben Feinman, Brenden M. Lake(参考訳) 人間の概念知識は、新しいが高度に構造化された概念を生成する能力をサポートし、この概念知識の形式は認知科学者にとって大きな関心を持つ。 ある伝統は構造化された知識を強調し、概念は直感的な理論に埋め込まれるか、複雑な記号的な知識構造に組織化されている。 第二の伝統は統計的知識を強調し、概念的知識はニューラルネットワークやその他の統計モデルの訓練によって得られたリッチな相関構造から生まれたものと見なしている。 本稿では,新しい概念を創出するためのニューロシンボリックモデルを用いて,これら2つの伝統の合成について検討する。 単純な視覚概念をテストベッドとして使用し,ニューラルネットワークとシンボリック確率プログラムを組み合わせて,新しい手書き文字の生成モデルを学ぶ。 2つの代替モデルがより汎用的なニューラルネットワークアーキテクチャで検討されている。 これら3つのモデルのそれぞれを、保持されたキャラクタクラスとプロダクションの品質に関する可能性と比較し、我々のハイブリッドモデルが最も説得力のある表現を学習し、トレーニング観察からさらに一般化できることを見出した。

Human conceptual knowledge supports the ability to generate novel yet highly structured concepts, and the form of this conceptual knowledge is of great interest to cognitive scientists. One tradition has emphasized structured knowledge, viewing concepts as embedded in intuitive theories or organized in complex symbolic knowledge structures. A second tradition has emphasized statistical knowledge, viewing conceptual knowledge as an emerging from the rich correlational structure captured by training neural networks and other statistical models. In this paper, we explore a synthesis of these two traditions through a novel neuro-symbolic model for generating new concepts. Using simple visual concepts as a testbed, we bring together neural networks and symbolic probabilistic programs to learn a generative model of novel handwritten characters. Two alternative models are explored with more generic neural network architectures. We compare each of these three models for their likelihoods on held-out character classes and for the quality of their productions, finding that our hybrid model learns the most convincing representation and generalizes further from the training observations.
翻訳日:2022-12-22 03:30:27 公開日:2020-06-09
# 1つのニューロンが全てをフールする

One Neuron to Fool Them All ( http://arxiv.org/abs/2003.09372v2 )

ライセンス: Link先を確認
Anshuman Suri and David Evans(参考訳) 敵対的な例としては膨大な研究があるが、モデル感受性の根本原因はよく分かっていない。 攻撃特異的なロバスト性ではなく、モデルの出力がニューロンの出力を直接摂動することの頑健性の観点から個々のニューロンの感度を評価する概念を提案する。 この視点でモデルを分析すると、標準の特徴と敵対的に訓練された頑健なモデルが明らかとなり、いくつかの興味深い結果をもたらす。 CIFAR-10とImageNetの実験では、単一感度ニューロンを標的とした損失関数を用いた攻撃は、完全なモデルをターゲットにした攻撃とほぼ同等に効果的に敵の例を見出す。 我々はこれらの感度ニューロンの特性を分析し、モデルが自然データ分布の精度を維持しながら様々な摂動制約に頑健性を達成するのに役立つ正規化項を提案する。 すべての実験のコードはhttps://github.com/iamgroot42/sauron.comで公開されている。

Despite vast research in adversarial examples, the root causes of model susceptibility are not well understood. Instead of looking at attack-specific robustness, we propose a notion that evaluates the sensitivity of individual neurons in terms of how robust the model's output is to direct perturbations of that neuron's output. Analyzing models from this perspective reveals distinctive characteristics of standard as well as adversarially-trained robust models, and leads to several curious results. In our experiments on CIFAR-10 and ImageNet, we find that attacks using a loss function that targets just a single sensitive neuron find adversarial examples nearly as effectively as ones that target the full model. We analyze the properties of these sensitive neurons to propose a regularization term that can help a model achieve robustness to a variety of different perturbation constraints while maintaining accuracy on natural data distributions. Code for all our experiments is available at https://github.com/iamgroot42/sauron .
翻訳日:2022-12-21 21:57:14 公開日:2020-06-09
# ヘッセン推定進化戦略

The Hessian Estimation Evolution Strategy ( http://arxiv.org/abs/2003.13256v2 )

ライセンス: Link先を確認
Tobias Glasmachers, Oswin Krause(参考訳) 我々はヘッセン推定進化戦略と呼ばれる新しいブラックボックス最適化アルゴリズムを提案する。 アルゴリズムは、目的関数の曲率を直接推定することにより、サンプリング分布の共分散行列を更新する。 このアルゴリズム設計は2回連続的な微分可能な問題を対象としている。 本研究では,CMA-ESの累積ステップサイズ適応アルゴリズムをミラーサンプリングに拡張する。 我々は,BBOB/COCOテストベッド上で,共分散行列適応に対するアプローチが効率的であることを実証した。 また,2次連続微分可能な対象関数のコア仮定が破られた場合,アルゴリズムは驚くほど頑健であることを示した。 このアプローチは、競争力のある新しい進化戦略をもたらすと同時に、通常の共分散マトリックス更新メカニズムに代わる興味深い選択肢を提供する。

We present a novel black box optimization algorithm called Hessian Estimation Evolution Strategy. The algorithm updates the covariance matrix of its sampling distribution by directly estimating the curvature of the objective function. This algorithm design is targeted at twice continuously differentiable problems. For this, we extend the cumulative step-size adaptation algorithm of the CMA-ES to mirrored sampling. We demonstrate that our approach to covariance matrix adaptation is efficient by evaluation it on the BBOB/COCO testbed. We also show that the algorithm is surprisingly robust when its core assumption of a twice continuously differentiable objective function is violated. The approach yields a new evolution strategy with competitive performance, and at the same time it also offers an interesting alternative to the usual covariance matrix update mechanism.
翻訳日:2022-12-18 06:33:01 公開日:2020-06-09
# セマンティクスレベルシフトの緩和:セマンティクスセグメンテーションのための半教師あり領域適応法

Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation Method for Semantic Segmentation ( http://arxiv.org/abs/2004.00794v2 )

ライセンス: Link先を確認
Zhonghao Wang, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-Mei Hwu, Thomas S. Huang, Humphrey Shi(参考訳) 合成データからのセグメンテーションの学習と実際のデータへの適応は、ピクセルレベルのマスクのラベル付けにおける人間の努力を著しく軽減する。 このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法、すなわちドメインシフトを減らすことである。 この問題に対する一般的なアプローチは、異なる領域からの特徴分布間の差を最小限に抑えることである。 しかし、グローバルに機能分布を整合させることは、ローカルビュー(セマンティックレベル)からの一貫性を保証できないため、ソースドメインで学習した特定のセマンティック知識がターゲットドメインに適用されない。 この問題に対処するために,グローバルな視点とローカルな視点の両方から分布の整合性を促進するための半教師付きアプローチであるAlleviating Semantic-level Shift (ASS)を提案する。 具体的には,対象領域から少数のラベル付きデータを活用することで,画素レベルのマスクが推奨する同じカテゴリに対応する特徴を平均化することにより,ソースとターゲット領域の両方から意味レベルの特徴表現を直接抽出する。 次に、作成した特徴を識別器に供給し、世界的視点からの敵対的学習と協調してドメインシフトを緩和する意味レベルの敵対的学習を行う。 GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。 1) 対象ドメインからの注釈付きサンプルを少数使用することにより,現在管理されていない最先端の状態を著しく上回り,(2) ASSは,対象ドメインへのオーバーフィッティングの問題に悩まされることなく,対象ドメインからの注釈付きサンプルで合成ソースデータを増大させることで,ターゲットデータセット全体においてトレーニングされたオラクルモデルを3ポイント以上越えることができる。

Learning segmentation from synthetic data and adapting to real data can significantly relieve human efforts in labelling pixel-level masks. A key challenge of this task is how to alleviate the data distribution discrepancy between the source and target domains, i.e. reducing domain shift. The common approach to this problem is to minimize the discrepancy between feature distributions from different domains through adversarial training. However, directly aligning the feature distribution globally cannot guarantee consistency from a local view (i.e. semantic-level), which prevents certain semantic knowledge learned on the source domain from being applied to the target domain. To tackle this issue, we propose a semi-supervised approach named Alleviating Semantic-level Shift (ASS), which can successfully promote the distribution consistency from both global and local views. Specifically, leveraging a small number of labeled data from the target domain, we directly extract semantic-level feature representations from both the source and the target domains by averaging the features corresponding to same categories advised by pixel-level masks. We then feed the produced features to the discriminator to conduct semantic-level adversarial learning, which collaborates with the adversarial learning from the global view to better alleviate the domain shift. We apply our ASS to two domain adaptation tasks, from GTA5 to Cityscapes and from Synthia to Cityscapes. Extensive experiments demonstrate that: (1) ASS can significantly outperform the current unsupervised state-of-the-arts by employing a small number of annotated samples from the target domain; (2) ASS can beat the oracle model trained on the whole target dataset by over 3 points by augmenting the synthetic source data with annotated samples from the target domain without suffering from the prevalent problem of overfitting to the source domain.
翻訳日:2022-12-17 09:46:33 公開日:2020-06-09
# 再帰的ニューラルネットワークを用いたテンプレートベース質問応答

Template-based Question Answering using Recursive Neural Networks ( http://arxiv.org/abs/2004.13843v3 )

ライセンス: Link先を確認
Ram G Athreya, Srividya Bansal, Axel-Cyrille Ngonga Ngomo, Ricardo Usbeck(参考訳) 本稿では,ニューラルネットワークを用いて自然言語質問を自動的に学習し,そのテンプレートに分類するニューラルネットワークアプローチを提案する。 ニューラルネットワークを使う明らかな利点は、面倒でエラーを起こしやすい、手間のかかる機能エンジニアリングの必要性をなくすことである。 入力質問はベクトル表現に符号化される。 このモデルはLC-QuADデータセット(大規模複雑質問回答データセット)でトレーニングされ評価される。 LC-QuADクエリは、モデルを分類しようとする38のユニークなテンプレートに基づいて注釈付けされている。 得られたモデルはLC-QuADデータセットと第7質問回答リンクデータ(QALD-7)データセットの両方に対して評価される。 再帰的ニューラルネットワークは、LC-QuADデータセットで0.828のテンプレート分類精度、QALD-7データセットで0.618の精度を達成する。 最も可能性の高いテンプレートが検討されると、LC-QuADデータセットでは0.945、QALD-7データセットでは0.786の精度が得られる。 スロットフィリング後、LC-QuADデータセットのマクロFスコア0.419、QALD-7データセットのマクロFスコア0.417を達成する。

We propose a neural network-based approach to automatically learn and classify natural language questions into its corresponding template using recursive neural networks. An obvious advantage of using neural networks is the elimination of the need for laborious feature engineering that can be cumbersome and error-prone. The input question is encoded into a vector representation. The model is trained and evaluated on the LC-QuAD dataset (Large-scale Complex Question Answering Dataset). The LC-QuAD queries are annotated based on 38 unique templates that the model attempts to classify. The resulting model is evaluated against both the LC-QuAD dataset and the 7th Question Answering Over Linked Data (QALD-7) dataset. The recursive neural network achieves template classification accuracy of 0.828 on the LC-QuAD dataset and an accuracy of 0.618 on the QALD-7 dataset. When the top-2 most likely templates were considered the model achieves an accuracy of 0.945 on the LC-QuAD dataset and 0.786 on the QALD-7 dataset. After slot filling, the overall system achieves a macro F-score 0.419 on the LC-QuAD dataset and a macro F-score of 0.417 on the QALD-7 dataset.
翻訳日:2022-12-17 04:12:22 公開日:2020-06-09
# 深層学習による高分解能6x6mm octアンギオグラムの再構成

Reconstruction of high-resolution 6x6-mm OCT angiograms using deep learning ( http://arxiv.org/abs/2004.08957v2 )

ライセンス: Link先を確認
Min Gao, Yukun Guo, Tristan T. Hormel, Jiande Sun, Thomas Hwang and Yali Jia(参考訳) 一般的な光学コヒーレンス断層撮影領域は3x3-または6x6-mmである。 適切なサンプリング密度を持つ3x3mmアンギオグラムと比較すると,6x6mmアンギオグラムのスキャン品質は著しく低下し,信号対雑音比が低下し,アンダーサンプリングによる影アーチファクトが悪化した。 本稿では,6x6mm表面血管複合体(SVC)造影画像を生成するディープラーニングを用いた高分解能血管造影網(HARNet)を提案する。 ネットワークは、同じ目の3x3mmと6x6mmの血管造影からのデータに基づいて訓練された。 再構成された6x6mmアンギオグラムは、元の画像よりもノイズ強度が著しく低く血管接続性が良い。 このアルゴリズムは、元の血管造影で示されるノイズレベルにおいて、偽のフロー信号を生成しなかった。 本アルゴリズムはバイオマーカー測定と6x6-mm OCTAの定性的臨床評価を改善した。

Typical optical coherence tomographic angiography (OCTA) acquisition areas on commercial devices are 3x3- or 6x6-mm. Compared to 3x3-mm angiograms with proper sampling density, 6x6-mm angiograms have significantly lower scan quality, with reduced signal-to-noise ratio and worse shadow artifacts due to undersampling. Here, we propose a deep-learning-based high-resolution angiogram reconstruction network (HARNet) to generate enhanced 6x6-mm superficial vascular complex (SVC) angiograms. The network was trained on data from 3x3-mm and 6x6-mm angiograms from the same eyes. The reconstructed 6x6-mm angiograms have significantly lower noise intensity and better vascular connectivity than the original images. The algorithm did not generate false flow signal at the noise level presented by the original angiograms. The image enhancement produced by our algorithm may improve biomarker measurements and qualitative clinical assessment of 6x6-mm OCTA.
翻訳日:2022-12-12 00:05:56 公開日:2020-06-09
# 実証と好奇心からの政策グラディエント

Policy Gradient from Demonstration and Curiosity ( http://arxiv.org/abs/2004.10430v2 )

ライセンス: Link先を確認
Jie Chen, Wenjun Xu(参考訳) 強化学習では、エージェントはタスクの高レベルの抽象化から複雑な振る舞いを学ぶことができる。 しかし、特に極端にフィードバックが乏しいシナリオでは、既存の手法では探索と報酬のシェーピングが難しかった。 これらの課題を解決するために専門家によるデモンストレーションが調査されてきたが、非常に多くの高品質なデモが必要であった。 そこで本研究では,少数の実験からのみ,探索の促進と本質的報酬学習の促進を目的として,統合ポリシー勾配アルゴリズムを提案する。 我々は,第1項が現在の政策と専門家の間でjensen-shannonの相違を計測し,第2項がエージェントの環境に対する不確かさを推定した。 提案アルゴリズムは,各タスクに1つの実験軌道のみを付与し,全てのタスクにおいて優れた探索効率と高い平均回帰を実証する,疎外報酬信号を用いたシミュレーションタスクに対して評価を行った。 さらに,エージェントが専門家の行動を模倣し,その一方で高いリターンを維持できることが判明した。

With reinforcement learning, an agent could learn complex behaviors from high-level abstractions of the task. However, exploration and reward shaping remained challenging for existing methods, especially in scenarios where the extrinsic feedback was sparse. Expert demonstrations have been investigated to solve these difficulties, but a tremendous number of high-quality demonstrations were usually required. In this work, an integrated policy gradient algorithm was proposed to boost exploration and facilitate intrinsic reward learning from only limited number of demonstrations. We achieved this by reformulating the original reward function with two additional terms, where the first term measured the Jensen-Shannon divergence between current policy and the expert, and the second term estimated the agent's uncertainty about the environment. The presented algorithm was evaluated on a range of simulated tasks with sparse extrinsic reward signals where only one single demonstrated trajectory was provided to each task, superior exploration efficiency and high average return were demonstrated in all tasks. Furthermore, it was found that the agent could imitate the expert's behavior and meanwhile sustain high return.
翻訳日:2022-12-10 17:22:21 公開日:2020-06-09
# 引数からキーポイントへ:自動引数要約に向けて

From Arguments to Key Points: Towards Automatic Argument Summarization ( http://arxiv.org/abs/2005.01619v2 )

ライセンス: Link先を確認
Roy Bar-Haim, Lilach Eden, Roni Friedman, Yoav Kantor, Dan Lahav, Noam Slonim(参考訳) 与えられたトピックに関する議論の大規模なコレクションから簡潔な要約を生成することは、興味深いが未熟な問題である。 このような要約を,「キーポイント」と呼ばれる会話点の小さな集合として表現することを提案する。 群集に分散した議論の大規模なデータセットを解析することにより,話題ごとのキーポイントの数が少なければ,ほとんどの議論をカバーするのに十分であることを示す。 さらに、ドメインの専門家が事前にこれらのキーポイントを予測できることも分かりました。 本稿では,引数対キーポイントマッピングの課題について検討し,この課題に対して新たな大規模データセットを提案する。 我々は,このデータセットを用いた広範囲な実験の結果を報告し,有望な性能を示す。

Generating a concise summary from a large collection of arguments on a given topic is an intriguing yet understudied problem. We propose to represent such summaries as a small set of talking points, termed "key points", each scored according to its salience. We show, by analyzing a large dataset of crowd-contributed arguments, that a small number of key points per topic is typically sufficient for covering the vast majority of the arguments. Furthermore, we found that a domain expert can often predict these key points in advance. We study the task of argument-to-key point mapping, and introduce a novel large-scale dataset for this task. We report empirical results for an extensive set of experiments with this dataset, showing promising performance.
翻訳日:2022-12-07 00:45:42 公開日:2020-06-09
# ガウス過程状態空間モデルの局所的能動学習

Localized active learning of Gaussian process state space models ( http://arxiv.org/abs/2005.02191v3 )

ライセンス: Link先を確認
Alexandre Capone, Jonas Umlauft, Thomas Beckers, Armin Lederer, Sandra Hirche(参考訳) 学習に基づく制御技術の性能は、システムがいかに効果的に探索されるかに大きく依存する。 ほとんどの探査技術は、グローバルに正確なモデルを達成することを目標としているが、そのようなアプローチは一般に、境界のない状態空間を持つシステムには適さない。 さらに、局所安定化タスクなど、多くの共通制御アプリケーションにおいて優れた性能を達成するためには、グローバルに正確なモデルを必要としない。 本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的とした,ガウス過程状態空間モデルの能動的学習戦略を提案する。 本研究の目的は,関心領域の離散化に関して,探索軌跡の相互情報の最大化である。 モデル予測制御を用いることにより,探索中に収集した情報を統合し,探索戦略を適応的に改善する。 計算的トラクタビリティを実現するため、最も情報性の高いデータポイントの選択をモデル予測制御最適化ステップから切り離す。 これにより、2つの最適化問題を並列に解くことができる。 提案手法は, 様々な力学系の状態空間を探索するために応用し, 一般的なエントロピーに基づく探索手法と比較する。 すべての実験において,本手法はエントロピー法よりも関心領域のモデルが優れている。

The performance of learning-based control techniques crucially depends on how effectively the system is explored. While most exploration techniques aim to achieve a globally accurate model, such approaches are generally unsuited for systems with unbounded state spaces. Furthermore, a globally accurate model is not required to achieve good performance in many common control applications, e.g., local stabilization tasks. In this paper, we propose an active learning strategy for Gaussian process state space models that aims to obtain an accurate model on a bounded subset of the state-action space. Our approach aims to maximize the mutual information of the exploration trajectories with respect to a discretization of the region of interest. By employing model predictive control, the proposed technique integrates information collected during exploration and adaptively improves its exploration strategy. To enable computational tractability, we decouple the choice of most informative data points from the model predictive control optimization step. This yields two optimization problems that can be solved in parallel. We apply the proposed method to explore the state space of various dynamical systems and compare our approach to a commonly used entropy-based exploration strategy. In all experiments, our method yields a better model within the region of interest than the entropy-based method.
翻訳日:2022-12-07 00:39:28 公開日:2020-06-09
# モノのインターネットのためのサービスマイニング

Service mining for Internet of Things ( http://arxiv.org/abs/2005.06895v2 )

ライセンス: Link先を確認
Bing Huang, Athman Bouguettaya(参考訳) Internet of Thingsサービスのボトムアップで興味深い関係を見つけるためのサービスマイニングフレームワークが提案されている。 サービス関係は、空間的・時間的側面、環境、人々、運用に基づいてモデル化される。 サービスを記述するためにオントロジーに基づくサービスモデルを提案する。 発見されたサービス関係の面白さを評価するための指標を提示する。 解析およびシミュレーションの結果から,提案手法の有効性が示された。

A service mining framework is proposed that enables discovering interesting relationships in Internet of Things services bottom-up. The service relationships are modeled based on spatial-temporal aspects, environment, people, and operation. An ontology-based service model is proposed to describe services. We present a set of metrics to evaluate the interestingness of discovered service relationships. Analytical and simulation results are presented to show the effectiveness of the proposed evaluation measures.
翻訳日:2022-12-03 05:32:31 公開日:2020-06-09
# TG-GAN:深部生成モデルを用いた連続時間時間グラフ生成

TG-GAN: Continuous-time Temporal Graph Generation with Deep Generative Models ( http://arxiv.org/abs/2005.08323v2 )

ライセンス: Link先を確認
Liming Zhang, Liang Zhao, Shan Qin, Dieter Pfoser(参考訳) 現在活発に開発されている静的グラフの最近の深層生成モデルは、分子設計などの領域で大きな成功を収めている。 しかし、現実の多くの問題は、タンパク質の折り畳み、人間の移動ネットワーク、ソーシャルネットワークの成長といった重要な応用を含む、時間とともにトポロジと属性値が動的に進化する時間グラフを含む。 今のところ、時間グラフの深い生成モデルはまだよく理解されておらず、既存の静的グラフの技法は時間グラフには不十分である。 1)連続的に変化するグラフトポロジーを時系列にエンコード・デコードする。 2 時間的制約による効力の行使又は 3) 情報損失のない時間分解能の効率性を確保する。 これらの課題に対処するため,時間的時間的グラフ生成のための「テンポラルグラフ生成支援ネットワーク」 (TG-GAN) と呼ばれる新しいモデルを提案し,時間的ランダムウォークの深部生成過程とその構成をモデル化した。 具体的には, エッジシーケンス, 時間予算, ノード属性を相互にモデル化し, 再帰的アーキテクチャ下での時間的有効性制約を強制する新たな活性化機能を持つ, 新たな時間グラフ生成器を提案する。 また,新たに開発した時間的ランダムウォークサンプリング器を用いて,生成したシーケンスと実シーケンスを区別するために,リカレントアーキテクチャ上で時間とノードのエンコーディング操作を組み合わせる新しい時間的グラフ判別器を提案する。 合成データと実世界のデータセットの両方に関する広範な実験は、tg-ganが効率と有効性の比較方法を大幅に上回っていることを示している。

The recent deep generative models for static graphs that are now being actively developed have achieved significant success in areas such as molecule design. However, many real-world problems involve temporal graphs whose topology and attribute values evolve dynamically over time, including important applications such as protein folding, human mobility networks, and social network growth. As yet, deep generative models for temporal graphs are not yet well understood and existing techniques for static graphs are not adequate for temporal graphs since they cannot 1) encode and decode continuously-varying graph topology chronologically, 2) enforce validity via temporal constraints, or 3) ensure efficiency for information-lossless temporal resolution. To address these challenges, we propose a new model, called ``Temporal Graph Generative Adversarial Network'' (TG-GAN) for continuous-time temporal graph generation, by modeling the deep generative process for truncated temporal random walks and their compositions. Specifically, we first propose a novel temporal graph generator that jointly model truncated edge sequences, time budgets, and node attributes, with novel activation functions that enforce temporal validity constraints under recurrent architecture. In addition, a new temporal graph discriminator is proposed, which combines time and node encoding operations over a recurrent architecture to distinguish the generated sequences from the real ones sampled by a newly-developed truncated temporal random walk sampler. Extensive experiments on both synthetic and real-world datasets demonstrate TG-GAN significantly outperforms the comparison methods in efficiency and effectiveness.
翻訳日:2022-12-02 05:17:19 公開日:2020-06-09
# 逆正準相関解析

Adversarial Canonical Correlation Analysis ( http://arxiv.org/abs/2005.10349v2 )

ライセンス: Link先を確認
Benjamin Dutton(参考訳) 標準相関解析(CCA)は、複数のデータソースやビューから共通情報を抽出する統計手法である。 次元の減少、単語の埋め込み、クラスタリングなど、様々な表現学習問題で使われている。 最近の研究は、深層学習の文脈でCCA確率的な足場を与え、モデルパラメータを推定するためにデータログの確率を変動的に下限とする。 あるいは、自動エンコーダにおける変分ベイズ法に代わる強力な代替手段として、近年、敵対的手法が出現している。 本稿では,近年のVCCAとVCCA-Private(Deep Variational CCA)において,ACCAとACCA-Private(ACCA-Private)を併用することで,エンコーダから派生した近似の近似を,VCCAやVCCA-Privateモデルよりもはるかに大きな先行クラスに適合させる,より強力で柔軟な方法を示す。 これにより、変化の根底にある要因をより直接的に追従するなど、優れた表現を構成するものに対する新たな事前処理が可能になる。 我々は、Tangled MNISTと呼ばれる新しい設計データセットを用いて、VCCA-PrivateとACCA-Privateのマルチレベル・ディエンタングリング特性をさらに分析する。 また、理論的に基礎があり、タスクに依存しない、実際にうまく機能するモデルの検証基準を設計する。 最後に、両方の入力ビューからビュー特化情報を使用することができるVCCAの変分下界を導出することで、小さな研究ギャップを埋める。

Canonical Correlation Analysis (CCA) is a statistical technique used to extract common information from multiple data sources or views. It has been used in various representation learning problems, such as dimensionality reduction, word embedding, and clustering. Recent work has given CCA probabilistic footing in a deep learning context and uses a variational lower bound for the data log likelihood to estimate model parameters. Alternatively, adversarial techniques have arisen in recent years as a powerful alternative to variational Bayesian methods in autoencoders. In this work, we explore straightforward adversarial alternatives to recent work in Deep Variational CCA (VCCA and VCCA-Private) we call ACCA and ACCA-Private and show how these approaches offer a stronger and more flexible way to match the approximate posteriors coming from encoders to much larger classes of priors than the VCCA and VCCA-Private models. This allows new priors for what constitutes a good representation, such as disentangling underlying factors of variation, to be more directly pursued. We offer further analysis on the multi-level disentangling properties of VCCA-Private and ACCA-Private through the use of a newly designed dataset we call Tangled MNIST. We also design a validation criteria for these models that is theoretically grounded, task-agnostic, and works well in practice. Lastly, we fill a minor research gap by deriving an additional variational lower bound for VCCA that allows the representation to use view-specific information from both input views.
翻訳日:2022-12-01 04:31:39 公開日:2020-06-09
# Host-Pathongen共進化型アルゴリズムによってロバストGANトレーニングが可能に

Host-Pathongen Co-evolution Inspired Algorithm Enables Robust GAN Training ( http://arxiv.org/abs/2006.04720v2 )

ライセンス: Link先を確認
Andrei Kucharavy (1), El Mahdi El Mhamdi (1) and Rachid Guerraoui (1) ((1) Ecole Polytechnique Federale de Lausanne, Lausanne, Switzerland)(参考訳) generative adversarial network (gans) は、互いに訓練されたニューラルネットワークのペアである。 生成器からの出力は判別器への実世界の入力と混合され、両ネットワークは均衡に達するまで訓練され、判別器は生成された入力と実入力を区別できない。 導入以来、ガンは現実の映画、画像、テキストの印象的な模倣を生成できるようになり、その偽物は人間にとってほとんど目立たない。 優れたパフォーマンスにもかかわらず、GANのトレーニングは、トレーニングプロセスの安定性のために、信頼性の高い手順というよりも、現在でもなお芸術である。 ジェネレータはモードの低下やランダムパターンへの収束に影響を受けやすく、計算コストの高い多重再起動によって緩和されなければならない。 奇妙なことに、GANは病原体の共進化と生物学における宿主の免疫系に非常に似ている。 生物学的な文脈では、潜在的な病原体の大多数は決して作らず、ホットズの免疫系によって保たれる。 しかし、深刻な状態と再発する感染のリスクが生じるほど効率的であるものもある。 ここでは,gans学習のためのよりロバストなアルゴリズムを提案する。 計算能力の低下を伴いながら,安定性の向上と高品質画像生成能力の向上を実証的に示した。

Generative adversarial networks (GANs) are pairs of artificial neural networks that are trained one against each other. The outputs from a generator are mixed with the real-world inputs to the discriminator and both networks are trained until an equilibrium is reached, where the discriminator cannot distinguish generated inputs from real ones. Since their introduction, GANs have allowed for the generation of impressive imitations of real-life films, images and texts, whose fakeness is barely noticeable to humans. Despite their impressive performance, training GANs remains to this day more of an art than a reliable procedure, in a large part due to training process stability. Generators are susceptible to mode dropping and convergence to random patterns, which have to be mitigated by computationally expensive multiple restarts. Curiously, GANs bear an uncanny similarity to a co-evolution of a pathogen and its host's immune system in biology. In a biological context, the majority of potential pathogens indeed never make it and are kept at bay by the hots' immune system. Yet some are efficient enough to present a risk of a serious condition and recurrent infections. Here, we explore that similarity to propose a more robust algorithm for GANs training. We empirically show the increased stability and a better ability to generate high-quality images while using less computational power.
翻訳日:2022-11-30 08:14:25 公開日:2020-06-09
# マルチエージェント決定型Q-Learning

Multi-Agent Determinantal Q-Learning ( http://arxiv.org/abs/2006.01482v4 )

ライセンス: Link先を確認
Yaodong Yang, Ying Wen, Liheng Chen, Jun Wang, Kun Shao, David Mguni, Weinan Zhang(参考訳) 分散実行による集中型トレーニングは、マルチエージェント学習において重要なパラダイムとなっている。 実用的ではあるが、現在の方法は、実行エージェント間で集中値関数を分解する制限付き仮定に依存している。 本稿では,マルチエージェント決定型Q-ラーニングを提案することで,この制限を解消する。 本手法は,マルチエージェント設定へのパーティショニング・マトロイド制約付き行列点過程(dpp)の拡張であるq-dpp上で確立する。 Q-DPPはエージェントが多様な行動モデルを取得することを促進し、これは値関数や特別なネットワークアーキテクチャに関する構造的制約を不要に、共同Q-関数の自然な分解を可能にする。 分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。 q-dppから効率的にサンプルを抽出するために, 理論的近似保証のある既存のサンプル・バイ・プロジェクション・サンプラーを採用する。 このサンプルは、マルチエージェントトレーニング中の状態空間の直交方向をカバーするために、エージェントの調整による探索にも効果がある。 我々は,様々な協調ベンチマークを用いてアルゴリズムを評価し,その効果を最新技術と比較した。

Centralized training with decentralized execution has become an important paradigm in multi-agent learning. Though practical, current methods rely on restrictive assumptions to decompose the centralized value function across agents for execution. In this paper, we eliminate this restriction by proposing multi-agent determinantal Q-learning. Our method is established on Q-DPP, an extension of determinantal point process (DPP) with partition-matroid constraint to multi-agent setting. Q-DPP promotes agents to acquire diverse behavioral models; this allows a natural factorization of the joint Q-functions with no need for \emph{a priori} structural constraints on the value function or special network architectures. We demonstrate that Q-DPP generalizes major solutions including VDN, QMIX, and QTRAN on decentralizable cooperative tasks. To efficiently draw samples from Q-DPP, we adopt an existing sample-by-projection sampler with theoretical approximation guarantee. The sampler also benefits exploration by coordinating agents to cover orthogonal directions in the state space during multi-agent training. We evaluate our algorithm on various cooperative benchmarks; its effectiveness has been demonstrated when compared with the state-of-the-art.
翻訳日:2022-11-26 01:14:18 公開日:2020-06-09
# 高速磁気共鳴イメージングにおけるk空間データ補間のための適応畳み込みニューラルネットワーク

Adaptive convolutional neural networks for k-space data interpolation in fast magnetic resonance imaging ( http://arxiv.org/abs/2006.01385v2 )

ライセンス: Link先を確認
Tianming Du, Honggang Zhang, Yuemeng Li, Hee Kwon Song, Yong Fan(参考訳) k空間の深層学習は、高速磁気共鳴画像(MRI)において、アンダーサンプリングされたk空間データから画像再構成を行う大きな可能性を示している。 しかし、既存のディープラーニングベースの画像再構成手法は、k空間データの空間周波数特性を考慮せずに、k空間データに重み共有畳み込みニューラルネットワーク(CNN)を適用し、画像再構成モデルの非効率な学習をもたらす。 さらに,既存の深層学習手法では,空間的に隣接したスライスを補完する情報は無視されることが多い。 このような制約を克服するため,我々は,k空間データ補間のための適応畳み込みニューラルネットワーク(ACNN-k-Space)と呼ばれる深層学習アルゴリズムを開発し,複数のコイルからのk空間データとともに,空間的に連続したスライスをマルチチャネル入力として統合することにより,アンサンプされたk空間データを補間する残差エンコーダ・デコーダネットワークアーキテクチャを採用した。 ネットワークは自己接続層によって強化され、異なる空間周波数とチャネルでk空間データに適応的に焦点を合わせる。 提案手法を2つの公開データセットで評価し,最新手法と比較した。 アブレーション研究と実験結果から,本手法はアンサンプされたk空間データから画像を効果的に再構成し,現在の最先端技術よりも画像再構成性能を著しく向上することを示した。

Deep learning in k-space has demonstrated great potential for image reconstruction from undersampled k-space data in fast magnetic resonance imaging (MRI). However, existing deep learning-based image reconstruction methods typically apply weight-sharing convolutional neural networks (CNNs) to k-space data without taking into consideration the k-space data's spatial frequency properties, leading to ineffective learning of the image reconstruction models. Moreover, complementary information of spatially adjacent slices is often ignored in existing deep learning methods. To overcome such limitations, we develop a deep learning algorithm, referred to as adaptive convolutional neural networks for k-space data interpolation (ACNN-k-Space), which adopts a residual Encoder-Decoder network architecture to interpolate the undersampled k-space data by integrating spatially contiguous slices as multi-channel input, along with k-space data from multiple coils if available. The network is enhanced by self-attention layers to adaptively focus on k-space data at different spatial frequencies and channels. We have evaluated our method on two public datasets and compared it with state-of-the-art existing methods. Ablation studies and experimental results demonstrate that our method effectively reconstructs images from undersampled k-space data and achieves significantly better image reconstruction performance than current state-of-the-art techniques.
翻訳日:2022-11-26 00:57:36 公開日:2020-06-09
# マルチタスク学習のための分岐への学習

Learning to Branch for Multi-Task Learning ( http://arxiv.org/abs/2006.01895v2 )

ライセンス: Link先を確認
Pengsheng Guo, Chen-Yu Lee, Daniel Ulbricht(参考訳) 1つのディープネットワークで複数のタスクを共同でトレーニングすると、推論中のレイテンシが減少し、ネットワークの特定のレイヤを共有することで、シングルタスクのタスクよりもパフォーマンスが向上する。 しかし、ネットワークの過度な共有は誤って一般化を強制し、タスク間で負の知識転送を引き起こす可能性がある。 先行研究は、アドホック分岐構造に対する人間の直感や事前計算されたタスク関連性スコアに依存している。 それらは準最適結果を提供し、しばしば試行錯誤プロセスに多大な努力を必要とする。 本研究では,タスク間の複数の目的に対して直接最適化された効率的なネットワークトポロジを設計し,ネットワーク内での共有や分岐の場所を学習するマルチタスク学習アルゴリズムを提案する。 具体的には,木分岐操作をガムベルソフトマックスサンプリング手順としてキャスティングする新しい木構造設計空間を提案する。 これにより、エンドツーエンドのトレーニングが可能なネットワーク分割が可能になる。 提案手法を制御された合成データ,CelebA,Taskonomyで検証する。

Training multiple tasks jointly in one deep network yields reduced latency during inference and better performance over the single-task counterpart by sharing certain layers of a network. However, over-sharing a network could erroneously enforce over-generalization, causing negative knowledge transfer across tasks. Prior works rely on human intuition or pre-computed task relatedness scores for ad hoc branching structures. They provide sub-optimal end results and often require huge efforts for the trial-and-error process. In this work, we present an automated multi-task learning algorithm that learns where to share or branch within a network, designing an effective network topology that is directly optimized for multiple objectives across tasks. Specifically, we propose a novel tree-structured design space that casts a tree branching operation as a gumbel-softmax sampling procedure. This enables differentiable network splitting that is end-to-end trainable. We validate the proposed method on controlled synthetic data, CelebA, and Taskonomy.
翻訳日:2022-11-25 23:20:00 公開日:2020-06-09
# 平衡伝播を用いた終端アナログニューラルネットワークの訓練

Training End-to-End Analog Neural Networks with Equilibrium Propagation ( http://arxiv.org/abs/2006.01981v2 )

ライセンス: Link先を確認
Jack Kendall, Ross Pantone, Kalpana Manickavasagam, Yoshua Bengio, Benjamin Scellier(参考訳) 本稿では,確率勾配勾配によるエンドツーエンドアナログニューラルネットワークの学習法を提案する。 これらのアナログニューラルネットワークでは、調整すべき重みはmemristor[chua, 1971]などのプログラマブル抵抗素子のコンダクタンスによって実装され、非線形伝達関数(または「活性化関数」)はダイオードなどの非線形成分によって実装される。 数学的には、アナログニューラルネットワークのクラス(非線形抵抗ネットワークと呼ばれる)がエネルギーベースモデルであることを示し、キルヒホフの電気回路の法則の結果としてエネルギー関数を持つ。 この特性により、Equilibrium Propagationフレームワーク[Scellier and Bengio, 2017]を使って、それらをトレーニングすることができます。 各コンダクタンスに対する更新ルールは局所的であり、対応する抵抗間の電圧降下のみに依存するので、損失関数の勾配を計算することができる。 SPICEベースのSpectreシミュレーションフレームワークを用いて電気回路のダイナミクスをシミュレートした数値シミュレーションを行い、MNIST分類タスクのトレーニングを行い、等価サイズのソフトウェアベースニューラルネットワークよりも多種多種多種多様な性能を示す。 我々の研究は、オンチップ学習をサポートする超高速でコンパクトで低消費電力のニューラルネットワークの新世代の開発を導くことができる。

We introduce a principled method to train end-to-end analog neural networks by stochastic gradient descent. In these analog neural networks, the weights to be adjusted are implemented by the conductances of programmable resistive devices such as memristors [Chua, 1971], and the nonlinear transfer functions (or `activation functions') are implemented by nonlinear components such as diodes. We show mathematically that a class of analog neural networks (called nonlinear resistive networks) are energy-based models: they possess an energy function as a consequence of Kirchhoff's laws governing electrical circuits. This property enables us to train them using the Equilibrium Propagation framework [Scellier and Bengio, 2017]. Our update rule for each conductance, which is local and relies solely on the voltage drop across the corresponding resistor, is shown to compute the gradient of the loss function. Our numerical simulations, which use the SPICE-based Spectre simulation framework to simulate the dynamics of electrical circuits, demonstrate training on the MNIST classification task, performing comparably or better than equivalent-size software-based neural networks. Our work can guide the development of a new generation of ultra-fast, compact and low-power neural networks supporting on-chip learning.
翻訳日:2022-11-25 23:18:01 公開日:2020-06-09
# 確率一般化ガウスニュートン法によるDNN訓練の約束について

On the Promise of the Stochastic Generalized Gauss-Newton Method for Training DNNs ( http://arxiv.org/abs/2006.02409v4 )

ライセンス: Link先を確認
Matilde Gargiani, Andrea Zanelli, Moritz Diehl, Frank Hutter(参考訳) 深層学習のためのヘシアンフリー手法に関する初期の研究の後、我々はDNNの訓練のための確率的一般化ガウスニュートン法(SGN)について研究した。 SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。 名前の通り、SGNはヘッセン行列に対してガウス・ニュートン近似を用い、近似探索方向を計算するために、前方および逆自動微分を組み合わせた共役勾配法に依存する。 SGDとその一階変種の成功にもかかわらず、ガウス・ニュートン・ヘッセン近似に基づくヘッセンフリー手法は、既に理論上はDNNの訓練方法として提案されているが、SGNには大きなミニバッチシナリオにおいて、多くの未発見かつ完全な可能性を秘めている。 そこで本研究では,SGNがSGDよりも大幅に向上するだけでなく,実行時の回数も向上することが実証された。 これは、TensorflowやPytorchとは異なり、前方自動微分をサポートするTheanoディープラーニングプラットフォームで提案する、効率的で使いやすく柔軟なSGNの実装によって実現されている。 これにより、研究者はこの有望な最適化手法をさらに研究し改善し、DNNの訓練のための競合最適化手法として確率的二階法を再考し、また、SGNの約束がTensorflowやPytorchに自動微分を加えることにつながることを期待する。 私たちの結果は、大きなミニバッチのシナリオでは、sgnがハイパーパラメーターに関してsgdよりも堅牢であることも示しています(ベンチマークのためにステップサイズをチューニングする必要はありませんでした!

Following early work on Hessian-free methods for deep learning, we study a stochastic generalized Gauss-Newton method (SGN) for training DNNs. SGN is a second-order optimization method, with efficient iterations, that we demonstrate to often require substantially fewer iterations than standard SGD to converge. As the name suggests, SGN uses a Gauss-Newton approximation for the Hessian matrix, and, in order to compute an approximate search direction, relies on the conjugate gradient method combined with forward and reverse automatic differentiation. Despite the success of SGD and its first-order variants, and despite Hessian-free methods based on the Gauss-Newton Hessian approximation having been already theoretically proposed as practical methods for training DNNs, we believe that SGN has a lot of undiscovered and yet not fully displayed potential in big mini-batch scenarios. For this setting, we demonstrate that SGN does not only substantially improve over SGD in terms of the number of iterations, but also in terms of runtime. This is made possible by an efficient, easy-to-use and flexible implementation of SGN we propose in the Theano deep learning platform, which, unlike Tensorflow and Pytorch, supports forward automatic differentiation. This enables researchers to further study and improve this promising optimization technique and hopefully reconsider stochastic second-order methods as competitive optimization techniques for training DNNs; we also hope that the promise of SGN may lead to forward automatic differentiation being added to Tensorflow or Pytorch. Our results also show that in big mini-batch scenarios SGN is more robust than SGD with respect to its hyperparameters (we never had to tune its step-size for our benchmarks!), which eases the expensive process of hyperparameter tuning that is instead crucial for the performance of first-order methods.
翻訳日:2022-11-25 17:27:55 公開日:2020-06-09
# GroupIM:ニューラルグループ勧告のための相互情報最大化フレームワーク

GroupIM: A Mutual Information Maximization Framework for Neural Group Recommendation ( http://arxiv.org/abs/2006.03736v2 )

ライセンス: Link先を確認
Aravind Sankar, Yanhong Wu, Yuhang Wu, Wei Zhang, Hao Yang, Hari Sundaram(参考訳) 本研究では,歴史的活動が限定的あるいは全くないユーザからなる短命グループを対象とした項目推薦の課題について検討する。 既存の研究は実質的な活動履歴を持つ永続的なグループをターゲットにしているが、短命グループは歴史的な相互作用を欠いている。 グループ間相互作用のばらつきを克服するために、同一グループに属するユーザ間の嗜好共分散と、各グループに対する個人の嗜好の文脈的関連性の両方を利用するデータ駆動型正規化戦略を提案する。 我々は2つの貢献をした。 まず,任意の神経選好エンコーダとアグリゲータを統合した,レコメンデータアーキテクチャ非依存のフレームワークgroupimを提案する。 第2に、グループとグループメンバーの表現間の相互情報の最大化、文脈的選好重み付けによる高度情報的メンバーの選好の動的優先順位付けにより、グループ間相互作用の疎結合を克服するために、ユーザグループ潜在空間を規則化する。 いくつかの実世界のデータセットにおける実験結果は、最先端のグループレコメンデーション技術に対する大幅なパフォーマンス向上(31-62%相対ndcg@20)を示している。

We study the problem of making item recommendations to ephemeral groups, which comprise users with limited or no historical activities together. Existing studies target persistent groups with substantial activity history, while ephemeral groups lack historical interactions. To overcome group interaction sparsity, we propose data-driven regularization strategies to exploit both the preference covariance amongst users who are in the same group, as well as the contextual relevance of users' individual preferences to each group. We make two contributions. First, we present a recommender architecture-agnostic framework GroupIM that can integrate arbitrary neural preference encoders and aggregators for ephemeral group recommendation. Second, we regularize the user-group latent space to overcome group interaction sparsity by: maximizing mutual information between representations of groups and group members; and dynamically prioritizing the preferences of highly informative members through contextual preference weighting. Our experimental results on several real-world datasets indicate significant performance improvements (31-62% relative NDCG@20) over state-of-the-art group recommendation techniques.
翻訳日:2022-11-25 04:36:22 公開日:2020-06-09
# 野生におけるライセンスプレート認識のためのロバスト注意フレームワーク

A Robust Attentional Framework for License Plate Recognition in the Wild ( http://arxiv.org/abs/2006.03919v2 )

ライセンス: Link先を確認
Linjiang Zhang, Peng Wang, Hui Li, Zhen Li, Chunhua Shen, Yanning Zhang(参考訳) 自然の風景画像で車のナンバープレートを認識することは、現実的な応用において重要な課題である。 既存の多くのアプローチは、制約された条件下で収集されたナンバープレート、例えば正面と水平の視角での射撃、照明条件の良さでうまく機能する。 しかし、その性能は、回転、歪み、閉塞、ぼやけ、陰影または極暗または明るい条件を特徴とする制約のない環境で著しく低下する。 本研究では,野生におけるナンバープレート認識のためのロバストなフレームワークを提案する。 ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。 一方、CycleGANベースのプレート生成エンジンは、枯渇する人間のアノテーション作業を軽減する。 トレーニングデータの膨大な量は、よりバランスの取れた文字分布と様々な撮影条件によって得ることができ、認識精度を大幅に向上させるのに役立つ。 一方、XceptionベースのCNNエンコーダを備えた2Dアテンショナルプレート認識器は、様々なシナリオ下で異なるパターンのライセンスプレートを正確にかつ堅牢に認識することができる。 提案手法では, ヒューリスティックスルールや後処理を使わずに, 4つの公開データセット上での最先端性能を実現し, フレームワークの汎用性と堅牢性を示す。 さらに、中国本土31州から1200枚の画像が得られた新しいライセンスプレートデータセット「CLPD」を公開しました。 データセットは、https://github.com/wangpengnorman/CLPD_datasetから利用できる。

Recognizing car license plates in natural scene images is an important yet still challenging task in realistic applications. Many existing approaches perform well for license plates collected under constrained conditions, eg, shooting in frontal and horizontal view-angles and under good lighting conditions. However, their performance drops significantly in an unconstrained environment that features rotation, distortion, occlusion, blurring, shading or extreme dark or bright conditions. In this work, we propose a robust framework for license plate recognition in the wild. It is composed of a tailored CycleGAN model for license plate image generation and an elaborate designed image-to-sequence network for plate recognition. On one hand, the CycleGAN based plate generation engine alleviates the exhausting human annotation work. Massive amount of training data can be obtained with a more balanced character distribution and various shooting conditions, which helps to boost the recognition accuracy to a large extent. On the other hand, the 2D attentional based license plate recognizer with an Xception-based CNN encoder is capable of recognizing license plates with different patterns under various scenarios accurately and robustly. Without using any heuristics rule or post-processing, our method achieves the state-of-the-art performance on four public datasets, which demonstrates the generality and robustness of our framework. Moreover, we released a new license plate dataset, named "CLPD", with 1200 images from all 31 provinces in mainland China. The dataset can be available from: https://github.com/wangpengnorman/CLPD_dataset.
翻訳日:2022-11-24 21:51:28 公開日:2020-06-09
# データ拡張が知識蒸留に及ぼす影響に関する実証分析

An Empirical Analysis of the Impact of Data Augmentation on Knowledge Distillation ( http://arxiv.org/abs/2006.03810v2 )

ライセンス: Link先を確認
Deepan Das, Haley Massa, Abhimanyu Kulkarni, Theodoros Rekatsinas(参考訳) 経験的リスク最小化を用いてトレーニングされたディープラーニングモデルの一般化性能は、単純な変換や混合サンプルといったデータ拡張戦略を用いることで大幅に向上することができる。 蒸留施設における教師モデルと学生モデル間の一般化の伝達に対するこのような戦略の効果を実証的に分析する。 教師がミックスアップやカットミックスなどの混合サンプル増補戦略を用いて訓練された場合,その一般化能力に障害が生じている。 このような手法は, 模範的な特徴を学習するモデルの性能を制限し, 蒸留中の監視信号の品質を低下させるという仮説を立てる。 本稿では,この二分法を定量的に測定し,ネットワークの潜在空間上の異なる戦略によって引き起こされる識別能力にリンクする,新しいクラス識別尺度を提案する。

Generalization Performance of Deep Learning models trained using Empirical Risk Minimization can be improved significantly by using Data Augmentation strategies such as simple transformations, or using Mixed Samples. We attempt to empirically analyze the impact of such strategies on the transfer of generalization between teacher and student models in a distillation setup. We observe that if a teacher is trained using any of the mixed sample augmentation strategies, such as MixUp or CutMix, the student model distilled from it is impaired in its generalization capabilities. We hypothesize that such strategies limit a model's capability to learn example-specific features, leading to a loss in quality of the supervision signal during distillation. We present a novel Class-Discrimination metric to quantitatively measure this dichotomy in performance and link it to the discriminative capacity induced by the different strategies on a network's latent space.
翻訳日:2022-11-24 20:57:42 公開日:2020-06-09
# 単眼カメラを用いた車間距離のエンドツーエンド学習とADASの相対速度推定

End-to-end Learning for Inter-Vehicle Distance and Relative Velocity Estimation in ADAS with a Monocular Camera ( http://arxiv.org/abs/2006.04082v2 )

ライセンス: Link先を確認
Zhenbo Song, Jianfeng Lu, Tong Zhang, Hongdong Li(参考訳) 車両間距離と相対速度推定は、ADAS(Advanced driver-assistance system)の2つの基本機能である。 本稿では,ディープニューラルネットワークのエンドツーエンドトレーニングに基づく単眼カメラを用いた車間距離と相対速度推定法を提案する。 提案手法の重要な特徴は,深部特徴手がかり,シーン形状手がかり,時間的光フロー手がかりを含む,2つの時間的単眼フレームによって提供される複数の視覚的手がかりの統合である。 また,運動場(光流)における視点歪みの影響を軽減するための車両中心サンプリング機構を提案する。 本手法は,軽量深層ニューラルネットワークを用いて実装する。 評価精度,計算速度,メモリフットプリントの観点から,他の最先端手法よりも優れた性能を示す大規模な実験を行った。

Inter-vehicle distance and relative velocity estimations are two basic functions for any ADAS (Advanced driver-assistance systems). In this paper, we propose a monocular camera-based inter-vehicle distance and relative velocity estimation method based on end-to-end training of a deep neural network. The key novelty of our method is the integration of multiple visual clues provided by any two time-consecutive monocular frames, which include deep feature clue, scene geometry clue, as well as temporal optical flow clue. We also propose a vehicle-centric sampling mechanism to alleviate the effect of perspective distortion in the motion field (i.e. optical flow). We implement the method by a light-weight deep neural network. Extensive experiments are conducted which confirm the superior performance of our method over other state-of-the-art methods, in terms of estimation accuracy, computational speed, and memory footprint.
翻訳日:2022-11-24 08:06:04 公開日:2020-06-09
# ポーランド変圧器を用いた大規模言語モデルの事前学習

Pre-training Polish Transformer-based Language Models at Scale ( http://arxiv.org/abs/2006.04229v2 )

ライセンス: Link先を確認
S{\l}awomir Dadas, Micha{\l} Pere{\l}kiewicz, Rafa{\l} Po\'swiata(参考訳) トランスフォーマーベースの言語モデルは、現在自然言語処理(NLP)で広く使われている。 この主張は、トランスフォーマーベースのアーキテクチャを利用した多くの事前学習されたモデルが近年出版されている英語に特に当てはまる。 これにより、分類、回帰、シーケンスラベリングなどの標準NLPタスクや、機械翻訳、質問応答、要約といったテキストからテキストへのタスクなど、さまざまな標準NLPタスクの最先端技術が推進された。 しかし、ポーランド語のような低リソース言語では状況が異なっていた。 ポーランド語のためのトランスフォーマーベースの言語モデルもいくつか用意されているが、コーパスのサイズやパラメータの数など、最大の英語モデルの規模にはほど遠いものはない。 本研究では,人気のあるBERTアーキテクチャに基づくポーランド語の2つの言語モデルを提案する。 より大きなモデルは、10億以上のポーランド語文と135gbの原文からなるデータセットでトレーニングされた。 本稿では,データ収集,コーパス作成,モデルの事前学習のための方法論について述べる。 その後,13のポーランド語課題に関するモデルを評価し,11の言語課題の先行手法に対する改善を実証した。

Transformer-based language models are now widely used in Natural Language Processing (NLP). This statement is especially true for English language, in which many pre-trained models utilizing transformer-based architecture have been published in recent years. This has driven forward the state of the art for a variety of standard NLP tasks such as classification, regression, and sequence labeling, as well as text-to-text tasks, such as machine translation, question answering, or summarization. The situation have been different for low-resource languages, such as Polish, however. Although some transformer-based language models for Polish are available, none of them have come close to the scale, in terms of corpus size and the number of parameters, of the largest English-language models. In this study, we present two language models for Polish based on the popular BERT architecture. The larger model was trained on a dataset consisting of over 1 billion polish sentences, or 135GB of raw text. We describe our methodology for collecting the data, preparing the corpus, and pre-training the model. We then evaluate our models on thirteen Polish linguistic tasks, and demonstrate improvements over previous approaches in eleven of them.
翻訳日:2022-11-24 08:03:52 公開日:2020-06-09
# 深層強化学習による実時間モデル校正

Real-Time Model Calibration with Deep Reinforcement Learning ( http://arxiv.org/abs/2006.04001v2 )

ライセンス: Link先を確認
Yuan Tian, Manuel Arias Chao, Chetan Kulkarni, Kai Goebel and Olga Fink(参考訳) 実験データからのモデルパラメータの動的、リアルタイム、正確な推論は、複雑な物理過程の分析と予測のために計算モデル(デジタル双生児など)を使用する多くの科学および工学分野において非常に重要である。 しかし、大規模かつ高次元のデータセットを持つプロセスに対する高速かつ正確な推論は、実世界の騒々しい条件下で最先端の手法では容易には達成できない。 主な理由は、最適化やサンプリングに基づく従来の手法によるモデルパラメータの推論は、しばしば計算と統計の課題に苦しめられ、結果として精度とデプロイ時間のトレードオフが生じるためである。 本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。 論文の貢献は2つあります。 1) 物理学に基づくモデルの応答に従わざるを得ない政策の学習を目的として, 推論問題を追跡問題として再検討する。 2) Lyapunov-based actor-critic (CLAC) アルゴリズムを提案する。 提案手法は, ターボファンエンジンの2つの物理モデルを用いた2つのモデルベース診断事例で実証および評価を行った。 この手法の性能は、状態更新法(kalmanフィルタの類似)と、ディープニューラルネットワークによるエンドツーエンドマッピングの2つの方法と比較される。 実験結果から,提案手法は速度とロバスト性の観点から他の試験手法よりも高い性能を示し,高い推論精度を示した。

The dynamic, real-time, and accurate inference of model parameters from empirical data is of great importance in many scientific and engineering disciplines that use computational models (such as a digital twin) for the analysis and prediction of complex physical processes. However, fast and accurate inference for processes with large and high dimensional datasets cannot easily be achieved with state-of-the-art methods under noisy real-world conditions. The primary reason is that the inference of model parameters with traditional techniques based on optimisation or sampling often suffers from computational and statistical challenges, resulting in a trade-off between accuracy and deployment time. In this paper, we propose a novel framework for inference of model parameters based on reinforcement learning. The contribution of the paper is twofold: 1) We reformulate the inference problem as a tracking problem with the objective of learning a policy that forces the response of the physics-based model to follow the observations; 2) We propose the constrained Lyapunov-based actor-critic (CLAC) algorithm to enable the robust and accurate inference of physics-based model parameters in real time under noisy real-world conditions. The proposed methodology is demonstrated and evaluated on two model-based diagnostics test cases utilizing two different physics-based models of turbofan engines. The performance of the methodology is compared to that of two alternative approaches: a state update method (unscented Kalman filter) and a supervised end-to-end mapping with deep neural networks. The experimental results demonstrate that the proposed methodology outperforms all other tested methods in terms of speed and robustness, with high inference accuracy.
翻訳日:2022-11-24 07:45:49 公開日:2020-06-09
# 進化測度を持つ核の畳み込みを通した相反的最適輸送

Adversarial Optimal Transport Through The Convolution Of Kernels With Evolving Measures ( http://arxiv.org/abs/2006.04245v2 )

ライセンス: Link先を確認
Daeyoung Kim, Esteban G. Tabak(参考訳) サンプルベース最適輸送問題を解くための新しいアルゴリズムを提案する。 プッシュフォワード条件の逆定式化は、適応カーネルと潜在変数 $b$ 上の進化確率分布 $\nu$ との畳み込みとして構築されたテスト関数を使用する。 この畳み込みを、進化するサンプルに対するシミュレーションにより$b^i(t)$ of $\nu$で近似すると、テスト関数のパラメータ化はこれらのサンプルの流れを決定するために減少する。 このフローは離散時間ステップ$t_n$で離散化され、基本写像の構成から構築される。 最適輸送はまた、双対性により、テスト関数の勾配に従う必要がある流れにも従う。 分布のモンテカルロシミュレーションとしてのテスト関数の表現は、アルゴリズムを次元に頑健にし、そのメモリレスフロー下での進化は単純なパラメトリック変換からリッチで複雑な写像を生成する。 このアルゴリズムは数値的な例で示される。

A novel algorithm is proposed to solve the sample-based optimal transport problem. An adversarial formulation of the push-forward condition uses a test function built as a convolution between an adaptive kernel and an evolving probability distribution $\nu$ over a latent variable $b$. Approximating this convolution by its simulation over evolving samples $b^i(t)$ of $\nu$, the parameterization of the test function reduces to determining the flow of these samples. This flow, discretized over discrete time steps $t_n$, is built from the composition of elementary maps. The optimal transport also follows a flow that, by duality, must follow the gradient of the test function. The representation of the test function as the Monte Carlo simulation of a distribution makes the algorithm robust to dimensionality, and its evolution under a memory-less flow produces rich, complex maps from simple parametric transformations. The algorithm is illustrated with numerical examples.
翻訳日:2022-11-24 07:36:42 公開日:2020-06-09
# 連続学習のための効率的なアーキテクチャ探索

Efficient Architecture Search for Continual Learning ( http://arxiv.org/abs/2006.04027v2 )

ライセンス: Link先を確認
Qiang Gao, Zhipeng Luo, Diego Klabjan(参考訳) ニューラルネットワークによる継続的な学習は、タスクのシーケンスをうまく学習することを目的とした、AIの重要な学習フレームワークである。 しかし,(1)悲惨な忘れる問題を克服し,(2)現在のネットワークを新しいタスクに適応させ,(3)モデルの複雑さを制御する,という3つの課題に直面している。 これらの目標を達成するために,我々はCLEAS(Continuous Learning with Efficient Architecture Search)という新しいアプローチを提案する。 CLEASは、強化学習技術を活用したニューラルアーキテクチャサーチ(NAS)と密接に連携して、新しいタスクに適した最高のニューラルアーキテクチャを探す。 特に、以前のタスクからどの古いニューロンを再利用すべきか(知識伝達)、そしてどの新しいニューロンを追加するべきか(新しい知識を学ぶために)を決定するニューロンレベルのnasコントローラを設計する。 このようなきめ細かいコントローラは、新しいタスクにうまくフィットする非常に簡潔なアーキテクチャを見つけることができます。 一方、再利用されたニューロンの重みを変えないため、以前のタスクから学んだ知識を完全に記憶する。 我々はCLEASを多数のシーケンシャルな分類タスクで評価し、CLEASは他の最先端の代替手法よりも優れており、より単純なニューラルネットワークを用いて高い分類精度を達成できることを示した。

Continual learning with neural networks is an important learning framework in AI that aims to learn a sequence of tasks well. However, it is often confronted with three challenges: (1) overcome the catastrophic forgetting problem, (2) adapt the current network to new tasks, and meanwhile (3) control its model complexity. To reach these goals, we propose a novel approach named as Continual Learning with Efficient Architecture Search, or CLEAS in short. CLEAS works closely with neural architecture search (NAS) which leverages reinforcement learning techniques to search for the best neural architecture that fits a new task. In particular, we design a neuron-level NAS controller that decides which old neurons from previous tasks should be reused (knowledge transfer), and which new neurons should be added (to learn new knowledge). Such a fine-grained controller allows one to find a very concise architecture that can fit each new task well. Meanwhile, since we do not alter the weights of the reused neurons, we perfectly memorize the knowledge learned from previous tasks. We evaluate CLEAS on numerous sequential classification tasks, and the results demonstrate that CLEAS outperforms other state-of-the-art alternative methods, achieving higher classification accuracy while using simpler neural architectures.
翻訳日:2022-11-24 07:11:38 公開日:2020-06-09
# 必要なものを読む: コントロール可能なアスペクトベースの観光客レビューのオピニオン要約

Read what you need: Controllable Aspect-based Opinion Summarization of Tourist Reviews ( http://arxiv.org/abs/2006.04660v2 )

ライセンス: Link先を確認
Rajdeep Mukherjee, Hari Chandana Peruri, Uppada Vishnu, Pawan Goyal, Sourangshu Bhattacharya, Niloy Ganguly(参考訳) 大量のユーザ生成テキストから関連するアスペクトや意見を手作業で抽出するのは、時間がかかります。 一方、要約は、限られた時間予算を持つ読者がデータから重要なアイデアを素早く消費するのに役立つ。 しかし、多文書要約のための最先端のアプローチは、要約を生成する際にユーザの好みを考慮しない。 本研究では,オンライン観光レビューの大規模なコレクションからパーソナライズされたアスペクトベースの意見要約を作成するためのソリューションの必要性と提案を行う。 我々は読者に、興味のある長さや特定の側面など、要約のいくつかの属性を決定し、制御させます。 具体的には,TripAdvisorに投稿された観光レビューからコヒーレントな側面を抽出するために,教師なしアプローチを採用する。 Integer Linear Programming (ILP) に基づく抽出手法を提案し、様々な制御パラメータのユーザ指定値を尊重しながら、識別された側面に関する意見の情報的サブセットを選択する。 最後に,クラウドソーシングとROUGEに基づくメトリクスを用いて要約を評価し比較し,競争結果を得た。

Manually extracting relevant aspects and opinions from large volumes of user-generated text is a time-consuming process. Summaries, on the other hand, help readers with limited time budgets to quickly consume the key ideas from the data. State-of-the-art approaches for multi-document summarization, however, do not consider user preferences while generating summaries. In this work, we argue the need and propose a solution for generating personalized aspect-based opinion summaries from large collections of online tourist reviews. We let our readers decide and control several attributes of the summary such as the length and specific aspects of interest among others. Specifically, we take an unsupervised approach to extract coherent aspects from tourist reviews posted on TripAdvisor. We then propose an Integer Linear Programming (ILP) based extractive technique to select an informative subset of opinions around the identified aspects while respecting the user-specified values for various control parameters. Finally, we evaluate and compare our summaries using crowdsourcing and ROUGE-based metrics and obtain competitive results.
翻訳日:2022-11-24 02:20:19 公開日:2020-06-09
# バッチスペクトル規則化を用いたアンサンブルモデルとラベルなしデータを用いたクロスドメインFew-Shot学習のためのデータブレンディング

Ensemble Model with Batch Spectral Regularization and Data Blending for Cross-Domain Few-Shot Learning with Unlabeled Data ( http://arxiv.org/abs/2006.04323v2 )

ライセンス: Link先を確認
Zhen Zhao, Bingyu Liu, Yuhong Guo, Jieping Ye(参考訳) 本稿では,cd-fsl(cross-domain few-shot learning)課題のトラック2問題に対して,バッチスペクトル正規化とデータブレンド機構を用いたアンサンブルモデルを提案する。 多様な特徴変換行列を用いてマルチブランチアンサンブルフレームワークを構築し、各ブランチにバッチスペクトル特徴正規化をデプロイし、モデルの転送性を向上させる。 さらに,ラベルのないデータを活用し,対象領域のスパースサポートセットを増強するためのデータブレンディング手法を提案する。 提案手法は,CD-FSLベンチマークタスクにおいて有効な性能を示す。

In this paper, we present our proposed ensemble model with batch spectral regularization and data blending mechanisms for the Track 2 problem of the cross-domain few-shot learning (CD-FSL) challenge. We build a multi-branch ensemble framework by using diverse feature transformation matrices, while deploying batch spectral feature regularization on each branch to improve the model's transferability. Moreover, we propose a data blending method to exploit the unlabeled data and augment the sparse support set in the target domain. Our proposed model demonstrates effective performance on the CD-FSL benchmark tasks.
翻訳日:2022-11-24 01:51:22 公開日:2020-06-09
# 多目的ブラックボックス最適化のためのランダム超ボリュームスカラー化

Random Hypervolume Scalarizations for Provable Multi-Objective Black Box Optimization ( http://arxiv.org/abs/2006.04655v2 )

ライセンス: Link先を確認
Daniel Golovin, Qiuyi Zhang(参考訳) 単一目的ブラックボックス最適化 (single-objective black box optimization, zeroth-order optimization, zeroth-order optimization) はスカラー目的の$f(x)$を最小化するプロセスである。 本稿では,多目的最適化を考える。ここでは$f(x)$が競合する可能性のある目標のベクトルを出力し,その目標はパレートフロンティアに収束することである。 定量的には、選択された入力の集合全体の支配的なハイパーボリュームを測定する標準のハイパーボリュームインジケータメトリックを最大化したい。 本稿では,超体積スカラー化と呼ばれる新しいスカラー化関数を導入し,最適に選択された分布からランダムなスカラー化を抽出することにより,超体積インジケータメトリックを効率的に近似することができることを示す。 この関係を利用して,共通の獲得関数,例えばトンプソンサンプリングや上限値といったスカラー化によるベイズ最適化が,$\widetilde{o}(\sqrt{t})$ の順序で厳密な超体積的後悔境界を導出することにより,パレートフロンティア全体に収束することを示す。 さらに,scalrizationフレームワークの汎用性についても強調する。このフレームワークでは,任意の可分収束単目的最適化プロセスが,可分収束保証のある多目的最適化プロセスに無益に変換可能であることを示す。

Single-objective black box optimization (also known as zeroth-order optimization) is the process of minimizing a scalar objective $f(x)$, given evaluations at adaptively chosen inputs $x$. In this paper, we consider multi-objective optimization, where $f(x)$ outputs a vector of possibly competing objectives and the goal is to converge to the Pareto frontier. Quantitatively, we wish to maximize the standard hypervolume indicator metric, which measures the dominated hypervolume of the entire set of chosen inputs. In this paper, we introduce a novel scalarization function, which we term the hypervolume scalarization, and show that drawing random scalarizations from an appropriately chosen distribution can be used to efficiently approximate the hypervolume indicator metric. We utilize this connection to show that Bayesian optimization with our scalarization via common acquisition functions, such as Thompson Sampling or Upper Confidence Bound, provably converges to the whole Pareto frontier by deriving tight hypervolume regret bounds on the order of $\widetilde{O}(\sqrt{T})$. Furthermore, we highlight the general utility of our scalarization framework by showing that any provably convergent single-objective optimization process can be effortlessly converted to a multi-objective optimization process with provable convergence guarantees.
翻訳日:2022-11-24 01:25:30 公開日:2020-06-09
# 推薦型信頼システムにおける不当な意見に対抗する二段階解法

A two-level solution to fight against dishonest opinions in recommendation-based trust systems ( http://arxiv.org/abs/2006.04803v1 )

ライセンス: Link先を確認
Omar Abdel Wahab, Jamal Bentahar, Robin Cohen, Hadi Otrok, Azzam Mourad(参考訳) 本稿では,レコメンデーションベースの信頼モデルにおいて,収集と処理の両レベルで不当な意見を扱うメカニズムを提案する。 エージェントが他のエージェントに対して信頼を構築するために、複数の関係者からレコメンデーションを要求するシナリオを検討する。 収集レベルでは,エージェントが推薦の正確さを自己評価し,推薦プロセスに参加するか否かを自律的に決定することを提案する。 処理レベルでは,共謀攻撃に対して弾力性のある推薦アグリゲーション手法を提案し,それに続くエージェントに対する信頼性更新機構を提案する。 私たちの作品の独創性は、コレクションと処理レベルの両方において不正直な意見を考慮し、不正直な推奨者に対してより良く、より永続的な保護を可能にすることから来ています。 エピニオンデータセットで行った実験では、エージェントの信頼値に基づいてアドバイザーの最適なネットワークを導出する競合モデルと比較して、我々のソリューションはシビル攻撃に対するレコメンデーションプロセスを保護するのに優れたパフォーマンスをもたらすことが示された。

In this paper, we propose a mechanism to deal with dishonest opinions in recommendation-based trust models, at both the collection and processing levels. We consider a scenario in which an agent requests recommendations from multiple parties to build trust toward another agent. At the collection level, we propose to allow agents to self-assess the accuracy of their recommendations and autonomously decide on whether they would participate in the recommendation process or not. At the processing level, we propose a recommendations aggregation technique that is resilient to collusion attacks, followed by a credibility update mechanism for the participating agents. The originality of our work stems from its consideration of dishonest opinions at both the collection and processing levels, which allows for better and more persistent protection against dishonest recommenders. Experiments conducted on the Epinions dataset show that our solution yields better performance in protecting the recommendation process against Sybil attacks, in comparison with a competing model that derives the optimal network of advisors based on the agents' trust values.
翻訳日:2022-11-23 15:58:12 公開日:2020-06-09
# 行列スケジューリングによる無線ネットワークの被覆確率

Coverage probability in wireless networks with determinantal scheduling ( http://arxiv.org/abs/2006.05038v1 )

ライセンス: Link先を確認
Bartek B{\l}aszczyszyn, Antoine Brochard, H. Paul Keeler(参考訳) 本稿では,ネットワーク伝送をランダムにスケジューリングするアルゴリズムを提案する。 この考え方は、(離散的な)決定点プロセス(サブセット)を使用して、ポテンシャル送信機の様々な {\em repulsive} サブセットへの媒体アクセスをランダムに割り当てることである。 このアプローチは、送信を独立にスケジュールする(空間的)アロハの自然な拡張と見なすことができる。 一般的な経路損失モデルとレイリーの消失モデルの下では、アロハと同様に、それらはカバー確率と伝達試行(局所遅延とも呼ばれる)のエレガントな解析の対象であることが示される。 これは主に、条件(Palm)分布の明示的な決定的形式と、決定的過程のラプラス関数の閉形式表現が原因である。 興味深いことに、ネットワークの導出性能特性は、決定的カーネルであるスケジューリングパラメータの様々な最適化に寄与し、決定的プロセスによる統計的学習のために開発された技術を利用することができる。 決定的プロセスのための確立されたサンプリングアルゴリズムは、本論文の範囲を超えている実装問題に対処するために使用できるが、さらなる研究のためのパスを生成する。

We propose a new class of algorithms for randomly scheduling network transmissions. The idea is to use (discrete) determinantal point processes (subsets) to randomly assign medium access to various {\em repulsive} subsets of potential transmitters. This approach can be seen as a natural extension of (spatial) Aloha, which schedules transmissions independently. Under a general path loss model and Rayleigh fading, we show that, similarly to Aloha, they are also subject to elegant analysis of the coverage probabilities and transmission attempts (also known as local delay). This is mainly due to the explicit, determinantal form of the conditional (Palm) distribution and closed-form expressions for the Laplace functional of determinantal processes. Interestingly, the derived performance characteristics of the network are amenable to various optimizations of the scheduling parameters, which are determinantal kernels, allowing the use of techniques developed for statistical learning with determinantal processes. Well-established sampling algorithms for determinantal processes can be used to cope with implementation issues, which is is beyond the scope of this paper, but it creates paths for further research.
翻訳日:2022-11-23 15:57:51 公開日:2020-06-09
# C-SL:慣性音響センサを用いたコントラスト音像定位

C-SL: Contrastive Sound Localization with Inertial-Acoustic Sensors ( http://arxiv.org/abs/2006.05071v1 )

ライセンス: Link先を確認
Majid Mirbagheri, Bardia Doosti(参考訳) 人間の脳は、頭と眼の動きに関する知覚情報を用いて、個人と周囲の環境の間の空間的関係を更新する。 空間更新として知られるこの認知過程に基づき,任意の形状の移動慣性音響センサアレイを用いたコントラスト音像定位 (c-sl) を導入する。 C-SLは、アレイの自由回転運動中に収集されたラベルなしのマルチチャンネルオーディオ記録と慣性測定ユニット(IMU)を用いて、音響測定からアレイ中心の方向方向(DOA)へのマッピングを自己監督的に学習する。 キャリブレーション段階における配列幾何学またはソース位置の知識を必要とする従来のDOA推定手法とは対照的に、C-SLは双方に非依存であり、最小限の制約で収集されたデータに基づいて訓練することができる。 提案手法では,入力の非結合セグメントに対して予測される音源位置間の空間的コントラストを測定することで,推定doasと音響空間マッピングを線形時間で同時更新する。 本研究では,C-SLの性能とベースラインDOA推定法との比較を,幅広い条件下で定量的,定性的に評価する。 我々は、C-SLが提供する緩和校正プロセスが、真のパーソナライズされた補聴器アプリケーションへの道を開くと考えている。

Human brain employs perceptual information about the head and eye movements to update the spatial relationship between the individual and the surrounding environment. Based on this cognitive process known as spatial updating, we introduce contrastive sound localization (C-SL) with mobile inertial-acoustic sensor arrays of arbitrary geometry. C-SL uses unlabeled multi-channel audio recordings and inertial measurement unit (IMU) readings collected during free rotational movements of the array to learn mappings from acoustical measurements to an array-centered direction-of-arrival (DOA) in a self-supervised manner. Contrary to conventional DOA estimation methods that require the knowledge of either the array geometry or source locations in the calibration stage, C-SL is agnostic to both, and can be trained on data collected in minimally constrained settings. To achieve this capability, our proposed method utilizes a customized contrastive loss measuring the spatial contrast between source locations predicted for disjoint segments of the input to jointly update estimated DOAs and the acoustic-spatial mapping in linear time. We provide quantitative and qualitative evaluations of C-SL comparing its performance with baseline DOA estimation methods in a wide range of conditions. We believe the relaxed calibration process offered by C-SL paves the way toward truly personalized augmented hearing applications.
翻訳日:2022-11-23 15:57:33 公開日:2020-06-09
# Hysia: DNNベースのビデオ小売アプリケーションをクラウドで実行

Hysia: Serving DNN-Based Video-to-Retail Applications in Cloud ( http://arxiv.org/abs/2006.05117v1 )

ライセンス: Link先を確認
Huaizheng Zhang, Yuanming Li, Qiming Ai, Yong Luo, Yonggang Wen, Yichao Jin and Nguyen Binh Duong Ta(参考訳) underline{v}ideo streaming と online \underline{r}etailing (v2r) の組み合わせは、近年増加傾向にある。 本稿では,V2Rアプリケーションの開発とデプロイを容易にするクラウドベースのプラットフォームであるHysiaについて,マルチメディアの実践者と研究者に提供する。 制度は以下の通り。 1)データエンジン、モデルリポジトリ、モデル提供およびコンテンツマッチングを含む最適化v2r関連サービスを提供するバックエンドインフラストラクチャ。 2) 高速なV2Rアプリケーションプロトタイピングを可能にするアプリケーション層。 Hysiaは、大規模マルチメディアにおける産業と学術的ニーズに対処する。 1) NVIDIA Video SDK、Facebook faiss、gRPCなどの最先端ライブラリをシームレスに統合する。 2)GPU計算を効率的に活用すること。 3) 新しいモデルを簡単にバインドでき、急速に変化するディープラーニング(dl)技術を満たすことができる。 さらに,パフォーマンス向上のためのDLモデルをさらに最適化するためのオーケストレータを実装した。 HysiaはGitHubのオープンソースプロジェクトとしてリリースされており、かなりの注目を集めている。 私たちはHysia to DockerHubを,現在のクラウド環境におけるシームレスな統合とデプロイメントの公式イメージとして公開しています。

Combining \underline{v}ideo streaming and online \underline{r}etailing (V2R) has been a growing trend recently. In this paper, we provide practitioners and researchers in multimedia with a cloud-based platform named Hysia for easy development and deployment of V2R applications. The system consists of: 1) a back-end infrastructure providing optimized V2R related services including data engine, model repository, model serving and content matching; and 2) an application layer which enables rapid V2R application prototyping. Hysia addresses industry and academic needs in large-scale multimedia by: 1) seamlessly integrating state-of-the-art libraries including NVIDIA video SDK, Facebook faiss, and gRPC; 2) efficiently utilizing GPU computation; and 3) allowing developers to bind new models easily to meet the rapidly changing deep learning (DL) techniques. On top of that, we implement an orchestrator for further optimizing DL model serving performance. Hysia has been released as an open source project on GitHub, and attracted considerable attention. We have published Hysia to DockerHub as an official image for seamless integration and deployment in current cloud environments.
翻訳日:2022-11-23 15:57:09 公開日:2020-06-09
# XOR Mixup: ワンショットフェデレーション学習のためのプライバシ保護データ拡張

XOR Mixup: Privacy-Preserving Data Augmentation for One-Shot Federated Learning ( http://arxiv.org/abs/2006.05148v1 )

ライセンス: Link先を確認
MyungJae Shin, Chihoon Hwang, Joongheon Kim, Jihong Park, Mehdi Bennis and Seong-Lyun Kim(参考訳) ユーザ生成データ分散はしばしばデバイスやラベル間で不均衡であり、フェデレートラーニング(FL)のパフォーマンスを妨げる。 この非独立で同一の(IIDではない)データ問題に対処するため、プライバシー保護のためのXORベースのミックスアップデータ拡張技術であるXorMixupを開発し、XorMixFLと呼ばれる新しいワンショットFLフレームワークを提案する。 コアとなるアイデアは、各デバイスのデータサンプルのみを使用してデコードされる、他のデバイスのエンコードされたデータサンプルを収集することだ。 復号化は、モデルトレーニングに使用されるIDデータセットが生成されるまで、合成が現実的なサンプルを提供する。 符号化処理と復号処理の両方は、故意にサンプルを歪ませ、データのプライバシを保存するビットワイズXOR操作に従う。 シミュレーションの結果、xormixflは非iid mnistデータセットでvanilla flよりも最大17.6%高い精度を達成している。

User-generated data distributions are often imbalanced across devices and labels, hampering the performance of federated learning (FL). To remedy to this non-independent and identically distributed (non-IID) data problem, in this work we develop a privacy-preserving XOR based mixup data augmentation technique, coined XorMixup, and thereby propose a novel one-shot FL framework, termed XorMixFL. The core idea is to collect other devices' encoded data samples that are decoded only using each device's own data samples. The decoding provides synthetic-but-realistic samples until inducing an IID dataset, used for model training. Both encoding and decoding procedures follow the bit-wise XOR operations that intentionally distort raw samples, thereby preserving data privacy. Simulation results corroborate that XorMixFL achieves up to 17.6% higher accuracy than Vanilla FL under a non-IID MNIST dataset.
翻訳日:2022-11-23 15:56:56 公開日:2020-06-09
# チェレンコフ検出器イメージングのための機械学習

Machine Learning for Imaging Cherenkov Detectors ( http://arxiv.org/abs/2006.05543v1 )

ライセンス: Link先を確認
Cristiano Fanelli(参考訳) チェレンコフ検出器は、常に増大する計算要求に直面するために最先端のソリューションが必要である現代の核・粒子物理学の実験で主に使用されている。 これはAIベースのアプローチの肥大した基盤であり、私たちは現在、新しい高効率で高速なアプリケーションの開始を目撃しています。 本稿では、チェレンコフ検出器への新しい方向と応用に着目する。 特に, 検出器の設計とキャリブレーション, 粒子識別の最近の進歩について述べる。

Imaging Cherenkov detectors are largely used in modern nuclear and particle physics experiments where cutting-edge solutions are needed to face always more growing computing demands. This is a fertile ground for AI-based approaches and at present we are witnessing the onset of new highly efficient and fast applications. This paper focuses on novel directions with applications to Cherenkov detectors. In particular, recent advances on detector design and calibration, as well as particle identification are presented.
翻訳日:2022-11-23 15:56:33 公開日:2020-06-09
# 反応拡散系に対するディープ・コンバーサリー・クープマンモデル

Deep Adversarial Koopman Model for Reaction-Diffusion systems ( http://arxiv.org/abs/2006.05547v1 )

ライセンス: Link先を確認
Kaushik Balakrishnan, Devesh Upadhyay(参考訳) 反応拡散系は自然および工学的応用においてユビキタスであり、しばしば制御方程式の非線形系を用いてモデル化される。 それらの解法にはロバストな数値法が存在するが、線形化力学モデルを用いて解を前進させる深層学習に基づくリダクション・オーダーモデル(ROM)は勢いを増している。 そのようなアルゴリズムの1つがクープマン理論に基づいており、この数値シミュレーション戦略を反応拡散系に適用する。 逆行と勾配の損失が導入され、予測を堅牢化することが示されている。 提案したモデルは、不足したトレーニングデータを扱うように拡張され、制御の観点から問題を再キャストする。 これらの展開の有効性は,(1) クラモト・シヴァシンスキーカオス方程式と(2) グレイスコットモデルを用いたチューリング不安定性という2つの異なる反応拡散問題に対して証明された。

Reaction-diffusion systems are ubiquitous in nature and in engineering applications, and are often modeled using a non-linear system of governing equations. While robust numerical methods exist to solve them, deep learning-based reduced ordermodels (ROMs) are gaining traction as they use linearized dynamical models to advance the solution in time. One such family of algorithms is based on Koopman theory, and this paper applies this numerical simulation strategy to reaction-diffusion systems. Adversarial and gradient losses are introduced, and are found to robustify the predictions. The proposed model is extended to handle missing training data as well as recasting the problem from a control perspective. The efficacy of these developments are demonstrated for two different reaction-diffusion problems: (1) the Kuramoto-Sivashinsky equation of chaos and (2) the Turing instability using the Gray-Scott model.
翻訳日:2022-11-23 15:56:25 公開日:2020-06-09
# MLModelCI - 効率的なMLaaSのためのクラウドプラットフォーム

MLModelCI: An Automatic Cloud Platform for Efficient MLaaS ( http://arxiv.org/abs/2006.05096v1 )

ライセンス: Link先を確認
Huaizheng Zhang, Yuanming Li, Yizheng Huang, Yonggang Wen, Jianxiong Yin and Kyle Guan(参考訳) MLModelCIは、マルチメディア研究者と開発者に対して、効率的な機械学習(ML)サービスのためのワンストッププラットフォームを提供する。 このシステムは、モデル最適化、テスト、管理にDevOps技術を活用する。 また、これらの最適化および検証されたモデルをクラウドサービス(MLaaS)としてコンテナ化し、デプロイする。 MLModelCIは本質的に、モデルのパブリッシュを支援するハウスキーパーとして機能する。 モデルはまず製品向けに最適化されたフォーマットに自動的に変換され、異なる設定(バッチサイズやハードウェアなど)でプロファイルされる。 プロファイリング情報は、MLaaSのパフォーマンスとコストのトレードオフをバランスするためのガイドラインとして使用できる。 最後に、システムはクラウド環境へのデプロイを容易にするためにモデルをダッカー化する。 MLModelCIの重要な特徴は、オンラインサービス品質を維持しながらアイドルワーカーのみを利用する弾性評価を可能にするコントローラの実装である。 当社のシステムは、現在のmlトレーニングとサービスシステムのギャップを埋めることで、サービスデプロイメントに関連する手作業や退屈な作業から開発者を解放します。 私たちはこのプラットフォームを、Apache 2.0ライセンスの下でGitHub上のオープンソースプロジェクトとしてリリースし、より大規模なMLアプリケーションや研究プロジェクトの簡素化と合理化を目的としています。

MLModelCI provides multimedia researchers and developers with a one-stop platform for efficient machine learning (ML) services. The system leverages DevOps techniques to optimize, test, and manage models. It also containerizes and deploys these optimized and validated models as cloud services (MLaaS). In its essence, MLModelCI serves as a housekeeper to help users publish models. The models are first automatically converted to optimized formats for production purpose and then profiled under different settings (e.g., batch size and hardware). The profiling information can be used as guidelines for balancing the trade-off between performance and cost of MLaaS. Finally, the system dockerizes the models for ease of deployment to cloud environments. A key feature of MLModelCI is the implementation of a controller, which allows elastic evaluation which only utilizes idle workers while maintaining online service quality. Our system bridges the gap between current ML training and serving systems and thus free developers from manual and tedious work often associated with service deployment. We release the platform as an open-source project on GitHub under Apache 2.0 license, with the aim that it will facilitate and streamline more large-scale ML applications and research projects.
翻訳日:2022-11-23 15:49:21 公開日:2020-06-09
# DyHGCN:情報拡散予測のためのユーザの動的嗜好を学習する動的不均一グラフ畳み込みネットワーク

DyHGCN: A Dynamic Heterogeneous Graph Convolutional Network to Learn Users' Dynamic Preferences for Information Diffusion Prediction ( http://arxiv.org/abs/2006.05169v1 )

ライセンス: Link先を確認
Chunyuan Yuan, Jiacheng Li, Wei Zhou, Yijun Lu, Xiaodan Zhang, Songlin Hu(参考訳) 情報拡散予測は情報伝達過程を理解するための基本的な課題である。 誤った情報拡散予測や悪意のあるアカウント検出など、幅広い応用がある。 以前の研究では、単一の拡散シーケンスのコンテキストを活用するか、情報拡散予測にユーザー間のソーシャルネットワークを使うことに集中していた。 しかし、異なるメッセージの拡散経路は自然に動的拡散グラフを構成する。 ひとつは、拡散過程の複雑さをモデル化するには不十分であり、不満足な予測性能をもたらすソーシャルネットワークと拡散グラフの両方を併用することができないことである。 また、ユーザの動的好みを学習することはできない。 直感的には、時間が経つにつれてユーザの好みが変わり、ユーザの個人的な好みが、ユーザが情報を再投稿するかどうかを判断する。 したがって,情報拡散予測におけるユーザの動的嗜好を考えることは有益である。 本稿では,ソーシャルグラフと動的拡散グラフの構造特性を協調的に学習する,新しい動的不均一グラフ畳み込みネットワーク(DyHGCN)を提案する。 そして,その時間情報を不均一グラフにエンコードし,ユーザの動的嗜好を学習する。 最後に,情報拡散予測作業を容易にするために,現在の拡散経路の文脈依存性を捉えるために,マルチヘッドアテンションを適用した。 実験の結果,DyHGCNは3つの公開データセット上で最先端モデルよりも有意に優れており,提案モデルの有効性を示している。

Information diffusion prediction is a fundamental task for understanding the information propagation process. It has wide applications in such as misinformation spreading prediction and malicious account detection. Previous works either concentrate on utilizing the context of a single diffusion sequence or using the social network among users for information diffusion prediction. However, the diffusion paths of different messages naturally constitute a dynamic diffusion graph. For one thing, previous works cannot jointly utilize both the social network and diffusion graph for prediction, which is insufficient to model the complexity of the diffusion process and results in unsatisfactory prediction performance. For another, they cannot learn users' dynamic preferences. Intuitively, users' preferences are changing as time goes on and users' personal preference determines whether the user will repost the information. Thus, it is beneficial to consider users' dynamic preferences in information diffusion prediction. In this paper, we propose a novel dynamic heterogeneous graph convolutional network (DyHGCN) to jointly learn the structural characteristics of the social graph and dynamic diffusion graph. Then, we encode the temporal information into the heterogeneous graph to learn the users' dynamic preferences. Finally, we apply multi-head attention to capture the context-dependency of the current diffusion path to facilitate the information diffusion prediction task. Experimental results show that DyHGCN significantly outperforms the state-of-the-art models on three public datasets, which shows the effectiveness of the proposed model.
翻訳日:2022-11-23 15:49:05 公開日:2020-06-09
# リモートヘルスモニタリングダッシュボードのためのフレキシブルでインテリジェントなフレームワーク

A Flexible and Intelligent Framework for Remote Health Monitoring Dashboards ( http://arxiv.org/abs/2006.05276v1 )

ライセンス: Link先を確認
Shayan Fazeli, Majid Sarrafzadeh(参考訳) モニタリングパネルの開発とメンテナンスは、間違いなくリモート患者監視(rpm)システムの主要なタスクである。 所望の機能、データソース、目的に大きなバリエーションがあるため、RPMプロジェクトにおけるさまざまなニーズに対応する効率的なダッシュボードを設計するのは、一般的には難しい作業です。 本稿では,RPMプロジェクトのデータ監視ダッシュボードを設計するためのフレームワークであるViSierraを紹介する。 このオープンソースプロジェクトの抽象化とさまざまなコンポーネントを解説し、最小限のコーディングで高速で効率的で正確な監視プラットフォームを構築する上で、このフレームワークの有効性に関する私たちの主張を支持する例を挙げる。 これらのプラットフォームは、従来のRPMプロジェクトに必要なすべての側面をカバーし、機械学習ソリューションのような新しい機能と組み合わせ、専門家が情報を追跡するためのより良いデータ分析手段を提供する。

Developing and maintaining monitoring panels is undoubtedly the main task in the remote patient monitoring (RPM) systems. Due to the significant variations in desired functionalities, data sources, and objectives, designing an efficient dashboard that responds to the various needs in an RPM project is generally a cumbersome task to carry out. In this work, we present ViSierra, a framework for designing data monitoring dashboards in RPM projects. The abstractions and different components of this open-source project are explained, and examples are provided to support our claim concerning the effectiveness of this framework in preparing fast, efficient, and accurate monitoring platforms with minimal coding. These platforms will cover all the necessary aspects in a traditional RPM project and combine them with novel functionalities such as machine learning solutions and provide better data analysis instruments for the experts to track the information.
翻訳日:2022-11-23 15:48:41 公開日:2020-06-09
# タッチスクリーンバイオメトリックスを用いたエンド・ツー・エンドのユーザ認識

End-to-end User Recognition using Touchscreen Biometrics ( http://arxiv.org/abs/2006.05388v1 )

ライセンス: Link先を確認
Micha{\l} Krzemi\'nski, Javier Hernando(参考訳) タッチスクリーンデータを行動バイオメトリックスとして研究する。 目標は、モバイルデバイスの生データを使ってユーザーを透過的に識別できるエンドツーエンドシステムを作ることだった。 タッチスクリーンバイオメトリックスは、使用法とデータベースの相違点のある一連の研究において、わずか数回しか研究されなかった。 提案したシステムでは、タッチスクリーンからのデータを直接処理せずにディープニューラルネットワークの入力に転送し、ユーザのアイデンティティを決定することができる。 手作りの機能は使用されていない。 実装された分類アルゴリズムは、生データから独自のパターンを見つけようとする。 得られた結果は,提案する深層モデルが与えられた識別タスクに十分であることを示す。 実験の結果,技術システムと比較すると,ユーザ識別精度が高く,EER結果も良好であった。 我々のシステムによる最良の結果は0.65% EERである。

We study the touchscreen data as behavioural biometrics. The goal was to create an end-to-end system that can transparently identify users using raw data from mobile devices. The touchscreen biometrics was researched only few times in series of works with disparity in used methodology and databases. In the proposed system data from the touchscreen goes directly, without any processing, to the input of a deep neural network, which is able to decide on the identity of the user. No hand-crafted features are used. The implemented classification algorithm tries to find patterns by its own from raw data. The achieved results show that the proposed deep model is sufficient enough for the given identification task. The performed tests indicate high accuracy of user identification and better EER results compared to state of the art systems. The best result achieved by our system is 0.65% EER.
翻訳日:2022-11-23 15:48:12 公開日:2020-06-09
# エンコーダデコーダネットワークを用いた流体力学系の高速モデリングと理解

Fast Modeling and Understanding Fluid Dynamics Systems with Encoder-Decoder Networks ( http://arxiv.org/abs/2006.05409v1 )

ライセンス: Link先を確認
Rohan Thavarajah, Xiang Zhai, Zheren Ma and David Castineira(参考訳) 深層学習モデルは、システムの出力を観察するだけで、ある第一原理法則によって支配されるシステムを理解することができるのか? 深層学習は基礎となる物理学を学び、予測を行う際に物理学を称えることができるか? 答えはどちらも肯定的だ。 多孔質媒質中の二次元地下流体力学をシミュレートするために, 計算コストの高い有限体積シミュレータを用いて, 精度の高いディープラーニングに基づくプロキシモデルを効率的に学習できることを見出した。 我々は、画像から画像への回帰として、異なる入力パラメータを持つシミュレータを実行して、ディープラーニングモデルに適合する合成トレーニングデータセットを構築する。 データは時空間的であるため、時間を直接入力として扱う自己エンコーダネットワークと畳み込みLSTMの2つの代替処理の性能を比較する。 流体力学問題における鋭い空間勾配に対処するための逆法が採用されている。 従来のシミュレーションと比較して、提案したディープラーニングアプローチにより、より高速なフォワード計算が可能になり、より多くのシナリオを同時により大きなパラメータ空間で探索することができる。 計算効率の向上は、物理モデルが履歴マッチングによって決定される未知のパラメータを持つ逆問題を解く上で特に有用であることが示された。 学習モデルのピクセルレベルでの注目度を計算することにより,重要な物理パラメータに対するディープラーニングモデルの感度を定量化し,大きな加速度で逆問題を解くことができることを示す。 機械学習の有効性を,その学習速度と正確性の観点から評価する。 ネットワークは、限られたトレーニングデータを使用して数分以内にトレーニングでき、供給されるトレーニングデータ量に応じて好ましくスケールできる精度を達成することができる。

Is a deep learning model capable of understanding systems governed by certain first principle laws by only observing the system's output? Can deep learning learn the underlying physics and honor the physics when making predictions? The answers are both positive. In an effort to simulate two-dimensional subsurface fluid dynamics in porous media, we found that an accurate deep-learning-based proxy model can be taught efficiently by a computationally expensive finite-volume-based simulator. We pose the problem as an image-to-image regression, running the simulator with different input parameters to furnish a synthetic training dataset upon which we fit the deep learning models. Since the data is spatiotemporal, we compare the performance of two alternative treatments of time; a convolutional LSTM versus an autoencoder network that treats time as a direct input. Adversarial methods are adopted to address the sharp spatial gradient in the fluid dynamic problems. Compared to traditional simulation, the proposed deep learning approach enables much faster forward computation, which allows us to explore more scenarios with a much larger parameter space given the same time. It is shown that the improved forward computation efficiency is particularly valuable in solving inversion problems, where the physics model has unknown parameters to be determined by history matching. By computing the pixel-level attention of the trained model, we quantify the sensitivity of the deep learning model to key physical parameters and hence demonstrate that the inversion problems can be solved with great acceleration. We assess the efficacy of the machine learning surrogate in terms of its training speed and accuracy. The network can be trained within minutes using limited training data and achieve accuracy that scales desirably with the amount of training data supplied.
翻訳日:2022-11-23 15:48:00 公開日:2020-06-09
# この映画が好きな理由が分かる: 解釈可能な効率的なマルチモーダルレコメンデーション

I know why you like this movie: Interpretable Efficient Multimodal Recommender ( http://arxiv.org/abs/2006.09979v1 )

ライセンス: Link先を確認
Barbara Rychalska, Dominika Basaj, Jacek D\k{a}browski, Micha{\l} Daniluk(参考訳) 近年,EMDE(Efficient Manifold Density Estimator)モデルが導入されている。 このモデルはLocal Sensitive HashingとCount-Min Sketchアルゴリズムを利用して、ニューラルネットワークと組み合わせて、複数の推奨データセットの最先端結果を達成する。 しかし,本モデルでは,各ユーザ/セッション毎の入力項目の圧縮結合表現を取り入れているため,勾配に基づく手法による個別項目の属性の計算は適用できないと考えられる。 EMDEアイテム検索手法の特性により,このモデルをホワイトボックスで解釈することが可能であることが証明された。 本モデルのマルチモーダルフレキシビリティを活用し,映画のレコメンデーション出力にテキスト,カテゴリ特徴,画像といった複数のモダリティの影響を示す有意義な結果を得る。

Recently, the Efficient Manifold Density Estimator (EMDE) model has been introduced. The model exploits Local Sensitive Hashing and Count-Min Sketch algorithms, combining them with a neural network to achieve state-of-the-art results on multiple recommender datasets. However, this model ingests a compressed joint representation of all input items for each user/session, so calculating attributions for separate items via gradient-based methods seems not applicable. We prove that interpreting this model in a white-box setting is possible thanks to the properties of EMDE item retrieval method. By exploiting multimodal flexibility of this model, we obtain meaningful results showing the influence of multiple modalities: text, categorical features, and images, on movie recommendation output.
翻訳日:2022-11-23 15:47:12 公開日:2020-06-09
# 脊椎細胞注入ロボットの高分解能MRI誘導ナビゲーション

Resolution-Enhanced MRI-Guided Navigation of Spinal Cellular Injection Robot ( http://arxiv.org/abs/2006.05544v1 )

ライセンス: Link先を確認
Daniel Enrique Martinez, Waiman Meinhold, John Oshinski, Ai-Ping Hu, and Jun Ueda(参考訳) 本稿では,高精度圧電アクチュエータで実現した高分解能化技術を用いて,MRIの分解能を超えて手術ロボットをナビゲートする方法を提案する。 手術ロボットは脊髄に幹細胞を注入するために特別に設計された。 この特定の治療は、手動針位置決めプラットフォームよりもMRI互換のロボットプラットフォームを用いて短時間で行うことができる。 針ガイドチューブに付着したfiducial markerの撮像精度は,ロボットのサブピクセル移動を伴う複数の画像から高分解能画像を再構成することで向上した。 平行平面直接駆動型針位置決め機構は、従来のmri分解能よりも1mmまでの2桁高い空間精度で針ガイドを位置決めした。 再建された解像度向上画像は、標準的なMRIでは不可能だったロボットを正確にナビゲートするために使用された。 提案した高解像度画像誘導介入の有効性を検証する実験を行った。

This paper presents a method of navigating a surgical robot beyond the resolution of magnetic resonance imaging (MRI) by using a resolution enhancement technique enabled by high-precision piezoelectric actuation. The surgical robot was specifically designed for injecting stem cells into the spinal cord. This particular therapy can be performed in a shorter time by using a MRI-compatible robotic platform than by using a manual needle positioning platform. Imaging resolution of fiducial markers attached to the needle guide tubing was enhanced by reconstructing a high-resolution image from multiple images with sub-pixel movements of the robot. The parallel-plane direct-drive needle positioning mechanism positioned the needle guide with a high spatial precision that is two orders of magnitude higher than typical MRI resolution up to 1 mm. Reconstructed resolution enhanced images were used to navigate the robot precisely that would not have been possible by using standard MRI. Experiments were conducted to verify the effectiveness of the proposed enhanced-resolution image-guided intervention.
翻訳日:2022-11-23 15:46:29 公開日:2020-06-09
# 発声用スパルシリティプロモーティング正則化器の教師付き学習

Supervised Learning of Sparsity-Promoting Regularizers for Denoising ( http://arxiv.org/abs/2006.05521v1 )

ライセンス: Link先を確認
Michael T. McCann, Saiprasad Ravishankar(参考訳) 本稿では,画像デノイジングのためのスパーシティプロモーティング正規化器の教師付き学習法を提案する。 空間性促進型正規化は、現代の画像再構成問題を解決する上で重要な要素であるが、これらの正規化子を支えるオペレータは通常、手動で設計するか、教師なしでデータから学習される。 画像再構成問題の解決における教師あり学習(主に畳み込みニューラルネットワーク)の成功は、正規化器を設計するための実りあるアプローチであることを示している。 この方向の最初の実験として,パラメトリック・スパーシティ・プロモーティング・レギュラライザを用いた変分定式化手法を提案する。レギュラライザのパラメータを学習し,トレーニングセット(基底真理画像,測定)対における再構成平均二乗誤差を最小化する。 我々はKarush-Kuhn-Tucker条件を用いてトレーニング損失の勾配の式を導出し、それを最小限に抑える勾配降下アルゴリズムを提供する。 簡単な合成・復号化問題に対する実験により,提案手法は,よく知られた正規化器(高度変動,DCTスパーシリティ,教師なし辞書学習)と協調フィルタリングより優れた演算子を学習できることを示した。 我々が提示するアプローチはデノイジングに特有であるが、線形計測モデルを用いた逆問題のクラス全体に適応でき、幅広い画像再構成問題に適用できると信じている。

We present a method for supervised learning of sparsity-promoting regularizers for image denoising. Sparsity-promoting regularization is a key ingredient in solving modern image reconstruction problems; however, the operators underlying these regularizers are usually either designed by hand or learned from data in an unsupervised way. The recent success of supervised learning (mainly convolutional neural networks) in solving image reconstruction problems suggests that it could be a fruitful approach to designing regularizers. As a first experiment in this direction, we propose to denoise images using a variational formulation with a parametric, sparsity-promoting regularizer, where the parameters of the regularizer are learned to minimize the mean squared error of reconstructions on a training set of (ground truth image, measurement) pairs. Training involves solving a challenging bilievel optimization problem; we derive an expression for the gradient of the training loss using Karush-Kuhn-Tucker conditions and provide an accompanying gradient descent algorithm to minimize it. Our experiments on a simple synthetic, denoising problem show that the proposed method can learn an operator that outperforms well-known regularizers (total variation, DCT-sparsity, and unsupervised dictionary learning) and collaborative filtering. While the approach we present is specific to denoising, we believe that it can be adapted to the whole class of inverse problems with linear measurement models, giving it applicability to a wide range of image reconstruction problems.
翻訳日:2022-11-23 15:40:30 公開日:2020-06-09
# データ強制のための機械学習ポテンシャルを訓練するシンプルで効率的なアルゴリズム

Simple and efficient algorithms for training machine learning potentials to force data ( http://arxiv.org/abs/2006.05475v1 )

ライセンス: Link先を確認
Justin S. Smith, Nicholas Lubbers, Aidan P. Thompson, Kipton Barros(参考訳) ab initio量子シミュレーションのデータに基づいてトレーニングされた抽象機械学習モデルは、前例のない精度で分子動力学ポテンシャルをもたらす。 制限要因の1つは、利用可能なトレーニングデータの量であり、入手するのにコストがかかる。 量子シミュレーションは、システム全体のエネルギーに加えて、全ての原子間力を与えることが多い。 これらの力はエネルギー単独よりも多くの情報を提供する。 この大量の力データにモデルを訓練することは、かなりの計算コストをもたらすかもしれない。 実際、利用可能なすべてのフォースデータに対するトレーニングは、エネルギー単独でのトレーニングよりも数倍の費用しかかからない。 本稿では, 効率的な力トレーニングのための新しいアルゴリズムを提案し, 有機化学およびバルクアルミニウムのための実世界のデータセットからの力のトレーニングによる精度のベンチマークを行う。

Abstract Machine learning models, trained on data from ab initio quantum simulations, are yielding molecular dynamics potentials with unprecedented accuracy. One limiting factor is the quantity of available training data, which can be expensive to obtain. A quantum simulation often provides all atomic forces, in addition to the total energy of the system. These forces provide much more information than the energy alone. It may appear that training a model to this large quantity of force data would introduce significant computational costs. Actually, training to all available force data should only be a few times more expensive than training to energies alone. Here, we present a new algorithm for efficient force training, and benchmark its accuracy by training to forces from real-world datasets for organic chemistry and bulk aluminum.
翻訳日:2022-11-23 15:39:38 公開日:2020-06-09
# MLアドバイスによるオンラインページマイグレーション

Online Page Migration with ML Advice ( http://arxiv.org/abs/2006.05028v1 )

ライセンス: Link先を確認
Piotr Indyk, Frederik Mallmann-Trenn, Slobodan Mitrovi\'c, Ronitt Rubinfeld(参考訳) 我々は,予測が不完全である可能性のある,ページマイグレーション問題に対するオンラインアルゴリズムを考察し,その性能を向上する。 この問題に対する最もよく知られているオンラインアルゴリズムは、Westbrook'94 と Bienkowski et al'17 である。 対照的に、アルゴリズムが入力シーケンスの予測を与えられた場合、予測エラーレートが0ドルになる傾向があるため、競合比が1ドルになる傾向があることを示している。 具体的には、競争比率は1+o(q)$であり、ここでは$q$は予測誤差率である。 また、 ``fallback option'' をデザインし、入力シーケンス {\em any} のアルゴリズムの競合比が最大$o(1/q)$ であることを保証する。 その結果,近年の作業では,‘classic’'アルゴリズムの性能向上のために機械学習が用いられている。

We consider online algorithms for the {\em page migration problem} that use predictions, potentially imperfect, to improve their performance. The best known online algorithms for this problem, due to Westbrook'94 and Bienkowski et al'17, have competitive ratios strictly bounded away from 1. In contrast, we show that if the algorithm is given a prediction of the input sequence, then it can achieve a competitive ratio that tends to $1$ as the prediction error rate tends to $0$. Specifically, the competitive ratio is equal to $1+O(q)$, where $q$ is the prediction error rate. We also design a ``fallback option'' that ensures that the competitive ratio of the algorithm for {\em any} input sequence is at most $O(1/q)$. Our result adds to the recent body of work that uses machine learning to improve the performance of ``classic'' algorithms.
翻訳日:2022-11-23 15:38:25 公開日:2020-06-09
# マルチクラス教育データマイニングのためのマルチスリット最適化バグングアンサンブルモデル選択

Multi-split Optimized Bagging Ensemble Model Selection for Multi-class Educational Data Mining ( http://arxiv.org/abs/2006.05031v1 )

ライセンス: Link先を確認
MohammadNoor Injadat, Abdallah Moubayed, Ali Bou Nassif, Abdallah Shami(参考訳) 近年,学生の学業成績の予測は,学生の学業成績や教育品質の向上に焦点をあてた研究分野となっている。 様々なデータマイニング技術を用いて,学生のパフォーマンスの分析と予測を行うことができる。 また、これらの手法により、講師は生徒の最終点に影響を与える可能性のある要因を決定することができる。 この研究は、2つの異なる大学の2つの学部のデータセットを分析します。 さらに,本研究は,コース提供の2段階(20%と50%)で,学生のパフォーマンスを予測することを目的としている。 この分析により、適切な機械学習アルゴリズムを適切に選択し、アルゴリズムのパラメータを最適化することができる。 さらに本研究は,gini指標とp値に基づく体系的マルチスプリットアプローチを採用している。 これは、6つの潜在的なベース機械学習アルゴリズムの組み合わせから構築された適切なバッグアンサンブル学習を最適化することで実現される。 実験結果から, 両データセットの目標群に対して, ポジトバッグングアンサンブルモデルが高い精度を達成できることが示唆された。

Predicting students' academic performance has been a research area of interest in recent years with many institutions focusing on improving the students' performance and the education quality. The analysis and prediction of students' performance can be achieved using various data mining techniques. Moreover, such techniques allow instructors to determine possible factors that may affect the students' final marks. To that end, this work analyzes two different undergraduate datasets at two different universities. Furthermore, this work aims to predict the students' performance at two stages of course delivery (20% and 50% respectively). This analysis allows for properly choosing the appropriate machine learning algorithms to use as well as optimize the algorithms' parameters. Furthermore, this work adopts a systematic multi-split approach based on Gini index and p-value. This is done by optimizing a suitable bagging ensemble learner that is built from any combination of six potential base machine learning algorithms. It is shown through experimental results that the posited bagging ensemble models achieve high accuracy for the target group for both datasets.
翻訳日:2022-11-23 15:38:11 公開日:2020-06-09
# ProcData: プロセスデータ分析のためのRパッケージ

ProcData: An R Package for Process Data Analysis ( http://arxiv.org/abs/2006.05061v1 )

ライセンス: Link先を確認
Xueying Tang, Susu Zhang, Zhi Wang, Jingchen Liu, Zhiliang Ying(参考訳) プロセスデータは、コンピュータベースのアイテムのログファイルに記録されたデータを指す。 これらのデータは、タイムスタンプされたアクションシーケンスとして表現され、項目の解決に関する回答者の反応プロセスを追跡する。 プロセスデータ分析は、応答過程に含まれる豊富な情報を利用して、教育的評価の精度を高め、他の評価目的に役立てることを目的としている。 本稿では,プロセスデータの処理,記述,解析を行うためのツールとして,r パッケージ procdata について述べる。 プロセスデータを整理するための s3 クラス "proc" を定義し,ジェネリックメソッドのサマリを拡張し,クラス "proc" を印刷する。 不規則応答過程の情報を正規数値ベクトルに圧縮する2つのプロセスデータの特徴抽出手法をパッケージに実装する。 ProcDataはまた、ニューラルネットワークベースのシーケンスモデルから、適合と予測を行う機能も提供する。 これらの関数は、ニューラルネットワークの構築とトレーニングのためにパッケージケラで関連する関数を呼び出す。 また、2012年の国際学生アセスメントプログラムにおいて、いくつかの応答プロセス生成装置と、気候制御項目の応答プロセスの実際のデータセットがパッケージに含まれている。

Process data refer to data recorded in the log files of computer-based items. These data, represented as timestamped action sequences, keep track of respondents' response processes of solving the items. Process data analysis aims at enhancing educational assessment accuracy and serving other assessment purposes by utilizing the rich information contained in response processes. The R package ProcData presented in this article is designed to provide tools for processing, describing, and analyzing process data. We define an S3 class "proc" for organizing process data and extend generic methods summary and print for class "proc". Two feature extraction methods for process data are implemented in the package for compressing information in the irregular response processes into regular numeric vectors. ProcData also provides functions for fitting and making predictions from a neural-network-based sequence model. These functions call relevant functions in package keras for constructing and training neural networks. In addition, several response process generators and a real dataset of response processes of the climate control item in the 2012 Programme for International Student Assessment are included in the package.
翻訳日:2022-11-23 15:37:54 公開日:2020-06-09
# 隅角閉鎖緑内障検出のための3次元虹彩表面の再構成と定量化

Reconstruction and Quantification of 3D Iris Surface for Angle-Closure Glaucoma Detection in Anterior Segment OCT ( http://arxiv.org/abs/2006.05179v1 )

ライセンス: Link先を確認
Jinkui Hao, Huazhu Fu, Yanwu Xu, Yan Hu, Fei Li, Xiulan Zhang, Jiang Liu, Yitian Zhao(参考訳) 角閉鎖性疾患の診断の容易化には,前節oct (as-oct) の虹彩形状の精密な特徴と解析が重要である。 既存の手法では, 2次元スライスから同定された構造特性のみに焦点をあてるが, 3次元as-octにおける虹彩形状の形態変化の正確なキャラクタリゼーションは, 疾患進行のリスクも明らかにできる可能性がある。 本稿では,AS-OCT画像からの3次元虹彩表面の再構成と定量化のための新しい枠組みを提案する。 3次元表示を用いて角閉鎖緑内障を初めて検出した研究であると考えられる。 ウェーブレットリファインメントブロック(wrb)を用いたアイリスセグメンテーションネットワークを最初に提案し,単一as-octスライスからアイリスの初期形状を生成する。 次に,ポアソンディスクサンプリングを用いた誘導最適化法を用いて3次元虹彩表面を再構成する。 最後に、アングルクロージャ緑内障の検出に使用される表面ベースの特徴のセットを抽出する。 実験の結果,本手法は虹彩の分断と表面の再構成に極めて有効であることがわかった。 さらに,3次元表現は2次元特徴よりも角閉鎖緑内障の検出において優れた性能を示す。

Precise characterization and analysis of iris shape from Anterior Segment OCT (AS-OCT) are of great importance in facilitating diagnosis of angle-closure-related diseases. Existing methods focus solely on analyzing structural properties identified from the 2D slice, while accurate characterization of morphological changes of iris shape in 3D AS-OCT may be able to reveal in addition the risk of disease progression. In this paper, we propose a novel framework for reconstruction and quantification of 3D iris surface from AS-OCT imagery. We consider it to be the first work to detect angle-closure glaucoma by means of 3D representation. An iris segmentation network with wavelet refinement block (WRB) is first proposed to generate the initial shape of the iris from single AS-OCT slice. The 3D iris surface is then reconstructed using a guided optimization method with Poisson-disk sampling. Finally, a set of surface-based features are extracted, which are used in detecting of angle-closure glaucoma. Experimental results demonstrate that our method is highly effective in iris segmentation and surface reconstruction. Moreover, we show that 3D-based representation achieves better performance in angle-closure glaucoma detection than does 2D-based feature.
翻訳日:2022-11-23 15:31:03 公開日:2020-06-09
# 洪水・土砂流マッピングのためのシミュレーションと深層学習によるリモートセンシングの限界を破る

Breaking the Limits of Remote Sensing by Simulation and Deep Learning for Flood and Debris Flow Mapping ( http://arxiv.org/abs/2006.05180v1 )

ライセンス: Link先を確認
Naoto Yokoya, Kazuki Yamanoi, Wei He, Gerald Baier, Bruno Adriano, Hiroyuki Miura, Satoru Oishi(参考訳) 本研究では,深層学習と数値シミュレーションを統合したリモートセンシング画像から浸水深さ(最大水位)と土石流による地形変形を推定する枠組みを提案する。 水と破片の流れシミュレータは、様々な人工災害シナリオのトレーニングデータを生成する。 このような合成データに基づいてトレーニングされた注意u-netとlinknetアーキテクチャに基づく回帰モデルは、リモートセンシングによる変化検出マップとデジタル標高モデルから最大水位と地形変形を予測することができる。 提案手法は, リモートセンシング画像解析において避けられない偽陰性を緩和するため, 塗装能力を有する。 本フレームワークは, リモートセンシングの限界を破り, 浸水深度と地形変形の迅速推定を可能にし, 救助活動や救助活動を含む緊急対応に必要な情報を提供する。 洪水と土砂流を同時に発生させる2つの災害事象について, 合成データと実データの両方を用いて実験を行い, 本手法の有効性を定量的に定性的に実証した。

We propose a framework that estimates inundation depth (maximum water level) and debris-flow-induced topographic deformation from remote sensing imagery by integrating deep learning and numerical simulation. A water and debris flow simulator generates training data for various artificial disaster scenarios. We show that regression models based on Attention U-Net and LinkNet architectures trained on such synthetic data can predict the maximum water level and topographic deformation from a remote sensing-derived change detection map and a digital elevation model. The proposed framework has an inpainting capability, thus mitigating the false negatives that are inevitable in remote sensing image analysis. Our framework breaks the limits of remote sensing and enables rapid estimation of inundation depth and topographic deformation, essential information for emergency response, including rescue and relief activities. We conduct experiments with both synthetic and real data for two disaster events that caused simultaneous flooding and debris flows and demonstrate the effectiveness of our approach quantitatively and qualitatively.
翻訳日:2022-11-23 15:30:40 公開日:2020-06-09
# ComboNet: オータセグメンテーションのための2Dと3Dアーキテクチャ

ComboNet: Combined 2D & 3D Architecture for Aorta Segmentation ( http://arxiv.org/abs/2006.05325v1 )

ライセンス: Link先を確認
Orhan Akal, Zhigang Peng and Gerardo Hermosillo Valadez(参考訳) フル解像度でトレーニングした場合、ディープラーニングによる3Dセグメンテーションは、最高の精度を達成するための理想的な方法である。 2Dとは異なり、3Dセグメンテーションは一般的に粗いアウトリーを有しておらず、周囲の軟組織への漏れを防ぎ、少なくとも2Dセグメンテーションよりも概して一貫性がある。 しかし、gpuメモリは一般にそのようなアプリケーションのボトルネックである。 したがって、ほとんどの3dセグメンテーションアプリケーションは、完全な解像度ではなくサブサンプリングされた入力を処理する。 境界における精度の維持と,スパース異常や漏洩を防止するため,ComboNetを設計した。 ComboNetは3つのサブネットワーク構造でエンドツーエンドに設計されている。 最初の2つは並列で、フル解像度の2D UNetとサブサンプル入力の4倍の3D UNetである。 最後の段階は、2dおよび3d出力とフル解像度の入力画像の結合であり、2dまたは3dの畳み込みを伴う2つの畳み込み層が続く。 combonet では aorta のセグメンテーションで 92.1\%$ dice の精度を達成しました。 Combonetでは、フル解像度の入力画像を持つ2D UNetとは対照的に、ダイス精度が最大2.3\%向上している。

3D segmentation with deep learning if trained with full resolution is the ideal way of achieving the best accuracy. Unlike in 2D, 3D segmentation generally does not have sparse outliers, prevents leakage to surrounding soft tissues, at the very least it is generally more consistent than 2D segmentation. However, GPU memory is generally the bottleneck for such an application. Thus, most of the 3D segmentation applications handle sub-sampled input instead of full resolution, which comes with the cost of losing precision at the boundary. In order to maintain precision at the boundary and prevent sparse outliers and leakage, we designed ComboNet. ComboNet is designed in an end to end fashion with three sub-network structures. The first two are parallel: 2D UNet with full resolution and 3D UNet with four times sub-sampled input. The last stage is the concatenation of 2D and 3D outputs along with a full-resolution input image which is followed by two convolution layers either with 2D or 3D convolutions. With ComboNet we have achieved $92.1\%$ dice accuracy for aorta segmentation. With Combonet, we have observed up to $2.3\%$ improvement of dice accuracy as opposed to 2D UNet with the full-resolution input image.
翻訳日:2022-11-23 15:30:21 公開日:2020-06-09
# D-VPnet:自然シーンにおけるリアルタイム優位点検出ネットワーク

D-VPnet: A Network for Real-time Dominant Vanishing Point Detection in Natural Scenes ( http://arxiv.org/abs/2006.05407v1 )

ライセンス: Link先を確認
Yin-Bo Liu, Ming Zeng, Qing-Hao Meng(参考訳) 線形視点の重要な部分として、消滅点(VP)は2D写真から3D空間へのオブジェクトのマッピングに有用な手がかりを提供する。 既存の手法は主に線や輪郭などの構造的特徴を抽出し、それらの特徴をクラスタリングしてVPを検出する。 しかし,これらの手法は,屋外環境において検出される線分や輪郭の多さから,曖昧な情報に苦しむ。 本稿では,自然界における支配的なVP(Dominant Vanishing Point Detection Network, D-VPnet)を検出するために,新しい畳み込みニューラルネットワーク(CNN)を提案する。 提案手法の主な構成要素は特徴線分割提案部 (FLPU) であり, 支配的なVPの位置を予測するために直接利用することができる。 さらに、モデルは2つの主平行線をアシスタントとして使用し、支配的なvpの位置を決定する。 提案手法は,パブリックデータセットと並列ラインベースVanishing Point(PLVP)データセットを用いて検証した。 実験結果から,本手法の精度は, 各種条件下での最先端手法よりも優れ, 115fpsの速度が得られた。

As an important part of linear perspective, vanishing points (VPs) provide useful clues for mapping objects from 2D photos to 3D space. Existing methods are mainly focused on extracting structural features such as lines or contours and then clustering these features to detect VPs. However, these techniques suffer from ambiguous information due to the large number of line segments and contours detected in outdoor environments. In this paper, we present a new convolutional neural network (CNN) to detect dominant VPs in natural scenes, i.e., the Dominant Vanishing Point detection Network (D-VPnet). The key component of our method is the feature line-segment proposal unit (FLPU), which can be directly utilized to predict the location of the dominant VP. Moreover, the model also uses the two main parallel lines as an assistant to determine the position of the dominant VP. The proposed method was tested using a public dataset and a Parallel Line based Vanishing Point (PLVP) dataset. The experimental results suggest that the detection accuracy of our approach outperforms those of state-of-the-art methods under various conditions in real-time, achieving rates of 115fps.
翻訳日:2022-11-23 15:29:20 公開日:2020-06-09
# 離散並列マシンスケジューリング位置問題に対する厳密かつヒューリスティックな解法

Exact and heuristic methods for the discrete parallel machine scheduling location problem ( http://arxiv.org/abs/2006.08327v1 )

ライセンス: Link先を確認
Raphael Kramer and Arthur Kramer(参考訳) 離散並列マシンmakepanスケジューリングロケーション(scheloc)問題は、施設の位置とジョブスケジューリングを組み合わせた組合せ最適化問題である。 問題は、有限個の候補の中から$p$マシンの場所を選択し、これらのマシン上で一連のジョブをスケジューリングすることで、makespanを最小限に抑えることにある。 マシンの位置によって、ジョブはリリース日が異なる可能性があるため、位置決定はスケジュール決定に直接的な影響を与える。 この問題を解決するために,広範囲な計算実験によって評価される新しいアークフロー定式化,列生成,3つのヒューリスティックな手順を提案する。 提案手法をフレームワークアルゴリズムに組み込むことにより,関連する文献からすべてのベンチマークインスタンスの最適解が証明され,新たな挑戦的インスタンス群に対して少ない割合のギャップを得ることができる。

The discrete parallel machine makespan scheduling location (ScheLoc) problem is an integrated combinatorial optimization problem that combines facility location and job scheduling. The problem consists in choosing the locations of $p$ machines among a finite set of candidates and scheduling a set of jobs on these machines, aiming to minimize the makespan. Depending on the machine location, the jobs may have different release dates, and thus the location decisions have a direct impact on the scheduling decisions. To solve the problem, it is proposed a new arc-flow formulation, a column generation and three heuristic procedures that are evaluated through extensive computational experiments. By embedding the proposed procedures into a framework algorithm, we are able to find proven optimal solutions for all benchmark instances from the related literature and to obtain small percentage gaps for a new set of challenging instances.
翻訳日:2022-11-23 15:22:58 公開日:2020-06-09
# 確率的クラスタリングのための一般化ベイズフレームワーク

A generalized Bayes framework for probabilistic clustering ( http://arxiv.org/abs/2006.05451v1 )

ライセンス: Link先を確認
Tommaso Rigon, Amy H. Herring, David B. Dunson(参考訳) k-meansなどのロスベースのクラスタリング手法は、データ中のグループを見つけるための標準的なツールである。 しかし、推定クラスターにおける不確実性の定量化の欠如は不利である。 混合モデルに基づくモデルベースのクラスタリングは代替手段を提供するが、そのような手法は計算上の問題に直面し、カーネルの選択に対して大きな感度を持つ。 本稿では,これらの2つのパラダイムをGibs後続法を用いてブリッジする一般化ベイズフレームワークを提案する。 ベイズ更新を行う際、ログの確率はクラスタリングのための損失関数に置き換えられ、クラスタリングメソッドの豊富なファミリーに繋がる。 ギブスの後部は、データの可能性を特定せずにベイズ的信念の一貫性のある更新を表しており、クラスタリングの不確実性を特徴づけるのに使うことができる。 ブレグマン分岐とペアワイズ類似性に基づく損失を考察し,不確実性定量化のためのサンプリングアルゴリズムとともに,点推定のための効率的な決定論的アルゴリズムを開発した。 k-平均を含むいくつかの既存のクラスタリングアルゴリズムは、我々のフレームワークの下で一般化ベイズ推定器として解釈できるので、これらの手法に対する不確実な定量化法を提供する。

Loss-based clustering methods, such as k-means and its variants, are standard tools for finding groups in data. However, the lack of quantification of uncertainty in the estimated clusters is a disadvantage. Model-based clustering based on mixture models provides an alternative, but such methods face computational problems and large sensitivity to the choice of kernel. This article proposes a generalized Bayes framework that bridges between these two paradigms through the use of Gibbs posteriors. In conducting Bayesian updating, the log likelihood is replaced by a loss function for clustering, leading to a rich family of clustering methods. The Gibbs posterior represents a coherent updating of Bayesian beliefs without needing to specify a likelihood for the data, and can be used for characterizing uncertainty in clustering. We consider losses based on Bregman divergence and pairwise similarities, and develop efficient deterministic algorithms for point estimation along with sampling algorithms for uncertainty quantification. Several existing clustering algorithms, including k-means, can be interpreted as generalized Bayes estimators under our framework, and hence we provide a method of uncertainty quantification for these approaches.
翻訳日:2022-11-23 15:21:47 公開日:2020-06-09
# 形態素リッチ音声の認識におけるニューラルテキスト生成に基づくデータ拡張の有効性について

On the Effectiveness of Neural Text Generation based Data Augmentation for Recognition of Morphologically Rich Speech ( http://arxiv.org/abs/2006.05129v1 )

ライセンス: Link先を確認
Bal\'azs Tarj\'an, Gy\"orgy Szasz\'ak, Tibor Fegy\'o, P\'eter Mihajlik(参考訳) 近年、先進的なニューラルネットワークモデルは自動音声認識 (ASR) を浸透させているが、言語モデリングにおいては、多くのシステムは現在でも部分的にまたは完全に伝統的なN-gram言語モデル (BNLM) に依存している。 この理由の1つは、トレーニングのコストが高く、ニューラルネットワークモデルの使用が複雑であることであり、そのほとんどが、第2の復号パス(rescoring)を追加することで実現されている。 最近の研究では、リカレントニューラルネットワーク言語モデル(RNNLM)からの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声の書き起こしシステムのオンラインパフォーマンスを大幅に改善した。 本稿では,トランスファー可能な知識の量を分析し,rnn-bnlm(neural augmented lm)が,第2の復号パスを落としてリアルタイムにシステムを実現することで,rnnlmの知識の約50%を捕捉できることを実証する。 また,単語とサブワードのLMを体系的に比較し,サブワードベースのニューラルテキスト拡張が低リソース環境で特に有用であることを示す。 さらに、第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることを示す。

Advanced neural network models have penetrated Automatic Speech Recognition (ASR) in recent years, however, in language modeling many systems still rely on traditional Back-off N-gram Language Models (BNLM) partly or entirely. The reason for this are the high cost and complexity of training and using neural language models, mostly possible by adding a second decoding pass (rescoring). In our recent work we have significantly improved the online performance of a conversational speech transcription system by transferring knowledge from a Recurrent Neural Network Language Model (RNNLM) to the single pass BNLM with text generation based data augmentation. In the present paper we analyze the amount of transferable knowledge and demonstrate that the neural augmented LM (RNN-BNLM) can help to capture almost 50% of the knowledge of the RNNLM yet by dropping the second decoding pass and making the system real-time capable. We also systematically compare word and subword LMs and show that subword-based neural text augmentation can be especially beneficial in under-resourced conditions. In addition, we show that using the RNN-BNLM in the first pass followed by a neural second pass, offline ASR results can be even significantly improved.
翻訳日:2022-11-23 15:21:28 公開日:2020-06-09
# 識別しない学習:単言語およびコードスイッチ音声認識を改善するタスク非依存学習

Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition ( http://arxiv.org/abs/2006.05257v1 )

ライセンス: Link先を確認
Gurunath Reddy Madhumani, Sanket Shah, Basil Abraham, Vikas Joshi, Sunayana Sitaram(参考訳) コード切り替わった音声を認識することは、コード切り替わったトレーニングデータの欠如など、さまざまな理由から自動音声認識(asr)では困難である。 近年,多言語シナリオに展開されるASRシステムは,単言語音声と符号音声の両方を高精度に認識する必要があるため,単言語音声認識の性能が低下していることが示されている。 実験の結果、この性能低下は微調整と正規化の戦略によって軽減され、モノリンガルとコードスイッチングの両方のASRの改善がもたらされた。 本研究では,タスク非依存モデルの学習にドメイン逆学習を用いることで,これまでの作業よりもさらに改善する。 逆微分器の分類精度を評価し,タスクに依存しない共有層パラメータを学習可能であることを示す。 我々は、単言語データとコード切替データと対向判別器を使用するプールモデルから始まるエンドツーエンドのASRシステムを訓練する。 提案手法は,単語誤り率(WER)を3つの言語ペア間で単言語およびコード切替テストセットで削減する。

Recognizing code-switched speech is challenging for Automatic Speech Recognition (ASR) for a variety of reasons, including the lack of code-switched training data. Recently, we showed that monolingual ASR systems fine-tuned on code-switched data deteriorate in performance on monolingual speech recognition, which is not desirable as ASR systems deployed in multilingual scenarios should recognize both monolingual and code-switched speech with high accuracy. Our experiments indicated that this loss in performance could be mitigated by using certain strategies for fine-tuning and regularization, leading to improvements in both monolingual and code-switched ASR. In this work, we present further improvements over our previous work by using domain adversarial learning to train task agnostic models. We evaluate the classification accuracy of an adversarial discriminator and show that it can learn shared layer parameters that are task agnostic. We train end-to-end ASR systems starting with a pooled model that uses monolingual and code-switched data along with the adversarial discriminator. Our proposed technique leads to reductions in Word Error Rates (WER) in monolingual and code-switched test sets across three language pairs.
翻訳日:2022-11-23 15:20:18 公開日:2020-06-09
# 雑音量学習のための滑らかなプロキシアンカー損失

Smooth Proxy-Anchor Loss for Noisy Metric Learning ( http://arxiv.org/abs/2006.05142v1 )

ライセンス: Link先を確認
Carlos Roig and David Varas and Issey Masuda and Juan Carlos Riveiro and Elisenda Bou-Balust(参考訳) 多くの産業アプリケーションは、多数のクラスを持つシステムを設計する際にスケーラビリティの問題を回避する手段としてメトリックラーニングを使用している。 このため、この研究分野は学術的・非学術的なコミュニティから多くの関心を集めている。 このような産業アプリケーションは、通常Webデータで生成される大規模なデータセットを必要とし、その結果、しばしば大量のノイズラベルを含む。 メトリック学習システムはノイズの多いラベルに敏感であるが、これは通常、手動で注釈付きデータセットに依存する文学では取り組まれない。 本研究では,Smooth Proxy-Anchor Lossを用いて,ノイズのあるラベルの存在を克服できるメトリクス学習手法を提案する。 また,上記の損失を2相学習手順で利用するアーキテクチャを提案する。 まず、サンプルクラスの信頼度を計算する信頼モジュールをトレーニングします。 第2に、これらの信頼性は、埋め込みのトレーニングに各サンプルの影響を重み付けするために使用される。 これにより、堅牢なサンプル埋め込みを提供するシステムが得られる。 ノイズラベルを含むデータセットを用いて学習した場合,提案手法の性能と現状のMetric Learning損失(プロキシベースとペアベース)を比較した。 これらの結果から,recall@1の2.63および3.29は,多相性およびプロキシアンカー損失に対して改善し,ノイズラベル条件下でのメトリック学習の最先端を上回った。

Many industrial applications use Metric Learning as a way to circumvent scalability issues when designing systems with a high number of classes. Because of this, this field of research is attracting a lot of interest from the academic and non-academic communities. Such industrial applications require large-scale datasets, which are usually generated with web data and, as a result, often contain a high number of noisy labels. While Metric Learning systems are sensitive to noisy labels, this is usually not tackled in the literature, that relies on manually annotated datasets. In this work, we propose a Metric Learning method that is able to overcome the presence of noisy labels using our novel Smooth Proxy-Anchor Loss. We also present an architecture that uses the aforementioned loss with a two-phase learning procedure. First, we train a confidence module that computes sample class confidences. Second, these confidences are used to weight the influence of each sample for the training of the embeddings. This results in a system that is able to provide robust sample embeddings. We compare the performance of the described method with current state-of-the-art Metric Learning losses (proxy-based and pair-based), when trained with a dataset containing noisy labels. The results showcase an improvement of 2.63 and 3.29 in Recall@1 with respect to MultiSimilarity and Proxy-Anchor Loss respectively, proving that our method outperforms the state-of-the-art of Metric Learning in noisy labeling conditions.
翻訳日:2022-11-23 15:14:06 公開日:2020-06-09
# 3次元物体検出のためのステレオRGBとより深いLIDARネットワーク

Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection ( http://arxiv.org/abs/2006.05187v1 )

ライセンス: Link先を確認
Qingdong He, Zhengning Wang, Hao Zeng, Yijun Liu, Shuaicheng Liu, Bing Zeng(参考訳) 3Dオブジェクト検出は、自動運転シナリオにおいて新たな課題となっている。 以前の作業では、プロジェクションベースまたはvoxelベースのモデルを使用して3dポイントクラウドを処理する。 しかし、どちらのアプローチにもいくつかの欠点がある。 ボクセル法は意味情報を欠くが、投影法は異なる視点に投影した場合に多くの空間情報損失を被る。 本稿では,3次元物体検出のためのネットワークの性能を自然に向上させるために,意味情報と空間情報を同時に活用できるステレオrgb and deep lidar(srdl)フレームワークを提案する。 具体的には、ステレオペアから候補ボックスを生成し、深層融合方式を用いて異なる領域的特徴を組み合わせる。 ステレオ戦略は、以前の作品と比べて予測のためのより多くの情報を提供する。 次に、局所的およびグローバルな特徴抽出器をセグメンテーションモジュールに積み重ねて、ポイントクラウドからよりリッチな意味的幾何学的特徴をキャプチャする。 内部点と融合した特徴を一致させた後、提案ネットワークは予測をより正確に洗練し、ボックス全体を新しいコンパクトな方法で符号化する。 難解なkitti検出ベンチマーク実験の結果から,立体画像と点雲を併用した3次元物体検出の有効性が示された。

3D object detection has become an emerging task in autonomous driving scenarios. Previous works process 3D point clouds using either projection-based or voxel-based models. However, both approaches contain some drawbacks. The voxel-based methods lack semantic information, while the projection-based methods suffer from numerous spatial information loss when projected to different views. In this paper, we propose the Stereo RGB and Deeper LIDAR (SRDL) framework which can utilize semantic and spatial information simultaneously such that the performance of network for 3D object detection can be improved naturally. Specifically, the network generates candidate boxes from stereo pairs and combines different region-wise features using a deep fusion scheme. The stereo strategy offers more information for prediction compared with prior works. Then, several local and global feature extractors are stacked in the segmentation module to capture richer deep semantic geometric features from point clouds. After aligning the interior points with fused features, the proposed network refines the prediction in a more accurate manner and encodes the whole box in a novel compact method. The decent experimental results on the challenging KITTI detection benchmark demonstrate the effectiveness of utilizing both stereo images and point clouds for 3D object detection.
翻訳日:2022-11-23 15:13:41 公開日:2020-06-09
# マルチスペクトル顔ランドマーク検出

Multi-spectral Facial Landmark Detection ( http://arxiv.org/abs/2006.05196v1 )

ライセンス: Link先を確認
Jin Keong, Xingbo Dong, Zhe Jin, Khawla Mallat, Jean-Luc Dugelay(参考訳) 熱顔画像解析は特定の状況に好適である。 例えば、夜間監視のような照明に敏感なアプリケーションや、プライバシー保護が要求されるアクセス制御などです。 しかし, 熱顔画像解析の不十分な研究は, 業界要求に応じて注意を喚起する。 顔のランドマークポイントの検出は、顔認識、3d顔再構成、表情認識など、多くの顔分析タスクにおいて重要である。 本稿では,頑健なニューラルネットワークにより顔のランドマーク検出,すなわちDeep Multi-Spectral Learning (DMSL)を提案する。 DMSLは2つのサブモデル、すなわち顔境界検出とランドマーク座標検出で構成されている。 このようなアーキテクチャは、可視画像と熱画像の両方で顔のランドマークを検出する能力を示している。 特に, 提案するdmslモデルは顔のランドマーク検出においてロバストであり, 顔が部分的に遮蔽されているか, 異なる方向を向いている。 eurecomの可視および熱対データベースで行った実験は、熱的顔ランドマーク検出のための最新技術よりもdmslの優れた性能を示している。 さらに,実験のために,各顔のランドマークを付加したサーマルフェイスデータセットをアノテートした。

Thermal face image analysis is favorable for certain circumstances. For example, illumination-sensitive applications, like nighttime surveillance; and privacy-preserving demanded access control. However, the inadequate study on thermal face image analysis calls for attention in responding to the industry requirements. Detecting facial landmark points are important for many face analysis tasks, such as face recognition, 3D face reconstruction, and face expression recognition. In this paper, we propose a robust neural network enabled facial landmark detection, namely Deep Multi-Spectral Learning (DMSL). Briefly, DMSL consists of two sub-models, i.e. face boundary detection, and landmark coordinates detection. Such an architecture demonstrates the capability of detecting the facial landmarks on both visible and thermal images. Particularly, the proposed DMSL model is robust in facial landmark detection where the face is partially occluded, or facing different directions. The experiment conducted on Eurecom's visible and thermal paired database shows the superior performance of DMSL over the state-of-the-art for thermal facial landmark detection. In addition to that, we have annotated a thermal face dataset with their respective facial landmark for the purpose of experimentation.
翻訳日:2022-11-23 15:13:21 公開日:2020-06-09
# Bitwise Information Bottleneckを用いたニューラルネットワーク活性化量子化

Neural Network Activation Quantization with Bitwise Information Bottlenecks ( http://arxiv.org/abs/2006.05210v1 )

ライセンス: Link先を確認
Xichuan Zhou, Kui Liu, Cong Shi, Haijun Liu, Ji Liu(参考訳) 情報ボトルネックに関する最近の研究は、ニューラルシグナル符号化のブラックボックスを開く継続的な試みに新たな光を当てた。 本稿では,無線通信における損失信号圧縮の問題に着想を得て,ニューラルネットワークのアクティベーションの定量化と符号化を行うBitwise Information Bottleneckアプローチを提案する。 ビットワイズ・インフォメーション・ボトルネック(Bitwise Information Bottleneck)は、レート歪み理論に基づいて、各ビットに関連するスパース係数を割り当て、近似することにより、アクティベーション表現の最も重要なビットを決定する。 限られた平均符号レートの制約を考えると、情報ボトルネックはフレキシブル層ごとに最適なアクティベーション量子化の速度歪みを最小化する。 ImageNetや他のデータセットに対する実験では、各層の量子化率歪みを最小限にすることで、情報ボトルネックを伴うニューラルネットワークは、低い精度のアクティベーションで最先端の精度を達成する。 一方,提案手法は,符号レートを下げることで,標準的な単精度表現を持つディープニューラルネットワークと比較して,メモリ効率と計算効率を6倍以上向上させることができる。 コードは、論文が{url{https://github.com/bitbottleneck/publiccode} で受け入れられた時点でgithubで入手できる。

Recent researches on information bottleneck shed new light on the continuous attempts to open the black box of neural signal encoding. Inspired by the problem of lossy signal compression for wireless communication, this paper presents a Bitwise Information Bottleneck approach for quantizing and encoding neural network activations. Based on the rate-distortion theory, the Bitwise Information Bottleneck attempts to determine the most significant bits in activation representation by assigning and approximating the sparse coefficient associated with each bit. Given the constraint of a limited average code rate, the information bottleneck minimizes the rate-distortion for optimal activation quantization in a flexible layer-by-layer manner. Experiments over ImageNet and other datasets show that, by minimizing the quantization rate-distortion of each layer, the neural network with information bottlenecks achieves the state-of-the-art accuracy with low-precision activation. Meanwhile, by reducing the code rate, the proposed method can improve the memory and computational efficiency by over six times compared with the deep neural network with standard single-precision representation. Codes will be available on GitHub when the paper is accepted \url{https://github.com/BitBottleneck/PublicCode}.
翻訳日:2022-11-23 15:13:06 公開日:2020-06-09
# 印刷デザインファイルを製品写真にマッチさせるハイブリッドフレームワーク

A Hybrid Framework for Matching Printing Design Files to Product Photos ( http://arxiv.org/abs/2006.05355v1 )

ライセンス: Link先を確認
Alper Kaplan and Erdem Akagunduz(参考訳) 提案するリアルタイム画像マッチングフレームワークは,高度に調整された深層畳み込みネットワークから得られる手作り特徴と深部特徴の両方を利用するという意味でハイブリッドである。 私たちが注目するマッチング問題は、特定のアプリケーション、すなわち、デザインを製品の写真マッチングに印刷することに特化しています。 印刷デザインはテンプレートイメージファイルの一種で、デザインツールを使って作成され、完璧な画像信号となる。 しかし、プリントされた製品の写真は、制御不能な撮影角度、制御不能な照明、オクルージョン、カラーの印刷欠陥、カメラノイズ、視界のぼやけなど、多くの望ましくない効果を被る。 この目的のために,実際の印刷設備の連携により,印刷設計と対応する製品写真対を含む画像セットを作成する。 この画像集合を用いて,様々な手作り・深度の特徴をベンチマークし,高いコントリビューションでディープラーニングを活用できるフレームワークを提案するが,通常のデスクトップコンピュータを用いたリアルタイム操作を無効にしない。

We propose a real-time image matching framework, which is hybrid in the sense that it uses both hand-crafted features and deep features obtained from a well-tuned deep convolutional network. The matching problem, which we concentrate on, is specific to a certain application, that is, printing design to product photo matching. Printing designs are any kind of template image files, created using a design tool, thus are perfect image signals. However, photographs of a printed product suffer many unwanted effects, such as uncontrolled shooting angle, uncontrolled illumination, occlusions, printing deficiencies in color, camera noise, optic blur, et cetera. For this purpose, we create an image set that includes printing design and corresponding product photo pairs with collaboration of an actual printing facility. Using this image set, we benchmark various hand-crafted and deep features for matching performance and propose a framework in which deep learning is utilized with highest contribution, but without disabling real-time operation using an ordinary desktop computer.
翻訳日:2022-11-23 15:12:17 公開日:2020-06-09
# AS-OCT配列のオープンナロー-シナカイ前室角分類

Open-Narrow-Synechiae Anterior Chamber Angle Classification in AS-OCT Sequences ( http://arxiv.org/abs/2006.05367v1 )

ライセンス: Link先を確認
Huaying Hao, Huazhu Fu, Yanwu Xu, Jianlong Yang, Fei Li, Xiulan Zhang, Jiang Liu, Yitian Zhao(参考訳) 前室角度(ACA)分類は、前部セグメント光コヒーレンス・トモグラフィ(AS-OCT)における角閉鎖緑内障の診断における重要なステップである。 既存の自動解析手法は、2次元AS-OCTスライスにおける二値分類システム(開角または閉角)に焦点を当てている。 しかし、臨床診断には、角閉鎖緑内障のスペクトルの進行をよりよく理解しようとする臨床医の利益のために、より差別的なAAA3クラスシステム(オープン、狭角、シナカイアアングル)が必要である。 そこで本研究では,as-oct系列に基づくオープンナロー・シネキエaca分類のための,新しい多スケールアグリゲーション深層ネットワーク(sma-net)を提案する。 本手法では,マルチスケール識別集約(MSDA)ブロックを用いてスライスレベルでのマルチスケール表現を学習し,コンブLSTMを用いてシーケンスレベルでの表現の時間的ダイナミクスについて検討する。 最後に、スライスベースとシーケンスベースの損失を組み合わせるために、マルチレベルロス関数が使用される。 提案手法は2つのAS-OCTデータセット間で評価される。 実験の結果,提案手法は適用性,有効性,精度において既存の最先端手法よりも優れていた。 この研究は、AS-OCT配列を用いてACAをオープン、狭、あるいはシナチア型に分類する最初の試みであると考えている。

Anterior chamber angle (ACA) classification is a key step in the diagnosis of angle-closure glaucoma in Anterior Segment Optical Coherence Tomography (AS-OCT). Existing automated analysis methods focus on a binary classification system (i.e., open angle or angle-closure) in a 2D AS-OCT slice. However, clinical diagnosis requires a more discriminating ACA three-class system (i.e., open, narrow, or synechiae angles) for the benefit of clinicians who seek better to understand the progression of the spectrum of angle-closure glaucoma types. To address this, we propose a novel sequence multi-scale aggregation deep network (SMA-Net) for open-narrow-synechiae ACA classification based on an AS-OCT sequence. In our method, a Multi-Scale Discriminative Aggregation (MSDA) block is utilized to learn the multi-scale representations at slice level, while a ConvLSTM is introduced to study the temporal dynamics of these representations at sequence level. Finally, a multi-level loss function is used to combine the slice-based and sequence-based losses. The proposed method is evaluated across two AS-OCT datasets. The experimental results show that the proposed method outperforms existing state-of-the-art methods in applicability, effectiveness, and accuracy. We believe this work to be the first attempt to classify ACAs into open, narrow, or synechia types grading using AS-OCT sequences.
翻訳日:2022-11-23 15:11:58 公開日:2020-06-09
# 勾配に基づく3次元クラウド特徴記述法

3D Point Cloud Feature Explanations Using Gradient-Based Methods ( http://arxiv.org/abs/2006.05548v1 )

ライセンス: Link先を確認
Ananya Gupta, Simon Watson, Hujun Yin(参考訳) 説明可能性(Explainability)は、物質的影響のあるタスクに対するニューラルネットワークの使用に対するユーザの信頼を促進する重要な要素である。 しかし,本研究の大部分は画像解析に重点を置いており,三次元データを考慮したものではない。 3dデータを扱うために、画像データに取り組むことが示されているサルリエンシーメソッドを拡張します。 点群とボクセル空間の特徴を分析し、3次元データのエッジとコーナーが重要な特徴と見なされ、平面面は重要でないことを示す。 このアプローチはモデルに依存しないものであり、学習機能に関する有用な情報を提供することができる。 3Dデータは本質的にスパースであるという洞察に基づいて、ボクセルベースの分類ネットワークによって学習された特徴を可視化し、これらの特徴もスパースであり、比較的容易に切断できることを示し、より効率的なニューラルネットワークをもたらす。 以上の結果から,Voxception-ResNetモデルではパラメータの5倍まで精度が低下する可能性が示唆された。

Explainability is an important factor to drive user trust in the use of neural networks for tasks with material impact. However, most of the work done in this area focuses on image analysis and does not take into account 3D data. We extend the saliency methods that have been shown to work on image data to deal with 3D data. We analyse the features in point clouds and voxel spaces and show that edges and corners in 3D data are deemed as important features while planar surfaces are deemed less important. The approach is model-agnostic and can provide useful information about learnt features. Driven by the insight that 3D data is inherently sparse, we visualise the features learnt by a voxel-based classification network and show that these features are also sparse and can be pruned relatively easily, leading to more efficient neural networks. Our results show that the Voxception-ResNet model can be pruned down to 5\% of its parameters with negligible loss in accuracy.
翻訳日:2022-11-23 15:11:33 公開日:2020-06-09
# 点密度と畳み込みニューラルネットワークを用いたLiDARデータのツリーアノテーション

Tree Annotations in LiDAR Data Using Point Densities and Convolutional Neural Networks ( http://arxiv.org/abs/2006.05560v1 )

ライセンス: Link先を確認
Ananya Gupta, Jonathan Byrne, David Moloney, Simon Watson, Hujun Yin(参考訳) LiDARは高精度な3Dポイントクラウドを提供する。 しかし、後続の有用な情報を提供するには、データを手動でラベル付けする必要がある。 このようなデータの手動アノテーションは, 時間を要する, 退屈で, エラーが多いため, 本論文では, 木をLiDARデータに注釈付けするための3つの自動手法を提案する。 最初の方法は高密度の点雲を必要とし、特定のlidarデータ属性をツリー識別のために使用し、90%の精度を達成する。 第2の方法は、低密度のLiDARデータセット上で、ボクセルベースの3D畳み込みニューラルネットワークを使用し、ほとんどの大きな木を正確に識別するが、ボクセル化プロセスのために小さな木と競合する。 第3の方法はPointNet++メソッドのスケールバージョンであり、アウトドアポイントクラウド上で直接動作し、ISPRSベンチマークデータセット上でF_scoreの82.1%を達成する。

LiDAR provides highly accurate 3D point clouds. However, data needs to be manually labelled in order to provide subsequent useful information. Manual annotation of such data is time consuming, tedious and error prone, and hence in this paper we present three automatic methods for annotating trees in LiDAR data. The first method requires high density point clouds and uses certain LiDAR data attributes for the purpose of tree identification, achieving almost 90% accuracy. The second method uses a voxel-based 3D Convolutional Neural Network on low density LiDAR datasets and is able to identify most large trees accurately but struggles with smaller ones due to the voxelisation process. The third method is a scaled version of the PointNet++ method and works directly on outdoor point clouds and achieves an F_score of 82.1% on the ISPRS benchmark dataset, comparable to the state-of-the-art methods but with increased efficiency.
翻訳日:2022-11-23 15:11:14 公開日:2020-06-09
# OAEI 2019のSANOM結果

SANOM Results for OAEI 2019 ( http://arxiv.org/abs/2006.05219v1 )

ライセンス: Link先を確認
Majid Mohammadi, Amir Ahooye Atashin, Wout Hofman, Yao-Hua Tan(参考訳) 模擬アニーリング型オントロジーマッチング(SANOM)は,OAEI 2019において,第2回オントロジーアライメント評価イニシアチブに参加する。 本稿では,SANOMの構成と,その成果を解剖学およびカンファレンストラックに記載する。 OAEI 2017と比較して、SANOMは大幅に改善され、その結果は最先端のシステムと競合する。 特に、SANOMはカンファレンストラックの参加システムの中で最も高いリコール率を持ち、F尺度の観点からは最高のパフォーマンスシステムであるAMLと競合する。 SANOMは解剖学のトラックでLogMapと競合するが、これは特定の医学的背景知識を使わずにこのトラックで最高のパフォーマンスのシステムである。 SANOMはHOBBIT platfromに適合しており、現在は登録ユーザー向けに提供されている。

Simulated annealing-based ontology matching (SANOM) participates for the second time at the ontology alignment evaluation initiative (OAEI) 2019. This paper contains the configuration of SANOM and its results on the anatomy and conference tracks. In comparison to the OAEI 2017, SANOM has improved significantly, and its results are competitive with the state-of-the-art systems. In particular, SANOM has the highest recall rate among the participated systems in the conference track, and is competitive with AML, the best performing system, in terms of F-measure. SANOM is also competitive with LogMap on the anatomy track, which is the best performing system in this track with no usage of particular biomedical background knowledge. SANOM has been adapted to the HOBBIT platfrom and is now available for the registered users.
翻訳日:2022-11-23 15:04:30 公開日:2020-06-09
# リモートセンシング画像のオブジェクト検出結果の改善は可能か?

Can Synthetic Data Improve Object Detection Results for Remote Sensing Images? ( http://arxiv.org/abs/2006.05015v1 )

ライセンス: Link先を確認
Weixing Liu, Jun Liu and Bin Luo(参考訳) ディープラーニングアプローチは十分なトレーニングサンプルを必要とするが、十分な実際のトレーニングデータを収集し、それらを手動でラベル付けすることは難しい。 本稿では, リモートセンシング画像の航空機検出性能を向上させるために, 広い分布を有する現実的な合成データの利用を提案する。 具体的には、合成データの変動性を高めるために、レンダリング中にインスタンスのサイズや背景画像のクラスなどのパラメータをランダムに設定する。 合成画像をよりリアルにするために,CycleGANと実際の未ラベル画像を用いて,画素レベルで合成画像を精査する。 また、精度を高めるために、少量の実データでモデルを微調整する。 NWPU VHR-10, UCAS-AOD, DIORデータセットを用いた実験により, 提案手法が不十分な実データの拡張に有効であることを実証した。

Deep learning approaches require enough training samples to perform well, but it is a challenge to collect enough real training data and label them manually. In this letter, we propose the use of realistic synthetic data with a wide distribution to improve the performance of remote sensing image aircraft detection. Specifically, to increase the variability of synthetic data, we randomly set the parameters during rendering, such as the size of the instance and the class of background images. In order to make the synthetic images more realistic, we then refine the synthetic images at the pixel level using CycleGAN with real unlabeled images. We also fine-tune the model with a small amount of real data, to obtain a higher accuracy. Experiments on NWPU VHR-10, UCAS-AOD and DIOR datasets demonstrate that the proposed method can be applied for augmenting insufficient real data.
翻訳日:2022-11-23 15:03:56 公開日:2020-06-09
# SEKD: 自己進化型キーポイント検出と記述

SEKD: Self-Evolving Keypoint Detection and Description ( http://arxiv.org/abs/2006.05077v1 )

ライセンス: Link先を確認
Yafei Song, Ling Cai, Jia Li, Yonghong Tian, Mingyang Li(参考訳) 研究者たちは、ディープニューラルネットワーク(DNN)を使用して、さまざまな視覚タスクで最近成功した画像から新しいローカル特徴を学習しようと試みている。 しかし、既存のDNNベースのアルゴリズムは、局所的特徴検出器とディスクリプタ間の対話的文字の利用が不十分なために、そのような顕著な進歩を達成できていない。 これらの困難を緩和するため,我々は,局所特徴検出器とディスクリプタの固有文字と対話文字を同時に要約するために,反復性と信頼性という2つの望ましい特性を強調した。 これらの特徴から自己教師付きフレームワークであるsekd(self-evolving keypoint detection and description)を提案し,ラベルなし自然画像から高度な局所特徴モデルを学ぶ。 加えて、パフォーマンスを保証するために、新しいトレーニング戦略は、学習された特徴とその特性の間のギャップを最小化するために特別に設計されている。 提案手法は,ホモグラフィ推定,相対ポーズ推定,運動間構造タスクのベンチマークを行う。 大規模な実験結果から,提案手法は手作り工法やDNN法を顕著なマージンで上回る結果を得た。 アブレーション研究はまた、各クリティカルトレーニング戦略の有効性を検証する。 トレーニングされたモデルとともにコードを公開します。

Researchers have attempted utilizing deep neural network (DNN) to learn novel local features from images inspired by its recent successes on a variety of vision tasks. However, existing DNN-based algorithms have not achieved such remarkable progress that could be partly attributed to insufficient utilization of the interactive characters between local feature detector and descriptor. To alleviate these difficulties, we emphasize two desired properties, i.e., repeatability and reliability, to simultaneously summarize the inherent and interactive characters of local feature detector and descriptor. Guided by these properties, a self-supervised framework, namely self-evolving keypoint detection and description (SEKD), is proposed to learn an advanced local feature model from unlabeled natural images. Additionally, to have performance guarantees, novel training strategies have also been dedicatedly designed to minimize the gap between the learned feature and its properties. We benchmark the proposed method on homography estimation, relative pose estimation, and structure-from-motion tasks. Extensive experimental results demonstrate that the proposed method outperforms popular hand-crafted and DNN-based methods by remarkable margins. Ablation studies also verify the effectiveness of each critical training strategy. We will release our code along with the trained model publicly.
翻訳日:2022-11-23 15:03:08 公開日:2020-06-09
# PNL: 動作認識のためのピラミッド非局所モジュールを用いた効率的な長距離依存性抽出

PNL: Efficient Long-Range Dependencies Extraction with Pyramid Non-Local Module for Action Recognition ( http://arxiv.org/abs/2006.05091v1 )

ライセンス: Link先を確認
Yuecong Xu, Haozhi Cao, Jianfei Yang, Kezhi Mao, Jianxiong Yin and Simon See(参考訳) 長時間の時空間依存性のキャプチャは、アクション認識のためのビデオ機能の改善に不可欠である。 非局所的手法に触発された非局所的ブロックは、この課題に対処するために設計され、優れた性能を示している。 しかし、非ローカルブロックは元のネットワークに計算コストを大幅に増加させる。 また、ビデオの地域相関をモデル化する能力も欠如している。 上記の制限に対処するため、ピラミッド構造モジュールを介して複数のスケールで局所相関を組み込んで非局所ブロックを拡張するピラミッド非局所(PNL)モジュールを提案する。 この拡張は、異なる領域間の相互作用に対応することによって、非ローカル操作の有効性を高める。 実験によりPNLモジュールの有効性と効率を実証し,Mini-Kineticsデータセット上で83.09%の最先端性能を実現し,非局所ブロックと比較して計算コストを削減した。

Long-range spatiotemporal dependencies capturing plays an essential role in improving video features for action recognition. The non-local block inspired by the non-local means is designed to address this challenge and have shown excellent performance. However, the non-local block brings significant increase in computation cost to the original network. It also lacks the ability to model regional correlation in videos. To address the above limitations, we propose Pyramid Non-Local (PNL) module, which extends the non-local block by incorporating regional correlation at multiple scales through a pyramid structured module. This extension upscales the effectiveness of non-local operation by attending to the interaction between different regions. Empirical results prove the effectiveness and efficiency of our PNL module, which achieves state-of-the-art performance of 83.09% on the Mini-Kinetics dataset, with decreased computation cost compared to the non-local block.
翻訳日:2022-11-23 15:02:46 公開日:2020-06-09
# 過密性アラート! 今後の人口分布予測

Over-crowdedness Alert! Forecasting the Future Crowd Distribution ( http://arxiv.org/abs/2006.05127v1 )

ライセンス: Link先を確認
Yuzhen Niu, Weifeng Shi, Wenxi Liu, Shengfeng He, Jia Pan, Antoni B. Chan(参考訳) 近年,実世界における実用的応用により,視覚に基づく群集分析が広く研究されている。 そこで,本稿では,群衆映像の逐次フレームに対して,個人識別を必要とせず,近い将来の群衆分布を予測することを目的とした,新しい群集分析問題を提案する。 本研究は,観衆の動態を予測するアプリケーションに有効である。 この問題を解決するために, 連続する群集映像フレームを入力とし, 対応する密度マップを補助情報として利用し, 将来の群集分布を予測するグローバルな2ストリームリカレントネットワークを提案する。 さらに,ネットワークの能力を高めるため,事前学習のためのシミュレーションデータを用いて,シーン特異的群集密度マップを合成する。 最後に,本フレームワークは,様々な群集シナリオの群集分布を予測できることを示すとともに,将来の群集数予測や高密度領域の予測などのアプリケーションについても検討する。

In recent years, vision-based crowd analysis has been studied extensively due to its practical applications in real world. In this paper, we formulate a novel crowd analysis problem, in which we aim to predict the crowd distribution in the near future given sequential frames of a crowd video without any identity annotations. Studying this research problem will benefit applications concerned with forecasting crowd dynamics. To solve this problem, we propose a global-residual two-stream recurrent network, which leverages the consecutive crowd video frames as inputs and their corresponding density maps as auxiliary information to predict the future crowd distribution. Moreover, to strengthen the capability of our network, we synthesize scene-specific crowd density maps using simulated data for pretraining. Finally, we demonstrate that our framework is able to predict the crowd distribution for different crowd scenarios and we delve into applications including predicting future crowd count, forecasting high-density region, etc.
翻訳日:2022-11-23 15:02:04 公開日:2020-06-09
# 無線地図を用いたリアルタイム位置推定

Real-time Localization Using Radio Maps ( http://arxiv.org/abs/2006.05397v1 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 本稿では,密集した都市シナリオにおけるセルネットワークの局在の問題を扱う。 地球航法衛星システムは通常、デバイスと衛星の間に視線がない都市環境では性能が良くないため、代替のローカライゼーション法が必要とされることが多い。 パスロスに基づく簡易かつ効果的な局所化法を提案する。 提案手法では, 受信した信号強度を, 既知の位置を持つ基地局の集合から報告する。 各基地局は,都市環境におけるパスロス関数の効率的な深層学習シミュレータであるRadioUNetが提供した地図内の各位置のパスロスの近似を,レイトレーシングと類似して良好に行う。 全ての基地局のパスロス関数の近似と報告された信号強度を用いて、ユーザの位置の非常に正確な近似を抽出することができる。

This paper deals with the problem of localization in a cellular network in a dense urban scenario. Global Navigation Satellite System typically performs poorly in urban environments when there is no line-of-sight between the devices and the satellites, and thus alternative localization methods are often required. We present a simple yet effective method for localization based on pathloss. In our approach, the user to be localized reports the received signal strength from a set of base stations with known locations. For each base station we have a good approximation of the pathloss at each location in the map, provided by RadioUNet, an efficient deep learning-based simulator of pathloss functions in urban environment, akin to ray-tracing. Using the approximations of the pathloss functions of all base stations and the reported signal strengths, we are able to extract a very accurate approximation of the location of the user.
翻訳日:2022-11-23 14:54:54 公開日:2020-06-09
# 有効注意を用いたユニバーサルベクトルニューラルマシン翻訳

Universal Vector Neural Machine Translation With Effective Attention ( http://arxiv.org/abs/2006.05003v1 )

ライセンス: Link先を確認
Satish Mylapore, Ryan Quincy Paul, Joshua Yi, and Robert D. Slater(参考訳) neural machine translation (nmt) は1つ以上の訓練されたニューラルネットワークを利用してフレーズの翻訳を行う。 Sutskeverはシーケンスベースのエンコーダデコーダモデルを導入し、NMTベースのシステムの標準となった。 その後、長文の翻訳の問題に対処し、全体的な精度を向上させるために注意機構が導入された。 本稿では,エンコーダ・デコーダモデルに基づくニューラルネットワーク翻訳のための特異モデルを提案する。 ほとんどの翻訳モデルは1つの翻訳のために1つのモデルとして訓練される。 我々は、ソースと提供されたターゲットによって複数の言語を予測するために使用できる中性/普遍的なモデル表現を導入する。 次に,乗法モデルに全体学習ベクトルを追加することにより,注意モデルを導入する。 これら2つの変更により、斬新なユニバーサルモデルを用いることで、複数の言語翻訳アプリケーションに必要なモデル数が削減される。

Neural Machine Translation (NMT) leverages one or more trained neural networks for the translation of phrases. Sutskever introduced a sequence to sequence based encoder-decoder model which became the standard for NMT based systems. Attention mechanisms were later introduced to address the issues with the translation of long sentences and improving overall accuracy. In this paper, we propose a singular model for Neural Machine Translation based on encoder-decoder models. Most translation models are trained as one model for one translation. We introduce a neutral/universal model representation that can be used to predict more than one language depending on the source and a provided target. Secondly, we introduce an attention model by adding an overall learning vector to the multiplicative model. With these two changes, by using the novel universal model the number of models needed for multiple language translation applications are reduced.
翻訳日:2022-11-23 14:54:41 公開日:2020-06-09
# 非自己回帰型ニューラルマシン翻訳におけるマルチモダリティ誤りから回復する学習

Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2006.05165v1 )

ライセンス: Link先を確認
Qiu Ran, Yankai Lin, Peng Li, Jie Zhou(参考訳) non-autoregressive neural machine translation(nat)は、ターゲットシーケンス全体を同時に予測し、推論プロセスを著しく加速する。 しかし、NATは文中の依存情報を破棄するので、必然的にマルチモダリティの問題に悩まされる: ターゲットトークンは異なる可能な翻訳によって提供され、しばしばトークンの繰り返しや欠落を引き起こす。 この問題を軽減するために,本研究では,セグメントのシーケンスとして変換を生成する半自己回帰モデルRecoverSATを提案する。 セグメントは同時に生成され、各セグメントはトークンごとに予測される。 セグメントの長さを動的に決定し、繰り返しセグメントを削除することで、RecoverSATは繰り返しおよび欠落したトークンエラーから回復することができる。 3つのベンチマークデータセットにおける実験結果から,提案モデルが自己回帰モデルと同等の性能を維持しつつ,4$\times$ speedupを達成できることが判明した。

Non-autoregressive neural machine translation (NAT) predicts the entire target sequence simultaneously and significantly accelerates inference process. However, NAT discards the dependency information in a sentence, and thus inevitably suffers from the multi-modality problem: the target tokens may be provided by different possible translations, often causing token repetitions or missing. To alleviate this problem, we propose a novel semi-autoregressive model RecoverSAT in this work, which generates a translation as a sequence of segments. The segments are generated simultaneously while each segment is predicted token-by-token. By dynamically determining segment length and deleting repetitive segments, RecoverSAT is capable of recovering from repetitive and missing token errors. Experimental results on three widely-used benchmark datasets show that our proposed model achieves more than 4$\times$ speedup while maintaining comparable performance compared with the corresponding autoregressive model.
翻訳日:2022-11-23 14:54:29 公開日:2020-06-09
# 知識支援オープンドメイン質問応答

Knowledge-Aided Open-Domain Question Answering ( http://arxiv.org/abs/2006.05244v1 )

ライセンス: Link先を確認
Mantong Zhou, Zhouxing Shi, Minlie Huang, Xiaoyan Zhu(参考訳) オープンドメイン質問応答 (QA) は, 大量の文書から質問に対する回答を見つけることを目的としており, シングルドキュメントマシン理解のモデルが多く, 高い性能を達成しているにもかかわらず, 文書検索と回答のランク付けがまだ不十分であるため, オープンドメインQAシステムを改善する余地がまだたくさんある。 正しい回答を含むゴールデン文書は、検索コンポーネントによって正しくスコア付けされず、抽出された正しい回答は、再ランキングコンポーネントによって他の候補回答の後に誤ってランク付けされる可能性がある。 理由の1つは、各候補文書(または回答)が他の文書(または回答)との関係を考慮せずに独立して得点される独立原理に由来する。 本研究では,質問文と文書(質問文書グラフ)の関係と候補文書(文書文書グラフ)の関係を考慮し,関連文書検索と候補回答の再評価を改善するための知識支援型オープンドメインQA(KAQA)手法を提案する。 グラフは外部の知識リソースから3倍の知識を使って構築される。 文書検索中、質問やその他の文書との関係を考慮して候補文書を得点する。 回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。 実験の結果,提案手法は文書検索と回答の再ランキングを改善し,オープンドメイン質問応答の総合的性能を向上させることがわかった。

Open-domain question answering (QA) aims to find the answer to a question from a large collection of documents.Though many models for single-document machine comprehension have achieved strong performance, there is still much room for improving open-domain QA systems since document retrieval and answer reranking are still unsatisfactory. Golden documents that contain the correct answers may not be correctly scored by the retrieval component, and the correct answers that have been extracted may be wrongly ranked after other candidate answers by the reranking component. One of the reasons is derived from the independent principle in which each candidate document (or answer) is scored independently without considering its relationship to other documents (or answers). In this work, we propose a knowledge-aided open-domain QA (KAQA) method which targets at improving relevant document retrieval and candidate answer reranking by considering the relationship between a question and the documents (termed as question-document graph), and the relationship between candidate documents (termed as document-document graph). The graphs are built using knowledge triples from external knowledge resources. During document retrieval, a candidate document is scored by considering its relationship to the question and other documents. During answer reranking, a candidate answer is reranked using not only its own context but also the clues from other documents. The experimental results show that our proposed method improves document retrieval and answer reranking, and thereby enhances the overall performance of open-domain question answering.
翻訳日:2022-11-23 14:54:14 公開日:2020-06-09
# 低資源言語対のための拡張翻訳技術:サンスクリットからヒンディー語への翻訳

An Augmented Translation Technique for low Resource language pair: Sanskrit to Hindi translation ( http://arxiv.org/abs/2006.08332v1 )

ライセンス: Link先を確認
Rashi Kumar and Piyush Jha and Vineet Sahula(参考訳) ニューラル・マシーン・トランスレーション(Neural Machine Translation, NMT)は, 巨大な人工ニューラルネットワークを用いた機械翻訳(MT)技術である。 有望な成果を示し、挑戦的な機械翻訳演習の解決に素晴らしい可能性を示している。 そのようなエクササイズの1つは、ちょっとした準備情報のある言語セットに優れたMTを提供するための最良のアプローチです。 本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。 ベンチマークが利用可能な高リソース言語ペア、すなわちスペイン語からポルトガル語、データセット(スペイン語と英語とポルトガル語)のトレーニングを行うことで、利用可能なデータに対して適切な結果を与えるZSTシステムの証明状態を作成する。 その後、サンスクリット語からヒンディー語への翻訳で同じアーキテクチャがテストされ、アングロ・ヒンディー語とサンスクリット・英語のペアでモデルを訓練する。 そこで我々は,ZSTシステムを用いて,NMT seq2seqモデルの準備と解釈パイプラインをテンソルフローで拡張し,ZST特徴を取り入れた。 データストレージのメモリ使用量を削減し、より高速なトレーニングおよび翻訳サイクルを実現するため、単語埋め込みの次元化を行う。 本研究では,サンスクリットからヒンディー語への翻訳において,既存の有用な技術を用いてNLP問題を実行する。 Sanskrit-Hindi並列コーパス300がテストのために構築されている。 パラレルコーパスの構築に必要なデータは、インドのマディヤ・プラデーシュ州政府公共情報部(英語版)のウェブサイトで公表されたテレビ放送されたニュースから取られた。

Neural Machine Translation (NMT) is an ongoing technique for Machine Translation (MT) using enormous artificial neural network. It has exhibited promising outcomes and has shown incredible potential in solving challenging machine translation exercises. One such exercise is the best approach to furnish great MT to language sets with a little preparing information. In this work, Zero Shot Translation (ZST) is inspected for a low resource language pair. By working on high resource language pairs for which benchmarks are available, namely Spanish to Portuguese, and training on data sets (Spanish-English and English-Portuguese) we prepare a state of proof for ZST system that gives appropriate results on the available data. Subsequently the same architecture is tested for Sanskrit to Hindi translation for which data is sparse, by training the model on English-Hindi and Sanskrit-English language pairs. In order to prepare and decipher with ZST system, we broaden the preparation and interpretation pipelines of NMT seq2seq model in tensorflow, incorporating ZST features. Dimensionality reduction of word embedding is performed to reduce the memory usage for data storage and to achieve a faster training and translation cycles. In this work existing helpful technology has been utilized in an imaginative manner to execute our NLP issue of Sanskrit to Hindi translation. A Sanskrit-Hindi parallel corpus of 300 is constructed for testing. The data required for the construction of parallel corpus has been taken from the telecasted news, published on Department of Public Information, state government of Madhya Pradesh, India website.
翻訳日:2022-11-23 14:53:23 公開日:2020-06-09
# ct画像を用いた深層学習によるcovid-19肺炎肺感染領域の身体的比率の推定

Deep learning to estimate the physical proportion of infected region of lung for COVID-19 pneumonia with CT image set ( http://arxiv.org/abs/2006.05018v1 )

ライセンス: Link先を確認
Wei Wu, Yu Shi, Xukun Li, Yukun Zhou, Peng Du, Shuangzhi Lv, Tingbo Liang, Jifang Sheng(参考訳) ct画像を用いてcovid-19患者の重症度を迅速に推定することは、最も単純で効果的である。 本論文では2つの課題について検討した。 一つは、肺炎の場合、無傷の肺のマスクを分割することであった。 もうひとつは、新型コロナウイルスに感染した地域のマスクを作ることだった。 これらの2つの画像のマスクは、肺の感染領域の物理的割合を計算するために対応するボリュームに変換された。 129枚のCT画像が収集され,研究された。 CT画像の内在性ハウンズファイリング値を用いて,無傷および感染部位の両方にラベル付きマスクの初期汚れ版を生成した。 そして、サンプルを慎重に調整し、2人のプロの放射線技師が最終トレーニングセットとテストベンチマークを生成するように改善した。 UNetと2.5D UNetの2つのディープラーニングモデルが評価された。 感染領域の区分について, 深層学習に基づく分類器を用いて, エアチューブや血管組織など, 誤って区切られた無関係なぼやけ領域を除去した。 有毒肺および感染領域の分別マスクについては, 試験基準で平均ダイス類似度係数で0.972, 0.757 測定が可能であった。 肺の感染領域全体の比率として、最終結果は0.961(ピアソンの相関係数)と11.7%(絶対誤差)であった。 肺感染領域の瞬時の割合は、臨床医師が患者の重症度を判断するのに役立つ視覚的な証拠として使用できる。 さらに、感染地域を定量化した報告は、治療サイクル内で定期的にスキャンされた新型コロナウイルス患者の予後を予測するのに役立つ。

Utilizing computed tomography (CT) images to quickly estimate the severity of cases with COVID-19 is one of the most straightforward and efficacious methods. Two tasks were studied in this present paper. One was to segment the mask of intact lung in case of pneumonia. Another was to generate the masks of regions infected by COVID-19. The masks of these two parts of images then were converted to corresponding volumes to calculate the physical proportion of infected region of lung. A total of 129 CT image set were herein collected and studied. The intrinsic Hounsfiled value of CT images was firstly utilized to generate the initial dirty version of labeled masks both for intact lung and infected regions. Then, the samples were carefully adjusted and improved by two professional radiologists to generate the final training set and test benchmark. Two deep learning models were evaluated: UNet and 2.5D UNet. For the segment of infected regions, a deep learning based classifier was followed to remove unrelated blur-edged regions that were wrongly segmented out such as air tube and blood vessel tissue etc. For the segmented masks of intact lung and infected regions, the best method could achieve 0.972 and 0.757 measure in mean Dice similarity coefficient on our test benchmark. As the overall proportion of infected region of lung, the final result showed 0.961 (Pearson's correlation coefficient) and 11.7% (mean absolute percent error). The instant proportion of infected regions of lung could be used as a visual evidence to assist clinical physician to determine the severity of the case. Furthermore, a quantified report of infected regions can help predict the prognosis for COVID-19 cases which were scanned periodically within the treatment cycle.
翻訳日:2022-11-23 14:48:01 公開日:2020-06-09
# グリオーマ分節に対する多段階注意-GANを用いた高組織コントラストMRI合成

High Tissue Contrast MRI Synthesis Using Multi-Stage Attention-GAN for Glioma Segmentation ( http://arxiv.org/abs/2006.05030v1 )

ライセンス: Link先を確認
Mohammad Hamghalam, Baiying Lei, Tianfu Wang(参考訳) 磁気共鳴イメージング(mri)は、強い磁場に基づいて内部臓器の様々な組織コントラスト画像を提供する。 頻繁な画像撮影におけるMRIの非侵襲的優位性にもかかわらず、目標領域の低コントラストMRI画像は、組織分節化を困難な問題にしている。 本稿では,合成ハイティティッシュコントラスト(htc)画像を生成するための画像から画像への変換技術の可能性を示す。 特に,基礎組織内のコントラストを増大させるための注意機構を備えた,新しいサイクル生成逆向ネットワーク(cyclegan)を採用する。 注意ブロックとHTCイメージのトレーニングは、モデルを特定の組織に収束させるためのガイドとなります。 HTC画像の解像度を高めるために、我々は多段階のアーキテクチャを用いて、1つの特定の組織を前景とし、各ステージの無関係な背景をフィルタリングする。 この多段構造は、ソース領域とターゲット領域の間のギャップを小さくすることで合成画像の共通のアーティファクトを緩和する。 グリオーマ腫瘍を含む脳MRスキャンにおけるHTC像の合成法について述べる。 また,HTC MR画像をエンド・ツー・エンドと2段階のセグメンテーション構造に応用し,これらの画像の有効性を確認する。 BraTS 2018データセット上の3つの競合セグメンテーションベースラインに関する実験は、多モードセグメンテーションフレームワークに合成HTCイメージを組み込むことで、腫瘍全体、腫瘍コア、造影腫瘍の平均Diceスコアが0.8%、0.6%、0.5%向上し、セグメンテーション手順から1つのMRIシーケンスを排除したことを示している。

Magnetic resonance imaging (MRI) provides varying tissue contrast images of internal organs based on a strong magnetic field. Despite the non-invasive advantage of MRI in frequent imaging, the low contrast MR images in the target area make tissue segmentation a challenging problem. This paper demonstrates the potential benefits of image-to-image translation techniques to generate synthetic high tissue contrast (HTC) images. Notably, we adopt a new cycle generative adversarial network (CycleGAN) with an attention mechanism to increase the contrast within underlying tissues. The attention block, as well as training on HTC images, guides our model to converge on certain tissues. To increase the resolution of HTC images, we employ multi-stage architecture to focus on one particular tissue as a foreground and filter out the irrelevant background in each stage. This multi-stage structure also alleviates the common artifacts of the synthetic images by decreasing the gap between source and target domains. We show the application of our method for synthesizing HTC images on brain MR scans, including glioma tumor. We also employ HTC MR images in both the end-to-end and two-stage segmentation structure to confirm the effectiveness of these images. The experiments over three competitive segmentation baselines on BraTS 2018 dataset indicate that incorporating the synthetic HTC images in the multi-modal segmentation framework improves the average Dice scores 0.8%, 0.6%, and 0.5% on the whole tumor, tumor core, and enhancing tumor, respectively, while eliminating one real MRI sequence from the segmentation procedure.
翻訳日:2022-11-23 14:47:37 公開日:2020-06-09
# 生成型adversarial network: variants, applications, and trainingに関する調査研究

A Survey on Generative Adversarial Networks: Variants, Applications, and Training ( http://arxiv.org/abs/2006.05132v1 )

ライセンス: Link先を確認
Abdul Jabbar, Xi Li, and Bourahla Omar(参考訳) 生成モデルはその卓越したデータ生成能力のために、GAN(Generative Adversarial Networks)と呼ばれる新しい実践的なフレームワークを通じて教師なし学習の分野で大きな注目を集めている。 GANの多くのモデルが提案され、コンピュータビジョンと機械学習の様々な領域にいくつかの実用的な応用が現れた。 ganの優れた成功にもかかわらず、安定したトレーニングにはまだ障害がある。 問題は、nash平衡、内部共変量シフト、モード崩壊、勾配の消失、適切な評価指標の欠如によるものである。 したがって、安定したトレーニングは、GANの成功のために異なるアプリケーションにおいて重要な問題である。 本稿では,ganトレーニングの安定化のために異なる研究者が提案するトレーニングソリューションについて検討する。 我々は,(I)オリジナルのGANモデルとその修正された古典版,(II)異なる領域における様々なGANアプリケーションの詳細解析,(III)各種GANトレーニング障害とトレーニングソリューションに関する詳細な研究を行った。 最後に、いくつかの新しい問題と、そのトピックに関する研究概要について論じる。

The Generative Models have gained considerable attention in the field of unsupervised learning via a new and practical framework called Generative Adversarial Networks (GAN) due to its outstanding data generation capability. Many models of GAN have proposed, and several practical applications emerged in various domains of computer vision and machine learning. Despite GAN's excellent success, there are still obstacles to stable training. The problems are due to Nash-equilibrium, internal covariate shift, mode collapse, vanishing gradient, and lack of proper evaluation metrics. Therefore, stable training is a crucial issue in different applications for the success of GAN. Herein, we survey several training solutions proposed by different researchers to stabilize GAN training. We survey, (I) the original GAN model and its modified classical versions, (II) detail analysis of various GAN applications in different domains, (III) detail study about the various GAN training obstacles as well as training solutions. Finally, we discuss several new issues as well as research outlines to the topic.
翻訳日:2022-11-23 14:46:44 公開日:2020-06-09
# オフザシェルフセンサー対実験レーダー -- 自動車レーダーの分類にどの程度の解像度が必要か?

Off-the-shelf sensor vs. experimental radar -- How much resolution is necessary in automotive radar classification? ( http://arxiv.org/abs/2006.05485v1 )

ライセンス: Link先を確認
Nicolas Scheiner, Ole Schumann, Florian Kraus, Nils Appenrodt, J\"urgen Dickmann, Bernhard Sick(参考訳) レーダベースの道路ユーザ検出は、自動運転アプリケーションにおいて重要なトピックである。 従来の自動車レーダセンサの解像度は、その後の信号処理において洗練が難しいスパースデータ表現をもたらす。 一方、新しいセンサー生成は、この困難な分野での応用を翼の中で待っている。 本稿では、異なるレーダ世代の2つのセンサを互いに比較評価する。 評価基準は移動道路利用者の物体検出および分類タスクにおける性能である。 この目的のために、市販のレーダと高解像度次世代レーダの2つのデータセットを比較する。 比較するために、2つのデータセットの組み立て方法に特に注意が払われている。 使用されるオブジェクト検出器は、クラスタリングアルゴリズム、特徴抽出モジュール、および分類のための再帰ニューラルネットワークアンサンブルからなる。 評価のために、すべてのコンポーネントは個別に、そして、初めて、全体として評価されます。 これにより、全体的なパフォーマンス改善がパイプラインに起源を持つ場所を示すことができる。 さらに,両データセットの一般化能力を評価し,レーダ物体検出のための重要な比較指標について論じる。 結果は次世代レーダーの利点を明確に示している。 興味深いことに、これらのメリットは、分類段階でのパフォーマンス向上のためではなく、クラスタリングステージでの大幅な改善によるものだ。

Radar-based road user detection is an important topic in the context of autonomous driving applications. The resolution of conventional automotive radar sensors results in a sparse data representation which is tough to refine during subsequent signal processing. On the other hand, a new sensor generation is waiting in the wings for its application in this challenging field. In this article, two sensors of different radar generations are evaluated against each other. The evaluation criterion is the performance on moving road user object detection and classification tasks. To this end, two data sets originating from an off-the-shelf radar and a high resolution next generation radar are compared. Special attention is given on how the two data sets are assembled in order to make them comparable. The utilized object detector consists of a clustering algorithm, a feature extraction module, and a recurrent neural network ensemble for classification. For the assessment, all components are evaluated both individually and, for the first time, as a whole. This allows for indicating where overall performance improvements have their origin in the pipeline. Furthermore, the generalization capabilities of both data sets are evaluated and important comparison metrics for automotive radar object detection are discussed. Results show clear benefits of the next generation radar. Interestingly, those benefits do not actually occur due to better performance at the classification stage, but rather because of the vast improvements at the clustering stage.
翻訳日:2022-11-23 14:45:13 公開日:2020-06-09
# 深層学習による時系列構造摂動の検出

Detecting structural perturbations from time series with deep learning ( http://arxiv.org/abs/2006.05232v1 )

ライセンス: Link先を確認
Edward Laurence, Charles Murphy, Guillaume St-Onge, Xavier Roy-Pomerleau, and Vincent Thibeault(参考訳) 小さな障害は複雑なシステムで機能不全を引き起こす可能性がある。 難しい課題は、ネットワーク化されたシステムにおける障害の構造的原因を推測することであり、すぐに大惨事を防ぐのに十分である。 本稿では,関数時系列から構造的摂動を推定するために,ディープラーニングパラダイムから借用したグラフニューラルネットワークアプローチを提案する。 ベイズ推定の精度を満たしながら,データ駆動アプローチが典型的な再構成手法よりも優れていることを示す。 各種ネットワーク構造(ランダムネットワーク,スケールフリーネットワーク,25のリアル食品ウェブシステム,C.エレガンスコネクトーム)において,感染拡大,人口動態,ニューラルダイナミクスによるアプローチの有効性と性能を検証した。 さらに,当社のアプローチがデータ破損に対して堅牢であることも報告した。 この研究は、現実世界の複雑なシステムのレジリエンスを研究するための実践的な方法を明らかにする。

Small disturbances can trigger functional breakdowns in complex systems. A challenging task is to infer the structural cause of a disturbance in a networked system, soon enough to prevent a catastrophe. We present a graph neural network approach, borrowed from the deep learning paradigm, to infer structural perturbations from functional time series. We show our data-driven approach outperforms typical reconstruction methods while meeting the accuracy of Bayesian inference. We validate the versatility and performance of our approach with epidemic spreading, population dynamics, and neural dynamics, on various network structures: random networks, scale-free networks, 25 real food-web systems, and the C. Elegans connectome. Moreover, we report that our approach is robust to data corruption. This work uncovers a practical avenue to study the resilience of real-world complex systems.
翻訳日:2022-11-23 14:38:29 公開日:2020-06-09
# ニューラルアテンションプロセスを用いた費用対効果インタラクティブアテンション学習

Cost-effective Interactive Attention Learning with Neural Attention Processes ( http://arxiv.org/abs/2006.05419v1 )

ライセンス: Link先を確認
Jay Heo, Junhyeon Park, Hyewon Jeong, Kwang Joon Kim, Juho Lee, Eunho Yang, Sung Ju Hwang(参考訳) 本稿では,人間監督者が対象の注意を対話的に操作する対話型注意学習(ial)と呼ばれる新しい対話型学習フレームワークを提案し,注意生成ネットワークの更新によるモデルの行動の修正を行う。 しかし、このようなモデルは人的アノテーションの不足により過度に適合しがちであり、コストのかかる再訓練が必要となる。 また,人間のアノテータが大量の事例や特徴に注意を向けることはほとんど不可能である。 これらの課題に対して,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案する。 まず,ニューラルアテンションプロセス(NAP, Neural Attention Process)を提案する。 第2に、モデルが人間からのフィードバックを最小限に抑えて大きな改善をもたらすことができるように、負の影響によってインスタンスと特徴を優先順位付けするアルゴリズムを提案する。 複数のドメイン(医療、不動産、コンピュータビジョン)の時系列データセットにおいて、従来の注意機構によりベースラインを大幅に上回っているか、あるいはコスト効率の低い再ランクで、トレーニングや人-モデルの相互作用コストを大幅に低減している。

We propose a novel interactive learning framework which we refer to as Interactive Attention Learning (IAL), in which the human supervisors interactively manipulate the allocated attentions, to correct the model's behavior by updating the attention-generating network. However, such a model is prone to overfitting due to scarcity of human annotations, and requires costly retraining. Moreover, it is almost infeasible for the human annotators to examine attentions on tons of instances and features. We tackle these challenges by proposing a sample-efficient attention mechanism and a cost-effective reranking algorithm for instances and features. First, we propose Neural Attention Process (NAP), which is an attention generator that can update its behavior by incorporating new attention-level supervisions without any retraining. Secondly, we propose an algorithm which prioritizes the instances and the features by their negative impacts, such that the model can yield large improvements with minimal human feedback. We validate IAL on various time-series datasets from multiple domains (healthcare, real-estate, and computer vision) on which it significantly outperforms baselines with conventional attention mechanisms, or without cost-effective reranking, with substantially less retraining and human-model interaction cost.
翻訳日:2022-11-23 14:38:16 公開日:2020-06-09
# 明示的な勾配学習

Explicit Gradient Learning ( http://arxiv.org/abs/2006.08711v1 )

ライセンス: Link先を確認
Mor Sinay, Elad Sarafian, Yoram Louzoun, Noa Agmon, Sarit Kraus(参考訳) Black-Box Optimization (BBO) メソッドは、解析的表現のない複雑な環境と相互作用するシステムに対して最適なポリシーを見つけることができる。 そのため、多くの人工知能(AI)分野に関心を持っている。 しかし、古典的BBO法は高次元の非凸問題では不足する。 そのため、現実世界のAIタスクでは見過ごされることが多い。 本稿では,高次元不動関数の最適化を目的としたBBO法であるExplicit Gradient Learning(EGL)を提案する。 目的関数にパラメトリックニューラルネットワーク(NN)モデルで適合する手法の弱い点を見つけ,パラメトリック勾配を計算することで勾配信号を得る。 関数を適合させる代わりに、EGLは目標勾配を直接推定するためにNNを訓練する。 凸最適化におけるeglの収束と可積分関数の最適化における強固性を証明する。 本研究では,(1)標準BBO方式の代替品に対するCOCOテストスイート,(2)高次元非凸画像生成タスクにおいて,EGLを評価し,最先端の課題に対処する。

Black-Box Optimization (BBO) methods can find optimal policies for systems that interact with complex environments with no analytical representation. As such, they are of interest in many Artificial Intelligence (AI) domains. Yet classical BBO methods fall short in high-dimensional non-convex problems. They are thus often overlooked in real-world AI tasks. Here we present a BBO method, termed Explicit Gradient Learning (EGL), that is designed to optimize high-dimensional ill-behaved functions. We derive EGL by finding weak-spots in methods that fit the objective function with a parametric Neural Network (NN) model and obtain the gradient signal by calculating the parametric gradient. Instead of fitting the function, EGL trains a NN to estimate the objective gradient directly. We prove the convergence of EGL in convex optimization and its robustness in the optimization of integrable functions. We evaluate EGL and achieve state-of-the-art results in two challenging problems: (1) the COCO test suite against an assortment of standard BBO methods; and (2) in a high-dimensional non-convex image generation task.
翻訳日:2022-11-23 14:36:09 公開日:2020-06-09
# 方向性多変量ランキング

Directional Multivariate Ranking ( http://arxiv.org/abs/2006.09978v1 )

ライセンス: Link先を確認
Nan Wang, Hongning Wang(参考訳) ユーザが提供するマルチアスペクト評価は、推奨項目に対するユーザの詳細なフィードバックを示し、好みのきめ細かい理解を可能にする。 大規模な研究により、そのようなデータのモデリングは推奨の有効性と説明可能性を大幅に改善することが示された。 しかし、ランク付けは推奨に欠かせないため、様々な面で複数の項目をまとめてランク付けするための原則的な解決策はまだ存在しない。 本研究では,多面的な項目の総合的なランク付けを可能にする指向性多面的ランキング基準を提案する。 具体的には,マルチアスペクト評価を,アスペクトに対する好みのベクトルを形成するユーザによる統合的な取り組みとみなす。 我々の重要な洞察は、2つの多重スペクトルの選好ベクトル間の差ベクトルの方向が対方向に比較の順序を示すことである。 したがって、このようなペア比較から観測方向を保存するためには、多視点ランキング基準が必要である。 さらに,確率的多変量テンソル因子分解モデルに基づく多変量ランキング問題に対する完全解を導出する。 大規模なtripadvisor multi-aspect rating datasetとyelp review text datasetの包括的な実験分析により,このソリューションの有効性を確認した。

User-provided multi-aspect evaluations manifest users' detailed feedback on the recommended items and enable fine-grained understanding of their preferences. Extensive studies have shown that modeling such data greatly improves the effectiveness and explainability of the recommendations. However, as ranking is essential in recommendation, there is no principled solution yet for collectively generating multiple item rankings over different aspects. In this work, we propose a directional multi-aspect ranking criterion to enable a holistic ranking of items with respect to multiple aspects. Specifically, we view multi-aspect evaluation as an integral effort from a user that forms a vector of his/her preferences over aspects. Our key insight is that the direction of the difference vector between two multi-aspect preference vectors reveals the pairwise order of comparison. Hence, it is necessary for a multi-aspect ranking criterion to preserve the observed directions from such pairwise comparisons. We further derive a complete solution for the multi-aspect ranking problem based on a probabilistic multivariate tensor factorization model. Comprehensive experimental analysis on a large TripAdvisor multi-aspect rating dataset and a Yelp review text dataset confirms the effectiveness of our solution.
翻訳日:2022-11-23 14:35:52 公開日:2020-06-09
# ケニアにおける法律の予測と分析

Predicting and Analyzing Law-Making in Kenya ( http://arxiv.org/abs/2006.05493v1 )

ライセンス: Link先を確認
Oyinlola Babafemi and Adewale Akinfaderin(参考訳) 近年,先進国における議会立法のモデル化と分析,ロールコール投票,手続の順序が注目されている。 本稿では,民主化の進展にともなう法案,ケニア二院制議会の理解に焦点をあてる。 法案が成立するかどうかを予測するために、請求書から抽出された特徴の組み合わせに基づいて、機械学習モデルを開発し、トレーニングしました。 我々は、法案のテキストは、法案が導入された年月や、法案が属するカテゴリほど関連性がないことを観察した。

Modelling and analyzing parliamentary legislation, roll-call votes and order of proceedings in developed countries has received significant attention in recent years. In this paper, we focused on understanding the bills introduced in a developing democracy, the Kenyan bicameral parliament. We developed and trained machine learning models on a combination of features extracted from the bills to predict the outcome - if a bill will be enacted or not. We observed that the texts in a bill are not as relevant as the year and month the bill was introduced and the category the bill belongs to.
翻訳日:2022-11-23 14:29:01 公開日:2020-06-09
# ファウショット学習のための同時摂動確率近似

Simultaneous Perturbation Stochastic Approximation for Few-Shot Learning ( http://arxiv.org/abs/2006.05152v1 )

ライセンス: Link先を確認
Andrei Boiarov, Oleg Granichin, Olga Granichina(参考訳) ほとんどショット学習は機械学習の重要な研究分野であり、分類器はトレーニングセットに含まれない新しいクラスに適応できるように訓練されなければならない。 しかし、トレーニングには各クラスの少数の例しか利用できない。 これは、このタイプの学習アルゴリズムにおける重要な問題の1つであり、大きな不確実性をもたらす。 我々はランダムな確率近似を用いてこの問題に対処する。 本稿では,新しいマルチタスク損失関数について考察し,プロトタイプネットワーク法に基づくSPSAライクな少数ショット学習手法を提案する。 このアプローチのための理論的な正当化と実験の分析を提供する。 ベンチマークデータセットを用いた実験の結果,提案手法は原型ネットワークよりも優れていることが示された。

Few-shot learning is an important research field of machine learning in which a classifier must be trained in such a way that it can adapt to new classes which are not included in the training set. However, only small amounts of examples of each class are available for training. This is one of the key problems with learning algorithms of this type which leads to the significant uncertainty. We attack this problem via randomized stochastic approximation. In this paper, we suggest to consider the new multi-task loss function and propose the SPSA-like few-shot learning approach based on the prototypical networks method. We provide a theoretical justification and an analysis of experiments for this approach. The results of experiments on the benchmark dataset demonstrate that the proposed method is superior to the original prototypical networks.
翻訳日:2022-11-23 14:26:14 公開日:2020-06-09
# ブラジルの病院における機械学習早期警戒システム:マルチセンター検証

A Machine Learning Early Warning System: Multicenter Validation in Brazilian Hospitals ( http://arxiv.org/abs/2006.05514v1 )

ライセンス: Link先を確認
Jhonatan Kobylarz, Henrique D. P. dos Santos, Felipe Barletta, Mateus Cichelero da Silva, Renata Vieira, Hugo M. P. Morales, Cristian da Costa Rocha(参考訳) 臨床劣化の早期認識は、入院患者の死亡率と死亡率を減らすための主要なステップの1つである。 病院における臨床診断の難しい課題は、医療従事者の日々の業務、Electronic Health Records(EHRs)に格納されている未接続の患者データ、そして低精度のスコアの使用である。 Intensive Care Unit(ICU)と比較して、病院病棟は注目度が低いため、プラットフォームがEHRのストリームに接続されている場合、危険な状況に対する認識が大幅に改善し、医療チームを支援することができると仮定した。 機械学習の適用により、システムは患者のすべての履歴を考慮し、高いパフォーマンスの予測モデルを使用することで、インテリジェントな早期警告システムを実現することができる。 この作業では、6つの病院から121,089の医療的出会いと7,540,389のデータポイントを使用し、人気のある病棟プロトコルを6つのスケーラブルな機械学習手法(3つは古典的な機械学習モデル、ロジスティックおよび確率的モデル、そして3つの漸進的なモデル)と比較しました。 その結果、現在の最先端プロトコルと比較して、最高の機械学習モデル結果の25パーセンテージのauc(受信機動作特性曲線下の領域)の利点が示された。 これは左1グループアウト(0.949のauc)とクロスバリデーション(0.961のauc)によるロバスト性を持つアルゴリズムの一般化によって示されている。 また,5つのタイムスタンプの使用を正当化するために,複数のウィンドウサイズを比較する実験を行った。 サンプルデータセット、実験、コードは、再現性のために利用できる。

Early recognition of clinical deterioration is one of the main steps for reducing inpatient morbidity and mortality. The challenging task of clinical deterioration identification in hospitals lies in the intense daily routines of healthcare practitioners, in the unconnected patient data stored in the Electronic Health Records (EHRs) and in the usage of low accuracy scores. Since hospital wards are given less attention compared to the Intensive Care Unit, ICU, we hypothesized that when a platform is connected to a stream of EHR, there would be a drastic improvement in dangerous situations awareness and could thus assist the healthcare team. With the application of machine learning, the system is capable to consider all patient's history and through the use of high-performing predictive models, an intelligent early warning system is enabled. In this work we used 121,089 medical encounters from six different hospitals and 7,540,389 data points, and we compared popular ward protocols with six different scalable machine learning methods (three are classic machine learning models, logistic and probabilistic-based models, and three gradient boosted models). The results showed an advantage in AUC (Area Under the Receiver Operating Characteristic Curve) of 25 percentage points in the best Machine Learning model result compared to the current state-of-the-art protocols. This is shown by the generalization of the algorithm with leave-one-group-out (AUC of 0.949) and the robustness through cross-validation (AUC of 0.961). We also perform experiments to compare several window sizes to justify the use of five patient timestamps. A sample dataset, experiments, and code are available for replicability purposes.
翻訳日:2022-11-23 14:20:03 公開日:2020-06-09
# エンコーダと強化学習を用いた不完全データからの因果発見

Causal Discovery from Incomplete Data using An Encoder and Reinforcement Learning ( http://arxiv.org/abs/2006.05554v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Fujin Zhu, Lois Holloway, Ali Haidar(参考訳) 変数の集合の中で因果構造を発見することは、多くの領域において根本的な問題である。 しかし、最先端の手法は、観測データが多くの現実の状況においてユビキタスな値(不完全データ)を欠いている可能性をほとんど考えない。 欠落した値がパフォーマンスを著しく損なうこと、因果発見アルゴリズムが失敗することさえある。 本稿では,新しいエンコーダと強化学習(RL)を用いて不完全データから因果構造を発見する手法を提案する。 エンコーダは、データインプテーションの欠如と特徴抽出のために設計されている。 特に、現在利用可能な情報(欠落した値)をロバストな特徴表現にエンコードすることで、最適なグラフを検索する場所を決定する。 エンコーダはアクター批判アルゴリズムを使って最適化できるRLフレームワークに統合される。 本手法は不完全な観測データを入力として因果構造グラフを生成する。 合成および実データによる実験結果から,不完全データから因果構造を頑健に生成できることが示唆された。 データ計算と因果探索の直接的な組み合わせと比較すると,本手法は概ね良好であり,43.2%以上の性能向上が得られる。

Discovering causal structure among a set of variables is a fundamental problem in many domains. However, state-of-the-art methods seldom consider the possibility that the observational data has missing values (incomplete data), which is ubiquitous in many real-world situations. The missing value will significantly impair the performance and even make the causal discovery algorithms fail. In this paper, we propose an approach to discover causal structures from incomplete data by using a novel encoder and reinforcement learning (RL). The encoder is designed for missing data imputation as well as feature extraction. In particular, it learns to encode the currently available information (with missing values) into a robust feature representation which is then used to determine where to search the best graph. The encoder is integrated into a RL framework that can be optimized using the actor-critic algorithm. Our method takes the incomplete observational data as input and generates a causal structure graph. Experimental results on synthetic and real data demonstrate that our method can robustly generate causal structures from incomplete data. Compared with the direct combination of data imputation and causal discovery methods, our method performs generally better and can even obtain a performance gain as much as 43.2%.
翻訳日:2022-11-23 14:19:02 公開日:2020-06-09
# GAP++: ターゲット条件付き敵の例を生成する学習

GAP++: Learning to generate target-conditioned adversarial examples ( http://arxiv.org/abs/2006.05097v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Yuhong Li, Yuan He, Hui Xue(参考訳) 逆の例は摂動入力であり、機械学習モデルに深刻な脅威をもたらす可能性がある。 これらの摂動を見つけるのは非常に難しい作業なので、反復的なメソッドをトラバースにしか使えません。 計算効率のために、近年の研究では、普遍的または画像依存の摂動の分布を直接モデル化するために、逆生成ネットワークを用いている。 しかし、これらの手法は入力画像のみに依存する摂動を生成する。 本研究では,入力画像と対象ラベルの両方に依存する目標条件付き摂動を推定する汎用フレームワークを提案する。 従来の単一ターゲット攻撃モデルと異なり,攻撃対象と画像のセマンティクスの関係を学習することで,目標条件攻撃を行うことができる。 MNIST と CIFAR10 のデータセットに対する広範な実験により,本手法は単一攻撃モデルにおいて優れた性能を示し,摂動ノルムを小さくして高い騙し率が得られることを示した。

Adversarial examples are perturbed inputs which can cause a serious threat for machine learning models. Finding these perturbations is such a hard task that we can only use the iterative methods to traverse. For computational efficiency, recent works use adversarial generative networks to model the distribution of both the universal or image-dependent perturbations directly. However, these methods generate perturbations only rely on input images. In this work, we propose a more general-purpose framework which infers target-conditioned perturbations dependent on both input image and target label. Different from previous single-target attack models, our model can conduct target-conditioned attacks by learning the relations of attack target and the semantics in image. Using extensive experiments on the datasets of MNIST and CIFAR10, we show that our method achieves superior performance with single target attack models and obtains high fooling rates with small perturbation norms.
翻訳日:2022-11-23 14:18:27 公開日:2020-06-09
# 低リソースによるディープフェイク検出に関する一考察

A Note on Deepfake Detection with Low-Resources ( http://arxiv.org/abs/2006.05183v1 )

ライセンス: Link先を確認
Piotr Kawa and Piotr Syga(参考訳) deepfakesは変更を含むビデオで、ニューラルネットワークを使用して、異なる顔を持つ人物の顔に置換されることが多い。 この技術はジョークやパロディのキャリアとして人気を博しているが、生体認証の偽造や偽造によって、セキュリティに対する深刻な脅威を引き起こす。 本稿では,計算能力の大きいユーザに対して,ディープフェイクの検出を可能にする2つの手法を提案する。 特に,元のアクティベーション関数を置き換えることでMesoNetを強化し,1%近くの改善と結果の一貫性の向上を実現した。 さらに,新たなアクティベーション関数であるpishを導入し,検証を行った。 さらに,ローカル特徴記述子(lfd)に基づくdeepfake検出手法の予備的な結果を示す。 誤差率は0.28で,精度もリコール率も0.7以上であった。

Deepfakes are videos that include changes, quite often substituting face of a portrayed individual with a different face using neural networks. Even though the technology gained its popularity as a carrier of jokes and parodies it raises a serious threat to ones security - via biometric impersonation or besmearing. In this paper we present two methods that allow detecting Deepfakes for a user without significant computational power. In particular, we enhance MesoNet by replacing the original activation functions allowing a nearly 1% improvement as well as increasing the consistency of the results. Moreover, we introduced and verified a new activation function - Pish that at the cost of slight time overhead allows even higher consistency. Additionally, we present a preliminary results of Deepfake detection method based on Local Feature Descriptors (LFD), that allows setting up the system even faster and without resorting to GPU computation. Our method achieved Equal Error Rate of 0.28, with both accuracy and recall exceeding 0.7.
翻訳日:2022-11-23 14:18:11 公開日:2020-06-09
# 2ストリーム最大自己注意型マルチインスタンス学習

Dual-stream Maximum Self-attention Multi-instance Learning ( http://arxiv.org/abs/2006.05538v1 )

ライセンス: Link先を確認
Bin Li, Kevin W. Eliceiri(参考訳) MIL(Multi-Instance Learning)は、インスタンスレベルのラベルが利用できない間に単一のクラスラベルがインスタンスのバッグに割り当てられる弱い教師付き学習の一種である。 バッグラベルとインスタンスラベルを正確に判定するための分類器の訓練は、計算病理学のような多くの実践シナリオにおいて難しいが重要な課題である。 近年、ニューラルネットワークによって完全にパラメータ化されたMILモデルは、高い柔軟性と優れた性能のために人気を博している。 これらのモデルのほとんどは、バッグに埋め込まれたインスタンス全体に注意スコアを割り当て、アグリゲーション演算子を使用してバッグ埋め込みを生成するアテンションメカニズムに依存している。 本稿では,ニューラルネットワークによってパラメータ化されるdsmil(dual-stream maximum self-attention mil model)を提案する。 第1ストリームは単純なMIL最大プールをデプロイし、トップアクティベートされたインスタンスの埋め込みが決定され、第2ストリームへのインスタンスの埋め込みにまたがる自己アテンションスコアを取得するために使用される。 従来の手法と異なり、提案モデルは同一のインスタンス埋め込みに基づいてインスタンス分類器とバッグ分類器を共同で学習する。 実験の結果,提案手法は最高のMIL手法と比較して優れた性能を示し,ベンチマークMILデータセット上での最先端性能を示す。

Multi-instance learning (MIL) is a form of weakly supervised learning where a single class label is assigned to a bag of instances while the instance-level labels are not available. Training classifiers to accurately determine the bag label and instance labels is a challenging but critical task in many practical scenarios, such as computational histopathology. Recently, MIL models fully parameterized by neural networks have become popular due to the high flexibility and superior performance. Most of these models rely on attention mechanisms that assign attention scores across the instance embeddings in a bag and produce the bag embedding using an aggregation operator. In this paper, we proposed a dual-stream maximum self-attention MIL model (DSMIL) parameterized by neural networks. The first stream deploys a simple MIL max-pooling while the top-activated instance embedding is determined and used to obtain self-attention scores across instance embeddings in the second stream. Different from most of the previous methods, the proposed model jointly learns an instance classifier and a bag classifier based on the same instance embeddings. The experiments results show that our method achieves superior performance compared to the best MIL methods and demonstrates state-of-the-art performance on benchmark MIL datasets.
翻訳日:2022-11-23 14:17:54 公開日:2020-06-09
# 脳が長すぎる理由: 最小限の画像レベルでの物体認識は、プレゼンテーションの最大数秒の間発達する

What takes the brain so long: Object recognition at the level of minimal images develops for up to seconds of presentation time ( http://arxiv.org/abs/2006.05249v1 )

ライセンス: Link先を確認
Hanna Benoni, Daniel Harari and Shimon Ullman(参考訳) 実験的な証拠は、脳内の視覚物体の認識は速く、無力であり、関連する脳信号は80msで開始すると報告されている。この記事では、最小認識可能な画像(MIRC)のレベルでの認識過程の時間軌道について研究する。 これらは確実に認識できる画像であるが、画像の微細な変化(サイズまたは解像度による還元)が認識に劇的な影響を与える。 被験者は、マスキングの有無に関わらず、200, 500, 1000, 2000 msの9つの露光条件のうちの1つに割り当てられた。 被験者はプレゼンテーション後に反応する時間に制限はなかった。 その結果,仮面状態では,200ms露光では平均18%,500msでは45%と,長期露光時には2秒以上でも認識率が徐々に上昇することが明らかとなった。 無限時間(応答まで)で提示すると、MIRC認識率は50msのフルオブジェクト画像と同等であり、マスキングが続いた。 このような画像を認識するのになぜ脳がそんなに長いのか? 眼球運動、知覚的意思決定、パターン完成などのプロセスがなぜ説明できないのかを論じる。 あるいは、MIRC認識にはフィードフォワードフェーズを補完する拡張トップダウンプロセスが必要であると仮定する。

Rich empirical evidence has shown that visual object recognition in the brain is fast and effortless, with relevant brain signals reported to start as early as 80 ms. Here we study the time trajectory of the recognition process at the level of minimal recognizable images (termed MIRC). These are images that can be recognized reliably, but in which a minute change of the image (reduction by either size or resolution) has a drastic effect on recognition. Subjects were assigned to one of nine exposure conditions: 200, 500, 1000, 2000 ms with or without masking, as well as unlimited time. The subjects were not limited in time to respond after presentation. The results show that in the masked conditions, recognition rates develop gradually over an extended period, e.g. average of 18% for 200 ms exposure and 45% for 500 ms, increasing significantly with longer exposure even above 2 secs. When presented for unlimited time (until response), MIRC recognition rates were equivalent to the rates of full-object images presented for 50 ms followed by masking. What takes the brain so long to recognize such images? We discuss why processes involving eye-movements, perceptual decision-making and pattern completion are unlikely explanations. Alternatively, we hypothesize that MIRC recognition requires an extended top-down process complementing the feed-forward phase.
翻訳日:2022-11-23 14:17:35 公開日:2020-06-09
# 異種資源制約デバイスによる分散学習

Distributed Learning on Heterogeneous Resource-Constrained Devices ( http://arxiv.org/abs/2006.05403v1 )

ライセンス: Link先を確認
Martin Rapp, Ramin Khalili, J\"org Henkel(参考訳) 我々は,ローエンドからハイエンドまでの異種デバイスからなる分散システムを考える。 これらのデバイスは、異なるエネルギー予算や異なるハードウェア仕様など、異なるプロファイルを持ち、特定の学習タスクを実行する能力を決定する。 このような異種システムにおける分散学習を可能にする最初の手法を提案する。 このアプローチを適用すると、各デバイスはニューラルネットワーク(nn)をその能力に適合するトポロジーで採用するが、これらのnnの一部は同じトポロジーを共有し、それらのパラメータを共同学習することができる。 これは、すべてのデバイスに同じNNを使用するように要求するフェデレーション学習のような現在のアプローチと異なり、達成可能な精度とトレーニングの計算オーバーヘッドの間のトレードオフを強制する。 強化学習(rl)のための異種分散学習を評価し,現在の手法と比較して,より強力なデバイスで実現可能な報酬を大幅に向上させながら,弱いデバイスで高い報酬を維持していることを観察する。 教師付き学習も検討し、同様の成果を観察する。

We consider a distributed system, consisting of a heterogeneous set of devices, ranging from low-end to high-end. These devices have different profiles, e.g., different energy budgets, or different hardware specifications, determining their capabilities on performing certain learning tasks. We propose the first approach that enables distributed learning in such a heterogeneous system. Applying our approach, each device employs a neural network (NN) with a topology that fits its capabilities; however, part of these NNs share the same topology, so that their parameters can be jointly learned. This differs from current approaches, such as federated learning, which require all devices to employ the same NN, enforcing a trade-off between achievable accuracy and computational overhead of training. We evaluate heterogeneous distributed learning for reinforcement learning (RL) and observe that it greatly improves the achievable reward on more powerful devices, compared to current approaches, while still maintaining a high reward on the weaker devices. We also explore supervised learning, observing similar gains.
翻訳日:2022-11-23 14:11:37 公開日:2020-06-09
# 時系列生成のための条件付きSig-Wasserstein GAN

Conditional Sig-Wasserstein GANs for Time Series Generation ( http://arxiv.org/abs/2006.05421v1 )

ライセンス: Link先を確認
Hao Ni, Lukasz Szpruch, Magnus Wiese, Shujian Liao and Baoren Xiao(参考訳) GAN(Generative Adversarial Network)は、高次元の確率測度からサンプルを生成することに成功している。 しかし,これらの手法は時系列データによる共同確率分布の時間的依存を捉えるのに苦慮している。 さらに、長い時系列データストリームはターゲット空間の次元を大きく増加させ、生成的モデリングが実現不可能になる可能性がある。 これらの課題を克服するために、GANと数学的に原理化され、経路のシグネチャと呼ばれる効率的な経路特徴抽出を統合する。 パスのシグネチャは、データストリームの普遍的な記述を提供する統計のグレード化されたシーケンスであり、その期待値は時系列モデルの法則を特徴づける。 特に、(条件付き)sig-$w_1$という新しいメトリックを開発し、時系列モデルの(条件付き)合同法則を捉え、判別器として使用する。 署名機能空間は、高価なトレーニングの必要性を軽減するために提案された識別器の明示的な表現を可能にする。 さらに,時系列の時間的依存を捕捉し,効率的に訓練できる条件付きAR-FNNという新しいジェネレータを開発した。 本手法は,合成データと実験データの両方で検証を行い,類似性と予測能力の尺度において,最先端のベンチマークを一貫して著しく上回っていることを検証した。

Generative adversarial networks (GANs) have been extremely successful in generating samples, from seemingly high dimensional probability measures. However, these methods struggle to capture the temporal dependence of joint probability distributions induced by time-series data. Furthermore, long time-series data streams hugely increase the dimension of the target space, which may render generative modeling infeasible. To overcome these challenges, we integrate GANs with mathematically principled and efficient path feature extraction called the signature of a path. The signature of a path is a graded sequence of statistics that provides a universal description for a stream of data, and its expected value characterizes the law of the time-series model. In particular, we a develop new metric, (conditional) Sig-$W_1$, that captures the (conditional) joint law of time series models, and use it as a discriminator. The signature feature space enables the explicit representation of the proposed discriminators which alleviates the need for expensive training. Furthermore, we develop a novel generator, called the conditional AR-FNN, which is designed to capture the temporal dependence of time series and can be efficiently trained. We validate our method on both synthetic and empirical datasets and observe that our method consistently and significantly outperforms state-of-the-art benchmarks with respect to measures of similarity and predictive ability.
翻訳日:2022-11-23 14:11:21 公開日:2020-06-09
# 平滑解析による高速PAC学習と小型コアセット

Faster PAC Learning and Smaller Coresets via Smoothed Analysis ( http://arxiv.org/abs/2006.05441v1 )

ライセンス: Link先を確認
Alaa Maalouf and Ibrahim Jubran and Murad Tukan and Dan Feldman(参考訳) pac-learningは通常、$n$項目から小さなサブセット (\varepsilon$-sample/net) を計算することを目的としている。これは、与えられたクエリセットから与えられたクエリ(モデル、分類器、仮説)ごとに与えられた損失関数を近似し、付加的なエラー$\varepsilon\in(0,1)$となる。 coresetsはこのアイデアを一般化し、乗算誤差 1\pm\varepsilon$ をサポートする。 スムーズな解析から着想を得て、より小さな部分集合を得ることを期待して、クエリ上での(最悪のケースの代わりに)emph{average} の誤差を近似する自然な一般化を提案する。 異なるクエリのエラー間の依存関係は、Chernoff-Hoeffdingの不等式を固定クエリに適用しなくなり、VC-dimensionあるいはUnionboundを使用することを意味する。 本稿では,このようなコアセットと$\varepsilon$-samplesを,任意の有限個のクエリと損失関数に対して決定論的かつランダムに計算するアルゴリズムを提供する。 例えば、ストリーミングベクトル要約 [ICML'17] や$k$-PCA [NIPS'16] のための新しい改良されたコアセット構成がある。 オープンソースコードによる実験結果が提供される。

PAC-learning usually aims to compute a small subset ($\varepsilon$-sample/net) from $n$ items, that provably approximates a given loss function for every query (model, classifier, hypothesis) from a given set of queries, up to an additive error $\varepsilon\in(0,1)$. Coresets generalize this idea to support multiplicative error $1\pm\varepsilon$. Inspired by smoothed analysis, we suggest a natural generalization: approximate the \emph{average} (instead of the worst-case) error over the queries, in the hope of getting smaller subsets. The dependency between errors of different queries implies that we may no longer apply the Chernoff-Hoeffding inequality for a fixed query, and then use the VC-dimension or union bound. This paper provides deterministic and randomized algorithms for computing such coresets and $\varepsilon$-samples of size independent of $n$, for any finite set of queries and loss function. Example applications include new and improved coreset constructions for e.g. streaming vector summarization [ICML'17] and $k$-PCA [NIPS'16]. Experimental results with open source code are provided.
翻訳日:2022-11-23 14:10:44 公開日:2020-06-09
# 繰り返しネットワーク上のテンソル列車分解

Tensor train decompositions on recurrent networks ( http://arxiv.org/abs/2006.05442v1 )

ライセンス: Link先を確認
Alejandro Murua, Ramchalam Ramakrishnan, Xinlin Li, Rui Heng Yang, Vahid Partovi Nia(参考訳) 長期記憶(LSTM)ネットワークのようなリカレントニューラルネットワーク(RNN)は、音声、言語、ビデオ、マルチモーダル学習などの日常的なタスクに不可欠である。 クラウドからエッジへの計算へのシフトは、rnnパラメータの成長を包含する必要性を強める。 RNNに関する最近の研究は、畳み込みニューラルネットワーク(CNN)の性能にもかかわらず、圧縮されたRNNの性能を維持することが依然として課題であることを示している。 圧縮に関する文献の多くは、行列積(MPO)演算子テンソルトレインを用いたCNNに焦点を当てている。 しかし, 行列積状態 (MPS) テンソルは, 記憶量削減や推定計算時間の観点から, MPOよりも魅力的な特徴を持つ。 nlpタスクに関する理論的解析と実践実験を通じて,mpsテンソルトレインはlstmネットワーク圧縮の最前線にあるべきであることを示した。

Recurrent neural networks (RNN) such as long-short-term memory (LSTM) networks are essential in a multitude of daily live tasks such as speech, language, video, and multimodal learning. The shift from cloud to edge computation intensifies the need to contain the growth of RNN parameters. Current research on RNN shows that despite the performance obtained on convolutional neural networks (CNN), keeping a good performance in compressed RNNs is still a challenge. Most of the literature on compression focuses on CNNs using matrix product (MPO) operator tensor trains. However, matrix product state (MPS) tensor trains have more attractive features than MPOs, in terms of storage reduction and computing time at inference. We show that MPS tensor trains should be at the forefront of LSTM network compression through a theoretical analysis and practical experiments on NLP task.
翻訳日:2022-11-23 14:10:08 公開日:2020-06-09
# 雑音データを用いたスパーシフィケーションに基づく学習のための階層的正規化ネットワーク

Hierarchical regularization networks for sparsification based learning on noisy datasets ( http://arxiv.org/abs/2006.05444v1 )

ライセンス: Link先を確認
Prashant Shekhar and Abani Patra(参考訳) 本稿では,大規模な雑音データセットに対するスパース表現と関連するモデルの生成を目的とした階層型学習戦略を提案する。 階層は、次々に細かいスケールで識別される近似空間から従う。 各スケールでのモデル一般化を促進するために,近接情報と順序情報を含む置換演算子を用いて,複数次元にわたる新規な投影型ペナルティ演算子を導入する。 本稿では,生成したスパース表現に付随する誤差汎関数の最適性,予測の一貫性,挙動に重点を置いた再構成再生成核ヒルベルト空間(rkhs)の近似特性の詳細な解析を行う。 その結果、合成(単変量および多変量)と実データセット(時系列)の両方で、データ還元およびモデリング戦略としての性能を示す。 提案手法により生成されたテストデータセットのスパースモデルも,基礎となるプロセスを効率的に再構築し,一般化可能性を維持する。

We propose a hierarchical learning strategy aimed at generating sparse representations and associated models for large noisy datasets. The hierarchy follows from approximation spaces identified at successively finer scales. For promoting model generalization at each scale, we also introduce a novel, projection based penalty operator across multiple dimension, using permutation operators for incorporating proximity and ordering information. The paper presents a detailed analysis of approximation properties in the reconstruction Reproducing Kernel Hilbert Spaces (RKHS) with emphasis on optimality and consistency of predictions and behavior of error functionals associated with the produced sparse representations. Results show the performance of the approach as a data reduction and modeling strategy on both synthetic (univariate and multivariate) and real datasets (time series). The sparse model for the test datasets, generated by the presented approach, is also shown to efficiently reconstruct the underlying process and preserve generalizability.
翻訳日:2022-11-23 14:09:54 公開日:2020-06-09
# BanditとRLモデル選択のためのレギュレットバランシング

Regret Balancing for Bandit and RL Model Selection ( http://arxiv.org/abs/2006.05491v1 )

ライセンス: Link先を確認
Yasin Abbasi-Yadkori, Aldo Pacchiano, My Phan(参考訳) 確率的バンディットと強化学習問題におけるモデル選択を考える。 ベース学習アルゴリズムのセットが与えられると、効果的なモデル選択戦略は、オンライン形式で最高の学習アルゴリズムに適応する。 我々は,各アルゴリズムの後悔を推定し,全ての経験的後悔が同じ順序で確実にされるようにアルゴリズムを演奏することにより,全体の後悔バランス戦略が最適なベースアルゴリズムの後悔に近い後悔を達成することを示す。 我々の戦略は入力として最適ベース後悔に上限を課し、戦略の性能は上界の厳密性に依存する。 最善の後悔を達成するためには,この事前知識が不可欠であることを示す。 さらに, ほぼ最適モデル選択戦略が, 暗黙的に後悔のバランスをとることを示す。

We consider model selection in stochastic bandit and reinforcement learning problems. Given a set of base learning algorithms, an effective model selection strategy adapts to the best learning algorithm in an online fashion. We show that by estimating the regret of each algorithm and playing the algorithms such that all empirical regrets are ensured to be of the same order, the overall regret balancing strategy achieves a regret that is close to the regret of the optimal base algorithm. Our strategy requires an upper bound on the optimal base regret as input, and the performance of the strategy depends on the tightness of the upper bound. We show that having this prior knowledge is necessary in order to achieve a near-optimal regret. Further, we show that any near-optimal model selection strategy implicitly performs a form of regret balancing.
翻訳日:2022-11-23 14:08:48 公開日:2020-06-09
# Wavelet Networks: 生波形からのスケール同変学習

Wavelet Networks: Scale Equivariant Learning From Raw Waveforms ( http://arxiv.org/abs/2006.05259v1 )

ライセンス: Link先を確認
David W. Romero, Erik J. Bekkers, Jakub M. Tomczak, Mark Hoogendoorn(参考訳) ディープニューラルアーキテクチャにおける対称性の等価性の導入は、データ効率と一般化を改善した。 本研究では, 波形から時系列学習の問題に取り組むために, スケールと翻訳等価性の概念を利用する。 その結果、第一層におけるウェーブレット変換とほとんど類似した表現を得るが、深度関数としてより記述的な表現へと進化する。 我々の経験的結果はウェーブレットネットワークの適合性を支持しており、単純なアーキテクチャ設計により、生波形上のCNNやスペクトログラムベースの手法と同等の性能を発揮する。

Inducing symmetry equivariance in deep neural architectures has resolved into improved data efficiency and generalization. In this work, we utilize the concept of scale and translation equivariance to tackle the problem of learning on time-series from raw waveforms. As a result, we obtain representations that largely resemble those of the wavelet transform at the first layer, but that evolve into much more descriptive ones as a function of depth. Our empirical results support the suitability of our Wavelet Networks which with a simple architecture design perform consistently better than CNNs on raw waveforms and on par with spectrogram-based methods.
翻訳日:2022-11-23 14:02:07 公開日:2020-06-09
# メンバーシップ推論攻撃に対する正規化の有効性について

On the Effectiveness of Regularization Against Membership Inference Attacks ( http://arxiv.org/abs/2006.05336v1 )

ライセンス: Link先を確認
Yigitcan Kaya, Sanghyun Hong, Tudor Dumitras(参考訳) ディープラーニングモデルは、トレーニングデータに関する情報を漏らすと、しばしばプライバシー上の懸念を引き起こす。 これにより、データポイントがモデルのトレーニングセットに含まれるかどうかを、メンバーシップ推論攻撃(MIA)を実行することで決定することができる。 先行研究は、オーバーフィッティングと戦う正規化手法が漏洩を緩和するかもしれないと推測している。 多くの正規化機構が存在するが、MIAに対する効果は体系的に研究されておらず、結果として生じるプライバシー特性はよく理解されていない。 我々は、実用的な攻撃が達成できる情報漏洩の少ない境界を探究する。 まず,3つの標準画像分類課題において,2つのMIAを緩和する8つのメカニズムの有効性を評価する。 ラベルの平滑化など特定のメカニズムがMIAを不注意に助ける可能性がある。 第2に, 相補的な機構を組み合わせることでMIAのレジリエンス向上の可能性を検討する。 最後に、敵対的なサンプル作成に基づいて、ホワイトボックスの 'distance-to-confident' (DtC) メトリックを設計することで、将来のMIAがプライバシーを侵害する機会を定量化する。 我々の測定では、既存のMIAが失敗したとしても、トレーニングサンプルはテストサンプルと区別可能である。 これは、既存のMIAに対して効果的に見える場合でも、正規化メカニズムが誤ったプライバシー感覚を与える可能性があることを示唆している。

Deep learning models often raise privacy concerns as they leak information about their training data. This enables an adversary to determine whether a data point was in a model's training set by conducting a membership inference attack (MIA). Prior work has conjectured that regularization techniques, which combat overfitting, may also mitigate the leakage. While many regularization mechanisms exist, their effectiveness against MIAs has not been studied systematically, and the resulting privacy properties are not well understood. We explore the lower bound for information leakage that practical attacks can achieve. First, we evaluate the effectiveness of 8 mechanisms in mitigating two recent MIAs, on three standard image classification tasks. We find that certain mechanisms, such as label smoothing, may inadvertently help MIAs. Second, we investigate the potential of improving the resilience to MIAs by combining complementary mechanisms. Finally, we quantify the opportunity of future MIAs to compromise privacy by designing a white-box `distance-to-confident' (DtC) metric, based on adversarial sample crafting. Our metric reveals that, even when existing MIAs fail, the training samples may remain distinguishable from test samples. This suggests that regularization mechanisms can provide a false sense of privacy, even when they appear effective against existing MIAs.
翻訳日:2022-11-23 14:01:02 公開日:2020-06-09
# 高次元ベクトル自己回帰モデルの統計的推定

Statistical Estimation of High-Dimensional Vector Autoregressive Models ( http://arxiv.org/abs/2006.05345v1 )

ライセンス: Link先を確認
Jonas Krampe and Efstathios Paparoditis(参考訳) 高次元ベクトル自己回帰モデル(VAR)は多変量時系列解析において重要なツールである。 本稿では,高次元時系列と,そのような時系列にスパースvarモデルを適用するために提案される異なる正規化推定手順に注目した。 注意すべき点は、VARパラメータに課される異なる疎度仮定と、これらの疎度仮定が確立された推定器の特定の一貫性特性とどのように関連しているかである。 高次元VARモデルのスパーシティスキームが提案され,時系列設定に適していることがわかった。 さらに、このスパーシティ設定の下では、正規化推定子の一貫性特性を幅広い行列ノルムに拡張することが示されている。 その中で、VARパラメータ推定器を、基礎となるVARプロセスの2階特性の予測や推定など、異なる推論問題に適用することができる。 様々な性能基準を用いて提案する異なる正規化推定器の有限サンプル挙動を広範なシミュレーションにより比較した。

High-dimensional vector autoregressive (VAR) models are important tools for the analysis of multivariate time series. This paper focuses on high-dimensional time series and on the different regularized estimation procedures proposed for fitting sparse VAR models to such time series. Attention is paid to the different sparsity assumptions imposed on the VAR parameters and how these sparsity assumptions are related to the particular consistency properties of the estimators established. A sparsity scheme for high-dimensional VAR models is proposed which is found to be more appropriate for the time series setting considered. Furthermore, it is shown that, under this sparsity setting, threholding extents the consistency properties of regularized estimators to a wide range of matrix norms. Among other things, this enables application of the VAR parameters estimators to different inference problems, like forecasting or estimating the second-order characteristics of the underlying VAR process. Extensive simulations compare the finite sample behavior of the different regularized estimators proposed using a variety of performance criteria.
翻訳日:2022-11-23 14:00:40 公開日:2020-06-09
# ノードエッジコエンタングルメントを用いた解釈可能な深層グラフ生成

Interpretable Deep Graph Generation with Node-Edge Co-Disentanglement ( http://arxiv.org/abs/2006.05385v1 )

ライセンス: Link先を確認
Xiaojie Guo, Liang Zhao, Zhao Qin, Lingfei Wu, Amarda Shehu, Yanfang Ye(参考訳) 画像表現学習は,近年,特に画像表現学習の分野において,かなりの注目を集めている。 しかし、グラフの背後にある非交叉表現の学習は、特にノードとエッジの両方の特徴を持つ属性グラフについて、ほとんど探索されていない。 グラフ生成のためのアンタングル学習には、かなり新しい課題がある 1)ノード属性とエッジ属性を共同デコードするためのグラフデコンボリューション操作の欠如。 2) それぞれ影響を及ぼす潜在要因間の絡み合いを強制することの難しさ i) ノードのみ。 二 端のみ、及び 三 それらの間のジョイントパターン これらの課題に対処するために,属性グラフの深部生成モデルのための新しいアンタングルメント拡張フレームワークを提案する。 特に、上記の3種類の潜在因子を、ノードとエッジのデコンボリューションのための新しいアーキテクチャで切り離すための新しい変分的目的が提案されている。 さらに,各タイプでは,既存の画像フレームワークの一般化として,個別要素間不等角化がさらに強化されている。 合成および実世界のデータセットの質的および定量的実験は、提案モデルとその拡張の有効性を示している。

Disentangled representation learning has recently attracted a significant amount of attention, particularly in the field of image representation learning. However, learning the disentangled representations behind a graph remains largely unexplored, especially for the attributed graph with both node and edge features. Disentanglement learning for graph generation has substantial new challenges including 1) the lack of graph deconvolution operations to jointly decode node and edge attributes; and 2) the difficulty in enforcing the disentanglement among latent factors that respectively influence: i) only nodes, ii) only edges, and iii) joint patterns between them. To address these challenges, we propose a new disentanglement enhancement framework for deep generative models for attributed graphs. In particular, a novel variational objective is proposed to disentangle the above three types of latent factors, with novel architecture for node and edge deconvolutions. Moreover, within each type, individual-factor-wise disentanglement is further enhanced, which is shown to be a generalization of the existing framework for images. Qualitative and quantitative experiments on both synthetic and real-world datasets demonstrate the effectiveness of the proposed model and its extensions.
翻訳日:2022-11-23 13:59:45 公開日:2020-06-09
# AR-DAE:Unbiased Neural Entropy Gradient Estimationを目指して

AR-DAE: Towards Unbiased Neural Entropy Gradient Estimation ( http://arxiv.org/abs/2006.05164v1 )

ライセンス: Link先を確認
Jae Hyun Lim, Aaron Courville, Christopher Pal, Chin-Wei Huang(参考訳) エントロピーは機械学習においてユビキタスであるが、任意の連続確率変数の分布のエントロピーを計算するのは一般的ではない。 本稿では,エントロピーの勾配推定に使用可能な対数密度関数の勾配を近似するために,残差消音オートエンコーダ(ar-dae)を提案する。 amortizationにより、正規のdaeの漸近的最適性に近づくことにより、勾配近似器の誤差を大幅に低減することができる。 提案手法の近似誤差に関する理論的および実験的解析と,その堅牢性を確保するためのヒューリスティックスに関する広範な研究を行う。 最後に,提案する勾配近似器を用いてエントロピーの勾配を推定し,変分オートエンコーダによる密度推定とソフトアクタ-クリティックによる連続制御における最先端の性能を示す。

Entropy is ubiquitous in machine learning, but it is in general intractable to compute the entropy of the distribution of an arbitrary continuous random variable. In this paper, we propose the amortized residual denoising autoencoder (AR-DAE) to approximate the gradient of the log density function, which can be used to estimate the gradient of entropy. Amortization allows us to significantly reduce the error of the gradient approximator by approaching asymptotic optimality of a regular DAE, in which case the estimation is in theory unbiased. We conduct theoretical and experimental analyses on the approximation error of the proposed method, as well as extensive studies on heuristics to ensure its robustness. Finally, using the proposed gradient approximator to estimate the gradient of entropy, we demonstrate state-of-the-art performance on density estimation with variational autoencoders and continuous control with soft actor-critic.
翻訳日:2022-11-23 13:52:10 公開日:2020-06-09
# 予測を学習しながら止まることを学ぶ

Learning to Stop While Learning to Predict ( http://arxiv.org/abs/2006.05082v1 )

ライセンス: Link先を確認
Xinshi Chen, Hanjun Dai, Yu Li, Xin Gao, Le Song(参考訳) 近年では、従来のアルゴリズムのアップデートステップに基づいたディープアーキテクチャの設計や、従来のアルゴリズムを改善して置き換えるためのニューラルネットワークの学習への関心が高まっている。 従来のアルゴリズムは、異なるイテレーションで結果を出力するための一定の停止基準を持っているが、多くのアルゴリズムに触発された深層モデルは、全ての入力に対して ‘fixed-depth'' に制限されている。 アルゴリズムと同様に、より深いアーキテクチャの最適な深さは、``over-thinking''を避けるか、既に収束した操作に対してより少ない計算をしたいかのどちらかで、異なる入力インスタンスで異なるかもしれない。 本稿では,フィードフォワード深層モデルと変分停止ポリシーを併用して各入力インスタンスの最適レイヤ数を逐次決定する,ステアブルアーキテクチャを用いて,この変動深層問題に取り組む。 このようなアーキテクチャのトレーニングは非常に難しい。 変動ベイズ視点を提供し、タスクをoracleモデル学習段階と模倣段階に分解する、新しく効果的なトレーニング手順を設計する。 実験により,学習した深層モデルと停止方針が,学習スパースリカバリ,少数ショットのメタ学習,コンピュータビジョンタスクなど,様々なタスクの性能を向上させることを示した。

There is a recent surge of interest in designing deep architectures based on the update steps in traditional algorithms, or learning neural networks to improve and replace traditional algorithms. While traditional algorithms have certain stopping criteria for outputting results at different iterations, many algorithm-inspired deep models are restricted to a ``fixed-depth'' for all inputs. Similar to algorithms, the optimal depth of a deep architecture may be different for different input instances, either to avoid ``over-thinking'', or because we want to compute less for operations converged already. In this paper, we tackle this varying depth problem using a steerable architecture, where a feed-forward deep model and a variational stopping policy are learned together to sequentially determine the optimal number of layers for each input instance. Training such architecture is very challenging. We provide a variational Bayes perspective and design a novel and effective training procedure which decomposes the task into an oracle model learning stage and an imitation stage. Experimentally, we show that the learned deep model along with the stopping policy improves the performances on a diverse set of tasks, including learning sparse recovery, few-shot meta learning, and computer vision tasks.
翻訳日:2022-11-23 13:42:42 公開日:2020-06-09
# 等方性SGD : ベイジアン後方サンプリングの実践的アプローチ

Isotropic SGD: a Practical Approach to Bayesian Posterior Sampling ( http://arxiv.org/abs/2006.05087v1 )

ライセンス: Link先を確認
Giulio Franzese, Rosa Candela, Dimitrios Milios, Maurizio Filippone, Pietro Michiardi(参考訳) 本研究では,マルコフ連鎖モンテカルロサンプリング(sgmcmc)アルゴリズムの挙動に対する確率的勾配(sg)ノイズの役割の理解を深めるために,統一的な数学的枠組みを定義する。 我々の定式化は、解析的に決定される定型学習率を用いてSGノイズを等方的にし、既存のアルゴリズムよりも弱い仮定を必要とする、新しい、実用的な後方サンプリング手法の設計を解き放つ。 対照的に、既存の \sgmcmc アルゴリズムの共通特性は、付加雑音(学習率の低下)の勾配を減衰させるか、または \sg ノイズの共分散と損失景観の幾何学に制限的な仮定をすることで、等方性条件を近似することである。 広範な実験的検証は,提案手法がより実用的でありながら,sgmcmcの最先端技術と競合することを示している。

In this work we define a unified mathematical framework to deepen our understanding of the role of stochastic gradient (SG) noise on the behavior of Markov chain Monte Carlo sampling (SGMCMC) algorithms. Our formulation unlocks the design of a novel, practical approach to posterior sampling, which makes the SG noise isotropic using a fixed learning rate that we determine analytically, and that requires weaker assumptions than existing algorithms. In contrast, the common traits of existing \sgmcmc algorithms is to approximate the isotropy condition either by drowning the gradients in additive noise (annealing the learning rate) or by making restrictive assumptions on the \sg noise covariance and the geometry of the loss landscape. Extensive experimental validations indicate that our proposal is competitive with the state-of-the-art on \sgmcmc, while being much more practical to use.
翻訳日:2022-11-23 13:42:20 公開日:2020-06-09
# バイオインスパイアされたビスタブルリカレントセルは長期記憶を可能にする

A bio-inspired bistable recurrent cell allows for long-lasting memory ( http://arxiv.org/abs/2006.05252v1 )

ライセンス: Link先を確認
Nicolas Vecoven and Damien Ernst and Guillaume Drion(参考訳) recurrent neural networks(rnn)は、メモリを必要とするさまざまなタスクで最先端のパフォーマンスを提供する。 これらの性能は、ゲートリカレントユニット(GRU)や長い短期記憶(LSTM)のようなゲートリカレントセルによって達成されることが多い。 標準ゲートセルは、ネットワークレベルで情報を格納する層内部状態を共有し、長期記憶はネットワーク全体の再帰的接続重みによって形成される。 一方、生体ニューロンは、bistabilityと呼ばれるプロセスを通じて、任意の時間の間、細胞レベルで情報を保持することができる。 不安定性によって、細胞は自身の過去の状態と入力に応じて異なる安定した状態に安定し、過去の情報をニューロンの状態に永続的に保存することができる。 本研究では、生体ニューロンの不安定性からインスピレーションを得て、長期記憶を持つRNNを細胞レベルで埋め込む。 これは、細胞内接続のみを使用しながら、非常に長いメモリを必要とする時系列でのRNN性能を強く改善することが示されている(すべてのリカレント接続はニューロンからそれ自身、すなわちニューロン状態は他のニューロンの状態の影響を受けない)新しいビスタブル生物学的にインスパイアされた新しいリカレント細胞の導入につながっている。 さらに、この細胞に繰り返し神経調節を施すことで、標準のGRU細胞と結合することができ、GRUの生物学的有用性への一歩を踏み出すことができる。

Recurrent neural networks (RNNs) provide state-of-the-art performances in a wide variety of tasks that require memory. These performances can often be achieved thanks to gated recurrent cells such as gated recurrent units (GRU) and long short-term memory (LSTM). Standard gated cells share a layer internal state to store information at the network level, and long term memory is shaped by network-wide recurrent connection weights. Biological neurons on the other hand are capable of holding information at the cellular level for an arbitrary long amount of time through a process called bistability. Through bistability, cells can stabilize to different stable states depending on their own past state and inputs, which permits the durable storing of past information in neuron state. In this work, we take inspiration from biological neuron bistability to embed RNNs with long-lasting memory at the cellular level. This leads to the introduction of a new bistable biologically-inspired recurrent cell that is shown to strongly improves RNN performance on time-series which require very long memory, despite using only cellular connections (all recurrent connections are from neurons to themselves, i.e. a neuron state is not influenced by the state of other neurons). Furthermore, equipping this cell with recurrent neuromodulation permits to link them to standard GRU cells, taking a step towards the biological plausibility of GRU.
翻訳日:2022-11-23 13:35:14 公開日:2020-06-09
# ユーザ体験を近似する医療エンティティ認識システムの広範囲誤り解析と学習に基づく評価

Extensive Error Analysis and a Learning-Based Evaluation of Medical Entity Recognition Systems to Approximate User Experience ( http://arxiv.org/abs/2006.05281v1 )

ライセンス: Link先を確認
Isar Nejadgholi, Kathleen C. Fraser and Berry De Bruijn(参考訳) 医療機関認識システムによって抽出されたエンティティを、テストセット上でゴールドスタンダードアノテーションと比較すると、2種類のミスマッチが発生し、ラベルミスマッチまたはスパンミスマッチが発生する可能性がある。 ここでは、スパンミスマッチに注目し、スパンアノテーションの主観性により、その重症度が深刻なエラーから完全に許容されるエンティティ抽出に変化することを示す。 ドメイン固有のBERTベースのNERシステムでは、25%のエラーが同じラベルを持ち、ゴールドスタンダードエンティティと重複することを示した。 これらのミスマッチの90%以上がユーザによって受け入れられ、あるいは部分的に受け入れられていることを示す専門家の判断を収集した。 NERシステムのトレーニングセットを用いて、高速で軽量なエンティティ分類器を構築し、そのようなミスマッチのユーザエクスペリエンスを、それらを受け入れたり拒否したりすることで近似した。 この分類器によってなされる決定は、学習ベースのf-scoreを計算するために使用され、これは、リラックスしたf-scoreよりも、ユーザの経験を許すよりもよい近似であることが示されている。 2つのデータセットで学習した各種深層医療エンティティ認識モデルに対して,提案評価指標を適用した結果が得られた。

When comparing entities extracted by a medical entity recognition system with gold standard annotations over a test set, two types of mismatches might occur, label mismatch or span mismatch. Here we focus on span mismatch and show that its severity can vary from a serious error to a fully acceptable entity extraction due to the subjectivity of span annotations. For a domain-specific BERT-based NER system, we showed that 25% of the errors have the same labels and overlapping span with gold standard entities. We collected expert judgement which shows more than 90% of these mismatches are accepted or partially accepted by the user. Using the training set of the NER system, we built a fast and lightweight entity classifier to approximate the user experience of such mismatches through accepting or rejecting them. The decisions made by this classifier are used to calculate a learning-based F-score which is shown to be a better approximation of a forgiving user's experience than the relaxed F-score. We demonstrated the results of applying the proposed evaluation metric for a variety of deep learning medical entity recognition models trained with two datasets.
翻訳日:2022-11-23 13:34:08 公開日:2020-06-09
# 補間によるパーソナライズド言語モデリングのための手法の検討と拡張

Examination and Extension of Strategies for Improving Personalized Language Modeling via Interpolation ( http://arxiv.org/abs/2006.05469v1 )

ライセンス: Link先を確認
Liqun Shao, Sahitya Mantravadi, Tom Manzini, Alejandro Buendia, Manon Knoertzer, Soundar Srinivasan, and Chris Quirk(参考訳) 本稿では,パーソナライズされた言語モデルとメソッドを補間し,OoVトークンを扱い,パーソナライズされた言語モデルを改善するための新しい手法について述べる。 redditの公開データを用いて,グローバルなlstmベースのオーサリングモデルをユーザパーソナライズしたn-gramモデルで補間することにより,ユーザレベルでのオフラインメトリクスの改善を実証する。 oovのペナルティと補間係数を統一したバックオフでこのアプローチを最適化することで、80%以上のユーザが1ユーザあたり平均5.2%のパープレキシティリフトを受け取り、パープレキシティのリフトを受け取ることを観察した。 この調査では、NLIの構築における以前の作業を拡張し、下流タスクのメトリクスの堅牢性を改善します。

In this paper, we detail novel strategies for interpolating personalized language models and methods to handle out-of-vocabulary (OOV) tokens to improve personalized language models. Using publicly available data from Reddit, we demonstrate improvements in offline metrics at the user level by interpolating a global LSTM-based authoring model with a user-personalized n-gram model. By optimizing this approach with a back-off to uniform OOV penalty and the interpolation coefficient, we observe that over 80% of users receive a lift in perplexity, with an average of 5.2% in perplexity lift per user. In doing this research we extend previous work in building NLIs and improve the robustness of metrics for downstream tasks.
翻訳日:2022-11-23 13:33:49 公開日:2020-06-09
# 事前学習言語モデルを用いた教師なしパラフレーズ生成

Unsupervised Paraphrase Generation using Pre-trained Language Models ( http://arxiv.org/abs/2006.05477v1 )

ライセンス: Link先を確認
Chaitra Hegde, Shrikumar Patil(参考訳) 大規模事前学習型言語モデルは、様々な自然言語タスクにおいて非常に強力なアプローチであることが証明されている。 OpenAI の GPT-2 \cite{radford2019 languages} は、流動的で、十分に定式化された、文法的に一貫性のあるテキストとフレーズ補完を生成する能力で有名である。 本稿では,このgpt-2の生成能力を利用してラベル付きデータからの監視なしにパラフレーズを生成する。 本研究は,他の教師あり教師なしアプローチとの比較と,データ拡張にパラフレーズを用いることが,分類などの下流タスクに与える影響について検討する。 実験の結果,我々のモデルで生成したパラフレーズは質が良く,多種多様であり,データ拡張に使用する場合のダウンストリームタスク性能が向上することがわかった。

Large scale Pre-trained Language Models have proven to be very powerful approach in various Natural language tasks. OpenAI's GPT-2 \cite{radford2019language} is notable for its capability to generate fluent, well formulated, grammatically consistent text and for phrase completions. In this paper we leverage this generation capability of GPT-2 to generate paraphrases without any supervision from labelled data. We examine how the results compare with other supervised and unsupervised approaches and the effect of using paraphrases for data augmentation on downstream tasks such as classification. Our experiments show that paraphrases generated with our model are of good quality, are diverse and improves the downstream task performance when used for data augmentation.
翻訳日:2022-11-23 13:33:34 公開日:2020-06-09
# 最適連続学習は完全記憶であり、NPハードである

Optimal Continual Learning has Perfect Memory and is NP-hard ( http://arxiv.org/abs/2006.05188v1 )

ライセンス: Link先を確認
Jeremias Knoblauch, Hisham Husain, Tom Diethe(参考訳) 連続学習(CL)アルゴリズムは、連続的に観察された複数のタスクにまたがる予測や表現を漸進的に学習する。 CLアルゴリズムを確実に動作させ、いわゆる破滅的忘れを避けることは、永続的な課題である。 本稿では,その理由を説明する理論的アプローチを考案する。 特に、悲惨な忘れ物を避けるために、CLアルゴリズムが保持しなければならない計算特性を導出する。 我々の主な発見は、このような最適CLアルゴリズムが一般にNPハード問題を解き、それを行うには完全なメモリを必要とすることである。 この結果は理論的な関心を抱くだけでなく、経験的リプレイ、エピソードメモリ、および正規化に基づくアプローチに対するコアセットを用いたCLアルゴリズムの優れた性能も説明できる。

Continual Learning (CL) algorithms incrementally learn a predictor or representation across multiple sequentially observed tasks. Designing CL algorithms that perform reliably and avoid so-called catastrophic forgetting has proven a persistent challenge. The current paper develops a theoretical approach that explains why. In particular, we derive the computational properties which CL algorithms would have to possess in order to avoid catastrophic forgetting. Our main finding is that such optimal CL algorithms generally solve an NP-hard problem and will require perfect memory to do so. The findings are of theoretical interest, but also explain the excellent performance of CL algorithms using experience replay, episodic memory and core sets relative to regularization-based approaches.
翻訳日:2022-11-23 13:26:16 公開日:2020-06-09
# DeepFair: 推奨システムの公正性を改善するためのディープラーニング

DeepFair: Deep Learning for Improving Fairness in Recommender Systems ( http://arxiv.org/abs/2006.05255v1 )

ライセンス: Link先を確認
Jes\'us Bobadilla, Ra\'ul Lara-Cabrera, \'Angel Gonz\'alez-Prieto, Fernando Ortega(参考訳) レコメンダーシステムにおけるバイアス管理の欠如は、少数派が不公平な勧告を受けることになる。 さらに、株式と正確性の間のトレードオフは、両方の基準を満たす勧告を得ることを困難にしている。 本稿では,ユーザの人口統計情報を知ることなく,公平さと正確さを最適にバランスさせるDeep Learning based Collaborative Filteringアルゴリズムを提案する。 実験の結果,精度を損なうことなく適切な推薦を行うことが可能であることがわかった。

The lack of bias management in Recommender Systems leads to minority groups receiving unfair recommendations. Moreover, the trade-off between equity and precision makes it difficult to obtain recommendations that meet both criteria. Here we propose a Deep Learning based Collaborative Filtering algorithm that provides recommendations with an optimum balance between fairness and accuracy without knowing demographic information about the users. Experimental results show that it is possible to make fair recommendations without losing a significant proportion of accuracy.
翻訳日:2022-11-23 13:26:04 公開日:2020-06-09
# 教師なしドメイン適応のための暗黙のクラス定義ドメインアライメント

Implicit Class-Conditioned Domain Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2006.04996v1 )

ライセンス: Link先を確認
Xiang Jiang, Qicheng Lao, Stan Matwin, Mohammad Havaei(参考訳) 本稿では,非教師なしドメイン適応へのアプローチについて,クラス条件付きドメインアライメントの観点から,ドメイン内クラス不均衡とドメイン間クラス分散シフトの実際的考察に強く焦点をあてた。 現在のクラス条件付きドメインアライメントの方法は、ターゲットドメインの擬似ラベル推定に基づいて損失関数を明示的に最小化することを目的としている。 しかし、これらの手法はエラー蓄積の形で擬似ラベルバイアスを被る。 擬似ラベルから直接モデルパラメータの明示的な最適化の必要性を除去する手法を提案する。 その代わり、サンプル選択手順が擬似ラベルによって暗黙的に導かれるサンプリングベースの暗黙的アライメントアプローチを提案する。 理論的解析により,非整合クラスにおけるドメイン識別器のショートカットの存在が明らかとなり,ドメイン認識学習を容易にする暗黙のアライメントアプローチによって解決される。 実験結果とアブレーション研究により,提案手法の有効性が確認された。特にドメイン内クラス不均衡やドメイン間クラス分布シフトの存在において。

We present an approach for unsupervised domain adaptation---with a strong focus on practical considerations of within-domain class imbalance and between-domain class distribution shift---from a class-conditioned domain alignment perspective. Current methods for class-conditioned domain alignment aim to explicitly minimize a loss function based on pseudo-label estimations of the target domain. However, these methods suffer from pseudo-label bias in the form of error accumulation. We propose a method that removes the need for explicit optimization of model parameters from pseudo-labels directly. Instead, we present a sampling-based implicit alignment approach, where the sample selection procedure is implicitly guided by the pseudo-labels. Theoretical analysis reveals the existence of a domain-discriminator shortcut in misaligned classes, which is addressed by the proposed implicit alignment approach to facilitate domain-adversarial learning. Empirical results and ablation studies confirm the effectiveness of the proposed approach, especially in the presence of within-domain class imbalance and between-domain class distribution shift.
翻訳日:2022-11-23 13:25:06 公開日:2020-06-09
# ボンバス種画像分類

Bombus Species Image Classification ( http://arxiv.org/abs/2006.11374v1 )

ライセンス: Link先を確認
Venkat Margapuri, George Lavezzi, Robert Stewart, Dan Wagner(参考訳) 昆虫学者、生態学者等は、フィールドワークや研究で遭遇するハチの種を迅速かつ正確に同定するのに苦労している。 現在のプロセスでは、ミツバチを装着し、適切な分類のための分類の専門家に物理的に出荷する必要がある。 本研究では,移動学習から派生した画像分類システムが,この課題に対処できるかどうかを検討した。 Google Inception、Oxford VGG16、VGG19、Microsoft ResNet 50を使いました。 resnetがそうではなかったのに対し、インセプションとvgg分類器は利用可能なデータからバンブルミツバチの種を識別することに成功した。 個々の分類器は, 単一種識別において最大23%, 44%のTop-3ラベルを達成し, 複合モデルでは27%, 50%が良好であった。 29種の5000以上のラベル付き画像と、59 -315の画像で表される個々の種によって、パフォーマンスが最も阻害されたと感じています。

Entomologists, ecologists and others struggle to rapidly and accurately identify the species of bumble bees they encounter in their field work and research. The current process requires the bees to be mounted, then physically shipped to a taxonomic expert for proper categorization. We investigated whether an image classification system derived from transfer learning can do this task. We used Google Inception, Oxford VGG16 and VGG19 and Microsoft ResNet 50. We found Inception and VGG classifiers were able to make some progress at identifying bumble bee species from the available data, whereas ResNet was not. Individual classifiers achieved accuracies of up to 23% for single species identification and 44% top-3 labels, where a composite model performed better, 27% and 50%. We feel the performance was most hampered by our limited data set of 5,000-plus labeled images of 29 species, with individual species represented by 59 -315 images.
翻訳日:2022-11-23 13:23:55 公開日:2020-06-09
# Deep Visual Reasoning:初期シーン画像からタスクと動作計画のためのアクションシーケンスを予測する学習

Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image ( http://arxiv.org/abs/2006.05398v1 )

ライセンス: Link先を確認
Danny Driess, Jung-Su Ha, Marc Toussaint(参考訳) 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。 典型的なTAMP問題は、シンボリックな離散レベル(例えば一階述語論理)の推論と非線形軌道最適化のような連続的な運動計画を組み合わせることで定式化される。 可能な離散的なアクションシーケンスの組合せの複雑さのため、ソリューションを見つけるために多くの最適化や動き計画の問題が解決され、これらのアプローチのスケーラビリティが制限される。 この組み合わせの複雑さを回避するために、シーンの初期画像に基づいて、理想的には1つの動作計画問題のみを解決し、全体のTAMP問題の解を求めるような、有望な離散的なアクションシーケンスを直接予測するニューラルネットワークを開発する。 重要な側面として、我々の手法は、一度に2つのオブジェクトだけをトレーニングしながら、多数の異なるオブジェクトを持つシーンに一般化する。 これは、固定された特徴ベクトルの代わりに、画像内のシーンのオブジェクトをニューラルネットワークへの入力としてエンコードすることで可能となる。 結果は、数桁のランタイム改善を示している。 ビデオ: https://youtu.be/i8yEbbvoEk

In this paper, we propose a deep convolutional recurrent neural network that predicts action sequences for task and motion planning (TAMP) from an initial scene image. Typical TAMP problems are formalized by combining reasoning on a symbolic, discrete level (e.g. first-order logic) with continuous motion planning such as nonlinear trajectory optimization. Due to the great combinatorial complexity of possible discrete action sequences, a large number of optimization/motion planning problems have to be solved to find a solution, which limits the scalability of these approaches. To circumvent this combinatorial complexity, we develop a neural network which, based on an initial image of the scene, directly predicts promising discrete action sequences such that ideally only one motion planning problem has to be solved to find a solution to the overall TAMP problem. A key aspect is that our method generalizes to scenes with many and varying number of objects, although being trained on only two objects at a time. This is possible by encoding the objects of the scene in images as input to the neural network, instead of a fixed feature vector. Results show runtime improvements of several magnitudes. Video: https://youtu.be/i8yyEbbvoEk
翻訳日:2022-11-23 13:17:25 公開日:2020-06-09
# ナイーブ・セマンティクスマップを用いた物理的制約付き短期車両軌道予測

Physically constrained short-term vehicle trajectory forecasting with naive semantic maps ( http://arxiv.org/abs/2006.05159v1 )

ライセンス: Link先を確認
Albert Dulian and John C. Murray(参考訳) 都市環境は高いレベルの複雑さを示すため、近くのエージェントの短期的な動きを正確に予測できることは、自動運転車(AV)に埋め込まれた安全システムにとって極めて重要である。 この問題は、例えば、位置、速度、加速度などの過去の動きデータに基づいて、与えられたエージェントの将来の座標列を生成し、現在のアプローチでは、シーンの物理的制約を無視する確率が妥当であることを示す。 本稿では, cnn と lstm エンコーダ・デコーダ・アーキテクチャの組み合わせに基づくモデルを提案し, 意味地図から関連する道路特徴を抽出し, エージェントの一般動作を学習し, この学習表現を用いて, 短期的将来の軌跡を予測する。 私たちは、都市部からのデータを提供する公開データセット上でモデルをトレーニングし、検証し、挑戦的で不確実なシナリオでそれを検証します。 我々は,道路境界を考慮した将来の動きを予測できるだけでなく,当初の訓練よりも長い時間的地平線の軌道を効果的かつ正確に予測できることを示した。

Urban environments manifest a high level of complexity, and therefore it is of vital importance for safety systems embedded within autonomous vehicles (AVs) to be able to accurately predict the short-term future motion of nearby agents. This problem can be further understood as generating a sequence of future coordinates for a given agent based on its past motion data e.g. position, velocity, acceleration etc, and whilst current approaches demonstrate plausible results they have a propensity to neglect a scene's physical constrains. In this paper we propose the model based on a combination of the CNN and LSTM encoder-decoder architecture that learns to extract a relevant road features from semantic maps as well as general motion of agents and uses this learned representation to predict their short-term future trajectories. We train and validate the model on the publicly available dataset that provides data from urban areas, allowing us to examine it in challenging and uncertain scenarios. We show that our model is not only capable of anticipating future motion whilst taking into consideration road boundaries, but can also effectively and precisely predict trajectories for a longer time horizon than initially trained for.
翻訳日:2022-11-23 13:17:04 公開日:2020-06-09
# 深層ニューラルネットワークにおける神経進化の現状と課題

Neuroevolution in Deep Neural Networks: Current Trends and Future Challenges ( http://arxiv.org/abs/2006.05415v1 )

ライセンス: Link先を確認
Edgar Galv\'an and Peter Mooney(参考訳) 人工深層ニューラルネットワーク(DNN)のアーキテクチャ構成や学習、トレーニングには、様々な方法が適用されている。 これらの手法は、ほとんどの問題やアプリケーションにおいて、DNNの成功や失敗において重要な役割を果たす。 進化的アルゴリズム(EA)はDNNの自動最適化とトレーニングのための計算可能な方法として勢いを増している。 Neuroevolution(神経進化)とは、EAを用いたDNNの自動構成とトレーニングのプロセスを記述する用語である。 文献には多くの研究があるが、DNNにおける神経進化的アプローチの使用の強さと限界にのみ焦点を絞った総合的な調査は存在しない。 このような調査の長期欠如は、DNNの研究者が自身の研究に神経進化的手法を採用する可能性を防ぎ、現実のディープラーニング問題におけるパフォーマンスの向上とより広範な応用の機会を失うことにつながる。 本稿では,DNNのアーキテクチャ構成とトレーニングにEAを用いた最先端技術に関する総合的な調査,議論,評価を行う。 本研究は,神経進化における最も関連する課題と課題を浮き彫りにして,将来有望な研究の方向性を明らかにする。

A variety of methods have been applied to the architectural configuration and learning or training of artificial deep neural networks (DNN). These methods play a crucial role in the success or failure of the DNN for most problems and applications. Evolutionary Algorithms (EAs) are gaining momentum as a computationally feasible method for the automated optimisation and training of DNNs. Neuroevolution is a term which describes these processes of automated configuration and training of DNNs using EAs. While many works exist in the literature, no comprehensive surveys currently exist focusing exclusively on the strengths and limitations of using neuroevolution approaches in DNNs. Prolonged absence of such surveys can lead to a disjointed and fragmented field preventing DNNs researchers potentially adopting neuroevolutionary methods in their own research, resulting in lost opportunities for improving performance and wider application within real-world deep learning problems. This paper presents a comprehensive survey, discussion and evaluation of the state-of-the-art works on using EAs for architectural configuration and training of DNNs. Based on this survey, the paper highlights the most pertinent current issues and challenges in neuroevolution and identifies multiple promising future research directions.
翻訳日:2022-11-23 13:16:43 公開日:2020-06-09
# グラフ対応トランス:すべてのグラフは必要か?

Graph-Aware Transformer: Is Attention All Graphs Need? ( http://arxiv.org/abs/2006.05213v1 )

ライセンス: Link先を確認
Sanghyun Yoo, Young-Seok Kim, Kang Hyun Lee, Kuhwan Jeong, Junhwi Choi, Hoshik Lee, Young Sang Choi(参考訳) グラフは、多くのドメインにおけるリレーショナルおよび構造情報を表す自然なデータ構造である。 グラフの分類やグラフ生成を含む幅広いグラフデータアプリケーションをカバーするためには、エンコーダとグラフデータを扱うデコーダからなる汎用的で柔軟なモデルが望ましい。 代表的エンコーダ・デコーダモデルであるTransformerは,特に自然言語処理における様々なタスクにおいて優れた性能を示すが,その非逐次特性のため,グラフではすぐには利用できない。 この非互換性に対処するために、グラフ全体をエンドツーエンドでエンコードおよびデコード可能な、最初のトランスフォーマーベースのモデルであるgraph-aware transformer (grat)を提案する。 GRATは、エッジ情報に適応する自己保持機構と、各復号ステップ用のサブグラフ符号化パスとノード・アンド・エッジ生成パスからなる2パスアプローチに基づく自己回帰復号機構を備える。 QM9データセット上の分子特性予測や有機分子合成領域における分子グラフ生成などのエンコーダ・デコーダ・タスクなどのエンコーダ・ベースのタスクを含む,複数のセットアップ上でGRATを実証的に評価した。 GRATはQM9ベンチマークで4つの回帰タスクに対する最先端のパフォーマンスを含む非常に有望な結果を示している。

Graphs are the natural data structure to represent relational and structural information in many domains. To cover the broad range of graph-data applications including graph classification as well as graph generation, it is desirable to have a general and flexible model consisting of an encoder and a decoder that can handle graph data. Although the representative encoder-decoder model, Transformer, shows superior performance in various tasks especially of natural language processing, it is not immediately available for graphs due to their non-sequential characteristics. To tackle this incompatibility, we propose GRaph-Aware Transformer (GRAT), the first Transformer-based model which can encode and decode whole graphs in end-to-end fashion. GRAT is featured with a self-attention mechanism adaptive to the edge information and an auto-regressive decoding mechanism based on the two-path approach consisting of sub-graph encoding path and node-and-edge generation path for each decoding step. We empirically evaluated GRAT on multiple setups including encoder-based tasks such as molecule property predictions on QM9 datasets and encoder-decoder-based tasks such as molecule graph generation in the organic molecule synthesis domain. GRAT has shown very promising results including state-of-the-art performance on 4 regression tasks in QM9 benchmark.
翻訳日:2022-11-23 13:16:09 公開日:2020-06-09
# 神経物理学者:画像シーケンスから物理力学を学ぶ

Neural Physicist: Learning Physical Dynamics from Image Sequences ( http://arxiv.org/abs/2006.05044v1 )

ライセンス: Link先を確認
Baocheng Zhu, Shijun Wang and James Zhang(参考訳) 深層ニューラルネットワークを用いて画像シーケンスから直接物理力学を学習するニューラルフィジスト(NeurPhy)という新しいアーキテクチャを提案する。 大域的なシステムのパラメータを考えると、状態の時間進化は基礎となる物理法則によって制御される。 エンドツーエンドで有意義なシステム表現を学習し、長期的な予測を促進する正確な状態遷移ダイナミクスを推定する方法は、長年の課題でした。 本稿では,表現学習と状態空間モデル(ssms)の最近の進歩を活かし,変動オートエンコーダ(vae)を用いて各時間ステップにおけるマルコフの動的状態を抽出するニューラルプロセス(np)と,動的遷移を学習するための非線形非線形非線形確率的状態空間モデルを提案する。 ニューロフィを2つの物理的実験環境、すなわち減衰振子と惑星軌道運動に適用し、有望な結果を得る。 本モデルでは,物理的に有意な状態表現を抽出するだけでなく,画像シーケンスの長期予測を可能にする状態遷移ダイナミクスを学習する。 さらに、潜在状態空間の多様体次元から、基礎となる物理系の自由度(dof)を容易に識別することができる。

We present a novel architecture named Neural Physicist (NeurPhy) to learn physical dynamics directly from image sequences using deep neural networks. For any physical system, given the global system parameters, the time evolution of states is governed by the underlying physical laws. How to learn meaningful system representations in an end-to-end way and estimate accurate state transition dynamics facilitating long-term prediction have been long-standing challenges. In this paper, by leveraging recent progresses in representation learning and state space models (SSMs), we propose NeurPhy, which uses variational auto-encoder (VAE) to extract underlying Markovian dynamic state at each time step, neural process (NP) to extract the global system parameters, and a non-linear non-recurrent stochastic state space model to learn the physical dynamic transition. We apply NeurPhy to two physical experimental environments, i.e., damped pendulum and planetary orbits motion, and achieve promising results. Our model can not only extract the physically meaningful state representations, but also learn the state transition dynamics enabling long-term predictions for unseen image sequences. Furthermore, from the manifold dimension of the latent state space, we can easily identify the degree of freedom (DoF) of the underlying physical systems.
翻訳日:2022-11-23 13:15:24 公開日:2020-06-09
# 種子変数の活用による安定予測

Stable Prediction via Leveraging Seed Variable ( http://arxiv.org/abs/2006.05076v1 )

ライセンス: Link先を確認
Kun Kuang, Bo Li, Peng Cui, Yue Liu, Jianrong Tao, Yueting Zhuang and Fei Wu(参考訳) 本稿では,テスト分布が非依存であり,トレーニングデータとは全く異なる可能性のある,未知のテストデータ間の安定予測の問題に焦点を当てる。 このような場合、従来の機械学習手法では、非因果変数によって引き起こされるトレーニングデータの微妙な相関を予測に利用する可能性がある。 これらのスプリアス相関はデータ間で変更可能であり、データ間で予測が不安定になる。 因果変数と応答変数の関係がデータ間で不変であると仮定することにより,これらの因果変数を先行変数として分離し,安定な予測を行う条件独立テストベースアルゴリズムを提案する。 因果変数と非因果変数の独立性を仮定することにより, 理論的および実験実験により, テストデータ間で安定な予測を行うために, 因果変数と非因果変数を正確に分離できることを示す。 合成データと実世界のデータセットの両方に関する広範な実験により、本アルゴリズムは安定予測のために最先端の手法よりも優れていることが証明された。

In this paper, we focus on the problem of stable prediction across unknown test data, where the test distribution is agnostic and might be totally different from the training one. In such a case, previous machine learning methods might exploit subtly spurious correlations in training data induced by non-causal variables for prediction. Those spurious correlations are changeable across data, leading to instability of prediction across data. By assuming the relationships between causal variables and response variable are invariant across data, to address this problem, we propose a conditional independence test based algorithm to separate those causal variables with a seed variable as priori, and adopt them for stable prediction. By assuming the independence between causal and non-causal variables, we show, both theoretically and with empirical experiments, that our algorithm can precisely separate causal and non-causal variables for stable prediction across test data. Extensive experiments on both synthetic and real-world datasets demonstrate that our algorithm outperforms state-of-the-art methods for stable prediction.
翻訳日:2022-11-23 13:14:49 公開日:2020-06-09