このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210315となっている論文です。

PDF登録状況(公開日: 20210315)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 確率的タンパク質配列モデルの生成能 [全文訳有]

Generative Capacity of Probabilistic Protein Sequence Models ( http://arxiv.org/abs/2012.02296v2 )

ライセンス: CC BY 4.0
Francisco McGee, Quentin Novinger, Ronald M. Levy, Vincenzo Carnevale, Allan Haldane(参考訳) ポッツモデルと変分オートエンコーダ(VAE)は近年、フィットネスランドスケープを探索し、突然変異の影響を予測するために、生成タンパク質配列モデル(GPSM)として人気を集めている。 奨励的な結果にもかかわらず、GPSM生成確率分布の定量的特徴と比較はいまだに欠落している。 GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。 我々は,最近注目されている3つのGPSM(Potts Hamiltonian, VAE, サイト非依存モデル)の「生成能力」を評価するために,自然および合成データセットを用いた一連の統計データを開発した。 ポッツハミルトニアンモデルの生成能力は、モデルによって生成された高次突然変異統計量と自然数列で観測されるものとの一致が最大であることを示す。 対照的に、VAEの生成能力は、ペアのポットとサイト非依存モデルの間にある。 重要な点は,我々が開発した高次シーケンス共変統計量の観点からgpsm生成能力を測定し,エピスタシスの役割を強調したgpsm精度の評価と解釈のための新しい枠組みを提供することである。

Potts models and variational autoencoders (VAEs) have recently gained popularity as generative protein sequence models (GPSMs) to explore fitness landscapes and predict the effect of mutations. Despite encouraging results, quantitative characterization and comparison of GPSM-generated probability distributions is still lacking. It is currently unclear whether GPSMs can faithfully reproduce the complex multi-residue mutation patterns observed in natural sequences arising due to epistasis. We develop a set of sequence statistics to assess the "generative capacity" of three GPSMs of recent interest: the pairwise Potts Hamiltonian, the VAE, and the site-independent model, using natural and synthetic datasets. We show that the generative capacity of the Potts Hamiltonian model is the largest, in that the higher order mutational statistics generated by the model agree with those observed for natural sequences. In contrast, we show that the VAE's generative capacity lies between the pairwise Potts and site-independent models. Importantly, our work measures GPSM generative capacity in terms of higher-order sequence covariation statistics which we have developed, and provides a new framework for evaluating and interpreting GPSM accuracy that emphasizes the role of epistasis.
翻訳日:2021-05-23 16:21:44 公開日:2021-03-15
# (参考訳) 逆転学習は時間逆転型逆転ゲームである [全文訳有]

Contrastive Divergence Learning is a Time Reversal Adversarial Game ( http://arxiv.org/abs/2012.03295v3 )

ライセンス: CC BY 4.0
Omer Yair, Tomer Michaeli(参考訳) 対照的発散(CD)学習は、非正規化統計モデルをデータサンプルに適合させる古典的な方法である。 その広範にわたる使用にもかかわらず、このアルゴリズムの収束特性はまだよく分かっていない。 難易度の主な源は、損失の勾配を導出するために使われる不当な近似である。 本稿では,アルゴリズムによって実際に最適化されている目的に対して,いかなる近似も必要とせず,新たな光を放つCDの別の導出を提案する。 具体的には,CDは,モデルから生成したマルコフ連鎖が時間反転したかどうかを識別する逆学習法であることを示す。 したがって、GAN (Generative Adversarial Network) は10年以上前から存在するが、CDは実際にはこれらの技術と密接に関連している。 私たちの導出は、cdの更新ステップは任意の固定目的関数の勾配として表現できないと結論づけた以前の観測とよく一致する。 加えて、副産物として、我々の導出は、下層のマルコフ鎖が欠如している場合に必要となるメトロポリス・ハスティング拒否の代替として使用できる単純な修正を明らかにする(例えば、)。 大きなステップでランジュバンダイナミクスを使用する場合)。

Contrastive divergence (CD) learning is a classical method for fitting unnormalized statistical models to data samples. Despite its wide-spread use, the convergence properties of this algorithm are still not well understood. The main source of difficulty is an unjustified approximation which has been used to derive the gradient of the loss. In this paper, we present an alternative derivation of CD that does not require any approximation and sheds new light on the objective that is actually being optimized by the algorithm. Specifically, we show that CD is an adversarial learning procedure, where a discriminator attempts to classify whether a Markov chain generated from the model has been time-reversed. Thus, although predating generative adversarial networks (GANs) by more than a decade, CD is, in fact, closely related to these techniques. Our derivation settles well with previous observations, which have concluded that CD's update steps cannot be expressed as the gradients of any fixed objective function. In addition, as a byproduct, our derivation reveals a simple correction that can be used as an alternative to Metropolis-Hastings rejection, which is required when the underlying Markov chain is inexact (e.g. when using Langevin dynamics with a large step).
翻訳日:2021-05-22 05:30:27 公開日:2021-03-15
# 物理系の非線形ダイナミクス学習のための変分オートエンコーダ

Variational Autoencoders for Learning Nonlinear Dynamics of Physical Systems ( http://arxiv.org/abs/2012.03448v2 )

ライセンス: Link先を確認
Ryan Lopez and Paul J. Atzberger(参考訳) パラメータ化されたPDEとメカニクスから生じる非線形システムのパジュネート表現を学習するために,事前の物理情報を組み込むデータ駆動手法を開発した。 本手法は、非線形状態空間モデルから学習するための変分オートエンコーダ(VAE)に基づく。 我々は、一般多様体潜在空間表現を通して幾何学的および位相的先行を組み込む方法を開発した。 非線形バーガース方程式と制約付き機械システムの低次元表現を学習する手法の性能について検討した。

We develop data-driven methods for incorporating physical information for priors to learn parsimonious representations of nonlinear systems arising from parameterized PDEs and mechanics. Our approach is based on Variational Autoencoders (VAEs) for learning from observations nonlinear state space models. We develop ways to incorporate geometric and topological priors through general manifold latent space representations. We investigate the performance of our methods for learning low dimensional representations for the nonlinear Burgers equation and constrained mechanical systems.
翻訳日:2021-05-16 21:32:34 公開日:2021-03-15
# 最小値近傍における多クラスロジスティック回帰の収束率

Convergence Rates for Multi-classs Logistic Regression Near Minimum ( http://arxiv.org/abs/2012.04576v3 )

ライセンス: Link先を確認
Dwight Nwaigwe, Marek Rychlik(参考訳) 本稿では、ニューラルネットワークの既知のクラスである多クラスロジスティック回帰をトレーニングするための収束率の構成的推定について述べる。 数十年にわたる成功にもかかわらず、我々の厳格な結果は、実践と機械学習理論の間のギャップを反映して、新しいように見える。 ニューラルネットワークのトレーニングは通常、勾配降下法のバリエーションを通じて行われる。 損失関数の最小値が存在し、勾配降下が訓練方法として使用される場合、学習率と収束率を最小値に関連付ける式を提供する。 この方法は、損失関数のヘッセンの条件数の推定を含む。 また、最小が存在するのは自動ではないため、最小の存在も議論する。 収束を保証する1つの方法は、トレーニングデータセットの各クラスに正の確率を割り当てることである。

In the current paper we provide constructive estimation of the convergence rate for training a known class of neural networks: the multi-class logistic regression. Despite several decades of successful use, our rigorous results appear new, reflective of the gap between practice and theory of machine learning. Training a neural network is typically done via variations of the gradient descent method. If a minimum of the loss function exists and gradient descent is used as the training method, we provide an expression that relates learning rate to the rate of convergence to the minimum. The method involves an estimate of the condition number of the Hessian of the loss function. We also discuss the existence of a minimum, as it is not automatic that a minimum exists. One method of ensuring convergence is by assigning positive probabiity to every class in the training dataset.
翻訳日:2021-05-16 20:42:50 公開日:2021-03-15
# イベントカメラによる二進二乗四乗マーカーの検出

Detection of Binary Square Fiducial Markers Using an Event Camera ( http://arxiv.org/abs/2012.06516v3 )

ライセンス: Link先を確認
Hamid Sarmadi, Rafael Mu\~noz-Salinas, Miguel A. Olivares-Mendez, Rafael Medina-Carnicer(参考訳) イベントカメラは、絶対強度値ではなく、光強度(イベント)の変化を出力する新しいタイプのイメージセンサーである。 非常に高い時間分解能と高いダイナミックレンジを持つ。 本稿では,イベントカメラを用いて二進二乗マーカーの検出と復号を行う手法を提案する。 我々は,現在のパケットのイベントから生成された画像中の線分を検出することにより,マーカーのエッジを検出する。 線分を結合してマーカー候補を形成する。 マーカーセルのビット値は、境界上のイベントを使用してデコードされる。 我々の知る限りでは、リアルタイムにCPUユニットのみを使用してイベントカメラから直接正方形のバイナリマーカーを検出する方法は他にない。 実験の結果,提案手法の性能はrgb arucoマーカー検出器より優れていることがわかった。 提案手法は単一のcpuスレッドでリアルタイム性能を実現することができる。

Event cameras are a new type of image sensors that output changes in light intensity (events) instead of absolute intensity values. They have a very high temporal resolution and a high dynamic range. In this paper, we propose a method to detect and decode binary square markers using an event camera. We detect the edges of the markers by detecting line segments in an image created from events in the current packet. The line segments are combined to form marker candidates. The bit value of marker cells is decoded using the events on their borders. To the best of our knowledge, no other approach exists for detecting square binary markers directly from an event camera using only the CPU unit in real-time. Experimental results show that the performance of our proposal is much superior to the one from the RGB ArUco marker detector. The proposed method can achieve the real-time performance on a single CPU thread.
翻訳日:2021-05-11 02:57:24 公開日:2021-03-15
# 心電図の学習準備はできているか?

Are We Ready For Learned Cardinality Estimation? ( http://arxiv.org/abs/2012.06743v3 )

ライセンス: Link先を確認
Xiaoying Wang, Changbo Qu, Weiyuan Wu, Jiannan Wang, Qingqing Zhou(参考訳) 基数推定はクエリ最適化において基本だが長い未解決問題である。 近年、異なる研究グループの複数の論文は、学習モデルが既存の濃度推定器を置き換える可能性を常に報告している。 本論文では,先進的な疑問を提起する。 これらの学習された濃度モデルを本番環境に展開する準備はできているか? 私たちの研究は3つの主要部分からなる。 まず、静的環境(すなわちデータ更新なし)に注目し、5つの新しい学習方法と4つの実世界のデータセット上の8つの伝統的な方法を比較する。 その結果,学習モデルの精度は従来の手法よりも高いが,高いトレーニングと推論コストに苦しむことが少なくないことがわかった。 次に、これらの学習モデルが動的環境(すなわち頻繁なデータ更新)の準備ができているかどうかを調べる。 最新の高速なデータに追いつき、さまざまな理由で大きなエラーを返せないことが分かっています。 頻繁でない更新では、パフォーマンスが向上するが、その間に明確な勝者は存在しない。 第3に、学習したモデルについてより深く検討し、いつそれがうまくいかなくなるかを探る。 以上の結果から,学習手法の性能は相関,歪度,ドメインサイズの変化に大きく影響することが示された。 さらに重要なことに、彼らの行動は解釈がずっと難しく、しばしば予測できない。 これらの結果から,2つの有望な研究方向性(学習モデルのコストの制御と学習モデルの信頼性の確保)を特定し,多くの研究機会を提案する。 私たちの研究は、研究者と実践者が協力して、最終的に学習された濃度推定器を実際のデータベースシステムにプッシュするのに役立つことを願っています。

Cardinality estimation is a fundamental but long unresolved problem in query optimization. Recently, multiple papers from different research groups consistently report that learned models have the potential to replace existing cardinality estimators. In this paper, we ask a forward-thinking question: Are we ready to deploy these learned cardinality models in production? Our study consists of three main parts. Firstly, we focus on the static environment (i.e., no data updates) and compare five new learned methods with eight traditional methods on four real-world datasets under a unified workload setting. The results show that learned models are indeed more accurate than traditional methods, but they often suffer from high training and inference costs. Secondly, we explore whether these learned models are ready for dynamic environments (i.e., frequent data updates). We find that they cannot catch up with fast data up-dates and return large errors for different reasons. For less frequent updates, they can perform better but there is no clear winner among themselves. Thirdly, we take a deeper look into learned models and explore when they may go wrong. Our results show that the performance of learned methods can be greatly affected by the changes in correlation, skewness, or domain size. More importantly, their behaviors are much harder to interpret and often unpredictable. Based on these findings, we identify two promising research directions (control the cost of learned models and make learned models trustworthy) and suggest a number of research opportunities. We hope that our study can guide researchers and practitioners to work together to eventually push learned cardinality estimators into real database systems.
翻訳日:2021-05-10 05:12:03 公開日:2021-03-15
# 記号表現を学習したアタリの画素からの計画

Planning from Pixels in Atari with Learned Symbolic Representations ( http://arxiv.org/abs/2012.09126v2 )

ライセンス: Link先を確認
Andrea Dittadi, Frederik K. Drachmann, Thomas Bolander(参考訳) 幅ベース計画法は, 画素入力を用いたAtari 2600領域の最先端性能を示すことが示されている。 1つの成功したアプローチであるRolloutIWは、B-PROSTのブール関数セットで状態を表す。 RolloutIWの強化版である$\pi$-IWは、学習した機能が幅に基づく検索のために手作りのものと競合できることを示している。 本稿では,変分オートエンコーダ(VAE)を利用して,原理的に,かつ監督することなく,画素から直接特徴を学習する。 トレーニングされたVAEの推論モデルは、画素からブール特徴を抽出し、RolloutIWはこれらの特徴を計画している。 その結果、atari 2600のオリジナルのrolloutiwとヒューマン・プロフェッショナル・プレイを上回り、機能セットのサイズを大幅に削減した。

Width-based planning methods have been shown to yield state-of-the-art performance in the Atari 2600 domain using pixel input. One successful approach, RolloutIW, represents states with the B-PROST boolean feature set. An augmented version of RolloutIW, $\pi$-IW, shows that learned features can be competitive with handcrafted ones for width-based search. In this paper, we leverage variational autoencoders (VAEs) to learn features directly from pixels in a principled manner, and without supervision. The inference model of the trained VAEs extracts boolean features from pixels, and RolloutIW plans with these features. The resulting combination outperforms the original RolloutIW and human professional play on Atari 2600 and drastically reduces the size of the feature set.
翻訳日:2021-05-03 03:10:14 公開日:2021-03-15
# ハイプを超えて:機械学習に基づくマルウェア検出の効果とコストの実世界評価

Beyond the Hype: A Real-World Evaluation of the Impact and Cost of Machine Learning-Based Malware Detection ( http://arxiv.org/abs/2012.09214v2 )

ライセンス: Link先を確認
Robert A. Bridges, Sean Oesch, Miki E. Verma, Michael D. Iannacone, Kelly M.T. Huffer, Brian Jewell, Jeff A. Nichols, Brian Weber, Justin M. Beaver, Jared M. Smith, Daniel Scofield, Craig Miles, Thomas Plummer, Mark Daniell, Anne M. Tall(参考訳) 商用で利用可能なマルウェア検出装置の科学的テストが欠如しており、特に機械学習(ML)を用いて目にしない(ゼロデイ)ファイルを正確に分類している。 その結果、利用可能なアプローチの有効性とギャップは不透明であり、エンドユーザがネットワークのセキュリティ決定をインフォームドすることや、研究者が現在の検出器のギャップを狙うことを妨げている。 本稿では,市場をリードする4つのマルウェア検出ツールの科学的評価を行った。 (第1報)MLベースのツールは,既知のファイルに対する検出能力を犠牲にすることなく,どの程度正確なファイル分類を行うのか? (Q2)ホストベースの検出を補完するネットワークレベルのマルウェア検出器を購入する価値はあるか? それぞれのツールを,400以上のゼロデイマルウェアを含む3,536のファイル(2,554,72%,悪質982,28%)に対してテストし,さまざまなファイルタイプとプロトコルでテストしました。 本稿では,検出時間と精度に関する統計的結果を示し,(複数のツールを用いた)補完的分析を考察し,iannaconne & bridgesによる最近のコスト・ベネフィット評価手順の2つの新しい応用法を提案する。 mlベースのツールはゼロデイファイルや実行ファイルの検出に効果的だが、シグネチャベースのツールは全体的な選択肢として優れている。 どちらのネットワークベースのツールも、ホストツールとペアリングした場合にかなりの(シミュレーションされた)節約を提供するが、httpやsmtp以外のプロトコルでは検出率が低い。 以上の結果から,4つのツールはすべてほぼ完璧に正確だが,特に実行ファイルやオフィスファイル以外のファイルタイプではリコールが極めて少ないことが判明した。

There is a lack of scientific testing of commercially available malware detectors, especially those that boast accurate classification of never-before-seen (i.e., zero-day) files using machine learning (ML). The result is that the efficacy and gaps among the available approaches are opaque, inhibiting end users from making informed network security decisions and researchers from targeting gaps in current detectors. In this paper, we present a scientific evaluation of four market-leading malware detection tools to assist an organization with two primary questions: (Q1) To what extent do ML-based tools accurately classify never-before-seen files without sacrificing detection ability on known files? (Q2) Is it worth purchasing a network-level malware detector to complement host-based detection? We tested each tool against 3,536 total files (2,554 or 72% malicious, 982 or 28% benign) including over 400 zero-day malware, and tested with a variety of file types and protocols for delivery. We present statistical results on detection time and accuracy, consider complementary analysis (using multiple tools together), and provide two novel applications of a recent cost-benefit evaluation procedure by Iannaconne & Bridges that incorporates all the above metrics into a single quantifiable cost. While the ML-based tools are more effective at detecting zero-day files and executables, the signature-based tool may still be an overall better option. Both network-based tools provide substantial (simulated) savings when paired with either host tool, yet both show poor detection rates on protocols other than HTTP or SMTP. Our results show that all four tools have near-perfect precision but alarmingly low recall, especially on file types other than executables and office files -- 37% of malware tested, including all polyglot files, were undetected.
翻訳日:2021-05-03 02:47:23 公開日:2021-03-15
# Multi-FinGAN:Multi-F inger Graspsの粗結合サンプリング

Multi-FinGAN: Generative Coarse-To-Fine Sampling of Multi-Finger Grasps ( http://arxiv.org/abs/2012.09696v2 )

ライセンス: Link先を確認
Jens Lundell, Enric Corona, Tran Nguyen Le, Francesco Verdoja, Philippe Weinzaepfel, Gregory Rogez, Francesc Moreno-Noguer, Ville Kyrki(参考訳) パラレルジャウグリップで剛体物体を操作する方法は数多く存在するが、多指ロボットハンドでつかむことは、まだ未解明の研究トピックである。 数本の指の自由度の追加による衝突のない軌道の推論と計画は、これまでのところ計算コストのかかる低速なプロセスを伴う重要な課題である。 本研究では,rgb-d画像から直接高画質把握を合成する高速生成型多指把持サンプリング手法であるmulti-finganを提案する。 特定の分類法に従って把握タイプを区別する分類ネットワークと、洗練された把持ポーズと関節角度を生成する改良ネットワークとからなる粗・細かなモデルを用いて、エンドツーエンドのトレーニングを行うことにより、これを実現する。 本手法を790把持法,20把持法を実フランカ・エミカ・パンダで実験的に検証し,ベンチマークを行った。 本手法を用いた実験はすべて, 把握品質指標と把握成功率の両面で一貫した改善を示した。 注目すべきは,我々のアプローチがベースラインよりも最大20~30倍高速であることだ。 コードはhttps://irobotics.aa lto.fi/multi-fingan/ で入手できる。

While there exists many methods for manipulating rigid objects with parallel-jaw grippers, grasping with multi-finger robotic hands remains a quite unexplored research topic. Reasoning and planning collision-free trajectories on the additional degrees of freedom of several fingers represents an important challenge that, so far, involves computationally costly and slow processes. In this work, we present Multi-FinGAN, a fast generative multi-finger grasp sampling method that synthesizes high quality grasps directly from RGB-D images in about a second. We achieve this by training in an end-to-end fashion a coarse-to-fine model composed of a classification network that distinguishes grasp types according to a specific taxonomy and a refinement network that produces refined grasp poses and joint angles. We experimentally validate and benchmark our method against a standard grasp-sampling method on 790 grasps in simulation and 20 grasps on a real Franka Emika Panda. All experimental results using our method show consistent improvements both in terms of grasp quality metrics and grasp success rate. Remarkably, our approach is up to 20-30 times faster than the baseline, a significant improvement that opens the door to feedback-based grasp re-planning and task informative grasping. Code is available at https://irobotics.aa lto.fi/multi-fingan/ .
翻訳日:2021-05-02 07:13:47 公開日:2021-03-15
# 深部ネットワークにおける分離と集中

Separation and Concentration in Deep Networks ( http://arxiv.org/abs/2012.10424v2 )

ライセンス: Link先を確認
John Zarka, Florentin Guth, St\'ephane Mallat(参考訳) 数値実験により、ディープニューラルネットワーク分類器は、平均付近のクラス分布を段階的に分離し、トレーニングセット上で線形分離性を達成し、フィッシャー判別比を増大させることを示した。 このメカニズムを2種類の演算子で説明する。 符号不変なタイトフレームに適用したバイアスのない整流器は、クラス平均を分離し、フィッシャー比を増大させることができることを示す。 反対に、タイトなフレームに対するソフトスレッショルドはクラス平均を維持しながらクラス内変数を減らすことができる。 分散還元境界はガウス混合モデルで証明される。 画像分類では,学習されていないウェーブレットタイトフレームを用いてクラス平均の分離を実現できることを示す。 散乱変換を定義する。 $1 \times 1$ convolutional tight frames along scattered channel and applied a soft-thresholding lesss in-class variable。 得られた散乱ネットワークは、CIFAR-10とImageNet上のResNet-18の分類精度に達する。

Numerical experiments demonstrate that deep neural network classifiers progressively separate class distributions around their mean, achieving linear separability on the training set, and increasing the Fisher discriminant ratio. We explain this mechanism with two types of operators. We prove that a rectifier without biases applied to sign-invariant tight frames can separate class means and increase Fisher ratios. On the opposite, a soft-thresholding on tight frames can reduce within-class variabilities while preserving class means. Variance reduction bounds are proved for Gaussian mixture models. For image classification, we show that separation of class means can be achieved with rectified wavelet tight frames that are not learned. It defines a scattering transform. Learning $1 \times 1$ convolutional tight frames along scattering channels and applying a soft-thresholding reduces within-class variabilities. The resulting scattering network reaches the classification accuracy of ResNet-18 on CIFAR-10 and ImageNet, with fewer layers and no learned biases.
翻訳日:2021-05-01 18:21:54 公開日:2021-03-15
# (参考訳) ディープラーニングを用いた最適な木探索に向けて [全文訳有]

Towards Optimally Efficient Tree Search with Deep Learning ( http://arxiv.org/abs/2101.02420v4 )

ライセンス: CC BY 4.0
Le He, Ke He, Lisheng Fan, Xianfu Lei, Arumugam Nallanathan and George K. Karagiannidis(参考訳) 本稿では,線形モデルから整数信号を推定する古典整数最小二乗問題について検討する。 問題はnpハードであり、信号処理、バイオインフォマティクス、コミュニケーション、機械学習など、いくつかのアプリケーションで発生することが多い。 既存の最適探索戦略には禁欲の複雑さが伴うため、大規模な問題に採用することは困難である。 この問題に対処するために,深層ニューラルネットワークを用いて,単純化メモリバウンドa*アルゴリズムの最適ヒューリスティックを推定し,提案アルゴリズムを他のヒューリスティック探索アルゴリズムで容易に一般化できる汎用的なハイパーアクセラレーション木探索(hats)アルゴリズムを提案する。 さらに,時間差学習に触発されて,ネットワークが最適ヒューリスティックに正確かつ一貫してアプローチできるトレーニング戦略を提案し,推定誤差が十分小さい場合には最適効率に到達できることを示す。 実験により,提案アルゴリズムは大規模問題において,時間と空間の両面で非常に低い複雑さで,最大推定性能をほぼ最大にすることができることが示された。 本論文のコードはhttps://github.com/s kypitcher/hats.comで検証可能である。

This paper investigates the classical integer least-squares problem which estimates integer signals from linear models. The problem is NP-hard and often arises in diverse applications such as signal processing, bioinformatics, communications and machine learning, to name a few. Since the existing optimal search strategies involve prohibitive complexities, they are hard to be adopted in large-scale problems. To address this issue, we propose a general hyper-accelerated tree search (HATS) algorithm by employing a deep neural network to estimate the optimal heuristic for the underlying simplified memory-bounded A* algorithm, and the proposed algorithm can be easily generalized with other heuristic search algorithms. Inspired by the temporal difference learning, we further propose a training strategy which enables the network to approach the optimal heuristic precisely and consistently, thus the proposed algorithm can reach nearly the optimal efficiency when the estimation error is small enough. Experiments show that the proposed algorithm can reach almost the optimal maximum likelihood estimate performance in large-scale problems, with a very low complexity in both time and space. The code of this paper is avaliable at https://github.com/s kypitcher/hats.
翻訳日:2021-04-10 18:38:05 公開日:2021-03-15
# 接続性, 複雑度, リビングシステム:人工ニューラルネットワークと生体ニューラルネットワークの比較

Connectionism, Complexity, and Living Systems: a comparison of Artificial and Biological Neural Networks ( http://arxiv.org/abs/2103.15553v1 )

ライセンス: Link先を確認
Krishna Katyal, Jesse Parent, Bradly Alicea(参考訳) ANN(Artificial Neural Networks)は、シミュレーションされた知的行動の領域において、印象的な結果をもたらしたが、それらは、BNN(Biological Neural Networks)のまばらな近似ではないことを忘れてはならない。 我々は、ANNとBNNの比較を超えて、BNNの原則を導入し、ANNを具体的ニューラルネットワークとして発展させるかもしれない。 これらの原則には、表現複雑性、複雑なネットワーク構造/エネルギー、ロバスト関数が含まれる。 次に、これらの原則をannの将来の開発に実装する方法で検討する。 結論として,この比較の有用性,特に強固でダイナミックなアンの構築について考察する。 さらに、BNNの組織的および機能的な利点を補完することで、ライフライクなネットワークの適応的ポテンシャルを解き放ちます。

While Artificial Neural Networks (ANNs) have yielded impressive results in the realm of simulated intelligent behavior, it is important to remember that they are but sparse approximations of Biological Neural Networks (BNNs). We go beyond comparison of ANNs and BNNs to introduce principles from BNNs that might guide the further development of ANNs as embodied neural models. These principles include representational complexity, complex network structure/energetics , and robust function. We then consider these principles in ways that might be implemented in the future development of ANNs. In conclusion, we consider the utility of this comparison, particularly in terms of building more robust and dynamic ANNs. This even includes constructing a morphology and sensory apparatus to create an embodied ANN, which when complemented with the organizational and functional advantages of BNNs unlocks the adaptive potential of lifelike networks.
翻訳日:2021-04-05 01:06:19 公開日:2021-03-15
# 双対マルコフモデルに対するビタビ過程の再生率

Regenerativity of Viterbi process for pairwise Markov models ( http://arxiv.org/abs/2103.11821v1 )

ライセンス: Link先を確認
J\"uri Lember, Joonas Sova(参考訳) 隠れマルコフモデルにとって、隠れ鎖の最も一般的な推定の1つは、ビテルビ経路(後確率を最大化する経路)である。 ここでは、有限状態隠れ過程と観測過程からなる結合過程をマルコフ連鎖と仮定する、ペアワイズマルコフモデル (PMM) と呼ばれるより一般的な設定を考える。 いくつかの条件下では、PMMのビタビ経路はほぼ確実に無限大に拡張でき、ビタビ過程と呼ばれる観測シーケンスの無限のビタビ復号を定義することが最近証明された。 これはバリアと呼ばれる観測ブロックを構築し、ビタビ経路が観測シーケンスでこのブロックが発生するたびに所定の状態になるようにするものである。 本稿では,ビタビプロセスとPMMからなる接合プロセスが再生可能であることを示す。 この証明は、バリアの発生と一致する再生時間の微妙な構成を含む。 我々の理論の応用の1つとして、ビタビ訓練アルゴリズムの漸近性に関するいくつかの結果が導出される。

For hidden Markov models one of the most popular estimates of the hidden chain is the Viterbi path -- the path maximising the posterior probability. We consider a more general setting, called the pairwise Markov model (PMM), where the joint process consisting of finite-state hidden process and observation process is assumed to be a Markov chain. It has been recently proven that under some conditions the Viterbi path of the PMM can almost surely be extended to infinity, thereby defining the infinite Viterbi decoding of the observation sequence, called the Viterbi process. This was done by constructing a block of observations, called a barrier, which ensures that the Viterbi path goes trough a given state whenever this block occurs in the observation sequence. In this paper we prove that the joint process consisting of Viterbi process and PMM is regenerative. The proof involves a delicate construction of regeneration times which coincide with the occurrences of barriers. As one possible application of our theory, some results on the asymptotics of the Viterbi training algorithm are derived.
翻訳日:2021-04-05 01:04:54 公開日:2021-03-15
# 強化学習を用いた定常連続プロセスの自動合成

Automated Synthesis of Steady-State Continuous Processes using Reinforcement Learning ( http://arxiv.org/abs/2101.04422v2 )

ライセンス: Link先を確認
Quirin G\"ottl, Dominik G. Grimm, Jakob Burger(参考訳) 自動フローシート合成はコンピュータ支援プロセス工学の重要な分野である。 本研究は, 従来の概念設計知識のヒューリスティックを伴わない自動フローシート合成において, 強化学習をいかに活用できるかを示す。 環境は、すべての物理的知識を含む定常フローシートシミュレータで構成されている。 エージェントは個別のアクションを取るように訓練され、所定のプロセス問題を解決するフローシートを順次構築する。 SynGameZero という新しい手法が開発され,複雑な問題に対する適切な探索手法が確立された。 フローシート合成は、競合する2人のプレイヤーのゲームとしてモデル化される。 エージェントはこのゲームをトレーニング中に自力でプレイし、ニューラルネットワークとフォワードプランニングのツリー検索で構成される。 この方法は四元系における反応蒸留プロセスにうまく適用される。

Automated flowsheet synthesis is an important field in computer-aided process engineering. The present work demonstrates how reinforcement learning can be used for automated flowsheet synthesis without any heuristics of prior knowledge of conceptual design. The environment consists of a steady-state flowsheet simulator that contains all physical knowledge. An agent is trained to take discrete actions and sequentially built up flowsheets that solve a given process problem. A novel method named SynGameZero is developed to ensure good exploration schemes in the complex problem. Therein, flowsheet synthesis is modelled as a game of two competing players. The agent plays this game against itself during training and consists of an artificial neural network and a tree search for forward planning. The method is applied successfully to a reaction-distillatio n process in a quaternary system.
翻訳日:2021-04-04 01:48:22 公開日:2021-03-15
# ファウショット学習のためのフリーランチ:分散校正

Free Lunch for Few-shot Learning: Distribution Calibration ( http://arxiv.org/abs/2101.06395v2 )

ライセンス: Link先を確認
Shuo Yang, Lu Liu, Min Xu(参考訳) 限られた数のサンプルから学ぶことは、学習したモデルが、ほんの少数のトレーニング例で作られたバイアス分布に基づいて簡単に過度に適合できるため、難しい。 本稿では,各クラスから統計を十分な例で伝達することにより,これらの少数サンプルクラスの分布を校正し,その校正分布から十分な数のサンプルを抽出し,インプットを分類器に拡張する。 特徴表現のすべての次元はガウス分布に従うと仮定し、分布の平均と分散は、十分な数のサンプルでよりよく推定される統計値の類似クラスから借りることができる。 提案手法は,事前訓練された特徴抽出器と,余分なパラメータを伴わない分類モデルに基づいて構築することができる。 キャリブレーションされた分布から抽出した特徴を用いて学習した単純なロジスティック回帰分類器は、2つのデータセットにおける最先端の精度(次回に比べて miniImageNet が約5%向上)より優れていることを示す。 これらの特徴の可視化は、校正分布が正確な推定であることを示す。

Learning from a limited number of samples is challenging since the learned model can easily become overfitted based on the biased distribution formed by only a few training examples. In this paper, we calibrate the distribution of these few-sample classes by transferring statistics from the classes with sufficient examples, then an adequate number of examples can be sampled from the calibrated distribution to expand the inputs to the classifier. We assume every dimension in the feature representation follows a Gaussian distribution so that the mean and the variance of the distribution can borrow from that of similar classes whose statistics are better estimated with an adequate number of samples. Our method can be built on top of off-the-shelf pretrained feature extractors and classification models without extra parameters. We show that a simple logistic regression classifier trained using the features sampled from our calibrated distribution can outperform the state-of-the-art accuracy on two datasets (~5% improvement on miniImageNet compared to the next best). The visualization of these generated features demonstrates that our calibrated distribution is an accurate estimation.
翻訳日:2021-03-28 04:35:49 公開日:2021-03-15
# 生存回帰のための深部cox混合液

Deep Cox Mixtures for Survival Regression ( http://arxiv.org/abs/2101.06536v2 )

ライセンス: Link先を確認
Chirag Nagpal, Steve Yadlowsky, Negar Rostamzadeh and Katherine Heller(参考訳) サバイバル分析は、検閲の存在によって、例えばフォローアップの損失によって結果測定が部分的にしか知られていないため、回帰モデリングの難解な変種である。 このような問題は医療応用において頻繁に発生し、生存分析はバイオ統計学や医療のための機械学習において重要な取り組みとなり、コックス回帰モデルは最もよく用いられるモデルの一つである。 本稿では,Cox回帰の学習混合物をモデルとした生存分析回帰モデルに対する新しいアプローチについて述べる。 本稿では,混合群へのハード代入を行い,最適化を効率的に行うモデルに対する期待最大化アルゴリズムの近似を提案する。 各グループ割り当てにおいて、ディープニューラルネットワークを用いて各グループ内のハザード比と、非パラメトリックに各混合コンポーネントに対するベースラインハザードを適合させる。 我々は、複数の実世界のデータセットで実験を行い、民族や性別にまたがる患者の死亡率を調べる。 我々は,医療環境におけるキャリブレーションの重要性を強調し,差別的パフォーマンスとキャリブレーションの両面で,我々のアプローチが古典的・現代的サバイバル分析のベースラインより優れていることを示す。

Survival analysis is a challenging variation of regression modeling because of the presence of censoring, where the outcome measurement is only partially known, due to, for example, loss to follow up. Such problems come up frequently in medical applications, making survival analysis a key endeavor in biostatistics and machine learning for healthcare, with Cox regression models being amongst the most commonly employed models. We describe a new approach for survival analysis regression models, based on learning mixtures of Cox regressions to model individual survival distributions. We propose an approximation to the Expectation Maximization algorithm for this model that does hard assignments to mixture groups to make optimization efficient. In each group assignment, we fit the hazard ratios within each group using deep neural networks, and the baseline hazard for each mixture component non-parametrically. We perform experiments on multiple real world datasets, and look at the mortality rates of patients across ethnicity and gender. We emphasize the importance of calibration in healthcare settings and demonstrate that our approach outperforms classical and modern survival analysis baselines, both in terms of discriminative performance and calibration, with large gains in performance on the minority demographics.
翻訳日:2021-03-28 04:33:23 公開日:2021-03-15
# (参考訳) 時系列外部回帰の解釈可能な特徴構成 [全文訳有]

Interpretable Feature Construction for Time Series Extrinsic Regression ( http://arxiv.org/abs/2103.10247v1 )

ライセンス: CC BY 4.0
Dominique Gay, Alexis Bondu, Vincent Lemaire, Marc Boull\'e(参考訳) 分類的対象変数の場合,時系列データの教師付き学習が広く研究されている。 エネルギー、環境、健康モニタリングといったいくつかのアプリケーション領域では、対象変数が数値であり、問題は時系列外部回帰(TSER)として知られている。 文献では、TSER問題のためによく知られた時系列分類器が拡張されている。 最初のベンチマーク研究は予測性能に焦点を当てており、解釈可能性にはほとんど注目されていない。 このギャップを埋めるため,本論文では,tserの文脈におけるロバストかつ解釈可能な特徴構成と選択のためのベイズ法の拡張を提案する。 i) 関係データスキームに格納された時系列の多種多様な単純な表現を構築し, (ii) 関係データフィールドからの古典的集約/選択関数に基づく命題化手法を適用して, 二次テーブルからデータを「フラット化」するための解釈可能な特徴を構築し, (iii) 構築した特徴をベイジアン最大 A Posteriori アプローチでフィルタリングする。 得られた変換データは、さまざまな既存のレグレッシャで処理できる。 様々なベンチマークデータセットに対する実験的検証は提案手法の利点を示している。

Supervised learning of time series data has been extensively studied for the case of a categorical target variable. In some application domains, e.g., energy, environment and health monitoring, it occurs that the target variable is numerical and the problem is known as time series extrinsic regression (TSER). In the literature, some well-known time series classifiers have been extended for TSER problems. As first benchmarking studies have focused on predictive performance, very little attention has been given to interpretability. To fill this gap, in this paper, we suggest an extension of a Bayesian method for robust and interpretable feature construction and selection in the context of TSER. Our approach exploits a relational way to tackle with TSER: (i), we build various and simple representations of the time series which are stored in a relational data scheme, then, (ii), a propositionalisation technique (based on classical aggregation / selection functions from the relational data field) is applied to build interpretable features from secondary tables to "flatten" the data; and (iii), the constructed features are filtered out through a Bayesian Maximum A Posteriori approach. The resulting transformed data can be processed with various existing regressors. Experimental validation on various benchmark data sets demonstrates the benefits of the suggested approach.
翻訳日:2021-03-20 10:23:51 公開日:2021-03-15
# (参考訳) MLPを最適化したCOVID-19分類のための深層機能に基づく分類フレームワーク [全文訳有]

Fused Deep Features Based Classification Framework for COVID-19 Classification with Optimized MLP ( http://arxiv.org/abs/2103.09904v1 )

ライセンス: CC BY 4.0
Saban Ozturk, Enes Yigit and Umut Ozkaya(参考訳) 新型の新型コロナウイルス(covid-19)は急速に広がり続けている。 この病気は特定の症状を呈するが、ほぼすべての個人で異なる症状を示す可能性があるため、何十万人もの患者が死亡した。 医療専門家は、さらなる生命の喪失を防ぐために一生懸命働くが、病気の拡散率は非常に高い。 そのため、コンピュータ支援診断(CAD)と人工知能(AI)アルゴリズムの助けが不可欠である。 本研究では,現在最も有効な画像解析手法である畳み込みニューラルネットワーク(CNN)アーキテクチャの最適化に基づく手法を提案する。 まず、COVID-19イメージはResNet-50とVGG-16アーキテクチャを使ってトレーニングされる。 そして、これらの2つのアーキテクチャの最後のレイヤの機能と機能融合が組み合わされる。 これらの新しい画像特徴行列は、HIV検出のために分類される。 クジラ最適化アルゴリズムによって最適化された多層パーセプトロン(MLP)構造を用いて分類する。 その結果,提案フレームワークの性能はVGG-16よりも約4.5%高く,ResNet-50よりも約3.5%高いことがわかった。

The new type of Coronavirus disease called COVID-19 continues to spread quite rapidly. Although it shows some specific symptoms, this disease, which can show different symptoms in almost every individual, has caused hundreds of thousands of patients to die. Although healthcare professionals work hard to prevent further loss of life, the rate of disease spread is very high. For this reason, the help of computer aided diagnosis (CAD) and artificial intelligence (AI) algorithms is vital. In this study, a method based on optimization of convolutional neural network (CNN) architecture, which is the most effective image analysis method of today, is proposed to fulfill the mentioned COVID-19 detection needs. First, COVID-19 images are trained using ResNet-50 and VGG-16 architectures. Then, features in the last layer of these two architectures are combined with feature fusion. These new image features matrices obtained with feature fusion are classified for COVID detection. A multi-layer perceptron (MLP) structure optimized by the whale optimization algorithm is used for the classification process. The obtained results show that the performance of the proposed framework is almost 4.5% higher than VGG-16 performance and almost 3.5% higher than ResNet-50 performance.
翻訳日:2021-03-20 10:07:23 公開日:2021-03-15
# (参考訳) pytorchを用いた1次元アドベクション方程式の物理インフォームドニューラルネットワーク法 [全文訳有]

Physics-Informed Neural Network Method for Solving One-Dimensional Advection Equation using PyTorch ( http://arxiv.org/abs/2103.09662v1 )

ライセンス: CC BY 4.0
S.R. Vadyala, S.N. Betgeri(参考訳) 対流方程式の数値解は、解析解を許容する条件下で、異なる有限差分近似と物理情報ニューラルネットワーク(PINN)を用いて決定される。 それらの精度を解析解と比較することにより検証する。 PyTorchのような機械学習フレームワークを使ってPINNを実装しました。 PINNのアプローチでは、PDEを損失関数の一部とする最適化の強い制約として尊重しながら、ニューラルネットワークをトレーニングすることができる。 標準の小規模循環シミュレーションでは, 乱流拡散モデルの影響とほぼ同程度の大きさの擬似拡散効果が組み込まれており, 数値解はpdesと一致しないことがわかった。 この振動は不正確さと計算の不確実性を引き起こす。 テストされた全てのスキームのうち、ピンズ近似のみが結果を正確に予測した。 PINNのアプローチは,大規模スーパーコンピュータ上でのコストと時間を要するシミュレーションを伴わずに,実時間物理シミュレーションと幾何最適化を可能とし,物理シミュレーション領域を変換できると仮定する。

Numerical solutions to the equation for advection are determined using different finite-difference approximations and physics-informed neural networks (PINNs) under conditions that allow an analytical solution. Their accuracy is examined by comparing them to the analytical solution. We used a machine learning framework like PyTorch to implement PINNs. PINNs approach allows training neural networks while respecting the PDEs as a strong constraint in the optimization as apposed to making them part of the loss function. In standard small-scale circulation simulations, it is shown that the conventional approach incorporates a pseudo diffusive effect that is almost as large as the effect of the turbulent diffusion model; hence the numerical solution is rendered inconsistent with the PDEs. This oscillation causes inaccuracy and computational uncertainty. Of all the schemes tested, only the PINNs approximation accurately predicted the outcome. We assume that the PINNs approach can transform the physics simulation area by allowing real-time physics simulation and geometry optimization without costly and time-consuming simulations on large supercomputers.
翻訳日:2021-03-19 01:09:56 公開日:2021-03-15
# フェア・アフェクティブ・ロボティクスに向けて:顔表情と行動単位認識におけるバイアスの軽減のための継続的な学習

Towards Fair Affective Robotics: Continual Learning for Mitigating Bias in Facial Expression and Action Unit Recognition ( http://arxiv.org/abs/2103.09233v1 )

ライセンス: Link先を確認
Ozgur Kara, Nikhil Churamani and Hatice Gunes(参考訳) 感情ロボットが人間の生活に不可欠なものとなるにつれ、これらのエージェントは特定の人口集団を識別することなく、人間の感情表現を適切に評価できなければならない。 機械学習(ML)システムにおけるバイアスの同定は重要な問題であり、データレベルとアルゴリズムレベルでモデル内のバイアスを軽減するために異なるアプローチが提案されている。 本研究では,顔表情認識(FER)システムにおける公平性を高めるための効果的な戦略として連続学習(CL)を提案する。 表現認識と行動単位(au)検出タスクの公平性に関するclベースの戦略と, raf-db と bp4d の各ベンチマークを用いて, 異なるバイアス軽減手法を比較した。 実験の結果,clベースの手法は,平均的に一般的なバイアス緩和手法を上回っており,よりフェアなferアルゴリズム開発のためのclのさらなる調査の必要性が強まった。

As affective robots become integral in human life, these agents must be able to fairly evaluate human affective expressions without discriminating against specific demographic groups. Identifying bias in Machine Learning (ML) systems as a critical problem, different approaches have been proposed to mitigate such biases in the models both at data and algorithmic levels. In this work, we propose Continual Learning (CL) as an effective strategy to enhance fairness in Facial Expression Recognition (FER) systems, guarding against biases arising from imbalances in data distributions. We compare different state-of-the-art bias mitigation approaches with CL-based strategies for fairness on expression recognition and Action Unit (AU) detection tasks using popular benchmarks for each; RAF-DB and BP4D. Our experiments show that CL-based methods, on average, outperform popular bias mitigation techniques, strengthening the need for further investigation into CL for the development of fairer FER algorithms.
翻訳日:2021-03-18 13:02:51 公開日:2021-03-15
# 畳み込みニューラルネットワークを用いたスターダスト星間ダスト収集装置からのアルフォイルへの衝突クレーターの自動検出

Automatic detection of impact craters on Al foils from the Stardust interstellar dust collector using convolutional neural networks ( http://arxiv.org/abs/2103.09673v1 )

ライセンス: Link先を確認
Logan Jaeger, Anna L. Butterworth, Zack Gainsforth, Robert Lettieri, Augusto Ardizzone, Michael Capraro, Mark Burchell, Penny Wozniakiewicz, Ryan C. Ogliore, Bradley T. De Gregorio, Rhonda M. Stroud, Andrew J. Westphal(参考訳) NASAのスターダストミッションでは、エアロゲルとアルミホイルからなるサンプル収集機を使用して彗星と星間粒子を地球に戻す。 アルミニウムホイルの分析は、彗星と星間塵の超高速衝突によって生じるクレーターの配置から始まる。 星間塵のクレーターは、通常1マイクロメートル未満の大きさで、ばらばらに分布しており、発見が困難である。 本稿では、スターダスト星間コレクターホイルにおける衝突クレーターの特定性と感度を高めるVGG16アーキテクチャに基づく畳み込みニューラルネットワークについて述べる。 スターダスト試料の現在および将来の分析におけるその意義を評価する。

NASA's Stardust mission utilized a sample collector composed of aerogel and aluminum foil to return cometary and interstellar particles to Earth. Analysis of the aluminum foil begins with locating craters produced by hypervelocity impacts of cometary and interstellar dust. Interstellar dust craters are typically less than one micrometer in size and are sparsely distributed, making them difficult to find. In this paper, we describe a convolutional neural network based on the VGG16 architecture that achieves high specificity and sensitivity in locating impact craters in the Stardust interstellar collector foils. We evaluate its implications for current and future analyses of Stardust samples.
翻訳日:2021-03-18 12:50:31 公開日:2021-03-15
# (参考訳) MENYO-20k: 機械翻訳とドメイン適応のための多ドメイン英語Yor\`ub\'aコーパス [全文訳有]

MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine Translation and Domain Adaptation ( http://arxiv.org/abs/2103.08647v1 )

ライセンス: CC BY 4.0
David I. Adelani, Dana Ruiter, Jesujoba O. Alabi, Damilola Adebonojo, Adesina Ayeni, Mofe Adeyemi, Ayodele Awokoya, Cristina Espa\~na-Bonet(参考訳) 大規模な多言語機械翻訳(mt)は、低リソース言語ペア間のゼロおよびマイショット翻訳など、素晴らしい機能を示している。 しかし、これらのモデルは、低リソース言語に一般化するという仮定で、高リソース言語でしばしば評価される。 低リソースペアでのMTモデル評価の難しさは、標準化された評価データセットの欠如によることが多い。 本稿では,ローリソースyor\ `ub\'a- english (yo-en) 言語ペアに対して,ベンチマークのための標準トレインテスト分割を用いた,最初のマルチドメイン並列コーパスであるmenyo-20kを提案する。 このデータセット上でいくつかのニューラルMT(NMT)ベンチマークを提供し、一般的な事前学習(多言語)MTモデルの性能と比較し、ほぼすべてのケースにおいて、我々の単純なベンチマークが事前訓練されたMTモデルより優れていることを示す。 BLEU $+9.9$と$+8.6$(en2yo)の主な利益は、MENYO-20kを使用してジェネリックモデルを微調整する際に、FacebookのM2M-100とGoogleの多言語NTTと比較して達成される。

Massively multilingual machine translation (MT) has shown impressive capabilities, including zero and few-shot translation between low-resource language pairs. However, these models are often evaluated on high-resource languages with the assumption that they generalize to low-resource ones. The difficulty of evaluating MT models on low-resource pairs is often due the lack of standardized evaluation datasets. In this paper, we present MENYO-20k, the first multi-domain parallel corpus for the low-resource Yor\`ub\'a--English (yo--en) language pair with standardized train-test splits for benchmarking. We provide several neural MT (NMT) benchmarks on this dataset and compare to the performance of popular pre-trained (massively multilingual) MT models, showing that, in almost all cases, our simple benchmarks outperform the pre-trained MT models. A major gain of BLEU $+9.9$ and $+8.6$ (en2yo) is achieved in comparison to Facebook's M2M-100 and Google multilingual NMT respectively when we use MENYO-20k to fine-tune generic models.
翻訳日:2021-03-18 01:21:39 公開日:2021-03-15
# (参考訳) パラメータ$\{0,\pm \frac{1}{2}, \pm 1, 2\}$のディープニューラルネットワークによる関数近似 [全文訳有]

Function approximation by deep neural networks with parameters $\{0,\pm \frac{1}{2}, \pm 1, 2\}$ ( http://arxiv.org/abs/2103.08659v1 )

ライセンス: CC BY 4.0
Aleksandr Beknazaryan(参考訳) 本稿では,$C_\beta$-smooth関数をパラメータ $\{0,\pm \frac{1}{2}, \pm 1, 2\}$ のニューラルネットワークで近似できることを示す。 構築されたネットワークの深さ、幅、アクティブパラメータの数は、対数係数まで、パラメータが$[-1,1]$のネットワークと同じ近似誤差に依存する。 特に、構成されたネットワークによる非パラメトリック回帰推定は、パラメータが$[-1,1]$のスパースネットワークと同じ収束率に達することを意味する。

In this paper it is shown that $C_\beta$-smooth functions can be approximated by neural networks with parameters $\{0,\pm \frac{1}{2}, \pm 1, 2\}$. The depth, width and the number of active parameters of constructed networks have, up to a logarithimc factor, the same dependence on the approximation error as the networks with parameters in $[-1,1]$. In particular, this means that the nonparametric regression estimation with constructed networks attain the same convergence rate as with the sparse networks with parameters in $[-1,1]$.
翻訳日:2021-03-18 00:56:57 公開日:2021-03-15
# (参考訳) dNNsolve: NNベースの効率的なPDEソルバ [全文訳有]

dNNsolve: an efficient NN-based PDE solver ( http://arxiv.org/abs/2103.08662v1 )

ライセンス: CC BY 4.0
Veronica Guidetti, Francesco Muia, Yvette Welling and Alexander Westphal(参考訳) ニューラルネットワーク(nns)は、問題を最適化問題として再定義することで、通常の偏微分方程式(odesとpdes)を解くのに使うことができる。 最適化すべき目的関数は、解決すべきPDEの平方と初期/境界条件の和である。 フィードフォワードnnは、問題の定義領域からサンプリングされた一連のコロケーションポイントで評価されたこの損失関数を最小化するように訓練される。 訓練されたNNの重みにのみ依存するコンパクトで滑らかな解が得られる。 この手法はしばしば PINN と呼ばれ、物理情報ニューラルネットワーク~\cite{raissi2017physics_1, raissi2017physics_2} に由来する。 PDEの様々なクラスを解決するためのPINNアプローチの成功にもかかわらず、ネットワークのハイパーパラメータを微調整する必要がなく、高い精度で多数のODEとPDEを解くことができるこのアイデアの実装はまだ利用できない。 本稿では,この概念の新たな実装であるdNNsolveを紹介し,ODE/PDEを解くためにデュアルニューラルネットワークを利用する。 i) 正弦およびシグモイド活性化関数は、解の周期的パターンと周期的パターンの両方を捉えるためのより効率的な基礎を提供し、ii) nnが上記の基底関数を用いて解を近似することを容易にする、新しく設計されたアーキテクチャである。 DNNsolveは1, 2, 3の時空次元において,ハイパーパラメータの微調整を必要とせずに,幅広いODE/PDEを解くことができることを示す。

Neural Networks (NNs) can be used to solve Ordinary and Partial Differential Equations (ODEs and PDEs) by redefining the question as an optimization problem. The objective function to be optimized is the sum of the squares of the PDE to be solved and of the initial/boundary conditions. A feed forward NN is trained to minimise this loss function evaluated on a set of collocation points sampled from the domain where the problem is defined. A compact and smooth solution, that only depends on the weights of the trained NN, is then obtained. This approach is often referred to as PINN, from Physics Informed Neural Network~\cite{raissi2017physics_1, raissi2017physics_2}. Despite the success of the PINN approach in solving various classes of PDEs, an implementation of this idea that is capable of solving a large class of ODEs and PDEs with good accuracy and without the need to finely tune the hyperparameters of the network, is not available yet. In this paper, we introduce a new implementation of this concept - called dNNsolve - that makes use of dual Neural Networks to solve ODEs/PDEs. These include: i) sine and sigmoidal activation functions, that provide a more efficient basis to capture both secular and periodic patterns in the solutions; ii) a newly designed architecture, that makes it easy for the the NN to approximate the solution using the basis functions mentioned above. We show that dNNsolve is capable of solving a broad range of ODEs/PDEs in 1, 2 and 3 spacetime dimensions, without the need of hyperparameter fine-tuning.
翻訳日:2021-03-18 00:42:37 公開日:2021-03-15
# (参考訳) 差分私的問合せ解答のための中心極限定理

A Central Limit Theorem for Differentially Private Query Answering ( http://arxiv.org/abs/2103.08721v1 )

ライセンス: CC BY 4.0
Jinshuo Dong, Weijie J. Su, Linjun Zhang(参考訳) 差分プライバシーの唯一の重要なユースケースは、一般に答えベクトルにノイズを加えることで達成される数値クエリにプライベートに答えることだろう。 したがって,どのノイズ分布がプライバシと精度のトレードオフを最適化するか,特に回答ベクトルの次元が高い場合の理解が重要となる。 したがって、この問題に広範な文献が注がれており、上下の境界は定数因子 [BUV18, SU17] に一致している。 本稿では,この重要な最適性問題に対処するための新しいアプローチを提案する。 まず,高次元環境において興味深い中心極限定理現象を示す。 より正確には、付加ノイズが特定の条件を満たす場合、そのメカニズムがガウス微分プライベート[DRS21]にほぼ一致することを示す。 特に、$\mathrm{e}^{-\|x\|_p^\alpha}$に比例する密度では、$\|x\|_p$は標準の$\ell_p$-normであり、条件を満たす。 この観点からは、cracker-raoの不等式を用いて、プライバシパラメータとメカニズムの$\ell_2$-lossの積は次元によって境界が低くなるという「不確実性原理」スタイルの結果を示す。 さらに、ガウスのメカニズムは、そのような全てのノイズの間で、一定のシャープな最適プライバシー・正確性トレードオフを達成する。 我々の発見は数値実験によって裏付けられている。

Perhaps the single most important use case for differential privacy is to privately answer numerical queries, which is usually achieved by adding noise to the answer vector. The central question, therefore, is to understand which noise distribution optimizes the privacy-accuracy trade-off, especially when the dimension of the answer vector is high. Accordingly, extensive literature has been dedicated to the question and the upper and lower bounds have been matched up to constant factors [BUV18, SU17]. In this paper, we take a novel approach to address this important optimality question. We first demonstrate an intriguing central limit theorem phenomenon in the high-dimensional regime. More precisely, we prove that a mechanism is approximately Gaussian Differentially Private [DRS21] if the added noise satisfies certain conditions. In particular, densities proportional to $\mathrm{e}^{-\|x\|_p^\alpha}$, where $\|x\|_p$ is the standard $\ell_p$-norm, satisfies the conditions. Taking this perspective, we make use of the Cramer--Rao inequality and show an "uncertainty principle"-style result: the product of the privacy parameter and the $\ell_2$-loss of the mechanism is lower bounded by the dimension. Furthermore, the Gaussian mechanism achieves the constant-sharp optimal privacy-accuracy trade-off among all such noises. Our findings are corroborated by numerical experiments.
翻訳日:2021-03-17 23:46:52 公開日:2021-03-15
# (参考訳) カテゴリーを意識した説明可能な会話推薦 [全文訳有]

Category Aware Explainable Conversational Recommendation ( http://arxiv.org/abs/2103.08733v1 )

ライセンス: CC BY 4.0
Nikolaos Kondylidis, Jie Zou and Evangelos Kanoulas(参考訳) ほとんどの会話レコメンデーションアプローチは説明できないか、あるいは説明のために外部ユーザーの知識を必要とするか、あるいは計算上の制限のためにリアルタイムでは適用できない。 本研究では,ユーザの事前知識を必要とせずに簡潔な説明を提供するリアルタイムカテゴリーに基づく会話推薦手法を提案する。 まず,説明可能なユーザモデルを,項目のカテゴリに対する選好という形式で実行し,次にカテゴリ選好を使用して項目を推薦する。 ユーザモデルは、会話にBERTベースのニューラルアーキテクチャを適用して実行される。 次に、フィードフォワードネットワークを用いて、ユーザモデルをアイテムレコメンデーションスコアに変換する。 会話中のユーザの好みは、直接解釈可能なカテゴリベクトルによって表現されます。 実際の会話レコメンデーションデータセットであるReDialの実験結果は、最先端技術に匹敵する性能を示し、我々のアプローチは説明可能である。 当社のフレームワークの潜在的なパワーは,oracleによるカテゴリ選好予測の設定によるものです。

Most conversational recommendation approaches are either not explainable, or they require external user's knowledge for explaining or their explanations cannot be applied in real time due to computational limitations. In this work, we present a real time category based conversational recommendation approach, which can provide concise explanations without prior user knowledge being required. We first perform an explainable user model in the form of preferences over the items' categories, and then use the category preferences to recommend items. The user model is performed by applying a BERT-based neural architecture on the conversation. Then, we translate the user model into item recommendation scores using a Feed Forward Network. User preferences during the conversation in our approach are represented by category vectors which are directly interpretable. The experimental results on the real conversational recommendation dataset ReDial demonstrate comparable performance to the state-of-the-art, while our approach is explainable. We also show the potential power of our framework by involving an oracle setting of category preference prediction.
翻訳日:2021-03-17 23:45:33 公開日:2021-03-15
# (参考訳) S3Net: 3D LiDARスパースセマンティックセマンティックセグメンテーションネットワーク [全文訳有]

S3Net: 3D LiDAR Sparse Semantic Segmentation Network ( http://arxiv.org/abs/2103.08745v1 )

ライセンス: CC BY 4.0
Ran Cheng, Ryan Razani, Yuan Ren and Liu Bingbing(参考訳) セマンティックセグメンテーションは、正確な環境認識と理解に依存するロボット工学や自律運転など、多くのアプリケーションの知覚システムにおいて重要な構成要素である。 文献では、プロジェクションベース(レンジビューまたは鳥眼ビュー)やボクセルベースアプローチなど、LiDARセマンティックセマンティックセマンティックセマンティクスタスクを試みるためにいくつかのアプローチが導入されている。 しかし、それらは貴重な3次元トポロジーと幾何学的関係を捨て、投影プロセスで導入された情報損失に苦しむか、あるいは非効率である。 したがって、3D空間で3次元駆動シーンの点雲を処理できる正確なモデルが必要である。 本稿では,LiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークであるS3Netを提案する。 sparse intra-channel attention module(sintraam)とsparse inter-channel attention module(sinteram)で構成されるエンコーダ/デコーダバックボーンを採用し、各フィーチャーマップ内と近くのフィーチャーマップ間の詳細を強調する。 より深い層におけるグローバルなコンテキストを抽出するために,LiDAR点雲の幅の異なるスパース畳み込みに基づくスパース残差タワーを導入する。 さらに、ジオアウェアな異方性損失を利用して、意味的境界を強調し、各予測領域内のノイズを罰し、堅牢な予測を行う。 実験の結果,提案手法は,semantickitti \cite{dblp:conf/iccv/behle ygmqbsg19}テストセットのベースライン(minknet42 \cite{choy20194d})と比較して大幅に改善し,意味セグメンテーションアプローチの最先端miou精度を実現した。

Semantic Segmentation is a crucial component in the perception systems of many applications, such as robotics and autonomous driving that rely on accurate environmental perception and understanding. In literature, several approaches are introduced to attempt LiDAR semantic segmentation task, such as projection-based (range-view or birds-eye-view), and voxel-based approaches. However, they either abandon the valuable 3D topology and geometric relations and suffer from information loss introduced in the projection process or are inefficient. Therefore, there is a need for accurate models capable of processing the 3D driving-scene point cloud in 3D space. In this paper, we propose S3Net, a novel convolutional neural network for LiDAR point cloud semantic segmentation. It adopts an encoder-decoder backbone that consists of Sparse Intra-channel Attention Module (SIntraAM), and Sparse Inter-channel Attention Module (SInterAM) to emphasize the fine details of both within each feature map and among nearby feature maps. To extract the global contexts in deeper layers, we introduce Sparse Residual Tower based upon sparse convolution that suits varying sparsity of LiDAR point cloud. In addition, geo-aware anisotrophic loss is leveraged to emphasize the semantic boundaries and penalize the noise within each predicted regions, leading to a robust prediction. Our experimental results show that the proposed method leads to a large improvement (12\%) compared to its baseline counterpart (MinkNet42 \cite{choy20194d}) on SemanticKITTI \cite{DBLP:conf/iccv/Behle yGMQBSG19} test set and achieves state-of-the-art mIoU accuracy of semantic segmentation approaches.
翻訳日:2021-03-17 23:31:33 公開日:2021-03-15
# (参考訳) 行列分解による動的畳み込みの再検討 [全文訳有]

Revisiting Dynamic Convolution via Matrix Decomposition ( http://arxiv.org/abs/2103.08756v1 )

ライセンス: CC BY 4.0
Yunsheng Li, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Ye Yu, Lu Yuan, Zicheng Liu, Mei Chen, Nuno Vasconcelos(参考訳) 動的畳み込みの最近の研究は、K静的畳み込みカーネルの適応的アグリゲーションにより、効率的なCNNの性能が大幅に向上したことを示している。 a) k-時間による畳み込み重み数の増加、(b)動的注意と静的畳み込み核の合同最適化は困難である。 本稿では,行列分解の新たな視点から再考し,動的畳み込みが高次元の潜在空間に射影した後,チャネル群に対して動的に注意を払っていることを明らかにする。 この問題に対処するため,チャネル群に対する動的注意を代替する動的チャネル融合を提案する。 動的チャネル融合は潜在空間の大幅な次元縮小を可能にするだけでなく、協調最適化の困難さを緩和する。 その結果,本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく少なくすることができる。 ソースコードはhttps://github.com/l iyunsheng13/dcdにある。

Recent research in dynamic convolution shows substantial performance boost for efficient CNNs, due to the adaptive aggregation of K static convolution kernels. It has two limitations: (a) it increases the number of convolutional weights by K-times, and (b) the joint optimization of dynamic attention and static convolution kernels is challenging. In this paper, we revisit it from a new perspective of matrix decomposition and reveal the key issue is that dynamic convolution applies dynamic attention over channel groups after projecting into a higher dimensional latent space. To address this issue, we propose dynamic channel fusion to replace dynamic attention over channel groups. Dynamic channel fusion not only enables significant dimension reduction of the latent space, but also mitigates the joint optimization difficulty. As a result, our method is easier to train and requires significantly fewer parameters without sacrificing accuracy. Source code is at https://github.com/l iyunsheng13/dcd.
翻訳日:2021-03-17 23:12:02 公開日:2021-03-15
# (参考訳) 支援ベクターマシン回帰による住宅保険リスクのモデル化 [全文訳有]

Modeling Weather-induced Home Insurance Risks with Support Vector Machine Regression ( http://arxiv.org/abs/2103.08761v1 )

ライセンス: CC BY 4.0
Asim K. Dey, Vyacheslav Lyubchich, and Yulia R. Gel(参考訳) 保険業界は気候変動の最も脆弱な分野の1つである。 将来のクレーム数と損失の評価は災害対応とリスク管理に不可欠である。 本研究は,気象による住宅保険請求と損失の連立動態に及ぼす降水の影響について検討する。 本稿では,今後のクレームダイナミクスの予測と関連する不確実性の評価において,サポートベクターマシンやニューラルネットワークといった機械学習手法の有用性と限界について論じる。 カナダ平原の中規模都市における気象による住宅保険請求の帰属分析と予測へのアプローチについて述べる。

Insurance industry is one of the most vulnerable sectors to climate change. Assessment of future number of claims and incurred losses is critical for disaster preparedness and risk management. In this project, we study the effect of precipitation on a joint dynamics of weather-induced home insurance claims and losses. We discuss utility and limitations of such machine learning procedures as Support Vector Machines and Artificial Neural Networks, in forecasting future claim dynamics and evaluating associated uncertainties. We illustrate our approach by application to attribution analysis and forecasting of weather-induced home insurance claims in a middle-sized city in the Canadian Prairies.
翻訳日:2021-03-17 22:54:10 公開日:2021-03-15
# (参考訳) 映像強調のためのLiDARガイドフレームワーク [全文訳有]

A LiDAR-Guided Framework for Video Enhancement ( http://arxiv.org/abs/2103.08764v1 )

ライセンス: CC BY 4.0
Yu Feng, Patrick Hansen, Paul N. Whatmough, Guoyu Lu, and Yuhao Zhu(参考訳) 本稿では,スーパーサンプリング,デブラリング,デノイジングなどの映像エンハンスメントタスクの品質と実行速度を同時に向上させる汎用フレームワークを提案する。 我々のフレームワークの鍵となるのは、低品質のビデオから高精度な動きを生成するピクセル運動推定アルゴリズムである。 私たちのモーション推定アルゴリズムは、今日の自律デバイスで容易に利用できるポイントクラウド情報を利用しており、将来的にはより一般的になるでしょう。 動き情報を利用して高品質な画像再構成を導く汎用フレームワークを実証する。 実験により,我々のフレームワークは,最先端の映像強調アルゴリズムより一貫した性能を示しながら,実行速度を桁違いに向上させた。

This paper presents a general framework that simultaneously improves the quality and the execution speed of a range of video enhancement tasks, such as super-sampling, deblurring, and denoising. The key to our framework is a pixel motion estimation algorithm that generates accurate motion from low-quality videos while being computationally very lightweight. Our motion estimation algorithm leverages point cloud information, which is readily available in today's autonomous devices and will only become more common in the future. We demonstrate a generic framework that leverages the motion information to guide high-quality image reconstruction. Experiments show that our framework consistently outperforms the state-of-the-art video enhancement algorithms while improving the execution speed by an order of magnitude.
翻訳日:2021-03-17 22:44:33 公開日:2021-03-15
# 一般化H-Criterionに基づく確率的文脈自由文法の識別学習

Discriminative Learning for Probabilistic Context-Free Grammars based on Generalized H-Criterion ( http://arxiv.org/abs/2103.08656v1 )

ライセンス: Link先を確認
Mauricio Maca, Jos\'e Miguel Bened\'i and Joan Andreu S\'anchez(参考訳) まず, H-criterion を目的関数として, 成長変換を最適化法として提案し, PCFG のパラメータ推定のための最終式の開発を可能にする。 次に,H-criterionを一般化し,参照解釈の集合と競合解釈の集合を考慮し,PCFGに対する推定変換の表現を開発するための目的関数の新しいファミリーを提案する。

We present a formal framework for the development of a family of discriminative learning algorithms for Probabilistic Context-Free Grammars (PCFGs) based on a generalization of criterion-H. First of all, we propose the H-criterion as the objective function and the Growth Transformations as the optimization method, which allows us to develop the final expressions for the estimation of the parameters of the PCFGs. And second, we generalize the H-criterion to take into account the set of reference interpretations and the set of competing interpretations, and we propose a new family of objective functions that allow us to develop the expressions of the estimation transformations for PCFGs.
翻訳日:2021-03-17 13:36:46 公開日:2021-03-15
# 表情のバイアス軽減と行動単位認識のためのドメインインクリメンタル連続学習

Domain-Incremental Continual Learning for Mitigating Bias in Facial Expression and Action Unit Recognition ( http://arxiv.org/abs/2103.08637v1 )

ライセンス: Link先を確認
Nikhil Churamani, Ozgur Kara and Hatice Gunes(参考訳) 顔表情認識(FER)システムが私たちの日常生活に統合されるにつれて、より高い個人精度のスコアではなく、公平な判断を優先する必要がある。 監視システムから個人の精神的および感情的な健康状態の診断まで、これらのシステムは正確さと公平さのトレードオフのバランスをとる必要がある。 顔分析システムでは, 偏見を重要な問題として同定し, 偏見をデータレベルとアルゴリズムレベルで緩和する手法が提案されている。 本研究では,特にドメイン・インクリメンタル・ラーニング(Domain-IL)の設定を,スキューデータ分布から生じるバイアスから保護しながら,FERシステムの公平性を高めるための強力なバイアス緩和手法として利用することを提案する。 RAF-DB と BP4D の2つのベンチマークを用いて,表現認識と行動単位(AU)検出タスクの分類精度と公平度を評価するために,CL ベースとCL ベースの異なる手法を比較した。 実験の結果,CLに基づく手法は,精度と公正度の両方において,他の一般的なバイアス緩和手法よりも優れていた。

As Facial Expression Recognition (FER) systems become integrated into our daily lives, these systems need to prioritise making fair decisions instead of aiming at higher individual accuracy scores. Ranging from surveillance systems to diagnosing mental and emotional health conditions of individuals, these systems need to balance the accuracy vs fairness trade-off to make decisions that do not unjustly discriminate against specific under-represented demographic groups. Identifying bias as a critical problem in facial analysis systems, different methods have been proposed that aim to mitigate bias both at data and algorithmic levels. In this work, we propose the novel usage of Continual Learning (CL), in particular, using Domain-Incremental Learning (Domain-IL) settings, as a potent bias mitigation method to enhance the fairness of FER systems while guarding against biases arising from skewed data distributions. We compare different non-CL-based and CL-based methods for their classification accuracy and fairness scores on expression recognition and Action Unit (AU) detection tasks using two popular benchmarks, the RAF-DB and BP4D datasets, respectively. Our experimental results show that CL-based methods, on average, outperform other popular bias mitigation techniques on both accuracy and fairness metrics.
翻訳日:2021-03-17 13:35:58 公開日:2021-03-15
# ハイパースペクトル画像分類におけるバンド選択のための深層強化学習

Deep Reinforcement Learning for Band Selection in Hyperspectral Image Classification ( http://arxiv.org/abs/2103.08741v1 )

ライセンス: Link先を確認
Lichao Mou and Sudipan Saha and Yuansheng Hua and Francesca Bovolo and Lorenzo Bruzzone and Xiao Xiang Zhu(参考訳) 帯域選択とは、ハイパースペクトル画像において最も関連性の高い帯域を選択する過程を指す。 限られた数の最適帯域を選択することで、モデルのトレーニングの高速化、精度の向上、あるいはその両方を目指す。 スペクトルバンド間の冗長性を低減し、元の画像情報を保存しようとする。 現在までに、教師なしのバンド選択手法の開発に多くの努力がなされており、その大半は試行錯誤によって考案されたヒューリスティックアルゴリズムである。 本稿では,ハイパースペクトル画像を用いて,手作業による推論を伴わずに最適なバンドサブセットを選択するためのポリシーを自動学習できるインテリジェントエージェントの訓練に関心がある。 そこで本研究では,教師なし帯域選択の問題をマルコフ決定過程とし,パラメータ化のための効果的な手法を提案し,さらに深層強化学習によって解決する。 エージェントが訓練されると、ハイパースペクトル画像と以前に選択されたバンドをフル活用することにより、エージェントが順次バンドを選択するためのバンド選択ポリシーを学ぶ。 さらに,深層強化学習の環境シミュレーションのための2つの報奨スキームを提案し,実験で比較した。 これは、我々の知る限り、ハイパースペクトル画像解析のための深層強化学習モデルを探求する最初の研究であり、将来の研究のための新たな扉を開き、リモートセンシングアプリケーションにおける深部強化学習の大きな可能性を示す。 4つの超スペクトルデータセットを用いて実験を行い,提案手法の有効性を実験的に検証した。

Band selection refers to the process of choosing the most relevant bands in a hyperspectral image. By selecting a limited number of optimal bands, we aim at speeding up model training, improving accuracy, or both. It reduces redundancy among spectral bands while trying to preserve the original information of the image. By now many efforts have been made to develop unsupervised band selection approaches, of which the majority are heuristic algorithms devised by trial and error. In this paper, we are interested in training an intelligent agent that, given a hyperspectral image, is capable of automatically learning policy to select an optimal band subset without any hand-engineered reasoning. To this end, we frame the problem of unsupervised band selection as a Markov decision process, propose an effective method to parameterize it, and finally solve the problem by deep reinforcement learning. Once the agent is trained, it learns a band-selection policy that guides the agent to sequentially select bands by fully exploiting the hyperspectral image and previously picked bands. Furthermore, we propose two different reward schemes for the environment simulation of deep reinforcement learning and compare them in experiments. This, to the best of our knowledge, is the first study that explores a deep reinforcement learning model for hyperspectral image analysis, thus opening a new door for future research and showcasing the great potential of deep reinforcement learning in remote sensing applications. Extensive experiments are carried out on four hyperspectral data sets, and experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-17 13:33:33 公開日:2021-03-15
# 非鏡視的論理形式のための遷移型解析器

A Transition-based Parser for Unscoped Episodic Logical Forms ( http://arxiv.org/abs/2103.08759v1 )

ライセンス: Link先を確認
Gene Louis Kim, Viet Duong, Xin Lu, Lenhart Schubert(参考訳) The Episodic Logic:Unscoped Logical Form (EL-ULF) は、述語論の構造を捉えた意味表現であり、エピソード論理形式論における言語のより困難な側面である。 注釈付きサンプルを用いて,文章をULFにパースするための最初の学習手法を提案する。 結果は、将来の改善のための強力なベースラインを提供する。 本手法は,キャッシュ遷移システム内の遷移動作シーケンスを予測するシーケンス・ツー・シーケンスモデルを学習する。 本研究は,タイプ文法に基づく制約,単語と記号のレキシコン,および遷移系状態の特徴の有効性を評価する。 私たちのシステムはhttps://github.com/g enelkim/ulf-transiti on-parserで利用可能です。

"Episodic Logic:Unscoped Logical Form" (EL-ULF) is a semantic representation capturing predicate-argument structure as well as more challenging aspects of language within the Episodic Logic formalism. We present the first learned approach for parsing sentences into ULFs, using a growing set of annotated examples. The results provide a strong baseline for future improvement. Our method learns a sequence-to-sequence model for predicting the transition action sequence within a modified cache transition system. We evaluate the efficacy of type grammar-based constraints, a word-to-symbol lexicon, and transition system state features in this task. Our system is available at https://github.com/g enelkim/ulf-transiti on-parser We also present the first official annotated ULF dataset at https://www.cs.roche ster.edu/u/gkim21/ul f/resources/.
翻訳日:2021-03-17 13:32:55 公開日:2021-03-15
# UPANets: Universal Pixel Attention Networksから学ぶ

UPANets: Learning from the Universal Pixel Attention Networks ( http://arxiv.org/abs/2103.08640v1 )

ライセンス: Link先を確認
Ching-Hsun Tseng, Shin-Jye Lee, Jia-Nan Feng, Shengzhong Mao, Yu-Ping Wu, Jia-Yu Shang, Mou-Chung Tseng, and Xiao-Jun Zeng(参考訳) 画像分類では、スキップと密結合に基づくネットワークがほとんどのリーダーボードを支配している。 近年,自然言語処理における多面的注目の高まりから,トランスフォーマー型モデルやハイブリッドCNNのいずれにも注目が集まっていることが確認されている。 しかし、前者は訓練に膨大なリソースを必要とし、後者は、この方向への完全なバランスにある。 本研究では,cnnがグローバル情報とローカル情報を扱うために,チャネル毎の注意とハイブリッドなスキップ・センス接続構造を備えたupanetsを提案する。 また、極端な接続構造により、upanetsはよりスムーズなロスランドスケープで堅牢になる。 実験では、UPANetsはCifar-10で96.47%、Cifar-100で80.29%、Tiny Imagenetで67.67%の精度で、最も有名で広く使われているSOTAを上回った。 最も重要なことは、これらのパフォーマンスは高いパラメータ効率を持ち、1つの顧客ベースのGPUでのみトレーニングされることだ。 UPANetsの実装コードはhttps://github.com/h anktseng131415go/UPA Netsで共有しています。

Among image classification, skip and densely-connection-b ased networks have dominated most leaderboards. Recently, from the successful development of multi-head attention in natural language processing, it is sure that now is a time of either using a Transformer-like model or hybrid CNNs with attention. However, the former need a tremendous resource to train, and the latter is in the perfect balance in this direction. In this work, to make CNNs handle global and local information, we proposed UPANets, which equips channel-wise attention with a hybrid skip-densely-connect ion structure. Also, the extreme-connection structure makes UPANets robust with a smoother loss landscape. In experiments, UPANets surpassed most well-known and widely-used SOTAs with an accuracy of 96.47% in Cifar-10, 80.29% in Cifar-100, and 67.67% in Tiny Imagenet. Most importantly, these performances have high parameters efficiency and only trained in one customer-based GPU. We share implementing code of UPANets in https://github.com/h anktseng131415go/UPA Nets.
翻訳日:2021-03-17 13:30:04 公開日:2021-03-15
# 仮想フロー計測のためのマルチタスク学習

Multi-task learning for virtual flow metering ( http://arxiv.org/abs/2103.08713v1 )

ライセンス: Link先を確認
Anders T. Sandnes (1 and 2), Bjarne Grimstad (1 and 3), Odd Kolbj{\o}rnsen (2) ((1) Solution Seeker AS, (2) Department of Mathematics, University of Oslo, (3) Department of Engineering Cybernetics, Norwegian University of Science and Technology)(参考訳) 仮想フローメータリング(virtual flow metering, vfm)は、石油資産の多相流量を推算するコスト効率と非インタラクティブな技術である。 流量に関する推測は、オペレーターが広く依存する意思決定支援システムの基本である。 メカニスティックモデルを機械学習モデルに置き換えるデータ駆動型VFMは、メンテナンスコストの低減を約束して最近注目を集めている。 小標本研究における優れた性能は文献で報告されているが、データ駆動型vfmの堅牢性には疑いの余地がある。 本稿では,データ駆動型VFMのためのマルチタスク学習(MTL)アーキテクチャを提案する。 本手法は,石油・ガス井を横断する学習を可能にする従来の方法と異なる。 4つの石油資産から55の井戸をモデル化した。 以上の結果から,MTLは単一タスク法よりも堅牢性を向上し,性能を損なわないことがわかった。 MTLは、単一タスクアーキテクチャが苦労している資産に対して平均25-50%のエラー削減をもたらす。

Virtual flow metering (VFM) is a cost-effective and non-intrusive technology for inferring multi-phase flow rates in petroleum assets. Inferences about flow rates are fundamental to decision support systems which operators extensively rely on. Data-driven VFM, where mechanistic models are replaced with machine learning models, has recently gained attention due to its promise of lower maintenance costs. While excellent performance in small sample studies have been reported in the literature, there is still considerable doubt towards the robustness of data-driven VFM. In this paper we propose a new multi-task learning (MTL) architecture for data-driven VFM. Our method differs from previous methods in that it enables learning across oil and gas wells. We study the method by modeling 55 wells from four petroleum assets. Our findings show that MTL improves robustness over single task methods, without sacrificing performance. MTL yields a 25-50% error reduction on average for the assets where single task architectures are struggling.
翻訳日:2021-03-17 13:25:33 公開日:2021-03-15
# ニューラルセルオートマタによる三次元人工物と機能機械の育成

Growing 3D Artefacts and Functional Machines with Neural Cellular Automata ( http://arxiv.org/abs/2103.08737v1 )

ライセンス: Link先を確認
Shyam Sudhakaran, Djordje Grbic, Siyan Li, Adam Katona, Elias Najarro, Claire Glanois, Sebastian Risi(参考訳) 神経細胞オートマタ(NCAs)は、ごくわずかな開始細胞から複雑な構造を連続的に構築する形態形成過程のシミュレーションに有効であることが証明されている。 NCAの最近の発展は2D領域にあり、すなわち、単一のピクセルまたは無限に成長する2Dテクスチャからターゲットイメージを再構成する。 本研究では,提案するニューラルネットワークアーキテクチャにおける3次元畳み込みを利用して,ncasを3dに拡張する手法を提案する。 minecraftは、静的な構造と動くマシンの両方を生成できるので、automattonの環境に選ばれています。 単純さにもかかわらず、NCAは城、マンション、木などの複雑な実体を育むことができ、その一部は3,000ブロック以上で構成されている。 さらに、再生のために訓練されたシステムは、単純な機能機械の一部を再成長させ、シミュレートされた形態形成システムの能力を著しく拡張することができる。

Neural Cellular Automata (NCAs) have been proven effective in simulating morphogenetic processes, the continuous construction of complex structures from very few starting cells. Recent developments in NCAs lie in the 2D domain, namely reconstructing target images from a single pixel or infinitely growing 2D textures. In this work, we propose an extension of NCAs to 3D, utilizing 3D convolutions in the proposed neural network architecture. Minecraft is selected as the environment for our automaton since it allows the generation of both static structures and moving machines. We show that despite their simplicity, NCAs are capable of growing complex entities such as castles, apartment blocks, and trees, some of which are composed of over 3,000 blocks. Additionally, when trained for regeneration, the system is able to regrow parts of simple functional machines, significantly expanding the capabilities of simulated morphogenetic systems.
翻訳日:2021-03-17 13:25:19 公開日:2021-03-15
# 深部強化学習による自律型ドローンレース

Autonomous Drone Racing with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08624v1 )

ライセンス: Link先を確認
Yunlong Song, Mats Steinweg, Elia Kaufmann, and Davide Scaramuzza(参考訳) ドローンレースのような多くのロボットタスクにおいて、ゴールはできるだけ速くコースポイントを移動することである。 この課題の鍵となる課題は、通常、経路ポイントの完全な知識を事前に通過させることによって解決される最小時間軌道を計画することである。 結果として得られるソリューションは、シングルトラックのレイアウトに高度に特化するか、プラットフォームダイナミクスに関する仮定を単純化するため、副最適である。 本研究では,四元数に対する最小時間軌道生成に対する新しいアプローチを提案する。 深部強化学習と相対ゲート観測の活用により、ランダムなトラックレイアウトのための近時最適軌道を適応的に計算できる。 本手法は,非自明なトラック構成に対する軌道最適化に基づくアプローチよりも大きな計算上の優位性を示す。 提案手法は,シミュレーションと実世界におけるレーストラックのセットで評価され,最大17m/sの速さを物理クオータで達成する。

In many robotic tasks, such as drone racing, the goal is to travel through a set of waypoints as fast as possible. A key challenge for this task is planning the minimum-time trajectory, which is typically solved by assuming perfect knowledge of the waypoints to pass in advance. The resulting solutions are either highly specialized for a single-track layout, or suboptimal due to simplifying assumptions about the platform dynamics. In this work, a new approach to minimum-time trajectory generation for quadrotors is presented. Leveraging deep reinforcement learning and relative gate observations, this approach can adaptively compute near-time-optimal trajectories for random track layouts. Our method exhibits a significant computational advantage over approaches based on trajectory optimization for non-trivial track configurations. The proposed approach is evaluated on a set of race tracks in simulation and the real world, achieving speeds of up to 17 m/s with a physical quadrotor.
翻訳日:2021-03-17 13:24:01 公開日:2021-03-15
# 胸部X線分析のためのディープラーニング:サーベイ

Deep Learning for Chest X-ray Analysis: A Survey ( http://arxiv.org/abs/2103.08700v1 )

ライセンス: Link先を確認
Ecem Sogancioglu, Erdi \c{C}all{\i}, Bram van Ginneken, Kicky G. van Leeuwen, Keelin Murphy(参考訳) 近年のディープラーニングの進歩は、多くの医療画像解析タスクにおいて有望なパフォーマンスをもたらしている。 最も一般的に行われる放射線検査として、胸部x線撮影は様々な応用が研究されている特に重要な形態である。 近年、複数の大きな胸部x線データセットがリリースされ、研究の関心が高まり、出版物数が増加した。 本稿では,胸部x線写真における深層学習を用いたすべての研究について,画像レベルの予測(分類と回帰),セグメンテーション,局所化,画像生成,ドメイン適応について検討する。 商業的に利用可能なアプリケーションの詳細が述べられ、その技術の現状と今後の方向性について総合的な議論がなされている。

Recent advances in deep learning have led to a promising performance in many medical image analysis tasks. As the most commonly performed radiological exam, chest radiographs are a particularly important modality for which a variety of applications have been researched. The release of multiple, large, publicly available chest X-ray datasets in recent years has encouraged research interest and boosted the number of publications. In this paper, we review all studies using deep learning on chest radiographs, categorizing works by task: image-level prediction (classification and regression), segmentation, localization, image generation and domain adaptation. Commercially available applications are detailed, and a comprehensive discussion of the current state of the art and potential future directions are provided.
翻訳日:2021-03-17 13:22:56 公開日:2021-03-15
# 暗号api提案のための埋め込みコードコンテキスト:新しい手法と比較

Embedding Code Contexts for Cryptographic API Suggestion:New Methodologies and Comparisons ( http://arxiv.org/abs/2103.08747v1 )

ライセンス: Link先を確認
Ya Xiao, Salman Ahmed, Wenjia Song, Xinyang Ge, Bimal Viswanath, Danfeng (Daphne) Yao(参考訳) 最近の研究努力にもかかわらず、api推奨による自動コード生成のビジョンは実現されていない。 APIレコメンデーションの正確性と表現性の課題には、体系的に対処する必要がある。 APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。 Multi-HyLSTMは、プログラム分析を利用して、APIの埋め込みとレコメンデーションをガイドする。 apiメソッドのデータ依存パスを分析することで、次のapiメソッド呼び出しを正確に予測するapiレコメンデーションタスクのためのマルチパスニューラルネットワークアーキテクチャをトレーニングし、専門化する。 これまでに報告されていない2つのプログラミング言語固有の課題に対処し、機能的に類似したAPIを区別し、低周波長範囲の影響を捉える。 提案手法は,プログラム解析支援組込み,マルチパスコード提案アーキテクチャ,低周波長距離エンハンスシーケンス学習,top-1レコメンデーションの精度向上など,設計選択の有効性を確認した。 最先端ツールSLANGの77.44%と比較してトップ1の精度は91.41%である。 245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%であり、Codotaの64.90%よりもはるかに優れている。 私たちは、データとコードを巨大なJava暗号コードデータセットとして公開します。

Despite recent research efforts, the vision of automatic code generation through API recommendation has not been realized. Accuracy and expressiveness challenges of API recommendation needs to be systematically addressed. We present a new neural network-based approach, Multi-HyLSTM for API recommendation --targeting cryptography-related code. Multi-HyLSTM leverages program analysis to guide the API embedding and recommendation. By analyzing the data dependence paths of API methods, we train embedding and specialize a multi-path neural network architecture for API recommendation tasks that accurately predict the next API method call. We address two previously unreported programming language-specific challenges, differentiating functionally similar APIs and capturing low-frequency long-range influences. Our results confirm the effectiveness of our design choices, including program-analysis-gui ded embedding, multi-path code suggestion architecture, and low-frequency long-range-enhanced sequence learning, with high accuracy on top-1 recommendations. We achieve a top-1 accuracy of 91.41% compared with 77.44% from the state-of-the-art tool SLANG. In an analysis of 245 test cases, compared with the commercial tool Codota, we achieve a top-1 recommendation accuracy of 88.98%, which is significantly better than Codota's accuracy of 64.90%. We publish our data and code as a large Java cryptographic code dataset.
翻訳日:2021-03-17 13:21:27 公開日:2021-03-15
# 機械学習による時間依存量子スピンネットワークのトモグラフィ

Tomography of time-dependent quantum spin networks with machine learning ( http://arxiv.org/abs/2103.08645v1 )

ライセンス: Link先を確認
Chen-Di Han, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) 相互作用するスピンネットワークは量子コンピューティングの基本である。 データに基づく時間非依存スピンネットワークのトモグラフィーが達成されているが、スピンの小さな部分集合から局所的に得られる時系列測定を用いて、時間依存スピンネットワークの構造を確認することがオープンな課題である。 物理的には、時間依存駆動または摂動下でのスピンネットワークの動的進化はハイゼンベルク運動方程式によって記述される。 この基本的な事実に動機づけられ、コアがハイゼンベルクニューラルネットワークである物理学で強化された機械学習フレームワークを特徴付ける。 特に, スピン変数の量子進化に追従するようにニューラルネットワークを「強制」するハイゼンベルク方程式に基づく, いくつかの物理動機損失関数に基づく深層学習アルゴリズムを開発した。 局所的な測定から,局所的なハミルトニアンを回収できるだけでなく,系全体の相互作用構造を反映したハミルトニアンも忠実に再構成できることを示した。 我々は、様々な構造のスピンネットワーク上で、ハイゼンベルクニューラルマシンをテストする。 1本のスピンのみから測定を行う極端な場合、達成されたトモグラフィーの忠実度値はおよそ90%に達する。 開発された機械学習フレームワークは、量子力学進化がハイゼンベルク運動方程式によって制御される任意の時間依存システムに適用できる。

Interacting spin networks are fundamental to quantum computing. Data-based tomography of time-independent spin networks has been achieved, but an open challenge is to ascertain the structures of time-dependent spin networks using time series measurements taken locally from a small subset of the spins. Physically, the dynamical evolution of a spin network under time-dependent driving or perturbation is described by the Heisenberg equation of motion. Motivated by this basic fact, we articulate a physics-enhanced machine learning framework whose core is Heisenberg neural networks. In particular, we develop a deep learning algorithm according to some physics motivated loss function based on the Heisenberg equation, which "forces" the neural network to follow the quantum evolution of the spin variables. We demonstrate that, from local measurements, not only the local Hamiltonian can be recovered but the Hamiltonian reflecting the interacting structure of the whole system can also be faithfully reconstructed. We test our Heisenberg neural machine on spin networks of a variety of structures. In the extreme case where measurements are taken from only one spin, the achieved tomography fidelity values can reach about 90%. The developed machine learning framework is applicable to any time-dependent systems whose quantum dynamical evolution is governed by the Heisenberg equation of motion.
翻訳日:2021-03-17 13:20:21 公開日:2021-03-15
# (参考訳) カプセルネットワークの限界を押し上げる [全文訳有]

Pushing the Limits of Capsule Networks ( http://arxiv.org/abs/2103.08074v1 )

ライセンス: CC BY 4.0
Prem Nair, Rohan Doshi, Stefan Keselj(参考訳) 畳み込みニューラルネットワークは、機能検出のための翻訳不変性を維持するためにプーリングやその他のダウンスケーリング操作を使用するが、そのアーキテクチャでは、互いに相対的に特徴の場所の表現を明示的に保持していない。 つまり、同じオブジェクトの2つのインスタンスを人間と同じように異なる向きで表現していないため、トレーニングには大規模なデータ拡張と極めて深いネットワークが必要です。 Google Brainのチームが最近、この問題を解決しようとしている: Capsule Networks。 通常のCNNは機能の存在を表すスカラー出力で動作するが、CapsNetはエンティティの存在を表すベクトル出力で動作する。 CapsNetのパフォーマンスと表現性をよりよく理解するために、さまざまなインクリメンタルな方法でテストしたいと思っています。 本研究の目的は,(1)mnistに近いが特定の方法では難しいデータセットのcapsnetsをテストすること,(2)capsnetsの内部埋め込み空間とエラーの原因を探索すること,である。

Convolutional neural networks use pooling and other downscaling operations to maintain translational invariance for detection of features, but in their architecture they do not explicitly maintain a representation of the locations of the features relative to each other. This means they do not represent two instances of the same object in different orientations the same way, like humans do, and so training them often requires extensive data augmentation and exceedingly deep networks. A team at Google Brain recently made news with an attempt to fix this problem: Capsule Networks. While a normal CNN works with scalar outputs representing feature presence, a CapsNet works with vector outputs representing entity presence. We want to stress test CapsNet in various incremental ways to better understand their performance and expressiveness. In broad terms, the goals of our investigation are: (1) test CapsNets on datasets that are like MNIST but harder in a specific way, and (2) explore the internal embedding space and sources of error for CapsNets.
翻訳日:2021-03-17 02:19:17 公開日:2021-03-15
# (参考訳) 乳癌における遺伝組織学的関係の探索 [全文訳有]

Exploring Genetic-histologic Relationships in Breast Cancer ( http://arxiv.org/abs/2103.08082v1 )

ライセンス: CC BY 4.0
Ruchi Chauhan, PK Vinod, CV Jawahar(参考訳) デジタル病理学の出現は、組織病理学的画像のための迅速で正確で客観的なソリューションと知識発見を支援するためのコンピュータビジョンの機会を提供します。 この研究は深層学習を用いて、乳癌の病理組織像からTP53変異、PIK3CA変異、ERステータス、PRステータス、HER2ステータス、内因性サブタイプを予測する。 さらに,これらのゲノムバイオマーカーが画像にどのように現れるのか,その基礎的形態を理解することを試みた。 遺伝子シークエンシングは高価であり、必ずしも利用可能ではないため、画像からこれらのバイオマーカーを予測することは、診断、予後、および効果的な治療計画に役立ちます。 全タスクで0.02の最小改善と最大0.13のAUROCスコアで既存の作業より優れています。 また、リンパ球やkaryorrhexisの存在など、さらなる実験のための仮説として役立つ洞察を得ます。 さらに、当社のフル自動化ワークフローは、他のがんサブタイプにわたる他のタスクにも拡張できます。

The advent of digital pathology presents opportunities for computer vision for fast, accurate, and objective solutions for histopathological images and aid in knowledge discovery. This work uses deep learning to predict genomic biomarkers - TP53 mutation, PIK3CA mutation, ER status, PR status, HER2 status, and intrinsic subtypes, from breast cancer histopathology images. Furthermore, we attempt to understand the underlying morphology as to how these genomic biomarkers manifest in images. Since gene sequencing is expensive, not always available, or even feasible, predicting these biomarkers from images would help in diagnosis, prognosis, and effective treatment planning. We outperform the existing works with a minimum improvement of 0.02 and a maximum of 0.13 AUROC scores across all tasks. We also gain insights that can serve as hypotheses for further experimentations, including the presence of lymphocytes and karyorrhexis. Moreover, our fully automated workflow can be extended to other tasks across other cancer subtypes.
翻訳日:2021-03-17 02:07:47 公開日:2021-03-15
# (参考訳) EnHMM: バグレポートフィールドの再割り当て予測のためのHMMとスタックトレースのアンサンブル利用について [全文訳有]

EnHMM: On the Use of Ensemble HMMs and Stack Traces to Predict the Reassignment of Bug Report Fields ( http://arxiv.org/abs/2103.08083v1 )

ライセンス: CC BY 4.0
Md Shariful Islam, Abdelwahab Hamou-Lhadj, Korosh K. Sabor, Mohammad Hamdaqa, Haipeng Cai(参考訳) バグレポート(BR)には、チームが優先順位付けし、修正を提供する開発者にバグを割り当てるのに役立つ重要な情報が含まれています。 しかし、BRフィールドはしばしば再割り当てが必要な誤った情報を含んでおり、バグ修正プロセスを遅らせることが研究で示されています。 BR フィールドが再割り当てされるべきかどうかを予測する方法は存在する。 これらの研究は主にBR記述と従来の機械学習アルゴリズム(SVM、KNNなど)を使用している。 したがって、brスタックトレースの関数呼び出しシーケンスのようなbrデータ内の情報の逐次的な順序の恩恵を受けず、予測精度を向上させるのに有用である。 本稿では,スタックトレースに基づいて学習したアンサンブル隠れマルコフモデル(HMM)を用いてBRフィールドの再割り当てを予測する,EnHMMと呼ばれる新しい手法を提案する。 EnHMM は HMM の自然能力を利用してシーケンシャルデータを表現して BR スタックトレースにおける関数呼び出しの時系列順序をモデル化します。 EclipseとGnome BRリポジトリに適用すると、EnHMMは、Eclipseデータセットで54%、76%、60%、Gnomeデータセットで41%、69%、および51%の平均精度、リコール、およびF測定を実現します。 また、EnHMMはEclipseで36%、Gnomeで76%、最高のシングルHMMで36%改善しています。 最後に,EnHMMと最近のアプローチであるIm.ML.KNNを比較すると,EnHMMの平均F値スコアが平均F値の6.80%向上し,Im.ML.KNNの平均リコール率が36.09%向上することがわかった。 しかし、EnHMMの平均精度はIm.ML.KNNよりも低い(56.71%に対して53.93%)。

Bug reports (BR) contain vital information that can help triaging teams prioritize and assign bugs to developers who will provide the fixes. However, studies have shown that BR fields often contain incorrect information that need to be reassigned, which delays the bug fixing process. There exist approaches for predicting whether a BR field should be reassigned or not. These studies use mainly BR descriptions and traditional machine learning algorithms (SVM, KNN, etc.). As such, they do not fully benefit from the sequential order of information in BR data, such as function call sequences in BR stack traces, which may be valuable for improving the prediction accuracy. In this paper, we propose a novel approach, called EnHMM, for predicting the reassignment of BR fields using ensemble Hidden Markov Models (HMMs), trained on stack traces. EnHMM leverages the natural ability of HMMs to represent sequential data to model the temporal order of function calls in BR stack traces. When applied to Eclipse and Gnome BR repositories, EnHMM achieves an average precision, recall, and F-measure of 54%, 76%, and 60% on Eclipse dataset and 41%, 69%, and 51% on Gnome dataset. We also found that EnHMM improves over the best single HMM by 36% for Eclipse and 76% for Gnome. Finally, when comparing EnHMM to Im.ML.KNN, a recent approach in the field, we found that the average F-measure score of EnHMM improves the average F-measure of Im.ML.KNN by 6.80% and improves the average recall of Im.ML.KNN by 36.09%. However, the average precision of EnHMM is lower than that of Im.ML.KNN (53.93% as opposed to 56.71%).
翻訳日:2021-03-17 02:01:06 公開日:2021-03-15
# (参考訳) エゴセントリックデータにおけるサイクリングハザードの分類 [全文訳有]

Classifying Cycling Hazards in Egocentric Data ( http://arxiv.org/abs/2103.08102v1 )

ライセンス: CC BY 4.0
Jayson Haebich, Christian Sandor and Alvaro Cassinelli(参考訳) この提案は、危険を伴うサイクリング状況のエゴセントリックなビデオデータセットの作成とアノテーションである。 得られたデータセットは、サイクリストの安全と経験を改善するプロジェクトを促進する。 サイクリストは路面状況や危険に敏感であるため、ルートを移動する際に道路状況についてより詳細に説明する必要があります。 路面電車、石畳、格子、ユーティリティアクセスポイントなどの特徴は、旅行に危険や不快なライディング条件をもたらす可能性がある。 データセットの考えられる用途は、自治体のサイクリングインフラストラクチャにおける既存のハザードの特定、サイクリストのリアルタイムハザードと表面条件の警告、そしてサイクリストが直ちに経路を急変させるような状況の特定である。

This proposal is for the creation and annotation of an egocentric video data set of hazardous cycling situations. The resulting data set will facilitate projects to improve the safety and experience of cyclists. Since cyclists are highly sensitive to road surface conditions and hazards they require more detail about road conditions when navigating their route. Features such as tram tracks, cobblestones, gratings, and utility access points can pose hazards or uncomfortable riding conditions for their journeys. Possible uses for the data set are identifying existing hazards in cycling infrastructure for municipal authorities, real time hazard and surface condition warnings for cyclists, and the identification of conditions that cause cyclists to make sudden changes in their immediate route.
翻訳日:2021-03-17 01:41:01 公開日:2021-03-15
# (参考訳) 強化学習による歩行時の運動と運動のモデル化 [全文訳有]

Modelling Human Kinetics and Kinematics during Walking using Reinforcement Learning ( http://arxiv.org/abs/2103.08125v1 )

ライセンス: CC BY 4.0
Visak Kumar(参考訳) 本研究では,現実の人間の動作に匹敵するシミュレーションで3次元歩行運動を生成する自動手法を開発した。 本研究の核心は,環境力学の変動に頑健なまま,高次元運動スキルを習得する深層強化学習手法の活用である。 本手法は,実世界のバイオメカニカル・ヒューマン・データに適合するために,ポリシー学習とパラメータ識別を繰り返す。 我々は,学習した仮想人体エージェントが生み出すキネマティクス,運動学,地中反応力の徹底的な評価を行った。 また, この手法は, 異なる運動構造と歩行特性を持つヒト-サブジェクトをまたいでよく一般化することを示した。

In this work, we develop an automated method to generate 3D human walking motion in simulation which is comparable to real-world human motion. At the core, our work leverages the ability of deep reinforcement learning methods to learn high-dimensional motor skills while being robust to variations in the environment dynamics. Our approach iterates between policy learning and parameter identification to match the real-world bio-mechanical human data. We present a thorough evaluation of the kinematics, kinetics and ground reaction forces generated by our learned virtual human agent. We also show that the method generalizes well across human-subjects with different kinematic structure and gait-characteristics .
翻訳日:2021-03-17 01:37:05 公開日:2021-03-15
# (参考訳) R-PointHop: グリーンで正確で教師なしのポイントクラウド登録方法 [全文訳有]

R-PointHop: A Green, Accurate and Unsupervised Point Cloud Registration Method ( http://arxiv.org/abs/2103.08129v1 )

ライセンス: CC BY 4.0
Pranav Kadam, Min Zhang, Shan Liu, C.-C. Jay Kuo(参考訳) 近年のPointHop分類法に触発されて,R-PointHopと呼ばれる教師なしの3Dポイントクラウド登録法が提案されている。 R-PointHopは、まず最も近い隣人を使用して各点のローカル参照フレーム(LRF)を決定し、そのローカル属性を見つけます。 次に、R-PointHopは点ダウンサンプリング、近傍展開、属性構成、次元減少ステップによって局所-グローバル階層的特徴を得る。 したがって、最寄りの規則を用いて階層的特徴空間内の点の対応を構築することができる。 その後、良好な対応点のサブセットを選択し、3D変換を推定する。 lrfを使用することで、回転と変換に関して点の階層的特徴が不変になり、回転角が大きい場合でもr-pointhopはビルディングポイント対応においてより頑健になる。 実験はModelNet40とStanford Bunnyデータセット上で行われ、3Dポイントクラウド登録タスクにおけるR-PointHopの有効性を示す。 R-PointHopは、モデルのサイズとトレーニング時間は、登録エラーが小さい間、深層学習方法よりも桁違いに小さいため、緑で正確なソリューションです。 コードはGitHubで入手できます。

Inspired by the recent PointHop classification method, an unsupervised 3D point cloud registration method, called R-PointHop, is proposed in this work. R-PointHop first determines a local reference frame (LRF) for every point using its nearest neighbors and finds its local attributes. Next, R-PointHop obtains local-to-global hierarchical features by point downsampling, neighborhood expansion, attribute construction and dimensionality reduction steps. Thus, we can build the correspondence of points in the hierarchical feature space using the nearest neighbor rule. Afterwards, a subset of salient points of good correspondence is selected to estimate the 3D transformation. The use of LRF allows for hierarchical features of points to be invariant with respect to rotation and translation, thus making R-PointHop more robust in building point correspondence even when rotation angles are large. Experiments are conducted on the ModelNet40 and the Stanford Bunny dataset, which demonstrate the effectiveness of R-PointHop on the 3D point cloud registration task. R-PointHop is a green and accurate solution since its model size and training time are smaller than those of deep learning methods by an order of magnitude while its registration errors are smaller. Our codes are available on GitHub.
翻訳日:2021-03-17 01:27:12 公開日:2021-03-15
# (参考訳) 不完全なドメイン知識とVoxel-to-Mesh推定を用いたメッシュ表現に基づく衣服操作計画 [全文訳有]

Cloth Manipulation Planning on Basis of Mesh Representations with Incomplete Domain Knowledge and Voxel-to-Mesh Estimation ( http://arxiv.org/abs/2103.08137v1 )

ライセンス: CC BY 4.0
Solvi Arnold (1), Daisuke Tanaka (1), Kimitoshi Yamazaki (1) ((1) Shinshu University)(参考訳) ロボット布操作におけるオープンゴール計画の問題点を考察する。 我々のシステムの中核は、操作中の布の挙動のフォワードモデルとして訓練されたニューラルネットワークであり、バックプロパゲーションによって計画を実行する。 本稿では,voxel入力からメッシュ表現を推定するニューラルネットワークベースのルーチンを導入し,メッシュ形式の計画を行う。 明示的な認識の不確実性信号を用いて,不完全領域知識を持つ計画の問題に対処する。 この信号は、フォワードモデルネットワークの2つのインスタンス間の予測発散から計算され、計画中の認識の不確実性を避けるために使用される。 最後に,ロボットハードウェアに課される把持性制約に対応するために,個別の候補集合に対する把持点制限を扱う論理を導入する。 シミュレーション布のメッシュ推定,予測,計画能力を1~3回の操作で評価した。 比較実験により、推定メッシュに基づく計画がボクセルに基づく計画よりも精度が向上し、認識の不確実性回避が不完全なドメイン知識の条件下でのパフォーマンスを向上させることが確認された。 さらに,ロボットハードウェアに関する質的結果も提示する。

We consider the problem of open-goal planning for robotic cloth manipulation. Core of our system is a neural network trained as a forward model of cloth behaviour under manipulation, with planning performed through backpropagation. We introduce a neural network-based routine for estimating mesh representations from voxel input, and perform planning in mesh format internally. We address the problem of planning with incomplete domain knowledge by means of an explicit epistemic uncertainty signal. This signal is calculated from prediction divergence between two instances of the forward model network and used to avoid epistemic uncertainty during planning. Finally, we introduce logic for handling restriction of grasp points to a discrete set of candidates, in order to accommodate graspability constraints imposed by robotic hardware. We evaluate the system's mesh estimation, prediction, and planning ability on simulated cloth for sequences of one to three manipulations. Comparative experiments confirm that planning on basis of estimated meshes improves accuracy compared to voxel-based planning, and that epistemic uncertainty avoidance improves performance under conditions of incomplete domain knowledge. We additionally present qualitative results on robot hardware.
翻訳日:2021-03-17 01:05:04 公開日:2021-03-15
# (参考訳) S$^*$:マルチゴール経路探索のためのヒューリスティック情報に基づく近似フレームワーク [全文訳有]

S$^*$: A Heuristic Information-Based Approximation Framework for Multi-Goal Path Finding ( http://arxiv.org/abs/2103.08155v1 )

ライセンス: CC BY 4.0
Kenny Chour, Sivakumar Rathinam, Ramamoorthi Ravi(参考訳) 移動セールスマン問題に対する一方向および双方向のヒューリスティック探索のアイデアと近似アルゴリズムを組み合わせて,2近似保証を提供する多方向経路探索(mgpf)問題の新たな枠組みを開発する。 MGPFは、特定の目標セット内の各ノードが少なくとも1回はパスに沿って訪問されるように、原点から目的地までの最小コストのパスを見つけることを目指しています。 拡張ノード数と実行時間の観点から,従来の代替よりもフレームワークが優れていることを示す数値的結果を提示する。

We combine ideas from uni-directional and bi-directional heuristic search, and approximation algorithms for the Traveling Salesman Problem, to develop a novel framework for a Multi-Goal Path Finding (MGPF) problem that provides a 2-approximation guarantee. MGPF aims to find a least-cost path from an origin to a destination such that each node in a given set of goals is visited at least once along the path. We present numerical results to illustrate the advantages of our framework over conventional alternates in terms of the number of expanded nodes and run time.
翻訳日:2021-03-17 00:31:17 公開日:2021-03-15
# (参考訳) 医療診断の機能選択:心臓病の診断におけるハイブリッドスタックジェネティックアプローチの使用評価 [全文訳有]

Feature selection for medical diagnosis: Evaluation for using a hybrid Stacked-Genetic approach in the diagnosis of heart disease ( http://arxiv.org/abs/2103.08175v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam(参考訳) 背景と目的: 心臓病は過去10年間に死因の最も重要な原因の1つであり、心臓病を診断し予測するための分類方法の使用は非常に重要です。 月経前にこの疾患が予測された場合、高い死亡率を予防し、より正確で効率的な治療法を提供することができる。 材料と方法:入力機能の選択のために、基本的なアルゴリズムの使用は非常に時間がかかります。 ディメンジョンの削減や機能の優れたサブセットの選択は、精度を損なうことなく、この領域での使用に成功するための基本的なアルゴリズムにとって非常に重要である。 本論文では,ラッパー機能低減を用いたアンサンブルジェネティック学習法を提案し,疾患分類の特徴を選定する。 発見: 心疾患を予測するためのアンサンブル学習に基づく医療診断システムの開発は、従来の方法よりも正確な診断を提供し、治療コストを低減させる。 結論: タリウムスキャンと血管閉塞は心疾患の診断において最も重要な特徴であり, 97.57%の精度で疾患と健康の区別が可能であった。

Background and purpose: Heart disease has been one of the most important causes of death in the last 10 years, so the use of classification methods to diagnose and predict heart disease is very important. If this disease is predicted before menstruation, it is possible to prevent high mortality of the disease and provide more accurate and efficient treatment methods. Materials and Methods: Due to the selection of input features, the use of basic algorithms can be very time-consuming. Reducing dimensions or choosing a good subset of features, without risking accuracy, has great importance for basic algorithms for successful use in the region. In this paper, we propose an ensemble-genetic learning method using wrapper feature reduction to select features in disease classification. Findings: The development of a medical diagnosis system based on ensemble learning to predict heart disease provides a more accurate diagnosis than the traditional method and reduces the cost of treatment. Conclusion: The results showed that Thallium Scan and vascular occlusion were the most important features in the diagnosis of heart disease and can distinguish between sick and healthy people with 97.57% accuracy.
翻訳日:2021-03-17 00:14:33 公開日:2021-03-15
# (参考訳) 深層学習に基づく2021年9月22日までのイランにおける新型コロナ流行のモデル化と予測 [全文訳有]

Modeling and forecasting Spread of COVID-19 epidemic in Iran until Sep 22, 2021, based on deep learning ( http://arxiv.org/abs/2103.08178v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Amir Jalili Irani, Babak Nouri-Moghaddam(参考訳) 最近のコビッド-19の世界的な流行は、世界中の多くの国に影響を与えています。 新規感染者の増加と医療システムのボトルネックにより、今後の患者の数を予測することが有用になります。 本研究は、イラン保健医療省の公式データセットと、新型コロナウイルスの感染拡大に対する対策の効果を用いて、イランにおける新たな症例、死亡者数、回復患者数を180日間にわたって効率的に予測することを目的としている。 予測手法、時系列、機械学習アルゴリズムの4つの異なるタイプが開発され、与えられたケーススタディに最適なパフォーマンス方法が決定されます。 時系列では,prophet,long short-term memory,autoregressiv e,autoregressive integrated moving average modelの4つのアルゴリズムを検討する。 異なる手法を比較すると、ディープラーニング手法は時系列予測アルゴリズムよりも優れた結果をもたらすことが分かりました。 より具体的には、エラー対策の最小値は、季節ANNおよびLSTMモデルで観察されます。 以上の結果から,予防措置が真剣に取られた場合,新たな症例や死亡件数は減少し,2021年9月の死亡件数はゼロとなることが明らかとなった。

The recent global outbreak of covid-19 is affecting many countries around the world. Due to the growing number of newly infected individuals and the health-care system bottlenecks, it will be useful to predict the upcoming number of patients. This study aims to efficiently forecast the is used to estimate new cases, number of deaths, and number of recovered patients in Iran for 180 days, using the official dataset of the Iranian Ministry of Health and Medical Education and the impact of control measures on the spread of COVID-19. Four different types of forecasting techniques, time series, and machine learning algorithms, are developed and the best performing method for the given case study is determined. Under the time series, we consider the four algorithms including Prophet, Long short-term memory, Autoregressive, Autoregressive Integrated Moving Average models. On comparing the different techniques, we found that deep learning methods yield better results than time series forecasting algorithms. More specifically, the least value of the error measures is observed in seasonal ANN and LSTM models. Our findings showed that if precautionary measures are taken seriously, the number of new cases and deaths will decrease, and the number of deaths in September 2021 will reach zero.
翻訳日:2021-03-17 00:00:32 公開日:2021-03-15
# (参考訳) 深層ニューラルネットワークを用いた医療システムのためのアンサンブル学習アルゴリズム(慢性疾患の診断) [全文訳有]

Deep Neural Network Based Ensemble learning Algorithms for the healthcare system (diagnosis of chronic diseases) ( http://arxiv.org/abs/2103.08182v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam, Mehdi Ghazanfari(参考訳) 学習アルゴリズム。 本稿では,医療システム(慢性疾患)における分類アルゴリズムについて概説し,ニューラルネットワークを用いたアンサンブル学習法を提案する。 一般的なアルゴリズムを簡潔に説明し,その重要な性質について述べる。 材料と方法: 医療で用いられる最新の分類アルゴリズムを用いて、これらの方法とガイドラインの原理を検証し、慢性疾患の正確な診断と予測のために、ニューラルネットワークに基づくアンサンブル学習を用いた優れた機械学習アルゴリズムを用いる。 このために、UCIサイトで利用可能な慢性患者(糖尿病、心臓、がん)の実際のデータである実験データを使用します。 結果: 慢性疾患を診断するためのグループアルゴリズムは, 基本アルゴリズムよりも効果的であることがわかった。 また、慢性疾患の診断における機械学習の分類をさらに進めるためのいくつかの課題を特定します。 結論: 本研究では, 脳疾患の診断と予測のためのニューラルネットワークに基づくエンサンブル学習法が, 98.5, 99, 100%の精度に到達した。

learning algorithms. In this paper, we review the classification algorithms used in the health care system (chronic diseases) and present the neural network-based Ensemble learning method. We briefly describe the commonly used algorithms and describe their critical properties. Materials and Methods: In this study, modern classification algorithms used in healthcare, examine the principles of these methods and guidelines, and to accurately diagnose and predict chronic diseases, superior machine learning algorithms with the neural network-based ensemble learning Is used. To do this, we use experimental data, real data on chronic patients (diabetes, heart, cancer) available on the UCI site. Results: We found that group algorithms designed to diagnose chronic diseases can be more effective than baseline algorithms. It also identifies several challenges to further advancing the classification of machine learning in the diagnosis of chronic diseases. Conclusion: The results show the high performance of the neural network-based Ensemble learning approach for the diagnosis and prediction of chronic diseases, which in this study reached 98.5, 99, and 100% accuracy, respectively.
翻訳日:2021-03-16 23:48:54 公開日:2021-03-15
# (参考訳) 糖尿病の予測のための遺伝的アルゴリズムとハイブリッドスタックアンサンブル [全文訳有]

Hybrid stacked ensemble combined with genetic algorithms for Prediction of Diabetes ( http://arxiv.org/abs/2103.08186v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam(参考訳) 糖尿病は、現在、血糖値の上昇または体内のインスリンの減少によって引き起こされる世界で最も一般的で危険で高価な疾患の1つです。 糖尿病は、診断が遅ければ人の健康に有害な影響を与えることがある。 今日、糖尿病は健康と政府の役人の課題の1つとなっています。 予防は最優先事項であり、快適さを損なうことなく人々の健康を守ることが不可欠である。 本研究では,遺伝子アルゴリズムに基づくエンサンブルトレーニング手法を用いて,糖尿病の正確な診断と予後の予測を行う。 本研究では、カリフォルニア大学のウェブサイトで、インドの糖尿病に関する実際のデータである実験データを用いています。 モノのインターネット、機械学習、データマイニングなどのICTの現在の発展により、日常生活や病院における病気の結果を正確に予測し、この病気とその多くの合併症の進行を防ぐためのよりインテリジェントな機能を備えた健康戦略を提供することができます。 その結果,本研究は98.8%に達し,99%の精度を示した。

Diabetes is currently one of the most common, dangerous, and costly diseases in the world that is caused by an increase in blood sugar or a decrease in insulin in the body. Diabetes can have detrimental effects on people's health if diagnosed late. Today, diabetes has become one of the challenges for health and government officials. Prevention is a priority, and taking care of people's health without compromising their comfort is an essential need. In this study, the Ensemble training methodology based on genetic algorithms are used to accurately diagnose and predict the outcomes of diabetes mellitus. In this study, we use the experimental data, real data on Indian diabetics on the University of California website. Current developments in ICT, such as the Internet of Things, machine learning, and data mining, allow us to provide health strategies with more intelligent capabilities to accurately predict the outcomes of the disease in daily life and the hospital and prevent the progression of this disease and its many complications. The results show the high performance of the proposed method in diagnosing the disease, which has reached 98.8%, and 99% accuracy in this study.
翻訳日:2021-03-16 23:20:18 公開日:2021-03-15
# (参考訳) 教師なし医用画像登録のためのカスケード特徴ウォーピングネットワーク [全文訳有]

Cascaded Feature Warping Network for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2103.08213v1 )

ライセンス: CC BY 4.0
Liutong Zhang, Lei Zhou, Ruiyang Li, Xianyu Wang, Boxuan Han, Hongen Liao(参考訳) 変形可能な画像登録は医用画像解析で広く利用されているが、提案手法のほとんどは複雑な変形の場合には失敗する。 本稿では,細部への粗い登録を行うために,カスケード型特徴変形ネットワークを事前入力する。 これを実現するために、共有重みエンコーダネットワークを採用し、不整合画像の特徴ピラミッドを生成する。 次に、特徴ワープ登録モジュールを使用して各レベルにおける変形場を推定する。 モジュールをボトムレベルからトップレベルにカスケードすることにより、粒度の粗い方法で実装する。 さらに、登録性能を高めるために、マルチスケールの損失も導入する。 公開ベンチマークデータセットを2つ採用し, 各種実験を行い, 評価を行った。 その結果,本手法は最先端手法よりも優れており,また,カスケード特徴ウォーピングネットワークが効果的かつ効率的に粗い登録を行うことができることを示した。

Deformable image registration is widely utilized in medical image analysis, but most proposed methods fail in the situation of complex deformations. In this paper, we pre-sent a cascaded feature warping network to perform the coarse-to-fine registration. To achieve this, a shared-weights encoder network is adopted to generate the feature pyramids for the unaligned images. The feature warping registration module is then used to estimate the deformation field at each level. The coarse-to-fine manner is implemented by cascading the module from the bottom level to the top level. Furthermore, the multi-scale loss is also introduced to boost the registration performance. We employ two public benchmark datasets and conduct various experiments to evaluate our method. The results show that our method outperforms the state-of-the-art methods, which also demonstrates that the cascaded feature warping network can perform the coarse-to-fine registration effectively and efficiently.
翻訳日:2021-03-16 23:06:18 公開日:2021-03-15
# (参考訳) Adapt Everywhere:マルチモーダル心画像分割のためのポイントクラウドの教師なし適応とエントロピー最小化 [全文訳有]

Adapt Everywhere: Unsupervised Adaptation of Point-Clouds and Entropy Minimisation for Multi-modal Cardiac Image Segmentation ( http://arxiv.org/abs/2103.08219v1 )

ライセンス: CC BY-SA 4.0
Sulaiman Vesal, Mingxuan Gu, Ronak Kosti, Andreas Maier, Nishant Ravikumar(参考訳) ディープラーニングモデルはドメインシフト現象に敏感である。 あるドメインの画像で訓練されたモデルは、類似の解剖学的構造をキャプチャするにもかかわらず、異なるドメインの画像でテストするとうまく一般化できない。 主に、2つのドメイン間のデータ分布が異なるためです。 さらに、すべての新しいモダリティに対するアノテーションを作成することは退屈で時間を要する作業であり、高い観察者間および観察者内変動に悩まされる。 unsupervised domain adaptation (uda)メソッドは、ソースドメインラベルデータを利用してターゲットドメインのラベルを生成することで、ソースドメインとターゲットドメインの間のギャップを減らすことを目的としている。 しかし、現在の最新(SOTA)UDAメソッドは、ソースドメインとターゲットドメインに不十分なデータがある場合、パフォーマンスが低下します。 本稿では、マルチモーダル心臓画像分割のための新しいUDA法を提案する。 提案手法は、逆学習に基づいて、異なる空間におけるソースとターゲットドメイン間のネットワーク特徴を適応する。 本稿では,a)エントロピー最小化,b)アウトプット特徴空間アライメント,c)セグメンテーションモデルで学習した潜在特徴に基づく新しいポイントクラウド形状適応を組み込んだエンドツーエンドフレームワークを提案する。 本手法は,アノテートソースドメインであるbSSFP-MRI(Stady-Stat e Free Procession-MRI)からマルチシーケンスデータセットのLGE-MRI(Late-gadolin ium enhance-MRI)への適応,およびクロスモーダルデータセットのMRI(source)からCT(target)への適応により,2つの心臓データセットに対して検証を行った。 その結果,他のSOTA法と比較して,ネットワークの異なる部分における対角学習を強制することにより,提案手法は有望な性能を示した。

Deep learning models are sensitive to domain shift phenomena. A model trained on images from one domain cannot generalise well when tested on images from a different domain, despite capturing similar anatomical structures. It is mainly because the data distribution between the two domains is different. Moreover, creating annotation for every new modality is a tedious and time-consuming task, which also suffers from high inter- and intra- observer variability. Unsupervised domain adaptation (UDA) methods intend to reduce the gap between source and target domains by leveraging source domain labelled data to generate labels for the target domain. However, current state-of-the-art (SOTA) UDA methods demonstrate degraded performance when there is insufficient data in source and target domains. In this paper, we present a novel UDA method for multi-modal cardiac image segmentation. The proposed method is based on adversarial learning and adapts network features between source and target domain in different spaces. The paper introduces an end-to-end framework that integrates: a) entropy minimisation, b) output feature space alignment and c) a novel point-cloud shape adaptation based on the latent features learned by the segmentation model. We validated our method on two cardiac datasets by adapting from the annotated source domain, bSSFP-MRI (balanced Steady-State Free Procession-MRI), to the unannotated target domain, LGE-MRI (Late-gadolinium enhance-MRI), for the multi-sequence dataset; and from MRI (source) to CT (target) for the cross-modality dataset. The results highlighted that by enforcing adversarial learning in different parts of the network, the proposed method delivered promising performance, compared to other SOTA methods.
翻訳日:2021-03-16 22:59:49 公開日:2021-03-15
# (参考訳) 確率構造推定によるアルゴリズムによる強化学習 [全文訳有]

Reinforcement Learning with Algorithms from Probabilistic Structure Estimation ( http://arxiv.org/abs/2103.08241v1 )

ライセンス: CC BY 4.0
Jonathan P. Epperlein, Roman Overko, Sergiy Zhuk, Christopher King, Djallel Bouneffouf, Andrew Cullen and Robert Shorten(参考訳) 強化学習(RL)アルゴリズムは、行動を取り、得られた報酬を観察する経験を通じて、未知の環境で最適な決定を学ぶことを目指しています。 環境はRLエージェントの作用の影響を受けない場合もあるが、その場合、その問題を文脈的マルチアームバンディットとしてモデル化し、軽量な 'emph{myopic} アルゴリズムを用いることができる。 一方、RLエージェントのアクションが環境に影響を与える場合、問題はマルコフ決定プロセスとしてモデル化され、アクションの将来の影響を考慮するより複雑なRLアルゴリズムが必要です。 さらに、多くの現代のRL設定では、エージェントのアクションが環境に影響を与えるかどうかは最初から不明であり、どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。 本研究では、このジレンマを完全に回避し、RLフレームワークに選択メカニズムを組み込むことを提案する。 特定の問題構造を仮定するのではなく,確率比(LR)テストに基づく確率的構造推定手法を用いて,学習アルゴリズムのより深い選択を行う。 我々は、筋電図のポリシーが最適である十分な条件を導出し、この条件に対するLRテストを示し、我々の枠組みの後悔に縛られることを導出する。 フレームワークが必要な実世界のシナリオの例を提供し、アプローチを検証するための広範なシミュレーションを提供します。

Reinforcement learning (RL) algorithms aim to learn optimal decisions in unknown environments through experience of taking actions and observing the rewards gained. In some cases, the environment is not influenced by the actions of the RL agent, in which case the problem can be modeled as a contextual multi-armed bandit and lightweight \emph{myopic} algorithms can be employed. On the other hand, when the RL agent's actions affect the environment, the problem must be modeled as a Markov decision process and more complex RL algorithms are required which take the future effects of actions into account. Moreover, in many modern RL settings, it is unknown from the outset whether or not the agent's actions will impact the environment and it is often not possible to determine which RL algorithm is most fitting. In this work, we propose to avoid this dilemma entirely and incorporate a choice mechanism into our RL framework. Rather than assuming a specific problem structure, we use a probabilistic structure estimation procedure based on a likelihood-ratio (LR) test to make a more informed selection of learning algorithm. We derive a sufficient condition under which myopic policies are optimal, present an LR test for this condition, and derive a bound on the regret of our framework. We provide examples of real-world scenarios where our framework is needed and provide extensive simulations to validate our approach.
翻訳日:2021-03-16 22:16:12 公開日:2021-03-15
# (参考訳) 一定ランダム摂動による逆ロバスト性 : 最小効果の精度 [全文訳有]

Constant Random Perturbations Provide Adversarial Robustness with Minimal Effect on Accuracy ( http://arxiv.org/abs/2103.08265v1 )

ライセンス: CC BY 4.0
Bronya Roni Chernyak, Bhiksha Raj, Tamir Hazan, Joseph Keshet(参考訳) 本稿では,標準精度の損失を最小限に抑えながら,ニューラルネットワークモデルの敵対的ロバスト性を改善するための攻撃非依存(非敵訓練)手法を提案する。 各トレーニング例の周辺に,その地区内のすべての入力に対してラベルが一定に維持されるような地区を作成することを提案する。 同様の原則に従う以前の作業とは異なり、トレーニングセットを各トレーニング例に対する複数の摂動で拡張し、近隣から引き出すことにより、このアイデアを適用します。 これらの摂動はモデル独立であり、トレーニングプロセス全体を通して一定である。 我々は,MNIST,SVHN,CIFAR-10 を異なる攻撃条件下で実験的に解析した。 提案手法は,バニラ対人訓練と比較してロバスト性を高めつつ,他の防御に対する標準精度を向上させることが示唆された。

This paper proposes an attack-independent (non-adversarial training) technique for improving adversarial robustness of neural network models, with minimal loss of standard accuracy. We suggest creating a neighborhood around each training example, such that the label is kept constant for all inputs within that neighborhood. Unlike previous work that follows a similar principle, we apply this idea by extending the training set with multiple perturbations for each training example, drawn from within the neighborhood. These perturbations are model independent, and remain constant throughout the entire training process. We analyzed our method empirically on MNIST, SVHN, and CIFAR-10, under different attacks and conditions. Results suggest that the proposed approach improves standard accuracy over other defenses while having increased robustness compared to vanilla adversarial training.
翻訳日:2021-03-16 21:03:14 公開日:2021-03-15
# (参考訳) GRIHA: スマートフォンで撮影した画像から2次元の建物レイアウトを合成する [全文訳有]

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone ( http://arxiv.org/abs/2103.08297v1 )

ライセンス: CC BY 4.0
Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay, Gaurav Bhatnagar(参考訳) 屋内シーンを再構築し、3Dまたは2Dのレイアウト/フロアプランを生成することは、広く知られている問題です。 最近の文献では、かなり多くのアルゴリズムが提案されている。 しかし、ほとんどの既存の方法は、RGB-D画像を使用するため、深度カメラを必要とするか、またはパノラマ写真に依存し、室内に閉塞がほとんどないことを前提としています。 本研究では,シンプルな携帯電話カメラを用いたRGB画像を用いたレイアウト生成フレームワークであるGRIHA(Generating Room Insideor of a House using ARCore)を提案する。 レイアウト生成に必要な3次元変換を評価するために,同時ローカライゼーションとマッピング(slam)を利用する。 SLAM技術は、GoogleのARCoreのような最近のモバイルライブラリに組み込まれている。 したがって,提案手法は迅速かつ効率的である。 これは、特殊な深度ハードウェアや閉塞のないパノラマ画像に頼るのではなく、従来の写真を数枚撮影するだけでレイアウトを生成する自由を与えます。 我々はGRIHAを既存の手法と比較し,優れた結果を得た。 また、システムは複数のハードウェアプラットフォーム上でテストされ、依存関係と効率をテストする。

Reconstructing an indoor scene and generating a layout/floor plan in 3D or 2D is a widely known problem. Quite a few algorithms have been proposed in the literature recently. However, most existing methods either use RGB-D images, thus requiring a depth camera, or depending on panoramic photos, assuming that there is little to no occlusion in the rooms. In this work, we proposed GRIHA (Generating Room Interior of a House using ARCore), a framework for generating a layout using an RGB image captured using a simple mobile phone camera. We take advantage of Simultaneous Localization and Mapping (SLAM) to assess the 3D transformations required for layout generation. SLAM technology is built-in in recent mobile libraries such as ARCore by Google. Hence, the proposed method is fast and efficient. It gives the user freedom to generate layout by merely taking a few conventional photos, rather than relying on specialized depth hardware or occlusion-free panoramic images. We have compared GRIHA with other existing methods and obtained superior results. Also, the system is tested on multiple hardware platforms to test the dependency and efficiency.
翻訳日:2021-03-16 20:45:27 公開日:2021-03-15
# (参考訳) フロアプラン解釈のための知識駆動記述合成 [全文訳有]

Knowledge driven Description Synthesis for Floor Plan Interpretation ( http://arxiv.org/abs/2103.08298v1 )

ライセンス: CC BY 4.0
Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar(参考訳) 画像キャプションはAIの分野で広く知られている問題である。 フロアプランイメージからのキャプション生成は、屋内経路計画、不動産、建築ソリューションに応用されています。 フロアプラン画像からキャプションや半構造化記述を生成するためのいくつかの手法が文献で研究されている。 キャプションだけが細かな詳細を捉えるには不十分であるため、研究者は画像から記述段落も提案した。 しかしながら、これらの記述は厳密な構造を持ち、柔軟性に欠けており、リアルタイムシナリオで使用するのが困難である。 本稿では,画像キュー(DSIC)とトランスフォーマーベース記述生成(TBDG)の2つのモデルについて,フロアプラン画像からテキスト生成への変換を行い,既存の手法のギャップを埋める。 これら2つのモデルは、視覚特徴抽出とテキスト生成に現代のディープニューラルネットワークを利用する。 両方のモデルの違いは、フロアプランの画像から入力する方法にあります。 DSICモデルは深層ニューラルネットワークによって自動的に抽出される視覚的特徴のみを取り、TBDGモデルは入力フロアプラン画像から抽出されたテキストキャプションを段落で学習する。 TBDGで生成された特定のキーワードとパラグラフで理解することで、一般的なフロアプランイメージでより堅牢になります。 大規模データセット上で実験を行い,提案モデルの優越性を示すための最先端技術と比較した。

Image captioning is a widely known problem in the area of AI. Caption generation from floor plan images has applications in indoor path planning, real estate, and providing architectural solutions. Several methods have been explored in literature for generating captions or semi-structured descriptions from floor plan images. Since only the caption is insufficient to capture fine-grained details, researchers also proposed descriptive paragraphs from images. However, these descriptions have a rigid structure and lack flexibility, making it difficult to use them in real-time scenarios. This paper offers two models, Description Synthesis from Image Cue (DSIC) and Transformer Based Description Generation (TBDG), for the floor plan image to text generation to fill the gaps in existing methods. These two models take advantage of modern deep neural networks for visual feature extraction and text generation. The difference between both models is in the way they take input from the floor plan image. The DSIC model takes only visual features automatically extracted by a deep neural network, while the TBDG model learns textual captions extracted from input floor plan images with paragraphs. The specific keywords generated in TBDG and understanding them with paragraphs make it more robust in a general floor plan image. Experiments were carried out on a large-scale publicly available dataset and compared with state-of-the-art techniques to show the proposed model's superiority.
翻訳日:2021-03-16 20:23:40 公開日:2021-03-15
# (参考訳) 専門家リスクアナリストによる属性アライメントによる信用リスク評価の解説 [全文訳有]

Explaining Credit Risk Scoring through Feature Contribution Alignment with Expert Risk Analysts ( http://arxiv.org/abs/2103.08359v1 )

ライセンス: CC BY 4.0
Ayoub El Qadi, Natalia Diaz-Rodriguez, Maria Trocan and Thomas Frossard(参考訳) 金融機関にとって信用評価活動は不可欠であり、グローバル経済の成長を可能にします。 企業のデフォルト確率を推定する堅牢で堅牢で正確なモデルを構築することは、信用保険会社にとって必須であり、さらに貿易金融のギャップを埋めることになる。 リスクアセスメントプロセスを自動化することで、信用リスクの専門家は業務負荷を減らし、重要かつ複雑なケースに集中し、アプリケーションを処理する時間を短縮することでローン承認プロセスを改善することができます。 人工知能の最近の発展は、新しい強力な機会を提供しています。 しかし、ほとんどのai技術は説明可能性の欠如によりブラックボックスモデルとして分類されている。 ユーザーと規制当局の両方にとって、そのような技術を大規模に展開するためには、モデルロジックを理解することが正確で倫理的な意思決定を付与する必要があります。 本研究では,企業のクレジットスコアリングに注目し,さまざまな機械学習モデルをベンチマークする。 目標は、企業が一定の期間内に金融問題を経験しているかどうかを予測するモデルを構築することです。 我々は,eXplainable Artificial Techniquesを用いたブラックボックス問題,特にSHapley Additive exPlanationsを用いたポストホックな説明に対処する。 我々は、信用リスクエキスパートとモデル機能帰属説明の相違点を強調する専門家指向の機能関連スコアを提供することにより、より人間指向の意思決定に向けた収束をより定量化する。

Credit assessments activities are essential for financial institutions and allow the global economy to grow. Building robust, solid and accurate models that estimate the probability of a default of a company is mandatory for credit insurance companies, moreover when it comes to bridging the trade finance gap. Automating the risk assessment process will allow credit risk experts to reduce their workload and focus on the critical and complex cases, as well as to improve the loan approval process by reducing the time to process the application. The recent developments in Artificial Intelligence are offering new powerful opportunities. However, most AI techniques are labelled as blackbox models due to their lack of explainability. For both users and regulators, in order to deploy such technologies at scale, being able to understand the model logic is a must to grant accurate and ethical decision making. In this study, we focus on companies credit scoring and we benchmark different machine learning models. The aim is to build a model to predict whether a company will experience financial problems in a given time horizon. We address the black box problem using eXplainable Artificial Techniques in particular, post-hoc explanations using SHapley Additive exPlanations. We bring light by providing an expert-aligned feature relevance score highlighting the disagreement between a credit risk expert and a model feature attribution explanation in order to better quantify the convergence towards a better human-aligned decision making.
翻訳日:2021-03-16 20:05:40 公開日:2021-03-15
# (参考訳) コミュニケーションの観点からの同時音声翻訳の評価に向けて [全文訳有]

Towards the evaluation of simultaneous speech translation from a communicative perspective ( http://arxiv.org/abs/2103.08364v1 )

ライセンス: CC BY 4.0
claudio Fantinuoli, Bianca Prandi(参考訳) 近年, 音声認識や機械翻訳の分野では, 人工知能の進歩により, 機械語から音声への翻訳や音声への翻訳が勢いを増している。 そのようなアプリケーションの品質は、主にリリースの改善または評価キャンペーンの文脈で評価することを目標として、BLEUなどの自動メトリクスで一般的にテストされます。 しかし、同様のコミュニケーションタスクにおける人間のパフォーマンスとどのように比較されるか、または最終ユーザーによってそのようなシステムのパフォーマンスがどのように認識されるかについてはほとんど知られていません。 本稿では,同時翻訳エンジンの性能評価を専門のインタプリタの性能と比較し,その品質評価を目的とした実験結果について述べる。 そこで我々は,人間インタプリタの評価のために開発されたフレームワークを選択し,それを用いて人的・機械的なパフォーマンスを手動で評価する。 私たちのサンプルでは、機械が情報性の観点からわずかによく機能する一方で、人間の通訳者のためのより良いパフォーマンスを発見しました。 研究の限界と選択されたフレームワークの拡張の可能性について論じる。 固有の制限にもかかわらず、このフレームワークの使用は、同時音声翻訳を評価するためのユーザ中心でコミュニケーション指向の方法論への第一歩である。

In recent years, machine speech-to-speech and speech-to-text translation has gained momentum thanks to advances in artificial intelligence, especially in the domains of speech recognition and machine translation. The quality of such applications is commonly tested with automatic metrics, such as BLEU, primarily with the goal of assessing improvements of releases or in the context of evaluation campaigns. However, little is known about how such systems compare to human performances in similar communicative tasks or how the performance of such systems is perceived by final users. In this paper, we present the results of an experiment aimed at evaluating the quality of a simultaneous speech translation engine by comparing it to the performance of professional interpreters. To do so, we select a framework developed for the assessment of human interpreters and use it to perform a manual evaluation on both human and machine performances. In our sample, we found better performance for the human interpreters in terms of intelligibility, while the machine performs slightly better in terms of informativeness. The limitations of the study and the possible enhancements of the chosen framework are discussed. Despite its intrinsic limitations, the use of this framework represents a first step towards a user-centric and communication-orient ed methodology for evaluating simultaneous speech translation.
翻訳日:2021-03-16 19:45:40 公開日:2021-03-15
# (参考訳) 明示的公平性を考慮したフレキシブルFOND計画 [全文訳有]

Flexible FOND Planning with Explicit Fairness Assumptions ( http://arxiv.org/abs/2103.08391v1 )

ライセンス: CC BY 4.0
Ivan D. Rodriguez and Blai Bonet and Sebastian Sardina and Hector Geffner(参考訳) 完全可観測型非決定論的計画(fond)において、明確に与えられた公平性仮定の一般クラスの下で命題的目標条件に達する問題を考える。 公平性の仮定は A/B の形であり、状態 s における A からの作用の無限発生と B からの作用の有限発生を含む状態の軌跡は、その可能な結果のそれぞれが続く s における作用の無限発生も含まなければならない。 この条件に違反する無限軌跡は不公平と見なされ、解は全ての公正軌跡が目標状態に達するための方針である。 一般化計画のために最近導入された計画モデルであるQNP計画とともに、強大かつ強大なFOND計画が、この形態の公平性を仮定したFOND計画の特別な事例であることを示す。 FOND+プランニングは、この形式のプランニングと呼ばれ、FONDプランニングの構文と、フェアネス制約を表現するLTLの汎用性を組み合わせたものである。 セットプログラムに回答するためにFOND+計画を減らして新しいプランナを実装し、FONDおよびQNP計画者、およびLTL合成ツールと比較してプランナの性能を評価します。

We consider the problem of reaching a propositional goal condition in fully-observable non-deterministic (FOND) planning under a general class of fairness assumptions that are given explicitly. The fairness assumptions are of the form A/B and say that state trajectories that contain infinite occurrences of an action a from A in a state s and finite occurrence of actions from B, must also contain infinite occurrences of action a in s followed by each one of its possible outcomes. The infinite trajectories that violate this condition are deemed as unfair, and the solutions are policies for which all the fair trajectories reach a goal state. We show that strong and strong-cyclic FOND planning, as well as QNP planning, a planning model introduced recently for generalized planning, are all special cases of FOND planning with fairness assumptions of this form which can also be combined. FOND+ planning, as this form of planning is called, combines the syntax of FOND planning with some of the versatility of LTL for expressing fairness constraints. A new planner is implemented by reducing FOND+ planning to answer set programs, and the performance of the planner is evaluated in comparison with FOND and QNP planners, and LTL synthesis tools.
翻訳日:2021-03-16 19:27:37 公開日:2021-03-15
# (参考訳) ラジアル基底関数ネットワークを用いたオンライン学習 [全文訳有]

Online Learning with Radial Basis Function Networks ( http://arxiv.org/abs/2103.08414v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro, Nick Firoozye and Paolo Barucca(参考訳) 金融時系列予測を用いた特徴選択,非線形モデリング,オンライン学習の利点について検討する。 オンライン学習の逐次学習と連続学習について考察する。 毎日のサンプル・クロスアセスト・フューチャーにおける長期予測と、少額のサンプル・キャッシュ・通貨対における短期予測を含む実証実験により、オンライン学習技術はオフライン学習よりも優れていることがわかった。 また、私たちが使用するモデルのサブセットでは、オンラインリッジ回帰に合わせて順次学習し、オンラインラジアルベース関数ネットワークを使用して、最良の次のステップの予測を提供し、継続的な学習は、最高のマルチステップの予測を提供します。 予測誤差の正確な重み付きアンサンブルの両方の利点を組み合わせて、優れた予測パフォーマンスを総合的に見つけます。

We investigate the benefits of feature selection, nonlinear modelling and online learning with forecasting in financial time series. We consider the sequential and continual learning sub-genres of online learning. Through empirical experimentation, which involves long term forecasting in daily sampled cross-asset futures, and short term forecasting in minutely sampled cash currency pairs, we find that the online learning techniques outperform the offline learning ones. We also find that, in the subset of models we use, sequential learning in time with online Ridge regression, provides the best next step ahead forecasts, and continual learning with an online radial basis function network, provides the best multi-step ahead forecasts. We combine the benefits of both in a precision weighted ensemble of the forecast errors and find superior forecast performance overall.
翻訳日:2021-03-16 18:50:07 公開日:2021-03-15
# (参考訳) メタ学習のためのタスク間でデータを分散する方法? [全文訳有]

How to distribute data across tasks for meta-learning? ( http://arxiv.org/abs/2103.08463v1 )

ライセンス: CC BY 4.0
Alexandru Cioba, Michael Bromberg, Qian Wang, Ritwik Niyogi, Georgios Batzolis, Da-shan Shiu, Alberto Bernacchia(参考訳) メタ学習モデルは、以前のタスクから得た知識を素早く新しいタスクを学習するために転送する。 トレーニングタスク毎に一定の数のデータポイントを持つベンチマークでテストされる。 この数は通常任意であり、パフォーマンスにどのように影響するかは不明である。 データのラベル付けは高価であるため、トレーニングタスク間でラベルの最適な割り当てを見つけることでコストが削減される可能性がある。 1) タスク毎のデータポイントの最適数は予算に依存するが,大きな予算に対して一意の定数値に収束し,2) モデルの補間しきい値付近に収束する。 我々は,混合線形回帰を数学的に証明し,CIFAR-FS と mini-ImageNet による非線形回帰と少数ショット画像の分類において,同じ結果が成り立つことを実証的に示す。 この結果から,データ収集の簡便かつ効率的な手順が示唆された。データの最適な割り当ては比較的小さなデータを用いて低コストで計算でき,データの収集は最適なアロケーションの知識によって最適化できる。

Meta-learning models transfer the knowledge acquired from previous tasks to quickly learn new ones. They are tested on benchmarks with a fixed number of data points per training task. This number is usually arbitrary and it is unknown how it affects the performance. Since labelling of data is expensive, finding the optimal allocation of labels across training tasks may reduce costs: given a fixed budget of labels, should we use a small number of highly labelled tasks, or many tasks with few labels each? We show that: 1) The optimal number of data points per task depends on the budget, but it converges to a unique constant value for large budgets; 2) Convergence occurs around the interpolation threshold of the model. We prove our results mathematically on mixed linear regression, and we show empirically that the same results hold for nonlinear regression and few-shot image classification on CIFAR-FS and mini-ImageNet. Our results suggest a simple and efficient procedure for data collection: the optimal allocation of data can be computed at low cost, by using relatively small data, and collection of additional data can be optimized by the knowledge of the optimal allocation.
翻訳日:2021-03-16 18:04:11 公開日:2021-03-15
# (参考訳) 画像から深度まで:エコーによる深度予測の改善 [全文訳有]

Beyond Image to Depth: Improving Depth Prediction using Echoes ( http://arxiv.org/abs/2103.08468v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma(参考訳) マルチモーダルオーディオビジュアルデータを用いた深度推定の課題に対処します。 コウモリやイルカといった動物のエコーロケーションを持つ物体の距離を推定する能力に触発された最近の手法では、エコーを深度推定に利用している。 RGB画像、バイノーラルエコー、およびシーン内のさまざまなオブジェクトの推定材料特性を利用したエンドツーエンドのディープラーニングベースのパイプラインを提案します。 異なるシーン要素に対する画像,エコー,奥行きの関係は,これらの要素の特性に大きく影響し,この情報を利用するように設計された手法は,視聴覚入力からの奥行き推定を大幅に改善する可能性がある。 本研究では,映像の深度を予測するために,音声(echoes)と視覚的モダリティを組み合わせて材料特性を明示的に組み込んだマルチモーダル融合手法を提案する。 本研究では,Replicaデータセットを用いた実験により,最新のオーディオビジュアル深度予測手法と比較し,RMSEの28%の改善が得られたことを実証的に示した。 大規模データセットにおける本手法の有効性を示すために,matterport3dにおける競合性能を報告し,エコーを用いたマルチモーダル深度予測ベンチマークとして利用することを提案する。 また,提案手法を完全アブレーション実験と定性的な結果を用いて解析する。 コードとモデルはhttps://krantiparida .github.io/projects/ bimgdepth.htmlで入手できる。

We address the problem of estimating depth with multi modal audio visual data. Inspired by the ability of animals, such as bats and dolphins, to infer distance of objects with echolocation, some recent methods have utilized echoes for depth estimation. We propose an end-to-end deep learning based pipeline utilizing RGB images, binaural echoes and estimated material properties of various objects within a scene. We argue that the relation between image, echoes and depth, for different scene elements, is greatly influenced by the properties of those elements, and a method designed to leverage this information can lead to significantly improve depth estimation from audio visual inputs. We propose a novel multi modal fusion technique, which incorporates the material properties explicitly while combining audio (echoes) and visual modalities to predict the scene depth. We show empirically, with experiments on Replica dataset, that the proposed method obtains 28% improvement in RMSE compared to the state-of-the-art audio-visual depth prediction method. To demonstrate the effectiveness of our method on larger dataset, we report competitive performance on Matterport3D, proposing to use it as a multimodal depth prediction benchmark with echoes for the first time. We also analyse the proposed method with exhaustive ablation experiments and qualitative results. The code and models are available at https://krantiparida .github.io/projects/ bimgdepth.html
翻訳日:2021-03-16 17:42:28 公開日:2021-03-15
# (参考訳) マルチビューサブワード正規化 [全文訳有]

Multi-view Subword Regularization ( http://arxiv.org/abs/2103.08490v1 )

ライセンス: CC BY 4.0
Xinyi Wang, Sebastian Ruder, Graham Neubig(参考訳) 多言語事前訓練された表現は、一般に、共有多言語語彙を作成するためにサブワードセグメンテーションアルゴリズムに依存する。 しかし、標準的なヒューリスティックアルゴリズムは、特に限られた量のデータを持つ言語において、しばしば準最適セグメンテーションをもたらす。 本稿では,この問題を緩和するための2つの大きなステップについて述べる。 まず,事前学習された多言語表現の微調整中に既存のサブワード正規化手法(kudo,2018,provilkov ,2020)を適用することで,言語間転送の有効性が向上することを示す。 第2に,様々な入力セグメンテーションを最大限に活用するために,標準でトークン化された入力と確率的セグメンテーションとの一貫性を実現するマルチビューサブワード正則化(mvr)を提案する。 XTREMEマルチ言語ベンチマーク(Hu et al., 2020)の結果、MVRは標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことが示された。

Multilingual pretrained representations generally rely on subword segmentation algorithms to create a shared multilingual vocabulary. However, standard heuristic algorithms often lead to sub-optimal segmentation, especially for languages with limited amounts of data. In this paper, we take two major steps towards alleviating this problem. First, we demonstrate empirically that applying existing subword regularization methods(Kudo, 2018; Provilkov et al., 2020) during fine-tuning of pre-trained multilingual representations improves the effectiveness of cross-lingual transfer. Second, to take full advantage of different possible input segmentations, we propose Multi-view Subword Regularization (MVR), a method that enforces the consistency between predictions of using inputs tokenized by the standard and probabilistic segmentations. Results on the XTREME multilingual benchmark(Hu et al., 2020) show that MVR brings consistent improvements of up to 2.5 points over using standard segmentation algorithms.
翻訳日:2021-03-16 17:15:41 公開日:2021-03-15
# (参考訳) diaret:統合勾配を有する糖尿病網膜症の評価のためのブラウザベースのアプリケーション [全文訳有]

DiaRet: A browser-based application for the grading of Diabetic Retinopathy with Integrated Gradients ( http://arxiv.org/abs/2103.08501v1 )

ライセンス: CC BY 4.0
Shaswat Patel, Maithili Lohakare, Samyak Prajapati, Shaanya Singh, Nancy Patel(参考訳) 糖尿病は、タイプ1の自己免疫β細胞破壊の欠陥に起因する代謝障害であり、タイプ2のインスリン作用に対する末梢抵抗性または、最も一般的には、両方。 長期糖尿病の患者は、しばしば糖尿病網膜症(DR)にかかり、人間の目の網膜の変化を引き起こし、極端なケースで視力の喪失につながる可能性があります。 本研究の目的は2つある: (a) 劣化した網膜眼底画像のグレードに訓練されたディープラーニングモデルを作成し、 (b) 眼底画像の重要な特徴を強調して診断手順を支援するブラウザベースのアプリケーションを作成することである。 深層学習はコンピュータ支援型DR診断で成功し、早期発見と盲目の予防に繋がった。 本研究では、光伝送障害、画像ブレイリングおよび網膜人工物の挿入の複数の異なる組み合わせに基づいて画像を劣化させることにより、歪みに悩まされた画像をエミュレートした。 これらの劣化画像は、複数のディープラーニングに基づく畳み込みニューラルネットワークのトレーニングに使用された。 InceptionV3、ResNet-50、InceptionResNetV2を複数のデータセットでトレーニングしました。 これらのモデルは、DRの重症度レベルで基礎画像の分類に使用された。 モデルはさらに、各クラスに関連するモデル予測と確率を示すブラウザベースのアプリケーションの作成に使用された。 また、入力画像に重畳された統合グラデーション(IG)アトリビューションマスクも表示されます。 ブラウザベースのアプリケーションの作成は、モデルによる教育を受けた予測に基づいて、眼科医による眼底画像の重要な特徴を強調することで、診断手順を支援するだろう。

Diabetes is a metabolic disorder that results from defects in autoimmune beta-cell destruction in Type 1, peripheral resistance to insulin action in Type 2 or, most commonly, both. Patients with long-standing diabetes often fall prey to Diabetic Retinopathy (DR) resulting in changes in the retina of the human eye, which may lead to loss of vision in extreme cases. The aim of this study is two-fold: (a) create deep learning models that were trained to grade degraded retinal fundus images and (b) to create a browser-based application that will aid in diagnostic procedures by highlighting the key features of the fundus image. Deep learning has proven to be a success for computer-aided DR diagnosis resulting in early-detection and prevention of blindness. In this research work, we have emulated the images plagued by distortions by degrading the images based on multiple different combinations of Light Transmission Disturbance, Image Blurring and insertion of Retinal Artifacts. These degraded images were used for the training of multiple Deep Learning based Convolutional Neural Networks. We have trained InceptionV3, ResNet-50 and InceptionResNetV2 on multiple datasets. These models were used to classify the fundus images in terms of DR severity level. The models were further used in the creation of a browser-based application, which demonstrates the models prediction and the probability associated with each class. It will also show the Integration Gradient (IG) Attribution Mask superimposed onto the input image. The creation of the browser-based application would aid in the diagnostic procedures performed by ophthalmologists by highlighting the key features of the fundus image based on an educated prediction made by the model.
翻訳日:2021-03-16 16:46:20 公開日:2021-03-15
# (参考訳) siamese network features for endoscopy image and video localization [全文訳有]

Siamese Network Features for Endoscopy Image and Video Localization ( http://arxiv.org/abs/2103.08504v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Seyed Shahim Vedaei, Khan A. Wahid and Paul Babyn(参考訳) 従来型内視鏡(CE)とワイヤレスカプセル内視鏡(WCE)は消化管疾患(GI)の診断ツールとして知られている。 局所化フレームは異常部位に関する貴重な情報を提供し、臨床医がより適切な治療計画を決定するのに役立つ。 異常を検出する自動アルゴリズムは多数存在する。 しかし、既存の作品の多くはローカリゼーションの問題に対処している。 本研究では,メタラーニングと深層学習を組み合わせることで,内視鏡画像とビデオの両方をローカライズする。 ヒトの消化管の10の異なる解剖学的位置からデータセットを収集する。 メタラーニングセクションでは、78 CEと27 WCEの注釈付きフレームに修正されたシームズニューラルネットワーク(SNN)を用いて、1つの画像/フレームの位置を予測した。 次に、フレーム列のローカライズのために、双方向長短期メモリを用いた後処理部を提案する。 ここでは,訓練したsnから得られた特徴ベクトル,距離,予測位置を用いた。 後処理セクションは、CEおよびWCEビデオの1,028秒と365秒でホールドアウトバリデーション(50%)を使用して訓練およびテストされ、それぞれ86.3%と83.0%のF1スコアを達成した。 また,9名の消化器科医による主観的評価を行った。 以上の結果から,コンピュータ支援手法は胃腸内科医の局在評価を上回りうることが示された。 提案手法は,手作業による支援ベクトルマシン,畳み込みニューラルネットワーク,転送学習に基づく手法など,様々な手法と比較し,より良い結果を示した。 従って、それはビデオ要約および異常な検出で助けることができるフレームのローカライゼーションで使用することができます。

Conventional Endoscopy (CE) and Wireless Capsule Endoscopy (WCE) are known tools for diagnosing gastrointestinal (GI) tract disorders. Localizing frames provide valuable information about the anomaly location and also can help clinicians determine a more appropriate treatment plan. There are many automated algorithms to detect the anomaly. However, very few of the existing works address the issue of localization. In this study, we present a combination of meta-learning and deep learning for localizing both endoscopy images and video. A dataset is collected from 10 different anatomical positions of human GI tract. In the meta-learning section, the system was trained using 78 CE and 27 WCE annotated frames with a modified Siamese Neural Network (SNN) to predict the location of one single image/frame. Then, a postprocessing section using bidirectional long short-term memory is proposed for localizing a sequence of frames. Here, we have employed feature vector, distance and predicted location obtained from a trained SNN. The postprocessing section is trained and tested on 1,028 and 365 seconds of CE and WCE videos using hold-out validation (50%), and achieved F1-score of 86.3% and 83.0%, respectively. In addition, we performed subjective evaluation using nine gastroenterologists. The results show that the computer-aided methods can outperform gastroenterologists assessment of localization. The proposed method is compared with various approaches, such as support vector machine with hand-crafted features, convolutional neural network and the transfer learning-based methods, and showed better results. Therefore, it can be used in frame localization, which can help in video summarization and anomaly detection.
翻訳日:2021-03-16 16:38:19 公開日:2021-03-15
# (参考訳) 不均衡データセットにおける最適化深部1クラス分類を用いたGI内視鏡画像のマルチクラス異常検出 [全文訳有]

Multiclass Anomaly Detection in GI Endoscopic Images using Optimized Deep One-class Classification in an Imbalanced Dataset ( http://arxiv.org/abs/2103.08508v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Seyed Shahim Vedaei, Khan A. Wahid and Paul Babyn(参考訳) ワイヤレスカプセル内視鏡(Wireless Capsule Endoscopy)は、医師が非侵襲的に消化管(GI)を検査するのに役立つ。 KID2やKvasirのような利用可能なデータセットの多くは、効果的な人工知能(AI)システムのトレーニングを難しくする不均衡な問題に悩まされている。 さらに、クラス数の増加は問題を悪化させる。 本研究では,一類分類器のアンサンブルを用いて異常を検出する。 本手法は,単一クラスからのサンプルのみを用いた単一モデル学習と,多クラス分類のための全モデルの統合に着目した。 正常1,778例,炎症227例,血管疾患303例,ポリープ画像44例がKID2データセットから得られた。 最初のステップでは、前処理された画像からオートエンコーダアーキテクチャに基づいて深い特徴を抽出する。 次に、これらの機能は、Synthetic Minority Over-Sampling Techniqueを使ってオーバーサンプリングされ、順序付けポイントを使用してクラスタリング構造を識別する。 1クラスの分類モデルを作成するために、サポートベクトルデータ記述は、F1スコアを改善するためのクラスタリングパラメータのチューニングにも使用されるAnt Colony Optimizationの助けを借りて、各クラスタでトレーニングされています。 このプロセスは、マルチクラス分類に使用される最終モデルの各クラスとアンサンブルに適用されます。 アルゴリズム全体が5回実行され、F1スコア96.3 +- 0.2%、マクロ平均85.0 +- 0.4%の異常検出とマルチクラス分類が得られた。 その結果、GoogleNet、AlexNet、Resnet50、VGG16などのアルゴリズムと比較し、提案手法がGI画像におけるマルチクラス異常検出の競合選択であることを示した。

Wireless Capsule Endoscopy helps physicians examine the gastrointestinal (GI) tract noninvasively, with the cost of generating many images. Many available datasets, such as KID2 and Kvasir, suffer from imbalance issue which make it difficult to train an effective artificial intelligence (AI) system. Moreover, increasing number of classes makes the problem worse. In this study, an ensemble of one-class classifiers is used for detecting anomaly. This method focuses on learning single models using samples from only one class, and ensemble all models for multiclass classification. A total of 1,778 normal, 227 inflammation, 303 vascular diseases, and 44 polyp images have been used from the KID2 dataset. In the first step, deep features are extracted based on an autoencoder architecture from the preprocessed images. Then, these features are oversampled using Synthetic Minority Over-sampling Technique and clustered using Ordering Points to Identify the Clustering Structure. To create one-class classification model, the Support Vector Data Descriptions are trained on each cluster with the help of Ant Colony Optimization, which is also used for tuning clustering parameters for improving F1-score. This process is applied on each classes and ensemble of final models used for multiclass classification. The entire algorithm ran 5 times and obtained F1-score 96.3 +- 0.2% and macro-average F1-score 85.0 +- 0.4%, for anomaly detection and multiclass classification, respectively. The results are compared with GoogleNet, AlexNet, Resnet50, VGG16 and other published algorithms, and demonstrate that the proposed method is a competitive choice for multiclass class anomaly detection in GI images.
翻訳日:2021-03-16 16:19:30 公開日:2021-03-15
# (参考訳) 磁気共鳴イメージングにおけるモーションアーティファクト検出に適したK空間サンプリング方式は? [全文訳有]

Which K-Space Sampling Schemes is good for Motion Artifact Detection in Magnetic Resonance Imaging? ( http://arxiv.org/abs/2103.08516v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Ekta Walia, Khan A. Wahid(参考訳) モーションアーティファクトは、磁気共鳴イメージング(MRI)試験で一般的な発生です。 獲得中の動きはワークフローの効率に大きな影響を与え、繰り返しのシーケンスを必要とすることが多い。 さらに、運動アーチファクトは技術者の注意を逸らす可能性があり、放射線科医による読解時にのみ明らかとなり、診断の質に影響を及ぼす。 自動動作検出・除去のためのコンピュータ支援ツールの設計は診断を改善することができるが,動作特性の深い理解が必要である。 MRIの運動アーティファクトは複雑な性質を持ち、k空間サンプリングスキームに直接関係している。 本研究では, カルテシアン, 均一スパイラル, ラジアルを含む3種類のk空間サンプラーが運動誘起画像歪みに及ぼす影響について検討する。 この点で、T1およびT2強調MRI画像に変位および回転の異なる軌道を持つ様々な合成運動が適用され、畳み込みニューラルネットワークが運動分類の難しさを示すように訓練される。 その結果、渦状k空間サンプリング法は、ラジアルk空間サンプリング画像に比べて画像空間における運動アーティファクトの効果が少なく、ラジアルk空間サンプリング画像はデカルト画像よりも頑健であることがわかった。 一方、カルテシアン検体は、動きをよりよく反映できるため、深層学習による動き検出の分野では最高である。

Motion artifacts are a common occurrence in the Magnetic Resonance Imaging (MRI) exam. Motion during acquisition has a profound impact on workflow efficiency, often requiring a repeat of sequences. Furthermore, motion artifacts may escape notice by technologists, only to be revealed at the time of reading by the radiologists, affecting their diagnostic quality. Designing a computer-aided tool for automatic motion detection and elimination can improve the diagnosis, however, it needs a deep understanding of motion characteristics. Motion artifacts in MRI have a complex nature and it is directly related to the k-space sampling scheme. In this study we investigate the effect of three conventional k-space samplers, including Cartesian, Uniform Spiral and Radial on motion induced image distortion. In this regard, various synthetic motions with different trajectories of displacement and rotation are applied to T1 and T2-weighted MRI images, and a convolutional neural network is trained to show the difficulty of motion classification. The results show that the spiral k-space sampling method get less effect of motion artifact in image space as compared to radial k-space sampled images, and radial k-space sampled images are more robust than Cartesian ones. Cartesian samplers, on the other hand, are the best in terms of deep learning motion detection because they can better reflect motion.
翻訳日:2021-03-16 16:03:25 公開日:2021-03-15
# (参考訳) DHASP:区別可能な補聴器音声処理 [全文訳有]

DHASP: Differentiable Hearing Aid Speech Processing ( http://arxiv.org/abs/2103.08569v1 )

ライセンス: CC BY 4.0
Zehai Tu, Ning Ma, Jon Barker(参考訳) 補聴器は聴覚障害者の音声明瞭度を向上させることが期待されている。 聴き手の聴力に調整された適切な増幅具は、良好な演奏には不可欠である。 ほとんどの規範的なフィッティングの開発は、通常高価で時間を要する主観的な聴取実験で収集されたデータに基づいている。 本稿では,HASPI の生理的聴覚モデルに基づく知能目標関数を用いて,適応度を自動的に最適化する補聴器音声処理フレームワークを導入することで,最適な適合度を求めるための代替手法を提案する。 このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。 最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。

Hearing aids are expected to improve speech intelligibility for listeners with hearing impairment. An appropriate amplification fitting tuned for the listener's hearing disability is critical for good performance. The developments of most prescriptive fittings are based on data collected in subjective listening experiments, which are usually expensive and time-consuming. In this paper, we explore an alternative approach to finding the optimal fitting by introducing a hearing aid speech processing framework, in which the fitting is optimised in an automated way using an intelligibility objective function based on the HASPI physiological auditory model. The framework is fully differentiable, thus can employ the back-propagation algorithm for efficient, data-driven optimisation. Our initial objective experiments show promising results for noise-free speech amplification, where the automatically optimised processors outperform one of the well recognised hearing aid prescriptions.
翻訳日:2021-03-16 15:57:38 公開日:2021-03-15
# (参考訳) RoRD:ローテーション-ロバストディスクリプタとローカル機能マッチングのためのオーソグラフィビュー [全文訳有]

RoRD: Rotation-Robust Descriptors and Orthographic Views for Local Feature Matching ( http://arxiv.org/abs/2103.08573v1 )

ライセンス: CC BY 4.0
Udit Singh Parihar, Aniket Gujarathi, Kinal Mehta, Satyajit Tourani, Sourav Garg, Michael Milford and K. Madhava Krishna(参考訳) 典型的なコンピュータビジョンパイプラインにおけるローカル検出器とディスクリプタの使用は、視点や外観の変化が極端に変化するまでうまく機能する。 この領域における過去の研究は、一般的にこの課題に対する2つのアプローチの1つに焦点を当てている: 極端な視点変化下での機能マッチングに適した空間への射影の使用と、本質的に視点変化に頑健な特徴の学習である。 本論文では,データ拡張と直交的視点投影による不変記述子の学習を組み合わせた新しい枠組みを提案する。 本稿では,回転ロバストな局所記述子を提案し,回転ホモグラフに基づくトレーニングデータ拡張を通じて学習し,バニラ特徴対応と回転ロバスト特徴を併用する対応アンサンブル手法を提案する。 本研究領域のベンチマークデータセットと独自のデータセットのコントリビューションを用いて,ポーズ推定や視覚的位置認識などの重要課題に対する提案手法の有効性を評価した。 本システムは,対向する視点において高い位置認識精度を実現し,極端な視点変化においても実用レベルのパフォーマンスを実現するなど,様々なベースラインや最先端技術に勝る。

The use of local detectors and descriptors in typical computer vision pipelines work well until variations in viewpoint and appearance change become extreme. Past research in this area has typically focused on one of two approaches to this challenge: the use of projections into spaces more suitable for feature matching under extreme viewpoint changes, and attempting to learn features that are inherently more robust to viewpoint change. In this paper, we present a novel framework that combines learning of invariant descriptors through data augmentation and orthographic viewpoint projection. We propose rotation-robust local descriptors, learnt through training data augmentation based on rotation homographies, and a correspondence ensemble technique that combines vanilla feature correspondences with those obtained through rotation-robust features. Using a range of benchmark datasets as well as contributing a new bespoke dataset for this research domain, we evaluate the effectiveness of the proposed approach on key tasks including pose estimation and visual place recognition. Our system outperforms a range of baseline and state-of-the-art techniques, including enabling higher levels of place recognition precision across opposing place viewpoints and achieves practically-useful performance levels even under extreme viewpoint changes.
翻訳日:2021-03-16 15:46:47 公開日:2021-03-15
# (参考訳) ACDCチャレンジデータセットを用いた心MRIセグメンテーションの応用におけるディープラーニングモデルの解釈可能性 [全文訳有]

Interpretability of a Deep Learning Model in the Application of Cardiac MRI Segmentation with an ACDC Challenge Dataset ( http://arxiv.org/abs/2103.08590v1 )

ライセンス: CC BY 4.0
Adrianna Janik, Jonathan Dodd, Georgiana Ifrim, Kris Sankaran, Kathleen Curran(参考訳) 心臓磁気共鳴(英: Cardiac Magnetic Resonance, CMR)は、心臓疾患の評価と診断に最も効果的なツールであり、この疾患は世界有数の死因である。 人工知能を活用したソフトウェアツールは、すでに心臓状態の評価において放射線学者や心臓科医を増強しているが、透明性の欠如は問題である。 本研究は, 定性概念のスコアに基づく値と主要な性能指標を提供することにより, 分類システムを強化する説明可能性法を用いて, 左室(lv), 右室(rv), 心筋(myo)のcrdiac構造を区分する訓練を受けた深層ネットワークから, 異なる心状態を示す概念を発見できるかどうかを検討するものである。 GDPRの説明の必要性の導入により、AIシステムの説明可能性が必要です。 本研究では,MRIデータから心疾患の診断に重要な特徴を抽出するインタープリタビリティー法であるDiscovering and Testing with Concept Activation Vectors (D-TCAV)を適用した。 この方法は、病気分類における概念の重要性の定量的概念を提供する。 前報では, 心臓疾患の分類に基礎的手法を適用し, ブラックボックス深層学習分類器の予測に臨床的に有意な説明を提供する。 本研究では、ディスカバリングフェーズ(D-TCAV)を用いたTCAV拡張法を心臓MRI解析に適用する。 ベースメソッドよりもD-TCAVメソッドの利点は、それがユーザーに依存しないことです。 本研究の貢献は,D-TCAV法を心臓MRIアナリシスに応用した新しい方法である。 D-TCAVは基礎方法より臨床医に短い前処理時間を提供します。

Cardiac Magnetic Resonance (CMR) is the most effective tool for the assessment and diagnosis of a heart condition, which malfunction is the world's leading cause of death. Software tools leveraging Artificial Intelligence already enhance radiologists and cardiologists in heart condition assessment but their lack of transparency is a problem. This project investigates if it is possible to discover concepts representative for different cardiac conditions from the deep network trained to segment crdiac structures: Left Ventricle (LV), Right Ventricle (RV) and Myocardium (MYO), using explainability methods that enhances classification system by providing the score-based values of qualitative concepts, along with the key performance metrics. With introduction of a need of explanations in GDPR explainability of AI systems is necessary. This study applies Discovering and Testing with Concept Activation Vectors (D-TCAV), an interpretaibilty method to extract underlying features important for cardiac disease diagnosis from MRI data. The method provides a quantitative notion of concept importance for disease classified. In previous studies, the base method is applied to the classification of cardiac disease and provides clinically meaningful explanations for the predictions of a black-box deep learning classifier. This study applies a method extending TCAV with a Discovering phase (D-TCAV) to cardiac MRI analysis. The advantage of the D-TCAV method over the base method is that it is user-independent. The contribution of this study is a novel application of the explainability method D-TCAV for cardiac MRI anlysis. D-TCAV provides a shorter pre-processing time for clinicians than the base method.
翻訳日:2021-03-16 15:29:24 公開日:2021-03-15
# (参考訳) 医療用胸部X線データは匿名か? [全文訳有]

Is Medical Chest X-ray Data Anonymous? ( http://arxiv.org/abs/2103.08562v1 )

ライセンス: CC BY 4.0
Kai Packh\"auser, Sebastian G\"undel, Nicolas M\"unster, Christopher Syben, Vincent Christlein, Andreas Maier(参考訳) 近年の深層学習技術の普及と可能性の高まりにより、公開医療データセットは、医療領域における診断アルゴリズムの再現可能な開発を可能にする重要な要因となりました。 医療データには機密性のある患者関連情報が含まれているため、通常、公表前の患者名などの患者識別子を削除して匿名化される。 我々の知る限りでは、よく訓練された深層学習システムが胸部X線データから患者の身元を復元できることを初めて示す。 30,805人の患者から112,120個の胸部X線画像を集めた大規模なChestX-ray14データセットを用いてこれを実証した。 私たちの検証システムは、2つの前頭胸部X線画像が0.9940のAUCと95.55%の分類精度を持つ同一人物であるかどうかを識別することができる。 提案システムは、最初のスキャンから10年以上経っても、同じ人物を明らかにすることができることを強調します。 検索手法を追求する場合,0.9748の mAP@R と0.9963の precision@1 を観測する。 この高い識別率に基づいて、潜在的な攻撃者は患者関連情報を漏洩し、さらに相互参照画像を追加してより多くの情報を得ることができる。 したがって、機密コンテンツが無許可の手に落ちたり、患者の意志に反して散布される大きなリスクがある。 特に新型コロナウイルス(COVID-19)パンデミックの間、多くの胸部X線データセットが研究を進めるために公開された。 したがって、これらのデータは深層学習に基づく再同定アルゴリズムによる潜在的な攻撃に弱い可能性がある。

With the rise and ever-increasing potential of deep learning techniques in recent years, publicly available medical data sets became a key factor to enable reproducible development of diagnostic algorithms in the medical domain. Medical data contains sensitive patient-related information and is therefore usually anonymized by removing patient identifiers, e.g., patient names before publication. To the best of our knowledge, we are the first to show that a well-trained deep learning system is able to recover the patient identity from chest X-ray data. We demonstrate this using the publicly available large-scale ChestX-ray14 dataset, a collection of 112,120 frontal-view chest X-ray images from 30,805 unique patients. Our verification system is able to identify whether two frontal chest X-ray images are from the same person with an AUC of 0.9940 and a classification accuracy of 95.55%. We further highlight that the proposed system is able to reveal the same person even ten and more years after the initial scan. When pursuing a retrieval approach, we observe an mAP@R of 0.9748 and a precision@1 of 0.9963. Based on this high identification rate, a potential attacker may leak patient-related information and additionally cross-reference images to obtain more information. Thus, there is a great risk of sensitive content falling into unauthorized hands or being disseminated against the will of the concerned patients. Especially during the COVID-19 pandemic, numerous chest X-ray datasets have been published to advance research. Therefore, such data may be vulnerable to potential attacks by deep learning-based re-identification algorithms.
翻訳日:2021-03-16 14:49:02 公開日:2021-03-15
# 教師なし単語と音素発見のための韻律付き二重調音解析器

Double Articulation Analyzer with Prosody for Unsupervised Word and Phoneme Discovery ( http://arxiv.org/abs/2103.08199v1 )

ライセンス: Link先を確認
Yasuaki Okuda, Ryo Ozaki, and Tadahiro Taniguchi(参考訳) 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。 プロセスを表す既存の計算モデルの多くは、分布的または韻律的なキューにフォーカスする傾向がある。 本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。 HDP-HLMの拡張であるProsodic HDP-HLMは、単一の統合生成モデル内の韻律的キューと分布的キューの両方を検討する。 各種データセットについて3つの実験を行い,提案手法の有効性を実証した。 その結果, 韻律DAAは韻律的手がかりをうまく利用し, 分布的手がかりのみを用いる手法よりも優れていた。 The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.

Infants acquire words and phonemes from unsegmented speech signals using segmentation cues, such as distributional, prosodic, and co-occurrence cues. Many pre-existing computational models that represent the process tend to focus on distributional or prosodic cues. This paper proposes a nonparametric Bayesian probabilistic generative model called the prosodic hierarchical Dirichlet process-hidden language model (Prosodic HDP-HLM). Prosodic HDP-HLM, an extension of HDP-HLM, considers both prosodic and distributional cues within a single integrative generative model. We conducted three experiments on different types of datasets, and demonstrate the validity of the proposed method. The results show that the Prosodic DAA successfully uses prosodic cues and outperforms a method that solely uses distributional cues. The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.
翻訳日:2021-03-16 14:31:42 公開日:2021-03-15
# 文書レベル関係抽出のための言及中心グラフニューラルネットワーク

Mention-centered Graph Neural Network for Document-level Relation Extraction ( http://arxiv.org/abs/2103.08200v1 )

ライセンス: Link先を確認
Jiaxin Pan, Min Peng, Yiyan Zhang(参考訳) ドキュメントレベルの関係抽出は、ドキュメント全体のエンティティ間の関係を見つけることを目的としている。 ドキュメント内の異なる文からエンティティの依存性を構築する方法は、依然として大きな課題です。 現在のアプローチでは、構文木を利用して文書レベルのグラフを構築するか、異なる文から推論情報を集約する。 本稿では,文間参照間の構成関係を推測し,文間依存性を構築する。 積極的なリンク戦略を採用すると、中間関係は畳み込みに言及して文書レベルのグラフ上で推論される。 さらに、NAインスタンスの一般化問題は、不完全なアノテーションによって引き起こされ、完全に接続された参照ペアによって悪化する。 この問題に対応するため、ランキング損失の改善が提案されている。 実験では、異なる言及間の接続は文書レベルの関係抽出に不可欠であり、モデルがより意味のある高レベルの構成関係を抽出できるようにする。

Document-level relation extraction aims to discover relations between entities across a whole document. How to build the dependency of entities from different sentences in a document remains to be a great challenge. Current approaches either leverage syntactic trees to construct document-level graphs or aggregate inference information from different sentences. In this paper, we build cross-sentence dependencies by inferring compositional relations between inter-sentence mentions. Adopting aggressive linking strategy, intermediate relations are reasoned on the document-level graphs by mention convolution. We further notice the generalization problem of NA instances, which is caused by incomplete annotation and worsened by fully-connected mention pairs. An improved ranking loss is proposed to attend this problem. Experiments show the connections between different mentions are crucial to document-level relation extraction, which enables the model to extract more meaningful higher-level compositional relations.
翻訳日:2021-03-16 14:31:23 公開日:2021-03-15
# 自然言語解説評価のための自動測定法の検討

A Study of Automatic Metrics for the Evaluation of Natural Language Explanations ( http://arxiv.org/abs/2103.08545v1 )

ライセンス: Link先を確認
Miruna Clinciu, Arash Eshghi, and Helen Hastie(参考訳) ロボット工学やAIにとって透明性が鍵となるため、自動生成された自然言語(NL)の説明を含む透明性を提供する方法を評価する必要がある。 本稿では,このような説明の生成と,自然言語生成(NLG)の評価分野との類似性について検討する。 具体的には,NLG評価尺度のどれが説明によく対応しているかを検討する。 本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。 人間の主観的評価とNLG自動測定とを相関関係で比較した。 BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。 この研究は、説明可能なAIと透明なロボットと自律システムに影響を及ぼす。

As transparency becomes key for robotics and AI, it will be necessary to evaluate the methods through which transparency is provided, including automatically generated natural language (NL) explanations. Here, we explore parallels between the generation of such explanations and the much-studied field of evaluation of Natural Language Generation (NLG). Specifically, we investigate which of the NLG evaluation measures map well to explanations. We present the ExBAN corpus: a crowd-sourced corpus of NL explanations for Bayesian Networks. We run correlations comparing human subjective ratings with NLG automatic measures. We find that embedding-based automatic NLG evaluation methods, such as BERTScore and BLEURT, have a higher correlation with human ratings, compared to word-overlap metrics, such as BLEU and ROUGE. This work has implications for Explainable AI and transparent robotic and autonomous systems.
翻訳日:2021-03-16 14:31:10 公開日:2021-03-15
# 3次元機械学習を用いたデジタルツインの幾何変化検出

Geometric Change Detection in Digital Twins using 3D Machine Learning ( http://arxiv.org/abs/2103.08201v1 )

ライセンス: Link先を確認
Tiril Sundby, Julia Maria Graham, Adil Rasheed, Mandar Tabib, Omer San(参考訳) デジタル双子は現実世界の物理的システムと仮想表現の間のギャップを埋めることを目的としている。 スタンドアローンと記述型デジタルツインには、デジタルレプリカ内のオブジェクトの物理的表現である3D幾何学モデルが組み込まれている。 デジタルツインアプリケーションは、物理的に進化した内部パラメータを迅速に更新する必要がある。 正確な物理表現のために高品質な幾何学モデルを持つことが必須であるため、3dモデル情報を格納するためのストレージと帯域幅要件は、利用可能なストレージと帯域容量を迅速に超えることができる。 本研究では,デジタル双子の文脈における幾何学的変化検出に対する新しいアプローチを実証する。 動作検出のための動的モード分解(DMD)、オブジェクト検出のためのYOLOv5、ポーズ推定のための3D機械学習を組み合わせることでこの問題に対処する。 dmdはバックグラウンドサブトラクションに適用され、移動前景オブジェクトをリアルタイムで検出できる。 検出された動きを含むビデオフレームを抽出し、変更検出ネットワークへの入力として使用する。 オブジェクト検出アルゴリズムYOLOv5を適用して、ビデオフレーム内の検出対象の境界ボックスを抽出する。 さらに、3dポーズ推定ネットワークにおいて、各オブジェクトの回転ポーズを推定する。 一連の畳み込みニューラルネットワークは、画像と3Dモデル形状から特徴抽出を行う。 次に、ネットワークは、入力画像内のオブジェクトに対してカメラ方向の推定オイラー角度を出力する。 検出されたポーズの変化に関連するデータを保存するだけで、必要なストレージと帯域幅の要件を最小限に抑えながら、オンデマンドで3Dシーンを再現できます。

Digital twins are meant to bridge the gap between real-world physical systems and virtual representations. Both stand-alone and descriptive digital twins incorporate 3D geometric models, which are the physical representations of objects in the digital replica. Digital twin applications are required to rapidly update internal parameters with the evolution of their physical counterpart. Due to an essential need for having high-quality geometric models for accurate physical representations, the storage and bandwidth requirements for storing 3D model information can quickly exceed the available storage and bandwidth capacity. In this work, we demonstrate a novel approach to geometric change detection in the context of a digital twin. We address the issue through a combined solution of Dynamic Mode Decomposition (DMD) for motion detection, YOLOv5 for object detection, and 3D machine learning for pose estimation. DMD is applied for background subtraction, enabling detection of moving foreground objects in real-time. The video frames containing detected motion are extracted and used as input to the change detection network. The object detection algorithm YOLOv5 is applied to extract the bounding boxes of detected objects in the video frames. Furthermore, the rotational pose of each object is estimated in a 3D pose estimation network. A series of convolutional neural networks conducts feature extraction from images and 3D model shapes. Then, the network outputs the estimated Euler angles of the camera orientation with respect to the object in the input image. By only storing data associated with a detected change in pose, we minimize necessary storage and bandwidth requirements while still being able to recreate the 3D scene on demand.
翻訳日:2021-03-16 14:30:40 公開日:2021-03-15
# OCR制約GANを用いた合成手書き歴史文書の生成

Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs ( http://arxiv.org/abs/2103.08236v1 )

ライセンス: Link先を確認
Lars V\"ogtlin, Manuel Drazyk, Vinaychandran Pondenkandath, Michele Alberti, Rolf Ingold(参考訳) 我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。 大きなラベル付きデータセットを取得することは、ドキュメント画像解析(DIA)の教師付きディープラーニングメソッドを効果的に使用するための制限要因であることが多い。 合成データ生成に対する以前のアプローチでは、専門知識が必要か、あるいは合成文書の精度が低かった。 専門知識を必要とせずに高精度な変換を実現するため、2つのステップで課題に取り組みます。 まず、ユーザー指定のコンテンツと構造を持つテンプレートドキュメントを作成します。 第2に,テキストやレイアウトを維持しつつ,これらのテンプレート文書にラベルなしの歴史的画像の集合のスタイルを転送する。 事前学習環境での合成履歴文書の使用を評価し、ベースライン(ランダムに初期化および事前トレーニング)を上回っていることを見つけます。 さらに,視覚的な例を用いて,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成を実演する。

We present a framework to generate synthetic historical documents with precise ground truth using nothing more than a collection of unlabeled historical images. Obtaining large labeled datasets is often the limiting factor to effectively use supervised deep learning methods for Document Image Analysis (DIA). Prior approaches towards synthetic data generation either require expertise or result in poor accuracy in the synthetic documents. To achieve high precision transformations without requiring expertise, we tackle the problem in two steps. First, we create template documents with user-specified content and structure. Second, we transfer the style of a collection of unlabeled historical images to these template documents while preserving their text and layout. We evaluate the use of our synthetic historical documents in a pre-training setting and find that we outperform the baselines (randomly initialized and pre-trained). Additionally, with visual examples, we demonstrate a high-quality synthesis that makes it possible to generate large labeled historical document datasets with precise ground truth.
翻訳日:2021-03-16 14:30:17 公開日:2021-03-15
# 相補的事前訓練によるSAR画像の船体検出

Boosting ship detection in SAR images with complementary pretraining techniques ( http://arxiv.org/abs/2103.08251v1 )

ライセンス: Link先を確認
Wei Bao, Meiyu Huang, Yaqin Zhang, Yao Xu, Xuejiao Liu, Xueshuang Xiang(参考訳) 深層学習法は, 合成開口レーダ(SAR)画像における船体検出に大きな進歩をもたらした。 プレトレーニング技術は通常、SAR画像が不足しているため、ディープニューラルネットワークベースのSAR船検出器をサポートするために採用されている。 しかし,イメージネットの事前学習の直接利用は,画像の視点や形状が異なっており,良好な船舶検出器を得ることは困難である。 本論文では,画像ネットと地球観測との一貫性のない画像視点の問題を解決するため,大規模空中画像データセットから地球観測中の船舶の特性をsar画像に転送するosd(optical ship detector)プリトレーニング手法を提案する。 一方、光学画像とSAR画像の異なる撮像ジオメトリの問題に対処するために、光-SARマッチングタスクの共通表現学習により、光学画像からSAR画像に豊富なテクスチャー特性を転送する光-SARマッチング(OSM)プリトレーニング技術を提案します。 最後に,OSD事前訓練型SAR船検知器は,海面でのリコールが良好であるのに対して,OSM事前訓練型SAR船検出器は陸域での誤報を低減し,重み付きボックス融合による2つの検出器の予測を組み合わせることにより,検出結果をさらに改善する。 4つのSAR船体検出データセットと2つの代表的CNNベース検出ベンチマークの広範囲な実験を行い、提案した2つの検出器の有効性と相補性、および2つの検出器の組み合わせの最先端性能を示す。 提案手法は、2020年のGaofenチャレンジでSAR画像の船舶検出第6位を獲得しました。

Deep learning methods have made significant progress in ship detection in synthetic aperture radar (SAR) images. The pretraining technique is usually adopted to support deep neural networks-based SAR ship detectors due to the scarce labeled SAR images. However, directly leveraging ImageNet pretraining is hardly to obtain a good ship detector because of different imaging perspective and geometry. In this paper, to resolve the problem of inconsistent imaging perspective between ImageNet and earth observations, we propose an optical ship detector (OSD) pretraining technique, which transfers the characteristics of ships in earth observations to SAR images from a large-scale aerial image dataset. On the other hand, to handle the problem of different imaging geometry between optical and SAR images, we propose an optical-SAR matching (OSM) pretraining technique, which transfers plentiful texture features from optical images to SAR images by common representation learning on the optical-SAR matching task. Finally, observing that the OSD pretraining based SAR ship detector has a better recall on sea area while the OSM pretraining based SAR ship detector can reduce false alarms on land area, we combine the predictions of the two detectors through weighted boxes fusion to further improve detection results. Extensive experiments on four SAR ship detection datasets and two representative CNN-based detection benchmarks are conducted to show the effectiveness and complementarity of the two proposed detectors, and the state-of-the-art performance of the combination of the two detectors. The proposed method won the sixth place of ship detection in SAR images in 2020 Gaofen challenge.
翻訳日:2021-03-16 14:30:01 公開日:2021-03-15
# Sent2Matrix:2次元文のためのSerpentine ManifoldsにおけるFolding Character Sequences

Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for Two-Dimensional Sentence ( http://arxiv.org/abs/2103.08387v1 )

ライセンス: Link先を確認
Hongyang Gao, Yi Liu, Xuan Zhang, Shuiwang Ji(参考訳) 深層モデルを用いたテキスト表現手法の研究を行う。 現在のメソッド、例えば単語レベルの埋め込みや文字レベルの埋め込みスキームは、テキストをアトミックワードのシーケンスまたは文字のシーケンスとして扱う。 これらの手法は単語形態や単語境界を無視する。 これらの制限を克服するために、テキストを2次元表現に変換し、Sent2Matrix法を開発する。 この手法は単語形態と境界の両方を明示的に組み込むことができる。 新しいサーペンタインパディング法と組み合わせると、Sent2Matrix法は、1-D文字配列を2-Dサーペンタイン多様体に折り畳む興味深い視覚化につながります。 特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。 テキスト分類タスクにおける実験結果から,本手法は従来手法よりも優れていた。

We study text representation methods using deep models. Current methods, such as word-level embedding and character-level embedding schemes, treat texts as either a sequence of atomic words or a sequence of characters. These methods either ignore word morphologies or word boundaries. To overcome these limitations, we propose to convert texts into 2-D representations and develop the Sent2Matrix method. Our method allows for the explicit incorporation of both word morphologies and boundaries. When coupled with a novel serpentine padding method, our Sent2Matrix method leads to an interesting visualization in which 1-D character sequences are folded into 2-D serpentine manifolds. Notably, our method is the first attempt to represent texts in 2-D formats. Experimental results on text classification tasks shown that our method consistently outperforms prior embedding methods.
翻訳日:2021-03-16 14:29:32 公開日:2021-03-15
# ニューラルネットワークと意味付け

Neural Networks and Denotation ( http://arxiv.org/abs/2103.08315v1 )

ライセンス: Link先を確認
Eric E. Allen(参考訳) 訓練されたニューラルネットワークでニューロンがどのような意味を捉えているのかを推論するためのフレームワークを紹介します。 基礎となるデータセットの属性に関連して、観察するモデル(オブジェクトモデル)の状態を分類するために、第2モデル(オブザーバーモデルと呼ばれる)を訓練することによって意味を発見する戦略を提供する。 我々は,特定の分類問題の文脈におけるオブザーバモデルの実装と評価を行い,線形オブザーバモデルにおけるオブジェクトモデルのコンポーネントの関連性を可視化するヒートマップを用いて,ニューラルネットワークが入力の健全な特性を識別する方法についての知見を抽出する。 トレーニングニューラルネットワークにおいて決定的に捕捉された重要な特性を同定する。 最後に、ニューロンによって表される特性のラベル比率が、ネットワーク内のニューロンの深さに依存することを観測し、それらの依存性を分析し、それらの解釈を提供する。

We introduce a framework for reasoning about what meaning is captured by the neurons in a trained neural network. We provide a strategy for discovering meaning by training a second model (referred to as an observer model) to classify the state of the model it observes (an object model) in relation to attributes of the underlying dataset. We implement and evaluate observer models in the context of a specific set of classification problems, employ heat maps for visualizing the relevance of components of an object model in the context of linear observer models, and use these visualizations to extract insights about the manner in which neural networks identify salient characteristics of their inputs. We identify important properties captured decisively in trained neural networks; some of these properties are denoted by individual neurons. Finally, we observe that the label proportion of a property denoted by a neuron is dependent on the depth of a neuron within a network; we analyze these dependencies, and provide an interpretation of them.
翻訳日:2021-03-16 14:27:43 公開日:2021-03-15
# 自律運転における時空間特徴を用いたドメイン間移動学習の一般化

Improving Generalization of Transfer Learning Across Domains Using Spatio-Temporal Features in Autonomous Driving ( http://arxiv.org/abs/2103.08116v1 )

ライセンス: Link先を確認
Shivam Akhauri, Laura Zheng, Tom Goldstein, Ming Lin(参考訳) 現実世界でのビジョンに基づく自動運転のトレーニングは、非効率で非現実的です。 車両シミュレーションは仮想世界での学習に利用することができ、取得したスキルを実際のシナリオをより効果的に扱うために転送することができる。 仮想と現実の視覚領域の間では、道路の端と他の車両との相対的な距離などの共通の特徴は一定である。 これらの視覚的要素は、運転中の人間の意思決定に直感的に重要です。 これらの時空間的要因は、ドメイン間の一般化を改善するための転送学習にも利用できると仮定する。 まず,シーンから車両の動特性を表す時空間的特徴を抽出するCNN+LSTM転送学習フレームワークを提案する。 次に,運転システム決定における様々な特徴の意義を定量的に推定するアブレーション研究を行う。 物理的に解釈可能な要因はネットワーク決定と高い相関関係にあるが,シーン間の表現的差異は認められない。 最後に、アブレーション研究の結果に基づいて、ソースモデルから抽出されたサリエンシーマップと物理的特徴を使用して、ターゲットモデルのパフォーマンスを向上させるトランスファーラーニングパイプラインを提案します。 ネットワークのトレーニングは、CNNおよびLSTM潜伏特性(移動車w.r.tの固有物理を捉える)から学習した重量で初期化される。 あるドメインから別のドメインに転送される(その周囲)。 提案手法は,二分分類学習タスクにおけるベースラインcnnモデルと比較して,未知領域をまたいでより一般化することを示す。

Training vision-based autonomous driving in the real world can be inefficient and impractical. Vehicle simulation can be used to learn in the virtual world, and the acquired skills can be transferred to handle real-world scenarios more effectively. Between virtual and real visual domains, common features such as relative distance to road edges and other vehicles over time are consistent. These visual elements are intuitively crucial for human decision making during driving. We hypothesize that these spatio-temporal factors can also be used in transfer learning to improve generalization across domains. First, we propose a CNN+LSTM transfer learning framework to extract the spatio-temporal features representing vehicle dynamics from scenes. Next, we conduct an ablation study to quantitatively estimate the significance of various features in the decisions of driving systems. We observe that physically interpretable factors are highly correlated with network decisions, while representational differences between scenes are not. Finally, based on the results of our ablation study, we propose a transfer learning pipeline that uses saliency maps and physical features extracted from a source model to enhance the performance of a target model. Training of our network is initialized with the learned weights from CNN and LSTM latent features (capturing the intrinsic physics of the moving vehicle w.r.t. its surroundings) transferred from one domain to another. Our experiments show that this proposed transfer learning framework better generalizes across unseen domains compared to a baseline CNN model on a binary classification learning task.
翻訳日:2021-03-16 14:24:13 公開日:2021-03-15
# DMN4: 識別的近接近傍ニューラルネットワークによる短ショット学習

DMN4: Few-shot Learning via Discriminative Mutual Nearest Neighbor Neural Network ( http://arxiv.org/abs/2103.08160v1 )

ライセンス: Link先を確認
Yang Liu, Tu Zheng, Jie Song, Deng Cai, Xiaofei He(参考訳) FSL(Few-shot Learning)は、従来のプールされたグローバル表現が有用なローカル特性を失う可能性がある低データ体制下での画像の分類を目的とする。 近年の業績は深層ディスクリプタを用いて有望なパフォーマンスを達成している。 彼らは一般に、ニューラルネットワークからの深い記述子をすべて考慮し、それらのいくつかは、その限定された受容領域のために分類において役に立たないことを無視し、例えば、タスク非関連記述子は誤解を招く可能性があり、背景クラッターからの複数の集約記述子はオブジェクトの存在を圧倒する可能性さえある。 本稿では、各タスクに最も関連するクエリ記述子を明示的に選択し、FSLの集約的クラッタから関連性の低いものを破棄するために、MNN(Mutual Nearest Neighbor)関係を確立するべきであると論じる。 具体的には、FSLの識別的近接近傍ニューラルネットワーク(DMN4)を提案する。 本手法は, タスク関連ディスクリプタを定性的に選択するだけでなく, CUBでは1.8~4.9%, miniImagenetでは1.4~2.2%, 階層イメージネットでは1.4%と, 従来の技術水準を定量的に上回っていることを実証した。

Few-shot learning (FSL) aims to classify images under low-data regimes, where the conventional pooled global representation is likely to lose useful local characteristics. Recent work has achieved promising performances by using deep descriptors. They generally take all deep descriptors from neural networks into consideration while ignoring that some of them are useless in classification due to their limited receptive field, e.g., task-irrelevant descriptors could be misleading and multiple aggregative descriptors from background clutter could even overwhelm the object's presence. In this paper, we argue that a Mutual Nearest Neighbor (MNN) relation should be established to explicitly select the query descriptors that are most relevant to each task and discard less relevant ones from aggregative clutters in FSL. Specifically, we propose Discriminative Mutual Nearest Neighbor Neural Network (DMN4) for FSL. Extensive experiments demonstrate that our method not only qualitatively selects task-relevant descriptors but also quantitatively outperforms the existing state-of-the-arts by a large margin of 1.8~4.9% on fine-grained CUB, a considerable margin of 1.4~2.2% on both supervised and semi-supervised miniImagenet, and ~1.4% on challenging tieredimagenet.
翻訳日:2021-03-16 14:23:53 公開日:2021-03-15
# DeepOPG:Weak Supervisionで要約したオルトポアンモグラムの改善

DeepOPG: Improving Orthopantomogram Finding Summarization with Weak Supervision ( http://arxiv.org/abs/2103.08290v1 )

ライセンス: Link先を確認
Tzu-Ming Hsu, Yin-Chih Wang(参考訳) 整形外科または歯科パノラマラジオグラフィーからの要約を見つけることは、患者のコミュニケーションを改善し、臨床判断をスピードアップする大きな可能性を秘めています。 整形パントモグラムは歯科検査の第一線ツールであるが, 既存の研究ではその成果の要約は検討されていない。 検索要約は、画像研究で歯を見つけるだけでなく、いくつかの種類の治療で歯をラベル付けする必要がある。 そこで我々は,DeepOPGを開発した。このプロセスは機能的セグメンテーションと歯の局所化に分解され,後者は新規な歯科コヒーレンスモジュールによってさらに洗練されている。 また,強化学習シナリオにおける検出結果を改善するために,弱い監督ラベルを活用する。 実験では、DeepOPGが要約の発見に高い効果を示し、6種類の発見を総合して88.2%のAUCを達成した。 提案法により,AP@IoU=0.5に5.9%,0.4%を加えることにより,DeepOPGの改善が図られた。

Finding summaries from an orthopantomogram, or a dental panoramic radiograph, has significant potential to improve patient communication and to speed up clinical judgments. While orthopantomogram is a first-line tool for dental examinations, no existing work has explored the summarization of findings from it. A finding summary has to not only find teeth in the imaging study but also label the teeth with several types of treatments. To tackle the problem, we develop DeepOPG that breaks the summarization process into functional segmentation and teeth localization, the latter of which is further refined by a novel dental coherence module. We also leverage weak supervision labels to improve detection results in a reinforcement learning scenario. Experiments show high efficacy of DeepOPG on finding summarization, achieving an overall AUC of 88.2% in detecting six types of findings. The proposed dental coherence and weak supervision both are shown to improve DeepOPG by adding 5.9% and 0.4% to AP@IoU=0.5 respectively.
翻訳日:2021-03-16 14:23:28 公開日:2021-03-15
# 深層感覚学習

Deep Consensus Learning ( http://arxiv.org/abs/2103.08475v1 )

ライセンス: Link先を確認
Wei Sun and Tianfu Wu(参考訳) 生成学習と判別学習は、最近ディープニューラルネットワーク(dnn)を用いた驚くべき進歩を目撃している。 構造化入力合成と構造化出力予測問題(例えば、それぞれレイアウト・ツー・イメージ合成と画像意味セマンティクスセグメンテーション)については、これらはしばしば別々に研究される。 本稿では,画像合成と弱教師付き画像セマンティクスセグメンテーションを組み合わせた深層コンセンサス学習(dcl)を提案する。 前者は最近提案されたLostGANアプローチにより実現され、後者はLostGANの2プレイヤーゲームに参加する3番目のプレイヤーとして推論ネットワークを導入する。 2つの深いコンセンサスマッピングを使用して、3つのネットワークをエンドツーエンドでトレーニングします。入力レイアウト(オブジェクト境界ボックスのリスト)を与えられた場合、ジェネレーターはマスク(ラベルマップ)を生成し、それを画像合成に使用します。 推論ネットワークは、合成画像のマスクを推論する。 そして、ジェネレータによって生成されたマスクと推論ネットワークによって推定されたマスクとの間に潜在コンセンサスを測定する。 入力レイアウトに対応する実画像についても、そのマスクは推論ネットワークによって計算され、生成器が実画像の再構成に使用する。 そして、実画像とその再構成画像との間でデータコンセンサスを測定する。 判別器は、実画像の現実性スコア、再構成画像、合成画像の計算によって、まだ敵の役割を担っている。 実験では、DCLはCOCO-Stuffデータセットでテストされます。 レイアウト・画像合成結果と弱教師付き画像セマンティックセグメンテーション結果を得る。

Both generative learning and discriminative learning have recently witnessed remarkable progress using Deep Neural Networks (DNNs). For structured input synthesis and structured output prediction problems (e.g., layout-to-image synthesis and image semantic segmentation respectively), they often are studied separately. This paper proposes deep consensus learning (DCL) for joint layout-to-image synthesis and weakly-supervised image semantic segmentation. The former is realized by a recently proposed LostGAN approach, and the latter by introducing an inference network as the third player joining the two-player game of LostGAN. Two deep consensus mappings are exploited to facilitate training the three networks end-to-end: Given an input layout (a list of object bounding boxes), the generator generates a mask (label map) and then use it to help synthesize an image. The inference network infers the mask for the synthesized image. Then, the latent consensus is measured between the mask generated by the generator and the one inferred by the inference network. For the real image corresponding to the input layout, its mask also is computed by the inference network, and then used by the generator to reconstruct the real image. Then, the data consensus is measured between the real image and its reconstructed image. The discriminator still plays the role of an adversary by computing the realness scores for a real image, its reconstructed image and a synthesized image. In experiments, our DCL is tested in the COCO-Stuff dataset. It obtains compelling layout-to-image synthesis results and weakly-supervised image semantic segmentation results.
翻訳日:2021-03-16 14:23:08 公開日:2021-03-15
# 乗法的アクティベーション雑音を有するニューラルネットワークのサンプリング不要変分推定

Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise ( http://arxiv.org/abs/2103.08497v1 )

ライセンス: Link先を確認
Jannik Schmitt and Stefan Roth(参考訳) 安全クリティカルな領域にニューラルネットワークを導入するには、予測を信頼できるかどうかを知ることが重要です。 ベイズニューラルネットワーク(BNN)は、後部重量分布に関する予測の平均化によって不確実性推定を提供する。 BNNの変分推定法は, トラクタブル分布とトラクタブル分布とを近似するが, トレーニングや推論において, 変分分布のサンプリングに大きく依存する。 最近のサンプリング不要なアプローチは代替手段を提供するが、かなりのパラメーターオーバーヘッドをもたらす。 本稿では,多乗的ガウスアクティベーションノイズによる分布に依存するサンプリング不要な変分推定のための後方近似のより効率的なパラメータ化を提案する。 これにより、パラメータ効率とサンプリングフリーの変動推論の利点を組み合わせることができます。 提案手法は,イメージネットを含む大規模画像分類タスクに対して,標準回帰問題に対する競合的な結果をもたらす。

To adopt neural networks in safety critical domains, knowing whether we can trust their predictions is crucial. Bayesian neural networks (BNNs) provide uncertainty estimates by averaging predictions with respect to the posterior weight distribution. Variational inference methods for BNNs approximate the intractable weight posterior with a tractable distribution, yet mostly rely on sampling from the variational distribution during training and inference. Recent sampling-free approaches offer an alternative, but incur a significant parameter overhead. We here propose a more efficient parameterization of the posterior approximation for sampling-free variational inference that relies on the distribution induced by multiplicative Gaussian activation noise. This allows us to combine parameter efficiency with the benefits of sampling-free variational inference. Our approach yields competitive results for standard regression problems and scales well to large-scale image classification tasks including ImageNet.
翻訳日:2021-03-16 14:22:43 公開日:2021-03-15
# ビタミンCを入手! 確率的エビデンスを用いたロバスト事実検証

Get Your Vitamin C! Robust Fact Verification with Contrastive Evidence ( http://arxiv.org/abs/2103.08541v1 )

ライセンス: Link先を確認
Tal Schuster, Adam Fisch, Regina Barzilay(参考訳) 典型的な事実検証モデルは、検索された証拠を用いてクレームを検証する。 しかし、証拠源は、より多くの情報が収集され、修正されるにつれて、しばしば変化します。 適応するために、モデルはサポート証拠の微妙な違いに敏感でなければなりません。 本稿では, 事実検証モデルを用いて, 微妙な事実変化を識別・調整する, 挑戦的なケースを取り入れたベンチマークであるVitaminCを提案する。 私たちは、基礎となる事実を修正する100,000以上のWikipediaリビジョンを収集し、これらのリビジョンと追加の合成リビジョンを活用して、合計40,000以上のクレーム証拠ペアを作成します。 以前の資源とは異なり、ビタミンcの例は対照的であり、言語と内容でほぼ同一の証拠ペアを含んでいるが、一方は与えられた主張を支持し、もう一方はそうではない。 この設計を用いたトレーニングは堅牢性を高め、対人的事実検証の精度を10%向上し、対人的自然言語推論(NLI)の6%向上させることを示した。 さらに、VitaminCの構造は、クレーム検証の証拠に関連語をタグ付けし、事実修正を識別し、事実整合性のあるテキスト生成による自動編集を提供することによって、ファクトチェックリソースのための追加タスクを定義する。

Typical fact verification models use retrieved written evidence to verify claims. Evidence sources, however, often change over time as more information is gathered and revised. In order to adapt, models must be sensitive to subtle differences in supporting evidence. We present VitaminC, a benchmark infused with challenging cases that require fact verification models to discern and adjust to slight factual changes. We collect over 100,000 Wikipedia revisions that modify an underlying fact, and leverage these revisions, together with additional synthetically constructed ones, to create a total of over 400,000 claim-evidence pairs. Unlike previous resources, the examples in VitaminC are contrastive, i.e., they contain evidence pairs that are nearly identical in language and content, with the exception that one supports a given claim while the other does not. We show that training using this design increases robustness -- improving accuracy by 10% on adversarial fact verification and 6% on adversarial natural language inference (NLI). Moreover, the structure of VitaminC leads us to define additional tasks for fact-checking resources: tagging relevant words in the evidence for verifying the claim, identifying factual revisions, and providing automatic edits via factually consistent text generation.
翻訳日:2021-03-16 14:22:03 公開日:2021-03-15
# スパイクニューラルネットワークにおける周波数と重み制御の自然な方法としての制約可塑性リザーブ

Constrained plasticity reserve as a natural way to control frequency and weights in spiking neural networks ( http://arxiv.org/abs/2103.08143v1 )

ライセンス: Link先を確認
Oleg Nikitin and Olga Lukyanova and Alex Kunin(参考訳) 生物ニューロンは適応的な性質を持ち、冗長な情報のフィルタリングを含む複雑な計算を行う。 このような処理はベイズ推論としばしば関連づけられる。 しかし、Hodgkin-HuxleyやIzhikevichのような生物学的に実行可能な神経細胞の最も一般的なモデルは、単一の細胞のレベルで予測ダイナミクスを持っていない。 現代のシナプス可塑性や相互結合重み適応の規則は、ニューロンが常に変化する入力信号強度に適応する能力の基盤を提供しない。 天然ニューロンのシナプス成長はタンパク質の供給とリサイクルによって正確に制御され制限されているが、広く使われているstdpのような重量補正規則は、変化率とスケールにおいて効率良く無制限である。 本稿では、細胞内最適化アルゴリズムにより制御された抽象タンパク質の蓄積によるSTDP成長によるニューロンの発火速度のホメオスタシスと体重変化の相互関係の新たなメカニズムを紹介する。 これらの細胞動態がニューロンの強力なシグナルをフィルタリングし、ニューロンが安定した発射速度を維持するのにどのように役立つかを示します。 また、そのようなフィルタリングは、非監視モードでの相関入力を認識するニューロンの能力に影響を与えないことも検討する。 このようなアプローチは、AIシステムの堅牢性を改善するために、機械学習領域で使用される可能性がある。

Biological neurons have adaptive nature and perform complex computations involving the filtering of redundant information. Such processing is often associated with Bayesian inference. Yet most common models of neural cells, including biologically plausible, such as Hodgkin-Huxley or Izhikevich do not possess predictive dynamics on the level of a single cell. The modern rules of synaptic plasticity or interconnections weights adaptation also do not provide grounding for the ability of neurons to adapt to the ever-changing input signal intensity. While natural neuron synaptic growth is precisely controlled and restricted by protein supply and recycling, weight correction rules such as widely used STDP are efficiently unlimited in change rate and scale. In the present article, we will introduce new mechanics of interconnection between neuron firing rate homeostasis and weight change by means of STDP growth bounded by abstract protein reserve, controlled by the intracellular optimization algorithm. We will show, how these cellular dynamics help neurons to filter out the intense signals to help neurons keep a stable firing rate. We will also examine that such filtering does not affect the ability of neurons to recognize the correlated inputs in unsupervised mode. Such an approach might be used in the machine learning domain to improve the robustness of AI systems.
翻訳日:2021-03-16 14:20:13 公開日:2021-03-15
# ロバストMAML:モデルに依存しないメタ学習のための適応学習プロセスによる優先順位付けタスクバッファ

Robust MAML: Prioritization task buffer with adaptive learning process for model-agnostic meta-learning ( http://arxiv.org/abs/2103.08233v1 )

ライセンス: Link先を確認
Thanh Nguyen, Tung Luu, Trung Pham, Sanzhar Rakhimkul, Chang D. Yoo(参考訳) モデル非依存メタラーニング(MAML)は、さまざまな学習タスクを与えられたモデルの良いウェイト初期化を提供する、最新のメタラーニングアルゴリズムです。 供給された重量によって初期化されたモデルは、少量のサンプルと数段の適応ステップのみを使用しながら、目に見えないタスクに微調整することができる。 MAMLは単純で汎用性があるが、そのスケーラビリティと一般化に影響を与えるタスク分布の学習率チューニングと注意深い設計を必要とする。 本稿では、適応学習方式に基づくより堅牢なMTLと、トレーニングプロセスのスケーラビリティを改善し、分散ミスマッチの問題を軽減するためにRobust MAML(RMAML)と呼ばれる優先順位付けタスクバッファ(PTB)を提案する。 RMAMLは勾配に基づくハイパーパラメータ最適化を用いて、最適学習率を自動的に検出し、PTBを使用して、トレーニングの過程でタスク分布をテストするためのトレーニングタスク分布を徐々に調整する。 メタ強化学習環境における実験結果は,超パラメータ選択に対する感度が低く,分布ミスマッチに頑健であるとともに,大幅な性能向上を示す。

Model agnostic meta-learning (MAML) is a popular state-of-the-art meta-learning algorithm that provides good weight initialization of a model given a variety of learning tasks. The model initialized by provided weight can be fine-tuned to an unseen task despite only using a small amount of samples and within a few adaptation steps. MAML is simple and versatile but requires costly learning rate tuning and careful design of the task distribution which affects its scalability and generalization. This paper proposes a more robust MAML based on an adaptive learning scheme and a prioritization task buffer(PTB) referred to as Robust MAML (RMAML) for improving scalability of training process and alleviating the problem of distribution mismatch. RMAML uses gradient-based hyper-parameter optimization to automatically find the optimal learning rate and uses the PTB to gradually adjust train-ing task distribution toward testing task distribution over the course of training. Experimental results on meta reinforcement learning environments demonstrate a substantial performance gain as well as being less sensitive to hyper-parameter choice and robust to distribution mismatch.
翻訳日:2021-03-16 14:19:49 公開日:2021-03-15
# 好奇性コントラストフォワードダイナミクスモデルを用いたサンプル効率強化学習表現学習

Sample-efficient Reinforcement Learning Representation Learning with Curiosity Contrastive Forward Dynamics Model ( http://arxiv.org/abs/2103.08255v1 )

ライセンス: Link先を確認
Thanh Nguyen, Tung M. Luu, Thang Vu and Chang D. Yoo(参考訳) 生画素などの高次元観察から複雑な制御タスクを直接行うことができる強化学習(RL)のエージェントの開発は、サンプル効率の向上と一般化に向けた取り組みとして、まだ課題です。 本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、生のピクセルを直接ベースとするサンプル効率の高いRLを実現する。 CCFDMは、フォワードダイナミクスモデル(FDM)を組み込んで、その深い畳み込みニューラルネットワークベースの画像エンコーダ(IE)を訓練するためにコントラスト学習を行い、RLのサンプル効率を向上させるための空間的および時間的情報を抽出します。 さらに、トレーニング中にCFDMは、FDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。 比較学習で利用可能な探索戦略とデータ拡張の両方によってもたらされる多様性と非反復的な観察は、サンプル効率だけでなく一般化も改善します。 CCFDM上に構築されたSoft Actor-Criticのような既存のモデルフリーRLメソッドのパフォーマンスは、DeepMind Control Suiteベンチマークで最先端のピクセルベースのRLメソッドよりも優れています。

Developing an agent in reinforcement learning (RL) that is capable of performing complex control tasks directly from high-dimensional observation such as raw pixels is yet a challenge as efforts are made towards improving sample efficiency and generalization. This paper considers a learning framework for Curiosity Contrastive Forward Dynamics Model (CCFDM) in achieving a more sample-efficient RL based directly on raw pixels. CCFDM incorporates a forward dynamics model (FDM) and performs contrastive learning to train its deep convolutional neural network-based image encoder (IE) to extract conducive spatial and temporal information for achieving a more sample efficiency for RL. In addition, during training, CCFDM provides intrinsic rewards, produced based on FDM prediction error, encourages the curiosity of the RL agent to improve exploration. The diverge and less-repetitive observations provide by both our exploration strategy and data augmentation available in contrastive learning improve not only the sample efficiency but also the generalization. Performance of existing model-free RL methods such as Soft Actor-Critic built on top of CCFDM outperforms prior state-of-the-art pixel-based RL methods on the DeepMind Control Suite benchmark.
翻訳日:2021-03-16 14:19:29 公開日:2021-03-15
# ニュースレコメンダーシステムにおける精度と多様性のトレードオフのためのディープダイナミックニューラルネットワーク

Deep Dynamic Neural Network to trade-off between Accuracy and Diversity in a News Recommender System ( http://arxiv.org/abs/2103.08458v1 )

ライセンス: Link先を確認
Shaina Raza andChen Ding(参考訳) ニュースレコメンデータシステムは、ニュースドメイン特有のいくつかのユニークな課題によって特徴付けられる。 これらの課題は、継続的に変化する動的に生成されたニュースアイテムに対する読者の関心から生まれます。 ニュース読みは、読者の長期的および短期的利益のブレンドによっても駆動される。 さらに、ニュースレコメンデーションシステムでは、読者を読書プロセスに参加させるだけでなく、異なる見解や意見に露出させるため、多様性が要求される。 本稿では,情報的ニュースと読者の関心を統合されたフレームワークに共同で学習するディープニューラルネットワークを提案する。 私たちはニュースの見出し、スニペット(ボディ)、分類学(カテゴリ、サブカテゴリ)からニュース表現(機能)を学びます。 読者のクリック履歴から読者の長期的関心、LSTMSによる最近のクリックからの短期的関心、および注意メカニズムを通じて多様な読者の興味を学びます。 モデルにもさまざまなレベルの注意を向けています。 我々は,2つのニュースデータセットについて広範な実験を行い,その効果を実証した。

The news recommender systems are marked by a few unique challenges specific to the news domain. These challenges emerge from rapidly evolving readers' interests over dynamically generated news items that continuously change over time. News reading is also driven by a blend of a reader's long-term and short-term interests. In addition, diversity is required in a news recommender system, not only to keep the reader engaged in the reading process but to get them exposed to different views and opinions. In this paper, we propose a deep neural network that jointly learns informative news and readers' interests into a unified framework. We learn the news representation (features) from the headlines, snippets (body) and taxonomy (category, subcategory) of news. We learn a reader's long-term interests from the reader's click history, short-term interests from the recent clicks via LSTMSs and the diversified reader's interests through the attention mechanism. We also apply different levels of attention to our model. We conduct extensive experiments on two news datasets to demonstrate the effectiveness of our approach.
翻訳日:2021-03-16 14:19:07 公開日:2021-03-15
# Lasry-Lions Envelopes and Nonconvex Optimization: A Homotopy Approach

Lasry-Lions Envelopes and Nonconvex Optimization: A Homotopy Approach ( http://arxiv.org/abs/2103.08533v1 )

ライセンス: Link先を確認
Miguel Sim\~oes, Andreas Themelis, Panagiotis Patrinos(参考訳) 大規模最適化では、与えられた問題における非滑らかな項と非凸項の存在は典型的に解決を難しくする。 凸最適化の非滑らかな用語に対処するための一般的なアプローチは、それらをそれぞれのモロー封筒で近似することです。 本研究では,ラズリーライオン二重封筒を用いて,凸でない非平滑項を近似する。 これらのエンベロープはMoreauの拡張ですが、高速最適化アルゴリズムに適応できるように、さらなる滑らかさ特性を示します。 Lasry-Lionsエンベロープは、与えられた関数とその凸エンベロープの間の「中間」と見なすことができ、この特性を利用して、元の問題よりも解くのが簡単な近似部分問題列を構築する方法を開発する。 本手法は,複合最小化問題に対する収束特性について論じるとともに,いくつかの実験に基づいて,信号復号法とスペクトルアンミックス法という2領域の古典的代替法よりも有用であると考えられる設定について検討する。

In large-scale optimization, the presence of nonsmooth and nonconvex terms in a given problem typically makes it hard to solve. A popular approach to address nonsmooth terms in convex optimization is to approximate them with their respective Moreau envelopes. In this work, we study the use of Lasry-Lions double envelopes to approximate nonsmooth terms that are also not convex. These envelopes are an extension of the Moreau ones but exhibit an additional smoothness property that makes them amenable to fast optimization algorithms. Lasry-Lions envelopes can also be seen as an "intermediate" between a given function and its convex envelope, and we make use of this property to develop a method that builds a sequence of approximate subproblems that are easier to solve than the original problem. We discuss convergence properties of this method when used to address composite minimization problems; additionally, based on a number of experiments, we discuss settings where it may be more useful than classical alternatives in two domains: signal decoding and spectral unmixing.
翻訳日:2021-03-16 14:18:49 公開日:2021-03-15
# ガウススケール混合分布に基づく因果推定のためのベイズモデル平均化とその近似

Bayesian Model Averaging for Causality Estimation and its Approximation based on Gaussian Scale Mixture Distributions ( http://arxiv.org/abs/2103.08195v1 )

ライセンス: Link先を確認
Shunsuke Horii(参考訳) 線形構造因果モデル(scms)に基づく因果効果の推定では、まず因果構造を特定し、確率分布を推定し、次に因果効果を計算することが一般的である。 しかし、因果効果の推定が目的であれば、1つの因果構造や確率分布を固定する必要はありません。 本稿では,ベイズ的視点から,固定単一モデルの下で因果効果を推定するのではなく,各モデルで推定される因果効果の重み付け(平均)に最適なベイズであることを示す。 この考え方はベイズモデル平均化(bayesian model averaging)とも呼ばれる。 ベイズ平均化は最適であるが、候補モデルの数が増加するにつれて重み付け計算は計算的に困難になる。 ガウススケール混合分布を用いたベイズ最適推定器の近似法を開発した。

In the estimation of the causal effect under linear Structural Causal Models (SCMs), it is common practice to first identify the causal structure, estimate the probability distributions, and then calculate the causal effect. However, if the goal is to estimate the causal effect, it is not necessary to fix a single causal structure or probability distributions. In this paper, we first show from a Bayesian perspective that it is Bayes optimal to weight (average) the causal effects estimated under each model rather than estimating the causal effect under a fixed single model. This idea is also known as Bayesian model averaging. Although the Bayesian model averaging is optimal, as the number of candidate models increases, the weighting calculations become computationally hard. We develop an approximation to the Bayes optimal estimator by using Gaussian scale mixture distributions.
翻訳日:2021-03-16 14:18:22 公開日:2021-03-15
# 独立レベル予測のトップダウンアライメントによる調整予測

Forecasting reconciliation with a top-down alignment of independent level forecasts ( http://arxiv.org/abs/2103.08250v1 )

ライセンス: Link先を確認
Matthias Anderer and Feng Li(参考訳) 断続的な時間系列による階層予測は、研究と実証的研究の両方において課題である。 全体予測性能は,下層部における断続時系列の予測精度に大きく影響している。 本稿では,階層の上位レベルでの予測精度を高めるために,ボトムレベル予測を潜在性として扱う予測調整手法を提案する。 我々は,トップレベルの連続時系列に純粋なディープラーニング予測手法n-beatsと,ボトムレベル間欠時系列に広く使用されている木ベースアルゴリズムlightgbmを用いる。 階層的予測とアライメントアプローチは、実装がシンプルで簡単なものです。 和解を予測するための直交方向の光を放つ。 最適和解を見つけるのが困難である場合には、低いレベルの最適下限予測が全体の性能を維持することができる。 この実証的研究のアプローチは、M5予測精度競争ランキング2位で最初の著者によって開発されました。 このアプローチはビジネス指向であり、ビジネス戦略的計画に有益である。

Hierarchical forecasting with intermittent time series is a challenge in both research and empirical studies. The overall forecasting performance is heavily affected by the forecasting accuracy of intermittent time series at bottom levels. In this paper, we present a forecasting reconciliation approach that treats the bottom level forecast as latent to ensure higher forecasting accuracy on the upper levels of the hierarchy. We employ a pure deep learning forecasting approach N-BEATS for continuous time series on top levels and a widely used tree-based algorithm LightGBM for the bottom level intermittent time series. The hierarchical forecasting with alignment approach is simple and straightforward to implement in practice. It sheds light on an orthogonal direction for forecasting reconciliation. When there is difficulty finding an optimal reconciliation, allowing suboptimal forecasts at a lower level could retain a high overall performance. The approach in this empirical study was developed by the first author during the M5 Forecasting Accuracy competition ranking second place. The approach is business orientated and could be beneficial for business strategic planning.
翻訳日:2021-03-16 14:18:07 公開日:2021-03-15
# マトリックス製品状態の表現理論

Representation Theorem for Matrix Product States ( http://arxiv.org/abs/2103.08277v1 )

ライセンス: Link先を確認
Erdong Guo and David Draper(参考訳) 本研究では, 行列積状態(MPS)の普遍的表現能力について, ブール関数と連続関数の観点から検討する。 任意に与えられたブールゲートに対して対応するMPS構造を構築することにより,MPSが任意のブール関数を正確に実現できることを示す。 さらに、スケール不変なシグモイド活性化を持つ MPS の函数空間は、$n$-次元実座標空間 $\mathbb{R^{n}}$ のコンパクト部分空間上で定義される連続函数の空間において密であることを証明する。 我々は,MPSとニューラルネットワークの関係について検討し,スケール不変なシグモダル関数を持つMPSが,カーネル関数を持つ一層ニューラルネットワークと等価であることを示す。 我々は,複数のMPSモデルに対して等価ニューラルネットワークを構築し,入力の異なる成分間の結合をモデルに導入する多項式カーネルなどの非線形カーネルが,同等のニューラルネットワークに自然に現れることを示す。 最後に, 無限幅mpを用いたガウス過程(gp)の実現について, 等価ニューラルネットワークを用いて検討する。

In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
翻訳日:2021-03-16 14:17:54 公開日:2021-03-15
# 有限和最適化問題の低次複素性境界:結果と構成

Lower Complexity Bounds of Finite-Sum Optimization Problems: The Results and Construction ( http://arxiv.org/abs/2103.08280v1 )

ライセンス: Link先を確認
Yuze Han, Guangzeng Xie, Zhihua Zhang(参考訳) 本論文の貢献には2つの側面がある。 まず、目的関数が$ n$の個々の滑らかなコンポーネント関数の平均であるミニマックス最適化問題のより低い境界の複雑さを研究します。 我々は、個々のコンポーネントごとに勾配および近位オラクルにアクセスできる近位インクリメンタルファーストオーダー(PIFO)アルゴリズムを検討する。 古典的な例の三対角行列を$n$群に分割する逆問題を構築するための新しいアプローチを開発する。 この構成は漸進的勾配と近位オラクルの分析に好都合である。 このアプローチでは、異なる設定で$\varepsilon$-subopt imal pointと$\varepsilon$-statio nary pointを見つけるための1次アルゴリズムの下位境界を実証する。 第2に、PIFOアルゴリズムによる最小化最適化の下位境界も提案手法から導出し、その結果をcitep{woodworth2016tight} でカバーし、その結果をcitep{zhou2019lower} で改善する。

The contribution of this paper includes two aspects. First, we study the lower bound complexity for the minimax optimization problem whose objective function is the average of $n$ individual smooth component functions. We consider Proximal Incremental First-order (PIFO) algorithms which have access to gradient and proximal oracle for each individual component. We develop a novel approach for constructing adversarial problems, which partitions the tridiagonal matrix of classical examples into $n$ groups. This construction is friendly to the analysis of incremental gradient and proximal oracle. With this approach, we demonstrate the lower bounds of first-order algorithms for finding an $\varepsilon$-subopt imal point and an $\varepsilon$-statio nary point in different settings. Second, we also derive the lower bounds of minimization optimization with PIFO algorithms from our approach, which can cover the results in \citep{woodworth2016tight} and improve the results in \citep{zhou2019lower}.
翻訳日:2021-03-16 14:17:40 公開日:2021-03-15
# DSNEを用いたデータ速度の可視化

Visualizing Data Velocity using DSNE ( http://arxiv.org/abs/2103.08509v1 )

ライセンス: Link先を確認
Songting Shi(参考訳) そこで本研究では, 低次元写像点の速度埋め込みを, 高次元データ点に速度を与えて学習する手法「DSNE」を提案する。 この手法は、点の単位長速度と近傍の点から近傍までの単位長方向の間の単位球面上のユークリッド距離を用いて類似性を定義し、高次元空間と低次元空間における2種類の類似性を一致させて、低次元空間上の速度埋め込みを見つけようとする確率的近傍埋め込みのバリエーションである。 DSNEは、データポイントが高次元空間でどのように動くかを、2次元または3次元空間で示すことで視覚化するのに役立つ。 それは細胞分化および胚発生のメカニズムを理解するのに有用です。

We present a new technique called "DSNE" which learns the velocity embeddings of low dimensional map points when given the high-dimensional data points with its velocities. The technique is a variation of Stochastic Neighbor Embedding, which uses the Euclidean distance on the unit sphere between the unit-length velocity of the point and the unit-length direction from the point to its near neighbors to define similarities, and try to match the two kinds of similarities in the high dimension space and low dimension space to find the velocity embeddings on the low dimension space. DSNE can help to visualize how the data points move in the high dimension space by presenting the movements in two or three dimensions space. It is helpful for understanding the mechanism of cell differentiation and embryo development.
翻訳日:2021-03-16 14:17:21 公開日:2021-03-15
# SAR-Optical Data Fusionにおける深層学習のためのQXS-SAROPTデータセット

The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion ( http://arxiv.org/abs/2103.08259v1 )

ライセンス: Link先を確認
Meiyu Huang, Yao Xu, Lixin Qian, Weili Shi, Yaqin Zhang, Wei Bao, Nan Wang, Xuejiao Liu, Xueshuang Xiang(参考訳) 深層学習技術はリモートセンシングの分野に影響を与えている。 しかし,多彩な特徴を有する異なるリモートセンサからのマルチモーダルデータの融合は,高分解能の多彩なシーン,特に合成開口レーダ(sar)データや光学画像において,大規模に完全に整列したマルチセンサ画像データが得られていないため,十分に検討されていない。 本稿では、QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合における深層学習研究を促進する。 QXS-SAROPTは、SAR衛星GaoFen-3とGoogle Earthの光学衛星によって取得されたサンディエゴ、上海、清道の3つの港湾都市から収集された2万枚の画像パッチで構成されている。 データセットの詳細な説明に加えて、光学画像からのクロスモーダル情報によって後押しされたSAR光学画像マッチングとSAR船舶検出という2つの代表的なアプリケーションの例結果を示します。 QXS-SAROPTは、この種の高解像度の複数のシーンを持つ大規模なオープンデータセットであるため、深層学習に基づくSAR-光データ融合の分野でのさらなる発展を支援すると信じている。

Deep learning techniques have made an increasing impact on the field of remote sensing. However, deep neural networks based fusion of multimodal data from different remote sensors with heterogenous characteristics has not been fully explored, due to the lack of availability of big amounts of perfectly aligned multi-sensor image data with diverse scenes of high resolution, especially for synthetic aperture radar (SAR) data and optical imagery. In this paper, we publish the QXS-SAROPT dataset to foster deep learning research in SAR-optical data fusion. QXS-SAROPT comprises 20,000 pairs of corresponding image patches, collected from three port cities: San Diego, Shanghai and Qingdao acquired by the SAR satellite GaoFen-3 and optical satellites of Google Earth. Besides a detailed description of the dataset, we show exemplary results for two representative applications, namely SAR-optical image matching and SAR ship detection boosted by cross-modal information from optical images. Since QXS-SAROPT is a large open dataset with multiple scenes of the highest resolution of this kind, we believe it will support further developments in the field of deep learning based SAR-optical data fusion for remote sensing.
翻訳日:2021-03-16 14:16:47 公開日:2021-03-15
# CCG カテゴリの生成

Generating CCG Categories ( http://arxiv.org/abs/2103.08139v1 )

ライセンス: Link先を確認
Yufang Liu, Tao Ji, Yuanbin Wu, Man Lan(参考訳) 以前のCCGスーパータガーは、通常、多クラス分類を用いてカテゴリを予測する。 その単純さにもかかわらず、カテゴリの内部構造は通常無視される。 これらの構造内のリッチなセマンティクスは、カテゴリ間の関係をよりよく扱い、既存のスーパータガーにより堅牢性をもたらすのに役立つでしょう。 本稿では,分類ではなくカテゴリを生成することを提案する。各カテゴリはより小さなアトミックタグのシーケンスに分解され,タガーは正しいシーケンスを生成することを目指す。 このカテゴリに関する詳細なビューにより、異なるカテゴリのアノテーションを共有でき、文コンテキストとのインタラクションが強化できることを示した。 提案されたカテゴリジェネレータは、標準的なCCGBankで最先端のタグ付け(95.5%の精度)と解析(89.8%のラベル付きF1)を行うことができる。 さらに、まれな(見えない)カテゴリ、ドメイン外テキスト、低リソース言語のパフォーマンスは、一般的なCG分析に生成モデルを導入することに有望な結果をもたらします。

Previous CCG supertaggers usually predict categories using multi-class classification. Despite their simplicity, internal structures of categories are usually ignored. The rich semantics inside these structures may help us to better handle relations among categories and bring more robustness into existing supertaggers. In this work, we propose to generate categories rather than classify them: each category is decomposed into a sequence of smaller atomic tags, and the tagger aims to generate the correct sequence. We show that with this finer view on categories, annotations of different categories could be shared and interactions with sentence contexts could be enhanced. The proposed category generator is able to achieve state-of-the-art tagging (95.5% accuracy) and parsing (89.8% labeled F1) performances on the standard CCGBank. Furthermore, its performances on infrequent (even unseen) categories, out-of-domain texts and low resource language give promising results on introducing generation models to the general CCG analyses.
翻訳日:2021-03-16 14:14:55 公開日:2021-03-15
# 発達ロボットの認知的アーキテクチャ実現に向けた全脳確率遺伝モデル

Whole brain Probabilistic Generative Model toward Realizing Cognitive Architecture for Developmental Robots ( http://arxiv.org/abs/2103.08183v1 )

ライセンス: Link先を確認
Tadahiro Taniguchi, Hiroshi Yamakawa, Takayuki Nagai, Kenji Doya, Masamichi Sakagami, Masahiro Suzuki, Tomoaki Nakamura, Akira Taniguchi(参考訳) 人間のような統合型人工認知システム、すなわち人工知能を構築することは、人工知能と開発ロボティクスの目標の1つだ。 さらに、人工認知システムが認知発達を達成することを可能にする計算モデルは、脳および認知科学にとって優れた基準となる。 本稿では、確率的生成モデル(PGM)を用いて人間の認知システムを完全に反映する認知アーキテクチャの開発について述べる。 積分モデルは全脳PGM (WB-PGM) と呼ばれる。 脳に触発され、PGMベースです。 本稿では,WB-PGMの構築プロセスと人間の脳から学習して認知アーキテクチャを構築する方法について述べる。

Building a humanlike integrative artificial cognitive system, that is, an artificial general intelligence, is one of the goals in artificial intelligence and developmental robotics. Furthermore, a computational model that enables an artificial cognitive system to achieve cognitive development will be an excellent reference for brain and cognitive science. This paper describes the development of a cognitive architecture using probabilistic generative models (PGMs) to fully mirror the human cognitive system. The integrative model is called a whole-brain PGM (WB-PGM). It is both brain-inspired and PGMbased. In this paper, the process of building the WB-PGM and learning from the human brain to build cognitive architectures is described.
翻訳日:2021-03-16 14:13:40 公開日:2021-03-15
# 解釈可能な深層強化学習のための記号規則の学習

Learning Symbolic Rules for Interpretable Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08228v1 )

ライセンス: Link先を確認
Zhihao Ma, Yuzheng Zhuang, Paul Weng, Hankui Zhuo, Dong Li, Wulong Liu, Jianye Hao(参考訳) 深層強化学習(DRL)の最近の進歩は、主にニューラルネットワークの使用に起因する可能性があります。 しかし、このブラックボックスアプローチは、学習したポリシーを人間の理解可能な方法で説明できない。 この課題に対処し、透明性を向上させるために、DRLにシンボリックロジックを導入し、ニューラルシンボリック強化学習フレームワークを提案する。 このフレームワークは推論と学習モジュールの受精を特徴とし、事前に象徴的な知識を持つエンドツーエンドの学習を可能にする。 さらに、推論モジュールで学んだ論理ルールをシンボリックなルール空間に抽出することで、解釈可能性を実現する。 実験結果から,我々のフレームワークは,最先端のアプローチと比較して,より優れた解釈性を持つことがわかった。

Recent progress in deep reinforcement learning (DRL) can be largely attributed to the use of neural networks. However, this black-box approach fails to explain the learned policy in a human understandable way. To address this challenge and improve the transparency, we propose a Neural Symbolic Reinforcement Learning framework by introducing symbolic logic into DRL. This framework features a fertilization of reasoning and learning modules, enabling end-to-end learning with prior symbolic knowledge. Moreover, interpretability is achieved by extracting the logical rules learned by the reasoning module in a symbolic rule space. The experimental results show that our framework has better interpretability, along with competing performance in comparison to state-of-the-art approaches.
翻訳日:2021-03-16 14:13:30 公開日:2021-03-15
# 小型データセットを用いた画像分類学習のためのパラメトリズドロスの進化

Evolving parametrized Loss for Image Classification Learning on Small Datasets ( http://arxiv.org/abs/2103.08249v1 )

ライセンス: Link先を確認
Zhaoyang Hai, Xiabi Liu(参考訳) 本稿では,メタロスネットワーク(mln)と呼ばれるパラメータ付き損失関数を進化させ,画像分類学習を小規模データセットで学習するメタラーニング手法を提案する。 私たちのアプローチでは、MLNは微分可能な客観的関数として分類学習のフレームワークに埋め込まれています。 MLNは進化戦略アルゴリズム(ES)によって最適化された損失関数に進化し、この損失を最小限に抑えるために最適化された分類器が良好な一般化効果を達成する。 分類器は、小さなトレーニングデータセットから学習し、Stochastic Gradient Descent (SGD)でMLNを最小化し、その後、大規模な検証データセット上の小データセット更新分類器の精度でMLNを進化させる。 本手法を評価するため,MLNはFashionMNISTから採取した多数のサンプル学習タスクを訓練し,FashionMNISTとCIFAR10から採取した検証タスクを試験した。 実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。

This paper proposes a meta-learning approach to evolving a parametrized loss function, which is called Meta-Loss Network (MLN), for training the image classification learning on small datasets. In our approach, the MLN is embedded in the framework of classification learning as a differentiable objective function. The MLN is evolved with the Evolutionary Strategy algorithm (ES) to an optimized loss function, such that a classifier, which optimized to minimize this loss, will achieve a good generalization effect. A classifier learns on a small training dataset to minimize MLN with Stochastic Gradient Descent (SGD), and then the MLN is evolved with the precision of the small-dataset-update d classifier on a large validation dataset. In order to evaluate our approach, the MLN is trained with a large number of small sample learning tasks sampled from FashionMNIST and tested on validation tasks sampled from FashionMNIST and CIFAR10. Experiment results demonstrate that the MLN effectively improved generalization compared to classical cross-entropy error and mean squared error.
翻訳日:2021-03-16 14:13:20 公開日:2021-03-15
# 2段階自然言語ビデオローカライズのための境界提案ネットワーク

Boundary Proposal Network for Two-Stage Natural Language Video Localization ( http://arxiv.org/abs/2103.08109v1 )

ライセンス: Link先を確認
Shaoning Xiao, Long Chen, Songyang Zhang, Wei Ji, Jian Shao, Lu Ye, Jun Xiao(参考訳) 自然言語ビデオローカライズ(nlvl)の問題に対処し,自然言語記述に対応する映像セグメントを長大で難解なビデオにローカライズすることを目的とする。 State-of-the-art NLVL法はほぼ1段階の手法であり、典型的には2つのカテゴリに分類される: 1) アンカーベースアプローチ: まず一連のビデオセグメント候補(例えば、スライドウィンドウ)を事前に定義し、次に各候補を分類する; 2) アンカーフリーアプローチ: 各ビデオフレームの確率を直接、正のセグメント内の境界または中間フレームとして予測する。 しかし、両方のタイプのワンステージアプローチには固有の欠点があります。アンカーベースのアプローチは、ヒューリスティックルールの影響を受けやすく、可変長のビデオの処理能力をさらに制限します。 アンカーフリーアプローチはセグメントレベルの相互作用をうまく利用できないため、結果が劣る。 本稿では,上述の問題を解消する普遍的な二段階フレームワークである境界提案ネットワーク(bpnet)を提案する。 特に第1段階では,BPNetはアンカーフリーなモデルを用いて,高品質なビデオセグメントを境界付きで生成する。 第2段階では、候補と言語クエリ間のマルチモーダルな相互作用を共同でモデル化する視覚言語融合層が提案され、次いで各候補に対するアライメントスコアを出力するマッチングスコア評価層が提案される。 BPNetを3つの挑戦的NLVLベンチマーク(Charades-STA,TACoS, ActivityNet-Captions )で評価した。 これらのデータセットに関する広範な実験とアブレーション研究は、BPNetが最先端の方法よりも優れていることを実証している。

We aim to address the problem of Natural Language Video Localization (NLVL)-localizing the video segment corresponding to a natural language description in a long and untrimmed video. State-of-the-art NLVL methods are almost in one-stage fashion, which can be typically grouped into two categories: 1) anchor-based approach: it first pre-defines a series of video segment candidates (e.g., by sliding window), and then does classification for each candidate; 2) anchor-free approach: it directly predicts the probabilities for each video frame as a boundary or intermediate frame inside the positive segment. However, both kinds of one-stage approaches have inherent drawbacks: the anchor-based approach is susceptible to the heuristic rules, further limiting the capability of handling videos with variant length. While the anchor-free approach fails to exploit the segment-level interaction thus achieving inferior results. In this paper, we propose a novel Boundary Proposal Network (BPNet), a universal two-stage framework that gets rid of the issues mentioned above. Specifically, in the first stage, BPNet utilizes an anchor-free model to generate a group of high-quality candidate video segments with their boundaries. In the second stage, a visual-language fusion layer is proposed to jointly model the multi-modal interaction between the candidate and the language query, followed by a matching score rating layer that outputs the alignment score for each candidate. We evaluate our BPNet on three challenging NLVL benchmarks (i.e., Charades-STA, TACoS and ActivityNet-Captions ). Extensive experiments and ablative studies on these datasets demonstrate that the BPNet outperforms the state-of-the-art methods.
翻訳日:2021-03-16 14:08:36 公開日:2021-03-15
# 顔表現マニピュレーションの検出と局在化

Detection and Localization of Facial Expression Manipulations ( http://arxiv.org/abs/2103.08134v1 )

ライセンス: Link先を確認
Ghazal Mazaheri, Amit K. Roy-Chowdhury(参考訳) ソーシャルメディアでの不正画像/ビデオの広範な使用に関する懸念は、そのような詐欺の正確な検出を必要とします。 コミュニケーションにおける表情の重要性は広く知られており、敵対的攻撃はしばしば表情に関連する特徴を操作することに焦点を当てている。 したがって、表情の操作を検知し、操作領域を局所化する手法を開発することが重要である。 この問題に対処するために,表情認識と画像操作の密接な組み合わせを用いて,表情の操作を検出できるフレームワークを提案する。 顔認識フレームワークから抽出された特徴マップの追加により、操作された領域を局在化することができます。 表現操作が豊富であるFace2Faceデータセットでは,操作の分類と局所化の精度が,最先端の手法と比較して3%以上向上していることを示す。 さらに、口領域に対応する表情が変更されたNeuralTexturesデータセットの結果は、操作の分類と局在の両方において2%高い精度を示しています。 本手法は,表現が操作されない場合には最先端の手法と同等に動作し,同一性が変更され,そのアプローチの一般化性が保証されることを示す。

Concern regarding the wide-spread use of fraudulent images/videos in social media necessitates precise detection of such fraud. The importance of facial expressions in communication is widely known, and adversarial attacks often focus on manipulating the expression related features. Thus, it is important to develop methods that can detect manipulations in facial expressions, and localize the manipulated regions. To address this problem, we propose a framework that is able to detect manipulations in facial expression using a close combination of facial expression recognition and image manipulation methods. With the addition of feature maps extracted from the facial expression recognition framework, our manipulation detector is able to localize the manipulated region. We show that, on the Face2Face dataset, where there is abundant expression manipulation, our method achieves over 3% higher accuracy for both classification and localization of manipulations compared to state-of-the-art methods. In addition, results on the NeuralTextures dataset where the facial expressions corresponding to the mouth regions have been modified, show 2% higher accuracy in both classification and localization of manipulation. We demonstrate that the method performs at-par with the state-of-the-art methods in cases where the expression is not manipulated, but rather the identity is changed, thus ensuring generalizability of the approach.
翻訳日:2021-03-16 14:08:06 公開日:2021-03-15
# LARNet:プロフィール顔認識のためのLie Algebra残存ネットワーク

LARNet: Lie Algebra Residual Network for Profile Face Recognition ( http://arxiv.org/abs/2103.08147v1 )

ライセンス: Link先を確認
Xiaolong Yang(参考訳) プロファイルと前面の顔に大きな変化があるため、プロファイルベースの顔認識は、多くの実用的なビジョンシナリオで大きな課題として残っています。 従来の手法では、正面顔の合成やポーズ不変学習によってこの問題に対処している。 本稿では,3次元空間における顔の回転が畳み込みニューラルネットワーク(CNN)の深い特徴生成過程にどのように影響するかを,リー代数理論を用いた新しい手法を提案する。 画像空間における顔の回転は、回転によってのみ決定されるCNNの特徴空間における付加残留成分と等価であることが証明される。 この理論的発見に基づいて、プロファイルに基づく顔認識に対処するためのLie代数残差ネットワーク(LARNet)をさらに設計する。 ラーネットは、入力された顔画像から回転情報を復号する残差サブネットと、特徴学習プロセスに寄与する残差成分の数を制御する回転大きさを学習するゲーティングサブネットとからなる。 正面顔データセットと一般顔認識データセットに関する総合的な実験的評価は、我々の手法が常に最先端の手法より優れていることを示す。

Due to large variations between profile and frontal faces, profile-based face recognition remains as a tremendous challenge in many practical vision scenarios. Traditional techniques address this challenge either by synthesizing frontal faces or by pose-invariants learning. In this paper, we propose a novel method with Lie algebra theory to explore how face rotation in the 3D space affects the deep feature generation process of convolutional neural networks (CNNs). We prove that face rotation in the image space is equivalent to an additive residual component in the feature space of CNNs, which is determined solely by the rotation. Based on this theoretical finding, we further design a Lie algebraic residual network (LARNet) for tackling profile-based face recognition. Our LARNet consists of a residual subnet for decoding rotation information from input face images, and a gating subnet to learn rotation magnitude for controlling the number of residual components contributing to the feature learning process. Comprehensive experimental evaluations on frontal-profile face datasets and general face recognition datasets demonstrate that our method consistently outperforms the state-of-the-arts.
翻訳日:2021-03-16 14:07:45 公開日:2021-03-15
# 3DCaricShop:シングルビュー3次元顔再構成のためのデータセットとベースライン法

3DCaricShop: A Dataset and A Baseline Method for Single-view 3D Caricature Face Reconstruction ( http://arxiv.org/abs/2103.08204v1 )

ライセンス: Link先を確認
Yuda Qiu, Xiaojie Xu, Lingteng Qiu, Yan Pan, Yushuang Wu, Weikai Chen, Xiaoguang Han(参考訳) Caricatureは、意図的に人間の顔の特徴を誇張してユーモアやサーカスムを伝える芸術的表現です。 しかし、2D画像から3D画像の再構成は、主にデータ不足のため、依然として困難な課題である。 3DCaricShopは,プロのアーティストが手作業で作成する2000種類の高品質な3Dキャラクチュアを含む,最初の大規模3Dキャラクチュアデータセットである。 3DCaricShopはまた、ペアの2Dマニキュア画像、カメラパラメータ、3D顔のランドマークを含む豊富なアノテーションを提供します。 3dcaricshopの利点を示すために,single-view 3d caricature reconstructionのための新しいベースラインアプローチを提案する。 顔の変形が妥当な忠実な再構築を実現するために,詳細な暗黙関数とパラメトリックメッシュ表現のよい端をつなぐことを提案する。 特に,まず暗黙発生器の出力にテンプレートメッシュを登録し,事前学習したPCA空間に登録結果を反復的に投影し,人工物や自己切断を解消する。 非リギッド登録時の大きな変形に対処するために,暗黙のメッシュからキーポイントを抽出して正確なアライメントを行う新しいビューコラボレーティブグラフ畳み込みネットワーク(vcgcn)を提案する。 本手法は,アニメーション対応のメッシュトポロジで高忠実度3D画像を生成することができる。 データベースの意義と提案手法の有効性を検証するため, 3DCaricShopで大規模な実験を行った。

Caricature is an artistic representation that deliberately exaggerates the distinctive features of a human face to convey humor or sarcasm. However, reconstructing a 3D caricature from a 2D caricature image remains a challenging task, mostly due to the lack of data. We propose to fill this gap by introducing 3DCaricShop, the first large-scale 3D caricature dataset that contains 2000 high-quality diversified 3D caricatures manually crafted by professional artists. 3DCaricShop also provides rich annotations including a paired 2D caricature image, camera parameters and 3D facial landmarks. To demonstrate the advantage of 3DCaricShop, we present a novel baseline approach for single-view 3D caricature reconstruction. To ensure a faithful reconstruction with plausible face deformations, we propose to connect the good ends of the detailrich implicit functions and the parametric mesh representations. In particular, we first register a template mesh to the output of the implicit generator and iteratively project the registration result onto a pre-trained PCA space to resolve artifacts and self-intersections. To deal with the large deformation during non-rigid registration, we propose a novel view-collaborative graph convolution network (VCGCN) to extract key points from the implicit mesh for accurate alignment. Our method is able to generate highfidelity 3D caricature in a pre-defined mesh topology that is animation-ready. Extensive experiments have been conducted on 3DCaricShop to verify the significance of the database and the effectiveness of the proposed method.
翻訳日:2021-03-16 14:07:28 公開日:2021-03-15
# 合成学習による物体間相互作用の検出

Detecting Human-Object Interaction via Fabricated Compositional Learning ( http://arxiv.org/abs/2103.08214v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng, Dacheng Tao(参考訳) 画像やビデオから人間と物体の関係を推定するHuman-Object Interaction (HOI) 検出は、高レベルのシーン理解の基本的な課題である。 しかし、HOI検出は通常、オブジェクトとの相互作用の開いた長い尾の性質に苦しむ一方、人間はまれまたは見えないHOIサンプルを認識する非常に強力な組成知覚能力を有する。 これから着想を得て、オープン長尾HOI検出の問題に対処するために、製造構成学習(Fabricated Compositional Learning、FCL)と呼ばれる新しいHOI構成学習フレームワークを考案しました。 具体的には,効果的なオブジェクト表現を生成し,動詞と合成オブジェクトを組み合わせて新しいhoiサンプルを生成するオブジェクト作成器を提案する。 提案するオブジェクトファブリケータにより,比較的希少なカテゴリを対象とした大規模HOIサンプルを作成でき,HOI検出における長期化問題を緩和できる。 最も一般的なHOI検出データセットであるHICO-DETの大規模な実験は、不均衡なHOI検出のための提案手法の有効性を実証し、希少かつ未確認のHOIカテゴリにおける最先端性能を著しく改善した。 コードはhttps://github.com/z hihou7/FCLで入手できる。

Human-Object Interaction (HOI) detection, inferring the relationships between human and objects from images/videos, is a fundamental task for high-level scene understanding. However, HOI detection usually suffers from the open long-tailed nature of interactions with objects, while human has extremely powerful compositional perception ability to cognize rare or unseen HOI samples. Inspired by this, we devise a novel HOI compositional learning framework, termed as Fabricated Compositional Learning (FCL), to address the problem of open long-tailed HOI detection. Specifically, we introduce an object fabricator to generate effective object representations, and then combine verbs and fabricated objects to compose new HOI samples. With the proposed object fabricator, we are able to generate large-scale HOI samples for rare and unseen categories to alleviate the open long-tailed issues in HOI detection. Extensive experiments on the most popular HOI detection dataset, HICO-DET, demonstrate the effectiveness of the proposed method for imbalanced HOI detection and significantly improve the state-of-the-art performance on rare and unseen HOI categories. Code is available at https://github.com/z hihou7/FCL.
翻訳日:2021-03-16 14:06:59 公開日:2021-03-15
# ニューラルネットワークによる4次元キャプチャの合成表現の学習

Learning Compositional Representation for 4D Captures with Neural ODE ( http://arxiv.org/abs/2103.08271v1 )

ライセンス: Link先を確認
Boyan Jiang, Yinda Zhang, Xingkui Wei, Xiangyang Xue, Yanwei Fu(参考訳) 学習に基づく表現は多くのコンピュータビジョンシステムの成功の鍵となっている。 多くの3D表現が提案されているが、動的に変化する3Dオブジェクトを表現する方法は未解決の問題である。 本稿では,4Dキャプチャの構成表現について述べる。 時間的スパン上の変形する3Dオブジェクトで、それぞれ形状、初期状態、動きを歪めます。 各コンポーネントは、トレーニングされたエンコーダを介して潜在コードで表現される。 動作をモデル化するために、学習された動作コードに条件付けられた初期状態を更新するためにニューラル正規微分方程式(ODE)を訓練し、デコーダは形状コードと更新されたポーズコードを取り、各スタンプで4Dキャプチャを再構成する。 この目的のために、ネットワークが各コンポーネントを効果的に分離することを促すIET(Identity Exchange Training)戦略を提案する。 広範な実験により,提案手法は4次元再構成における既存の最先端の深層学習手法を上回り,運動伝達や完了など,さまざまなタスクにおいて有意に改善することを実証した。

Learning based representation has become the key to the success of many computer vision systems. While many 3D representations have been proposed, it is still an unaddressed problem for how to represent a dynamically changing 3D object. In this paper, we introduce a compositional representation for 4D captures, i.e. a deforming 3D object over a temporal span, that disentangles shape, initial state, and motion respectively. Each component is represented by a latent code via a trained encoder. To model the motion, a neural Ordinary Differential Equation (ODE) is trained to update the initial state conditioned on the learned motion code, and a decoder takes the shape code and the updated pose code to reconstruct 4D captures at each time stamp. To this end, we propose an Identity Exchange Training (IET) strategy to encourage the network to learn effectively decoupling each component. Extensive experiments demonstrate that the proposed method outperforms existing state-of-the-art deep learning based methods on 4D reconstruction, and significantly improves on various tasks, including motion transfer and completion.
翻訳日:2021-03-16 14:06:37 公開日:2021-03-15
# 自己教育による自己精錬:自己知識蒸留による特徴精錬

Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge Distillation ( http://arxiv.org/abs/2103.08273v1 )

ライセンス: Link先を確認
Mingi Ji, Seungjae Shin, Seunghyun Hwang, Gibeom Park, Il-Chul Moon(参考訳) 知識蒸留は、事前訓練された複雑な教師モデルから学生モデルに知識を伝達する方法であり、より小さなネットワークは、展開段階で大きな教師ネットワークを置き換えることができる。 大規模な教師モデルの訓練の必要性を減らすために、最近の文献では、事前訓練された教師ネットワークなしで独自の知識を蒸留するために学生ネットワークを段階的に訓練する自己知識蒸留を導入しました。 自己認識蒸留は、主にデータ拡張に基づくアプローチと補助ネットワークベースのアプローチに分けられるが、データ拡張アプローチは、その局所的な情報を拡張プロセスでゆるめ、セマンティックセグメンテーションのような多様な視覚タスクへの適用を妨げている。 さらに、これらの知識蒸留アプローチは、オブジェクト検出やセマンティクスセグメンテーションコミュニティで広く使われている洗練された特徴マップを受け付けていない。 本稿では, 補助的な自己学習者ネットワークを用いて, 分類器ネットワークの洗練された知識を伝達する, 自己学習蒸留法, 自己学習蒸留法(FRSKD)を提案する。 提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。 したがって、FRSKDは、ローカル情報を保存することを強調する分類やセマンティックセグメンテーションに適用することができる。 様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。 実装されたコードはhttps://github.com/M ingiJi/FRSKDで入手できる。

Knowledge distillation is a method of transferring the knowledge from a pretrained complex teacher model to a student model, so a smaller network can replace a large teacher network at the deployment stage. To reduce the necessity of training a large teacher model, the recent literatures introduced a self-knowledge distillation, which trains a student network progressively to distill its own knowledge without a pretrained teacher network. While Self-knowledge distillation is largely divided into a data augmentation based approach and an auxiliary network based approach, the data augmentation approach looses its local information in the augmentation process, which hinders its applicability to diverse vision tasks, such as semantic segmentation. Moreover, these knowledge distillation approaches do not receive the refined feature maps, which are prevalent in the object detection and semantic segmentation community. This paper proposes a novel self-knowledge distillation method, Feature Refinement via Self-Knowledge Distillation (FRSKD), which utilizes an auxiliary self-teacher network to transfer a refined knowledge for the classifier network. Our proposed method, FRSKD, can utilize both soft label and feature-map distillations for the self-knowledge distillation. Therefore, FRSKD can be applied to classification, and semantic segmentation, which emphasize preserving the local information. We demonstrate the effectiveness of FRSKD by enumerating its performance improvements in diverse tasks and benchmark datasets. The implemented code is available at https://github.com/M ingiJi/FRSKD.
翻訳日:2021-03-16 14:06:19 公開日:2021-03-15
# 回転座標の高速なグローバル最適回転平均化

Rotation Coordinate Descent for Fast Globally Optimal Rotation Averaging ( http://arxiv.org/abs/2103.08292v1 )

ライセンス: Link先を確認
\'Alvaro Parra, Shin-Fang Chng, Tat-Jun Chin, Anders Eriksson, Ian Reid(参考訳) 測定の騒音レベルの穏やかな条件下では、回転平均は強い双対性を満たし、半定プログラミング(SDP)リラクゼーションによってグローバルなソリューションを得ることができます。 しかし、SDPの一般的な解法は、適度な大きさの回転平均化の場合でさえ、実際にはかなり遅いため、特殊化アルゴリズムの開発は不可欠である。 本稿では,回転座標降下 (RCD) と呼ばれる大域的最適性を実現する高速アルゴリズムを提案する。 半定値行列を行ごと更新することでSDPを解くブロック座標降下(BCD)とは異なり、RCDは繰り返しを通して全ての有効な回転を直接維持・更新する。 これにより、大きな密度の半定義行列を格納する必要がなくなる。 アルゴリズムの収束を数学的に証明し、様々な問題構成に関する最先端のグローバル手法よりも優れた効率を実証的に示す。 有効な回転を維持することで、さらなるスピードアップのためにローカル最適化ルーチンを組み込むことができます。 さらに,本アルゴリズムは実装が容易であり,デモプログラムの補足資料も参照する。

Under mild conditions on the noise level of the measurements, rotation averaging satisfies strong duality, which enables global solutions to be obtained via semidefinite programming (SDP) relaxation. However, generic solvers for SDP are rather slow in practice, even on rotation averaging instances of moderate size, thus developing specialised algorithms is vital. In this paper, we present a fast algorithm that achieves global optimality called rotation coordinate descent (RCD). Unlike block coordinate descent (BCD) which solves SDP by updating the semidefinite matrix in a row-by-row fashion, RCD directly maintains and updates all valid rotations throughout the iterations. This obviates the need to store a large dense semidefinite matrix. We mathematically prove the convergence of our algorithm and empirically show its superior efficiency over state-of-the-art global methods on a variety of problem configurations. Maintaining valid rotations also facilitates incorporating local optimisation routines for further speed-ups. Moreover, our algorithm is simple to implement; see supplementary material for a demonstration program.
翻訳日:2021-03-16 14:05:54 公開日:2021-03-15
# 3D-FFS:センサフュージョンネットワークにおけるフォーカスフラストラムサーチによる高速3次元物体検出

3D-FFS: Faster 3D object detection with Focused Frustum Search in sensor fusion based networks ( http://arxiv.org/abs/2103.08294v1 )

ライセンス: Link先を確認
Aniruddha Ganguly, Tasin Ishmam, Khandker Aftarul Islam, Md Zahidur Rahman and Md. Shamsuzzoha Bayzid(参考訳) 本研究では,センサフュージョンに基づく3Dオブジェクト検出ネットワークを,計算コストの低いヒューリスティックスを用いて大幅に高速化する手法である3D-FFSを提案する。 既存のセンサフュージョンベースネットワークは、2Dオブジェクト検出器からの推論を利用して3D領域の提案を生成する。 しかし、画像に深度情報がないため、これらのネットワークはシーン全体からポイントのセマンティックな特徴を抽出してオブジェクトを見つける。 集約した固有の特性(例えば)を活用することで 3Dポイントクラウドデータの3D−FFSは、3D検索空間を著しく制約し、精度を犠牲にすることなく、トレーニング時間、推論時間、メモリ消費を著しく低減することができる。 3D-FFSの有効性を実証するため、Frustum ConvNet(F-ConvNet)と統合しました。 KITTIデータセットにおける3D-FFSの性能を評価する。 F-ConvNetと比較して62.84%、56.46%のトレーニングと推論時間の改善を実現し、メモリ使用量を58.53%削減しました。 さらに, 自動車, 歩行者, 自転車の精度が0.59%, 2.03%, 3.34%向上した。 3D-FFSは、LiDAR-Cameraベースのセンサー融合認識システムが広く使用されている自動運転車、ドローン、ロボットなど、限られた計算能力を持つ領域で多くの約束を示しています。

In this work we propose 3D-FFS, a novel approach to make sensor fusion based 3D object detection networks significantly faster using a class of computationally inexpensive heuristics. Existing sensor fusion based networks generate 3D region proposals by leveraging inferences from 2D object detectors. However, as images have no depth information, these networks rely on extracting semantic features of points from the entire scene to locate the object. By leveraging aggregated intrinsic properties (e.g. point density) of the 3D point cloud data, 3D-FFS can substantially constrain the 3D search space and thereby significantly reduce training time, inference time and memory consumption without sacrificing accuracy. To demonstrate the efficacy of 3D-FFS, we have integrated it with Frustum ConvNet (F-ConvNet), a prominent sensor fusion based 3D object detection model. We assess the performance of 3D-FFS on the KITTI dataset. Compared to F-ConvNet, we achieve improvements in training and inference times by up to 62.84% and 56.46%, respectively, while reducing the memory usage by up to 58.53%. Additionally, we achieve 0.59%, 2.03% and 3.34% improvements in accuracy for the Car, Pedestrian and Cyclist classes, respectively. 3D-FFS shows a lot of promise in domains with limited computing power, such as autonomous vehicles, drones and robotics where LiDAR-Camera based sensor fusion perception systems are widely used.
翻訳日:2021-03-16 14:05:38 公開日:2021-03-15
# 抗圧縮顔面フォジェリー検出のためのメトリラーニング

Metric Learning for Anti-Compression Facial Forgery Detection ( http://arxiv.org/abs/2103.08397v1 )

ライセンス: Link先を確認
Shenhao Cao and Qin Zou and Xiuqing Mao and Zhongyuan Wang(参考訳) 顔の偽造画像やビデオを検出することは、マルチメディアフォレンジックにおいてますます重要なトピックです。 偽造画像や動画は通常、jpegやh264などの異なるフォーマットに圧縮されるため、未圧縮データで訓練された既存の偽造検出手法は、それらの識別性能を著しく低下させる。 そこで本研究では,オリジナル版と圧縮版の両方を用いた圧縮非感受性埋め込み特徴空間を学習する,新しいアンチ圧縮顔偽造検出フレームワークを提案する。 具体的には, (i) 敵対的学習戦略を用いて非圧縮・圧縮フォジェリーから圧縮非感受性な特徴を抽出すること, (ii) 組込み空間における組込み原像と圧縮画像の距離を小さくする指標損失を構築することによって, 堅牢な分割を学習することである。 実験の結果, 提案手法は, 圧縮顔と非圧縮顔の偽画像の両方を扱うのに極めて有効であることがわかった。

Detecting facial forgery images and videos is an increasingly important topic in multimedia forensics. As forgery images and videos are usually compressed to different formats such as JPEG and H264 when circulating on the Internet, existing forgery-detection methods trained on uncompressed data often have significantly decreased performance in identifying them. To solve this problem, we propose a novel anti-compression facial forgery detection framework, which learns a compression-insensit ive embedding feature space utilizing both original and compressed forgeries. Specifically, our approach consists of two novel ideas: (i) extracting compression-insensit ive features from both uncompressed and compressed forgeries using an adversarial learning strategy; (ii) learning a robust partition by constructing a metric loss that can reduce the distance of the paired original and compressed images in the embedding space. Experimental results demonstrate that, the proposed method is highly effective in handling both compressed and uncompressed facial forgery images.
翻訳日:2021-03-16 14:05:13 公開日:2021-03-15
# S-AT GCN:空間アテンショングラフ畳み込みネットワークによる3次元物体検出機能強化

S-AT GCN: Spatial-Attention Graph Convolution Network based Feature Enhancement for 3D Object Detection ( http://arxiv.org/abs/2103.08439v1 )

ライセンス: Link先を確認
Li Wang, Chenfei Wang, Xinyu Zhang, Tianwei Lan, Jun Li(参考訳) 3dオブジェクト検出は、意思決定と制御の前提となる自動運転車の環境認識において重要な役割を果たす。 本稿では分割法固有の欠点を解析する。 パーティション操作では、歩行者のような単一のインスタンスを複数の部分にスライスし、それをパーティション効果と呼びます。 本稿では,空間アテンショングラフ変換(S-AT GCN)を提案し,その欠点を克服するために特徴拡張(FE)層を形成する。 s-at gcnはグラフ畳み込みと空間注意機構を利用して局所幾何学的構造特徴を抽出する。 これにより、ネットワークはフォアグラウンドでより有意義な機能を持つことができる。 KITTIの3Dオブジェクトと鳥の目視検出実験により,S-AT ConvおよびFE層は特に小物体に対して有効であることが判明した。 FE層は歩行者クラスのパフォーマンスを3.62\%、サイクリストクラスを4.21\% 3D mAP向上させる。 これらの余分なfe層の時間コストは限られている。 FE層のPointPillarsは48 PFSを達成し、リアルタイムの要件を満たすことができます。

3D object detection plays a crucial role in environmental perception for autonomous vehicles, which is the prerequisite of decision and control. This paper analyses partition-based methods' inherent drawbacks. In the partition operation, a single instance such as a pedestrian is sliced into several pieces, which we call it the partition effect. We propose the Spatial-Attention Graph Convolution (S-AT GCN), forming the Feature Enhancement (FE) layers to overcome this drawback. The S-AT GCN utilizes the graph convolution and the spatial attention mechanism to extract local geometrical structure features. This allows the network to have more meaningful features for the foreground. Our experiments on the KITTI 3D object and bird's eye view detection show that S-AT Conv and FE layers are effective, especially for small objects. FE layers boost the pedestrian class performance by 3.62\% and cyclist class by 4.21\% 3D mAP. The time cost of these extra FE layers are limited. PointPillars with FE layers can achieve 48 PFS, satisfying the real-time requirement.
翻訳日:2021-03-16 14:04:53 公開日:2021-03-15
# 医学画像分割のための領域適応に向けた自己ペースコントラスト学習のマージン

Margin Preserving Self-paced Contrastive Learning Towards Domain Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2103.08454v1 )

ライセンス: Link先を確認
Zhizhe Liu, Zhenfeng Zhu, Shuai Zheng, Yang Liu, Jiayu Zhou and Yao Zhao(参考訳) 教師なしドメイン適応(UDA)におけるソースとターゲットドメインのギャップを埋めるために、最も一般的な戦略は、敵対的学習を通じて特徴空間の限界分布のマッチングに焦点を当てる。 しかし、そのようなカテゴリーに依存しないグローバルアライメントは、クラスレベルのジョイント分布を活用できないため、アライメント分布の識別性が低下する。 そこで本論文では,クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習(MPSCL)モデルを保存する新しいマージンを提案する。 コントラスト学習におけるコントラストペアの従来の構成とは異なり、ドメイン適応カテゴリのプロトタイプは正と負のサンプルペアを構成するために利用される。 プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。 コントラスト学習の監督を強化するために、より情報性の高い擬似ラベルを自己ペースでターゲットドメインに生成し、UDAのカテゴリ認識分布アライメントの恩恵を受ける。 さらに、ドメイン不変表現は2つのドメイン間の共同コントラスト学習によって学習される。 クロスモーダル心セグメンテーションタスクの広範囲な実験により、MPSCLは意味セグメンテーション性能を著しく改善し、様々な最先端手法を大きなマージンで上回ることを示した。

To bridge the gap between the source and target domains in unsupervised domain adaptation (UDA), the most common strategy puts focus on matching the marginal distributions in the feature space through adversarial learning. However, such category-agnostic global alignment lacks of exploiting the class-level joint distributions, causing the aligned distribution less discriminative. To address this issue, we propose in this paper a novel margin preserving self-paced contrastive Learning (MPSCL) model for cross-modal medical image segmentation. Unlike the conventional construction of contrastive pairs in contrastive learning, the domain-adaptive category prototypes are utilized to constitute the positive and negative sample pairs. With the guidance of progressively refined semantic prototypes, a novel margin preserving contrastive loss is proposed to boost the discriminability of embedded representation space. To enhance the supervision for contrastive learning, more informative pseudo-labels are generated in target domain in a self-paced way, thus benefiting the category-aware distribution alignment for UDA. Furthermore, the domain-invariant representations are learned through joint contrastive learning between the two domains. Extensive experiments on cross-modal cardiac segmentation tasks demonstrate that MPSCL significantly improves semantic segmentation performance, and outperforms a wide variety of state-of-the-art methods by a large margin.
翻訳日:2021-03-16 14:04:37 公開日:2021-03-15
# 大型内燃機関の非破壊摩耗評価のための機械学習

Machine Learning for Nondestructive Wear Assessment in Large Internal Combustion Engines ( http://arxiv.org/abs/2103.08482v1 )

ライセンス: Link先を確認
Christoph Angermann, Steinbj\"orn J\'onsson, Markus Haltmeier, Ad\'ela Moravov\'a, Christian Laubichler, Constantin Kiesling, Martin Kober, Wolfgang Fimml(参考訳) デジタル化は、コンディション監視やコンディションベースのメンテナンスなど、大規模な内燃機関に多くの有望なツールを提供する。 これには、ピストンに対する動きにより内面が一定の摩耗を受けるシリンダーライナーなどの主要なエンジンコンポーネントの状態評価が含まれます。 現行の摩耗定量法では, 測定したライナーの分解・切断, および耐力荷重曲線(アボット・ファイアストーン曲線)に基づいて摩耗を定量的に評価する高分解能表面深さ測定が必要となる。 このような参照方法は破壊的であり、時間がかかり、コストがかかる。 本研究の目的は, よりシンプルで非破壊的で信頼性が高く, 有意義な摩耗状態の評価方法を開発することである。 単純なハンドヘルドデバイスで収集可能なライナー表面の反射RGB画像から表面表現軸受荷重曲線を計算できるディープラーニングフレームワークを提案し、調査されたライナーを削除して破壊する必要がない。 この目的のために、畳み込みニューラルネットワークを訓練し、対応する深さプロファイルの軸受荷重曲線を推定し、さらに摩耗評価に使用することができます。 ネットワークのトレーニングは、大型ガスエンジンのライナー面の深度プロファイルと反射像を含むカスタム構築のデータベースを用いて行われる。 提案手法の結果は, 確率的距離指標と, 地中真理とモデル予測の粗さ指標の比較から, 視覚的に検討し, 定量化した。 提案手法の成功は,エンジンおよびサービスを直接現場で定量的な摩耗評価を行う大きな可能性を示唆している。

Digitalization offers a large number of promising tools for large internal combustion engines such as condition monitoring or condition-based maintenance. This includes the status evaluation of key engine components such as cylinder liners, whose inner surfaces are subject to constant wear due to their movement relative to the pistons. Existing state-of-the-art methods for quantifying wear require disassembly and cutting of the examined liner followed by a high-resolution microscopic surface depth measurement that quantitatively evaluates wear based on bearing load curves (also known as Abbott-Firestone curves). Such reference methods are destructive, time-consuming and costly. The goal of the research presented here is to develop simpler and nondestructive yet reliable and meaningful methods for evaluating wear condition. A deep-learning framework is proposed that allows computation of the surface-representing bearing load curves from reflection RGB images of the liner surface that can be collected with a simple handheld device, without the need to remove and destroy the investigated liner. For this purpose, a convolutional neural network is trained to estimate the bearing load curve of the corresponding depth profile, which in turn can be used for further wear evaluation. Training of the network is performed using a custom-built database containing depth profiles and reflection images of liner surfaces of large gas engines. The results of the proposed method are visually examined and quantified considering several probabilistic distance metrics and comparison of roughness indicators between ground truth and model predictions. The observed success of the proposed method suggests its great potential for quantitative wear assessment on engines and service directly on site.
翻訳日:2021-03-16 14:04:13 公開日:2021-03-15
# 識別訓練された分類器のフィードフォワード反転による不変性理解

Understanding invariance via feedforward inversion of discriminatively trained classifiers ( http://arxiv.org/abs/2103.07470v1 )

ライセンス: Link先を確認
Piotr Teterwak, Chiyuan Zhang, Dilip Krishnan, Michael C. Mozer(参考訳) 判別訓練されたニューラルネットワーク分類器は、クラスメンバシップ以外の入力に関する情報が出力層の前に破棄された場合に最適な性能を達成する。 驚くべきことに、過去の研究で、出力ログに余計な視覚的詳細が残っていることが判明した。 この発見は、深い埋め込みを画像にマッピングする反転技術に基づいている。 ロジットの反転は、コヒーレントで自然なイメージや認識可能なオブジェクトクラスをほとんど生成しないが、視覚的な詳細を復元する。 我々はこの現象を新しい手法の合成によりさらに探求し、過去の手法よりも質的に優れている極めて高い忠実度を再現するフィードフォワード逆転モデルを導出する。 逆向きに頑健な分類器モデルに適用した場合、再構成には、元の画像と簡単に混同されるような十分な局所的詳細と大域的構造が含まれており、その復元から対象カテゴリーを明確に把握することができる。 私たちのアプローチはBigGAN(Brock, 2019)をベースにしています。 モデルアーキテクチャとトレーニング目標(特にロバストな損失)の影響、ネットワークが達成する不分散の形式、正しく分類された画像と不正確な分類画像の表現の違い、ロジットとイメージを操作することの影響など、表現の性質を探索するためのツールとして、再構成モデルを使用します。 我々は,ニューラルネットにおける情報フローの性質に関する今後の研究を刺激し,識別モデルを改善するための診断を行うことができると考えている。

A discriminatively trained neural net classifier achieves optimal performance if all information about its input other than class membership has been discarded prior to the output layer. Surprisingly, past research has discovered that some extraneous visual detail remains in the output logits. This finding is based on inversion techniques that map deep embeddings back to images. Although the logit inversions seldom produce coherent, natural images or recognizable object classes, they do recover some visual detail. We explore this phenomenon further using a novel synthesis of methods, yielding a feedforward inversion model that produces remarkably high fidelity reconstructions, qualitatively superior to those of past efforts. When applied to an adversarially robust classifier model, the reconstructions contain sufficient local detail and global structure that they might be confused with the original image in a quick glance, and the object category can clearly be gleaned from the reconstruction. Our approach is based on BigGAN (Brock, 2019), with conditioning on logits instead of one-hot class labels. We use our reconstruction model as a tool for exploring the nature of representations, including: the influence of model architecture and training objectives (specifically robust losses), the forms of invariance that networks achieve, representational differences between correctly and incorrectly classified images, and the effects of manipulating logits and images. We believe that our method can inspire future investigations into the nature of information flow in a neural net and can provide diagnostics for improving discriminative models.
翻訳日:2021-03-16 14:03:36 公開日:2021-03-15
# 相互情報状態固有の制御

Mutual Information State Intrinsic Control ( http://arxiv.org/abs/2103.08107v1 )

ライセンス: Link先を確認
Rui Zhao, Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu(参考訳) 強化学習は多くの困難なタスクで非常に成功したことが示されている。 しかし、成功は見事な報酬に大きく依存している。 本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。 心理学における自己意識の概念に動機づけられ、エージェントが自身を構成するものを知っていると仮定し、エージェントが環境を最大限に制御することを奨励する新しい本質的な目的を提案する。 我々は,現行のエージェントポリシーの下で,エージェント状態と周辺状態の相互情報として,この報酬を数学的に定式化する。 この新しい本質的な動機により、タスク報酬を使わずに初めてピックアンドプレースタスクを完了できるなど、以前の方法よりも優れた結果を得ることができます。 実験結果を示すビデオがhttps://youtu.be/auc wc9rthpkで公開されている。

Reinforcement learning has been shown to be highly successful at many challenging tasks. However, success heavily relies on well-shaped rewards. Intrinsically motivated RL attempts to remove this constraint by defining an intrinsic reward function. Motivated by the self-consciousness concept in psychology, we make a natural assumption that the agent knows what constitutes itself, and propose a new intrinsic objective that encourages the agent to have maximum control on the environment. We mathematically formalize this reward as the mutual information between the agent state and the surrounding state under the current agent policy. With this new intrinsic motivation, we are able to outperform previous methods, including being able to complete the pick-and-place task for the first time without using any task reward. A video showing experimental results is available at https://youtu.be/AUC wc9RThpk.
翻訳日:2021-03-16 14:02:44 公開日:2021-03-15
# 局所性に基づく自己監督学習によるニューラルネットワーク探索コントローラの事前学習

Pretraining Neural Architecture Search Controllers with Locality-based Self-Supervised Learning ( http://arxiv.org/abs/2103.08157v1 )

ライセンス: Link先を確認
Kwanghee Choi, Minyoung Choe, Hyelee Lee(参考訳) neural architecture search(nas)は、機械学習のさまざまな分野を育んでいる。 その顕著な献身にもかかわらず、多くは高い計算コストの本質的な制限を批判してきた。 コントローラベースのNASに一般的に適用できるプリトレーニングスキームを提案することで、これを改善することを目指しています。 本手法は局所性に基づく自己教師付き分類タスクであり,ネットワークアーキテクチャの構造的類似性を活用し,優れたアーキテクチャ表現を得る。 この手法をneural architecture optimization(nao)に組み込んで,事前学習した組込みとその有効性を分析し,メトリック学習損失がnasに好影響を与えることを強調する。 コードは \url{https://github.com/M ulti-Objective-NAS/s elf-supervised-nas} で入手できます。

Neural architecture search (NAS) has fostered various fields of machine learning. Despite its prominent dedications, many have criticized the intrinsic limitations of high computational cost. We aim to ameliorate this by proposing a pretraining scheme that can be generally applied to controller-based NAS. Our method, locality-based self-supervised classification task, leverages the structural similarity of network architectures to obtain good architecture representations. We incorporate our method into neural architecture optimization (NAO) to analyze the pretrained embeddings and its effectiveness and highlight that adding metric learning loss brings a favorable impact on NAS. Our code is available at \url{https://github.com/M ulti-Objective-NAS/s elf-supervised-nas}.
翻訳日:2021-03-16 14:02:32 公開日:2021-03-15
# 対人訓練はロボット学習の準備ができていない

Adversarial Training is Not Ready for Robot Learning ( http://arxiv.org/abs/2103.08187v1 )

ライセンス: Link先を確認
Mathias Lechner, Ramin Hasani, Radu Grosu, Daniela Rus, Thomas A. Henzinger(参考訳) 対人訓練は、正規有界摂動に耐性を持つディープラーニングモデルを、名目性能低下のコストで訓練する効果的な方法である。 敵対的トレーニングは、オープンワールド決定クリティカルなアプリケーションに展開されるディープモデルの堅牢性と安全性を高めるように見えるが、ロボット学習設定における望ましくない振る舞いを誘発する。 そこで本研究では,神経制御系が過渡的,系統的,条件的エラーの3種類の欠陥に陥っていることを理論的および実験的に示す。 我々はまず,より汎用的な仕様を可能にする安全領域最適化スキームに敵意訓練を一般化する。 そして、そのような学習プロセスが特定のエラープロファイルを引き起こす傾向があることを証明します。 ロボット学習課題における実験的安全性分析により理論的結果を支援する。 この結果から, ロボット学習にはまだ対応できていないことが示唆された。

Adversarial training is an effective method to train deep learning models that are resilient to norm-bounded perturbations, with the cost of nominal performance drop. While adversarial training appears to enhance the robustness and safety of a deep model deployed in open-world decision-critical applications, counterintuitively, it induces undesired behaviors in robot learning settings. In this paper, we show theoretically and experimentally that neural controllers obtained via adversarial training are subjected to three types of defects, namely transient, systematic, and conditional errors. We first generalize adversarial training to a safety-domain optimization scheme allowing for more generic specifications. We then prove that such a learning process tends to cause certain error profiles. We support our theoretical results by a thorough experimental safety analysis in a robot-learning task. Our results suggest that adversarial training is not yet ready for robot learning.
翻訳日:2021-03-16 14:02:21 公開日:2021-03-15
# 信頼度推定による擬似ラベルによる選択的学習による半教師付き学習

Semi-supervised learning by selective training with pseudo labels via confidence estimation ( http://arxiv.org/abs/2103.08193v1 )

ライセンス: Link先を確認
Masato Ishii(参考訳) 疑似ラベルを用いた選択的トレーニングを採用した,新しい半教師付き学習(SSL)手法を提案する。 本手法では, 疑似ラベルを生成し, その信頼度を推定し, 疑似ラベルの正しさを推定する。 次に、モデル更新に使用する擬似ラベル付きデータを明示的に選択する。 具体的には、擬似ラベル付きデータの損失がデータ増強に対して敏感に増加すると仮定し、データ増強を適用した後、比較的小さな損失に対応するデータを選択する。 信頼度は、選択すべき擬似ラベルデータ候補のスクリーニングだけでなく、ミニバッチ内で選択すべき擬似ラベルデータの数を自動的に決定するためにも用いられる。 また,本手法では信頼度を正確に推定することが重要であるため,トレーニングデータ数が小さい場合でも信頼度保証モデルを得ることが可能な,mixconfと呼ばれる新しいデータ拡張手法を提案する。 いくつかのベンチマークデータセットによる実験結果は、当社のSSLメソッドとMixConfの利点を検証します。

We propose a novel semi-supervised learning (SSL) method that adopts selective training with pseudo labels. In our method, we generate hard pseudo-labels and also estimate their confidence, which represents how likely each pseudo-label is to be correct. Then, we explicitly select which pseudo-labeled data should be used to update the model. Specifically, assuming that loss on incorrectly pseudo-labeled data sensitively increase against data augmentation, we select the data corresponding to relatively small loss after applying data augmentation. The confidence is used not only for screening candidates of pseudo-labeled data to be selected but also for automatically deciding how many pseudo-labeled data should be selected within a mini-batch. Since accurate estimation of the confidence is crucial in our method, we also propose a new data augmentation method, called MixConf, that enables us to obtain confidence-calibrate d models even when the number of training data is small. Experimental results with several benchmark datasets validate the advantage of our SSL method as well as MixConf.
翻訳日:2021-03-16 14:02:07 公開日:2021-03-15
# 神経常微分方程式のメタソルバ

Meta-Solver for Neural Ordinary Differential Equations ( http://arxiv.org/abs/2103.08561v1 )

ライセンス: Link先を確認
Julia Gusak, Alexandr Katrutsa, Talgat Daulbaev, Andrzej Cichocki, Ivan Oseledets(参考訳) ニューラル常微分方程式(ODE)を訓練する従来の手法は、ODEソルバを固定し、ニューラルネットワークの重みを学習して目標損失関数を最適化する。 しかし、そのようなアプローチは特定の離散化法とその特性のために調整されており、選択された応用には最適ではなく、与えられた解法に過度に適合する可能性がある。 本論文では,ソルバ空間の変動がニューラルODEの性能をいかに向上させるかについて検討する。 2つ以上のスカラー変数によってパラメータ化されるrunge-kuttaメソッドの族を考える。 本研究では,ソルバの特性に基づいて,事前定義されたソルバにオーバーフィットする神経ODEの低減と,それらの挙動を評価するための基準を提案する。 さらに, 解法パラメータ化の適切な選択は, 敵攻撃に対するロバスト性の観点から, ニューラルODEモデルに大きく影響することを示した。 近年,ニューラルネットワークは従来のCNNよりも頑健性が高いことが示されている。 本研究は,与えられたタスクの解法選択を最適化することで,モデルのロバスト性をさらに向上できることを実証する。 実験を再現するソースコードは、https://github.com/j uliagusak/neural-ode -metasolverで閲覧できます。

A conventional approach to train neural ordinary differential equations (ODEs) is to fix an ODE solver and then learn the neural network's weights to optimize a target loss function. However, such an approach is tailored for a specific discretization method and its properties, which may not be optimal for the selected application and yield the overfitting to the given solver. In our paper, we investigate how the variability in solvers' space can improve neural ODEs performance. We consider a family of Runge-Kutta methods that are parameterized by no more than two scalar variables. Based on the solvers' properties, we propose an approach to decrease neural ODEs overfitting to the pre-defined solver, along with a criterion to evaluate such behaviour. Moreover, we show that the right choice of solver parameterization can significantly affect neural ODEs models in terms of robustness to adversarial attacks. Recently it was shown that neural ODEs demonstrate superiority over conventional CNNs in terms of robustness. Our work demonstrates that the model robustness can be further improved by optimizing solver choice for a given task. The source code to reproduce our experiments is available at https://github.com/j uliagusak/neural-ode -metasolver.
翻訳日:2021-03-16 14:00:24 公開日:2021-03-15
# 確率的文法進化

Probabilistic Grammatical Evolution ( http://arxiv.org/abs/2103.08389v1 )

ライセンス: Link先を確認
Jessica M\'egane, Nuno Louren\c{c}o, Penousal Machado(参考訳) Grammatical Evolution (GE) は、最もポピュラーな遺伝的プログラミング (GP) の一種であり、いくつかの問題領域で成功を収めている。 当初の提案以来、GEの主な問題に対処し、パフォーマンスを改善するために、多くの拡張が提案されている。 本稿では,geのための新しい遺伝子型表現と新しいマッピング機構を導入する確率論的文法進化(pge)を提案する。 具体的には、最適な個人を構築するために選ばれた生産を考慮して、進化プロセス中に確率が適応される確率的コンテキストフリー文法(PCFG)に頼っています。 ジェノタイプは実値のリストであり、各値は導出規則を選択する可能性を表す。 2つの回帰問題におけるPGEの性能を評価し、それをGEおよびStructured Grammatical Evolution (SGE)と比較する。 その結果、PGEはGEよりも優れた性能を示し、統計的に有意な差があり、SGEと比較すると同様の性能を示した。

Grammatical Evolution (GE) is one of the most popular Genetic Programming (GP) variants, and it has been used with success in several problem domains. Since the original proposal, many enhancements have been proposed to GE in order to address some of its main issues and improve its performance. In this paper we propose Probabilistic Grammatical Evolution (PGE), which introduces a new genotypic representation and new mapping mechanism for GE. Specifically, we resort to a Probabilistic Context-Free Grammar (PCFG) where its probabilities are adapted during the evolutionary process, taking into account the productions chosen to construct the fittest individual. The genotype is a list of real values, where each value represents the likelihood of selecting a derivation rule. We evaluate the performance of PGE in two regression problems and compare it with GE and Structured Grammatical Evolution (SGE). The results show that PGE has a a better performance than GE, with statistically significant differences, and achieved similar performance when comparing with SGE.
翻訳日:2021-03-16 13:58:08 公開日:2021-03-15
# iWarded: データログ+/-推論のベンチマークシステム(技術報告)

iWarded: A System for Benchmarking Datalog+/- Reasoning (technical report) ( http://arxiv.org/abs/2103.08588v1 )

ライセンス: Link先を確認
Teodoro Baldazzi (Universit\`a Roma Tre), Luigi Bellomarini (Banca d'Italia), Emanuel Sallinger (University of Oxford and TU Wien), Paolo Atzeni (Universit\`a Roma Tre)(参考訳) 近年、論理に基づく推論システムの人気が高まっており、研究や工業的関心や知識グラフの分野における多くの応用が盛んになっている。 それにもかかわらず、非自明な推論設定とベンチマークシナリオを生成できる特定のツールの欠如を観察できる。 結果として、推論システムの評価、分析、比較は複雑なタスクであり、特に、採用した論理断片の理論的基盤を生かした洗練された最適化と実行テクニックを具現化している場合である。 本稿では,このギャップを埋めるために,過去数年間で復活を遂げてきたデータログの拡張系であるDatalog+/-を採用した論理ベースの推論システムのベンチマークに使用する,非常に大きく,複雑で,現実的な推論設定を生成するシステムiWardedを導入することを目的とする。 特に、iWardedは、計算複雑性と表現力の非常に良いトレードオフを持つ言語であるWarded Datalog+/-の推論設定を生成する。 本稿では,iWardedシステムと,有効シナリオを生成するための新しい理論結果の集合について述べる。 データログベースの言語は一般的に関心があり、採用が増えているため、iWardedは現在および将来のシステムの実証的評価の一歩であると考えています。

Recent years have seen increasing popularity of logic-based reasoning systems, with research and industrial interest as well as many flourishing applications in the area of Knowledge Graphs. Despite that, one can observe a substantial lack of specific tools able to generate nontrivial reasoning settings and benchmark scenarios. As a consequence, evaluating, analysing and comparing reasoning systems is a complex task, especially when they embody sophisticated optimizations and execution techniques that leverage the theoretical underpinnings of the adopted logic fragment. In this paper, we aim at filling this gap by introducing iWarded, a system that can generate very large, complex, realistic reasoning settings to be used for the benchmarking of logic-based reasoning systems adopting Datalog+/-, a family of extensions of Datalog that has seen a resurgence in the last few years. In particular, iWarded generates reasoning settings for Warded Datalog+/-, a language with a very good tradeoff between computational complexity and expressive power. In the paper, we present the iWarded system and a set of novel theoretical results adopted to generate effective scenarios. As Datalog-based languages are of general interest and see increasing adoption, we believe that iWarded is a step forward in the empirical evaluation of current and future systems.
翻訳日:2021-03-16 13:57:51 公開日:2021-03-15
# XLST:低リソース音声認識のための多言語表現学習のためのクロスリンガルセルフトレーニング

XLST: Cross-lingual Self-training to Learn Multilingual Representation for Low Resource Speech Recognition ( http://arxiv.org/abs/2103.08207v1 )

ライセンス: Link先を確認
Zi-Qiang Zhang, Yan Song, Ming-Hui Wu, Xin Fang, Li-Rong Dai(参考訳) 本稿では,クロスリンガル自己訓練(XLST)と呼ばれる弱監督型多言語表現学習フレームワークを提案する。 XLSTは、多言語非注釈データの表現学習を改善するために、高リソース言語からの少量の注釈付きデータを利用することができる。 具体的には、XLSTは、これらの2つのモデルの出力埋め込みの類似性を最大化することにより、初期表現を生成するために教師付きトレーニングモデルと、それらから学習する別のモデルを使用する。 さらに、移動平均機構とマルチビューデータ拡張がxlstにとって重要なものであることが実験的に示される。 XLSTの有効性を評価するため,CommonVoice corpusの総合的な実験を行った。 5 下流低リソース ASR タスクの結果から,我々の多言語事前学習モデルは,100 時間追加の注釈付き英語データを活用することにより,最先端の自己教師付き手法よりも比較的 18.6% の削減を実現していることがわかった。

In this paper, we propose a weakly supervised multilingual representation learning framework, called cross-lingual self-training (XLST). XLST is able to utilize a small amount of annotated data from high-resource languages to improve the representation learning on multilingual un-annotated data. Specifically, XLST uses a supervised trained model to produce initial representations and another model to learn from them, by maximizing the similarity between output embeddings of these two models. Furthermore, the moving average mechanism and multi-view data augmentation are employed, which are experimentally shown to be crucial to XLST. Comprehensive experiments have been conducted on the CommonVoice corpus to evaluate the effectiveness of XLST. Results on 5 downstream low-resource ASR tasks shows that our multilingual pretrained model achieves relatively 18.6% PER reduction over the state-of-the-art self-supervised method, with leveraging additional 100 hours of annotated English data.
翻訳日:2021-03-16 13:57:04 公開日:2021-03-15
# メタン/空気燃焼の速度論的モデル学習に向けて

Toward Machine Learned Highly Reduce Kinetic Models For Methane/Air Combustion ( http://arxiv.org/abs/2103.08377v1 )

ライセンス: Link先を確認
Mark Kelly, Stephen Dooley, Gilles Bourque(参考訳) メタンの正確な低次元化学動力学モデルは、効率的なガスタービン燃焼器の設計に不可欠なコンポーネントです。 計算流体力学(CFD)に結合された運動モデルは、物理実験と比較して、運転条件、燃料組成、燃焼器設計の影響を迅速かつ効率的にテストする方法を提供する。 しかし、詳細な化学動力学モデルはCFDでの使用には計算コストがかかりすぎる。 対象とする詳細なモデル特性を高い忠実度で再現するコンパクトモデルを作成するための,新しいデータ指向三段階法を提案する。 最初のステップでは、パスフラックス分析(PFA)を使用して118種を含む詳細なモデルからすべての非必須種を取り除くことによって、減少した運動モデルを得る。 まず、選択された種(OH,H,CO,CH4)のプロファイルを完全にかき混ぜた反応器(PSR)シミュレーションで再現し、その後、詳細なモデルによる層火炎速度の予測に再最適化する。 これは、MLOCK(Machine Learned Optimization of Chemical Kinetics)アルゴリズムによって実装されている。 MLOCKアルゴリズムは、選択された反応に対する3つのアレニウスパラメータを体系的に摂動させ、最適化対象のコンパクトモデルの計算における誤差を定量化する客観的な誤差関数を通じて新しいパラメータの適合性を評価する。 この戦略は、メタン/空気燃焼のための19種と15種のコンパクトモデルによって実証される。 両方のコンパクトなモデルは、リーン条件とリッチ条件の両方で0Dおよび1D計算の範囲にわたって検証され、親の詳細なメカニズムと良好な一致を示します。 15種モデルは、現在の最先端モデルよりも精度とモデルが有効な条件の範囲の両方で優れていることが示されている。

Accurate low dimension chemical kinetic models for methane are an essential component in the design of efficient gas turbine combustors. Kinetic models coupled to computational fluid dynamics (CFD) provide quick and efficient ways to test the effect of operating conditions, fuel composition and combustor design compared to physical experiments. However, detailed chemical kinetic models are too computationally expensive for use in CFD. We propose a novel data orientated three-step methodology to produce compact models that replicate a target set of detailed model properties to a high fidelity. In the first step, a reduced kinetic model is obtained by removing all non-essential species from the detailed model containing 118 species using path flux analysis (PFA). It is then numerically optimised to replicate the detailed model's prediction in two rounds; First, to selected species (OH,H,CO and CH4) profiles in perfectly stirred reactor (PSR) simulations and then re-optimised to the detailed model's prediction of the laminar flame speed. This is implemented by a purposely developed Machine Learned Optimisation of Chemical Kinetics (MLOCK) algorithm. The MLOCK algorithm systematically perturbs all three Arrhenius parameters for selected reactions and assesses the suitability of the new parameters through an objective error function which quantifies the error in the compact model's calculation of the optimisation target. This strategy is demonstrated through the production of a 19 species and a 15 species compact model for methane/air combustion. Both compact models are validated across a range of 0D and 1D calculations across both lean and rich conditions and shows good agreement to the parent detailed mechanism. The 15 species model is shown to outperform the current state-of-art models in both accuracy and range of conditions the model is valid over.
翻訳日:2021-03-16 13:56:29 公開日:2021-03-15
# 多変量サイバーリスクのモデル化--Deep Learning Dating Extreme Value Theory

Modeling Multivariate Cyber Risks: Deep Learning Dating Extreme Value Theory ( http://arxiv.org/abs/2103.08450v1 )

ライセンス: Link先を確認
Mingyue Zhang Wu, Jinzhu Luo, Xing Fang, Maochao Xu, Peng Zhao(参考訳) サイバーリスクのモデリングは、サイバーセキュリティの分野では重要だが困難なタスクである。 主に、リスクパターンの高次元性と重い尾が原因である。 これらの障害は、多変量サイバーリスクの統計モデルの開発を妨げる。 本研究では,深層学習と極値理論に依存する多変量サイバーリスクをモデル化するための新しいアプローチを提案する。 提案モデルでは, 深層学習による高精度な点予測だけでなく, 極値理論による高量子化予測も実現可能である。 シミュレーション研究は,提案モデルが多変量サイバーリスクをモデル化し,良好な予測性能が得られることを示した。 実際のハニーポット攻撃データに基づく実証的な証拠は、提案モデルが極めて良好な予測性能を有することを示している。

Modeling cyber risks has been an important but challenging task in the domain of cyber security. It is mainly because of the high dimensionality and heavy tails of risk patterns. Those obstacles have hindered the development of statistical modeling of the multivariate cyber risks. In this work, we propose a novel approach for modeling the multivariate cyber risks which relies on the deep learning and extreme value theory. The proposed model not only enjoys the high accurate point predictions via deep learning but also can provide the satisfactory high quantile prediction via extreme value theory. The simulation study shows that the proposed model can model the multivariate cyber risks very well and provide satisfactory prediction performances. The empirical evidence based on real honeypot attack data also shows that the proposed model has very satisfactory prediction performances.
翻訳日:2021-03-16 13:55:59 公開日:2021-03-15
# MBAPose: Mask and Bounding-Box Aware Pose estimate of Surgical Instruments with Photorealistic Domain Randomization

MBAPose: Mask and Bounding-Box Aware Pose Estimation of Surgical Instruments with Photorealistic Domain Randomization ( http://arxiv.org/abs/2103.08105v1 )

ライセンス: Link先を確認
Masakazu Yoshimura and Murilo Marques Marinho and Kanako Harada and Mamoru Mitsuishi(参考訳) 手術ロボットは、手術前に校正されるロボットの幾何学的パラメータに基づいて、事前モデルを用いて制御される。 実際の手術環境でロボットを使用する際の課題の1つは、パラメータが時間とともに変化し、結果として制御精度が低下することである。 この状況下で、当社グループはセンサーを追加せずにオンライン校正戦略を調査しています。 その目標に向かって、我々は内視鏡画像における楽器の軸のポーズを推定するアルゴリズムを開発しました。 そこで本研究では,その先行研究を基礎として,剛体手術器具の姿勢をより正確に推定するための新しい枠組みを提案する。 我々の戦略はMBAPoseと呼ばれる新しいポーズ推定モデルと合成学習データの利用に基づいている。 本実験では, 翻訳誤差が21%, 合成試験データのオリエンテーション誤差が26%と改善した。 実際のテストデータによる結果は、さらなる研究のベースラインを提供する。

Surgical robots are controlled using a priori models based on robots' geometric parameters, which are calibrated before the surgical procedure. One of the challenges in using robots in real surgical settings is that parameters change over time, consequently deteriorating control accuracy. In this context, our group has been investigating online calibration strategies without added sensors. In one step toward that goal, we have developed an algorithm to estimate the pose of the instruments' shafts in endoscopic images. In this study, we build upon that earlier work and propose a new framework to more precisely estimate the pose of a rigid surgical instrument. Our strategy is based on a novel pose estimation model called MBAPose and the use of synthetic training data. Our experiments demonstrated an improvement of 21 % for translation error and 26 % for orientation error on synthetic test data with respect to our previous work. Results with real test data provide a baseline for further research.
翻訳日:2021-03-16 13:53:36 公開日:2021-03-15
# IMUを信頼する: IMUドリフトを無視する理由

Trust Your IMU: Consequences of Ignoring the IMU Drift ( http://arxiv.org/abs/2103.08286v1 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,慣性測定単位(imus)の現代的な事前積分法は,短時間のドリフトを無視できるほど正確であると主張する。 これにより、単純化されたカメラモデルを考えることができ、それによってさらに固有のキャリブレーションが可能となる。 IMUデータを活用しながら、未知で等価な焦点距離とラジアル歪みプロファイルで相対ポーズ問題を共同で解決する初のソルバを開発しています。 さらに,一部校正されたセットアップでは,精度が小さく,あるいは無視できるような,最先端アルゴリズムに比べて大幅な高速化を示す。 提案するアルゴリズムは合成データと実データの両方でテストされ、後者は無人航空機(uavs)によるナビゲーションに焦点を当てている。 市販の異なる低コストのUAV上で提案されたソルバーを評価し、IMUドリフトに関する新しい仮定が実用アプリケーションで実現可能であることを実証する。 拡張された内在的自己校正により、歪んだ入力画像の使用が可能となり、現在の最先端の方法に比べて退屈な校正プロセスが時代遅れになる。

In this paper, we argue that modern pre-integration methods for inertial measurement units (IMUs) are accurate enough to ignore the drift for short time intervals. This allows us to consider a simplified camera model, which in turn admits further intrinsic calibration. We develop the first-ever solver to jointly solve the relative pose problem with unknown and equal focal length and radial distortion profile while utilizing the IMU data. Furthermore, we show significant speed-up compared to state-of-the-art algorithms, with small or negligible loss in accuracy for partially calibrated setups. The proposed algorithms are tested on both synthetic and real data, where the latter is focused on navigation using unmanned aerial vehicles (UAVs). We evaluate the proposed solvers on different commercially available low-cost UAVs, and demonstrate that the novel assumption on IMU drift is feasible in real-life applications. The extended intrinsic auto-calibration enables us to use distorted input images, making tedious calibration processes obsolete, compared to current state-of-the-art methods.
翻訳日:2021-03-16 13:53:20 公開日:2021-03-15
# 高効率スーパーリゾリューションのための学習周波数認識ダイナミックネットワーク

Learning Frequency-aware Dynamic Network for Efficient Super-Resolution ( http://arxiv.org/abs/2103.08357v1 )

ライセンス: Link先を確認
Wenbin Xie, Dehua Song, Chang Xu, Chunjing Xu, Hui Zhang, Yunhe Wang(参考訳) 深層学習に基づく手法、特に畳み込みニューラルネットワーク(cnns)は、単一画像超解像(sisr)の分野でうまく適用されている。 より良い忠実性と視覚的品質を得るために、既存のネットワークのほとんどは、大規模な計算を備えた重い設計です。 しかし、現代のモバイル機器の計算資源は限られており、コストを抑えることは容易ではない。 本稿では,離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。 実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。 画素や画像パッチは低周波領域に属するため、テクスチャの詳細は比較的少ないため、この動的ネットワークは結果の超解像度画像の品質に影響を与えない。 さらに,提案する動的ネットワークに予測器を組み込んで,手作りの周波数認識マスクをエンド・ツー・エンドで調整する。 ベンチマークSISRモデルおよびデータセット上で実施された広範な実験は、視覚的品質と計算的複雑さのより良いトレードオフを得るために、様々なSISR神経アーキテクチャに周波数認識動的ネットワークを使用できることを示している。 例えば、最新のSISR性能を維持しながら、約$50\%$でEDSRモデルのFLOPを減らすことができます。

Deep learning based methods, especially convolutional neural networks (CNNs) have been successfully applied in the field of single image super-resolution (SISR). To obtain better fidelity and visual quality, most of existing networks are of heavy design with massive computation. However, the computation resources of modern mobile devices are limited, which cannot easily support the expensive cost. To this end, this paper explores a novel frequency-aware dynamic network for dividing the input into multiple parts according to its coefficients in the discrete cosine transform (DCT) domain. In practice, the high-frequency part will be processed using expensive operations and the lower-frequency part is assigned with cheap operations to relieve the computation burden. Since pixels or image patches belong to low-frequency areas contain relatively few textural details, this dynamic network will not affect the quality of resulting super-resolution images. In addition, we embed predictors into the proposed dynamic network to end-to-end fine-tune the handcrafted frequency-aware masks. Extensive experiments conducted on benchmark SISR models and datasets show that the frequency-aware dynamic network can be employed for various SISR neural architectures to obtain the better tradeoff between visual quality and computational complexity. For instance, we can reduce the FLOPs of EDSR model by approximate $50\%$ while preserving state-of-the-art SISR performance.
翻訳日:2021-03-16 13:53:03 公開日:2021-03-15
# Beyond ANN: 効率的な場所認識のための構造知識の探索

Beyond ANN: Exploiting Structural Knowledge for Efficient Place Recognition ( http://arxiv.org/abs/2103.08366v1 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Peter Protzel(参考訳) 視覚的な場所認識は、日時、天候、季節によって潜在的条件が変化しても、データベースイメージのセットで同じ場所の問い合わせ画像を認識するタスクである。 SLAMにおけるループ閉鎖検出とグローバルなローカライゼーションのための候補選択に重要である。 文献における多くのアプローチは、クエリとすべてのデータベースイメージ間の計算効率の悪いフルイメージ比較を行う。 パフォーマンスを損なうことなく、最も有望な画像ペアのみを迅速かつスパースに比較できる、効率的な位置認識のための適切な方法がまだ欠落している。 これは部分的にANNベースの方法によって与えられるが、それらは精度と追加のメモリ消費のために速度を交換し、多くはデータベース内のループの場合に一致するデータベースイメージの任意の数を見つけることができません。 本稿では,オンラインに適用可能な効率的な位置認識のための高速シーケンスベース手法を提案する。 シーケンスの損失から回復するために再ローカライズを使用し、通常利用可能なが、データベース内の不使用の類似性を利用して、データベース内のループや停止の場合には、クエリ毎に一致するデータベースイメージを検出できる。 5つのデータセットと21のシーケンスの組み合わせについて広範な実験を行い,本手法が2つの最先端手法,さらにはフルイメージ比較よりも優れており,その性能と評価画像ペアの割合とのトレードオフも良好であることを示す。 Matlabのソースコードは、この論文の公開を予定している。

Visual place recognition is the task of recognizing same places of query images in a set of database images, despite potential condition changes due to time of day, weather or seasons. It is important for loop closure detection in SLAM and candidate selection for global localization. Many approaches in the literature perform computationally inefficient full image comparisons between queries and all database images. There is still a lack of suited methods for efficient place recognition that allow a fast, sparse comparison of only the most promising image pairs without any loss in performance. While this is partially given by ANN-based methods, they trade speed for precision and additional memory consumption, and many cannot find arbitrary numbers of matching database images in case of loops in the database. In this paper, we propose a novel fast sequence-based method for efficient place recognition that can be applied online. It uses relocalization to recover from sequence losses, and exploits usually available but often unused intra-database similarities for a potential detection of all matching database images for each query in case of loops or stops in the database. We performed extensive experimental evaluations over five datasets and 21 sequence combinations, and show that our method outperforms two state-of-the-art approaches and even full image comparisons in many cases, while providing a good tradeoff between performance and percentage of evaluated image pairs. Source code for Matlab will be provided with publication of this paper.
翻訳日:2021-03-16 13:52:41 公開日:2021-03-15
# 脳MRI画像における不確かさに基づく生体年齢推定

Uncertainty-Based Biological Age Estimation of Brain MRI Scans ( http://arxiv.org/abs/2103.08491v1 )

ライセンス: Link先を確認
Karim Armanious, Sherif Abdulatif, Wenbin Shi, Tobias Hepp, Sergios Gatidis, Bin Yang(参考訳) 年齢は現代の診断手順の重要な要因です。 しかし, 実際の生物年代 (BA) の評価は, 基準地味ラベルが欠如しているため, 依然として大変な課題である。 現在のBA推定手法は骨格画像に制限されるか、または全身BA評価をもたらす非画像モダリティに依存している。 しかし、様々な臓器系は生活習慣や遺伝的要因によって異なる老化特性を示す可能性がある。 本研究では3次元磁気共鳴画像(MRI)を用いた臓器特異的BA推定のための新しい枠組みを提案する。 第1のステップとして、このフレームワークは、患者に依存したアリュータ性不確実性とともに、年表年齢(ca)を予測する。 次に、予測不確実性スコアに基づいて、非定型老化患者を所定の人口から分離する反復訓練アルゴリズムを用いる。 この方法では、残りの人口に対する新しいモデルの訓練は、真のbaの振る舞いを近似すべきであると仮定する。 本研究では, 健常者およびアルツハイマー病患者を含む脳MRIデータセットに対して, 提案手法を適用した。 アルツハイマー病患者における予期したBAと予期される認知低下との相関性を示す。

Age is an essential factor in modern diagnostic procedures. However, assessment of the true biological age (BA) remains a daunting task due to the lack of reference ground-truth labels. Current BA estimation approaches are either restricted to skeletal images or rely on non-imaging modalities that yield a whole-body BA assessment. However, various organ systems may exhibit different aging characteristics due to lifestyle and genetic factors. In this initial study, we propose a new framework for organ-specific BA estimation utilizing 3D magnetic resonance image (MRI) scans. As a first step, this framework predicts the chronological age (CA) together with the corresponding patient-dependent aleatoric uncertainty. An iterative training algorithm is then utilized to segregate atypical aging patients from the given population based on the predicted uncertainty scores. In this manner, we hypothesize that training a new model on the remaining population should approximate the true BA behavior. We apply the proposed methodology on a brain MRI dataset containing healthy individuals as well as Alzheimer's patients. We demonstrate the correlation between the predicted BAs and the expected cognitive deterioration in Alzheimer's patients.
翻訳日:2021-03-16 13:52:18 公開日:2021-03-15
# テッパー線を横切る:具体化aiの動的社会性を記述するための新しいオントロジー

Crossing the Tepper Line: An Emerging Ontology for Describing the Dynamic Sociality of Embodied AI ( http://arxiv.org/abs/2103.08079v1 )

ライセンス: Link先を確認
Katie Seaborn, Peter Pennefather, Norihisa P. Miyake, Mihoko Otake-Matsuura(参考訳) 人工知能(AI)は、タスクを実行し、人々と意思決定をサポートするために、世界に具体化され、組み込まれている。 ロボット、レコメンダーシステム、音声アシスタント、仮想人間 - これらの異なるタイプの具体化されたAIには共通点がありますか? ここでは、どのようにして「社会的に具体化されたAI」として現れるかを示す。 私たちはこれを、人間によって社会的かつエージェント的と認識された場合、対話的なコンテキスト内でaiを「循環的に」実施する状態と定義します。 私たちは、具体化されたAIが社会的に具体化されたAIに動的に遷移する方法を説明する作業オントロジーを提供します。 テッパーラインのしきい値を記述するためのオントロジ的ヒューリスティックを提案する。 カードソートワークショップのエキスパートインサイトで理論的な作業を強化します。 このヒューリスティックの動的および文脈的性質を説明するための2つのケーススタディで終わる。

Artificial intelligences (AI) are increasingly being embodied and embedded in the world to carry out tasks and support decision-making with and for people. Robots, recommender systems, voice assistants, virtual humans - do these disparate types of embodied AI have something in common? Here we show how they can manifest as "socially embodied AI." We define this as the state that embodied AI "circumstantially&quo t; take on within interactive contexts when perceived as both social and agentic by people. We offer a working ontology that describes how embodied AI can dynamically transition into socially embodied AI. We propose an ontological heuristic for describing the threshold: the Tepper line. We reinforce our theoretical work with expert insights from a card sort workshop. We end with two case studies to illustrate the dynamic and contextual nature of this heuristic.
翻訳日:2021-03-16 13:51:01 公開日:2021-03-15
# インスタンスとオントロジー概念を融合した知識基盤の普遍的表現学習

Universal Representation Learning of Knowledge Bases by Jointly Embedding Instances and Ontological Concepts ( http://arxiv.org/abs/2103.08115v1 )

ライセンス: Link先を確認
Junheng Hao, Muhao Chen, Wenchao Yu, Yizhou Sun, Wei Wang(参考訳) 多くの大規模知識基盤は、抽象概念と常識概念のオントロジービューと、存在論的概念からインスタンス化される特定のエンティティのインスタンスビューという、2つの知識グラフ(KG)のビューを同時に表現する。 しかし、既存のKG埋め込みモデルは、単に2つのビューの1つを表現することに集中するだけです。 本稿では,より優れた知識の埋め込みを実現し,多視点知識に依存した新しいアプリケーションを実現することを目的とした,新しい2視点KG埋め込みモデルJOIEを提案する。 JOIEは、知識基盤の複数の側面を学習するクロスビューとイントラビューの両方のモデリングを採用しています。 クロスビュー関連モデルは、オントロジーの概念とその対応するインスタンスビューエンティティの埋め込みを橋渡しするために学習される。 ビュー内モデルは、階層構造を持つオントロジーで利用できる階層型エンコーディング技術を用いて、個別の埋め込み空間におけるインスタンスおよびオントロジービューの構造的知識をキャプチャするために訓練される。 2つのモデルコンポーネントの複数の表現手法を探索し、JOIEの9つの変種について検討する。 私たちのモデルは、大規模なインスタンスと(小さな)クロスビューリンクを介して接続された対応するオントロジ概念からなる大規模な知識ベースで訓練されます。 パブリックデータセットの実験結果から、JOIEの最良のバリエーションは、インスタンスビュートリプル予測タスクの以前のモデルとオントロジービューKGのオントロジー人口を大幅に上回ることが示された。 さらに,本モデルでは,KG埋め込みの使用を,有望な性能でエンティティタイピングに拡張することに成功した。

Many large-scale knowledge bases simultaneously represent two views of knowledge graphs (KGs): an ontology view for abstract and commonsense concepts, and an instance view for specific entities that are instantiated from ontological concepts. Existing KG embedding models, however, merely focus on representing one of the two views alone. In this paper, we propose a novel two-view KG embedding model, JOIE, with the goal to produce better knowledge embedding and enable new applications that rely on multi-view knowledge. JOIE employs both cross-view and intra-view modeling that learn on multiple facets of the knowledge base. The cross-view association model is learned to bridge the embeddings of ontological concepts and their corresponding instance-view entities. The intra-view models are trained to capture the structured knowledge of instance and ontology views in separate embedding spaces, with a hierarchy-aware encoding technique enabled for ontologies with hierarchies. We explore multiple representation techniques for the two model components and investigate with nine variants of JOIE. Our model is trained on large-scale knowledge bases that consist of massive instances and their corresponding ontological concepts connected via a (small) set of cross-view links. Experimental results on public datasets show that the best variant of JOIE significantly outperforms previous models on instance-view triple prediction task as well as ontology population on ontologyview KG. In addition, our model successfully extends the use of KG embeddings to entity typing with promising performance.
翻訳日:2021-03-16 13:50:46 公開日:2021-03-15
# CartPole」ゲームにおけるグラデーション政策とF1Tenth自動運転車への拡張性

Gradient Policy on "CartPole" game and its' expansibility to F1Tenth Autonomous Vehicles ( http://arxiv.org/abs/2103.08396v1 )

ライセンス: Link先を確認
Mingwei Shi(参考訳) 政策勾配は環境に対する継続的な行動を評価する効果的な方法である。 本稿では,数式とコード実装の説明について述べる。 最後に、CartPoleのスティックの回転角度と回転時の自動運転車の角度を比較し、単純なキネマティックダイナミックモデルである自転車モデルを活用することは、これらの2つのモデル間の類似性を発見し、CartPoleからF1tenth自動運転車へのモデル転送を容易にすることを目的としています。

Policy gradient is an effective way to estimate continuous action on the environment. This paper, it about explaining the mathematical formula and code implementation. In the end, comparing between the rotation angle of the stick on CartPole , and the angle of the Autonomous vehicle when turning, and utilizing the Bicycle Model, a simple Kinematic dynamic model, are the purpose to discover the similarity between these two models, so as to facilitate the model transfer from CartPole to the F1tenth Autonomous vehicle.
翻訳日:2021-03-16 13:50:22 公開日:2021-03-15
# DIPPA: 双線形サドル点問題の改良手法

DIPPA: An improved Method for Bilinear Saddle Point Problems ( http://arxiv.org/abs/2103.08270v1 )

ライセンス: Link先を確認
Guangzeng Xie, Yuze Han, Zhihua Zhang(参考訳) 本稿では,函数 $g, h$ が滑らかかつ強凸である双線型saddle point problem $\min_{\bf{x}} \max_{\bf{y}} g(\bf{x}) + \bf{x}^{\top} \bf{a} \bf{y} -h(\bf{y})$ について検討する。 g$ と $h$ に関連する勾配および近位オラクルがアクセス可能であるとき、最適アルゴリズムはすでに文献 \cite{chambolle2011First, palaniappan2016stoch astic} で開発されている。 しかし、近位演算子は、特に制約ゼロサム行列ゲーム \cite{zhang2020sparsified} において、計算が必ずしも容易ではない。 この研究では、$g, h$の勾配にのみアクセスする必要がある新しいアルゴリズムを提案する。 我々のアルゴリズムは、結合条件番号 $\frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}}$ 対数係数への最適依存性を持つ複雑性上界 $\tilde{\mathcal{O}}\left( \frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}} + \sqrt[4]{\kappa_x \kappa_y (\kappa_x + \kappa_y)} \right)$ を達成する。

This paper studies bilinear saddle point problems $\min_{\bf{x}} \max_{\bf{y}} g(\bf{x}) + \bf{x}^{\top} \bf{A} \bf{y} - h(\bf{y})$, where the functions $g, h$ are smooth and strongly-convex. When the gradient and proximal oracle related to $g$ and $h$ are accessible, optimal algorithms have already been developed in the literature \cite{chambolle2011first, palaniappan2016stoch astic}. However, the proximal operator is not always easy to compute, especially in constraint zero-sum matrix games \cite{zhang2020sparsified}. This work proposes a new algorithm which only requires the access to the gradients of $g, h$. Our algorithm achieves a complexity upper bound $\tilde{\mathcal{O}}\left( \frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}} + \sqrt[4]{\kappa_x \kappa_y (\kappa_x + \kappa_y)} \right)$ which has optimal dependency on the coupling condition number $\frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}}$ up to logarithmic factors.
翻訳日:2021-03-16 13:48:16 公開日:2021-03-15
# 競争力のある航空会社市場における itinerary level booking prediction への機械学習アプローチ

A machine learning approach to itinerary-level booking prediction in competitive airline markets ( http://arxiv.org/abs/2103.08405v1 )

ライセンス: Link先を確認
Daniel Hopman, Ger Koole and Rob van der Mei(参考訳) 需要予測は収益管理において極めて重要である。 結局のところ、収益を最大化することを目的とした最適化手法への入力の1つである。 ほとんどの予測手法は、未来を予測するために歴史的データを使用し、「なぜ」を無視しています。 本稿では、競合データ、価格、ソーシャルメディア、安全性、航空会社のレビューなど、複数の情報源のデータを組み合わせる。 次に,一連のイテレーションを提示した場合の顧客の行動に影響を及ぼす5つの競合価格運動について検討する。 10種類のODペアの実際の航空会社データとExtreme Gradient Boostingを用いて、顧客の行動は価格に敏感でスケジュールに敏感で快適なODに分類できることを示す。 シミュレーション研究を通じて,このモデルが従来の時系列予測よりも高い収益をもたらす予測を生成することを示した。

Demand forecasting is extremely important in revenue management. After all, it is one of the inputs to an optimisation method which aim is to maximize revenue. Most, if not all, forecasting methods use historical data to forecast the future, disregarding the "why". In this paper, we combine data from multiple sources, including competitor data, pricing, social media, safety and airline reviews. Next, we study five competitor pricing movements that, we hypothesize, affect customer behavior when presented a set of itineraries. Using real airline data for ten different OD-pairs and by means of Extreme Gradient Boosting, we show that customer behavior can be categorized into price-sensitive, schedule-sensitive and comfort ODs. Through a simulation study, we show that this model produces forecasts that result in higher revenue than traditional, time series forecasts.
翻訳日:2021-03-16 13:47:36 公開日:2021-03-15
# エビデンス理論を用いた効率的な侵入検出

Efficient Intrusion Detection Using Evidence Theory ( http://arxiv.org/abs/2103.08585v1 )

ライセンス: Link先を確認
Islam Debicha, Thibault Debatty, Wim Mees and Jean-Michel Dricot(参考訳) 侵入検知システム(IDS)は、コンピュータやネットワークの安全に関して重要な要素となっている。 この分野で行われている膨大な研究努力にもかかわらず、ソースの信頼性は依然としてオープンな問題です。 そこで本論文では, ソースの信頼性と, 正常行動と異常行動の区別能力に基づいて, 新たなコンテキストディスカウント手法を提案する。 不確実性の下で推論する一般的な枠組みであるデンプスター・シェーファー理論は、証明的分類器を構成するために用いられる。 既存のKDDCUP'99データセットの大幅な改訂と改善版であるNSL-KDDデータセットは、新しい検出アプローチのパフォーマンスを評価する基礎を提供します。 KDDTest+データセットに匹敵する結果を与える一方で、私たちのアプローチはKDDTest-21データセットの他の最先端のメソッドよりも優れています。

Intrusion Detection Systems (IDS) are now an essential element when it comes to securing computers and networks. Despite the huge research efforts done in the field, handling sources' reliability remains an open issue. To address this problem, this paper proposes a novel contextual discounting method based on sources' reliability and their distinguishing ability between normal and abnormal behavior. Dempster-Shafer theory, a general framework for reasoning under uncertainty, is used to construct an evidential classifier. The NSL-KDD dataset, a significantly revised and improved version of the existing KDDCUP'99 dataset, provides the basis for assessing the performance of our new detection approach. While giving comparable results on the KDDTest+ dataset, our approach outperformed some other state-of-the-art methods on the KDDTest-21 dataset which is more challenging.
翻訳日:2021-03-16 13:47:21 公開日:2021-03-15
# 新規治療の長期効果の推定

Estimating the Long-Term Effects of Novel Treatments ( http://arxiv.org/abs/2103.08390v1 )

ライセンス: Link先を確認
Keith Battocchi, Eleanor Dillon, Maggie Hei, Greg Lewis, Miruna Oprescu, Vasilis Syrgkanis(参考訳) 政策立案者は通常、新しい治療法の長期的な効果を見積りたいという問題に直面し、古い治療法の履歴データしか持っていない。 我々は,過去治療のみを施した長期データセットと,新規治療を施した短期データセットへのアクセスを想定した。 長期効果が多数の短期プロキシを介してチャネルされることを想定したサロゲートベースのアプローチを提案する。 私たちの研究は、サーロゲート指標、動的治療効果推定、二重機械学習の3つの主要な最近の手法を統合パイプラインで組み合わせています。 本手法は,データと観測ポリシーに関するマルコフ的仮定の下で,ルートn漸近的に正規な推定値を提供する。 3年間にわたる顧客投資を含む大手企業のデータセットを使用して、実際のデータセットの主要な定性的な特性が保持される半合成データ分布を作成します。 我々は,本手法の性能を評価し,形式的方法論の展開に関する実践的課題と対処方法について議論する。

Policy makers typically face the problem of wanting to estimate the long-term effects of novel treatments, while only having historical data of older treatment options. We assume access to a long-term dataset where only past treatments were administered and a short-term dataset where novel treatments have been administered. We propose a surrogate based approach where we assume that the long-term effect is channeled through a multitude of available short-term proxies. Our work combines three major recent techniques in the causal machine learning literature: surrogate indices, dynamic treatment effect estimation and double machine learning, in a unified pipeline. We show that our method is consistent and provides root-n asymptotically normal estimates under a Markovian assumption on the data and the observational policy. We use a data-set from a major corporation that includes customer investments over a three year period to create a semi-synthetic data distribution where the major qualitative properties of the real dataset are preserved. We evaluate the performance of our method and discuss practical challenges of deploying our formal methodology and how to address them.
翻訳日:2021-03-16 13:47:09 公開日:2021-03-15
# I-Nema:線虫認識のための生体画像データセット

I-Nema: A Biological Image Dataset for Nematode Recognition ( http://arxiv.org/abs/2103.08335v1 )

ライセンス: Link先を確認
Xuequan Lu, Yihao Wang, Sheldon Fung, and Xue Qing(参考訳) 線虫は地球上で最も豊富な中生代グループの一つであり、多様な生態的ニッチを占有している。 ネマトドの正確な認識または識別は、害虫駆除、土壌生態学、生物地理学、生息地の保全、気候変動に対する大きな重要性を有する。 コンピュータビジョンと画像処理は、線虫の種認識にいくつかの成功をおさめたが、依然として大きな需要がある。 本稿では,(1)野外作業においてかなりの人材と分類学の専門家を必要とする多種多様な線虫(特に自然環境にのみ存在する種)を対象とした画像データセットの欠如,(2)コンピュータ科学の規律的背景を必要とするこのデータセットにおける最先端ディープラーニング技術の標準ベンチマークの欠如,の2つの主なボトルネックを明らかにする。 これらのことを念頭に置いて,多様な線虫(実験室培養と自然分離の両方)からなる画像データセットを提案する。 さらに,このデータセットに最先端のディープラーニングネットワークを用い,種認識ベンチマークを設定した。 実験結果について検討し、異なるネットワークの認識精度を比較し、データセットの課題を示す。 データセットはhttps://github.com/x uequanlu/I-Nemaで公開しています。

Nematode worms are one of most abundant metazoan groups on the earth, occupying diverse ecological niches. Accurate recognition or identification of nematodes are of great importance for pest control, soil ecology, bio-geography, habitat conservation and against climate changes. Computer vision and image processing have witnessed a few successes in species recognition of nematodes; however, it is still in great demand. In this paper, we identify two main bottlenecks: (1) the lack of a publicly available imaging dataset for diverse species of nematodes (especially the species only found in natural environment) which requires considerable human resources in field work and experts in taxonomy, and (2) the lack of a standard benchmark of state-of-the-art deep learning techniques on this dataset which demands the discipline background in computer science. With these in mind, we propose an image dataset consisting of diverse nematodes (both laboratory cultured and naturally isolated), which, to our knowledge, is the first time in the community. We further set up a species recognition benchmark by employing state-of-the-art deep learning networks on this dataset. We discuss the experimental results, compare the recognition accuracy of different networks, and show the challenges of our dataset. We make our dataset publicly available at: https://github.com/x uequanlu/I-Nema
翻訳日:2021-03-16 13:46:16 公開日:2021-03-15
# エンドツーエンド音声システムの敵対攻撃に対するマルチディスクリミネータSobolev Defense-GAN

Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for End-to-End Speech Systems ( http://arxiv.org/abs/2103.08086v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras Koerich(参考訳) 本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。 提案する防衛アルゴリズムには4つの大きなステップがある。 まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。 第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。 この操作は、追加の正規化項でスペクトログラム間のコード距離調整を最小化する。 第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。 モデルの性能を安定性と学習モードの総数の観点から向上させるため,我々はジェネレータネットワークにさらなる制約を課した。 最後に、合成スペクトログラムとグリフィン-リム位相近似法からの信号を再構成する。 提案手法は,deepspeech,kaldi,li ngvoモデルを用いた6つの強力な白黒ボックス敵攻撃に対する防御手法を評価する。 実験の結果,本アルゴリズムは精度と信号品質の両面で,最先端の防御アルゴリズムよりも優れていることがわかった。

This paper introduces a defense approach against end-to-end adversarial attacks developed for cutting-edge speech-to-text systems. The proposed defense algorithm has four major steps. First, we represent speech signals with 2D spectrograms using the short-time Fourier transform. Second, we iteratively find a safe vector using a spectrogram subspace projection operation. This operation minimizes the chordal distance adjustment between spectrograms with an additional regularization term. Third, we synthesize a spectrogram with such a safe vector using a novel GAN architecture trained with Sobolev integral probability metric. To improve the model's performance in terms of stability and the total number of learned modes, we impose an additional constraint on the generator network. Finally, we reconstruct the signal from the synthesized spectrogram and the Griffin-Lim phase approximation technique. We evaluate the proposed defense approach against six strong white and black-box adversarial attacks benchmarked on DeepSpeech, Kaldi, and Lingvo models. Our experimental results show that our algorithm outperforms other state-of-the-art defense algorithms both in terms of accuracy and signal quality.
翻訳日:2021-03-16 13:44:51 公開日:2021-03-15
# ロバストな音声対テキスト対敵攻撃に向けて

Towards Robust Speech-to-Text Adversarial Attack ( http://arxiv.org/abs/2103.08095v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras Koerich(参考訳) 本稿では,DeepSpeech,Kaldi,Li ngvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。 我々のアプローチは、Cram\`er積分確率メトリックを用いた逆最適化公式の従来の歪み条件の拡張の開発に基づいています。 元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。 これにより、トランスフォーメーション操作やスタティックルームのインパルス応答シミュレーションに費用がかからないことなく、より堅牢な対向信号の再生をオンザエアで行うことができる。 提案手法は, 単語誤り率と文レベルの精度において, 対人信号の品質の競争性能において, 他目標・非目標のアルゴリズムよりも優れる。 他の7つの強い白と黒の箱の敵攻撃と比較して、提案手法は複数回の連続的な再生に対してより弾力性があり、ノイズの多い環境では高い強靭性を裏付ける。

This paper introduces a novel adversarial algorithm for attacking the state-of-the-art speech-to-text systems, namely DeepSpeech, Kaldi, and Lingvo. Our approach is based on developing an extension for the conventional distortion condition of the adversarial optimization formulation using the Cram\`er integral probability metric. Minimizing over this metric, which measures the discrepancies between original and adversarial samples' distributions, contributes to crafting signals very close to the subspace of legitimate speech recordings. This helps to yield more robust adversarial signals against playback over-the-air without employing neither costly expectation over transformation operations nor static room impulse response simulations. Our approach outperforms other targeted and non-targeted algorithms in terms of word error rate and sentence-level-accur acy with competitive performance on the crafted adversarial signals' quality. Compared to seven other strong white and black-box adversarial attacks, our proposed approach is considerably more resilient against multiple consecutive playbacks over-the-air, corroborating its higher robustness in noisy environments.
翻訳日:2021-03-16 13:44:37 公開日:2021-03-15
# TinyOL: マイクロコントローラ上でオンライン学習するTinyML

TinyOL: TinyML with Online-Learning on Microcontrollers ( http://arxiv.org/abs/2103.08295v1 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic and Thomas Runkler(参考訳) Tiny Machine Learning(TinyML)は、全普及型マイクロコントローラ(MCU)のディープラーニングの民主化を目指す、急成長中の研究分野です。 TinyMLは電力、メモリ、計算の制約に悩まされ、ここ数年で大幅な進歩を遂げている。 しかし、現在のTinyMLソリューションはバッチ/オフライン設定に基づいており、MCUでのニューラルネットワークの推論のみをサポートする。 ニューラルネットワークは、まず、強力なマシン上の大量の事前コンパイルデータを使用してトレーニングされ、次にMCUにフラッシュされる。 これにより、静的モデル、新しいデータへの適応が難しく、さまざまなシナリオの調整が不可能になり、IoT(Internet of Things)の柔軟性を損なうことになる。 そこで本研究では,TinyOL(TinyML with Online-Learning)と呼ばれる,ストリーミングデータに関するデバイス上のトレーニングをインクリメンタルに行うシステムを提案する。 TinyOLはオンライン学習の概念に基づいており、制約付きIoTデバイスに適している。 オートエンコーダニューラルネットワークを用いて,TinyOLの監視下および非監視下セットアップ実験を行った。 最後に,提案手法の性能を報告し,その有効性と実現性を示す。

Tiny machine learning (TinyML) is a fast-growing research area committed to democratizing deep learning for all-pervasive microcontrollers (MCUs). Challenged by the constraints on power, memory, and computation, TinyML has achieved significant advancement in the last few years. However, the current TinyML solutions are based on batch/offline settings and support only the neural network's inference on MCUs. The neural network is first trained using a large amount of pre-collected data on a powerful machine and then flashed to MCUs. This results in a static model, hard to adapt to new data, and impossible to adjust for different scenarios, which impedes the flexibility of the Internet of Things (IoT). To address these problems, we propose a novel system called TinyOL (TinyML with Online-Learning), which enables incremental on-device training on streaming data. TinyOL is based on the concept of online learning and is suitable for constrained IoT devices. We experiment TinyOL under supervised and unsupervised setups using an autoencoder neural network. Finally, we report the performance of the proposed solution and show its effectiveness and feasibility.
翻訳日:2021-03-16 13:44:19 公開日:2021-03-15
# 量子アニールによる画像生成の評価

Assessment of image generation by quantum annealer ( http://arxiv.org/abs/2103.08373v1 )

ライセンス: Link先を確認
Takehito Sato, Masayuki Ohzeki, and Kazuyuki Tanaka(参考訳) 量子アニールは、量子効果を用いた組合せ最適化問題の解法として提案された。 D-Wave Systemsは量子アニーリングハードウェアの生産モデルをリリースした。 しかし、ハードウェアの固有のノイズとさまざまな環境要因は、最適なソリューションの決定を妨げる。 さらに、弱い量子変動を持つ領域の凍結効果は、極低温でのギブス-ボルツマン分布にほぼ従った出力を生成する。 したがって、量子アニーラはイジングスピングラス問題の高速サンプラーとしても機能し、いくつかの研究は量子アニーラを用いたボルツマン機械学習を調査している。 従来のコンピュータにおける従来の方法と量子アニールによるサンプリングの間での分布の標準距離における性能の比較に焦点が当てられていた。 本研究では,生成モデルとしての量子アニールの性能に着目した。 その性能を評価するために、優先順位データセットで訓練されたニューラルネットワークによって与えられる識別器を用意した。 その結果,ボルツマン機械学習の古典的手法と比較して量子アニーリングの性能が向上した。

Quantum annealing was originally proposed as an approach for solving combinatorial optimisation problems using quantum effects. D-Wave Systems has released a production model of quantum annealing hardware. However, the inherent noise and various environmental factors in the hardware hamper the determination of optimal solutions. In addition, the freezing effect in regions with weak quantum fluctuations generates outputs approximately following a Gibbs--Boltzmann distribution at an extremely low temperature. Thus, a quantum annealer may also serve as a fast sampler for the Ising spin-glass problem, and several studies have investigated Boltzmann machine learning using a quantum annealer. Previous developments have focused on comparing the performance in the standard distance of the resulting distributions between conventional methods in classical computers and sampling by a quantum annealer. In this study, we focused on the performance of a quantum annealer as a generative model. To evaluate its performance, we prepared a discriminator given by a neural network trained on an a priori dataset. The evaluation results show a higher performance of quantum annealing compared with the classical approach for Boltzmann machine learning.
翻訳日:2021-03-16 13:44:01 公開日:2021-03-15
# Blind Quantum Computingによる量子プライベート分散学習

Quantum Private Distributed Learning Through Blind Quantum Computing ( http://arxiv.org/abs/2103.08403v1 )

ライセンス: Link先を確認
Weikang Li, Sirui Lu, Dong-Ling Deng(参考訳) プライベート分散学習(private distributed learning)は、複数の分散エンティティが共有ディープネットワークとプライベートデータとを協調的にトレーニングする方法の問題を研究する。 ブラインド量子計算のプロトコルによって提供されるセキュリティにより、量子物理学と機械学習の協力は、プライベート分散学習タスクを解くための例外のない見通しをもたらす可能性がある。 本稿では,プライベートデータを安全に保ちつつ,リモート量子サーバの計算能力を利用することができる分散学習用量子プロトコルを提案する。 具体的には、まず、盲目量子コンピューティングに基づく変分量子分類器のプライベートな単一パーティデリゲートトレーニングのためのプロトコルを導入し、そのプロトコルを差分プライバシーを組み込んだマルチパーティ分散学習に拡張する。 実生活の異なるデータセットを用いて広範な数値シミュレーションを行い,提案プロトコルの有効性をベンチマークする。 私たちのプロトコルは実験的な欠陥に対して堅牢であり、差分プライバシーを組み込んだ後の勾配攻撃下で安全です。 その結果、計算上高価な分散学習タスクをプライバシ保証で処理する可能性を示し、現実のアプリケーションで機械学習の分野におけるセキュリティの観点から量子の利点を探究する貴重なガイドを提供します。

Private distributed learning studies the problem of how multiple distributed entities collaboratively train a shared deep network with their private data unrevealed. With the security provided by the protocols of blind quantum computation, the cooperation between quantum physics and machine learning may lead to unparalleled prospect for solving private distributed learning tasks. In this paper, we introduce a quantum protocol for distributed learning that is able to utilize the computational power of the remote quantum servers while keeping the private data safe. For concreteness, we first introduce a protocol for private single-party delegated training of variational quantum classifiers based on blind quantum computing and then extend this protocol to multiparty private distributed learning incorporated with differential privacy. We carry out extensive numerical simulations with different real-life datasets and encoding strategies to benchmark the effectiveness of our protocol. We find that our protocol is robust to experimental imperfections and is secure under the gradient attack after the incorporation of differential privacy. Our results show the potential for handling computationally expensive distributed learning tasks with privacy guarantees, thus providing a valuable guide for exploring quantum advantages from the security perspective in the field of machine learning with real-life applications.
翻訳日:2021-03-16 13:43:48 公開日:2021-03-15
# 留守中に自動的にニューラルネットワークをロックする

Automatically Lock Your Neural Networks When You're Away ( http://arxiv.org/abs/2103.08472v1 )

ライセンス: Link先を確認
Ge Ren, Jun Wu, Gaolei Li, Shenghong Li(参考訳) スマートフォンとラップトップは顔や指紋認証でアンロックできるが、毎日多くのリクエストに直面するニューラルネットワークは、信頼できないユーザーと信頼できるユーザーを区別する能力がほとんどない。 モデルは商品として取引されるリスクがある。 既存の研究は、商用モデルの知的財産権の所有権に焦点を当てるか、海賊モデルが現れた後にリークの原因を追跡するかのどちらかである。 それにもかかわらず、アウトプットを予測する前のアクティブ識別ユーザーの正当性はまだ検討されていません。 本稿では,スマートフォンの自動ロック機能に類似した,ローカルな動的アクセス制御を備えたエンドツーエンドのニューラルネットワークを実現するモデルロック(M-LOCK)を提案する。 3種類のモデルトレーニング戦略は、1つのニューラルネットワークで認証された入力と疑似入力の間の膨大なパフォーマンスの相違を達成するために不可欠である。 MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHNおよびGTSRBデータセットに基づく広範な実験は、提案されたスキームの実現可能性と有効性を示した。

The smartphone and laptop can be unlocked by face or fingerprint recognition, while neural networks which confront numerous requests every day have little capability to distinguish between untrustworthy and credible users. It makes model risky to be traded as a commodity. Existed research either focuses on the intellectual property rights ownership of the commercialized model, or traces the source of the leak after pirated models appear. Nevertheless, active identifying users legitimacy before predicting output has not been considered yet. In this paper, we propose Model-Lock (M-LOCK) to realize an end-to-end neural network with local dynamic access control, which is similar to the automatic locking function of the smartphone to prevent malicious attackers from obtaining available performance actively when you are away. Three kinds of model training strategy are essential to achieve the tremendous performance divergence between certified and suspect input in one neural network. Extensive experiments based on MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHN and GTSRB datasets demonstrated the feasibility and effectiveness of the proposed scheme.
翻訳日:2021-03-16 13:43:27 公開日:2021-03-15
# (参考訳) ソフト Jaccard Index と 3D Keypoint Set を用いた効率的なペアワイズ神経画像解析 [全文訳有]

Efficient Pairwise Neuroimage Analysis using the Soft Jaccard Index and 3D Keypoint Sets ( http://arxiv.org/abs/2103.06966v2 )

ライセンス: CC BY-SA 4.0
Laurent Chauvin, Kuldeep Kumar, Christian Desrosiers, William Wells III and Matthew Toews(参考訳) 大規模医用画像インデクシングを目的とした可変サイズの画像キーポイント間のペアワイズ距離測定法を提案する。 本手法は,キーポイントの出現と形状の不確実性を考慮した適応カーネルフレームワークを用いて,集合要素間のソフトセット等価性(sse)を考慮したjaccardインデックスを一般化する。 位置とスケールにおけるキーポイント幾何のばらつきを定量化するために,新しいカーネルを提案する。 我々の距離測度は、キーポイントインデックスによる$O(N~\log~N)$演算の$N^2$画像対の間で推定できる。 実験では,T1強調MRI脳量,双生児双生児,兄弟姉妹,異型児の509,545対の関係を,多型遺伝子の100%-25%に分けて評価した。 ソフトセット等価性およびキーポイントジオメトリカーネルは、家族関係の予測において標準ハードセット等価性(HSE)を上回っている。 遺伝子型決定過程の誤りにより、一卵性双生児の識別が100%近くなり、未知の家族ラベルのいくつかのケースは、正しく家族とペアリングされる。 大規模で汎用的な画像データセットの効率的な細かなキュレーションのためのソフトウェアを提供する。

We propose a novel pairwise distance measure between variable-sized sets of image keypoints for the purpose of large-scale medical image indexing. Our measure generalizes the Jaccard index to account for soft set equivalence (SSE) between set elements, via an adaptive kernel framework accounting for uncertainty in keypoint appearance and geometry. Novel kernels are proposed to quantify the variability of keypoint geometry in location and scale. Our distance measure may be estimated between $N^2$ image pairs in $O(N~\log~N)$ operations via keypoint indexing. Experiments validate our method in predicting 509,545 pairwise relationships from T1-weighted MRI brain volumes of monozygotic and dizygotic twins, siblings and half-siblings sharing 100%-25% of their polymorphic genes. Soft set equivalence and keypoint geometry kernels outperform standard hard set equivalence (HSE) in predicting family relationships. High accuracy is achieved, with monozygotic twin identification near 100% and several cases of unknown family labels, due to errors in the genotyping process, are correctly paired with family members. Software is provided for efficient fine-grained curation of large, generic image datasets.
翻訳日:2021-03-16 13:09:13 公開日:2021-03-15
# (参考訳) ヒトポース推定のための深層二重連続ネットワーク [全文訳有]

Deep Dual Consecutive Network for Human Pose Estimation ( http://arxiv.org/abs/2103.07254v2 )

ライセンス: CC BY 4.0
Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji, Bailin Yang, Xun Wang(参考訳) 複雑な状況下でのマルチフレーム人間のポーズ推定は困難です。 最先端のヒト関節検出器は静的画像に対して顕著な結果を示したが,これらのモデルをビデオシーケンスに適用した場合,その性能は短かった。 一般的な欠点は、モーションボケ、ビデオデフォーカス、またはビデオフレーム間の時間依存性をキャプチャできないことから生じる閉塞を処理できないことです。 一方、従来のリカレントニューラルネットワークを直接利用すると、特にポーズオクルージョンを扱う場合、空間コンテキストのモデリングにおいて経験的な困難が生じる。 本稿では,ビデオフレーム間の豊富な時間的手がかりを活用し,キーポイント検出を容易にするマルチフレームの人物ポーズ推定フレームワークを提案する。 3つのモジュールコンポーネントがフレームワークで設計されています。 ポーズ時間マージはキーポイント時空間を符号化して効果的な探索スコープを生成し、ポーズ残差融合モジュールは重み付きポーズ残差を2方向で計算する。 これらは、ポーズ推定の効率的な精錬のためにPose Correction Networkを介して処理されます。 提案手法は,大規模ベンチマークデータセットPoseTrack2017とPoseTrack2018において,多フレームPerson Pose Estimation Challengeの1位にランクインする。 将来の研究に刺激を与えることを期待して、コードをリリースしました。

Multi-frame human pose estimation in complicated situations is challenging. Although state-of-the-art human joints detectors have demonstrated remarkable results for static images, their performances come short when we apply these models to video sequences. Prevalent shortcomings include the failure to handle motion blur, video defocus, or pose occlusions, arising from the inability in capturing the temporal dependency among video frames. On the other hand, directly employing conventional recurrent neural networks incurs empirical difficulties in modeling spatial contexts, especially for dealing with pose occlusions. In this paper, we propose a novel multi-frame human pose estimation framework, leveraging abundant temporal cues between video frames to facilitate keypoint detection. Three modular components are designed in our framework. A Pose Temporal Merger encodes keypoint spatiotemporal context to generate effective searching scopes while a Pose Residual Fusion module computes weighted pose residuals in dual directions. These are then processed via our Pose Correction Network for efficient refining of pose estimations. Our method ranks No.1 in the Multi-frame Person Pose Estimation Challenge on the large-scale benchmark datasets PoseTrack2017 and PoseTrack2018. We have released our code, hoping to inspire future research.
翻訳日:2021-03-16 12:18:40 公開日:2021-03-15
# CANINE:言語表現のための効率的なトークン化フリーエンコーダの事前トレーニング

CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation ( http://arxiv.org/abs/2103.06874v2 )

ライセンス: Link先を確認
Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting(参考訳) パイプライン化されたNLPシステムは、主にエンドツーエンドのニューラルモデリングに取って代わられているが、一般的に使われているほとんどのモデルは、まだ明示的なトークン化ステップを必要とする。 データ由来のサブワードレキシコンに基づく最近のトークン化アプローチは手作業によるトークン化よりも脆くはないが、これらの手法はすべての言語に等しく適合せず、固定語彙の使用はモデルの適応能力を制限する可能性がある。 本稿では,明示的なトークン化や語彙を伴わず,文字列上で直接動作するニューラルネットワークエンコーダである canine と,ハードトークン境界の代わりにソフトインダクティブバイアスを持つ事前学習戦略を提案する。 微細な入力を効果的かつ効率的に使用するために、入力シーケンスの長さを減少させるダウンサンプリングと、コンテキストをエンコードするディープトランススタックを組み合わせる。 CANINEは、モデルパラメータが28%少ないにもかかわらず、TyDi QAにおいて、同等のmBERTモデルを >= 1 F1 で上回っている。

Pipelined NLP systems have largely been superseded by end-to-end neural modeling, yet nearly all commonly-used models still require an explicit tokenization step. While recent tokenization approaches based on data-derived subword lexicons are less brittle than manually engineered tokenizers, these techniques are not equally suited to all languages, and the use of any fixed vocabulary may limit a model's ability to adapt. In this paper, we present CANINE, a neural encoder that operates directly on character sequences, without explicit tokenization or vocabulary, and a pre-training strategy with soft inductive biases in place of hard token boundaries. To use its finer-grained input effectively and efficiently, CANINE combines downsampling, which reduces the input sequence length, with a deep transformer stack, which encodes context. CANINE outperforms a comparable mBERT model by >= 1 F1 on TyDi QA, a challenging multilingual benchmark, despite having 28% fewer model parameters.
翻訳日:2021-03-16 11:56:15 公開日:2021-03-15
# MagFace: 顔認識と品質評価のためのユニバーサル表現

MagFace: A Universal Representation for Face Recognition and Quality Assessment ( http://arxiv.org/abs/2103.06627v2 )

ライセンス: Link先を確認
Qiang Meng, Shichao Zhao, Zhida Huang, Feng Zhou(参考訳) 顔認識システムの性能は、取得した顔の変動が増加すると低下する。 先行作業は、前処理の顔品質を監視するか、顔機能と一緒にデータの不確実性を予測することにより、この問題を緩和します。 本論文では,与えられた顔の質を測ることができる普遍的特徴埋め込みを学習する損失のカテゴリであるMagFaceを提案する。 新しい損失の下では、主題が認識される可能性が高い場合、単調に埋め込み機能の大きさが増加することが証明できます。 さらに、MagFaceは、ハードサンプルを押しながら、簡単なサンプルをクラスセンターに引っ張ることで、よく構造化されたクラス内機能分布を学ぶための適応メカニズムを導入している。 これにより、ノイズの多い低品質サンプルでのモデルオーバーフィットを防ぎ、野生の顔認識を改善します。 顔認識、品質評価、クラスタリングに関する広範な実験は、最先端のものよりも優位性を示しています。 コードはhttps://github.com/I rvingMeng/MagFace.co mで入手できる。

The performance of face recognition system degrades when the variability of the acquired faces increases. Prior work alleviates this issue by either monitoring the face quality in pre-processing or predicting the data uncertainty along with the face feature. This paper proposes MagFace, a category of losses that learn a universal feature embedding whose magnitude can measure the quality of the given face. Under the new loss, it can be proven that the magnitude of the feature embedding monotonically increases if the subject is more likely to be recognized. In addition, MagFace introduces an adaptive mechanism to learn a wellstructured within-class feature distributions by pulling easy samples to class centers while pushing hard samples away. This prevents models from overfitting on noisy low-quality samples and improves face recognition in the wild. Extensive experiments conducted on face recognition, quality assessments as well as clustering demonstrate its superiority over state-of-the-arts. The code is available at https://github.com/I rvingMeng/MagFace.
翻訳日:2021-03-16 11:55:35 公開日:2021-03-15
# タイムスタンプからの時間的アクションセグメンテーション

Temporal Action Segmentation from Timestamp Supervision ( http://arxiv.org/abs/2103.06669v2 )

ライセンス: Link先を確認
Zhe Li, Yazan Abu Farha, Juergen Gall(参考訳) テンポラリアクションセグメンテーションアプローチは、最近非常に成功しています。 しかし、そのようなモデルを訓練するためにフレームワイズラベルでビデオに注釈をつけるのは、非常に高価で時間がかかります。 順序付けられたアクションリストのみを使用してトレーニングされた弱い教師付きメソッドは、アノテーションの労力をはるかに少なくするが、完全に監督されたアプローチよりもパフォーマンスはずっと悪い。 本稿では,時間的行動分割タスクのタイムスタンプ管理について紹介する。 タイムスタンプは弱い教師のアプローチに対して同等のアノテーションを必要とするが、より監督的なシグナルを提供する。 タイムスタンプの監視の有効性を示すために,タイムスタンプアノテーションのみを用いてセグメンテーションモデルを訓練する手法を提案する。 提案手法では, モデル出力とアノテーション付きタイムスタンプを用いて, 動作変化を検出してフレームワイズラベルを生成する。 さらに、予測確率がタイムスタンプまでの距離が増加するにつれて単調に減少させる信頼損失を導入する。 これにより、アクションの最も独特なフレームだけでなく、すべてがトレーニング中に学習されることが保証される。 4つのデータセットの評価は、タイムスタンプアノテーションで訓練されたモデルが、完全に監視されたアプローチに匹敵するパフォーマンスを達成することを示している。

Temporal action segmentation approaches have been very successful recently. However, annotating videos with frame-wise labels to train such models is very expensive and time consuming. While weakly supervised methods trained using only ordered action lists require much less annotation effort, the performance is still much worse than fully supervised approaches. In this paper, we introduce timestamp supervision for the temporal action segmentation task. Timestamps require a comparable annotation effort to weakly supervised approaches, and yet provide a more supervisory signal. To demonstrate the effectiveness of timestamp supervision, we propose an approach to train a segmentation model using only timestamps annotations. Our approach uses the model output and the annotated timestamps to generate frame-wise labels by detecting the action changes. We further introduce a confidence loss that forces the predicted probabilities to monotonically decrease as the distance to the timestamps increases. This ensures that all and not only the most distinctive frames of an action are learned during training. The evaluation on four datasets shows that models trained with timestamps annotations achieve comparable performance to the fully supervised approaches.
翻訳日:2021-03-16 11:55:19 公開日:2021-03-15
# 音声表現の多形式コントラスト学習

Multi-Format Contrastive Learning of Audio Representations ( http://arxiv.org/abs/2103.06508v2 )

ライセンス: Link先を確認
Luyu Wang, Aaron van den Oord(参考訳) 近年の進歩は、シングルモーダル法と比較してマルチモーダルトレーニングの利点を示唆している。 この見解とは対照的に、我々の研究では、同様の利益は単一のモダリティの異なる形式で訓練することで得られる。 特に,生音声とそのスペクトル表現との一致を最大化することにより,音声表現の学習におけるコントラスト学習フレームワークの利用について検討する。 このマルチフォーマット戦略によるシングルフォーマット戦略による大きな利益が得られます。 さらに,下流オーディオセットとesc-50分類タスクにおいて,音声のみの手法により,平均精度0.376,精度90.5%の新たな最先端結果が得られた。

Recent advances suggest the advantage of multi-modal training in comparison with single-modal methods. In contrast to this view, in our work we find that similar gain can be obtained from training with different formats of a single modality. In particular, we investigate the use of the contrastive learning framework to learn audio representations by maximizing the agreement between the raw audio and its spectral representation. We find a significant gain using this multi-format strategy against the single-format counterparts. Moreover, on the downstream AudioSet and ESC-50 classification task, our audio-only approach achieves new state-of-the-art results with a mean average precision of 0.376 and an accuracy of 90.5%, respectively.
翻訳日:2021-03-16 11:54:34 公開日:2021-03-15