このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200820となっている論文です。

PDF登録状況(公開日: 20200820)

TitleAuthorsAbstract論文公表日・翻訳日
# 逐次量子ランダムアクセスコードの実験的実証

Experimental Demonstration of Sequential Quantum Random Access Codes ( http://arxiv.org/abs/2001.04885v2 )

ライセンス: Link先を確認
Giulio Foletto, Luca Calderaro, Giuseppe Vallone, Paolo Villoresi(参考訳) ランダムアクセスコード(英: random access code、RAC)は、メッセージの任意のビットを非自明な確率で復元できる方法で、短いメッセージにエンコードする戦略である。 古典的ビットではなく量子ビットによるエンコーディングは、この確率を改善できるが、重要な制限がある: 標準量子測定による乱れのために、量子ビットは1回以上使用できない。 しかし、Mohan, Tavakoli, and Brunner [New J. Phys. 21 083034, (2019)]が最近示したように、弱い測定によりこの問題が軽減され、2つのシーケンシャルデコーダが古典的RACよりも優れた性能を発揮する。 単一光子を用いて、これらの弱い測定が実現可能であり、非古典的成功確率は2つのデコーダによって達成可能であることを示す。 測定強度の異なる値に対してこれを証明し,実験結果を用いて厳密な結束を行い,設定の正確性を確認した。 これは、信頼できないデバイスの自己テストのような量子情報タスクにシーケンシャル量子RACを使うことの可能性を証明する。

A random access code (RAC) is a strategy to encode a message into a shorter one in a way that any bit of the original can still be recovered with nontrivial probability. Encoding with quantum bits rather than classical ones can improve this probability, but has an important limitation: due to the disturbance caused by standard quantum measurements, qubits cannot be used more than once. However, as recently shown by Mohan, Tavakoli, and Brunner [New J. Phys. 21 083034, (2019)], weak measurements can alleviate this problem, allowing two sequential decoders to perform better than with the best classical RAC. We use single photons to experimentally show that these weak measurements are feasible and nonclassical success probabilities are achievable by two decoders. We prove this for different values of the measurement strength and use our experimental results to put tight bounds on them, certifying the accuracy of our setting. This proves the feasibility of using sequential quantum RACs for quantum information tasks such as the self-testing of untrusted devices.
翻訳日:2023-01-11 13:09:26 公開日:2020-08-20
# 定期撮影における自動肺分画は, 主にデータ多様性の問題であり, 方法論の問題ではない

Automatic lung segmentation in routine imaging is primarily a data diversity problem, not a methodology problem ( http://arxiv.org/abs/2001.11767v2 )

ライセンス: Link先を確認
Johannes Hofmanninger, Florian Prayer, Jeanny Pan, Sebastian Rohrich, Helmut Prosch and Georg Langs(参考訳) 解剖学的構造の自動分割は画像解析の重要なステップである。 ctで肺の分画を行うには、異なるデータセットで訓練され検証される高度なパイプラインを含む様々なアプローチが存在する。 しかしながら、これらのアプローチが疾患にまたがる臨床応用性は限られている。 様々なデータセットで訓練された4つの総合的なディープラーニングアプローチと、利用可能な2つの肺分節アルゴリズムを比較した。 6種類以上の疾患パターンと3つのデータセットを併用した画像データの評価を行った。 異なるディープラーニング手法を用いて、テストデータセット上のDice類似度係数(DSC)は0.02以下であった。 多様なルーチンデータセット(n = 36)でトレーニングされた場合、標準アプローチ(U-net)は、Lung tissue Research Consortium(0.94$\pm$ 0.13, p = 0.024)やAnatomy 3(0.92$\pm$ 0.15, p = 0.001)のような公開データセットと比較して、より高いDSC(0.97$\pm$ 0.05)が得られる。 複数の疾患をカバーするルーチンデータ(n = 231)に基づいてトレーニングされたu-netは、参照メソッドと比較して0.098$\pm$ 0.03と0.094$\pm$ 0.12(p = 0.024)のdscを生成する。

Automated segmentation of anatomical structures is a crucial step in image analysis. For lung segmentation in computed tomography, a variety of approaches exist, involving sophisticated pipelines trained and validated on different datasets. However, the clinical applicability of these approaches across diseases remains limited. We compared four generic deep learning approaches trained on various datasets and two readily available lung segmentation algorithms. We performed evaluation on routine imaging data with more than six different disease patterns and three published data sets. Using different deep learning approaches, mean Dice similarity coefficients (DSCs) on test datasets varied not over 0.02. When trained on a diverse routine dataset (n = 36) a standard approach (U-net) yields a higher DSC (0.97 $\pm$ 0.05) compared to training on public datasets such as Lung Tissue Research Consortium (0.94 $\pm$ 0.13, p = 0.024) or Anatomy 3 (0.92 $\pm$ 0.15, p = 0.001). Trained on routine data (n = 231) covering multiple diseases, U-net compared to reference methods yields a DSC of 0.98 $\pm$ 0.03 versus 0.94 $\pm$ 0.12 (p = 0.024).
翻訳日:2023-01-05 05:45:05 公開日:2020-08-20
# ランダム特徴をもつ学習における一般化誤差と隠れ多様体モデル

Generalisation error in learning with random features and the hidden manifold model ( http://arxiv.org/abs/2002.09339v2 )

ライセンス: Link先を確認
Federica Gerace, Bruno Loureiro, Florent Krzakala, Marc M\'ezard and Lenka Zdeborov\'a(参考訳) ランダムな特徴を持つ学習,遅延学習システムにおけるニューラルネットワーク,隠れ多様体モデルなど,興味のある問題を含む合成データセットの一般化線形回帰と分類について検討した。 本稿では,高次元レジームを考察し,統計物理学のレプリカ法を用いて,これらの問題における漸近的一般化性能の閉形式表現を,非パラメータレジームと過パラメータレジームの両方において有効であること,および一般化線形モデル損失関数の広範な選択について述べる。 特に,補間しきい値のピークを持つロジスティック回帰のいわゆる二重降下挙動を解析的に得る方法を示し,ランダム特徴の学習におけるランダムガウス射影に対する直交の優位性を示し,隠れ多様体モデルによって生成されたデータにおける相関が果たす役割について考察する。 これらの特定の問題への関心の他に、この写本で導入された理論形式主義は、より複雑なタスクへのさらなる拡張の道を提供する。

We study generalised linear regression and classification for a synthetically generated dataset encompassing different problems of interest, such as learning with random features, neural networks in the lazy training regime, and the hidden manifold model. We consider the high-dimensional regime and using the replica method from statistical physics, we provide a closed-form expression for the asymptotic generalisation performance in these problems, valid in both the under- and over-parametrised regimes and for a broad choice of generalised linear model loss functions. In particular, we show how to obtain analytically the so-called double descent behaviour for logistic regression with a peak at the interpolation threshold, we illustrate the superiority of orthogonal against random Gaussian projections in learning with random features, and discuss the role played by correlations in the data generated by the hidden manifold model. Beyond the interest in these particular problems, the theoretical formalism introduced in this manuscript provides a path to further extensions to more complex tasks.
翻訳日:2022-12-30 01:19:40 公開日:2020-08-20
# 部分空間フィッティングの回帰--一般化エラーの二重発色に及ぼすスーパービジョンとorthonormality制約の影響

Subspace Fitting Meets Regression: The Effects of Supervision and Orthonormality Constraints on Double Descent of Generalization Errors ( http://arxiv.org/abs/2002.10614v3 )

ライセンス: Link先を確認
Yehuda Dar, Paul Mayer, Lorenzo Luzi, Richard G. Baraniuk(参考訳) 推定された部分空間がトレーニング例を完全に補間できる過パラメータ設定における線形部分空間嵌合問題について検討する。 我々のスコープは、トレーニングデータ(所望の低次元写像の入出力例の割合)における様々なレベルの監督と学習演算子を定義するベクトルの正則性を含む部分空間適合タスクに対する最小二乗解を含む。 この柔軟な問題群は、厳密な正規直交を強制する標準的な教師なし部分空間フィッティングと、完全に教師ありかつ線型作用素構造を制約しない対応する回帰タスクを結びつける。 このクラスの問題は、各座標が一意的な監督レベルと正則性制約のソフトネスを持つ問題インスタンスを誘導する監督正規化平面上で定義される。 この平面を探索し、対応する部分空間フィッティング問題の一般化誤差は、設定がより監督され、正規に制約されないようになるにつれて、二重降下傾向に従うことを示す。

We study the linear subspace fitting problem in the overparameterized setting, where the estimated subspace can perfectly interpolate the training examples. Our scope includes the least-squares solutions to subspace fitting tasks with varying levels of supervision in the training data (i.e., the proportion of input-output examples of the desired low-dimensional mapping) and orthonormality of the vectors defining the learned operator. This flexible family of problems connects standard, unsupervised subspace fitting that enforces strict orthonormality with a corresponding regression task that is fully supervised and does not constrain the linear operator structure. This class of problems is defined over a supervision-orthonormality plane, where each coordinate induces a problem instance with a unique pair of supervision level and softness of orthonormality constraints. We explore this plane and show that the generalization errors of the corresponding subspace fitting problems follow double descent trends as the settings become more supervised and less orthonormally constrained.
翻訳日:2022-12-28 20:44:25 公開日:2020-08-20
# 3次元幾何学による奥行き・光流・詩の教師なし学習

Unsupervised Learning of Depth, Optical Flow and Pose with Occlusion from 3D Geometry ( http://arxiv.org/abs/2003.00766v3 )

ライセンス: Link先を確認
Guangming Wang, Chi Zhang, Hesheng Wang, Jingchuan Wang, Yong Wang, Xinlei Wang(参考訳) 自動運転では、モノキュラーシーケンスには多くの情報が含まれている。 近年,単眼深度推定,カメラエゴモーション推定,光学フロー推定が注目されている。 上記のタスクを解析することにより、中間フレームの画素は、剛性領域、非剛性領域、隠蔽領域の3つの部分にモデル化される。 深さとポーズの教師なしの合同訓練では、オクルード領域を明示的に分割することができる。 咬合情報は、奥行き位置と光流によって再構成された画像が閉塞領域では無効となるため、奥行き、ポーズ、光流れの教師なし学習に使用される。 奥行きとポーズネットワークのトレーニングにおいて、動きや照明の変化によって干渉される不一致画素をさらに排除するように設計された。 この方法は、光学フローネットワークのトレーニングにおいて、いくつかの自明な不一致画素を除外するためにも用いられる。 無テクスチャ領域の深さ劣化を抑制するために, 最大正規化法を提案する。 閉鎖領域では、深度とカメラの動きがより信頼性の高い動き推定を提供するため、光学流の教師なし学習の指導に使用できる。 KITTIデータセットを用いた実験により,オクルージョン領域,剛性領域,および非剛性領域の完全かつ明示的なセグメンテーションに基づくモデルが,教師なしの損失に対応することにより,3つのタスクのパフォーマンスが著しく向上することを示した。 ソースコードは、https://github.com/guangmingw/DOPlearning.comで入手できる。

In autonomous driving, monocular sequences contain lots of information. Monocular depth estimation, camera ego-motion estimation and optical flow estimation in consecutive frames are high-profile concerns recently. By analyzing tasks above, pixels in the middle frame are modeled into three parts: the rigid region, the non-rigid region, and the occluded region. In joint unsupervised training of depth and pose, we can segment the occluded region explicitly. The occlusion information is used in unsupervised learning of depth, pose and optical flow, as the image reconstructed by depth-pose and optical flow will be invalid in occluded regions. A less-than-mean mask is designed to further exclude the mismatched pixels interfered with by motion or illumination change in the training of depth and pose networks. This method is also used to exclude some trivial mismatched pixels in the training of the optical flow network. Maximum normalization is proposed for depth smoothness term to restrain depth degradation in textureless regions. In the occluded region, as depth and camera motion can provide more reliable motion estimation, they can be used to instruct unsupervised learning of optical flow. Our experiments in KITTI dataset demonstrate that the model based on three regions, full and explicit segmentation of the occlusion region, the rigid region, and the non-rigid region with corresponding unsupervised losses can improve performance on three tasks significantly. The source code is available at: https://github.com/guangmingw/DOPlearning.
翻訳日:2022-12-27 05:24:24 公開日:2020-08-20
# StochasticRank: スケールフリー離散関数のグローバル最適化

StochasticRank: Global Optimization of Scale-Free Discrete Functions ( http://arxiv.org/abs/2003.02122v2 )

ライセンス: Link先を確認
Aleksei Ustimenko, Liudmila Prokhorenkova(参考訳) 本稿では,ランキングメトリクスを直接最適化する強力な,効率的なフレームワークを提案する。 損失の離散構造が原因で問題が発生し,それに対応するために,確率的滑らか化と部分積分に基づく新しい勾配推定という2つの重要な手法を導入する。 従来の平滑化手法はバイアスを生じさせ、適切なデバイアスの普遍的な解を与える。 さらに,最近提案する確率勾配ランジュバンブースティングアルゴリズムを用いることで,本手法のグローバル収束を保証できる。 提案アルゴリズムは,CatBoostグラデーション向上ライブラリの一部として実装され,いくつかの学習からランクへのデータセットに対する既存のアプローチよりも優れている。 評価基準に加えて、我々のフレームワークは任意のスケールフリー離散損失関数に適用できる。

In this paper, we introduce a powerful and efficient framework for direct optimization of ranking metrics. The problem is ill-posed due to the discrete structure of the loss, and to deal with that, we introduce two important techniques: stochastic smoothing and novel gradient estimate based on partial integration. We show that classic smoothing approaches may introduce bias and present a universal solution for a proper debiasing. Importantly, we can guarantee global convergence of our method by adopting a recently proposed Stochastic Gradient Langevin Boosting algorithm. Our algorithm is implemented as a part of the CatBoost gradient boosting library and outperforms the existing approaches on several learning-to-rank datasets. In addition to ranking metrics, our framework applies to any scale-free discrete loss function.
翻訳日:2022-12-26 12:23:40 公開日:2020-08-20
# disir:インタラクティブな改良による深部画像分割

DISIR: Deep Image Segmentation with Interactive Refinement ( http://arxiv.org/abs/2003.14200v2 )

ライセンス: Link先を確認
Gaston Lenczner, Bertrand Le Saux, Nicola Luminari, Adrien Chan Hon Tong and Guy Le Besnerais(参考訳) 本稿では,空中画像のマルチクラスセグメンテーションのためのインタラクティブなアプローチを提案する。 正確には、RGBイメージとアノテーションの両方を活用するディープニューラルネットワークに基づいている。 画像のみに基づく最初の出力から、ネットワークは画像とユーザアノテーションの結合を使ってインタラクティブにこのセグメンテーションマップを洗練します。 重要なのは、ユーザアノテーションがネットワークの入力(重みではなく)を変更し、高速でスムーズなプロセスを可能にすることです。 2つのパブリックな航空データセットの実験を通して、ユーザアノテーションは極めて報奨的であることを示しています。 アノテーションの表現、トレーニングデータのボリューム、ネットワークアーキテクチャなど、フレームワークのさまざまな側面の影響を分析します。 コードはhttps://github.com/delair-ai/DISIRで入手できる。

This paper presents an interactive approach for multi-class segmentation of aerial images. Precisely, it is based on a deep neural network which exploits both RGB images and annotations. Starting from an initial output based on the image only, our network then interactively refines this segmentation map using a concatenation of the image and user annotations. Importantly, user annotations modify the inputs of the network - not its weights - enabling a fast and smooth process. Through experiments on two public aerial datasets, we show that user annotations are extremely rewarding: each click corrects roughly 5000 pixels. We analyze the impact of different aspects of our framework such as the representation of the annotations, the volume of training data or the network architecture. Code is available at https://github.com/delair-ai/DISIR.
翻訳日:2022-12-18 01:41:32 公開日:2020-08-20
# 学習可能なウェーブレット変換によるニューラルネットワーク圧縮

Neural network compression via learnable wavelet transforms ( http://arxiv.org/abs/2004.09569v3 )

ライセンス: Link先を確認
Moritz Wolter (Bonn University, Fraunhofer Center for Machine Learning and SCAI) and Shaohui Lin (National University of Singapore) and Angela Yao (National University of Singapore)(参考訳) ウェーブレットはデータ圧縮でよく知られているが、ニューラルネットワークの圧縮にはほとんど適用されていない。 本稿では,高速ウェーブレット変換を用いてニューラルネットワークの線形層を圧縮する方法を示す。 線形層は、リカレントニューラルネットワーク(RNN)のパラメータのかなりの部分を占めている。 提案手法により,ウェーブレット基底と対応する係数の両方を学習し,RNNの線形層を効率的に表現することができる。 我々のウェーブレット圧縮RNNは、パラメータが著しく少ないが、合成および実世界のRNNベンチマークの最先端と競合する。 ウェーブレット最適化は、多くの余分な重みを伴わず、基盤の柔軟性を付加する。 ソースコードはhttps://github.com/v0lta/wavelet-network-compressionで入手できる。

Wavelets are well known for data compression, yet have rarely been applied to the compression of neural networks. This paper shows how the fast wavelet transform can be used to compress linear layers in neural networks. Linear layers still occupy a significant portion of the parameters in recurrent neural networks (RNNs). Through our method, we can learn both the wavelet bases and corresponding coefficients to efficiently represent the linear layers of RNNs. Our wavelet compressed RNNs have significantly fewer parameters yet still perform competitively with the state-of-the-art on synthetic and real-world RNN benchmarks. Wavelet optimization adds basis flexibility, without large numbers of extra weights. Source code is available at https://github.com/v0lta/Wavelet-network-compression.
翻訳日:2022-12-11 17:52:04 公開日:2020-08-20
# 人口統計学は毒性の原因ではない--例重み付けによるテキスト分類における識別の緩和

Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting ( http://arxiv.org/abs/2004.14088v3 )

ライセンス: Link先を確認
Guanhua Zhang, Bing Bai, Junqi Zhang, Kun Bai, Conghui Zhu and Tiejun Zhao(参考訳) 近年のテキスト分類の普及に伴い、研究者はテキスト分類データセットに意図しない偏りがあることを発見した。 例えば、一部の人口統計学的アイデンティティ項(例えば「ゲイ」や「ブラック」)を含むテキストは、既存の乱用言語検出データセットで乱用されやすい。 結果として、これらのデータセットで訓練されたモデルは、単に「ゲイ」という言葉のために、"she makes me happy to be gay"のような文を乱用していると考える可能性がある。 本稿では,テキスト分類データセットにおける意図しないバイアスを,非識別分布から識別分布への選択バイアスの一種として定式化する。 さらに,この形式化に基づき,非差別分布をインスタンス重み付けを用いて回復し,事前定義された人口統計学的アイデンティティのセットとは別に,追加のリソースやアノテーションを必要としないモデル非依存デバイアストレーニングフレームワークを提案する。 実験により, 本手法はモデルの一般化能力を著しく損なうことなく, 意図しないバイアスの影響を効果的に軽減できることを示した。

With the recent proliferation of the use of text classifications, researchers have found that there are certain unintended biases in text classification datasets. For example, texts containing some demographic identity-terms (e.g., "gay", "black") are more likely to be abusive in existing abusive language detection datasets. As a result, models trained with these datasets may consider sentences like "She makes me happy to be gay" as abusive simply because of the word "gay." In this paper, we formalize the unintended biases in text classification datasets as a kind of selection bias from the non-discrimination distribution to the discrimination distribution. Based on this formalization, we further propose a model-agnostic debiasing training framework by recovering the non-discrimination distribution using instance weighting, which does not require any extra resources or annotations apart from a pre-defined set of demographic identity-terms. Experiments demonstrate that our method can effectively alleviate the impacts of the unintended biases without significantly hurting models' generalization ability.
翻訳日:2022-12-08 10:07:20 公開日:2020-08-20
# 予測浄化によるモデルインバージョンとメンバーシップ推論攻撃の防御

Defending Model Inversion and Membership Inference Attacks via Prediction Purification ( http://arxiv.org/abs/2005.03915v2 )

ライセンス: Link先を確認
Ziqi Yang, Bin Shao, Bohan Xuan, Ee-Chien Chang, Fan Zhang(参考訳) ニューラルネットワークは、モデル反転攻撃やメンバーシップ推論攻撃のようなデータ推論攻撃の影響を受けやすく、攻撃者はターゲット分類器によって予測される信頼スコアからデータサンプルの再構成とメンバシップを推測することができる。 本稿では,データ推論攻撃を防御するための統一的な手法,すなわち浄化フレームワークを提案する。 ターゲット分類器が予測する信頼度スコアベクトルを分散を減少させることで純化する。 浄化剤は、特定の攻撃を敵の学習によって防御するのにさらに専門化することができる。 ベンチマークデータセットと分類器のアプローチを評価する。 浄化装置が1つの攻撃に向けられている場合、他の攻撃を自然に防御し、2つの攻撃の関連性を実証的に示す。 浄化器は両方の攻撃を効果的に防御することができる。 例えば、メンバシップ推論の精度を最大15%削減し、モデル反転誤差を最大4.5%向上させることができる。 さらに、0.4%未満の分類精度低下と5.5%未満の信頼性スコアが生じる。

Neural networks are susceptible to data inference attacks such as the model inversion attack and the membership inference attack, where the attacker could infer the reconstruction and the membership of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a unified approach, namely purification framework, to defend data inference attacks. It purifies the confidence score vectors predicted by the target classifier by reducing their dispersion. The purifier can be further specialized in defending a particular attack via adversarial learning. We evaluate our approach on benchmark datasets and classifiers. We show that when the purifier is dedicated to one attack, it naturally defends the other one, which empirically demonstrates the connection between the two attacks. The purifier can effectively defend both attacks. For example, it can reduce the membership inference accuracy by up to 15% and increase the model inversion error by a factor of up to 4. Besides, it incurs less than 0.4% classification accuracy drop and less than 5.5% distortion to the confidence scores.
翻訳日:2022-12-05 13:09:32 公開日:2020-08-20
# 発話速度の異なる調音運動変換のためのアテンションとエンコーダ-デコーダモデル

Attention and Encoder-Decoder based models for transforming articulatory movements at different speaking rates ( http://arxiv.org/abs/2006.03107v2 )

ライセンス: Link先を確認
Abhayjeet Singh, Aravind Illa, Prasanta Kumar Ghosh(参考訳) 異なる速度で話す間、調音器(舌、唇など)は異なる動きをしがちであり、発音も異なる期間である。 これまで、アフィン変換とDNNは、調音運動を中性(N2F)から中性(N2S)から低速(N2S)に変換するために用いられてきた。 本研究では,エンコーダ・デコーダ・フレームワークであるAstNetを用いて,所要時間とその変換率をモデル化し,既存の変換手法を改良する。 本研究では,LSTMを用いたエンコーダデコーダアーキテクチャを提案する。 発話速度の時間変化をモデル化するために,DTWを用いて軌道を異なる速度で調整する必要のない注意ネットワークを配置する。 提案した AstNet を用いて,音素特異的持続時間解析を行い,その持続時間について検討する。 調音運動の範囲は発話速度と相関するので,n2f,n2sにおける調音運動の程度をastnetがどの程度予測できるかを検討するために,異なる速度で変換された調音運動の振幅を解析した。 AstNetは、既存の変換手法よりも音節運動の持続時間と範囲をモデル化し、より正確な変換を行うことができる。

While speaking at different rates, articulators (like tongue, lips) tend to move differently and the enunciations are also of different durations. In the past, affine transformation and DNN have been used to transform articulatory movements from neutral to fast(N2F) and neutral to slow(N2S) speaking rates [1]. In this work, we improve over the existing transformation techniques by modeling rate specific durations and their transformation using AstNet, an encoder-decoder framework with attention. In the current work, we propose an encoder-decoder architecture using LSTMs which generates smoother predicted articulatory trajectories. For modeling duration variations across speaking rates, we deploy attention network, which eliminates the needto align trajectories in different rates using DTW. We performa phoneme specific duration analysis to examine how well duration is transformed using the proposed AstNet. As the range of articulatory motions is correlated with speaking rate, we also analyze amplitude of the transformed articulatory movements at different rates compared to their original counterparts, to examine how well the proposed AstNet predicts the extent of articulatory movements in N2F and N2S. We observe that AstNet could model both duration and extent of articulatory movements better than the existing transformation techniques resulting in more accurate transformed articulatory trajectories.
翻訳日:2022-11-25 12:46:24 公開日:2020-08-20
# 深部表現学習のための教師なし画像分類

Unsupervised Image Classification for Deep Representation Learning ( http://arxiv.org/abs/2006.11480v2 )

ライセンス: Link先を確認
Weijie Chen and Shiliang Pu and Di Xie and Shicai Yang and Yilu Guo and Luojun Lin(参考訳) 自己教師あり学習に対する深いクラスタリングは、教師なしの視覚的表現学習にとって非常に重要かつ有望な方向性である。 しかしながら、クラスタ化の主要なコンポーネントであるembeding clusteringは、データセット全体のグローバル潜在埋め込みを節約する必要性から、非常に大規模なデータセットへの拡張を制限している。 この作業では、パフォーマンスを低下させることなく、このフレームワークをよりシンプルでエレガントにすることを目指しています。 本研究では,標準教師あり訓練法と非常によく似た組込みクラスタリングを用いず,教師なし画像分類フレームワークを提案する。 詳細な解釈のために,深層クラスタリングとコントラスト学習との関係をさらに分析する。 本手法の有効性を証明するため,imagenetデータセットの広範な実験を行った。 さらに,トランスファーラーニングベンチマークを用いた実験により,複数ラベル画像分類,オブジェクト検出,意味セグメンテーション,少数ショット画像分類などの下流タスクへの一般化が確認された。

Deep clustering against self-supervised learning is a very important and promising direction for unsupervised visual representation learning since it requires little domain knowledge to design pretext tasks. However, the key component, embedding clustering, limits its extension to the extremely large-scale dataset due to its prerequisite to save the global latent embedding of the entire dataset. In this work, we aim to make this framework more simple and elegant without performance decline. We propose an unsupervised image classification framework without using embedding clustering, which is very similar to standard supervised training manner. For detailed interpretation, we further analyze its relation with deep clustering and contrastive learning. Extensive experiments on ImageNet dataset have been conducted to prove the effectiveness of our method. Furthermore, the experiments on transfer learning benchmarks have verified its generalization to other downstream tasks, including multi-label image classification, object detection, semantic segmentation and few-shot image classification.
翻訳日:2022-11-18 22:57:11 公開日:2020-08-20
# ブックワーム連続学習--ゼロショット学習と連続学習を超えて

Bookworm continual learning: beyond zero-shot learning and continual learning ( http://arxiv.org/abs/2006.15176v3 )

ライセンス: Link先を確認
Kai Wang, Luis Herranz, Anjan Dutta, Joost van de Weijer(参考訳) そこで本研究では,unseenクラスを意味モデルによって推論し,視覚的モデルを継続的に更新できるフレキシブルな設定であるbookworm continual learning(bcl)を提案する。 したがって、BCLは連続学習(CL)とゼロショット学習(ZSL)の両方を一般化する。 また、過去と将来の両方のクラスの特徴が生成されるBCLに対処するための双方向イマジネーション(BImag)フレームワークを提案する。 本研究では,属性に対する特徴生成器の条件付けが継続学習能力を実際に損なうことを観察し,この問題を緩和するための2つの変種(共役クラス属性条件付けと非対称生成)を提案する。

We propose bookworm continual learning(BCL), a flexible setting where unseen classes can be inferred via a semantic model, and the visual model can be updated continually. Thus BCL generalizes both continual learning (CL) and zero-shot learning (ZSL). We also propose the bidirectional imagination (BImag) framework to address BCL where features of both past and future classes are generated. We observe that conditioning the feature generator on attributes can actually harm the continual learning ability, and propose two variants (joint class-attribute conditioning and asymmetric generation) to alleviate this problem.
翻訳日:2022-11-16 21:57:26 公開日:2020-08-20
# ホップサンプリング:非定常環境のための単純な正規化グラフ学習

Hop Sampling: A Simple Regularized Graph Learning for Non-Stationary Environments ( http://arxiv.org/abs/2006.14897v2 )

ライセンス: Link先を確認
Young-Jin Park, Kyuyong Shin, Kyung-Min Kim(参考訳) グラフ表現学習は、ソーシャルネットワーク分析、計算生物学、推薦システムなど、幅広いアプリケーションで人気を集めている。 しかし、多くの学術研究の肯定的な結果と異なり、現実のアプリケーションにグラフニューラルネットワーク(GNN)を適用することは、非定常環境のため依然として難しい。 ストリーミングデータの基盤となる分布は予期せず変化し、異なるグラフ構造(つまり概念ドリフト)をもたらす。 したがって、モデルがトレーニンググラフに過剰に適合しないように、堅牢なグラフ学習手法を考案することが不可欠である。 本研究は,GNNの過剰漁を効果的に防止できる簡単な正規化手法であるHop Smplingを提案する。 ホップサンプリングは、修正ではなく伝播ステップの数をランダムに選択し、それによって、すべての中間伝播層に対して有意義なノード表現を学習し、トレーニングセットにない様々な可算グラフを経験することをモデルに促す。 特に,実世界の非定常ケースの代表例であるレコメンダシステムにおいて,本手法のユースケースについて述べる。 大規模な実世界のLINEデータセット上でホップサンプリングを評価し,LINE Couponの推薦システムでオンラインA/B/nテストを行った。 実験の結果,提案手法はGNNの予測精度を向上することが示された。 オンラインサービスにおける非正規化GNNモデルと比較して, ホップサンプリングでは, NDCGとMAPが7.97%, 16.93%改善している。 さらに、ホップサンプリングを用いたモデルは、より深いモデルとより多様な表現を可能にするgnnの過剰な問題を軽減する。

Graph representation learning is gaining popularity in a wide range of applications, such as social networks analysis, computational biology, and recommender systems. However, different with positive results from many academic studies, applying graph neural networks (GNNs) in a real-world application is still challenging due to non-stationary environments. The underlying distribution of streaming data changes unexpectedly, resulting in different graph structures (a.k.a., concept drift). Therefore, it is essential to devise a robust graph learning technique so that the model does not overfit to the training graphs. In this work, we present Hop Sampling, a straightforward regularization method that can effectively prevent GNNs from overfishing. The hop sampling randomly selects the number of propagation steps rather than fixing it, and by doing so, it encourages the model to learn meaningful node representation for all intermediate propagation layers and to experience a variety of plausible graphs that are not in the training set. Particularly, we describe the use case of our method in recommender systems, a representative example of the real-world non-stationary case. We evaluated hop sampling on a large-scale real-world LINE dataset and conducted an online A/B/n test in LINE Coupon recommender systems of LINE Wallet Tab. Experimental results demonstrate that the proposed scheme improves the prediction accuracy of GNNs. We observed hop sampling provides 7.97% and 16.93% improvements for NDCG and MAP compared to non-regularized GNN models in our online service. Furthermore, models using hop sampling alleviate the oversmoothing issue in GNNs enabling a deeper model as well as more diversified representation.
翻訳日:2022-11-16 21:05:13 公開日:2020-08-20
# マスク着用が顔認識性能に及ぼす影響 : 探索的研究

The Effect of Wearing a Mask on Face Recognition Performance: an Exploratory Study ( http://arxiv.org/abs/2007.13521v2 )

ライセンス: Link先を確認
Naser Damer, Jonas Henry Grebe, Cong Chen, Fadi Boutros, Florian Kirchbuchner and Arjan Kuijper(参考訳) 顔認識は, 身元確認の便利で非接触的な方法として, 日常生活において不可欠である。 自動境界制御ゲートでのid確認や電子デバイスへのセキュアログインなどのプロセスは、そのような技術に依存しています。 新型コロナウイルス(COVID-19)のパンデミックは、衛生と接触のない身元確認の価値を高めている。 しかし、パンデミックによってマスクが広く使われるようになり、パンデミックを抑えるのに欠かせないものとなった。 協調環境における顔認識に対するマスク着用の影響は,現在,未検討の課題である。 3つのセッションを含む特別に収集されたデータベースを3つの異なるキャプチャ命令で提示することで、現実的なユースケースをシミュレートします。 さらに,マスクフェースプローブが3つのトップパフォーマンス顔認識システム,2つの学術的ソリューションと1つの商用オフザシェルフシステム(COTS)の挙動に及ぼす影響について検討した。

Face recognition has become essential in our daily lives as a convenient and contactless method of accurate identity verification. Process such as identity verification at automatic border control gates or the secure login to electronic devices are increasingly dependant on such technologies. The recent COVID-19 pandemic have increased the value of hygienic and contactless identity verification. However, the pandemic led to the wide use of face masks, essential to keep the pandemic under control. The effect of wearing a mask on face recognition in a collaborative environment is currently sensitive yet understudied issue. We address that by presenting a specifically collected database containing three session, each with three different capture instructions, to simulate realistic use cases. We further study the effect of masked face probes on the behaviour of three top-performing face recognition systems, two academic solutions and one commercial off-the-shelf (COTS) system.
翻訳日:2022-11-06 08:46:21 公開日:2020-08-20
# リニアアテンションメカニズム:セマンティックセグメンテーションにおける効率的なアテンション

Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation ( http://arxiv.org/abs/2007.14902v3 )

ライセンス: Link先を確認
Rui Li, Jianlin Su, Chenxi Duan, Shunyi Zheng(参考訳) 本稿では,この欠陥を補うために,より少ないメモリと計算コストで,ドット積の注意に近似した線形注意機構を提案する。 この効率的な設計は、注意機構とニューラルネットワークの結合をより柔軟で多用途にする。 セマンティクスセグメンテーション実験により,線形注意機構の有効性が示された。 コードはhttps://github.com/lironui/Linear-Attention-Mechanismで公開されている。

In this paper, to remedy this deficiency, we propose a Linear Attention Mechanism which is approximate to dot-product attention with much less memory and computational costs. The efficient design makes the incorporation between attention mechanisms and neural networks more flexible and versatile. Experiments conducted on semantic segmentation demonstrated the effectiveness of linear attention mechanism. Code is available at https://github.com/lironui/Linear-Attention-Mechanism.
翻訳日:2022-11-05 20:37:48 公開日:2020-08-20
# 非対訳画像翻訳におけるコントラスト学習

Contrastive Learning for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2007.15651v3 )

ライセンス: Link先を確認
Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu(参考訳) 画像から画像への変換では、出力の各パッチは、ドメインとは独立に、入力中の対応するパッチの内容を反映しなければならない。 コントラスト学習に基づくフレームワークを用いて,両者の相互情報の最大化を行うための簡単な手法を提案する。 この方法は、データセット内の他の要素(他のパッチ)と比較して、学習された機能空間の類似点にマップすることを推奨する(パッチの対応)。 画像合成においてコントラスト学習を効果的にするための重要な設計選択について検討する。 特に、イメージ全体を操作するのではなく、マルチレイヤのパッチベースのアプローチを使っています。 さらに、データセットの残りの部分ではなく、入力画像自体から負の値を描く。 提案手法では,画像から画像への変換を不要にしつつ,品質の向上とトレーニング時間の短縮を両立できることを示す。 さらに、この手法は、各「ドメイン」が1つの画像のみであるトレーニング設定にまで拡張できる。

In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -- maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.
翻訳日:2022-11-05 13:41:41 公開日:2020-08-20
# 単一画像からのステレオ学習

Learning Stereo from Single Images ( http://arxiv.org/abs/2008.01484v2 )

ライセンス: Link先を確認
Jamie Watson, Oisin Mac Aodha, Daniyar Turmukhambetov, Gabriel J. Brostow, Michael Firman(参考訳) 教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。 他の教師付きアプローチと同様に、これらのネットワークはトレーニング中に真実のデータを必要とする。 しかし、大量の高精度な通信データの収集は非常に困難である。 地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。 近年の単眼深度推定の進歩に触発されて,単眼画像から可視差マップを生成する。 代わりに、これらの欠陥マップを慎重に設計されたパイプラインで使用し、ステレオトレーニングペアを生成する。 この方法でトレーニングすることで、単一のrgbイメージのコレクションをステレオトレーニングデータに変換することができる。 この結果、人間の労力は大幅に削減され、実際の深度を収集したり、合成データを手作業で設計する必要がなくなる。 その結果,これまでステレオの利用が難しかったcocoなどのデータセット上で,ステレオマッチングネットワークをスクラッチからトレーニングすることが可能となった。 提案手法は,KITTI,ETH3D,ミドルベリーで評価した場合,標準合成データセットを用いてトレーニングしたステレオネットワークよりも優れていることを示す。

Supervised deep networks are among the best methods for finding correspondences in stereo image pairs. Like all supervised approaches, these networks require ground truth data during training. However, collecting large quantities of accurate dense correspondence data is very challenging. We propose that it is unnecessary to have such a high reliance on ground truth depths or even corresponding stereo pairs. Inspired by recent progress in monocular depth estimation, we generate plausible disparity maps from single images. In turn, we use those flawed disparity maps in a carefully designed pipeline to generate stereo training pairs. Training in this manner makes it possible to convert any collection of single RGB images into stereo training data. This results in a significant reduction in human effort, with no need to collect real depths or to hand-design synthetic data. We can consequently train a stereo matching network from scratch on datasets like COCO, which were previously hard to exploit for stereo. Through extensive experiments we show that our approach outperforms stereo networks trained with standard synthetic datasets, when evaluated on KITTI, ETH3D, and Middlebury.
翻訳日:2022-11-03 00:42:47 公開日:2020-08-20
# 人物画像生成のための二部グラフ推論GAN

Bipartite Graph Reasoning GANs for Person Image Generation ( http://arxiv.org/abs/2008.04381v2 )

ライセンス: Link先を確認
Hao Tang, Song Bai, Philip H.S. Torr, Nicu Sebe(参考訳) 本稿では,難易度の高い人物画像生成タスクのための新しいBipartite Graph Reasoning GAN(BiGraphGAN)を提案する。 提案するグラフ生成器は,ポーズ-ポーズ関係とポーズ-イメージ関係をそれぞれモデル化する2つの新しいブロックから構成される。 特に,提案する二部グラフ推論(bgr)ブロックは,二部グラフにおけるソースポーズとターゲットポーズとの間の長距離関係を推論することを目的としており,ポーズ変形に起因する課題を軽減している。 さらに,インタラクション・アンド・アグリゲーション(IA)ブロックを新たに提案し,対話的な方法で人物の形状と外観の特徴表現能力を効果的に更新し,強化する。 Market-1501とDeepFashionの2つの挑戦的かつ公開的なデータセットの実験は、客観的な定量的スコアと主観的な視覚的現実性の観点から提案されたBiGraphGANの有効性を示している。 ソースコードとトレーニングされたモデルはhttps://github.com/ha0tang/bigraphganで入手できる。

We present a novel Bipartite Graph Reasoning GAN (BiGraphGAN) for the challenging person image generation task. The proposed graph generator mainly consists of two novel blocks that aim to model the pose-to-pose and pose-to-image relations, respectively. Specifically, the proposed Bipartite Graph Reasoning (BGR) block aims to reason the crossing long-range relations between the source pose and the target pose in a bipartite graph, which mitigates some challenges caused by pose deformation. Moreover, we propose a new Interaction-and-Aggregation (IA) block to effectively update and enhance the feature representation capability of both person's shape and appearance in an interactive way. Experiments on two challenging and public datasets, i.e., Market-1501 and DeepFashion, show the effectiveness of the proposed BiGraphGAN in terms of objective quantitative scores and subjective visual realness. The source code and trained models are available at https://github.com/Ha0Tang/BiGraphGAN.
翻訳日:2022-10-31 22:48:10 公開日:2020-08-20
# ltiatcmu at semeval-2020 task 11: マルチレベル機能を組み込んだマルチグラニュラープロパガンダスパン識別

LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for Multi-Granular Propaganda Span Identification ( http://arxiv.org/abs/2008.04820v2 )

ライセンス: Link先を確認
Sopan Khosla, Rishabh Joshi, Ritam Dutt, Alan W Black, Yulia Tsvetkov(参考訳) 本稿では,ニュース記事におけるプロパガンダスパン識別タスクへの提案について述べる。 本稿では,文中のどのトークンスパンがプロパガンダの指標であるかを識別する,bert-bilstmに基づくスパンレベルのプロパガンダ分類モデルを提案する。 マルチグラニュラー」モデルは、単語、文、文書レベルの構文、意味、実用的影響といった様々なレベルの言語知識を取り入れており、言語に依存しない変種と比較して、モデルの性能を著しく改善している。 表現学習を容易にするために,10kニュース記事のコーパスを収集し,モデルを微調整するために利用する。 最後のモデルは、さまざまな知識のサブセットを活用して、異なるプロパガンダクラス境界を学習し、テストリーダーボードで$4^{th}$のポジションを得るマジョリティ投票アンサンブルである。 最後のモデルとコードはhttps://github.com/sopu/propagandasemeval2020でリリースします。

In this paper we describe our submission for the task of Propaganda Span Identification in news articles. We introduce a BERT-BiLSTM based span-level propaganda classification model that identifies which token spans within the sentence are indicative of propaganda. The "multi-granular" model incorporates linguistic knowledge at various levels of text granularity, including word, sentence and document level syntactic, semantic and pragmatic affect features, which significantly improve model performance, compared to its language-agnostic variant. To facilitate better representation learning, we also collect a corpus of 10k news articles, and use it for fine-tuning the model. The final model is a majority-voting ensemble which learns different propaganda class boundaries by leveraging different subsets of incorporated knowledge and attains $4^{th}$ position on the test leaderboard. Our final model and code is released at https://github.com/sopu/PropagandaSemEval2020.
翻訳日:2022-10-31 10:54:02 公開日:2020-08-20
# Residual Convolutional Recurrent Neural Network を用いたリアルタイム心筋MRI

Real-Time Cardiac Cine MRI with Residual Convolutional Recurrent Neural Network ( http://arxiv.org/abs/2008.05044v2 )

ライセンス: Link先を確認
Eric Z. Chen, Xiao Chen, Jingyuan Lyu, Yuan Zheng, Terrence Chen, Jian Xu, Shanhui Sun(参考訳) リアルタイム心血管MRIは、データ取得時に心電図のゲーティングを必要とせず、呼吸を保たない患者や異常な心臓リズムを持つ患者に有用である。 しかし、高速な画像取得を実現するために、リアルタイムシネは一般に高度にアンサンプされたデータを取得する。 リアルタイム心血管再建のための残差畳み込みRNNを提案する。 私たちの知る限りでは、これはデカルト的リアルタイム心臓シネ再建にディープラーニングアプローチを適用する最初の仕事です。 放射線科医の評価に基づいて, 深層学習モデルは圧縮センシングよりも優れた性能を示す。

Real-time cardiac cine MRI does not require ECG gating in the data acquisition and is more useful for patients who can not hold their breaths or have abnormal heart rhythms. However, to achieve fast image acquisition, real-time cine commonly acquires highly undersampled data, which imposes a significant challenge for MRI image reconstruction. We propose a residual convolutional RNN for real-time cardiac cine reconstruction. To the best of our knowledge, this is the first work applying deep learning approach to Cartesian real-time cardiac cine reconstruction. Based on the evaluation from radiologists, our deep learning model shows superior performance than compressed sensing.
翻訳日:2022-10-31 06:08:18 公開日:2020-08-20
# OCoR: 重複するコード検索ツール

OCoR: An Overlapping-Aware Code Retriever ( http://arxiv.org/abs/2008.05201v2 )

ライセンス: Link先を確認
Qihao Zhu, Zeyu Sun, Xiran Liang, Yingfei Xiong, Lu Zhang(参考訳) コード検索は、開発者がオープンソースプロジェクトでコードスニペットを再利用するのに役立つ。 自然言語の記述が与えられると、コード検索は一連のコードの中で最も関連するコードを探すことを目的としている。 既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。 しかし、これらのアプローチは依然として重要な特徴を捉えていない。 異なる人々によって使用される異なる名前間の重複は、2つの異なる名前が潜在的に関連があることを示し(例:messageとmsg)、自然言語記述におけるコード内の識別子と単語の重複は、コードスニペットと記述が関連している可能性があることを示している。 これらの問題に対処するために、我々はOCoRという新しいニューラルネットワークを提案する。このアーキテクチャでは、2つの特別に設計されたコンポーネントを導入し、第1に識別子を文字単位で埋め込み、識別子間の重複をキャプチャし、第2に、各自然言語語と各識別子の重複度を表す新しい重複行列を導入する。 評価は2つの確立されたデータセット上で行われた。 実験の結果、OCoRは既存の最先端アプローチを著しく上回り、13.1%から22.3%の改善が達成された。 さらに,OCoRの異なるコンポーネントの性能を理解するために,いくつかの詳細な実験を行った。

Code retrieval helps developers reuse the code snippet in the open-source projects. Given a natural language description, code retrieval aims to search for the most relevant code among a set of code. Existing state-of-the-art approaches apply neural networks to code retrieval. However, these approaches still fail to capture an important feature: overlaps. The overlaps between different names used by different people indicate that two different names may be potentially related (e.g., "message" and "msg"), and the overlaps between identifiers in code and words in natural language descriptions indicate that the code snippet and the description may potentially be related. To address these problems, we propose a novel neural architecture named OCoR, where we introduce two specifically-designed components to capture overlaps: the first embeds identifiers by character to capture the overlaps between identifiers, and the second introduces a novel overlap matrix to represent the degrees of overlaps between each natural language word and each identifier. The evaluation was conducted on two established datasets. The experimental results show that OCoR significantly outperforms the existing state-of-the-art approaches and achieves 13.1% to 22.3% improvements. Moreover, we also conducted several in-depth experiments to help understand the performance of different components in OCoR.
翻訳日:2022-10-31 04:54:13 公開日:2020-08-20
# 意図に基づくロシア語手書きテキスト用フルゲートCNN-BGRU

Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text ( http://arxiv.org/abs/2008.05373v5 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Mohamed Hamada and Daniyar Nurseitov(参考訳) 本研究では,カザフ語とロシア語で学習した注意エンコーダ・デコーダネットワークを用いて,手書きテキストのタスクにアプローチする。 我々は、第1テストデータセットでは0.045文字誤り率(CER)、0.192ワード誤り率(WER)、0.253シーケンス誤り率(SER)、第2テストデータセットでは0.064文字誤り率(CER)、0.024文字誤り率(WER)、0.361文字誤り率(SER)を実現する高度な特徴を操作するために、複数双方向GRUとアテンションメカニズムによってサポートされた、新しいディープニューラルネットワークモデルを開発した。 また,Tanhnから出力する複数の特徴と入力特徴を活かして完全なゲート層を提案するとともに,提案手法によりより優れた結果が得られることを示すとともに,手書きカザフ語とロシア語のデータベース(HKR)上で実験を行った。 我々の研究は、HKRデータセットに関する最初の研究であり、既存のほとんどのモデルに最先端の結果を示す。

This research approaches the task of handwritten text with attention encoder-decoder networks that are trained on Kazakh and Russian language. We developed a novel deep neural network model based on Fully Gated CNN, supported by Multiple bidirectional GRU and Attention mechanisms to manipulate sophisticated features that achieve 0.045 Character Error Rate (CER), 0.192 Word Error Rate (WER) and 0.253 Sequence Error Rate (SER) for the first test dataset and 0.064 CER, 0.24 WER and 0.361 SER for the second test dataset. Also, we propose fully gated layers by taking the advantage of multiple the output feature from Tahn and input feature, this proposed work achieves better results and We experimented with our model on the Handwritten Kazakh & Russian Database (HKR). Our research is the first work on the HKR dataset and demonstrates state-of-the-art results to most of the other existing models.
翻訳日:2022-10-31 04:44:41 公開日:2020-08-20
# MMM : 変圧器を用いた条件付きマルチトラック音楽の探索

MMM : Exploring Conditional Multi-Track Music Generation with the Transformer ( http://arxiv.org/abs/2008.06048v2 )

ライセンス: Link先を確認
Jeff Ens, Philippe Pasquier(参考訳) 本稿では,マルチトラック音楽を生成する変圧器アーキテクチャに基づく生成システムであるマルチトラック音楽機械(mmm)を提案する。 それまでの楽曲を、異なるトラックに対応する音楽イベントをインターリーブする単一の時系列シーケンスとして表現していたのに対し、各トラックに対する音楽イベントの時系列シーケンスを作成し、複数のトラックを1つのシーケンスにまとめる。 これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。 様々な表現がユーザに対して,生成時の高レベルなコントロールを提供し,トラックレベルとバーレベルのインペインティングに対応するインタラクティブなデモを提供し,トラックのインスツルメンテーションとノート密度のコントロールを提供する。

We propose the Multi-Track Music Machine (MMM), a generative system based on the Transformer architecture that is capable of generating multi-track music. In contrast to previous work, which represents musical material as a single time-ordered sequence, where the musical events corresponding to different tracks are interleaved, we create a time-ordered sequence of musical events for each track and concatenate several tracks into a single sequence. This takes advantage of the Transformer's attention-mechanism, which can adeptly handle long-term dependencies. We explore how various representations can offer the user a high degree of control at generation time, providing an interactive demo that accommodates track-level and bar-level inpainting, and offers control over track instrumentation and note density.
翻訳日:2022-10-31 00:05:25 公開日:2020-08-20
# ビデオ超解像のための時間モデルの再検討

Revisiting Temporal Modeling for Video Super-resolution ( http://arxiv.org/abs/2008.05765v2 )

ライセンス: Link先を確認
Takashi Isobe, Fang Zhu, Xu Jia and Shengjin Wang(参考訳) ビデオ超解像は、監視ビデオ分析と超高精細ビデオ表示において重要な役割を担い、研究と産業の両方で注目されている。 多くのディープラーニングベースのvsr手法が提案されているが、異なる損失関数とトレーニングデータセットがスーパーレゾリューション結果に大きな影響を与えるため、これらの手法を直接比較することは困難である。 本研究では,ビデオ超解像のための3つの時間的モデリング手法(2次元CNNと早期融合,3次元CNNと低速融合,リカレントニューラルネットワーク)を慎重に検討・比較する。 また,rnnのトレーニングの安定化と高分解能化のために残差学習を活用し,効率的なビデオ超解像のための新しいリカレント残差ネットワーク(rrn)を提案する。 大規模な実験により,提案手法は計算効率が高く,時間的一貫したVSR結果が他の時間的モデリング手法よりも細部で得られることがわかった。 さらに, 提案手法は, 広く使用されているベンチマークにおいて, 最先端の結果を得る。

Video super-resolution plays an important role in surveillance video analysis and ultra-high-definition video display, which has drawn much attention in both the research and industrial communities. Although many deep learning-based VSR methods have been proposed, it is hard to directly compare these methods since the different loss functions and training datasets have a significant impact on the super-resolution results. In this work, we carefully study and compare three temporal modeling methods (2D CNN with early fusion, 3D CNN with slow fusion and Recurrent Neural Network) for video super-resolution. We also propose a novel Recurrent Residual Network (RRN) for efficient video super-resolution, where residual learning is utilized to stabilize the training of RNN and meanwhile to boost the super-resolution performance. Extensive experiments show that the proposed RRN is highly computational efficiency and produces temporal consistent VSR results with finer details than other temporal modeling methods. Besides, the proposed method achieves state-of-the-art results on several widely used benchmarks.
翻訳日:2022-10-30 23:49:54 公開日:2020-08-20
# 三角メッシュ上のグラフ畳み込みネットワークを用いたアルツハイマー病認知症分類における脳形態の解釈

Interpretation of Brain Morphology in Association to Alzheimer's Disease Dementia Classification Using Graph Convolutional Networks on Triangulated Meshes ( http://arxiv.org/abs/2008.06151v3 )

ライセンス: Link先を確認
Emanuel A. Azcona, Pierre Besson, Yunan Wu, Arjun Punjabi, Adam Martersteck, Amil Dravid, Todd B. Parrish, S. Kathleen Bandt, Aggelos K. Katsaggelos(参考訳) 本研究では,脳皮質下構造のメッシュ表現を用いたアルツハイマー病認知症(ADD)の分類を支援するメッシュベースの手法を提案する。 構造的ニューロイメージングを利用する分類タスクのディープラーニング手法は、最適化するために広範な学習パラメータを必要とすることが多い。 自動診断のためのこれらのアプローチは、診断に関わる脳の領域の視覚的解釈性も欠如している。 この作品です (a)大脳皮質と皮質下構造の表面情報を用いて脳の形状を分析する。 (b)学習可能なパラメータを大幅に削減する最先端グラフ畳み込みネットワークのための残差学習フレームワークを提案する。 (c) 入力の重要領域をローカライズするクラス固有の勾配情報を通じて,ネットワークの視覚的解釈可能性を提供する。 提案手法は皮質および皮質下面情報の利用を活用し,加算対健康管理問題に対して96.35%の精度で他の機械学習手法よりも優れている。 モンテカルロクロスバリデーションにおいて,その性能を観測し,本モデルの有効性を確認した。 本研究で生成した可視化マップは,アルツハイマー型認知症に関連する脳の病態変化の構造的局在に関する現在の知見と対応している。

We propose a mesh-based technique to aid in the classification of Alzheimer's disease dementia (ADD) using mesh representations of the cortex and subcortical structures. Deep learning methods for classification tasks that utilize structural neuroimaging often require extensive learning parameters to optimize. Frequently, these approaches for automated medical diagnosis also lack visual interpretability for areas in the brain involved in making a diagnosis. This work: (a) analyzes brain shape using surface information of the cortex and subcortical structures, (b) proposes a residual learning framework for state-of-the-art graph convolutional networks which offer a significant reduction in learnable parameters, and (c) offers visual interpretability of the network via class-specific gradient information that localizes important regions of interest in our inputs. With our proposed method leveraging the use of cortical and subcortical surface information, we outperform other machine learning methods with a 96.35% testing accuracy for the ADD vs. healthy control problem. We confirm the validity of our model by observing its performance in a 25-trial Monte Carlo cross-validation. The generated visualization maps in our study show correspondences with current knowledge regarding the structural localization of pathological changes in the brain associated to dementia of the Alzheimer's type.
翻訳日:2022-10-30 17:21:13 公開日:2020-08-20
# タスク指向対話システムのためのFew-Shot学習者としての言語モデル

Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2008.06239v2 )

ライセンス: Link先を確認
Andrea Madotto, Zihan Liu, Zhaojiang Lin, Pascale Fung(参考訳) タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。 研究課題は、データ収集に関連するコストが高いため、最小のサンプル量(すなわち、少数ショット)で各モジュールを学習することである。 この問題を解決する最も一般的かつ効果的なテクニックは、テキストやタスク固有のデータで事前学習された大きな言語モデルが、少数のサンプルで微調整される転送学習である。 これらのメソッドは、各タスクの微調整ステップとパラメータセットを必要とする。 異なる言語モデル、例えばgpt-2(radford et al., 2019)やgpt-3(brown et al., 2020)は、モデルにわずかな例でプライミングすることで、限定的な学習を可能にする。 本稿では,NLUタスク,DSTタスク,DPタスク,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。 重要なのは、このアプローチの現在の制限を強調し、将来の作業への潜在的含意について論じる。

Task-oriented dialogue systems use four connected modules, namely, Natural Language Understanding (NLU), a Dialogue State Tracking (DST), Dialogue Policy (DP) and Natural Language Generation (NLG). A research challenge is to learn each module with the least amount of samples (i.e., few-shots) given the high cost related to the data collection. The most common and effective technique to solve this problem is transfer learning, where large language models, either pre-trained on text or task-specific data, are fine-tuned on the few samples. These methods require fine-tuning steps and a set of parameters for each task. Differently, language models, such as GPT-2 (Radford et al., 2019) and GPT-3 (Brown et al., 2020), allow few-shot learning by priming the model with few examples. In this paper, we evaluate the priming few-shot ability of language models in the NLU, DST, DP and NLG tasks. Importantly, we highlight the current limitations of this approach, and we discuss the possible implication for future work.
翻訳日:2022-10-30 16:35:07 公開日:2020-08-20
# Skyline: ディープニューラルネットワークトレーニングのためのインタラクティブなインエディタ計算パフォーマンスプロファイリング

Skyline: Interactive In-Editor Computational Performance Profiling for Deep Neural Network Training ( http://arxiv.org/abs/2008.06798v2 )

ライセンス: Link先を確認
Geoffrey X. Yu, Tovi Grossman, Gennady Pekhimenko(参考訳) 最先端のディープニューラルネットワーク(DNN)のトレーニングは、計算に精通した時間を要するプロセスであり、ディープラーニング開発者が計算パフォーマンスのためにDNNをデバッグするインセンティブを与える。 しかし、効果的にこのデバッグを実行するには、基盤となるソフトウェアとハードウェアシステムに関する深い知識が必要です。 このギャップを埋めるために、私たちはSkylineを紹介します。これはDNNトレーニングのためのインタラクティブなツールで、エディタ内での計算パフォーマンスのプロファイリング、可視化、デバッグをサポートします。 Skylineの重要な貢献は、DNNトレーニングの特別な計算特性を活用して提供することである。 (i)インタラクティブな性能予測と可視化、 (ii) ドラッグするとコード内のバッチサイズが変更される、直接操作可能な視覚化。 インエディタツールとしてSkylineでは,これらの診断機能を活用して,開発中のDNNのパフォーマンスをデバッグすることができる。 スカイラインの探索的質的ユーザ調査は有望な結果をもたらし、すべての参加者はスカイラインが有用で使いやすいと感じた。

Training a state-of-the-art deep neural network (DNN) is a computationally-expensive and time-consuming process, which incentivizes deep learning developers to debug their DNNs for computational performance. However, effectively performing this debugging requires intimate knowledge about the underlying software and hardware systems---something that the typical deep learning developer may not have. To help bridge this gap, we present Skyline: a new interactive tool for DNN training that supports in-editor computational performance profiling, visualization, and debugging. Skyline's key contribution is that it leverages special computational properties of DNN training to provide (i) interactive performance predictions and visualizations, and (ii) directly manipulatable visualizations that, when dragged, mutate the batch size in the code. As an in-editor tool, Skyline allows users to leverage these diagnostic features to debug the performance of their DNNs during development. An exploratory qualitative user study of Skyline produced promising results; all the participants found Skyline to be useful and easy to use.
翻訳日:2022-10-28 21:16:43 公開日:2020-08-20
# アンカーレス小型マルチスペクトルペデストリアン検出

Anchor-free Small-scale Multispectral Pedestrian Detection ( http://arxiv.org/abs/2008.08418v2 )

ライセンス: Link先を確認
Alexander Wolpert, Michael Teutsch, M. Saquib Sarfraz, Rainer Stiefelhagen(参考訳) 直列視覚光学(VIS)と熱赤外画像(IR)からなるマルチスペクトル画像は、自律運転や視覚監視といった実用用途に適している。 このようなデータは、特に弱い照明、小規模、あるいは部分的に禁止されたインスタンスに対して、歩行者検出の性能を高めるために使用できる。 現在の最先端技術は、Faster R-CNNの変種に基づいており、オブジェクトローカライゼーションのための手作りアンカーボックスを備えた提案生成ネットワークと、オブジェクトカテゴリを検証するための分類ネットワークである。 本稿では,単段アンカーフリーベースアーキテクチャにおける2つのモダリティの効率的かつ効率的なマルチスペクトル融合手法を提案する。 我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。 このようにして、ネットワークアーキテクチャを単純化し、特に閉塞状態の歩行者や低オブジェクト解像度の歩行者に対して高い検出性能を達成することができる。 さらに, 一般的に使用される拡張性を改善するための, 適切に適合したマルチスペクトルデータ拡張技術について検討する。 その結果,小型歩行者の検出に本手法の有効性が示された。 KAIST Multispectral Pedestrian Detection Benchmarkでは,現在最先端の7.49%(25%改善)と比較して5.68%のログ平均誤差率を実現している。 コード: https://github.com/hensoldtoptronicscv/multispectralpedestriandetection

Multispectral images consisting of aligned visual-optical (VIS) and thermal infrared (IR) image pairs are well-suited for practical applications like autonomous driving or visual surveillance. Such data can be used to increase the performance of pedestrian detection especially for weakly illuminated, small-scaled, or partially occluded instances. The current state-of-the-art is based on variants of Faster R-CNN and thus passes through two stages: a proposal generator network with handcrafted anchor boxes for object localization and a classification network for verifying the object category. In this paper we propose a method for effective and efficient multispectral fusion of the two modalities in an adapted single-stage anchor-free base architecture. We aim at learning pedestrian representations based on object center and scale rather than direct bounding box predictions. In this way, we can both simplify the network architecture and achieve higher detection performance, especially for pedestrians under occlusion or at low object resolution. In addition, we provide a study on well-suited multispectral data augmentation techniques that improve the commonly used augmentations. The results show our method's effectiveness in detecting small-scaled pedestrians. We achieve 5.68% log-average miss rate in comparison to the best current state-of-the-art of 7.49% (25% improvement) on the challenging KAIST Multispectral Pedestrian Detection Benchmark. Code: https://github.com/HensoldtOptronicsCV/MultispectralPedestrianDetection
翻訳日:2022-10-27 12:10:50 公開日:2020-08-20
# X線胸部画像を用いた半監督型Covid-19検出のための補正データ不均衡

Correcting Data Imbalance for Semi-Supervised Covid-19 Detection Using X-ray Chest Images ( http://arxiv.org/abs/2008.08496v2 )

ライセンス: Link先を確認
Saul Calderon-Ramirez, Shengxiang-Yang, Armaghan Moemeni, David Elizondo, Simon Colreavy-Donnelly, Luis Fernando Chavarria-Estrada, Miguel A. Molina-Cabello(参考訳) コロナウイルス(covid-19)は、世界中で急速に伝播した国際パンデミックである。 Covid-19患者の胸部X線画像の画像分類におけるディープラーニングの応用は、新しい診断前検出法となる可能性がある。 しかし、ディープラーニングアーキテクチャは大きなラベル付きデータセットを必要とする。 新型コロナウイルスの流行が比較的新しい研究対象の場合、小さなラベル付きデータセットを扱うことが課題となる場合、これはしばしば制限となる。 さらに、新たな高感染性疾患の文脈では、データセットは極めて不均衡であり、新しい疾患の陽性例からはほとんど観察されていない。 本研究では,MixMatchと呼ばれる半教師付きディープラーニングアーキテクチャの性能を,非常に限られたラベル付き観測と高度に不均衡なラベル付きデータセットを用いて評価する。 本稿では,データ不均衡を補正する簡単な手法を提案し,損失関数の観測値を再重み付けし,下級クラスに対応する観測値に高い重みを与える。 ラベルなしの観察では,mixmatch が計算した擬似ラベルと拡張ラベルを用いて適切な重みを求める。 MixMatch法と疑似ラベルに基づくバランス補正法を組み合わせることで、非バランスのMixMatchアルゴリズムに対して、統計的に有意な分類精度が最大10%向上した。 提案手法を10,15,20のラベル付きオブザーバを使用して,利用可能なデータセットでテストした。 さらに、コスタリカ成人患者の胸部X線画像からなる検査データセットに新しいデータセットが含まれている。

The Corona Virus (COVID-19) is an internationalpandemic that has quickly propagated throughout the world. The application of deep learning for image classification of chest X-ray images of Covid-19 patients, could become a novel pre-diagnostic detection methodology. However, deep learning architectures require large labelled datasets. This is often a limitation when the subject of research is relatively new as in the case of the virus outbreak, where dealing with small labelled datasets is a challenge. Moreover, in the context of a new highly infectious disease, the datasets are also highly imbalanced,with few observations from positive cases of the new disease. In this work we evaluate the performance of the semi-supervised deep learning architecture known as MixMatch using a very limited number of labelled observations and highly imbalanced labelled dataset. We propose a simple approach for correcting data imbalance, re-weight each observationin the loss function, giving a higher weight to the observationscorresponding to the under-represented class. For unlabelled observations, we propose the usage of the pseudo and augmentedlabels calculated by MixMatch to choose the appropriate weight. The MixMatch method combined with the proposed pseudo-label based balance correction improved classification accuracy by up to 10%, with respect to the non balanced MixMatch algorithm, with statistical significance. We tested our proposed approach with several available datasets using 10, 15 and 20 labelledobservations. Additionally, a new dataset is included among thetested datasets, composed of chest X-ray images of Costa Rican adult patients
翻訳日:2022-10-27 09:16:44 公開日:2020-08-20
# トランスベース多言語文書埋め込みモデル

Transformer based Multilingual document Embedding model ( http://arxiv.org/abs/2008.08567v2 )

ライセンス: Link先を確認
Wei Li and Brian Mak(参考訳) 現在の最先端多言語文書埋め込みモデルLASERの1つは、双方向LSTMニューラルマシン翻訳モデルに基づいている。 本稿では,変圧器を用いた文/文書埋め込みモデルT-LASERを提案する。 まず、bilstm層は注意に基づくトランスフォーマー層に置き換えられ、より長いテキストでシーケンシャルなパターンを学習することができる。 第二に、繰り返しがないため、T-LASERはエンコーダの高速な並列計算を可能にし、テキスト埋め込みを生成する。 第3に,NMT翻訳損失関数を新たな距離制約損失で拡張する。 この距離制約損失は、ベクトル空間に平行文の埋め込みをさらに密着させ、距離制約で訓練されたT-LASERモデル(cT-LASER)と呼ぶ。 当社のcT-LASERモデルは, BiLSTM ベースの LASER と, より単純な変換器ベースの T-LASER とを比較検討した。

One of the current state-of-the-art multilingual document embedding model LASER is based on the bidirectional LSTM neural machine translation model. This paper presents a transformer-based sentence/document embedding model, T-LASER, which makes three significant improvements. Firstly, the BiLSTM layers is replaced by the attention-based transformer layers, which is more capable of learning sequential patterns in longer texts. Secondly, due to the absence of recurrence, T-LASER enables faster parallel computations in the encoder to generate the text embedding. Thirdly, we augment the NMT translation loss function with an additional novel distance constraint loss. This distance constraint loss would further bring the embeddings of parallel sentences close together in the vector space; we call the T-LASER model trained with distance constraint, cT-LASER. Our cT-LASER model significantly outperforms both BiLSTM-based LASER and the simpler transformer-based T-LASER.
翻訳日:2022-10-27 08:40:22 公開日:2020-08-20
# 学術データ分析によるアドバイザー・アドバイザー関係の理解

Understanding the Advisor-advisee Relationship via Scholarly Data Analysis ( http://arxiv.org/abs/2008.08743v1 )

ライセンス: Link先を確認
Jiaying Liu, Tao Tang, Xiangjie Kong, Amr Tolba, Zafer AL-Makhadmeh, Feng Xia(参考訳) 学術ネットワークにおけるアドバイザーとアドバイザリティーの関係は、その普遍性と必要性から重要である。 しかし、新参者のキャリアを分析したいという欲求は高まっているものの、助言者と助言者の異なるコラボレーションパターンの結果はいまだに不明である。 本研究の目的は,コンピュータサイエンスにおける助言者の学術的特徴と助言者の学術的業績との相関関係を明らかにすることである。 量的・質的分析の両方を用いて, 指導者の学齢の増加とともに, 指導者の業績経験の初期成長, 継続する段階をたどり, 最終的に減少傾向に陥ることを見いだした。 有能なアドバイザーが熟練したアドバイスを得られる現象も発見します。 本研究は,(1)高学級のアドバイザーが指導するアドバイスは,他のものよりも優れたアカデミックパフォーマンスを持つ,(2)高学級のアドバイザーは助言者のh-indexランキングを高めることができる,という2つの側面から結論を導いた。 この研究は、アドバイザーの学術的特徴と助言者の業績との関係の理解を促進するとともに、アドバイザーの選択に関する新たな洞察を与えます。

Advisor-advisee relationship is important in academic networks due to its universality and necessity. Despite the increasing desire to analyze the career of newcomers, however, the outcomes of different collaboration patterns between advisors and advisees remain unknown. The purpose of this paper is to find out the correlation between advisors' academic characteristics and advisees' academic performance in Computer Science. Employing both quantitative and qualitative analysis, we find that with the increase of advisors' academic age, advisees' performance experiences an initial growth, follows a sustaining stage, and finally ends up with a declining trend. We also discover the phenomenon that accomplished advisors can bring up skilled advisees. We explore the conclusion from two aspects: (1) Advisees mentored by advisors with high academic level have better academic performance than the rest; (2) Advisors with high academic level can raise their advisees' h-index ranking. This work provides new insights on promoting our understanding of the relationship between advisors' academic characteristics and advisees' performance, as well as on advisor choosing.
翻訳日:2022-10-27 04:23:21 公開日:2020-08-20
# 神経科学制約下におけるJohnson-Lindenstrauss変換の簡易解析

Simple Analysis of Johnson-Lindenstrauss Transform under Neuroscience Constraints ( http://arxiv.org/abs/2008.08857v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) 論文は、有名なjohnson-lindenstrauss lemmaのバージョンを再分析し、行列は神経科学の応用から自然に生じる制約を受ける。 sparsity (複数形 sparsities) b) 署名整合性 この変種はまずallen-zhu、gelashvili、micali、shavit、そして最近ではjagadeesan (random'19)によって研究された。 この作品の貢献は、以前の作品とは対照的に、新しい証明である a)現代的な確率ツールキット、特にサブゲージとサブガンマ推定の基本を用いる b) 自己完結であり、微妙な第三者結果に依存しない c) 明示定数を提供する。 我々の証明の核心はハンソン・ライト・レムマ(二次形式の濃度)の新しい変種である。 独立な利害関係は、亜ガウス確率変数の補助的事実でもある。

The paper re-analyzes a version of the celebrated Johnson-Lindenstrauss Lemma, in which matrices are subjected to constraints that naturally emerge from neuroscience applications: a) sparsity and b) sign-consistency. This particular variant was studied first by Allen-Zhu, Gelashvili, Micali, Shavit and more recently by Jagadeesan (RANDOM'19). The contribution of this work is a novel proof, which in contrast to previous works a) uses the modern probability toolkit, particularly basics of sub-gaussian and sub-gamma estimates b) is self-contained, with no dependencies on subtle third-party results c) offers explicit constants. At the heart of our proof is a novel variant of Hanson-Wright Lemma (on concentration of quadratic forms). Of independent interest are also auxiliary facts on sub-gaussian random variables.
翻訳日:2022-10-27 04:23:01 公開日:2020-08-20
# asya: 深層学習を用いたマインドフル言語コミュニケーション

asya: Mindful verbal communication using deep learning ( http://arxiv.org/abs/2008.08965v1 )

ライセンス: Link先を確認
Evalds Urtans, Ariel Tabaks(参考訳) asyaは、人間の声のスペクトルを分析し、ノイズ検出、話者ダイアリゼーション、性別検出、テンポ推定、音声のみを使用して感情の分類を行うディープラーニングモデルで構成されるモバイルアプリケーションである。 すべてのモデルは言語に依存しず、リアルタイムで実行できる。 我々の話者ダイアリゼーションモデルは、テストデータセット上で95%以上の精度を持つ。 これらのモデルは、カスタマーサービスの改善、営業効果のある会話、心理学、カップルセラピーなど、さまざまな分野に適用できる。

asya is a mobile application that consists of deep learning models which analyze spectra of a human voice and do noise detection, speaker diarization, gender detection, tempo estimation, and classification of emotions using only voice. All models are language agnostic and capable of running in real-time. Our speaker diarization models have accuracy over 95% on the test data set. These models can be applied for a variety of areas like customer service improvement, sales effective conversations, psychology and couples therapy.
翻訳日:2022-10-27 04:22:45 公開日:2020-08-20
# 生成化学:深層学習生成モデルを用いた薬物発見

Generative chemistry: drug discovery with deep learning generative models ( http://arxiv.org/abs/2008.09000v1 )

ライセンス: Link先を確認
Yuemin Bian and Xiang-Qun Xie(参考訳) 深層学習生成モデルを用いた分子構造のデ・ノボ設計は、新薬開発コストの継続的な増大に直面して、薬物発見に対する奨励的な解決策をもたらす。 オリジナルテキスト、画像、ビデオの生成から、新しい分子構造のひっかき傷に至るまで、ディープラーニング生成モデルの驚くべき創造性は、マシン知能の高さに私たちを驚かせた。 本研究の目的は, 創薬プロセスの迅速化を図り, 創薬モデルによる生成化学の最近の進歩を概観することである。 このレビューは、薬物発見における人工知能の短い歴史から始まり、この新たなパラダイムを概説する。 一般的に用いられる化学データベース、分子表現、化学情報学や機械学習の道具は、生成化学の基盤として扱われている。 recurrent neural network, variational autoencoder, adversarial autoencoder, and generative adversarial networkなど,最先端生成アーキテクチャを用いた複合生成に関する詳細な議論を行った。 課題と今後の展望は続く。

The de novo design of molecular structures using deep learning generative models introduces an encouraging solution to drug discovery in the face of the continuously increased cost of new drug development. From the generation of original texts, images, and videos, to the scratching of novel molecular structures, the incredible creativity of deep learning generative models surprised us about the height machine intelligence can achieve. The purpose of this paper is to review the latest advances in generative chemistry which relies on generative modeling to expedite the drug discovery process. This review starts with a brief history of artificial intelligence in drug discovery to outline this emerging paradigm. Commonly used chemical databases, molecular representations, and tools in cheminformatics and machine learning are covered as the infrastructure for the generative chemistry. The detailed discussions on utilizing cutting-edge generative architectures, including recurrent neural network, variational autoencoder, adversarial autoencoder, and generative adversarial network for compound generation are focused. Challenges and future perspectives follow.
翻訳日:2022-10-27 04:22:36 公開日:2020-08-20
# 送電・配電PMUデータにおける敵攻撃対策

Defending Against Adversarial Attacks in Transmission- and Distribution-level PMU Data ( http://arxiv.org/abs/2008.09153v1 )

ライセンス: Link先を確認
Jun Jiang and Xuan Liu and Scott Wallace and Eduardo Cotilla-Sanchez and Robert Bass and Xinghui Zhao(参考訳) ファーザー計測ユニット(PMU)は電力グリッド操作の状況認識を改善するための高忠実度データを提供する。 PMUデータストリームは、広域状態推定、エリア制御エラーの監視、イベント検出をリアルタイムに行う。 PMUデータがより利用可能になり信頼性が高まるにつれて、これらのデバイスは、リメディカルアクションスキームや早期警告検出システムなどの制御システムにおける新しい役割で発見される。 他のサイバー物理システムと同様に、データの整合性とセキュリティを維持することは、電力システムオペレーターにとって大きな課題となる。 本稿では,pmuデータストリーム内の悪意のあるデータインジェクションを検出する複数の機械学習手法の包括的解析を行う。 この研究で使用された2つのデータセットは、米国太平洋北西部の3つの機関にまたがる大学間ネットワークとボンネビル電力局からのユーティリティ・トランスミッションネットワークの2つのpmuネットワークから得られた。 本研究では,機械学習のためのオープンソースソフトウェアライブラリであるtensorflowを用いて検出アルゴリズムを実装し,スプーフデータ検出の有効性を維持しつつ,トレーニングワークロードの分散と高いパフォーマンスを達成する可能性を示す。

Phasor measurement units (PMUs) provide high-fidelity data that improve situation awareness of electric power grid operations. PMU datastreams inform wide-area state estimation, monitor area control error, and facilitate event detection in real time. As PMU data become more available and increasingly reliable, these devices are found in new roles within control systems, such as remedial action schemes and early warning detection systems. As with other cyber physical systems, maintaining data integrity and security pose a significant challenge for power system operators. In this paper, we present a comprehensive analysis of multiple machine learning techniques to detect malicious data injection within PMU data streams. The two datasets used in this study come from two PMU networks: an inter-university, research-grade distribution network spanning three institutions in the U.S. Pacific Northwest, and a utility transmission network from the Bonneville Power Administration. We implement the detection algorithms with TensorFlow, an open-source software library for machine learning, and the results demonstrate potential for distributing the training workload and achieving higher performance, while maintaining effectiveness in the detection of spoofed data.
翻訳日:2022-10-27 04:18:39 公開日:2020-08-20
# 分子生成のためのディープラーニングモデルの系統的評価

A Systematic Assessment of Deep Learning Models for Molecule Generation ( http://arxiv.org/abs/2008.09168v1 )

ライセンス: Link先を確認
Davide Rigoni, Nicol\`o Navarin and Alessandro Sperduti(参考訳) 近年、科学コミュニティは、望ましい性質(薬品)を持つ新しい分子の生成のための深層学習モデルの開発に多くの努力を払っている。 これは文学における多くの提案を生み出した。 しかしながら、異なるVAE手法の体系的な比較は依然として欠落している。 そこで本研究では,創薬のための生成モデルを評価するための広範囲なテストベッドを提案し,文献に提案されている多くのモデルから得られた結果を紹介する。

In recent years the scientific community has devoted much effort in the development of deep learning models for the generation of new molecules with desirable properties (i.e. drugs). This has produced many proposals in literature. However, a systematic comparison among the different VAE methods is still missing. For this reason, we propose an extensive testbed for the evaluation of generative models for drug discovery, and we present the results obtained by many of the models proposed in literature.
翻訳日:2022-10-27 04:18:17 公開日:2020-08-20
# 時系列分類のためのCanonical Interval Forest (CIF)分類器

The Canonical Interval Forest (CIF) Classifier for Time Series Classification ( http://arxiv.org/abs/2008.09172v1 )

ライセンス: Link先を確認
Matthew Middlehurst, James Large, Anthony Bagnall(参考訳) 時系列分類(TSC)は、様々な種類の識別パターンを利用するアルゴリズムグループの本拠地である。 これらのグループの1つは、位相依存間隔を用いて予測する分類器を記述する。 時系列フォレスト(tsf)分類器は最もよく知られたインターバル手法の1つであり、訓練と予測の相対速度だけでなく、高い性能を示している。 しかし、他のアプローチの最近の進歩は、TSFを置き去りにした。 TSFはもともと3つの単純な要約統計を用いて間隔を和らげる。 22の時系列特徴からなる 'catch22' 特徴集合は、多様かつ情報的な記述特性の簡潔なセットを通して時系列解析を支援するために最近提案された。 我々は、TSFとCatch22を組み合わせて新しい分類器、Canonical Interval Forest(CIF)を提案する。 我々は,訓練手順のさらなる拡張を概説し,分類器を多変量分類機能を含むように拡張する。 我々は,tsfとcatch22に対する精度の大幅な向上を実証し,他のアルゴリズムクラスの上位パフォーマーと同等であることを示した。 TSFからCIFへのインターバルベースコンポーネントのアップグレードにより、異なる時系列表現を組み合わせた変換ベースアンサンブル(HIVE-COTE)の階層的な投票集合が大幅に改善されたことを示す。 CIFを用いたHIVE-COTEは、私たちが認識している他のどの分類器よりもUCRアーカイブの方がはるかに正確であり、TSCの新たな最先端技術を表している。

Time series classification (TSC) is home to a number of algorithm groups that utilise different kinds of discriminatory patterns. One of these groups describes classifiers that predict using phase dependant intervals. The time series forest (TSF) classifier is one of the most well known interval methods, and has demonstrated strong performance as well as relative speed in training and predictions. However, recent advances in other approaches have left TSF behind. TSF originally summarises intervals using three simple summary statistics. The `catch22' feature set of 22 time series features was recently proposed to aid time series analysis through a concise set of diverse and informative descriptive characteristics. We propose combining TSF and catch22 to form a new classifier, the Canonical Interval Forest (CIF). We outline additional enhancements to the training procedure, and extend the classifier to include multivariate classification capabilities. We demonstrate a large and significant improvement in accuracy over both TSF and catch22, and show it to be on par with top performers from other algorithmic classes. By upgrading the interval-based component from TSF to CIF, we also demonstrate a significant improvement in the hierarchical vote collective of transformation-based ensembles (HIVE-COTE) that combines different time series representations. HIVE-COTE using CIF is significantly more accurate on the UCR archive than any other classifier we are aware of and represents a new state of the art for TSC.
翻訳日:2022-10-27 04:18:11 公開日:2020-08-20
# PicoDomain: コンパクトな高忠実なサイバーセキュリティデータセット

PicoDomain: A Compact High-Fidelity Cybersecurity Dataset ( http://arxiv.org/abs/2008.09192v1 )

ライセンス: Link先を確認
Craig Laprade, Benjamin Bowman, H. Howie Huang(参考訳) サイバー関連データの分析は、注目が集まっている分野となっている。 企業や政府がサイバー攻撃の意義を理解し始めるにつれて、より優れたサイバーセキュリティソリューションへの衝動が高まっている。 残念ながら、現在のサイバーセキュリティデータセットは、根拠のない真実を提供していないか、匿名化されたデータでそれを行う。 前者は結果を検証するとき、後者は貴重な情報を除去することができる。 さらに、既存のデータセットの多くは、プロトタイプ開発時に不利になるほど大きい。 本稿では,関連ツール,テクニック,手順を用いて,現実的な侵入から得られたZeekログのコンパクトな高忠実度コレクションであるPicoDomainデータセットを開発した。 このデータセットは小規模なネットワーク上でシミュレートされるが、エンタープライズネットワークの典型的なトラフィックで構成されており、分析プラットフォームの迅速な検証と反復的な開発に利用できる。 従来の統計分析とオフザシェルフ機械学習技術を用いて,このデータセットを検証する。

Analysis of cyber relevant data has become an area of increasing focus. As larger percentages of businesses and governments begin to understand the implications of cyberattacks, the impetus for better cybersecurity solutions has increased. Unfortunately, current cybersecurity datasets either offer no ground truth or do so with anonymized data. The former leads to a quandary when verifying results and the latter can remove valuable information. Additionally, most existing datasets are large enough to make them unwieldy during prototype development. In this paper we have developed the PicoDomain dataset, a compact high-fidelity collection of Zeek logs from a realistic intrusion using relevant Tools, Techniques, and Procedures. While simulated on a small-scale network, this dataset consists of traffic typical of an enterprise network, which can be utilized for rapid validation and iterative development of analytics platforms. We have validated this dataset using traditional statistical analysis and off-the-shelf Machine Learning techniques.
翻訳日:2022-10-27 04:17:49 公開日:2020-08-20
# iphantom:個別計算ファントムの自動作成のためのフレームワークとそのct臓器線量計への応用

iPhantom: a framework for automated creation of individualized computational phantoms and its application to CT organ dosimetry ( http://arxiv.org/abs/2008.08730v1 )

ライセンス: Link先を確認
Wanyi Fu, Shobhit Sharma, Ehsan Abadi, Alexandros-Stavros Iliopoulos, Qi Wang, Joseph Y. Lo, Xiaobai Sun, William P. Segars, Ehsan Samei(参考訳) 目的:本研究の目的は,患者固有の幻覚やデジタル双眼鏡(DT)の自動作成のための新しい枠組みであるiPhantomを開発し,検証することである。 この枠組みは、個々の患者のCT画像における放射線感受性臓器への放射線線量を評価するために応用される。 方法: マルチオルガンctセグメンテーションのための学習モデルを用いて, 患者ct画像からiphantomセグメントがアンカーオルガン(肝臓, 骨, 膵など)を選択した。 セグメンテーションに挑戦する臓器(例えば腸)は、多臓器ファントム・ボクセル用に開発された微分型登録モデルを用いて、一致したファントムテンプレートから組み込まれる。 結果として生じる全患者ファントムは、定期的なCT検査中に臓器投与量を評価するために使用される。 結果: iPhantom は XCAT (n=50) と独立臨床 (n=10) データセットの両方で同様の精度で検証された。 iPhantomは、アンカー臓器のDice similarity Coefficients (DSC) >0.6の精度で全ての臓器の位置を正確に予測した。 iPhantomはほとんどの臓器に対して10%以下の線量誤差を示したが、これは最先端のベースライン法(20-35%の線量誤差)よりも優れていた。 結論: iphantomは患者固有のファントムを自動的かつ正確に作成でき、初めて、ct線量測定のために患者固有の線量推定を十分かつ自動化する。 意義: 新しいフレームワークは、自動化によって個々のCHPのレベルにCHPの作成と適用をもたらし、より広く正確に臓器の局在化を実現し、臨床モニタリングとパーソナライズされた最適化、そして大規模研究を可能にします。

Objective: This study aims to develop and validate a novel framework, iPhantom, for automated creation of patient-specific phantoms or digital-twins (DT) using patient medical images. The framework is applied to assess radiation dose to radiosensitive organs in CT imaging of individual patients. Method: From patient CT images, iPhantom segments selected anchor organs (e.g. liver, bones, pancreas) using a learning-based model developed for multi-organ CT segmentation. Organs challenging to segment (e.g. intestines) are incorporated from a matched phantom template, using a diffeomorphic registration model developed for multi-organ phantom-voxels. The resulting full-patient phantoms are used to assess organ doses during routine CT exams. Result: iPhantom was validated on both the XCAT (n=50) and an independent clinical (n=10) dataset with similar accuracy. iPhantom precisely predicted all organ locations with good accuracy of Dice Similarity Coefficients (DSC) >0.6 for anchor organs and DSC of 0.3-0.9 for all other organs. iPhantom showed less than 10% dose errors for the majority of organs, which was notably superior to the state-of-the-art baseline method (20-35% dose errors). Conclusion: iPhantom enables automated and accurate creation of patient-specific phantoms and, for the first time, provides sufficient and automated patient-specific dose estimates for CT dosimetry. Significance: The new framework brings the creation and application of CHPs to the level of individual CHPs through automation, achieving a wider and precise organ localization, paving the way for clinical monitoring, and personalized optimization, and large-scale research.
翻訳日:2022-10-27 04:17:37 公開日:2020-08-20
# 遠位ウェアラブル筋電図とコンピュータビジョンによる顔面運動シナジーと行動単位検出

Facial movement synergies and Action Unit detection from distal wearable Electromyography and Computer Vision ( http://arxiv.org/abs/2008.08791v1 )

ライセンス: Link先を確認
Monica Perusquia-Hernandez, Felix Dollack, Chun Kwang Tan, Shushi Namba, Saho Ayabe-Kanamura, Kenji Suzuki(参考訳) 遠位顔面筋電図(EMG)は、笑顔や顔を正確に検出するために用いられる。 電極がソース筋に直接置かれていない場合でも、ボリューム伝導を利用して関連する筋活動を検出する。 この方法の主な利点は、EMG測定を可能にしながら、表情生成の閉塞と妨害を防止することである。 しかし、emgの測定は、顔の動きの正確な原因が不明であることを意味する。 本稿では、顔面遠位筋電図とコンピュータビジョン(CV)から特定の顔行動単位(AU)を推定する新しい手法を提案する。 この方法は、独立成分分析(ica)、非負行列分解(nnmf)、および得られた成分のソートに基づいて、それぞれのcvラベルアクションユニット(au)に対応する最も可能性が高いかを決定する。 AU06 (Orbicularis Oculi) とAU12 (Zygomaticus Major) の検出性能は, 人間のコーダーとの合意を算出して推定した。 その結果,au6では81%,au12では0.49,au12では82%,cohen's kappaは0.53であった。 このことは、個々の顔の動きを検出する遠位筋電図の可能性を示している。 このマルチモーダル法を用いて、いくつかのAUシナジーが同定された。 AU6 と AU12 の同時発生とタイミングの定量化を人為的ラベルを用いて行い,連続的な CV ラベルを用いて比較した。 筋相乗効果と可視性顔面運動の運動動態との関係を明らかにするため,emgラベルを用いた共起分析を行った。

Distal facial Electromyography (EMG) can be used to detect smiles and frowns with reasonable accuracy. It capitalizes on volume conduction to detect relevant muscle activity, even when the electrodes are not placed directly on the source muscle. The main advantage of this method is to prevent occlusion and obstruction of the facial expression production, whilst allowing EMG measurements. However, measuring EMG distally entails that the exact source of the facial movement is unknown. We propose a novel method to estimate specific Facial Action Units (AUs) from distal facial EMG and Computer Vision (CV). This method is based on Independent Component Analysis (ICA), Non-Negative Matrix Factorization (NNMF), and sorting of the resulting components to determine which is the most likely to correspond to each CV-labeled action unit (AU). Performance on the detection of AU06 (Orbicularis Oculi) and AU12 (Zygomaticus Major) was estimated by calculating the agreement with Human Coders. The results of our proposed algorithm showed an accuracy of 81% and a Cohen's Kappa of 0.49 for AU6; and accuracy of 82% and a Cohen's Kappa of 0.53 for AU12. This demonstrates the potential of distal EMG to detect individual facial movements. Using this multimodal method, several AU synergies were identified. We quantified the co-occurrence and timing of AU6 and AU12 in posed and spontaneous smiles using the human-coded labels, and for comparison, using the continuous CV-labels. The co-occurrence analysis was also performed on the EMG-based labels to uncover the relationship between muscle synergies and the kinematics of visible facial movement.
翻訳日:2022-10-27 04:17:01 公開日:2020-08-20
# 効率的な映像圧縮のための条件エントロピー符号化

Conditional Entropy Coding for Efficient Video Compression ( http://arxiv.org/abs/2008.09180v1 )

ライセンス: Link先を確認
Jerry Liu, Shenlong Wang, Wei-Chiu Ma, Meet Shah, Rui Hu, Pranaab Dhawan, and Raquel Urtasun(参考訳) 本稿では,フレーム間の条件エントロピーのモデル化にのみ焦点をあてた,非常に単純で効率的なビデオ圧縮フレームワークを提案する。 従来の学習手法とは異なり、フレーム間の明示的な変換を一切行わず、各フレームが独立した最先端の深層画像圧縮器で符号化されていると仮定することにより、複雑性を低減する。 まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同じくらい高速で実装が容易であることを示す。 次に、このアーキテクチャ上に新しい内部学習拡張を提案し、デコード速度を切り替えることなく、さらに10%のビットレート節約を実現する。 さらに,高ビットレートのuvgビデオではh.265や他の深層学習ベースライン,低フレームレートでは全ビデオコーデックに対して,自己回帰エントロピーモデルを用いた深層モデルよりも数千倍高速であることを示す。

We propose a very simple and efficient video compression framework that only focuses on modeling the conditional entropy between frames. Unlike prior learning-based approaches, we reduce complexity by not performing any form of explicit transformations between frames and assume each frame is encoded with an independent state-of-the-art deep image compressor. We first show that a simple architecture modeling the entropy between the image latent codes is as competitive as other neural video compression works and video codecs while being much faster and easier to implement. We then propose a novel internal learning extension on top of this architecture that brings an additional 10% bitrate savings without trading off decoding speed. Importantly, we show that our approach outperforms H.265 and other deep learning baselines in MS-SSIM on higher bitrate UVG video, and against all video codecs on lower framerates, while being thousands of times faster in decoding than deep models utilizing an autoregressive entropy model.
翻訳日:2022-10-27 04:16:16 公開日:2020-08-20
# ヒトの相互作用運動に対する物体特性の推算と伝達

Object Properties Inferring from and Transfer for Human Interaction Motions ( http://arxiv.org/abs/2008.08999v1 )

ライセンス: Link先を確認
Qian Zheng, Weikai Wu, Hanting Pan, Niloy Mitra, Daniel Cohen-Or, Hui Huang(参考訳) 人間は周囲の物体と定期的に対話する。 このような相互作用は、しばしば人間と相互作用する物体の間の強い相関運動をもたらす。 したがって、「相互作用する物体自体を見ることなく、骨格運動のみから物体の性質を推測することは可能か? 本稿では,このような潜在物体特性を人間のインタラクション動作のみから推測する,細粒度な行動認識手法を提案する。 この推論により、オブジェクトプロパティから動きを外し、オブジェクトプロパティを所定の動きに移すことができます。 我々は,慣性モーションキャプチャー装置を用いて,演奏者の多数のビデオと3D骨格運動を収集した。 類似した動作を分析し、それらの間の微妙な違いを学習し、相互作用するオブジェクトの潜在性を明らかにする。 特に, 相互作用対象の重量, 脆弱性, デリカシーを推定することにより, 相互作用対象の同定を学習する。 その結果, 相互作用運動と相互作用物体は高い相関関係にあり, 相対的物体潜在性は3次元骨格配列のみから推測できることが明らかとなり, ヒトの相互作用運動に対する新たな合成の可能性が示唆された。 Datasetはhttp://vcc.szu.edu.cn/research/2020/ITで利用できる。

Humans regularly interact with their surrounding objects. Such interactions often result in strongly correlated motion between humans and the interacting objects. We thus ask: "Is it possible to infer object properties from skeletal motion alone, even without seeing the interacting object itself?" In this paper, we present a fine-grained action recognition method that learns to infer such latent object properties from human interaction motion alone. This inference allows us to disentangle the motion from the object property and transfer object properties to a given motion. We collected a large number of videos and 3D skeletal motions of the performing actors using an inertial motion capture device. We analyze similar actions and learn subtle differences among them to reveal latent properties of the interacting objects. In particular, we learn to identify the interacting object, by estimating its weight, or its fragility or delicacy. Our results clearly demonstrate that the interaction motions and interacting objects are highly correlated and indeed relative object latent properties can be inferred from the 3D skeleton sequences alone, leading to new synthesis possibilities for human interaction motions. Dataset will be available at http://vcc.szu.edu.cn/research/2020/IT.
翻訳日:2022-10-27 04:10:16 公開日:2020-08-20
# 身体的注意を通した単眼表現性身体退縮

Monocular Expressive Body Regression through Body-Driven Attention ( http://arxiv.org/abs/2008.09062v1 )

ライセンス: Link先を確認
Vasileios Choutas, Georgios Pavlakos, Timo Bolkart, Dimitrios Tzionas, Michael J. Black(参考訳) 人々がどのように見えるか、対話し、タスクを実行するかを理解するためには、RGB画像から素早く正確に3Dの体、顔、手を取り出す必要があります。 既存の方法のほとんどは身体の一部のみに焦点を当てている。 最近のアプローチでは、顔と手を含む3dボディモデルを使用して、画像から完全な表現力のある3d人間を再構築する。 これらの手法は最適化ベースであり、したがって遅く、局所最適になりがちであり、入力には2Dキーポイントが必要である。 RGB画像からSMPL-X形式で、身体、顔、手を直接回帰するExPose(Expressive POse and Shape rEgression)を導入することで、これらの制限に対処する。 これは、身体の高次元化と表現力のあるトレーニングデータの欠如のため、難しい問題である。 さらに、手と顔は体よりもずっと小さく、画像ピクセルはごくわずかである。 これにより、ニューラルネットワークのためにボディイメージをダウンスケールする場合、手と顔の推定が困難になる。 主な貢献は3つです。 まず、SMPL-XのデータセットをWild画像に適合させることで、トレーニングデータの欠如を説明する。 第2に,身体推定が顔と手の位置を合理的に推定する。 原画像の顔・手領域に対する身体駆動型注意力を導入し, 専用精製モジュールに供給される高分解能作物を抽出する。 第三に、これらのモジュールは既存の顔と手のみのデータセットから部分固有の知識を利用する。 計算コストのごく一部で、既存の最適化手法よりも正確な3d人間を表現できる見積もりを公開する。 私たちのデータ、モデル、コードはhttps://expose.is.tue.mpg.deで研究できます。

To understand how people look, interact, or perform tasks, we need to quickly and accurately capture their 3D body, face, and hands together from an RGB image. Most existing methods focus only on parts of the body. A few recent approaches reconstruct full expressive 3D humans from images using 3D body models that include the face and hands. These methods are optimization-based and thus slow, prone to local optima, and require 2D keypoints as input. We address these limitations by introducing ExPose (EXpressive POse and Shape rEgression), which directly regresses the body, face, and hands, in SMPL-X format, from an RGB image. This is a hard problem due to the high dimensionality of the body and the lack of expressive training data. Additionally, hands and faces are much smaller than the body, occupying very few image pixels. This makes hand and face estimation hard when body images are downscaled for neural networks. We make three main contributions. First, we account for the lack of training data by curating a dataset of SMPL-X fits on in-the-wild images. Second, we observe that body estimation localizes the face and hands reasonably well. We introduce body-driven attention for face and hand regions in the original image to extract higher-resolution crops that are fed to dedicated refinement modules. Third, these modules exploit part-specific knowledge from existing face- and hand-only datasets. ExPose estimates expressive 3D humans more accurately than existing optimization methods at a small fraction of the computational cost. Our data, model and code are available for research at https://expose.is.tue.mpg.de .
翻訳日:2022-10-27 04:09:56 公開日:2020-08-20
# DPMC:プロジェクト結合木上の動的プログラミングによる重み付きモデルカウント

DPMC: Weighted Model Counting by Dynamic Programming on Project-Join Trees ( http://arxiv.org/abs/2008.08748v1 )

ライセンス: Link先を確認
Jeffrey M. Dudek, Vu H. N. Phan, Moshe Y. Vardi(参考訳) 共役正規形の公式の厳密なリテラル重み付きモデル数を計算するための動的プログラミングフレームワークを提案する。 私たちのフレームワークの中心はプロジェクト結合木で、加法的射影(可変除去)と結合(クロース乗法)を適用するための効率的なプロジェクト結合順序を指定する。 このフレームワークでは、2つのフェーズでモデルカウントが行われる。 まず、計画フェーズは、公式からプロジェクト-ジョイントツリーを構成する。 次に、実行フェーズは、プロジェクトジョインツリーによって導かれる動的プログラミングを用いて、公式のモデルカウントを計算する。 計画段階の様々な手法を実験的に評価し,制約満足度ヒューリスティックスを木分解ツールと比較した。 また,実行フェーズにおける異なるデータ構造の性能を調べ,代数的決定図とテンソルを比較した。 我々の動的プログラミングモデルカウントフレームワークDPMCは,キャレット,c2d,d4,miniC2Dの重み付きモデルカウンタと競合することを示す。

We propose a unifying dynamic-programming framework to compute exact literal-weighted model counts of formulas in conjunctive normal form. At the center of our framework are project-join trees, which specify efficient project-join orders to apply additive projections (variable eliminations) and joins (clause multiplications). In this framework, model counting is performed in two phases. First, the planning phase constructs a project-join tree from a formula. Second, the execution phase computes the model count of the formula, employing dynamic programming as guided by the project-join tree. We empirically evaluate various methods for the planning phase and compare constraint-satisfaction heuristics with tree-decomposition tools. We also investigate the performance of different data structures for the execution phase and compare algebraic decision diagrams with tensors. We show that our dynamic-programming model-counting framework DPMC is competitive with the state-of-the-art exact weighted model counters cachet, c2d, d4, and miniC2D.
翻訳日:2022-10-27 04:09:09 公開日:2020-08-20
# 類似性に基づくGNNに基づくリンク予測手法の比較研究

A comparative study of similarity-based and GNN-based link prediction approaches ( http://arxiv.org/abs/2008.08879v1 )

ライセンス: Link先を確認
Md Kamrul Islam and Sabeur Aridhi and Malika Smail-Tabbone(参考訳) グラフ中の欠落したリンクを現在の構造に基づいて推定するタスクをリンク予測と呼ぶ。 ペアワイズノード類似性に基づくリンク予測手法は、文献において確立されたアプローチである。 多くの実世界のグラフで良い予測性能を示すが、ヒューリスティックであり、普遍的な適用性がない。 一方、様々な分野における分類タスクのためのニューラルネットワークの成功は、研究者をグラフで研究させることに繋がる。 ニューラルネットワークがグラフ上で直接動作する場合、グラフニューラルネットワーク(GNN)と呼ばれる。 GNNはグラフ内のリンク予測タスクに使用できるグラフから隠れた機能を学ぶことができる。 GNNに基づくリンク予測は、多くの実世界のグラフで説得力のあるハイパフォーマンスのため、研究者の注目を集めている。 この評価論文は、一種類の(分散)ノードと一種類のペアワイズリンクからなる同質グラフの領域における類似性とGNNベースのリンク予測アプローチについて研究する。 様々な領域の異なる複数のベンチマークグラフに対する研究手法の評価を行った。

The task of inferring the missing links in a graph based on its current structure is referred to as link prediction. Link prediction methods that are based on pairwise node similarity are well-established approaches in the literature. They show good prediction performance in many real-world graphs though they are heuristics and lack of universal applicability. On the other hand, the success of neural networks for classification tasks in various domains leads researchers to study them in graphs. When a neural network can operate directly on the graph, then it is termed as the graph neural network (GNN). GNN is able to learn hidden features from graphs which can be used for link prediction task in graphs. Link predictions based on GNNs have gained much attention of researchers due to their convincing high performance in many real-world graphs. This appraisal paper studies some similarity and GNN-based link prediction approaches in the domain of homogeneous graphs that consists of a single type of (attributed) nodes and single type of pairwise links. We evaluate the studied approaches against several benchmark graphs with different properties from various domains.
翻訳日:2022-10-27 04:07:48 公開日:2020-08-20
# ランク自動偏差学習のための多変量スコアリング関数の解析

Analysis of Multivariate Scoring Functions for Automatic Unbiased Learning to Rank ( http://arxiv.org/abs/2008.09061v1 )

ライセンス: Link先を確認
Tao Yang, Shikai Fang, Shibo Li, Yulan Wang, Qingyao Ai(参考訳) ランク付けシステムへの学習を最適化するためにバイアス付きクリックデータを活用することは、情報検索における一般的なアプローチである。 クリックデータはしばしばノイズが多く偏りがあるため、アンバイアス付きランキングモデルの学習のためのアンバイアスド学習(ULTR)アルゴリズムを構築するための様々な方法が提案されている。 その中でも,ユーザバイアスモデル(すなわちプロペンシティモデル)と非バイアスランカを共同で学習する自動非バイアス学習(autoultr)アルゴリズムは,その優れた性能と運用コストの低さから,多くの注目を集めている。 理論とアルゴリズム設計の相違にもかかわらず、ULTRに関する既存の研究は通常、各文書や結果を独立して評価するために単変量ランク関数を使用する。 一方,近年の文脈認識学習・ランク付けモデルの進歩により,複数の文書をまとめて読み上げ,ランキングスコアを同時に予測する多変量スコア関数は,人間関連ラベルを用いたランキングタスクにおいて,一変量ランキング関数よりも強力であることが示されている。 しかし、ノイズの多いデータを持つULTRでそのような優れた性能が保たれるかどうかはほとんど不明である。 本稿では,既存の多変量評価関数とAutoULTRアルゴリズムを理論的に検討し,既存のAutoULTRフレームワークに文脈認識学習-ランクモデルを適用することができるかどうかを判断する上で,置換不変性が重要な要素であることを示す。 2つの大規模ベンチマークデータセットの合成クリック実験により、置換不変な多変量スコア関数を持つAutoULTRモデルは、単変量スコア関数と置換不変な多変量スコア関数を持つモデルよりも有意に優れていた。

Leveraging biased click data for optimizing learning to rank systems has been a popular approach in information retrieval. Because click data is often noisy and biased, a variety of methods have been proposed to construct unbiased learning to rank (ULTR) algorithms for the learning of unbiased ranking models. Among them, automatic unbiased learning to rank (AutoULTR) algorithms that jointly learn user bias models (i.e., propensity models) with unbiased rankers have received a lot of attention due to their superior performance and low deployment cost in practice. Despite their differences in theories and algorithm design, existing studies on ULTR usually use uni-variate ranking functions to score each document or result independently. On the other hand, recent advances in context-aware learning-to-rank models have shown that multivariate scoring functions, which read multiple documents together and predict their ranking scores jointly, are more powerful than uni-variate ranking functions in ranking tasks with human-annotated relevance labels. Whether such superior performance would hold in ULTR with noisy data, however, is mostly unknown. In this paper, we investigate existing multivariate scoring functions and AutoULTR algorithms in theory and prove that permutation invariance is a crucial factor that determines whether a context-aware learning-to-rank model could be applied to existing AutoULTR framework. Our experiments with synthetic clicks on two large-scale benchmark datasets show that AutoULTR models with permutation-invariant multivariate scoring functions significantly outperform those with uni-variate scoring functions and permutation-variant multivariate scoring functions.
翻訳日:2022-10-27 04:07:18 公開日:2020-08-20
# 条件付きWasserstein GANに基づく不均衡学習のためのタブラリデータのオーバーサンプリング

Conditional Wasserstein GAN-based Oversampling of Tabular Data for Imbalanced Learning ( http://arxiv.org/abs/2008.09202v1 )

ライセンス: Link先を確認
Justin Engelmann, Stefan Lessmann(参考訳) クラス不均衡は教師付き学習において一般的な問題であり、分類モデルの予測性能を妨げる。 主な対策として、少数民族の過小評価がある。 SMOTEのような標準的な手法は、高次元の複雑なデータ分布の場合に問題となる最も近い近傍や線形補間を見つけることに依存する。 GAN(Generative Adversarial Networks)は、複雑な分布をモデル化可能な人工少数例を生成する代替手法として提案されている。 しかし, GANをベースとしたオーバーサンプリングに関する先行研究は, GANを用いたリアルな表形式データの生成に関する文献の最近の進歩を取り入れていない。 以前の研究は数値変数にも焦点を当てているが、分類学的特徴はクレジットスコアリングのような分類法の多くのビジネス応用で一般的である。 本論文は,数式および分類変数を用いた表型データセットを効果的にモデル化し,補助分類器損失による下流分類タスクに特に注意を払う条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。 実世界の7つのデータセットの標準オーバーサンプリング手法と不均衡ベースラインに対して,本手法をベンチマークした。 実証的な結果は、GANに基づくオーバーサンプリングの競争力を示している。

Class imbalance is a common problem in supervised learning and impedes the predictive performance of classification models. Popular countermeasures include oversampling the minority class. Standard methods like SMOTE rely on finding nearest neighbours and linear interpolations which are problematic in case of high-dimensional, complex data distributions. Generative Adversarial Networks (GANs) have been proposed as an alternative method for generating artificial minority examples as they can model complex distributions. However, prior research on GAN-based oversampling does not incorporate recent advancements from the literature on generating realistic tabular data with GANs. Previous studies also focus on numerical variables whereas categorical features are common in many business applications of classification methods such as credit scoring. The paper propoes an oversampling method based on a conditional Wasserstein GAN that can effectively model tabular datasets with numerical and categorical variables and pays special attention to the down-stream classification task through an auxiliary classifier loss. We benchmark our method against standard oversampling methods and the imbalanced baseline on seven real-world datasets. Empirical results evidence the competitiveness of GAN-based oversampling.
翻訳日:2022-10-27 04:00:51 公開日:2020-08-20
# 確率的複合非凸最適化のための最適ハイブリッド分散変換アルゴリズム

An Optimal Hybrid Variance-Reduced Algorithm for Stochastic Composite Nonconvex Optimization ( http://arxiv.org/abs/2008.09055v1 )

ライセンス: Link先を確認
Deyi Liu, Lam M. Nguyen, and Quoc Tran-Dinh(参考訳) 本稿では, [7] におけるハイブリッド分散誘導近位勾配法の新しい変種を提案し, 標準仮定の下での共通確率的合成非凸最適化問題を解く。 我々は、[7]で導入されたハイブリッド-SARAH推定器の独立な非バイアス推定器を、同じ試料で評価された確率勾配によって置き換え、[2]で導入された同一運動量-SARAH推定器に置き換える。 これにより、1イテレーションあたりの確率的勾配を [7] と比較して保存でき、1イテレーションにつき2つのサンプルしか必要ありません。 我々のアルゴリズムは非常に単純で、確率的勾配評価(定数係数まで)の観点から、最適な確率的オラクル複雑性を実現する。 私たちの分析は基本的に[7]にインスパイアされていますが、2つの異なるステップサイズを使用しません。

In this note we propose a new variant of the hybrid variance-reduced proximal gradient method in [7] to solve a common stochastic composite nonconvex optimization problem under standard assumptions. We simply replace the independent unbiased estimator in our hybrid- SARAH estimator introduced in [7] by the stochastic gradient evaluated at the same sample, leading to the identical momentum-SARAH estimator introduced in [2]. This allows us to save one stochastic gradient per iteration compared to [7], and only requires two samples per iteration. Our algorithm is very simple and achieves optimal stochastic oracle complexity bound in terms of stochastic gradient evaluations (up to a constant factor). Our analysis is essentially inspired by [7], but we do not use two different step-sizes.
翻訳日:2022-10-27 04:00:18 公開日:2020-08-20
# マルチチャネルバイナリとカウントデータのオフライン変更点検出のための厳密なテストとネットワークへの応用

Exact Tests for Offline Changepoint Detection in Multichannel Binary and Count Data with Application to Networks ( http://arxiv.org/abs/2008.09083v1 )

ライセンス: Link先を確認
Shyamal K. De and Soumendu Sundar Mukherjee(参考訳) 我々は、バイナリとカウント時系列の1つのチェンジポイントをオフラインで検出することを検討する。 累積和(CUSUM)とLR比(LR)の統計に基づく正確なテストと,CUSUM統計に対するブラウン橋近似に基づく標準的な漸近テストに対して,正確な2サンプル条件と多重度補正を組み合わせた新しい提案を行った。 私たちは経験的に、漸近的なテストを駆動する通常の近似が信頼できない状況では、正確なテストの方がずっと強力であると考えています。 (i)小さなサンプル設定 (ii)スパースパラメトリックの設定 (iii)境界付近に変化点のある時系列。 また,チャネルが異なる変更ポイントを持つことができるマルチチャネルバージョンの問題についても検討する。 FDR(False Discovery Rate)を制御し,複数のチャネルの変化を同時に検出する。 この"ローカル"アプローチは、変更点を持つチャネル数がチャネルの総数よりはるかに少ない場合に、多変量グローバルテストアプローチよりも有利であることが示されている。 自然な応用として,ネットワーク価値時系列を考察し,そのアプローチを用いる。 (a)二元チャネルとしてのエッジ、 (b)ノード次数その他のローカルサブグラフ統計をカウントチャネルとする。 ローカルテストのアプローチは、グローバルなネットワーク変更ポイントアルゴリズムよりもはるかに有益である。

We consider offline detection of a single changepoint in binary and count time-series. We compare exact tests based on the cumulative sum (CUSUM) and the likelihood ratio (LR) statistics, and a new proposal that combines exact two-sample conditional tests with multiplicity correction, against standard asymptotic tests based on the Brownian bridge approximation to the CUSUM statistic. We see empirically that the exact tests are much more powerful in situations where normal approximations driving asymptotic tests are not trustworthy: (i) small sample settings; (ii) sparse parametric settings; (iii) time-series with changepoint near the boundary. We also consider a multichannel version of the problem, where channels can have different changepoints. Controlling the False Discovery Rate (FDR), we simultaneously detect changes in multiple channels. This "local" approach is shown to be more advantageous than multivariate global testing approaches when the number of channels with changepoints is much smaller than the total number of channels. As a natural application, we consider network-valued time-series and use our approach with (a) edges as binary channels and (b) node-degrees or other local subgraph statistics as count channels. The local testing approach is seen to be much more informative than global network changepoint algorithms.
翻訳日:2022-10-27 04:00:02 公開日:2020-08-20
# 話者・発話の二重注意と発話検証

Speaker-Utterance Dual Attention for Speaker and Utterance Verification ( http://arxiv.org/abs/2008.08901v1 )

ライセンス: Link先を確認
Tianchi Liu, Rohan Kumar Das, Maulik Madhavi, Shengmei Shen, Haizhou Li(参考訳) 本稿では,話者特性と言語コンテンツの相互作用を利用して,話者の検証と発話の検証性能を向上させる新しい手法について検討する。 本稿では,suda(speak-utterance dual attention)の概念を統一ニューラルネットワークで実装する。 二重注意は、話者と発話の検証という2つのタスクに対する注意のメカニズムを指す。 提案手法は,話者と発話情報ストリーム間のインタラクションを学習するための注意マスク機構を備えている。 これにより、無関係なタスクをマスキングすることで、各タスクに必要な情報のみに集中することができる。 RSR2015コーパスで実施した研究は、提案したSUDAが、注意マスクを使わずに、話者と発話の検証のためのいくつかの競争システムよりも優れていることを確認した。

In this paper, we study a novel technique that exploits the interaction between speaker traits and linguistic content to improve both speaker verification and utterance verification performance. We implement an idea of speaker-utterance dual attention (SUDA) in a unified neural network. The dual attention refers to an attention mechanism for the two tasks of speaker and utterance verification. The proposed SUDA features an attention mask mechanism to learn the interaction between the speaker and utterance information streams. This helps to focus only on the required information for respective task by masking the irrelevant counterparts. The studies conducted on RSR2015 corpus confirm that the proposed SUDA outperforms the framework without attention mask as well as several competitive systems for both speaker and utterance verification.
翻訳日:2022-10-27 03:59:42 公開日:2020-08-20
# DAMI-P2C親子マルチモーダルインタラクションデータセットを用いたDyadic Speech-based Affect Recognition

Dyadic Speech-based Affect Recognition using DAMI-P2C Parent-child Multimodal Interaction Dataset ( http://arxiv.org/abs/2008.09207v1 )

ライセンス: Link先を確認
Huili Chen and Yue Zhang and Felix Weninger and Rosalind Picard and Cynthia Breazeal and Hae Won Park(参考訳) ディヤド会話における個人の自動音声認識は,手作業による前処理に重きを置き,困難な課題である。 伝統的なアプローチでは、手作りの音声特徴と話者の回転のセグメンテーションがしばしば必要となる。 本研究では,音声ストリームにおける各人の感情表現を2つの話者で認識し,対象話者の感情に関連する特徴や時間領域を自動的に発見する,エンドツーエンドのディープラーニング手法を提案する。 エンド・ツー・エンドのアーキテクチャにローカルアテンション機構を統合し、平均プールと2つの重み付きプーリングメソッドという3つのアテンション実装のパフォーマンスを比較する。 提案する重み付きプール型アテンションソリューションは,対象話者の感情情報を含む領域に焦点を絞って学習し,個人の価と覚醒強度を効果的に抽出できることを示す。 ここでは、34家族を対象にした「親子間相互作用におけるダイアディックな影響」データセット(DAMI-P2C)を導入、使用し、親と子(3-7歳)が一緒にストーリーブックを読む。 影響認識のための既存のパブリックデータセットとは対照的に、DAMI-P2Cデータセット内の両方の話者のインスタンスは、3つのラベルによる認識された影響に対してアノテートされる。 マルチスピーカーによるインフルエンサーセンシングの課題に関するさらなる研究を奨励するため、我々はアノテーション付きdami-p2cデータセットを公開し、dyadsの生オーディオの音響特徴、インフルエンサーアノテーション、各dyadの開発、社会的、人口統計プロファイルの多種多様なセットを含む。

Automatic speech-based affect recognition of individuals in dyadic conversation is a challenging task, in part because of its heavy reliance on manual pre-processing. Traditional approaches frequently require hand-crafted speech features and segmentation of speaker turns. In this work, we design end-to-end deep learning methods to recognize each person's affective expression in an audio stream with two speakers, automatically discovering features and time regions relevant to the target speaker's affect. We integrate a local attention mechanism into the end-to-end architecture and compare the performance of three attention implementations -- one mean pooling and two weighted pooling methods. Our results show that the proposed weighted-pooling attention solutions are able to learn to focus on the regions containing target speaker's affective information and successfully extract the individual's valence and arousal intensity. Here we introduce and use a "dyadic affect in multimodal interaction - parent to child" (DAMI-P2C) dataset collected in a study of 34 families, where a parent and a child (3-7 years old) engage in reading storybooks together. In contrast to existing public datasets for affect recognition, each instance for both speakers in the DAMI-P2C dataset is annotated for the perceived affect by three labelers. To encourage more research on the challenging task of multi-speaker affect sensing, we make the annotated DAMI-P2C dataset publicly available, including acoustic features of the dyads' raw audios, affect annotations, and a diverse set of developmental, social, and demographic profiles of each dyad.
翻訳日:2022-10-27 03:59:32 公開日:2020-08-20
# 多言語モデリングによる低リソース言語のための効率的なニューラル音声合成

Efficient neural speech synthesis for low-resource languages through multilingual modeling ( http://arxiv.org/abs/2008.09659v1 )

ライセンス: Link先を確認
Marcel de Korte, Jaebok Kim, Esther Klabbers(参考訳) ニューラルTSの最近の進歩は、高品質な合成音声を生成するモデルを生み出している。 しかし、これらのモデルは通常、大量のトレーニングデータを必要とするため、望ましい品質で新しい音声を生成するのにコストがかかる。 マルチ話者モデリングは、新しい音声に必要なデータ要求を減らすことができるが、この手法は通常、豊富なマルチ話者データが利用できない多くの低リソース言語では有効ではない。 そこで本稿では,多言語多話者モデリングが単言語多話者モデリングの代替となる可能性について検討し,外国語のデータと低リソース言語データとの結合がいかに優れているかを検討した。 その結果,多言語モデルが低資源言語音声の自然性を高めること,多言語モデルが単言語多話者モデルに匹敵する自然性を持つ音声を生成できること,対象言語自然性が外国語データ付加戦略の影響を受けていることがわかった。

Recent advances in neural TTS have led to models that can produce high-quality synthetic speech. However, these models typically require large amounts of training data, which can make it costly to produce a new voice with the desired quality. Although multi-speaker modeling can reduce the data requirements necessary for a new voice, this approach is usually not viable for many low-resource languages for which abundant multi-speaker data is not available. In this paper, we therefore investigated to what extent multilingual multi-speaker modeling can be an alternative to monolingual multi-speaker modeling, and explored how data from foreign languages may best be combined with low-resource language data. We found that multilingual modeling can increase the naturalness of low-resource language speech, showed that multilingual models can produce speech with a naturalness comparable to monolingual multi-speaker models, and saw that the target language naturalness was affected by the strategy used to add foreign language data.
翻訳日:2022-10-27 03:59:01 公開日:2020-08-20
# 総合的アテンションネットワークによる単一画像超解像

Single Image Super-Resolution via a Holistic Attention Network ( http://arxiv.org/abs/2008.08767v1 )

ライセンス: Link先を確認
Ben Niu, Weilei Wen, Wenqi Ren, Xiangde Zhang, Lianping Yang, Shuzhen Wang, Kaihao Zhang, Xiaochun Cao and Haifeng Shen(参考訳) インフォーマティブ機能は、単一画像の超解像度タスクにおいて重要な役割を果たす。 チャネルアテンションは各層における情報豊富な特徴の保存に有効であることが示されている。 しかし、チャネルアテンションは各畳み込み層を別々のプロセスとして扱い、異なる層間の相関を見逃す。 この問題に対処するため,レイヤアテンション・モジュール (LAM) とチャネル空間アテンション・モジュール (CSAM) から構成される新しい全体論的アテンション・ネットワーク (HAN) を提案する。 具体的には,層間の相関を考慮し,階層的特徴を適応的に強調する。 一方、CSAMは各チャンネルの全ての位置における信頼度を学習し、より情報的な特徴を選択的に捉える。 広汎な実験により、提案したHANは、最先端の単一画像超解像アプローチに対して好意的に機能することが示された。

Informative features play a crucial role in the single image super-resolution task. Channel attention has been demonstrated to be effective for preserving information-rich features in each layer. However, channel attention treats each convolution layer as a separate process that misses the correlation among different layers. To address this problem, we propose a new holistic attention network (HAN), which consists of a layer attention module (LAM) and a channel-spatial attention module (CSAM), to model the holistic interdependencies among layers, channels, and positions. Specifically, the proposed LAM adaptively emphasizes hierarchical features by considering correlations among layers. Meanwhile, CSAM learns the confidence at all the positions of each channel to selectively capture more informative features. Extensive experiments demonstrate that the proposed HAN performs favorably against the state-of-the-art single image super-resolution approaches.
翻訳日:2022-10-27 03:58:45 公開日:2020-08-20
# ベイズ深部画像を用いた医用画像における不確かさ推定

Uncertainty Estimation in Medical Image Denoising with Bayesian Deep Image Prior ( http://arxiv.org/abs/2008.08837v1 )

ライセンス: Link先を確認
Max-Heinrich Laves and Malte T\"olle and Tobias Ortmaier(参考訳) 深層学習による逆医用画像タスクの不確かさの定量化はほとんど注目されていない。 しかし、大規模なデータセットで訓練された深いモデルは、解剖学的に存在しない再建された出力に幻覚を与え、人工物を作る傾向がある。 再構成画像のパラメータ化にはランダムに初期化された畳み込みネットワークを用い,それ以前の観測値と一致した勾配降下を行う。 この場合、事前の訓練が行われないので、再建は幻覚に苦しむことはない。 これをモンテカルロドロップアウトによるベイズ的アプローチに拡張し、アレエータ的・認識的不確実性の両方を定量化する。 提案手法は, 異なる医用画像モードを特徴付けるタスクに基づいて評価する。 実験の結果,本手法は十分な不確実性をもたらすことがわかった。 すなわち、予測の不確実性は予測誤差と相関する。 これにより、信頼性の高い不確実性推定が可能となり、逆医療画像課題における幻覚やアーティファクトの問題に対処できる。

Uncertainty quantification in inverse medical imaging tasks with deep learning has received little attention. However, deep models trained on large data sets tend to hallucinate and create artifacts in the reconstructed output that are not anatomically present. We use a randomly initialized convolutional network as parameterization of the reconstructed image and perform gradient descent to match the observation, which is known as deep image prior. In this case, the reconstruction does not suffer from hallucinations as no prior training is performed. We extend this to a Bayesian approach with Monte Carlo dropout to quantify both aleatoric and epistemic uncertainty. The presented method is evaluated on the task of denoising different medical imaging modalities. The experimental results show that our approach yields well-calibrated uncertainty. That is, the predictive uncertainty correlates with the predictive error. This allows for reliable uncertainty estimates and can tackle the problem of hallucinations and artifacts in inverse medical imaging tasks.
翻訳日:2022-10-27 03:58:29 公開日:2020-08-20
# DeepGMR: 登録のための潜在ガウス混合モデル学習

DeepGMR: Learning Latent Gaussian Mixture Models for Registration ( http://arxiv.org/abs/2008.09088v1 )

ライセンス: Link先を確認
Wentao Yuan, Ben Eckart, Kihwan Kim, Varun Jampani, Dieter Fox, Jan Kautz(参考訳) ポイントクラウドの登録は、3Dコンピュータビジョン、グラフィックス、ロボット工学の基本的な問題である。 過去数十年間、既存の登録アルゴリズムは大きな変換、ノイズ、時間の制約のある状況で苦労してきた。 本稿では,ガウスの混合としてモデル化された2つの確率分布間のKL分散の最小化として登録を定式化することにより,確率的登録パラダイムを明示的に活用する最初の学習ベース登録手法であるディープガウス混合登録(DeepGMR)を紹介する。 生点雲とガウス混合モデル(gmm)パラメータ間のポーズ不変対応を抽出するニューラルネットワークと、一致するgmmパラメータから最適な変換を回復する2つの微分可能な計算ブロックを設計する。 この構成により、ネットワークはse(3)不変な特徴空間を学習し、リアルタイムで一般化され、雑音にロバストなグローバル登録法を生成することができる。 提案手法は, 合成および実世界のデータ全体にわたって, 最先端の幾何学的および学習的登録法と比較して, 良好な性能を示す。

Point cloud registration is a fundamental problem in 3D computer vision, graphics and robotics. For the last few decades, existing registration algorithms have struggled in situations with large transformations, noise, and time constraints. In this paper, we introduce Deep Gaussian Mixture Registration (DeepGMR), the first learning-based registration method that explicitly leverages a probabilistic registration paradigm by formulating registration as the minimization of KL-divergence between two probability distributions modeled as mixtures of Gaussians. We design a neural network that extracts pose-invariant correspondences between raw point clouds and Gaussian Mixture Model (GMM) parameters and two differentiable compute blocks that recover the optimal transformation from matched GMM parameters. This construction allows the network learn an SE(3)-invariant feature space, producing a global registration method that is real-time, generalizable, and robust to noise. Across synthetic and real-world data, our proposed method shows favorable performance when compared with state-of-the-art geometry-based and learning-based registration methods.
翻訳日:2022-10-27 03:51:13 公開日:2020-08-20
# 野生における弱監督型3次元形状補完

Weakly-supervised 3D Shape Completion in the Wild ( http://arxiv.org/abs/2008.09110v1 )

ライセンス: Link先を確認
Jiayuan Gu, Wei-Chiu Ma, Sivabalan Manivasagam, Wenyuan Zeng, Zihao Wang, Yuwen Xiong, Hao Su, Raquel Urtasun(参考訳) 実際のデータに対する3D形状の完成は重要だが、現実のセンサーによって取得される部分点の雲は、通常疎く、うるさい、不整合である。 従来の手法と異なり,非整合および実世界の部分点雲から3次元完全形状を学習する問題に対処する。 そこで本研究では,複数の部分的観測結果から3次元正準形状と6次元姿勢の両方を推定する弱い教師付き手法を提案する。 ネットワークは、訓練中に正準形状を最適化し、多視点幾何制約を課し、単一の部分的点雲が与えられた完全な形状を推測することができる。 さらに、学習したポーズ推定は部分点クラウドの登録を容易にする。 合成データと実データの両方の実験では、形状やポーズを伴わずに大規模なデータを通じて3次元形状の完成を学習することは可能であり、有望であることが示された。

3D shape completion for real data is important but challenging, since partial point clouds acquired by real-world sensors are usually sparse, noisy and unaligned. Different from previous methods, we address the problem of learning 3D complete shape from unaligned and real-world partial point clouds. To this end, we propose a weakly-supervised method to estimate both 3D canonical shape and 6-DoF pose for alignment, given multiple partial observations associated with the same instance. The network jointly optimizes canonical shapes and poses with multi-view geometry constraints during training, and can infer the complete shape given a single partial point cloud. Moreover, learned pose estimation can facilitate partial point cloud registration. Experiments on both synthetic and real data show that it is feasible and promising to learn 3D shape completion through large-scale data without shape and pose supervision.
翻訳日:2022-10-27 03:50:52 公開日:2020-08-20
# 野生における自然災害・被害・事故の検出

Detecting natural disasters, damage, and incidents in the wild ( http://arxiv.org/abs/2008.09188v1 )

ライセンス: Link先を確認
Ethan Weber, Nuria Marzo, Dim P. Papadopoulos, Aritro Biswas, Agata Lapedriza, Ferda Ofli, Muhammad Imran and Antonio Torralba(参考訳) 地震、洪水、山火事などの自然災害への対応は、現場の緊急対応者やアナリストが行う厄介な作業である。 ソーシャルメディアは、災害状況を迅速に理解するための低遅延データソースとして登場した。 ソーシャルメディアの研究の多くはテキストに限られているが、画像は災害やインシデントシーンを理解するためにより多くの情報を提供する。 しかし、インシデント検出のための大規模な画像データセットは存在しない。 本研究では,様々な場面で43件のインシデントをカバーした446,684枚の画像を含むインシデントデータセットを提案する。 我々は,偽陽性誤りを緩和するベースライン分類モデルを採用し,FlickrとTwitterの何百万ものソーシャルメディア画像に対して画像フィルタリング実験を行った。 これらの実験を通じて,インシデントデータセットを用いて野生のインシデントを含む画像を検出する方法を示す。 コード、データ、モデルはhttp://incidentsdataset.csail.mit.edu.で利用可能である。

Responding to natural disasters, such as earthquakes, floods, and wildfires, is a laborious task performed by on-the-ground emergency responders and analysts. Social media has emerged as a low-latency data source to quickly understand disaster situations. While most studies on social media are limited to text, images offer more information for understanding disaster and incident scenes. However, no large-scale image datasets for incident detection exists. In this work, we present the Incidents Dataset, which contains 446,684 images annotated by humans that cover 43 incidents across a variety of scenes. We employ a baseline classification model that mitigates false-positive errors and we perform image filtering experiments on millions of social media images from Flickr and Twitter. Through these experiments, we show how the Incidents Dataset can be used to detect images with incidents in the wild. Code, data, and models are available online at http://incidentsdataset.csail.mit.edu.
翻訳日:2022-10-27 03:50:17 公開日:2020-08-20
# ハンドヘルドカメラの画像処理と再現

Image Stitching and Rectification for Hand-Held Cameras ( http://arxiv.org/abs/2008.09229v1 )

ライセンス: Link先を確認
Bingbing Zhuang and Quoc-Huy Tran(参考訳) 本稿では,ローリングシャッター(RS)カメラにおける走査型カメラポーズを考慮に入れた新しい微分ホモグラフィーを導出し,一ストロークでRS認識画像の縫合と修正を行うための応用を実証する。 rs幾何の複雑度が高いにもかかわらず,本論文では映像ストリームからの2フレーム連続の特殊な入力に焦点をあて,フレーム間移動が任意に大きいことを制限した。 これにより、より単純な微分運動モデルを採用することができ、単純で実用的な最小解法が得られる。 縫合における非平面シーンとカメラパララックスに対処するため,我々はさらに,as-projective-as-possible (apap) の原理で空間的に変化するホモグラフィ場を提案する。 我々は,手持ちの揺動カメラで撮影した画像に対して,RS画像の縫合と整形の両方において最先端の手法よりも優れた性能を示す。

In this paper, we derive a new differential homography that can account for the scanline-varying camera poses in Rolling Shutter (RS) cameras, and demonstrate its application to carry out RS-aware image stitching and rectification at one stroke. Despite the high complexity of RS geometry, we focus in this paper on a special yet common input -- two consecutive frames from a video stream, wherein the inter-frame motion is restricted from being arbitrarily large. This allows us to adopt simpler differential motion model, leading to a straightforward and practical minimal solver. To deal with non-planar scene and camera parallax in stitching, we further propose an RS-aware spatially-varying homography field in the principle of As-Projective-As-Possible (APAP). We show superior performance over state-of-the-art methods both in RS image stitching and rectification, especially for images captured by hand-held shaking cameras.
翻訳日:2022-10-27 03:50:02 公開日:2020-08-20
# ヒューマンアクションの抽象化と予測を学ぶ

Learning to Abstract and Predict Human Actions ( http://arxiv.org/abs/2008.09234v1 )

ライセンス: Link先を確認
Romero Morais, Vuong Le, Truyen Tran, Svetha Venkatesh(参考訳) 人間の活動は時間とともに階層化されていく。 行動予測では、イベントシーケンスにおける時間的関係は現在の手法で広く活用されているが、異なる抽象レベルにわたる意味的一貫性は十分に研究されていない。 本研究では,映像中の人間の活動の階層構造をモデル化し,行動予測におけるその構造のパワーを実証する。 本稿では,イベントの階層構造を観察し,その構造を複数の抽象レベルでの将来の予測にロールアウトすることにより,人間の活動構造を学習できる階層型エンコーダ・レフレッシャー予測器を提案する。 我々はまた、Breakfast Actionsビデオに新しい粗いアクションアノテーションを導入し、包括的で一貫性があり、クリーンに構造化されたビデオ階層的アクティビティデータセットを作成する。 実験を通じて,予測システムの非バイアス評価に向けた活動予測タスクの設定とメトリクスを再考し,信頼性と詳細な長期的行動予測に対する階層的モデリングの役割を実証した。

Human activities are naturally structured as hierarchies unrolled over time. For action prediction, temporal relations in event sequences are widely exploited by current methods while their semantic coherence across different levels of abstraction has not been well explored. In this work we model the hierarchical structure of human activities in videos and demonstrate the power of such structure in action prediction. We propose Hierarchical Encoder-Refresher-Anticipator, a multi-level neural machine that can learn the structure of human activities by observing a partial hierarchy of events and roll-out such structure into a future prediction in multiple levels of abstraction. We also introduce a new coarse-to-fine action annotation on the Breakfast Actions videos to create a comprehensive, consistent, and cleanly structured video hierarchical activity dataset. Through our experiments, we examine and rethink the settings and metrics of activity prediction tasks toward unbiased evaluation of prediction systems, and demonstrate the role of hierarchical modeling toward reliable and detailed long-term action forecasting.
翻訳日:2022-10-27 03:49:43 公開日:2020-08-20
# COVID-19パンデミックにどのように反応したか インドの感情の変化をTwitterのレンズで分析する

How Have We Reacted To The COVID-19 Pandemic? Analyzing Changing Indian Emotions Through The Lens of Twitter ( http://arxiv.org/abs/2008.09035v1 )

ライセンス: Link先を確認
Rajdeep Mukherjee, Sriyash Poddar, Atharva Naik, Soham Dasgupta(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、世界各国の人命や経済に前例のない損失をもたらした。 2020年7月18日現在、WHO(世界保健機関)は216カ国と領土で600,000人近い死者を含む1300万人以上の感染者を報告している。 いくつかの政府対策にもかかわらず、インドは徐々にランクを引き上げ、米国とブラジルに続くパンデミックで3番目に最悪の国となった。 世界の人口の大多数が引き続き自宅に限られているため、パンデミックのさまざまな側面に対する感情や態度を表現するために、Twitterなどのソーシャルメディアプラットフォームに頼る人が増えている。 精神的幸福への懸念が高まる中、潜在的な脅威を予測し、予防措置を取るために、公衆の影響のダイナミクスを分析することが不可欠となる。 人間の心の感情状態は、単なる二分感情よりもニュアンスが高いので、ツイートから人々の感情を識別する深層学習システムを提案する。 マルチラベル感情分類のための2つのベンチマークデータセットで競合結果を得る。 そして私たちのシステムを使って、パンデミックが翼を広げ続けているインド人の感情反応の進化を分析します。 また,時間経過に伴う態度の変化に寄与する有意な要因の発達についても検討した。 最後に,我々の研究をさらに改善するための方向性を議論し,我々の分析が公衆衛生のモニタリングに役立てることを期待する。

Since its outbreak, the ongoing COVID-19 pandemic has caused unprecedented losses to human lives and economies around the world. As of 18th July 2020, the World Health Organization (WHO) has reported more than 13 million confirmed cases including close to 600,000 deaths across 216 countries and territories. Despite several government measures, India has gradually moved up the ranks to become the third worst-hit nation by the pandemic after the US and Brazil, thus causing widespread anxiety and fear among her citizens. As majority of the world's population continues to remain confined to their homes, more and more people have started relying on social media platforms such as Twitter for expressing their feelings and attitudes towards various aspects of the pandemic. With rising concerns of mental well-being, it becomes imperative to analyze the dynamics of public affect in order to anticipate any potential threats and take precautionary measures. Since affective states of human mind are more nuanced than meager binary sentiments, here we propose a deep learning-based system to identify people's emotions from their tweets. We achieve competitive results on two benchmark datasets for multi-label emotion classification. We then use our system to analyze the evolution of emotional responses among Indians as the pandemic continues to spread its wings. We also study the development of salient factors contributing towards the changes in attitudes over time. Finally, we discuss directions to further improve our work and hope that our analysis can aid in better public health monitoring.
翻訳日:2022-10-27 03:49:22 公開日:2020-08-20
# 食品レシピのマルチモーダル調理ワークフロー構築

Multi-modal Cooking Workflow Construction for Food Recipes ( http://arxiv.org/abs/2008.09151v1 )

ライセンス: Link先を確認
Liangming Pan, Jingjing Chen, Jianlong Wu, Shaoteng Liu, Chong-Wah Ngo, Min-Yen Kan, Yu-Gang Jiang, Tat-Seng Chua(参考訳) 料理のレシピを理解するには、調理行動の暗黙の因果効果を予測し、レシピの時間的ワークフローを記述するグラフに変換する必要がある。 これは常識的な推論を伴う非自明なタスクです。 しかし、既存の取り組みは、大規模なラベル付きデータセットがないため、レシピからワークフローグラフを抽出するための手作りの機能に依存している。 また、料理のレシピの重要な部分である料理イメージの活用にも失敗している。 本稿では,人ラベルワークフローグラフを用いた9,850のレシピからなる,ワークフロー構築のための最初の大規模データセットmm-resを構築した。 調理手順はマルチモーダルで、テキスト指示と調理画像の両方を特徴とする。 次に、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案し、既存の手作りベースラインよりも20%以上の性能向上を実現した。

Understanding food recipe requires anticipating the implicit causal effects of cooking actions, such that the recipe can be converted into a graph describing the temporal workflow of the recipe. This is a non-trivial task that involves common-sense reasoning. However, existing efforts rely on hand-crafted features to extract the workflow graph from recipes due to the lack of large-scale labeled datasets. Moreover, they fail to utilize the cooking images, which constitute an important part of food recipes. In this paper, we build MM-ReS, the first large-scale dataset for cooking workflow construction, consisting of 9,850 recipes with human-labeled workflow graphs. Cooking steps are multi-modal, featuring both text instructions and cooking images. We then propose a neural encoder-decoder model that utilizes both visual and textual information to construct the cooking workflow, which achieved over 20% performance gain over existing hand-crafted baselines.
翻訳日:2022-10-27 03:49:00 公開日:2020-08-20
# 数学的推論の冒険

Adventures in Mathematical Reasoning ( http://arxiv.org/abs/2008.09067v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 「数学は精巧な高速道路を慎重に下るものではなく、探検家がよく迷う奇妙な荒野への旅である。リグーアは地図が作られたという歴史学者の合図であり、真の探検家はどこかへ行ったであろう。」 w.s. anglin, the mathematical intelligencer, 4 (4), 1982年。

"Mathematics is not a careful march down a well-cleared highway, but a journey into a strange wilderness, where the explorers often get lost. Rigour should be a signal to the historian that the maps have been made, and the real explorers have gone elsewhere." W.S. Anglin, the Mathematical Intelligencer, 4 (4), 1982.
翻訳日:2022-10-27 03:43:00 公開日:2020-08-20
# 同時に収集されたマルチモーダルライディングポーズデータセット--ベッド内ポーズモニタリングに向けて-

Simultaneously-Collected Multimodal Lying Pose Dataset: Towards In-Bed Human Pose Monitoring under Adverse Vision Conditions ( http://arxiv.org/abs/2008.08735v1 )

ライセンス: Link先を確認
Shuangjun Liu, Xiaofei Huang, Nihang Fu, Cheng Li, Zhongnan Su, and Sarah Ostadabbas(参考訳) コンピュータビジョン(cv)は、画像から意味的な意味を解釈することに成功したが、cvアルゴリズムは、悪い視覚条件やデータ/ラベルペアの制限に苦しむタスクに対して脆弱である。 このタスクの1つは、ベッド内の人間のポーズ推定であり、多くの医療アプリケーションで重要な価値を持っている。 自然環境におけるベッド内ポーズ監視は、完全な暗闇や完全な閉塞を伴う可能性がある。 さらに、一般に利用可能なベッド内ポーズデータセットの欠如は、このタスクに多くの成功したポーズ推定アルゴリズムの使用を妨げている。 本稿では, rgb, 長波赤外, 深度, 圧力マップなど複数の画像モダリティを用いて撮影された109名の被験者のベッド内ポーズ画像を含む, 同時集合型マルチモーダルライディングポーズ(slp)データセットを提案する。 また,光の消灯やシート/ブランケットの完全被覆といった極端な条件下での地中真理ポーズラベル生成のための物理パラメータ調整手法を提案する。 SLP設計は、主流の人間のポーズデータセットと互換性があるため、最先端の2Dポーズ推定モデルは、単一のモードでPCKh@0.5で最大95%の性能でSLPデータで効果的に訓練することができる。 協調により追加のモダリティを含めることで、ポーズ推定性能をさらに向上することができる。

Computer vision (CV) has achieved great success in interpreting semantic meanings from images, yet CV algorithms can be brittle for tasks with adverse vision conditions and the ones suffering from data/label pair limitation. One of this tasks is in-bed human pose estimation, which has significant values in many healthcare applications. In-bed pose monitoring in natural settings could involve complete darkness or full occlusion. Furthermore, the lack of publicly available in-bed pose datasets hinders the use of many successful pose estimation algorithms for this task. In this paper, we introduce our Simultaneously-collected multimodal Lying Pose (SLP) dataset, which includes in-bed pose images from 109 participants captured using multiple imaging modalities including RGB, long wave infrared, depth, and pressure map. We also present a physical hyper parameter tuning strategy for ground truth pose label generation under extreme conditions such as lights off and being fully covered by a sheet/blanket. SLP design is compatible with the mainstream human pose datasets, therefore, the state-of-the-art 2D pose estimation models can be trained effectively with SLP data with promising performance as high as 95% at PCKh@0.5 on a single modality. The pose estimation performance can be further improved by including additional modalities through collaboration.
翻訳日:2022-10-27 03:42:27 公開日:2020-08-20
# 空間スペクトルFFPNet:リモートセンシング画像のセグメンテーションと分類のための注意に基づくピラミッドネットワーク

Spatial--spectral FFPNet: Attention-Based Pyramid Network for Segmentation and Classification of Remote Sensing Images ( http://arxiv.org/abs/2008.08775v1 )

ライセンス: Link先を確認
Qingsong Xu, Xin Yuan, Chaojun Ouyang, Yue Zeng(参考訳) 我々は高分解能・高スペクトルリモートセンシング画像の分割と分類の問題点を考察する。 従来の自然(rgb)画像とは異なり、リモートセンシング画像の本質的に大規模で複雑な構造は、既存のモデルが画像分類に直接適用される場合、空間的物体分布の多様性やスペクトル情報抽出といった大きな課題をもたらす。 本研究では、リモートセンシングデータセットのセグメンテーションと分類のための注意に基づくピラミッドネットワークを開発する。 注意機構は以下のモジュールの開発に使用される。 一 有用な空間的又はスペクトル的情報を異なる規模で効果的に融合する新規で堅牢な注意に基づく多スケール融合法 二 大規模リモートセンシング画像における対象の幾何学的大きさの多様性に対処し、かつ、適応型空間ピラミッドプールネットワークにおいて、特徴埋め込み空間における様々な内容に適応する領域ピラミッド注意機構。 これらの注意に基づくモジュールを組み合わせることで、さまざまな機能融合ピラミッドフレームワークが確立される。 まず, 高分解能リモートセンシング画像の空間問題に対処するために, ヘビーウェイト空間特徴融合ピラミッドネットワーク (ffpnet) と呼ばれる新しいセグメンテーションフレームワークを提案する。 次に、ハイパースペクトル画像の分類のために、終端から終端までの空間スペクトルFFPNetを示す。 ISPRS Vaihingen と ISPRS Potsdam の高解像度データセットを用いて行った実験は、提案した重み空間FFPNetによる競合セグメンテーション精度を示す。 さらに、インドパインズとパヴィア大学ハイパースペクトルデータセットの実験により、提案された空間スペクトルFFPNetは、ハイパースペクトル画像分類における現在の最先端手法よりも優れていることが示された。

We consider the problem of segmentation and classification of high-resolution and hyperspectral remote sensing images. Unlike conventional natural (RGB) images, the inherent large scale and complex structures of remote sensing images pose major challenges such as spatial object distribution diversity and spectral information extraction when existing models are directly applied for image classification. In this study, we develop an attention-based pyramid network for segmentation and classification of remote sensing datasets. Attention mechanisms are used to develop the following modules: i) a novel and robust attention-based multi-scale fusion method effectively fuses useful spatial or spectral information at different and same scales; ii) a region pyramid attention mechanism using region-based attention addresses the target geometric size diversity in large-scale remote sensing images; and iii cross-scale attention} in our adaptive atrous spatial pyramid pooling network adapts to varied contents in a feature-embedded space. Different forms of feature fusion pyramid frameworks are established by combining these attention-based modules. First, a novel segmentation framework, called the heavy-weight spatial feature fusion pyramid network (FFPNet), is proposed to address the spatial problem of high-resolution remote sensing images. Second, an end-to-end spatial--spectral FFPNet is presented for classifying hyperspectral images. Experiments conducted on ISPRS Vaihingen and ISPRS Potsdam high-resolution datasets demonstrate the competitive segmentation accuracy achieved by the proposed heavy-weight spatial FFPNet. Furthermore, experiments on the Indian Pines and the University of Pavia hyperspectral datasets indicate that the proposed spatial--spectral FFPNet outperforms the current state-of-the-art methods in hyperspectral image classification.
翻訳日:2022-10-27 03:42:01 公開日:2020-08-20
# 複数物体追跡のための運動モデルによる同時検出と追跡

Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking ( http://arxiv.org/abs/2008.08826v1 )

ライセンス: Link先を確認
ShiJie Sun, Naveed Akhtar, XiangYu Song, HuanSheng Song, Ajmal Mian, Mubarak Shah(参考訳) 深層学習に基づく多重物体追跡(mot)は,現在,市販の物体検出装置を用いて検出毎に追跡を行っている。 この問題を解決するために,複数の物体の運動パラメータを推定し,エンドツーエンドで共同検出と関連付けを行うディープモーションモデリングネットワーク(DMM-Net)を導入する。 DMM-Netモデルは複数のフレーム上にオブジェクトを配置し、同時にオブジェクトクラス、可視性、およびそれらの動作パラメータを推論する。 これらの出力は、効率的なMOTのためにトラックレットを更新するために容易に使用される。 DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。 また,車両追跡のための総合的な大規模公開データセットであるomni-mot(omni-mot)も提供し,mot評価における検出器の影響をなくすための正確な地中アノテーションを提供する。 この14M+フレームデータセットは、私たちのパブリックスクリプトで拡張可能です(Code at Dataset <https://github.com/shijieS/OmniMOTDataset>, Dataset Recorder <https://github.com/shijieS/OMOTDRecorder>, Omni-MOT Source <https://github.com/shijieS/DMMN>)。 我々は,DMMNetを用いた深層学習におけるOmni-MOTの適合性を実証するとともに,我々のネットワークのソースコードを公開する。

Deep learning-based Multiple Object Tracking (MOT) currently relies on off-the-shelf detectors for tracking-by-detection.This results in deep models that are detector biased and evaluations that are detector influenced. To resolve this issue, we introduce Deep Motion Modeling Network (DMM-Net) that can estimate multiple objects' motion parameters to perform joint detection and association in an end-to-end manner. DMM-Net models object features over multiple frames and simultaneously infers object classes, visibility, and their motion parameters. These outputs are readily used to update the tracklets for efficient MOT. DMM-Net achieves PR-MOTA score of 12.80 @ 120+ fps for the popular UA-DETRAC challenge, which is better performance and orders of magnitude faster. We also contribute a synthetic large-scale public dataset Omni-MOT for vehicle tracking that provides precise ground-truth annotations to eliminate the detector influence in MOT evaluation. This 14M+ frames dataset is extendable with our public script (Code at Dataset <https://github.com/shijieS/OmniMOTDataset>, Dataset Recorder <https://github.com/shijieS/OMOTDRecorder>, Omni-MOT Source <https://github.com/shijieS/DMMN>). We demonstrate the suitability of Omni-MOT for deep learning with DMMNet and also make the source code of our network public.
翻訳日:2022-10-27 03:41:35 公開日:2020-08-20
# 新たな中間レベル攻撃

Yet Another Intermediate-Level Attack ( http://arxiv.org/abs/2008.08847v1 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Hao Chen(参考訳) ディープニューラルネットワーク(DNN)モデルにまたがる敵のサンプルの転送可能性は、ブラックボックス攻撃のスペクトルのくぼみである。 本稿では,ベースライン逆数例のブラックボックス転送性を向上させる新しい手法を提案する。 誘発された敵の損失を予測するために、中間レベルの不一致(敵の入力と良性の入力のセット)の線形マッピングを確立することにより、多段階ベースライン攻撃の最適化手順を最大限に活用することを目指している。 CIFAR-100 と ImageNet に提案手法の有効性を検証した。 実験の結果,従来の最先端技術よりも優れていた。 私たちのコードはhttps://github.com/qizhangli/ila-plus-plusにあります。

The transferability of adversarial examples across deep neural network (DNN) models is the crux of a spectrum of black-box attacks. In this paper, we propose a novel method to enhance the black-box transferability of baseline adversarial examples. By establishing a linear mapping of the intermediate-level discrepancies (between a set of adversarial inputs and their benign counterparts) for predicting the evoked adversarial loss, we aim to take full advantage of the optimization procedure of multi-step baseline attacks. We conducted extensive experiments to verify the effectiveness of our method on CIFAR-100 and ImageNet. Experimental results demonstrate that it outperforms previous state-of-the-arts considerably. Our code is at https://github.com/qizhangli/ila-plus-plus.
翻訳日:2022-10-27 03:41:00 公開日:2020-08-20
# 微分可能レンダラを用いた動作単位強度推定のための教師なし学習顔面パラメータレグレッサ

Unsupervised Learning Facial Parameter Regressor for Action Unit Intensity Estimation via Differentiable Renderer ( http://arxiv.org/abs/2008.08862v1 )

ライセンス: Link先を確認
Xinhui Song, Tianyang Shi, Zunlei Feng, Mingli Song, Jackie Lin, Chuanjie Lin, Changjie Fan, Yi Yuan(参考訳) 顔動作単位(英: face action unit、au)は、顔の動きを視覚的に識別する指標である。 既存の手法のほとんどは限定されたauデータでインテンシティ推定子を学習するが、データセットから一般化する能力に欠ける。 本稿では,骨駆動型顔モデル(BDFM)に基づいて,顔のパラメータ(識別パラメータやAUパラメータを含む)を予測する枠組みを提案する。 提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。 レグレッサは、1つの顔画像からbdfmの物理的意味パラメータをジェネレータの助けを借りて適合させ、顔パラメータをゲーム顔画像に微分可能なレンダラとしてマッピングすることができる。 さらに、アイデンティティ損失、ループバック損失、および敵対的損失は、回帰結果を改善することができる。 bp4d と disfa の2つの公開データベース上で定量的評価を行い,提案手法が最先端手法と同等あるいは良好な性能が得られることを示す。 さらに、質的な結果は、私たちの方法が野生で有効であることを示す。

Facial action unit (AU) intensity is an index to describe all visually discernible facial movements. Most existing methods learn intensity estimator with limited AU data, while they lack generalization ability out of the dataset. In this paper, we present a framework to predict the facial parameters (including identity parameters and AU parameters) based on a bone-driven face model (BDFM) under different views. The proposed framework consists of a feature extractor, a generator, and a facial parameter regressor. The regressor can fit the physical meaning parameters of the BDFM from a single face image with the help of the generator, which maps the facial parameters to the game-face images as a differentiable renderer. Besides, identity loss, loopback loss, and adversarial loss can improve the regressive results. Quantitative evaluations are performed on two public databases BP4D and DISFA, which demonstrates that the proposed method can achieve comparable or better performance than the state-of-the-art methods. What's more, the qualitative results also demonstrate the validity of our method in the wild.
翻訳日:2022-10-27 03:40:47 公開日:2020-08-20
# コアテンション完全畳み込みネットワークを用いたコサリエンシー検出

Co-Saliency Detection with Co-Attention Fully Convolutional Network ( http://arxiv.org/abs/2008.08909v1 )

ライセンス: Link先を確認
Guangshuai Gao, Wenting Zhao, Qingjie Liu, Yunhong Wang(参考訳) co-saliency detectionは、関連する画像のグループから共通のサルエントオブジェクトを検出することを目的としている。 完全な畳み込みネットワーク(FCN)フレームワークでいくつかの試みが行われ、良好な検出結果が得られた。 しかし、畳み込み層とプール操作の積み重ねにより、境界の詳細は失われる傾向がある。 さらに、既存のモデルでは、抽出した特徴を識別せずに利用することが多く、全ての特徴が最終的な予測に役立っているわけではないため、表現の冗長性が生じる。 本稿では,コアテンションFCN(CA-FCN)と呼ばれる,コアテンションモジュール組み込みFCNフレームワークを提案する。 具体的には、コアテンションモジュールをFCNの高レベルな畳み込み層に差し込むことで、一般的なサルエントオブジェクトと背景にあるより小さなオブジェクトにより大きな注意重みを割り当て、最終的な検出性能を高めることができる。 一般的な3つのベンチマークデータセットに対する大規模な実験は、提案されたCA-FCNの優位性を実証している。 また,新しいコアテンションモジュールの有効性をアブレーション研究により検証した。

Co-saliency detection aims to detect common salient objects from a group of relevant images. Some attempts have been made with the Fully Convolutional Network (FCN) framework and achieve satisfactory detection results. However, due to stacking convolution layers and pooling operation, the boundary details tend to be lost. In addition, existing models often utilize the extracted features without discrimination, leading to redundancy in representation since actually not all features are helpful to the final prediction and some even bring distraction. In this paper, we propose a co-attention module embedded FCN framework, called as Co-Attention FCN (CA-FCN). Specifically, the co-attention module is plugged into the high-level convolution layers of FCN, which can assign larger attention weights on the common salient objects and smaller ones on the background and uncommon distractors to boost final detection performance. Extensive experiments on three popular co-saliency benchmark datasets demonstrate the superiority of the proposed CA-FCN, which outperforms state-of-the-arts in most cases. Besides, the effectiveness of our new co-attention module is also validated with ablation studies.
翻訳日:2022-10-27 03:40:21 公開日:2020-08-20
# ポルトガル語・英語・ポルトガル語翻訳のためのライトトレーニング戦略

Lite Training Strategies for Portuguese-English and English-Portuguese Translation ( http://arxiv.org/abs/2008.08769v1 )

ライセンス: Link先を確認
Alexandre Lopes, Rodrigo Nogueira, Roberto Lotufo, Helio Pedrini(参考訳) 機械学習が広く採用されているにもかかわらず、高品質の翻訳モデルを開発することは依然として高価である。 本研究では,ポルトガル語・英語・ポルトガル語の翻訳タスクにおけるT5などの事前学習モデルの使用について,低コストハードウェアを用いて検討する。 ポルトガル語と英語の事前学習された言語モデルの使用について検討し,ダイアレシス,急性アクセント,重度のアクセントといったポルトガル語の文字を表すために,英語のトークン化器を適応させる手法を提案する。 我々は、我々のモデルを、ParaCrawlデータセットのサブセットであるGoogle Translate APIとMarianMTと比較し、WMT19 Biomedical Translation Shared Taskに勝った結果と比較する。 また,WMT20バイオメディカル翻訳共有タスクの提出について述べる。 私たちのモデルは、控えめなハードウェア(9日間、単一の8GBのゲーミングGPU)でトレーニングしながら、最先端のモデルと競合する性能を示している。 私たちのデータ、モデル、コードはhttps://github.com/unicamp-dl/Lite-T5-Translationで公開されています。

Despite the widespread adoption of deep learning for machine translation, it is still expensive to develop high-quality translation models. In this work, we investigate the use of pre-trained models, such as T5 for Portuguese-English and English-Portuguese translation tasks using low-cost hardware. We explore the use of Portuguese and English pre-trained language models and propose an adaptation of the English tokenizer to represent Portuguese characters, such as diaeresis, acute and grave accents. We compare our models to the Google Translate API and MarianMT on a subset of the ParaCrawl dataset, as well as to the winning submission to the WMT19 Biomedical Translation Shared Task. We also describe our submission to the WMT20 Biomedical Translation Shared Task. Our results show that our models have a competitive performance to state-of-the-art models while being trained on modest hardware (a single 8GB gaming GPU for nine days). Our data, models and code are available at https://github.com/unicamp-dl/Lite-T5-Translation.
翻訳日:2022-10-27 03:33:53 公開日:2020-08-20
# 自動クレーム検出モデルの保守性:データセットの定義と分析

Checkworthiness in Automatic Claim Detection Models: Definitions and Analysis of Datasets ( http://arxiv.org/abs/2008.08854v1 )

ライセンス: Link先を確認
Liesbeth Allein and Marie-Francine Moens(参考訳) ファクトチェック手続きの最初のステップの1つ、いわゆるチェック価値クレームの選択を自動化しようとする多くの人が、過去10年間で、ファクトチェック自動化に対するパブリック、プロフェッショナル、アカデミックの関心が大幅に高まっている。 しかし、ファクトチェッカにおけるチェック適性の定義と特性についてはほとんど一致せず、結果として、チェック適性クレーム検出モデルのトレーニングとテストに使用されるデータセットに反映される。 事実確認組織におけるチェック価値のあるクレーム選択手順の精巧な分析と最先端クレーム検出データセットの分析の後、チェックハーネスは時空間的および文脈に依存した価値を持ち、それが伝達する客観性の正しさを持つという概念として定義される。 これは、先行知識と信念に基づく個人による主張の正当性判断とは無関係である。 現在のデータセットの特徴については、データは高度に不均衡で騒がしいだけでなく、スコープや言語が制限されすぎていると論じられている。 さらに, 主観的な正当性の概念は, クレーム検出に適したフィルタではないと考えられる。

Public, professional and academic interest in automated fact-checking has drastically increased over the past decade, with many aiming to automate one of the first steps in a fact-check procedure: the selection of so-called checkworthy claims. However, there is little agreement on the definition and characteristics of checkworthiness among fact-checkers, which is consequently reflected in the datasets used for training and testing checkworthy claim detection models. After elaborate analysis of checkworthy claim selection procedures in fact-check organisations and analysis of state-of-the-art claim detection datasets, checkworthiness is defined as the concept of having a spatiotemporal and context-dependent worth and need to have the correctness of the objectivity it conveys verified. This is irrespective of the claim's perceived veracity judgement by an individual based on prior knowledge and beliefs. Concerning the characteristics of current datasets, it is argued that the data is not only highly imbalanced and noisy, but also too limited in scope and language. Furthermore, we believe that the subjective concept of checkworthiness might not be a suitable filter for claim detection.
翻訳日:2022-10-27 03:33:20 公開日:2020-08-20
# 正規化ニューラルコラボレーティブフィルタリングのレビュー

Review Regularized Neural Collaborative Filtering ( http://arxiv.org/abs/2008.13527v1 )

ライセンス: Link先を確認
Zhimeng Pan, Wenzheng Tao, Qingyao Ai(参考訳) 近年,データスパーシティ,コールドスタート問題,ロングテール分布といったレコメンデーションにおける本質的な課題に対処するために,テキスト対応協調フィルタリング手法が提案されている。 しかし、これらのテキスト指向のメソッドの多くは、ユーザーやアイテムごとにテキスト情報を利用できることに大きく依存しています。 さらに、テキスト処理のための特別に設計されたネットワーク構造は、オンラインサービスには非常に非効率であり、現在のシステムに組み込むのが困難である。 本稿では,r3と略されるreview regularized recommendationという,フレキシブルなニューラルレコメンデーションフレームワークを提案する。 予測出力に焦点を当てたニューラルコラボレーティブフィルタリング部と、正規化器として機能するテキスト処理部とから構成される。 このモジュール設計では、トレーニングフェーズにおいて、テキスト情報をリッチなデータソースとして組み込むと同時に、オンザフライのテキスト処理を必要とせず、オンラインサービスに非常に親しみやすい。 予備結果は,単純なテキスト処理手法を用いることで,最先端のテキスト認識手法よりも優れた予測性能が得られることを示す。

In recent years, text-aware collaborative filtering methods have been proposed to address essential challenges in recommendations such as data sparsity, cold start problem, and long-tail distribution. However, many of these text-oriented methods rely heavily on the availability of text information for every user and item, which obviously does not hold in real-world scenarios. Furthermore, specially designed network structures for text processing are highly inefficient for on-line serving and are hard to integrate into current systems. In this paper, we propose a flexible neural recommendation framework, named Review Regularized Recommendation, short as R3. It consists of a neural collaborative filtering part that focuses on prediction output, and a text processing part that serves as a regularizer. This modular design incorporates text information as richer data sources in the training phase while being highly friendly for on-line serving as it needs no on-the-fly text processing in serving time. Our preliminary results show that by using a simple text processing approach, it could achieve better prediction performance than state-of-the-art text-aware methods.
翻訳日:2022-10-27 03:25:19 公開日:2020-08-20
# 信頼駆動半監督ドメイン適応のための不確かさ推定付きグラスピング検出ネットワーク

Grasping Detection Network with Uncertainty Estimation for Confidence-Driven Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2008.08817v1 )

ライセンス: Link先を確認
Haiyue Zhu, Yiting Li, Fengjun Bai, Wenjie Chen, Xiaocong Li, Jun Ma, Chek Sing Teo, Pey Yuen Tao, and Wei Lin(参考訳) 少数のラベル付きデータしか持たないデータ効率のよいドメイン適応は、多くのロボットアプリケーションにおいて望まれる。例えば、把握する検出において、把握データセットから得られた推論スキルは、他の様々な日常的/工業的アプリケーションに直接適用できるほど普遍的ではない。 本稿では,信頼駆動型半教師付き学習による新たな把握検出ネットワークを通じて,これらの2つのコンポーネントが相互に深く相互作用する,ドメイン適応の容易なアプローチを提案する。 提案する把持検出ネットワークは,特徴ピラミッドネットワーク(fpn)を活用した予測不確実性推定機構を特別に提供し,平均教師半教師学習は,信頼度の高い非ラベルデータに対してのみ一貫性損失を強調するために不確実性情報を利用する。 このアプローチは、学習の進捗を高速化し、モデルの精度を向上する一貫性損失から、学生が誤った/有害な情報を学習するのを防ぐ。 その結果,提案するネットワークはコーネル把持データセット上で高い成功率を達成でき,極めて限られたデータでドメイン適応を行う場合には,信頼度駆動平均教師は,評価損失の10%以上を元の平均教師よりも上回って,特に過剰フィッティングやモデルの分散を回避できることがわかった。

Data-efficient domain adaptation with only a few labelled data is desired for many robotic applications, e.g., in grasping detection, the inference skill learned from a grasping dataset is not universal enough to directly apply on various other daily/industrial applications. This paper presents an approach enabling the easy domain adaptation through a novel grasping detection network with confidence-driven semi-supervised learning, where these two components deeply interact with each other. The proposed grasping detection network specially provides a prediction uncertainty estimation mechanism by leveraging on Feature Pyramid Network (FPN), and the mean-teacher semi-supervised learning utilizes such uncertainty information to emphasizing the consistency loss only for those unlabelled data with high confidence, which we referred it as the confidence-driven mean teacher. This approach largely prevents the student model to learn the incorrect/harmful information from the consistency loss, which speeds up the learning progress and improves the model accuracy. Our results show that the proposed network can achieve high success rate on the Cornell grasping dataset, and for domain adaptation with very limited data, the confidence-driven mean teacher outperforms the original mean teacher and direct training by more than 10% in evaluation loss especially for avoiding the overfitting and model diverging.
翻訳日:2022-10-27 03:24:58 公開日:2020-08-20
# 映像行動認識手法の精度と性能の比較

Accuracy and Performance Comparison of Video Action Recognition Approaches ( http://arxiv.org/abs/2008.09037v1 )

ライセンス: Link先を確認
Matthew Hutchinson, Siddharth Samsi, William Arcand, David Bestor, Bill Bergeron, Chansup Byun, Micheal Houle, Matthew Hubbell, Micheal Jones, Jeremy Kepner, Andrew Kirby, Peter Michaleas, Lauren Milechin, Julie Mullen, Andrew Prout, Antonio Rosa, Albert Reuther, Charles Yee, Vijay Gadepally(参考訳) 過去数年間、ビデオアクション認識システムやモデルに大きな関心が寄せられてきた。 しかし、精度と計算性能の直接比較は、異なるトレーニング環境、ハードウェア仕様、ハイパーパラメータ、パイプライン、推論メソッドによって曇りがちである。 本稿は,これらの学習特性の一貫性を確保することにより,14種類のオフ・ザ・セットモデルと最先端モデルの直接比較を行い,異なる種類の映像行動認識アルゴリズムを横断的に有意義な比較を行う。 提案手法に加えて,標準のTop-1およびTop-5の精度測定値を用いてモデルの精度を評価する。 さらに,現状HPCシステム上での2~64%のGPUによる分散トレーニングの計算性能を比較した。

Over the past few years, there has been significant interest in video action recognition systems and models. However, direct comparison of accuracy and computational performance results remain clouded by differing training environments, hardware specifications, hyperparameters, pipelines, and inference methods. This article provides a direct comparison between fourteen off-the-shelf and state-of-the-art models by ensuring consistency in these training characteristics in order to provide readers with a meaningful comparison across different types of video action recognition algorithms. Accuracy of the models is evaluated using standard Top-1 and Top-5 accuracy metrics in addition to a proposed new accuracy metric. Additionally, we compare computational performance of distributed training from two to sixty-four GPUs on a state-of-the-art HPC system.
翻訳日:2022-10-27 03:24:03 公開日:2020-08-20
# Meta-Sim2: 合成データ生成のためのシーン構造の教師なし学習

Meta-Sim2: Unsupervised Learning of Scene Structure for Synthetic Data Generation ( http://arxiv.org/abs/2008.09092v1 )

ライセンス: Link先を確認
Jeevan Devaranjan, Amlan Kar, Sanja Fidler(参考訳) プロシージャモデルは、グラフィックスやゲームのためのシーンの合成や、mlのための(ラベル付き)合成データセットの作成に広く使われている。 現実的で多様なシーンを生成するためには、プロシージャモデルを管理する多くのパラメータを専門家が慎重に調整する必要がある。 これらのパラメータは、生成されるシーンの構造(例えばシーン内の車両の数)と、オブジェクトを有効な構成に配置するパラメータの両方を制御する。 Meta-Simは、教師なしの方法で実際の画像のターゲットコレクションが与えられたパラメータを自動的にチューニングすることを目的としている。 Meta-Sim2では,パラメータに加えてシーン構造を学習することを目指している。 Meta-Sim2は、与えられた確率的シーン文法から規則拡張を逐次サンプリングすることを学ぶ。 この問題の離散的な性質から、強化学習を用いてモデルをトレーニングし、トレーニングを成功させる鍵となる合成画像と対象画像の間に特徴空間のばらつきを設計する。 実際の運転データセットの実験では、監督なしに、実際の画像において、その周波数などのオブジェクトの離散的な構造統計をキャプチャするデータを生成することができる。 また,この手法は,他のベースラインシミュレーション手法と対照的に,生成したデータセット上でトレーニングしたオブジェクト検出器の性能を下流で向上させることを示す。 プロジェクトページ: https://nv-tlabs.github.io/meta-sim-structure/

Procedural models are being widely used to synthesize scenes for graphics, gaming, and to create (labeled) synthetic datasets for ML. In order to produce realistic and diverse scenes, a number of parameters governing the procedural models have to be carefully tuned by experts. These parameters control both the structure of scenes being generated (e.g. how many cars in the scene), as well as parameters which place objects in valid configurations. Meta-Sim aimed at automatically tuning parameters given a target collection of real images in an unsupervised way. In Meta-Sim2, we aim to learn the scene structure in addition to parameters, which is a challenging problem due to its discrete nature. Meta-Sim2 proceeds by learning to sequentially sample rule expansions from a given probabilistic scene grammar. Due to the discrete nature of the problem, we use Reinforcement Learning to train our model, and design a feature space divergence between our synthesized and target images that is key to successful training. Experiments on a real driving dataset show that, without any supervision, we can successfully learn to generate data that captures discrete structural statistics of objects, such as their frequency, in real images. We also show that this leads to downstream improvement in the performance of an object detector trained on our generated dataset as opposed to other baseline simulation methods. Project page: https://nv-tlabs.github.io/meta-sim-structure/.
翻訳日:2022-10-27 03:23:50 公開日:2020-08-20
# 加法・乗法雑音をもつ離散時間系のモデルフリー最適制御

Model-free optimal control of discrete-time systems with additive and multiplicative noises ( http://arxiv.org/abs/2008.08734v1 )

ライセンス: Link先を確認
Jing Lai, Junlin Xiong, Zhan Shu(参考訳) 本稿では,加法および乗法雑音を考慮した離散時間確率系の最適制御問題について検討する。 最適許容制御ポリシの存在に対して、確率的リャプノフ方程式と確率的代数的リッキ方程式が確立される。 システム状態と入力のデータを用いて最適許容制御ポリシーを学習するために,システム行列の知識を必要とせずにモデルフリー強化学習アルゴリズムを提案する。 学習アルゴリズムが最適許容制御方針に収束することが証明されている。 モデルフリーアルゴリズムの実装は、バッチ最小二乗と数値平均に基づいている。 提案手法は,提案手法が他のポリシー反復アルゴリズムよりも優れていることを示す数値例を用いて示す。

This paper investigates the optimal control problem for a class of discrete-time stochastic systems subject to additive and multiplicative noises. A stochastic Lyapunov equation and a stochastic algebra Riccati equation are established for the existence of the optimal admissible control policy. A model-free reinforcement learning algorithm is proposed to learn the optimal admissible control policy using the data of the system states and inputs without requiring any knowledge of the system matrices. It is proven that the learning algorithm converges to the optimal admissible control policy. The implementation of the model-free algorithm is based on batch least squares and numerical average. The proposed algorithm is illustrated through a numerical example, which shows our algorithm outperforms other policy iteration algorithms.
翻訳日:2022-10-27 03:22:36 公開日:2020-08-20
# 3次元マルチオブジェクト追跡のためのグラフニューラルネットワーク

Graph Neural Networks for 3D Multi-Object Tracking ( http://arxiv.org/abs/2008.09506v1 )

ライセンス: Link先を確認
Xinshuo Weng, Yongxin Wang, Yunze Man, and Kris Kitani(参考訳) 自律システムには3dマルチオブジェクトトラッキング(mot)が不可欠である。 最近の研究では、トラッキング・バイ・検出パイプラインを使用しており、各オブジェクトの特徴を独立して抽出し、親和行列を計算する。 そして、親和性行列を、データアソシエーションのためのハンガリーのアルゴリズムに渡す。 このパイプラインの重要なプロセスは、データアソシエーション時の混乱を軽減するために、異なるオブジェクトの識別機能を学ぶことである。 そこで本稿では,(1)各対象の特徴を独立に得るのではなく,グラフニューラルネットワークを導入することにより,新たな特徴間相互作用機構を提案する。(2)先行研究のように2次元空間と3次元空間から特徴を得るのではなく,2次元空間と3次元空間から出現・運動特徴を学習する新しい特徴抽出器を提案する。 KITTIデータセットの実験を通じて,提案手法は最先端の3D MOT性能を実現する。 プロジェクトのWebサイトはhttp://www.xinshuoweng.com/projects/GNN3DMOTにあります。

3D Multi-object tracking (MOT) is crucial to autonomous systems. Recent work often uses a tracking-by-detection pipeline, where the feature of each object is extracted independently to compute an affinity matrix. Then, the affinity matrix is passed to the Hungarian algorithm for data association. A key process of this pipeline is to learn discriminative features for different objects in order to reduce confusion during data association. To that end, we propose two innovative techniques: (1) instead of obtaining the features for each object independently, we propose a novel feature interaction mechanism by introducing Graph Neural Networks; (2) instead of obtaining the features from either 2D or 3D space as in prior work, we propose a novel joint feature extractor to learn appearance and motion features from 2D and 3D space. Through experiments on the KITTI dataset, our proposed method achieves state-of-the-art 3D MOT performance. Our project website is at http://www.xinshuoweng.com/projects/GNN3DMOT.
翻訳日:2022-10-27 03:22:05 公開日:2020-08-20
# アンサンブル分類器を用いた初期異常検出

Using Ensemble Classifiers to Detect Incipient Anomalies ( http://arxiv.org/abs/2008.08710v1 )

ライセンス: Link先を確認
Baihong Jin, Yingshui Tan, Albert Liu, Xiangyu Yue, Yuxin Chen, Alberto Sangiovanni Vincentelli(参考訳) 初発性異常は重篤な症状に比べて軽度の症状を呈し、正常な手術条件によく似ているため、診断や診断が困難である。 トレーニングデータにおける初期異常例の欠如は、機械学習(ML)技術に基づいて構築された異常検出方法に重大なリスクをもたらす可能性がある。 そこで本研究では,アンサンブル学習から得られる不確実性情報を用いて,誤分類された初期異常を同定する手法を提案する。 本論文では,アンサンブル学習手法により,創発的異常に対する性能の向上と,実世界の2つのデータセットに対する広範な実験を通じて,これらのモデルに共通する落とし穴を特定することができることを示す。 次に,初期異常検出のためのより効率的なアンサンブルモデルの設計方法について述べる。

Incipient anomalies present milder symptoms compared to severe ones, and are more difficult to detect and diagnose due to their close resemblance to normal operating conditions. The lack of incipient anomaly examples in the training data can pose severe risks to anomaly detection methods that are built upon Machine Learning (ML) techniques, because these anomalies can be easily mistaken as normal operating conditions. To address this challenge, we propose to utilize the uncertainty information available from ensemble learning to identify potential misclassified incipient anomalies. We show in this paper that ensemble learning methods can give improved performance on incipient anomalies and identify common pitfalls in these models through extensive experiments on two real-world datasets. Then, we discuss how to design more effective ensemble models for detecting incipient anomalies.
翻訳日:2022-10-27 03:15:54 公開日:2020-08-20
# 階層化アウェアクロスバリデーションを用いたドメインシフトに対する障害検出の一般化

Generalizing Fault Detection Against Domain Shifts Using Stratification-Aware Cross-Validation ( http://arxiv.org/abs/2008.08713v1 )

ライセンス: Link先を確認
Yingshui Tan, Baihong Jin, Qiushi Cui, Xiangyu Yue, Alberto Sangiovanni Vincentelli(参考訳) 初発性異常は重篤な症状に比べて軽度の症状を呈し、正常な手術条件によく似ているため、診断や診断が困難である。 トレーニングデータにおける初期異常例の欠如は、機械学習(ML)技術に基づいて構築された異常検出方法に重大なリスクをもたらす可能性がある。 そこで本研究では,アンサンブル学習から得られる不確実性情報を用いて,誤分類された初期異常を同定する手法を提案する。 本論文では,アンサンブル学習手法により,創発的異常に対する性能の向上と,実世界の2つのデータセットに対する広範な実験を通じて,これらのモデルに共通する落とし穴を特定することができることを示す。 次に,初期異常検出のためのより効率的なアンサンブルモデルの設計方法について述べる。

Incipient anomalies present milder symptoms compared to severe ones, and are more difficult to detect and diagnose due to their close resemblance to normal operating conditions. The lack of incipient anomaly examples in the training data can pose severe risks to anomaly detection methods that are built upon Machine Learning (ML) techniques, because these anomalies can be easily mistaken as normal operating conditions. To address this challenge, we propose to utilize the uncertainty information available from ensemble learning to identify potential misclassified incipient anomalies. We show in this paper that ensemble learning methods can give improved performance on incipient anomalies and identify common pitfalls in these models through extensive experiments on two real-world datasets. Then, we discuss how to design more effective ensemble models for detecting incipient anomalies.
翻訳日:2022-10-27 03:15:41 公開日:2020-08-20
# アンサンブル学習はキュリー温度に対する希土類遷移金属二元合金の相違を明らかにする

Ensemble learning reveals dissimilarity between rare-earth transition metal binary alloys with respect to the Curie temperature ( http://arxiv.org/abs/2008.08818v1 )

ライセンス: Link先を確認
Duong-Nguyen Nguyen, Tien-Lam Pham, Viet-Cuong Nguyen, Hiori Kino, Takashi Miyake, Hieu-Chi Dam(参考訳) 対象の物理的性質に関して,材料間の相似性を抽出するためのデータ駆動法を提案する。 この手法はカーネルリッジ回帰を予測モデルとするアンサンブル法に基づいており、材料の複数ランダムサブセットサンプリングを行い、予測モデルとそれに対応する基準トレーニング材料の貢献を詳細に生成する。 各材料に対する予測値の分布はガウス混合モデルにより近似することができる。 特定の材料の物性値を正確に予測する予測モデルに寄与する基準訓練材料は、その材料と類似しているか、あるいはその逆であると考えられる。 合成データを用いた評価は,データインスタンス間の相違性を効果的に測定できることを示す。 二元系3次元遷移金属4f希土類二元合金のキュリー温度(tc)データ解析法の適用により、材料間の関係について有意義な結果が得られた。 提案手法は,特に対象特性について,データ構造をより深く理解するための潜在的ツールとして考えられる。

We propose a data-driven method to extract dissimilarity between materials, with respect to a given target physical property. The technique is based on an ensemble method with Kernel ridge regression as the predicting model; multiple random subset sampling of the materials is done to generate prediction models and the corresponding contributions of the reference training materials in detail. The distribution of the predicted values for each material can be approximated by a Gaussian mixture model. The reference training materials contributed to the prediction model that accurately predicts the physical property value of a specific material, are considered to be similar to that material, or vice versa. Evaluations using synthesized data demonstrate that the proposed method can effectively measure the dissimilarity between data instances. An application of the analysis method on the data of Curie temperature (TC) of binary 3d transition metal 4f rare earth binary alloys also reveals meaningful results on the relations between the materials. The proposed method can be considered as a potential tool for obtaining a deeper understanding of the structure of data, with respect to a target property, in particular.
翻訳日:2022-10-27 03:14:48 公開日:2020-08-20
# 広告インテントと満足度を理解するための深層予測ネットワーク

A Deep Prediction Network for Understanding Advertiser Intent and Satisfaction ( http://arxiv.org/abs/2008.08931v1 )

ライセンス: Link先を確認
Liyi Guo, Rui Lu, Haoqi Zhang, Junqi Jin, Zhenzhe Zheng, Fan Wu, Jin Li, Haiyang Xu, Han Li, Wenkai Lu, Jian Xu, Kun Gai(参考訳) TaobaoやAmazonのようなeコマースプラットフォームでは、広告主はデジタルエコシステム全体において重要な役割を担っている。 したがって、広告主により良いサービスを提供することは、eコマースプラットフォームの長期的な繁栄に不可欠である。 この目標を達成するためには、広告プラットフォームは広告主のマーケティング意図と広告パフォーマンスに対する満足度の両方について、広告主を深く理解する必要がある。 本稿では,広告主の意図と満足度を同時にモデル化した新しいDeep Satisfaction Prediction Network (DSPN)を提案する。 広告主の行動情報と広告パフォーマンス指標の特徴を考慮し、広告主の意図ベクトルと満足度を共同で学習する2段階ネットワーク構造を用いる。 Alibabaの広告データセットとオンライン評価実験により、提案したDSPNは最先端のベースラインを上回り、オンライン環境におけるAUCの点で安定したパフォーマンスを示した。 さらに、DSPNは広告主の満足度を正確に予測するだけでなく、説明可能な広告主の意図も学習し、広告パフォーマンスをさらに最適化する機会を明らかにしている。

For e-commerce platforms such as Taobao and Amazon, advertisers play an important role in the entire digital ecosystem: their behaviors explicitly influence users' browsing and shopping experience; more importantly, advertiser's expenditure on advertising constitutes a primary source of platform revenue. Therefore, providing better services for advertisers is essential for the long-term prosperity for e-commerce platforms. To achieve this goal, the ad platform needs to have an in-depth understanding of advertisers in terms of both their marketing intents and satisfaction over the advertising performance, based on which further optimization could be carried out to service the advertisers in the correct direction. In this paper, we propose a novel Deep Satisfaction Prediction Network (DSPN), which models advertiser intent and satisfaction simultaneously. It employs a two-stage network structure where advertiser intent vector and satisfaction are jointly learned by considering the features of advertiser's action information and advertising performance indicators. Experiments on an Alibaba advertisement dataset and online evaluations show that our proposed DSPN outperforms state-of-the-art baselines and has stable performance in terms of AUC in the online environment. Further analyses show that DSPN not only predicts advertisers' satisfaction accurately but also learns an explainable advertiser intent, revealing the opportunities to optimize the advertising performance further.
翻訳日:2022-10-27 03:14:31 公開日:2020-08-20
# サドルポイント問題に対する主元-双順序逐次部分空間最適化

Primal-Dual Sequential Subspace Optimization for Saddle-point Problems ( http://arxiv.org/abs/2008.09149v1 )

ライセンス: Link先を確認
Yoni Choukroun, Michael Zibulevsky, Pavel Kisilev(参考訳) 大規模サドル点問題に対する逐次部分空間最適化手法を提案する。 低次元部分空間における補助的 saddle-point 問題の列を反復的に解き、素数 \emph{and} 双対変数上の一階情報から導かれる方向にまたがる。 最適化プロセスを安定化するために近位正則化がさらに展開される。 実験の結果, 一般的な一階法に比べて収束率が有意に向上した。 部分空間がアルゴリズムの収束に与える影響を分析し,双線形ゲーム,admmに基づく制約付き最適化,生成型逆ネットワークなど,様々な決定論的最適化シナリオにおけるその性能を評価する。

We introduce a new sequential subspace optimization method for large-scale saddle-point problems. It solves iteratively a sequence of auxiliary saddle-point problems in low-dimensional subspaces, spanned by directions derived from first-order information over the primal \emph{and} dual variables. Proximal regularization is further deployed to stabilize the optimization process. Experimental results demonstrate significantly better convergence relative to popular first-order methods. We analyze the influence of the subspace on the convergence of the algorithm, and assess its performance in various deterministic optimization scenarios, such as bi-linear games, ADMM-based constrained optimization and generative adversarial networks.
翻訳日:2022-10-27 03:13:56 公開日:2020-08-20
# NoPeek: 分散ディープラーニングにおける情報漏洩削減と共有アクティベーション

NoPeek: Information leakage reduction to share activations in distributed deep learning ( http://arxiv.org/abs/2008.09161v1 )

ライセンス: Link先を確認
Praneeth Vepakomma, Abhishek Singh, Otkrist Gupta, Ramesh Raskar(参考訳) センシティブなデータを持つ分散機械学習では、生データと中間表現間の距離相関を最小化することで、モデルの精度を維持しながら、クライアント通信間でのセンシティブな生データパターンの漏洩を低減できることを示す。 リーク(入力と中間表現間の距離相関を用いた測定)は、中間表現からの生データの可逆性に関連するリスクである。 これにより、機密データを保持するクライアントエンティティが分散ディープラーニングサービスを使用するのを防ぐことができる。 提案手法は,このような再構成攻撃に対する耐性を示し,画像データセットを用いたトレーニングおよび推論において,生データと学習表現との距離相関の低減に基づく。 良好な分類精度を維持するために必要な情報を維持しつつ、生データの再構築を防止する。

For distributed machine learning with sensitive data, we demonstrate how minimizing distance correlation between raw data and intermediary representations reduces leakage of sensitive raw data patterns across client communications while maintaining model accuracy. Leakage (measured using distance correlation between input and intermediate representations) is the risk associated with the invertibility of raw data from intermediary representations. This can prevent client entities that hold sensitive data from using distributed deep learning services. We demonstrate that our method is resilient to such reconstruction attacks and is based on reduction of distance correlation between raw data and learned representations during training and inference with image datasets. We prevent such reconstruction of raw data while maintaining information required to sustain good classification accuracies.
翻訳日:2022-10-27 03:13:43 公開日:2020-08-20
# マルチタスクベイズ最適化のための非線形アルゴリズム

No-regret Algorithms for Multi-task Bayesian Optimization ( http://arxiv.org/abs/2008.08885v1 )

ライセンス: Link先を確認
Sayak Ray Chowdhury, Aditya Gopalan(参考訳) 非パラメトリックベイズ最適化(BO)設定における未知ベクトル値関数の多目的最適化(MOO)を考える。 既存のboアルゴリズムの多くは、複数の目的、あるいは同等にタスクが類似点を共有することができるという事実をモデル化していない。 本研究では,マルチタスクカーネルを用いてタスク間の依存関係をモデル化し,目的のランダムなスキャラライズに基づく2つの新しいBOアルゴリズムを開発する。 我々のアルゴリズムはベクトル値のカーネル回帰を踏み台として、高信頼のバウンド・アルゴリズムに属する。 未知ベクトル値関数がマルチタスクカーネルに関連する再生カーネルヒルベルト空間の要素であるという滑らかさの仮定の下で、タスク間の類似性を明示的に捉えるアルゴリズムの最悪の場合の後悔の境界を導出する。 合成MOO問題と実時間MOO問題の両方にアルゴリズムをベンチマークし、マルチタスクカーネルで学習することで得られる利点を示す。

We consider multi-objective optimization (MOO) of an unknown vector-valued function in the non-parametric Bayesian optimization (BO) setting, with the aim being to learn points on the Pareto front of the objectives. Most existing BO algorithms do not model the fact that the multiple objectives, or equivalently, tasks can share similarities, and even the few that do lack rigorous, finite-time regret guarantees that capture explicitly inter-task structure. In this work, we address this problem by modelling inter-task dependencies using a multi-task kernel and develop two novel BO algorithms based on random scalarizations of the objectives. Our algorithms employ vector-valued kernel regression as a stepping stone and belong to the upper confidence bound class of algorithms. Under a smoothness assumption that the unknown vector-valued function is an element of the reproducing kernel Hilbert space associated with the multi-task kernel, we derive worst-case regret bounds for our algorithms that explicitly capture the similarities between tasks. We numerically benchmark our algorithms on both synthetic and real-life MOO problems, and show the advantages offered by learning with multi-task kernels.
翻訳日:2022-10-27 03:06:58 公開日:2020-08-20
# SVM型マルチカテゴリ分類器学習のためのFrank-Wolfeアルゴリズム

Frank-Wolfe algorithm for learning SVM-type multi-category classifiers ( http://arxiv.org/abs/2008.08894v1 )

ライセンス: Link先を確認
Kenya Tajima, Yoshihiro Hirohashi, Esmeraldo Ronnie Rey Zara, Tsuyoshi Kato(参考訳) マルチカテゴリサポートベクターマシン(MC-SVM)は最も人気のある機械学習アルゴリズムの一つである。 MC-SVMには多くのバリエーションがあるが、異なる学習マシン向けに異なる最適化アルゴリズムが開発された。 本研究では,MC-SVMの変種の多くに適用可能な新しい最適化アルゴリズムを開発した。 このアルゴリズムは2つのサブプロブレム、方向探索と行探索を必要とするFrank-Wolfeフレームワークに基づいている。 この研究の貢献は、Frank-Wolfe フレームワークが双対問題に適用された場合、両方の部分プロブレムが閉形式解を持つという発見である。 さらに、方向探索と直線探索の両方のための閉形式解は、損失関数のモローエンベロープに対しても存在する。 提案する最適化アルゴリズムが急速に収束し,パターン認識性能が向上することを示すために,いくつかの大規模データセットを用いた。

Multi-category support vector machine (MC-SVM) is one of the most popular machine learning algorithms. There are lots of variants of MC-SVM, although different optimization algorithms were developed for different learning machines. In this study, we developed a new optimization algorithm that can be applied to many of MC-SVM variants. The algorithm is based on the Frank-Wolfe framework that requires two subproblems, direction finding and line search, in each iteration. The contribution of this study is the discovery that both subproblems have a closed form solution if the Frank-Wolfe framework is applied to the dual problem. Additionally, the closed form solutions on both for the direction finding and for the line search exist even for the Moreau envelopes of the loss functions. We use several large datasets to demonstrate that the proposed optimization algorithm converges rapidly and thereby improves the pattern recognition performance.
翻訳日:2022-10-27 03:06:38 公開日:2020-08-20
# 01損失ニューラルネットワークによる対向ロバスト性に向けて

Towards adversarial robustness with 01 loss neural networks ( http://arxiv.org/abs/2008.09148v1 )

ライセンス: Link先を確認
Yunzhe Xue, Meiyan Xie, Usman Roshan(参考訳) 01損失の一般ロバスト性に動機づけられて,確率座標降下を訓練した単一の隠れ層01損失ニューラルネットワークを,機械学習における敵対的攻撃に対する防御として提案する。 モデルの堅牢性の1つの尺度は、入力を逆数にするために必要な最小の歪みである。 これは境界攻撃(Brendel et. al. 2018)やHopSkipJump (Chen et. al. 2019)の手法と近似することができる。 01損失ネットワークの最小歪みを二項化ニューラルネットワークと標準シグモイドアクティベーションネットワークと比較し,CIFAR10ベンチマークによるクラス0とクラス1間の二項分類におけるガウス雑音と非ガウス雑音の訓練を行った。 ノイズトレーニングと無ノイズトレーニングの両方で、我々の01損失ネットワークは、非自明なマージンによる3つのモデルの最大の逆歪みを持つ。 これらの結果をさらに検証するため、異なる歪み閾値の下でモデルブラックボックス攻撃に代えて、01損失ネットワークが全ての歪みに対して最も攻撃が難しいことを発見した。 0.125 の歪みでは、Sigmoid activated cross-entropy loss と Binarized Network の両者がほぼ0%の精度であり、01 の損失ネットワークは 40% である。 01の損失と2値化ネットワークの使用の両方が、トレーニングアルゴリズムが異なるため、ロバスト性の異なるソリューションを提供する。 最後に、我々のネットワークを代用モデルブラックボックス攻撃下での単純な畳み込みモデルと比較し、それらの精度を比較検討する。 我々の研究は、01損失ネットワークが凸損失や双対ネットワークよりもブラックボックス敵攻撃を防御できる可能性を示唆している。

Motivated by the general robustness properties of the 01 loss we propose a single hidden layer 01 loss neural network trained with stochastic coordinate descent as a defense against adversarial attacks in machine learning. One measure of a model's robustness is the minimum distortion required to make the input adversarial. This can be approximated with the Boundary Attack (Brendel et. al. 2018) and HopSkipJump (Chen et. al. 2019) methods. We compare the minimum distortion of the 01 loss network to the binarized neural network and the standard sigmoid activation network with cross-entropy loss all trained with and without Gaussian noise on the CIFAR10 benchmark binary classification between classes 0 and 1. Both with and without noise training we find our 01 loss network to have the largest adversarial distortion of the three models by non-trivial margins. To further validate these results we subject all models to substitute model black box attacks under different distortion thresholds and find that the 01 loss network is the hardest to attack across all distortions. At a distortion of 0.125 both sigmoid activated cross-entropy loss and binarized networks have almost 0% accuracy on adversarial examples whereas the 01 loss network is at 40%. Even though both 01 loss and the binarized network use sign activations their training algorithms are different which in turn give different solutions for robustness. Finally we compare our network to simple convolutional models under substitute model black box attacks and find their accuracies to be comparable. Our work shows that the 01 loss network has the potential to defend against black box adversarial attacks better than convex loss and binarized networks.
翻訳日:2022-10-27 03:06:04 公開日:2020-08-20
# iCaps: 切り離されたカプセルネットワークによる解釈可能な分類器

iCaps: An Interpretable Classifier via Disentangled Capsule Networks ( http://arxiv.org/abs/2008.08756v1 )

ライセンス: Link先を確認
Dahuin Jung, Jonghyun Lee, Jihun Yi, and Sungroh Yoon(参考訳) 画像分類のための解釈可能なカプセルネットワークiCapsを提案する。 カプセル(英: capsule)とは、各層に埋め込まれたニューロンのグループであり、最後の層にあるものはクラスカプセル(class capsule)と呼ばれる。 クラスカプセルを使用することで、既存のCapsule Networksはすでにある程度の解釈可能性を提供している。 しかし、解釈可能性の低下には2つの制限がある。 1) クラスカプセルは、分類関連情報も含むとともに、 2) クラスカプセルの重複に代表される実体。 本研究では,これら2つの制約を,新しいクラス教師付き非絡合アルゴリズムと追加正規化器を用いて解決する。 3つのデータセットの量的および定性的な評価を通じて、結果の分類器であるiCapsが、性能劣化を伴わずに、その裏にある明確な論理を予測できることを実証する。

We propose an interpretable Capsule Network, iCaps, for image classification. A capsule is a group of neurons nested inside each layer, and the one in the last layer is called a class capsule, which is a vector whose norm indicates a predicted probability for the class. Using the class capsule, existing Capsule Networks already provide some level of interpretability. However, there are two limitations which degrade its interpretability: 1) the class capsule also includes classification-irrelevant information, and 2) entities represented by the class capsule overlap. In this work, we address these two limitations using a novel class-supervised disentanglement algorithm and an additional regularizer, respectively. Through quantitative and qualitative evaluations on three datasets, we demonstrate that the resulting classifier, iCaps, provides a prediction along with clear rationales behind it with no performance degradation.
翻訳日:2022-10-27 03:05:32 公開日:2020-08-20
# 変形型PV-RCNN:学習変形による3次元物体検出の改善

Deformable PV-RCNN: Improving 3D Object Detection with Learned Deformations ( http://arxiv.org/abs/2008.08766v1 )

ライセンス: Link先を確認
Prarthana Bhattacharyya and Krzysztof Czarnecki(参考訳) Deformable PV-RCNNは高性能な点クラウド型3Dオブジェクト検出器である。 現在、最先端の2段階検出器が使用する改良手法は、異なる物体スケール、異なる点雲密度、部分変形および乱れに適切に対応できない。 本稿では,情報コンテンツが存在する場所からインスタンス固有の特徴を適応的に収集できる2次元変形可能な畳み込みネットワークに着想を得た改良モジュールを提案する。 また,改良段階においてキーポイントが関連するコンテキスト情報を選択できるシンプルなコンテキストゲーティング機構を提案する。 KITTIデータセットに最先端の結果を示す。

We present Deformable PV-RCNN, a high-performing point-cloud based 3D object detector. Currently, the proposal refinement methods used by the state-of-the-art two-stage detectors cannot adequately accommodate differing object scales, varying point-cloud density, part-deformation and clutter. We present a proposal refinement module inspired by 2D deformable convolution networks that can adaptively gather instance-specific features from locations where informative content exists. We also propose a simple context gating mechanism which allows the keypoints to select relevant context information for the refinement stage. We show state-of-the-art results on the KITTI dataset.
翻訳日:2022-10-27 03:05:19 公開日:2020-08-20
# pytorchメトリック学習

PyTorch Metric Learning ( http://arxiv.org/abs/2008.09164v1 )

ライセンス: Link先を確認
Kevin Musgrave, Serge Belongie, Ser-Nam Lim(参考訳) ディープメトリック学習アルゴリズムにはさまざまな応用があるが、これらのアルゴリズムの実装は退屈で時間がかかる。 PyTorch Metric Learningは、研究者と実践者の両方にとってこの障壁を取り除くことを目的とした、オープンソースのライブラリである。 モジュラーで柔軟な設計により、ユーザーは既存のコードで異なるアルゴリズムの組み合わせを簡単に試すことができる。 結果の迅速化を望むユーザのための、完全なトレイン/テストワークフローも備えている。 コードとドキュメントはhttps://www.github.com/KevinMusgrave/pytorch-metric-learningで入手できる。

Deep metric learning algorithms have a wide variety of applications, but implementing these algorithms can be tedious and time consuming. PyTorch Metric Learning is an open source library that aims to remove this barrier for both researchers and practitioners. The modular and flexible design allows users to easily try out different combinations of algorithms in their existing code. It also comes with complete train/test workflows, for users who want results fast. Code and documentation is available at https://www.github.com/KevinMusgrave/pytorch-metric-learning.
翻訳日:2022-10-27 03:05:10 公開日:2020-08-20
# 笑い合成:seq2seqモデリングと転送学習を組み合わせる

Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning ( http://arxiv.org/abs/2008.09483v1 )

ライセンス: Link先を確認
No\'e Tits, Kevin El Haddad, Thierry Dutoit(参考訳) 表現的音声合成への関心が高まっているにもかかわらず、非言語表現の合成は未探索領域である。 本稿では,時系列TS合成システムに基づく音声笑い合成システムを提案する。 我々は、深層学習モデルを訓練して伝達学習を活用し、アノテーションから音声と笑いの両方を生成することを学習する。 本研究では,HMMに基づく笑い合成法と比較して聴力試験を行い,高い自然度を達成できることを確認した。 我々のソリューションは、笑い統合による娯楽レベルの制御で音声を合成できるTSシステムに向けた第一歩です。

Despite the growing interest for expressive speech synthesis, synthesis of nonverbal expressions is an under-explored area. In this paper we propose an audio laughter synthesis system based on a sequence-to-sequence TTS synthesis system. We leverage transfer learning by training a deep learning model to learn to generate both speech and laughs from annotations. We evaluate our model with a listening test, comparing its performance to an HMM-based laughter synthesis one and assess that it reaches higher perceived naturalness. Our solution is a first step towards a TTS system that would be able to synthesize speech with a control on amusement level with laughter integration.
翻訳日:2022-10-27 03:04:31 公開日:2020-08-20
# ユーザ信頼におけるドメイン専門知識の役割とインテリジェントシステムにおける最初の印象の影響

The Role of Domain Expertise in User Trust and the Impact of First Impressions with Intelligent Systems ( http://arxiv.org/abs/2008.09100v1 )

ライセンス: Link先を確認
Mahsan Nourani, Joanie T. King, Eric D. Ragan(参考訳) ドメイン固有のインテリジェントシステムは、システムユーザの意思決定プロセスを支援する。 多くのシステムは、異なるレベルのドメイン専門知識を持つ異なるユーザを同時にサポートすることを目標としているが、事前のドメイン知識は、ユーザの信頼とシステムエラー検出の信頼性に影響を与える可能性がある。 また,知的システムに対する最初の印象からユーザ信頼が影響を受けることも知られているが,知的システムにおける誤りに遭遇する際のバイアスの順序付けとドメインの専門知識との関係について検討する。 本稿では,信頼確立におけるドメイン知識の役割と,第1印象がユーザ信頼に与える影響に対する感受性について検討する。 参加者は、一定の精度で説明可能な画像分類器をレビューし、システムエラー(使用開始時のエラーと終了時のエラー)を観測した。 以上の結果から,早期にエラーに遭遇すると,ドメインの専門家にネガティブな第一印象が生じる可能性が示唆された。 しかし,早期に正確なアウトプットに遭遇することで,システム性能の観察に基づいて信頼度を動的に調整することが可能になる。 対照的に、初心者のユーザは、エラーを検出するための適切な知識が不足しているため、過度に頼っている。

Domain-specific intelligent systems are meant to help system users in their decision-making process. Many systems aim to simultaneously support different users with varying levels of domain expertise, but prior domain knowledge can affect user trust and confidence in detecting system errors. While it is also known that user trust can be influenced by first impressions with intelligent systems, our research explores the relationship between ordering bias and domain expertise when encountering errors in intelligent systems. In this paper, we present a controlled user study to explore the role of domain knowledge in establishing trust and susceptibility to the influence of first impressions on user trust. Participants reviewed an explainable image classifier with a constant accuracy and two different orders of observing system errors (observing errors in the beginning of usage vs. in the end). Our findings indicate that encountering errors early-on can cause negative first impressions for domain experts, negatively impacting their trust over the course of interactions. However, encountering correct outputs early helps more knowledgable users to dynamically adjust their trust based on their observations of system performance. In contrast, novice users suffer from over-reliance due to their lack of proper knowledge to detect errors.
翻訳日:2022-10-27 03:04:21 公開日:2020-08-20
# ImagiFilter: 大規模な画像の半自動マイニングを可能にするリソース

ImagiFilter: A resource to enable the semi-automatic mining of images at scale ( http://arxiv.org/abs/2008.09152v1 )

ライセンス: Link先を確認
Houda Alberts and Iacer Calixto(参考訳) webから自動的に収集されるデータセット(セミ)は、数百万のエントリに簡単にスケールできるが、データセットの有用性は、そのサンプルがクリーンで高品質であるかに直接関係している。 本稿では,Webから取得した膨大な画像コレクションから,望ましくない画像を半自動フィルタリングする事前学習されたモデルとともに,画像データセットを記述・公開する。 我々のデータセットは写真や自然画像に焦点をあてており、コンピュータビジョン研究において非常に一般的なユースケースである。 粗い予測、すなわち写真対非フォトグラフィック、より細かい予測タスクのためのアノテーションを提供し、非フォトグラフィッククラスをさらに5つのクラス(地図、図面、グラフ、アイコン、スケッチ)に分割する。 メモリフットプリントを削減したモデルアーキテクチャが粗い予測の精度を96%以上向上することを示す。 最良モデルでは,最もきめ細かな分類作業において88%の精度が得られる。 データセットと事前トレーニングされたモデルは、https://github.com/houda96/imagi-filter.orgで利用可能である。

Datasets (semi-)automatically collected from the web can easily scale to millions of entries, but a dataset's usefulness is directly related to how clean and high-quality its examples are. In this paper, we describe and publicly release an image dataset along with pretrained models designed to (semi-)automatically filter out undesirable images from very large image collections, possibly obtained from the web. Our dataset focusses on photographic and/or natural images, a very common use-case in computer vision research. We provide annotations for coarse prediction, i.e. photographic vs. non-photographic, and smaller fine-grained prediction tasks where we further break down the non-photographic class into five classes: maps, drawings, graphs, icons, and sketches. Results on held out validation data show that a model architecture with reduced memory footprint achieves over 96% accuracy on coarse-prediction. Our best model achieves 88% accuracy on the hardest fine-grained classification task available. Dataset and pretrained models are available at: https://github.com/houda96/imagi-filter.
翻訳日:2022-10-27 02:58:19 公開日:2020-08-20
# 量子化レベルを低減した混合信号光畳み込みニューラルネットワークの訓練

Training of mixed-signal optical convolutional neural network with reduced quantization level ( http://arxiv.org/abs/2008.09206v1 )

ライセンス: Link先を確認
Joseph Ulseth, Zheyuan Zhu, Guifang Li, Shuo Pang(参考訳) アナログ行列乗算加速器を用いた混合信号人工ニューラルネットワーク(ANN)は、高速化と電力効率の向上を実現する。 アナログコンピューティングはノイズやデバイス不完全性の影響を受けやすいことが知られているが、様々なアナログコンピューティングパラダイムは、ANNの堅牢性のおかげで、機械学習アプリケーションにおけるコンピューティング需要の増加に対処するための有望なソリューションとみなされてきた。 このロバスト性は、デジタルコンピュータ上でのANNモデルの圧縮に成功している低精度の固定点ANNモデルで研究されている。 しかし、これらの有望な結果とネットワークトレーニングアルゴリズムは、アナログアクセラレータに容易に移行できない。 理由は、デジタルコンピュータは、各an層の入力と重みは低ビット幅であるが、通常、ビット幅の高い中間結果を持ち、アナログ中間結果は、量子化レベルが小さいデジタル信号に類似した精度が低いためである。 本稿では、アナログ信号に2種類の誤り、ランダムノイズ、決定論的誤り(歪み)を有する混合信号ANNの訓練方法について報告する。 その結果,提案手法で訓練した混合信号ANNは,理想量子化ステップの最大50%のノイズレベルで等価な分類精度が得られることがわかった。 回折光学に基づく混合信号型光畳み込みニューラルネットワークにおいて,この学習手法を実証した。

Mixed-signal artificial neural networks (ANNs) that employ analog matrix-multiplication accelerators can achieve higher speed and improved power efficiency. Though analog computing is known to be susceptible to noise and device imperfections, various analog computing paradigms have been considered as promising solutions to address the growing computing demand in machine learning applications, thanks to the robustness of ANNs. This robustness has been explored in low-precision, fixed-point ANN models, which have proven successful on compressing ANN model size on digital computers. However, these promising results and network training algorithms cannot be easily migrated to analog accelerators. The reason is that digital computers typically carry intermediate results with higher bit width, though the inputs and weights of each ANN layers are of low bit width; while the analog intermediate results have low precision, analogous to digital signals with a reduced quantization level. Here we report a training method for mixed-signal ANN with two types of errors in its analog signals, random noise, and deterministic errors (distortions). The results showed that mixed-signal ANNs trained with our proposed method can achieve an equivalent classification accuracy with noise level up to 50% of the ideal quantization step size. We have demonstrated this training method on a mixed-signal optical convolutional neural network based on diffractive optics.
翻訳日:2022-10-27 02:58:00 公開日:2020-08-20
# 大規模事前学習言語モデルから有用な文表現を発見する

Discovering Useful Sentence Representations from Large Pretrained Language Models ( http://arxiv.org/abs/2008.09049v1 )

ライセンス: Link先を確認
Nishant Subramani and Nivedita Suresh(参考訳) NLPシステムを構築するためのエンコーダとして事前訓練された言語モデルが広く成功したにもかかわらず、彼らはシーケンス生成タスクのデコーダとして有名ではない。 これらのモデルがユニバーサルデコーダとして利用できるかどうかについて検討する。 普遍的」と見なすには、デコーダは任意のターゲット文$s$に対して暗黙的な表現を持たなければならない。 大量の英語テキストで学習した大規模トランスフォーマティブ言語モデルについて,標準最適化手法を用いて,その表現が容易に発見できるかどうかを検討する。 本稿では,変換器モデルに対する3つの表現注入手法と,この表現空間から文をマッピングする3つの随伴手法を提案する。 実験によると、表現は様々なジャンルの文に対して存在する。 さらに、複雑な最適化アルゴリズムを必要とせず、基礎となる言語モデルを微調整することなく、これらの文をほぼ完全に復元する。

Despite the extensive success of pretrained language models as encoders for building NLP systems, they haven't seen prominence as decoders for sequence generation tasks. We explore the question of whether these models can be adapted to be used as universal decoders. To be considered "universal," a decoder must have an implicit representation for any target sentence $s$, such that it can recover that sentence exactly when conditioned on its representation. For large transformer-based language models trained on vast amounts of English text, we investigate whether such representations can be easily discovered using standard optimization methods. We present and compare three representation injection techniques for transformer-based models and three accompanying methods which map sentences to and from this representation space. Experiments show that not only do representations exist for sentences from a variety of genres. More importantly, without needing complex optimization algorithms, our methods recover these sentences almost perfectly without fine-tuning the underlying language model at all.
翻訳日:2022-10-27 02:57:41 公開日:2020-08-20
# クレーム符号を用いた階層型時間認識ニューラルネットワークによるリスク予測

Patient ADE Risk Prediction through Hierarchical Time-Aware Neural Network Using Claim Codes ( http://arxiv.org/abs/2008.08957v1 )

ライセンス: Link先を確認
Jinhe Shi, Xiangyu Gao, Chenyu Ha, Yage Wang, Guodong Gao, Yi Chen(参考訳) 逆薬物イベント(ADEs)は、生命を脅かす深刻な健康問題である。 薬物とaeの相関を検出するために多くの研究が行われてきたが、パーソナライズされたadeリスク予測に関する限られた研究が行われている。 治療法としては、重度のAEを引き起こす可能性が高い薬物を避けることで、医師が患者に安全な治療を提供するのに役立つ。 パーソナライズされたADEリスク予測に関する既存の作業は、現在の医療訪問で得られた情報を利用する。 一方,医療史では,各患者の特徴や包括的医療情報も明らかにされている。 本研究の目的は、請求コードに記録された患者医療履歴に基づいて、標的薬剤が標的患者に誘導するパーソナライズドADEリスクを評価し、請求情報以外の診断、薬物、関連医療用品に関する情報を提供することである。 我々は,クレームコードの特徴とその関係を捉えるhtnnrモデル(階層的時間認識ニューラルネットワーク for ade risk)を開発した。 実験により, 提案したHTNNRモデルは, 特に希少薬物において比較法を著しく上回っていることが示された。

Adverse drug events (ADEs) are a serious health problem that can be life-threatening. While a lot of studies have been performed on detect correlation between a drug and an AE, limited studies have been conducted on personalized ADE risk prediction. Among treatment alternatives, avoiding the drug that has high likelihood of causing severe AE can help physicians to provide safer treatment to patients. Existing work on personalized ADE risk prediction uses the information obtained in the current medical visit. However, on the other hand, medical history reveals each patient's unique characteristics and comprehensive medical information. The goal of this study is to assess personalized ADE risks that a target drug may induce on a target patient, based on patient medical history recorded in claims codes, which provide information about diagnosis, drugs taken, related medical supplies besides billing information. We developed a HTNNR model (Hierarchical Time-aware Neural Network for ADE Risk) that capture characteristics of claim codes and their relationship. The empirical evaluation show that the proposed HTNNR model substantially outperforms the comparison methods, especially for rare drugs.
翻訳日:2022-10-27 02:56:53 公開日:2020-08-20
# トレーニング事項:より深いグラフ畳み込みニューラルネットワークの可能性を解き放つ

Training Matters: Unlocking Potentials of Deeper Graph Convolutional Neural Networks ( http://arxiv.org/abs/2008.08838v1 )

ライセンス: Link先を確認
Sitao Luan, Mingde Zhao, Xiao-Wen Chang, Doina Precup(参考訳) グラフ畳み込みネットワーク(GCN)の性能限界と、通常私たちが他のディープラーニングパラダイムで行っているようなパフォーマンス向上のために積み重ねることができないという事実は、表現力の不足などGCN層の限界によって引き起こされると広く考えられている。 しかし, 固定アーキテクチャの場合, トレーニング手順だけを変更することで, トレーニングの難易度を低くし, 性能を向上させることは不可能である。 本稿ではまず, グラフ信号エネルギー損失の観点からGCNの学習困難さを同定する。 より具体的には、トレーニング中の後方パスにおけるエネルギーの損失は、入力に近い層の学習を無効にする。 そこで我々は,エネルギーの観点からGCN演算子をわずかに修正することで,トレーニング問題を緩和する手法をいくつか提案する。 実験的な検証の後、これらの演算子の変化がパラメータの構成を変えることなく、トレーニング困難と顕著なパフォーマンス向上を著しく減少させることを確認した。 以上より,問題の根本原因は,他の要因よりも訓練難易度が高いと結論づけた。

The performance limit of Graph Convolutional Networks (GCNs) and the fact that we cannot stack more of them to increase the performance, which we usually do for other deep learning paradigms, are pervasively thought to be caused by the limitations of the GCN layers, including insufficient expressive power, etc. However, if so, for a fixed architecture, it would be unlikely to lower the training difficulty and to improve performance by changing only the training procedure, which we show in this paper not only possible but possible in several ways. This paper first identify the training difficulty of GCNs from the perspective of graph signal energy loss. More specifically, we find that the loss of energy in the backward pass during training nullifies the learning of the layers closer to the input. Then, we propose several methodologies to mitigate the training problem by slightly modifying the GCN operator, from the energy perspective. After empirical validation, we confirm that these changes of operator lead to significant decrease in the training difficulties and notable performance boost, without changing the composition of parameters. With these, we conclude that the root cause of the problem is more likely the training difficulty than the others.
翻訳日:2022-10-27 02:56:09 公開日:2020-08-20
# 強化学習に基づく時系列予測のためのアンサンブルモデルの動的重み付け

Reinforcement Learning based dynamic weighing of Ensemble Models for Time Series Forecasting ( http://arxiv.org/abs/2008.08878v1 )

ライセンス: Link先を確認
Satheesh K. Perepu, Bala Shyamala Balaji, Hemanth Kumar Tanneru, Sudhakar Kathari, Vivek Shankar Pinnamaraju(参考訳) Ensemble Modelは、モデル予測の精度を改善するために開発された強力なモデル構築ツールである。 彼らは、プロセス産業、医療、経済に限らず、単一のモデルが最適なパフォーマンスを提供しないような様々なシナリオにおける時系列予測の応用を見つける。 データモデリングのために選択されたモデルが(線形/非線形/静的/動的)独立(最小相関モデル)である場合、予測の精度が向上することが知られている。 文献で示唆される様々なアプローチは、アンサンブルモデルの重み付けに静的な重みの組を用いる。 この制限のため、アンサンブルモデルの重み付けに静的なセットを用いるアプローチでは、データの動的変化や局所的な特徴を効果的に捉えることはできない。 この問題に対処するために、データの性質や個々のモデル予測に基づいて、異なるタイミングで各モデルの重みを動的に割り当て、更新する強化学習(RL)アプローチを提案する。 rlメソッドはオンラインで実装され、基本的に重み付けの更新と時間経過に伴うエラーの低減を学習する。 時系列データに関するシミュレーション研究により、RLを用いた動的重み付きアプローチは既存の手法よりも優れた重み付けを学習することを示した。 提案手法の精度を,正規化平均二乗誤差(NMSE)値を用いて定量的にチューニングするオンラインニューラルネットワークの既存手法と比較した。

Ensemble models are powerful model building tools that are developed with a focus to improve the accuracy of model predictions. They find applications in time series forecasting in varied scenarios including but not limited to process industries, health care, and economics where a single model might not provide optimal performance. It is known that if models selected for data modelling are distinct (linear/non-linear, static/dynamic) and independent (minimally correlated models), the accuracy of the predictions is improved. Various approaches suggested in the literature to weigh the ensemble models use a static set of weights. Due to this limitation, approaches using a static set of weights for weighing ensemble models cannot capture the dynamic changes or local features of the data effectively. To address this issue, a Reinforcement Learning (RL) approach to dynamically assign and update weights of each of the models at different time instants depending on the nature of data and the individual model predictions is proposed in this work. The RL method implemented online, essentially learns to update the weights and reduce the errors as the time progresses. Simulation studies on time series data showed that the dynamic weighted approach using RL learns the weight better than existing approaches. The accuracy of the proposed method is compared with an existing approach of online Neural Network tuning quantitatively through normalized mean square error(NMSE) values.
翻訳日:2022-10-27 02:55:30 公開日:2020-08-20
# ニューラルネットワークにおけるニューロンの機能の原型に基づく解釈

Prototype-based interpretation of the functionality of neurons in winner-take-all neural networks ( http://arxiv.org/abs/2008.08750v1 )

ライセンス: Link先を確認
Ramin Zarei Sabzevar, Kamaledin Ghiasi-Shirazi, Ahad Harati(参考訳) 最小ユークリッド距離(ED-WTA)に基づくWTAネットワークを用いたPbL(Prototype-based Learning)は,マルチクラス分類における直感的なアプローチである。 意味のあるクラス中心を構築することで、PbLは最大内部積(IP-WTA)に基づく超平面学習法よりも高い解釈可能性と一般化を提供し、どのクラスにも属さないサンプルを効率的に検出および拒絶することができる。 本稿ではまず,IP-WTA と ED-WTA の等価性を表現的観点から証明する。 そして,この等価性は,中心が表現するデータと高い距離を持つ非直観的なed-wtaネットワークに繋がることを示す。 我々は、各ニューロンを2つのプロトタイプでモデル化する$\pm$ed-wtaを提案する。1つの正のプロトタイプは、このニューロンによってモデル化されたサンプルを表し、もう1つはトレーニング中にそのニューロンに誤って勝利したサンプルを表す負のプロトタイプである。 我々は, 正と負のプロトタイプの更新を巧みに切り替える$\pm$ED-WTAネットワークのための新しいトレーニングアルゴリズムを提案し, 解釈可能なプロトタイプの出現に不可欠である。 予期せぬ結果, 各ニューロンの負の原型は, 正の原型と相違なく類似していることがわかった。 この観察の背景にある理論的根拠は、プロトタイプと間違えたトレーニングデータと実際に類似しているということだ。 本論文の主な発見は、bcm理論と一致する正のプロトタイプと負のプロトタイプとの差を計算することとしてのニューロンの機能のこの解釈である。 実験の結果,提案した$\pm$ED-WTA法は,外乱や逆のサンプルの検出に有効である,高度に解釈可能なプロトタイプを構築した。

Prototype-based learning (PbL) using a winner-take-all (WTA) network based on minimum Euclidean distance (ED-WTA) is an intuitive approach to multiclass classification. By constructing meaningful class centers, PbL provides higher interpretability and generalization than hyperplane-based learning (HbL) methods based on maximum Inner Product (IP-WTA) and can efficiently detect and reject samples that do not belong to any classes. In this paper, we first prove the equivalence of IP-WTA and ED-WTA from a representational point of view. Then, we show that naively using this equivalence leads to unintuitive ED-WTA networks in which the centers have high distances to data that they represent. We propose $\pm$ED-WTA which models each neuron with two prototypes: one positive prototype representing samples that are modeled by this neuron and a negative prototype representing the samples that are erroneously won by that neuron during training. We propose a novel training algorithm for the $\pm$ED-WTA network, which cleverly switches between updating the positive and negative prototypes and is essential to the emergence of interpretable prototypes. Unexpectedly, we observed that the negative prototype of each neuron is indistinguishably similar to the positive one. The rationale behind this observation is that the training data that are mistaken with a prototype are indeed similar to it. The main finding of this paper is this interpretation of the functionality of neurons as computing the difference between the distances to a positive and a negative prototype, which is in agreement with the BCM theory. In our experiments, we show that the proposed $\pm$ED-WTA method constructs highly interpretable prototypes that can be successfully used for detecting outlier and adversarial examples.
翻訳日:2022-10-27 02:49:43 公開日:2020-08-20
# 説明可能なAIを用いたディープニューラルネットワークの量子化とプルーニング

Utilizing Explainable AI for Quantization and Pruning of Deep Neural Networks ( http://arxiv.org/abs/2008.09072v1 )

ライセンス: Link先を確認
Muhammad Sabih, Frank Hannig and Juergen Teich(参考訳) 多くのアプリケーションにとって、DNN(Deep Neural Networks)を利用することは、エネルギー消費、メモリ要求、スループットなどに関して最適化された方法でターゲットアーキテクチャの実装を必要とする。 DNN圧縮は、ハードウェアへの展開前にDNNのメモリフットプリントと複雑性を低減するために使用される。 AI(Artificial Intelligence)の手法を理解し説明するための最近の取り組みは、説明可能なAIと呼ばれる新しい研究領域につながった。 説明可能なAI手法により、異なるニューロンや特徴の重要性など、DNNの内部動作をよりよく理解することができます。 説明可能なAIの概念は、量子化やプルーニングといったDNN圧縮手法を、これまで十分に研究されていないいくつかの方法で改善する機会を提供する。 本稿では,DeepLIFT法を中心に説明可能なAI手法を用いる。 我々は,(1)dnnのプルーニングには,(1)完全連結層のプルーニングに加えて,<ac{cnn}フィルタプルーニングの構造化および非構造化プルーニング,(2)クラスタリングアルゴリズムを用いたdnn重みの非一様量子化,(3)重み共有,(3)整数ベース混合精度量子化,(3)dnnの各層が異なる数の整数ビットを使用する,といった方法を用いる。 一般的なディープラーニング画像分類モデルを用いた典型的な画像分類データセットを用いて評価を行う。 これら3例すべてにおいて、DNN圧縮における説明可能なAIの使用による新たな洞察と機会に加えて、大幅な改善が示されている。

For many applications, utilizing DNNs (Deep Neural Networks) requires their implementation on a target architecture in an optimized manner concerning energy consumption, memory requirement, throughput, etc. DNN compression is used to reduce the memory footprint and complexity of a DNN before its deployment on hardware. Recent efforts to understand and explain AI (Artificial Intelligence) methods have led to a new research area, termed as explainable AI. Explainable AI methods allow us to understand better the inner working of DNNs, such as the importance of different neurons and features. The concepts from explainable AI provide an opportunity to improve DNN compression methods such as quantization and pruning in several ways that have not been sufficiently explored so far. In this paper, we utilize explainable AI methods: mainly DeepLIFT method. We use these methods for (1) pruning of DNNs; this includes structured and unstructured pruning of \ac{CNN} filters pruning as well as pruning weights of fully connected layers, (2) non-uniform quantization of DNN weights using clustering algorithm; this is also referred to as Weight Sharing, and (3) integer-based mixed-precision quantization; this is where each layer of a DNN may use a different number of integer bits. We use typical image classification datasets with common deep learning image classification models for evaluation. In all these three cases, we demonstrate significant improvements as well as new insights and opportunities from the use of explainable AI in DNN compression.
翻訳日:2022-10-27 02:48:23 公開日:2020-08-20
# 攻撃対象の$\beta$-variational分類器

$\beta$-Variational Classifiers Under Attack ( http://arxiv.org/abs/2008.09010v1 )

ライセンス: Link先を確認
Marco Maggipinto and Matteo Terzi and Gian Antonio Susto(参考訳) 近年のDeep Neural Networkは、コンピュータビジョンの分野で得られたブレークスルーによって、多くの注目を集めている。 しかし、その人気にもかかわらず、予測に限定的な堅牢性をもたらすことが示されている。 特に、正しく分類された入力データを暗黙的に修正する小さな敵の摂動を合成することができ、ネットワークはそれを自信を持って誤分類する。 これにより、頑丈さを改善したり、摂動の存在を検知しようとする様々な方法が生まれている。 本稿では、特定の分類タスクを解くだけでなく、入力分布から新しいサンプルを生成することができる生成成分を提供する、特定のメソッドのクラスである$\beta$-Variational Classifiersの分析を行う。 より詳しくは、モデルの生成部分に関する新しい知見とともに、それらの堅牢性と検出能力について研究する。

Deep Neural networks have gained lots of attention in recent years thanks to the breakthroughs obtained in the field of Computer Vision. However, despite their popularity, it has been shown that they provide limited robustness in their predictions. In particular, it is possible to synthesise small adversarial perturbations that imperceptibly modify a correctly classified input data, making the network confidently misclassify it. This has led to a plethora of different methods to try to improve robustness or detect the presence of these perturbations. In this paper, we perform an analysis of $\beta$-Variational Classifiers, a particular class of methods that not only solve a specific classification task, but also provide a generative component that is able to generate new samples from the input distribution. More in details, we study their robustness and detection capabilities, together with some novel insights on the generative part of the model.
翻訳日:2022-10-27 02:47:15 公開日:2020-08-20
# ニューラルロジック推論

Neural Logic Reasoning ( http://arxiv.org/abs/2008.09514v1 )

ライセンス: Link先を確認
Shaoyun Shi, Hanxiong Chen, Weizhi Ma, Jiaxin Mao, Min Zhang, Yongfeng Zhang(参考訳) 近年、多くの研究領域でディープニューラルネットワークの成功が見られた。 ほとんどのニューラルネットワークの設計の背後にある基本的な考え方は、予測と推論のためにデータから類似性パターンを学ぶことである。 しかし、推論の具体的な能力は多くの理論的・実践的な問題に対して重要である。 一方、従来の記号的推論法は論理的推論にうまく機能するが、それらは主に厳密な規則に基づく推論であり、異なるタスクが異なる規則を必要とする可能性があるため、それらの一般化能力を異なるタスクに制限する。 推論と一般化能力は、ユーザの履歴とターゲットアイテムとの強いつながりを正確に予測するためのレコメンデータシステムのような予測タスクにおいて重要であり、一般化は、ノイズの多い入力に対して堅牢なユーザポートレートを描くのに役立つ。 本稿では,ディープラーニングと論理推論の能力を統合するために,論理統合ニューラルネットワーク(LINN)を提案する。 linnは、入力論理式に従って計算グラフを構築する動的ニューラルネットワークアーキテクチャである。 ニューラルネットワークとしてAND、OR、NOTなどの基本的な論理操作を学び、推論のためにネットワークを通して命題論理的推論を行う。 理論的タスクの実験は、LINNが論理方程式や変数の解法において大きな性能を発揮することを示している。 さらに,提案手法を論理推論問題に定式化することにより,提案手法をレコメンデーションの実用的なタスクとして検証する。 実験の結果、LINNはTop-Kレコメンデーションにおいて最先端のレコメンデーションモデルを大幅に上回っており、実際にLINNの可能性を検証している。

Recent years have witnessed the success of deep neural networks in many research areas. The fundamental idea behind the design of most neural networks is to learn similarity patterns from data for prediction and inference, which lacks the ability of cognitive reasoning. However, the concrete ability of reasoning is critical to many theoretical and practical problems. On the other hand, traditional symbolic reasoning methods do well in making logical inference, but they are mostly hard rule-based reasoning, which limits their generalization ability to different tasks since difference tasks may require different rules. Both reasoning and generalization ability are important for prediction tasks such as recommender systems, where reasoning provides strong connection between user history and target items for accurate prediction, and generalization helps the model to draw a robust user portrait over noisy inputs. In this paper, we propose Logic-Integrated Neural Network (LINN) to integrate the power of deep learning and logic reasoning. LINN is a dynamic neural architecture that builds the computational graph according to input logical expressions. It learns basic logical operations such as AND, OR, NOT as neural modules, and conducts propositional logical reasoning through the network for inference. Experiments on theoretical task show that LINN achieves significant performance on solving logical equations and variables. Furthermore, we test our approach on the practical task of recommendation by formulating the task into a logical inference problem. Experiments show that LINN significantly outperforms state-of-the-art recommendation models in Top-K recommendation, which verifies the potential of LINN in practice.
翻訳日:2022-10-27 02:47:01 公開日:2020-08-20
# 2015年以降のバイオインフォマティクスにおける遺伝的アルゴリズムの普及状況

A summary of the prevalence of Genetic Algorithms in Bioinformatics from 2015 onwards ( http://arxiv.org/abs/2008.09017v1 )

ライセンス: Link先を確認
Mekaal Swerhun, Jasmine Foley, Brandon Massop and Vijay Mago(参考訳) In recent years, machine learning has seen an increasing presencein a large variety of fields, especially in health care and bioinformatics.More specifically, the field where machine learning algorithms have found most applications is Genetic Algorithms.The objective of this paper is to conduct a survey of articles published from 2015 onwards that deal with Genetic Algorithms(GA) and how they are used in bioinformatics.To achieve the objective, a scoping review was conducted that utilized Google Scholar alongside Publish or Perish and the Scimago Journal & CountryRank to search for respectable sources. バイオインフォマティクスの分野から31の論文を分析したところ、遺伝的アルゴリズムが完全なアプリケーションを形成することは滅多になく、サポートベクタマシンのような他の重要なアルゴリズムに依存していることが明らかとなった。 実際、GAを分類や特徴選択に利用するほとんどのアプリケーションは、ほぼ100%の成功率であり、将来のGA開発の焦点は、他の場所に向けるべきである。 GAのような人口ベースの検索は、しばしば他の機械学習アルゴリズムと組み合わせられる。 このスコーピングレビューで、サポートベクターマシンと組み合わせた遺伝的アルゴリズムが最適であることが判明した。 最も頻繁に評価された性能指標は精度であった。 精度を測定することは、計算時間であるGAの主な弱点を測定することを避ける。 遺伝的アルゴリズムの未来は、適応関数を最適化し、初期解群から単一の最良解に収束するよりも、複雑さを高め、多様な解を見つけようとする、拡張進化アルゴリズムである可能性がある。

In recent years, machine learning has seen an increasing presencein a large variety of fields, especially in health care and bioinformatics.More specifically, the field where machine learning algorithms have found most applications is Genetic Algorithms.The objective of this paper is to conduct a survey of articles published from 2015 onwards that deal with Genetic Algorithms(GA) and how they are used in bioinformatics.To achieve the objective, a scoping review was conducted that utilized Google Scholar alongside Publish or Perish and the Scimago Journal & CountryRank to search for respectable sources. Upon analyzing 31 articles from the field of bioinformatics, it became apparent that genetic algorithms rarely form a full application, instead they rely on other vital algorithms such as support vector machines.Indeed, support vector machines were the most prevalent algorithms used alongside genetic algorithms; however, while the usage of such algorithms contributes to the heavy focus on accuracy by GA programs, it often sidelines computation times in the process. In fact, most applications employing GAs for classification and feature selectionare nearing or at 100% success rate, and the focus of future GA development should be directed elsewhere. Population-based searches, like GA, are often combined with other machine learning algorithms. In this scoping review, genetic algorithms combined with Support Vector Machines were found to perform best. The performance metric that was evaluated most often was accuracy. Measuring the accuracy avoids measuring the main weakness of GAs, which is computational time. The future of genetic algorithms could be open-ended evolutionary algorithms, which attempt to increase complexity and find diverse solutions, rather than optimize a fitness function and converge to a single best solution from the initial population of solutions.
翻訳日:2022-10-27 02:46:36 公開日:2020-08-20