このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210501となっている論文です。

PDF登録状況(公開日: 20210501)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) スパース観測データからの時空間ダイナミクス予測のための深層学習手法 [全文訳有]

A Deep Learning Approach for Predicting Spatiotemporal Dynamics From Sparsely Observed Data ( http://arxiv.org/abs/2011.14965v2 )

ライセンス: CC BY 4.0
Priyabrata Saha and Saibal Mukhopadhyay(参考訳) 本稿では,未知偏微分方程式(pdes)によって駆動される時空間的物理過程の学習予測モデルの問題を考える。 本稿では,基礎となるダイナミクスを学習し,分散データサイトを用いてその進化を予測するディープラーニングフレームワークを提案する。 ディープラーニングは近年、物理力学のモデリングに有望な結果をもたらしている。 しかし、物理力学をモデリングする既存のディープラーニング手法のほとんどは、既知のPDEの解法に焦点をあてるか、支配的なPDEが不明なときに高密度グリッドでデータを必要とする。 対照的に,本手法では,未知のpde駆動ダイナミクスの学習予測モデルに焦点をあてる。 提案手法は空間次元非依存で幾何学的に柔軟である。 境界条件の異なる複数の測地線における2次元波動方程式とバーガーズ・フィッシャー方程式と10次元熱方程式の予測タスクにおいて,本手法を実証する。

In this paper, we consider the problem of learning prediction models for spatiotemporal physical processes driven by unknown partial differential equations (PDEs). We propose a deep learning framework that learns the underlying dynamics and predicts its evolution using sparsely distributed data sites. Deep learning has shown promising results in modeling physical dynamics in recent years. However, most of the existing deep learning methods for modeling physical dynamics either focus on solving known PDEs or require data in a dense grid when the governing PDEs are unknown. In contrast, our method focuses on learning prediction models for unknown PDE-driven dynamics only from sparsely observed data. The proposed method is spatial dimension-independen t and geometrically flexible. We demonstrate our method in the forecasting task for the two-dimensional wave equation and the Burgers-Fisher equation in multiple geometries with different boundary conditions, and the ten-dimensional heat equation.
翻訳日:2021-06-07 01:14:22 公開日:2021-05-01
# (参考訳) サンプル選択モデルのためのダブル機械学習

Double machine learning for sample selection models ( http://arxiv.org/abs/2012.00745v3 )

ライセンス: CC BY 4.0
Michela Bia, Martin Huber, Luk\'a\v{s} Laff\'ers(参考訳) 本稿では,サンプル選択や帰属によるサブポピュレーションに対してのみ結果が観察される場合の個別分散処理の評価について考察する。 識別には、処理課題に対する選択可観測値の仮定と、結果の属性/サンプル選択プロセスに関する機器変数の仮定を組み合わせる。 また, ダイナミック・コンバウンディングは, 共変体が試料選択に影響を及ぼし, 結果が(少なくとも部分的に) 治療の影響を受けうることを意味している。 処理前および処理後共変量の潜在的高次元集合に対してデータ駆動型制御を行うため,2重機械学習フレームワークを用いて治療評価をサンプル選択問題に適用する。 a)Neyman-orthogonal, Duubly robust, and efficient score function, which suggests the robustness of treatment effect Estimation to moderate regularization biases in the machine learning based Estimation of the outcome, treatment, or sample selection model and (b) sample splitting ( or cross-fitting) to prevent overfitting bias。 提案手法は,機械学習者に関する特定の正規性条件下での漸近的正規性とルートnの整合性を示し,その有限標本特性についてシミュレーション研究を行った。 また,本提案手法をjob corpsデータに適用し,雇用条件のみを満たした時間給に対するトレーニングの効果を評価する。 推定器は統計ソフトウェアRの因果重みパッケージで利用可能である。

This paper considers the evaluation of discretely distributed treatments when outcomes are only observed for a subpopulation due to sample selection or outcome attrition. For identification, we combine a selection-on-observa bles assumption for treatment assignment with either selection-on-observa bles or instrumental variable assumptions concerning the outcome attrition/sample selection process. We also consider dynamic confounding, meaning that covariates that jointly affect sample selection and the outcome may (at least partly) be influenced by the treatment. To control in a data-driven way for a potentially high dimensional set of pre- and/or post-treatment covariates, we adapt the double machine learning framework for treatment evaluation to sample selection problems. We make use of (a) Neyman-orthogonal, doubly robust, and efficient score functions, which imply the robustness of treatment effect estimation to moderate regularization biases in the machine learning-based estimation of the outcome, treatment, or sample selection models and (b) sample splitting (or cross-fitting) to prevent overfitting bias. We demonstrate that the proposed estimators are asymptotically normal and root-n consistent under specific regularity conditions concerning the machine learners and investigate their finite sample properties in a simulation study. We also apply our proposed methodology to the Job Corps data for evaluating the effect of training on hourly wages which are only observed conditional on employment. The estimator is available in the causalweight package for the statistical software R.
翻訳日:2021-06-06 19:35:42 公開日:2021-05-01
# (参考訳) ラベル付け労力の少ないグラフ畳み込みニューラルネットワークのトランスダクティブ特性の活用 [全文訳有]

Exploiting Transductive Property of Graph Convolutional Neural Networks with Less Labeling Effort ( http://arxiv.org/abs/2105.13765v1 )

ライセンス: CC BY 4.0
Yasir Kilic(参考訳) 近年,グラフデータに対する機械学習アプローチは非常に人気がある。 モデルにデータを構成するデータサンプル間の暗黙的あるいは明示的な論理的接続を含めることで,有意な結果が得られた。 この文脈で、gcnモデルの開発は、グラフデータに適用される畳み込みフィルタで実験的に貢献してきた。 このモデルはTransductive and Semi-Supervised Learningアプローチに従う。 トランスダクティブな性質のため、部分的にラベル付けされたすべてのデータサンプルがモデルへの入力として与えられる。 ラベル付けはコストであり、非常に重要です。 この研究の範囲内で、以下の研究課題が答えられようとしている。 もし少なくとも何個のサンプルがラベル付けされている場合、最適なモデルの成功は達成されるか? さらに、モデルの精度について実験的な貢献がなされており、どのサンプリング手法も固定ラベリングの手法を用いている。 実験によると、局所集中度測定を用いてモデルの成功を増大させることができる。

Recently, machine learning approaches on Graph data have become very popular. It was observed that significant results were obtained by including implicit or explicit logical connections between data samples that make up the data to the model. In this context, the developing GCN model has made significant experimental contributions with Convolution filters applied to graph data. This model follows Transductive and Semi-Supervised Learning approach. Due to its transductive property, all of the data samples, which is partially labeled, are given as input to the model. Labeling, which is a cost, is very important. Within the scope of this study, the following research question is tried to be answered: If at least how many samples are labeled, the optimum model success is achieved? In addition, some experimental contributions have been made on the accuracy of the model, whichever sampling approach is used with fixed labeling effort. According to the experiments, the success of the model can be increased by using the local centrality metric.
翻訳日:2021-06-06 12:28:39 公開日:2021-05-01
# バイナリおよびマルチクラスmrfのための効率的な半定義型プログラミングに基づく推論

Efficient semidefinite-program ming-based inference for binary and multi-class MRFs ( http://arxiv.org/abs/2012.02661v2 )

ライセンス: Link先を確認
Chirag Pabbaraju, Po-Wei Wang, J. Zico Kolter(参考訳) ペアワイズマルコフ確率場(mrfs)における確率的推論、すなわち 分割関数の計算や変数のマップ推定の計算は、確率的グラフィカルモデルにおける基礎的な問題である。 半定義型プログラミング緩和は、確率的推論の性質を分析するための理論的に強力なツールであるが、典型的な解法の計算コストが高いため実用的ではない。 本稿では,最近提案された座標descent-based fast semidefinitesolvrを利用して,分割関数やMAP推定をペアのMDFで効率的に計算する手法を提案する。 また、通常の二元的MDFから完全多クラス設定への半定緩和を拡張し、この解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。 提案手法は, 先行研究から得られたベンチマーク問題に対して, 近似推論による既存の技術状況(ソリューションの品質と速度の両方)を大幅に上回ることを示す。 また,本手法はコンピュータビジョンで使用される完全接続型ペアワイドCRFモデルなど,大規模なMRF領域に拡張可能であることを示す。

Probabilistic inference in pairwise Markov Random Fields (MRFs), i.e. computing the partition function or computing a MAP estimate of the variables, is a foundational problem in probabilistic graphical models. Semidefinite programming relaxations have long been a theoretically powerful tool for analyzing properties of probabilistic inference, but have not been practical owing to the high computational cost of typical solvers for solving the resulting SDPs. In this paper, we propose an efficient method for computing the partition function or MAP estimate in a pairwise MRF by instead exploiting a recently proposed coordinate-descent-b ased fast semidefinite solver. We also extend semidefinite relaxations from the typical binary MRF to the full multi-class setting, and develop a compact semidefinite relaxation that can again be solved efficiently using the solver. We show that the method substantially outperforms (both in terms of solution quality and speed) the existing state of the art in approximate inference, on benchmark problems drawn from previous work. We also show that our approach can scale to large MRF domains such as fully-connected pairwise CRF models used in computer vision.
翻訳日:2021-05-22 20:49:45 公開日:2021-05-01
# (参考訳) speakfaces:ビジュアルおよびサーマルビデオストリームを備えた音声コマンドの大規模マルチモーダルデータセット [全文訳有]

SpeakingFaces: A Large-Scale Multimodal Dataset of Voice Commands with Visual and Thermal Video Streams ( http://arxiv.org/abs/2012.02961v3 )

ライセンス: CC BY 4.0
Madina Abdrakhmanova, Askat Kuzdeuov, Sheikh Jarju, Yerbolat Khassanov, Michael Lewis and Huseyin Atakan Varol(参考訳) 本稿では,熱的,視覚的,音声的データストリームの組み合わせを活用したコンテキストにおける機械学習研究を支援するために開発された,公開利用可能な大規模マルチモーダルデータセットとして,スポーキングフェイスを提案する。 スポークフェイスは、約100の命令文を話す各被験者の音声記録と同期したフルフレーム顔の高分解能熱スペクトル画像ストリームで構成されている。 データは142人の被験者から収集され、13,000件以上の同期データ(約3.8tb)が得られた。 技術的検証には2つの基本例を示す。 最初のベースラインは、クリーンでノイズの多い環境で3つのデータストリームの異なる組み合わせを利用して、性別による分類を示す。 第2の例は、ドメイン転送の例として、熱から視覚への顔画像変換である。

We present SpeakingFaces as a publicly-available large-scale multimodal dataset developed to support machine learning research in contexts that utilize a combination of thermal, visual, and audio data streams; examples include human-computer interaction, biometric authentication, recognition systems, domain transfer, and speech recognition. SpeakingFaces is comprised of aligned high-resolution thermal and visual spectra image streams of fully-framed faces synchronized with audio recordings of each subject speaking approximately 100 imperative phrases. Data were collected from 142 subjects, yielding over 13,000 instances of synchronized data (~3.8 TB). For technical validation, we demonstrate two baseline examples. The first baseline shows classification by gender, utilizing different combinations of the three data streams in both clean and noisy environments. The second example consists of thermal-to-visual facial image translation, as an instance of domain transfer.
翻訳日:2021-05-22 17:39:39 公開日:2021-05-01
# クラスタリングと埋め込みのためのオートエンコーダの共同最適化

Joint Optimization of an Autoencoder for Clustering and Embedding ( http://arxiv.org/abs/2012.03740v2 )

ライセンス: Link先を確認
Ahc\`ene Boubekki, Michael Kampffmeyer, Robert Jenssen, Ulf Brefeld(参考訳) deep embedded clusteringは、ディープニューラルネットワークによるオブジェクトの教師なし分類への支配的アプローチとなっている。 最も一般的な手法の最適化は、ディープオートエンコーダのトレーニングとオートエンコーダの埋め込みのk平均クラスタリングとを交互に行う。 しかし、ダイアクロニック設定は、前者が後者が取得した貴重な情報から利益を得るのを防ぐ。 本稿では,自動エンコーダとクラスタリングを同時に学習する代替手法を提案する。 これは新しい理論的な洞察を提供することによって実現され、GMMの組込みクラスタリング機能を継承する一層オートエンコーダの損失関数として、ある種のガウス混合モデル(GMM)の目的関数を自然に記述できることが示される。 この単純なニューラルネットワークは、クラスタリングモジュールと呼ばれ、ディープオートエンコーダに統合することができ、それによって、クラスタリングと組み込みを共同学習できるディープクラスタリングモデルが実現される。 実験はクラスタリングモジュールとガウス混合モデルとの等価性を確認する。 さらなる評価は、いくつかのデータセットで関連するベースラインを上回るため、我々のディープアーキテクチャの実証的妥当性を肯定する。

Deep embedded clustering has become a dominating approach to unsupervised categorization of objects with deep neural networks. The optimization of the most popular methods alternates between the training of a deep autoencoder and a k-means clustering of the autoencoder's embedding. The diachronic setting, however, prevents the former to benefit from valuable information acquired by the latter. In this paper, we present an alternative where the autoencoder and the clustering are learned simultaneously. This is achieved by providing novel theoretical insight, where we show that the objective function of a certain class of Gaussian mixture models (GMMs) can naturally be rephrased as the loss function of a one-hidden layer autoencoder thus inheriting the built-in clustering capabilities of the GMM. That simple neural network, referred to as the clustering module, can be integrated into a deep autoencoder resulting in a deep clustering model able to jointly learn a clustering and an embedding. Experiments confirm the equivalence between the clustering module and Gaussian mixture models. Further evaluations affirm the empirical relevance of our deep architecture as it outperforms related baselines on several data sets.
翻訳日:2021-05-16 21:46:32 公開日:2021-05-01
# (参考訳) 画像と音響技術を用いた深層ニューラルネットワークによるCOVID-19検出と診断 : 最近の研究動向 [全文訳有]

Deep Neural Networks for COVID-19 Detection and Diagnosis using Images and Acoustic-based Techniques: A Recent Review ( http://arxiv.org/abs/2012.07655v4 )

ライセンス: CC BY 4.0
Walid Hariri, Ali Narin(参考訳) 新型コロナウイルスは2020年3月から世界保健機関(WHO)によってパンデミックと宣言されている。 これは、非定型性肺炎を発症する可能性のある、呼吸器トロピズムによるウイルス感染が出現する。 専門家は、新型コロナウイルス感染者の早期発見の重要性を強調している。 このようにして、患者を他の人から隔離し、ウイルスの拡散を防止することができる。 このため,早期診断・検出手法の開発が注目され,迅速な治療プロセスの確保とウイルスの拡散防止が図られている。 標準のテスティングシステムは時間を要するため、誰にでも利用できないため、代替の早期スクリーニング技術が急務となっている。 本研究では,近年普及している深層学習(DL)アルゴリズムに基づく新型コロナウイルス検出のアプローチを包括的に論じる。 文献における異なるアプローチの利点と欠点を詳細に検討する。 胸部およびx線画像のctは、患者の肺をリッチに表現し、時間消費が少なく、dlアルゴリズムを用いた効率的なウイルス性肺炎検出を可能にする。 最初のステップは、ノイズを取り除くためにこれらの画像の前処理です。 次に、複数のタイプの深層モデル(事前訓練されたモデル、生成モデル、ジェネリックニューラルネットワークなど)を使用して深い特徴を抽出する。 最後に、得られた特徴を用いて分類を行い、患者がウイルスに感染しているか、別の肺疾患であるかを判定する。 本研究は、covid-19の早期スクリーニングにおけるcough分析の最近の応用と、その拡散を制限するためのヒューマンモビリティ推定について、簡単なレビューを行う。

The new coronavirus disease (COVID-19) has been declared a pandemic since March 2020 by the World Health Organization. It consists of an emerging viral infection with respiratory tropism that could develop atypical pneumonia. Experts emphasize the importance of early detection of those who have the COVID-19 virus. In this way, patients will be isolated from other people and the spread of the virus can be prevented. For this reason, it has become an area of interest to develop early diagnosis and detection methods to ensure a rapid treatment process and prevent the virus from spreading. Since the standard testing system is time-consuming and not available for everyone, alternative early-screening techniques have become an urgent need. In this study, the approaches used in the detection of COVID-19 based on deep learning (DL) algorithms, which have been popular in recent years, have been comprehensively discussed. The advantages and disadvantages of different approaches used in literature are examined in detail. The Computed Tomography of the chest and X-ray images give a rich representation of the patient's lung that is less time-consuming and allows an efficient viral pneumonia detection using the DL algorithms. The first step is the pre-processing of these images to remove noise. Next, deep features are extracted using multiple types of deep models (pre-trained models, generative models, generic neural networks, etc.). Finally, the classification is performed using the obtained features to decide whether the patient is infected by coronavirus or it is another lung disease. In this study, we also give a brief review of the latest applications of cough analysis to early screen the COVID-19, and human mobility estimation to limit its spread.
翻訳日:2021-05-15 09:13:07 公開日:2021-05-01
# (参考訳) 時間依存型PV/Tコレクタの制御パラメータの計算シミュレーションと解析 [全文訳有]

Computational Simulation and Analysis of Major Control Parameters of Time-Dependent PV/T Collectors ( http://arxiv.org/abs/2105.05358v1 )

ライセンス: CC BY 4.0
Jimeng Shi, Cheng-Xian Lin(参考訳) 本論文は, 太陽光発電・熱・集熱器の性能向上を目的として, 従来の熱モデルを検証するとともに, 主要な制御パラメータが太陽電池温度, 裏面温度, 出口水温などのpv/t集熱器の熱性能に及ぼす影響を調べるため, 計算熱モデルの改良を行った。 さらに,実験で使用したPVモジュール (MSX60多結晶太陽電池) の電圧, 電流, 電力の関係を解明するために, PV/Tシステムの計算電気モデルも導入された。 シミュレーション結果は実験データとよく一致している。 また,リアルタイムに閉ざされた1時間から1分までの時間ステップの影響についても報告した。 最後に、PV/Tシステムの効率を改善するためのいくつかの提案を行った。

In order to improve performance of photovoltaic/thermal (or PV/T for simplicity) collectors, this paper firstly validated a previous computational thermal model and then introduced an improved computational thermal model to investigate the effects of the major control parameters on the thermal performance of PV/T collectors, including solar cell temperature, back surface temperature, and outlet water temperature. Besides, a computational electrical model of PV/T system was also introduced to elaborate the relationship of voltage, current and power of a PV module (MSX60 polycrystalline solar cell) used in an experiment in the literature. Simulation results agree with the experimental data very well. The effects of the time-steps from 1 hour to minute, which is closed to the real time, were also reported. At last, several suggestions to improve the efficiency of PV/T system were illustrated.
翻訳日:2021-05-14 12:51:56 公開日:2021-05-01
# 構造健康モニタリングにおけるグラフ信号処理とグラフニューラルネットワークを用いた複雑なセンサネットワークデータのモデリングフレームワーク

A Computational Framework for Modeling Complex Sensor Network Data Using Graph Signal Processing and Graph Neural Networks in Structural Health Monitoring ( http://arxiv.org/abs/2105.05316v1 )

ライセンス: Link先を確認
Stefan Bloemheuvel, Jurgen van den Hoogen, Martin Atzmueller(参考訳) 複雑なネットワークは、関係データや時間データといった多次元データのモデリングに役立つ。 特に、そのような複雑なデータとその固有の関係を形式化する必要がある場合、複雑なネットワークモデリングとそのグラフ表現は、幅広い強力な選択肢を可能にする。 本稿では、分析と予測(保守)の観点から、構造的健康モニタリングのためのグラフ上の特定の機械学習アプローチと関連付けることを目的とした。 具体的には、グラフ信号処理(GSP)とグラフニューラルネットワーク(GNN)のアプローチを統合する複雑なネットワークモデリングに基づくフレームワークを提案する。 我々は、このフレームワークをターゲットとするStructure Health Monitoring (SHM)アプリケーション領域で実証する。 特に,オランダの大規模橋梁のセンサデータ(ひずみ,振動)をモデル化し,解析する,目立った実世界の構造的健康モニタリングのユースケースに焦点を当てた。 本実験では, GSPが最も重要なセンサの識別を可能にし, 探索と最適化の一連のアプローチについて検討する。 さらに、GSPは特定のグラフ信号パターン(モード形状)の検出を可能にし、応用複合ネットワークにおけるセンサの物理的機能特性をキャプチャする。 さらに,このようなデータに対するひずみ予測にGNNを適用することの有効性を示す。

Complex networks lend themselves to the modeling of multidimensional data, such as relational and/or temporal data. In particular, when such complex data and their inherent relationships need to be formalized, complex network modeling and its resulting graph representations enable a wide range of powerful options. In this paper, we target this - connected to specific machine learning approaches on graphs for structural health monitoring on an analysis and predictive (maintenance) perspective. Specifically, we present a framework based on Complex Network Modeling, integrating Graph Signal Processing (GSP) and Graph Neural Network (GNN) approaches. We demonstrate this framework in our targeted application domain of Structural Health Monitoring (SHM). In particular, we focus on a prominent real-world structural health monitoring use case, i.e., modeling and analyzing sensor data (strain, vibration) of a large bridge in the Netherlands. In our experiments, we show that GSP enables the identification of the most important sensors, for which we investigate a set of search and optimization approaches. Furthermore, GSP enables the detection of specific graph signal patterns (mode shapes), capturing physical functional properties of the sensors in the applied complex network. In addition, we show the efficacy of applying GNNs for strain prediction on this kind of data.
翻訳日:2021-05-14 11:30:25 公開日:2021-05-01
# (参考訳) Sparse Pose Trajectory Completion [全文訳有]

Sparse Pose Trajectory Completion ( http://arxiv.org/abs/2105.00125v1 )

ライセンス: CC BY 4.0
Bo Liu, Mandar Dixit, Roland Kwitt, Gang Hua, Nuno Vasconcelos(参考訳) オブジェクトがスパースサンプリングされたビュー(例)にのみ現れるデータセットを用いて学習する手法を提案する。 Pix3D) 任意の参照画像に対してポーズ軌跡を合成する機能。 これはクロスモーダルポーズ軌道伝達機構によって達成される。 第一に、ドメイン転送関数は、オブジェクトのRGB画像、その2次元深さマップから予測するように訓練される。 そして、深度空間における物体回転をシミュレートする学習により、一連の画像ビューを生成する。 最後に、生成されたポーズをこの潜伏空間から学習ID保存変換を用いて対応するRGB画像の集合にマッピングする。 これにより、画像空間内の物体の密なポーズ軌跡が得られる。 各オブジェクトタイプ(例えば、特定のIKEAチェアモデル)に対して、3次元CADモデルを使用して2次元深度マップの完全なポーズ軌跡を描画する。 画像空間に濃密なポーズサンプリングがない場合、これらの潜在空間軌道は学習のためのクロスモーダルガイダンスを提供する。 学習されたポーズの軌跡は見えない例に転送でき、画像空間内のすべてのオブジェクトビューを効果的に合成することができる。 提案手法はPix3DとShapeNetのデータセットを用いて,スパースポーズの監督下での新規ビュー合成の設定において評価され,最近の技術よりも大幅に改善されている。

We propose a method to learn, even using a dataset where objects appear only in sparsely sampled views (e.g. Pix3D), the ability to synthesize a pose trajectory for an arbitrary reference image. This is achieved with a cross-modal pose trajectory transfer mechanism. First, a domain transfer function is trained to predict, from an RGB image of the object, its 2D depth map. Then, a set of image views is generated by learning to simulate object rotation in the depth space. Finally, the generated poses are mapped from this latent space into a set of corresponding RGB images using a learned identity preserving transform. This results in a dense pose trajectory of the object in image space. For each object type (e.g., a specific Ikea chair model), a 3D CAD model is used to render a full pose trajectory of 2D depth maps. In the absence of dense pose sampling in image space, these latent space trajectories provide cross-modal guidance for learning. The learned pose trajectories can be transferred to unseen examples, effectively synthesizing all object views in image space. Our method is evaluated on the Pix3D and ShapeNet datasets, in the setting of novel view synthesis under sparse pose supervision, demonstrating substantial improvements over recent art.
翻訳日:2021-05-06 05:18:15 公開日:2021-05-01
# (参考訳) breadcrumbs:ロングテール認識のための逆クラスバランスサンプリング [全文訳有]

Breadcrumbs: Adversarial Class-Balanced Sampling for Long-tailed Recognition ( http://arxiv.org/abs/2105.00127v1 )

ライセンス: CC BY 4.0
Bo Liu, Haoxiang Li, Hao Kang, Gang Hua, Nuno Vasconcelos(参考訳) クラスごとの例数が非常に不均衡なロングテール認識の問題点を考察する。 クラスバランスサンプリングによるトレーニングは,この問題に対して有効であることが示されているが,数発のクラスに過度に適合することが知られている。 これは例の繰り返しサンプリングによるものであり、特徴空間の増大によって対処できると仮定されている。 トレーニング中のエポック間の機能のバックトラッキングに基づく,新たな機能拡張戦略であるemanateを提案する。 クラスバランスサンプリングと異なり,これは相反する拡張戦略であることが示された。 新たなサンプリング手順であるbreadcrumbは、余分な計算なしで逆のクラスバランスのサンプリングを実装するために導入された。 一般的な3つの長い尾の認識データセットの実験は、Breadcrumbトレーニングが既存のソリューションよりも優れた分類器を生成することを示している。

The problem of long-tailed recognition, where the number of examples per class is highly unbalanced, is considered. While training with class-balanced sampling has been shown effective for this problem, it is known to over-fit to few-shot classes. It is hypothesized that this is due to the repeated sampling of examples and can be addressed by feature space augmentation. A new feature augmentation strategy, EMANATE, based on back-tracking of features across epochs during training, is proposed. It is shown that, unlike class-balanced sampling, this is an adversarial augmentation strategy. A new sampling procedure, Breadcrumb, is then introduced to implement adversarial class-balanced sampling without extra computation. Experiments on three popular long-tailed recognition datasets show that Breadcrumb training produces classifiers that outperform existing solutions to the problem.
翻訳日:2021-05-06 05:04:59 公開日:2021-05-01
# (参考訳) gistnet:ロングテール認識のための幾何構造転送ネットワーク [全文訳有]

GistNet: a Geometric Structure Transfer Network for Long-Tailed Recognition ( http://arxiv.org/abs/2105.00131v1 )

ライセンス: CC BY 4.0
Bo Liu, Haoxiang Li, Hao Kang, Gang Hua, Nuno Vasconcelos(参考訳) クラスごとの例数が非常に不均衡なロングテール認識の問題点を考察する。 一般的なクラスに過度に適合する標準分類器訓練の傾向は、効果的な転帰学習に活用できると仮定されている。 この過度な適合をなくすのではなく、例えば、 一般的なクラスバランスのサンプリング手法を採用することで、学習アルゴリズムはこの過剰フィッティングを利用して、人気のあるクラスから低ショットクラスへ幾何学的情報を転送する。 新しい分類器アーキテクチャgistnetは、クラス幾何をエンコードするために分類器パラメータのコンステレーションを使用して、この目標をサポートするために提案されている。 新しい学習アルゴリズムがGeometrIc Structure Transfer (GIST) に提案され、クラスバランスとランダムサンプリングを組み合わせた損失関数の組み合わせにより、一般的なクラスに過度に適合することは幾何パラメータに制限されるが、人気クラスから少数ショットクラスへのクラス幾何学の転送に利用される。 これにより、クラス重みの手動仕様や、クラスを異なる型に明示的なグループ化する必要がなくなる。 2つの人気のある長い尾の認識データセットの実験は、GistNetがこの問題に対する既存のソリューションより優れていることを示している。

The problem of long-tailed recognition, where the number of examples per class is highly unbalanced, is considered. It is hypothesized that the well known tendency of standard classifier training to overfit to popular classes can be exploited for effective transfer learning. Rather than eliminating this overfitting, e.g. by adopting popular class-balanced sampling methods, the learning algorithm should instead leverage this overfitting to transfer geometric information from popular to low-shot classes. A new classifier architecture, GistNet, is proposed to support this goal, using constellations of classifier parameters to encode the class geometry. A new learning algorithm is then proposed for GeometrIc Structure Transfer (GIST), with resort to a combination of loss functions that combine class-balanced and random sampling to guarantee that, while overfitting to the popular classes is restricted to geometric parameters, it is leveraged to transfer class geometry from popular to few-shot classes. This enables better generalization for few-shot classes without the need for the manual specification of class weights, or even the explicit grouping of classes into different types. Experiments on two popular long-tailed recognition datasets show that GistNet outperforms existing solutions to this problem.
翻訳日:2021-05-06 04:51:00 公開日:2021-05-01
# (参考訳) オルタナトサンプリングを用いた半教師付きロングテール認識 [全文訳有]

Semi-supervised Long-tailed Recognition using Alternate Sampling ( http://arxiv.org/abs/2105.00133v1 )

ライセンス: CC BY 4.0
Bo Liu, Haoxiang Li, Hao Kang, Nuno Vasconcelos, Gang Hua(参考訳) ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。 よりバランスの取れたトレーニング損失を達成し、合成サンプルによるテールクラスのデータ変動を改善する技術が提案されているが、容易に利用可能なラベルなしデータを活用することで認識精度を向上させる。 このアイデアは、半教師付きロングテール認識という新しい認識設定につながる。 この設定は現実世界のデータ収集やアノテーションのプロセスによく似ており、現実のシナリオとのギャップを埋めるのに役立ちます。 半教師付きロングテール認識問題に対処するため,この2つの研究分野における手法の直感と組み合わせた代替サンプリングフレームワークを提案する。 分類器と特徴埋め込みは別々に学習され、反復的に更新される。 非ラベルデータにおける擬似ラベルの品質に影響されない方法で分類器を訓練するために、クラスバランスサンプリング戦略を実装した。 ラベルのないデータの影響を制限し、機能の埋め込みを更新できる一貫性の損失が導入された。 2つのデータセットにおいて,他の競合手法よりも精度が大幅に向上することを示す。

Main challenges in long-tailed recognition come from the imbalanced data distribution and sample scarcity in its tail classes. While techniques have been proposed to achieve a more balanced training loss and to improve tail classes data variations with synthesized samples, we resort to leverage readily available unlabeled data to boost recognition accuracy. The idea leads to a new recognition setting, namely semi-supervised long-tailed recognition. We argue this setting better resembles the real-world data collection and annotation process and hence can help close the gap to real-world scenarios. To address the semi-supervised long-tailed recognition problem, we present an alternate sampling framework combining the intuitions from successful methods in these two research areas. The classifier and feature embedding are learned separately and updated iteratively. The class-balanced sampling strategy has been implemented to train the classifier in a way not affected by the pseudo labels' quality on the unlabeled data. A consistency loss has been introduced to limit the impact from unlabeled data while leveraging them to update the feature embedding. We demonstrate significant accuracy improvements over other competitive methods on two datasets.
翻訳日:2021-05-06 04:38:43 公開日:2021-05-01
# (参考訳) バミューダのトライアングル:GNNは単純なトポロジ構造を検出できない [全文訳有]

Bermuda Triangles: GNNs Fail to Detect Simple Topological Structures ( http://arxiv.org/abs/2105.00134v1 )

ライセンス: CC BY 4.0
Arseny Tolmachev, Akira Sakai, Masaru Todoriki, Koji Maruhashi(参考訳) ほとんどのグラフニューラルネットワークアーキテクチャは、隣接行列上のメッセージパスノードベクトルの埋め込みによって機能し、それをすることでグラフトポロジを捉えると仮定される。 私たちは2つの合成タスクをデザインし、純粋にトライアングル検出とクランク距離という、グラフニューラルネットワークのパフォーマンスが驚くほど悪く、これらの「ベルムダ」トライアングルの検出に失敗したトポロジカルな問題に焦点を当てた。 Datasetsとその生成スクリプトはgithub.com/FujitsuLa boratories/bermudatr iangles and dataset.labs.fujitsu .comで公開されている。

Most graph neural network architectures work by message-passing node vector embeddings over the adjacency matrix, and it is assumed that they capture graph topology by doing that. We design two synthetic tasks, focusing purely on topological problems -- triangle detection and clique distance -- on which graph neural networks perform surprisingly badly, failing to detect those "bermuda" triangles. Datasets and their generation scripts are publicly available on github.com/FujitsuLa boratories/bermudatr iangles and dataset.labs.fujitsu .com.
翻訳日:2021-05-06 04:27:05 公開日:2021-05-01
# (参考訳) 人物検索の課題と解決策:調査 [全文訳有]

Person Search Challenges and Solutions: A Survey ( http://arxiv.org/abs/2105.01605v1 )

ライセンス: CC BY 4.0
Xiangtan Lin and Pengzhen Ren and Yun Xiao and Xiaojun Chang and Alex Hauptmann(参考訳) 人物探索は現実世界の応用と研究の意義から注目を集めている。 person searchは、犯罪捜査、マルチカメラ追跡、行方不明者の検索など、幅広いアプリケーションを備えたシーンイメージのギャラリー内の調査員を見つけることを目的としている。 初期の人物検索は、人物画像を検索クエリとして利用する画像ベースの人物検索に焦点を当てている。 テキストベースの人物検索は、自由形式の自然言語を検索クエリとして利用するもう一つの主要な人物検索カテゴリである。 人物検索は困難であり、対応するソリューションは多様で複雑である。 したがって、この話題に関する体系的な調査が不可欠である。 本稿では,画像ベースおよびテキストベースの人物検索に関する最近の研究について,課題と解決策の観点から検討した。 具体的には, 識別的特徴, 問合せ間隙, 検出同定不一致という3つの課題を考慮した, 影響力の高い人物探索手法について, 簡潔な分析を行った。 評価結果を要約し、比較する。 最後に,オープンな課題と今後の研究方向性について論じる。

Person search has drawn increasing attention due to its real-world applications and research significance. Person search aims to find a probe person in a gallery of scene images with a wide range of applications, such as criminals search, multicamera tracking, missing person search, etc. Early person search works focused on image-based person search, which uses person image as the search query. Text-based person search is another major person search category that uses free-form natural language as the search query. Person search is challenging, and corresponding solutions are diverse and complex. Therefore, systematic surveys on this topic are essential. This paper surveyed the recent works on image-based and text-based person search from the perspective of challenges and solutions. Specifically, we provide a brief analysis of highly influential person search methods considering the three significant challenges: the discriminative person features, the query-person gap, and the detection-identifica tion inconsistency. We summarise and compare evaluation results. Finally, we discuss open issues and some promising future research directions.
翻訳日:2021-05-06 04:18:40 公開日:2021-05-01
# 薬物・標的相互作用予測のためのマトリックス因子化による曲がり領域の最適化

Optimizing Area Under the Curve Measures via Matrix Factorization for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2105.01545v1 )

ライセンス: Link先を確認
Bin Liu and Grigorios Tsoumakas(参考訳) 薬物発見において、実験的アプローチによる薬物標的相互作用(DTI)の同定は退屈で高価な手順である。 計算手法は、DTIを効率的に予測し、さらに実験的な確認のために、潜在的な相互作用するペアのごく一部を推奨する。 DTI予測タスクにおいて、上位2組の精度を強調する高精度リコール曲線(AUPR)の下の領域と、下位2組の相互作用するペアの存在を厳しく罰する受信操作特性曲線(AUC)の下の領域は、広く使われている2つの評価指標である。 しかし、この2つの指標は、既存のDTI予測手法における損失とはみなされない。 本稿では, aupr と auc をそれぞれ最適化する行列分解法を提案する。 2つの方法は、グラフ正規化を利用して、潜在特徴空間におけるトレーニング薬物と標的の局所的不分散を確実にし、最適な減衰係数を利用して、新しい薬物と標的のより信頼性の高い潜在特徴を推測する。 より最近検証されたインタラクションを含む4つのベンチマークデータセットに対する実験結果は、最適化された評価基準の点から提案手法の優位性を示している。

In drug discovery, identifying drug-target interactions (DTIs) via experimental approaches is a tedious and expensive procedure. Computational methods efficiently predict DTIs and recommend a small part of potential interacting pairs for further experimental confirmation, accelerating the drug discovery process. Area under the precision-recall curve (AUPR) that emphasizes the accuracy of top-ranked pairs and area under the receiver operating characteristic curve (AUC) that heavily punishes the existence of low ranked interacting pairs are two widely used evaluation metrics in the DTI prediction task. However, the two metrics are seldom considered as losses within existing DTI prediction methods. This paper proposes two matrix factorization methods that optimize AUPR and AUC, respectively. The two methods utilize graph regularization to ensure the local invariance of training drugs and targets in the latent feature space, and leverage the optimal decay coefficient to infer more reliable latent features of new drugs and targets. Experimental results over four updated benchmark datasets containing more recently verified interactions show the superiority of the proposed methods in terms of the corresponding evaluation metric they optimize.
翻訳日:2021-05-05 12:44:29 公開日:2021-05-01
# (参考訳) マルチモーダルトランジションパーザを用いた視覚構造文書の論理構造把握 [全文訳有]

Capturing Logical Structure of Visually Structured Documents with Multimodal Transition Parser ( http://arxiv.org/abs/2105.00150v1 )

ライセンス: CC BY 4.0
Yuta Koreeda, Christopher D. Manning(参考訳) 多くのnlp文書、タスク、パイプラインは生のクリーンテキストを想定しているが、私たちが野生で遭遇する多くのテキストはそれほどクリーンではなく、その多くはpdfのような視覚的構造化ドキュメント(vsd)である。 VSDの従来の前処理ツールは主に単語分割と粗いレイアウト解析に重点を置いているが、VSDの詳細な論理構造解析(段落境界や階層の識別など)は過小評価されている。 そこで我々は,断片を木にマッピングするテキストフラグメント間の遷移ラベルの予測としてタスクを定式化し,視覚的,テキスト的,セマンティックなキューを融合する特徴ベース機械学習システムを開発した。 我々のシステムはVSDの異なる構造を識別する上で、ベースラインを著しく上回った。 例えば,F1スコアが0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコアの0.951を得た。

While many NLP papers, tasks and pipelines assume raw, clean texts, many texts we encounter in the wild are not so clean, with many of them being visually structured documents (VSDs) such as PDFs. Conventional preprocessing tools for VSDs mainly focused on word segmentation and coarse layout analysis, while fine-grained logical structure analysis (such as identifying paragraph boundaries and their hierarchies) of VSDs is underexplored. To that end, we proposed to formulate the task as prediction of transition labels between text fragments that maps the fragments to a tree, and developed a feature-based machine learning system that fuses visual, textual and semantic cues. Our system significantly outperformed baselines in identifying different structures in VSDs. For example, our system obtained a paragraph boundary detection F1 score of 0.951 which is significantly better than a popular PDF-to-text tool with a F1 score of 0.739.
翻訳日:2021-05-05 12:37:46 公開日:2021-05-01
# (参考訳) 深部Qネットワークを用いた無人自動車の歩行者衝突回避 [全文訳有]

Pedestrian Collision Avoidance for Autonomous Vehicles at Unsignalized Intersection Using Deep Q-Network ( http://arxiv.org/abs/2105.00153v1 )

ライセンス: CC BY 4.0
Kasra Mokhtari, Alan R. Wagner(参考訳) 以前の研究は、他の車両の存在下で自律走行車(av)のナビゲーションを広く研究してきたが、都市環境において最も脆弱な要素である歩行者間のナビゲーションについては、あまり調査されていない。 本稿では,混雑した無信号交差点におけるavナビゲーションについて検討する。 我々は,報酬関数と状態表現を訓練した異なる深層強化学習手法の性能を比較する。 これらの手法の性能と標準規則に基づくアプローチを2つの方法で評価した。まず,各手法が訓練された符号のない交差点で,次に,異なる位相を持つ未知の符号のない交差点で評価した。 両シナリオにおいて,ルールベース手法は衝突のないエピソードを40\%以下に抑えるが,本手法では約100\%の性能が得られる。 使用される3つの方法のうち、ddqn/perは他の2つの方法よりも優れており、また最も平均的な交差点横断時間、最も平均速度、最も近い歩行者からの距離も示している。

Prior research has extensively explored Autonomous Vehicle (AV) navigation in the presence of other vehicles, however, navigation among pedestrians, who are the most vulnerable element in urban environments, has been less examined. This paper explores AV navigation in crowded, unsignalized intersections. We compare the performance of different deep reinforcement learning methods trained on our reward function and state representation. The performance of these methods and a standard rule-based approach were evaluated in two ways, first at the unsignalized intersection on which the methods were trained, and secondly at an unknown unsignalized intersection with a different topology. For both scenarios, the rule-based method achieves less than 40\% collision-free episodes, whereas our methods result in a performance of approximately 100\%. Of the three methods used, DDQN/PER outperforms the other two methods while it also shows the smallest average intersection crossing time, the greatest average speed, and the greatest distance from the closest pedestrian.
翻訳日:2021-05-05 12:24:22 公開日:2021-05-01
# (参考訳) nuspan:非一様スパースモデルのための近位平均ネットワーク -反射率インバージョンへの適用- [全文訳有]

NuSPAN: A Proximal Average Network for Nonuniform Sparse Model -- Application to Seismic Reflectivity Inversion ( http://arxiv.org/abs/2105.00003v1 )

ライセンス: CC BY 4.0
Swapnil Mache, Praveen Kumar Pokala, Kusala Rajendran and Chandra Sekhar Seelamantula(参考訳) 本研究では,地下反射係数の高分解能回復に関わる反射率反転の文脈において,スパース信号デコンボリューション(sparse signal deconvolution)の問題を解く。 この定式化は、凸と凸でない正規化子の組み合わせからなる非一様、非凸合成スパースモデルを用いており、l0擬似ノルムの正確な近似が得られる。 結果の反復アルゴリズムは、近似平均戦略を必要とする。 展開すると、反復によって学習可能な平均的ネットワークアーキテクチャが生まれ、データ駆動方式で最適化できる。 提案手法は, 合成1次元地震探査と2次元ウェッジモデルを用いた数値実験により, ベンチマーク手法と比較し, 有効性を示す。 また,カナダ,ノバスコシア沖のペノブスコット3D調査から得られたシミュレーションMarmousi2モデルおよび実3次元地震量データについても検証を行った。

We solve the problem of sparse signal deconvolution in the context of seismic reflectivity inversion, which pertains to high-resolution recovery of the subsurface reflection coefficients. Our formulation employs a nonuniform, non-convex synthesis sparse model comprising a combination of convex and non-convex regularizers, which results in accurate approximations of the l0 pseudo-norm. The resulting iterative algorithm requires the proximal average strategy. When unfolded, the iterations give rise to a learnable proximal average network architecture that can be optimized in a data-driven fashion. We demonstrate the efficacy of the proposed approach through numerical experiments on synthetic 1-D seismic traces and 2-D wedge models in comparison with the benchmark techniques. We also present validations considering the simulated Marmousi2 model as well as real 3-D seismic volume data acquired from the Penobscot 3D survey off the coast of Nova Scotia, Canada.
翻訳日:2021-05-05 12:12:28 公開日:2021-05-01
# (参考訳) 人中心言語モデルにおける隠れたバックドア [全文訳有]

Hidden Backdoors in Human-Centric Language Models ( http://arxiv.org/abs/2105.00164v1 )

ライセンス: CC BY 4.0
Shaofeng Li, Hui Liu, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue, Haojin Zhu, Jialiang Lu(参考訳) 自然言語処理(nlp)システムはバックドア攻撃に対して脆弱であることが証明されており、隠れた機能(バックドア)は言語モデルに訓練され、特定の入力(トリガーと呼ばれる)によってのみ活性化され、モデルに予期しない振る舞いを誘導する。 本稿では,テキストバックドア攻撃の隠蔽と自然なトリガーである‘textit{hidden backdoors} を作成し,現代の言語モデルと人間の検査の両方を騙すことができる。 隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。 homograph置換による最初のアプローチは、ルックアライクな文字置換の視覚的なスプーフィングを通じて、ディープニューラルネットワークにトリガーを埋め込む。 第二のアプローチは、言語モデルによって生成されたテキストと実際の自然なテキストの微妙な違いを利用して、正しい文法と高い流用率でトリガー文を生成する。 提案手法は,有毒なコメント検出,ニューラルネットワーク翻訳(NMT),質問応答(QA)を含む,現代人中心のNLPシステムを代表する3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。 2つの隠れたバックドア攻撃は、少なくとも$7\%$の攻撃成功率(asr)を、わずか$3\%$の有毒なコメント検出率、$0.5\%$のインジェクションデータ未満のnmtの$5.1\%$ asr、そして最終的に、92,024のサンプル(0.029\%)でトレーニングされたモデル上で、わずか27の有毒データサンプルで更新されたqaに対する$1.12\%$ asrを達成できる。 我々は、人間の管理者が目立たないトリガーで、通常のユーザーのために機能を維持しながら、敵の高い攻撃成功率を示すことができる。

Natural language processing (NLP) systems have been proven to be vulnerable to backdoor attacks, whereby hidden features (backdoors) are trained into a language model and may only be activated by specific inputs (called triggers), to trick the model into producing unexpected behaviors. In this paper, we create covert and natural triggers for textual backdoor attacks, \textit{hidden backdoors}, where triggers can fool both modern language models and human inspection. We deploy our hidden backdoors through two state-of-the-art trigger embedding methods. The first approach via homograph replacement, embeds the trigger into deep neural networks through the visual spoofing of lookalike character replacement. The second approach uses subtle differences between text generated by language models and real natural text to produce trigger sentences with correct grammar and high fluency. We demonstrate that the proposed hidden backdoors can be effective across three downstream security-critical NLP tasks, representative of modern human-centric NLP systems, including toxic comment detection, neural machine translation (NMT), and question answering (QA). Our two hidden backdoor attacks can achieve an Attack Success Rate (ASR) of at least $97\%$ with an injection rate of only $3\%$ in toxic comment detection, $95.1\%$ ASR in NMT with less than $0.5\%$ injected data, and finally $91.12\%$ ASR against QA updated with only 27 poisoning data samples on a model previously trained with 92,024 samples (0.029\%). We are able to demonstrate the adversary's high success rate of attacks, while maintaining functionality for regular users, with triggers inconspicuous by the human administrators.
翻訳日:2021-05-05 10:43:40 公開日:2021-05-01
# (参考訳) AlloST:ソース転写のない低リソース音声翻訳 [全文訳有]

AlloST: Low-resource Speech Translation without Source Transcription ( http://arxiv.org/abs/2105.00171v1 )

ライセンス: CC BY-SA 4.0
Yao-Fei Cheng, Hung-Shin Lee, and Hsin-Min Wang(参考訳) エンドツーエンドアーキテクチャは、音声翻訳(ST)において有望な進歩を遂げた。 しかし、STタスクは低リソース条件下ではまだ難しい。 多くのSTモデルは、特に元発話からの単語情報の欠如に満足できない結果を示した。 本研究では,ソース転写を使わずにst性能を向上させる手法を調査し,言語非依存のユニバーサルフォン認識器を用いた学習フレームワークを提案する。 このフレームワークは注意に基づくシーケンスツーシーケンスモデルに基づいており、エンコーダは音素埋め込みと音素認識音響表現を生成し、デコーダは2つの埋め込みストリームの融合を制御してターゲットトークンシーケンスを生成する。 異なる融合戦略の検証に加えて,音節を音節的に分割したシーケンスに意味情報で圧縮するバイトペア符号化(BPE)の具体的な使用法を検討する。 The Fisher Spanish- English and Taigi-Mandarin drama corpora で行った実験により,本手法はコンバータベースのベースラインよりも優れており,その性能はソース転写を用いた既存のベストメソッドに近いことがわかった。

The end-to-end architecture has made promising progress in speech translation (ST). However, the ST task is still challenging under low-resource conditions. Most ST models have shown unsatisfactory results, especially in the absence of word information from the source speech utterance. In this study, we survey methods to improve ST performance without using source transcription, and propose a learning framework that utilizes a language-independent universal phone recognizer. The framework is based on an attention-based sequence-to-sequence model, where the encoder generates the phonetic embeddings and phone-aware acoustic representations, and the decoder controls the fusion of the two embedding streams to produce the target token sequence. In addition to investigating different fusion strategies, we explore the specific usage of byte pair encoding (BPE), which compresses a phone sequence into a syllable-like segmented sequence with semantic information. Experiments conducted on the Fisher Spanish-English and Taigi-Mandarin drama corpora show that our method outperforms the conformer-based baseline, and the performance is close to that of the existing best method using source transcription.
翻訳日:2021-05-05 10:11:45 公開日:2021-05-01
# (参考訳) 歌唱音声の感情認識 : 歌唱者のリアルタイム分析ツールを目指して [全文訳有]

Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis Tool for Singers ( http://arxiv.org/abs/2105.00173v1 )

ライセンス: CC BY 4.0
Daniel Szelogowski(参考訳) 現在の計算感情研究は、感情がどのように数学的に知覚されるか、あるいは自然言語処理機械学習モデルでどのように使用されるかを分析するために音響特性を適用している。 音声音声から感情を分析することに最も関心が寄せられているが、歌声における感情がどのように認識されるかを知るための実験はほとんど行われていない(つまり、不正確で解釈が難しいデータ、この場合、実際の雑音音のような歪んだ/歪んだ/ナンセンスな情報、あるいは使用可能な/使用できない情報の比率が低い)。 これは、より主観的なデータで機械学習モデルをトレーニングし、多くのノイジエデータでテストすることの課題を無視するだけでなく、畳み込みニューラルネットワークの開発を進めることと、感情的に認識する人工知能の目標との間には、明確な切り離しがある。 By training a new model to include this type of information with a rich comprehension of psycho-acoustic properties, not only can models be trained to recognize information within extremely noisy data, but advancement can be made toward more complex biofeedback applications -- including creating a model which could recognize emotions given any human information (language, breath, voice, body, posture) and be used in any performance medium (music, speech, acting) or psychological assistance for patients with disorders such as BPD, alexithymia, autism, among others. 本稿は,関連する研究の知見を反映し,拡張し,この目標に向けての一歩を踏み出す。

Current computational-emotio n research has focused on applying acoustic properties to analyze how emotions are perceived mathematically or used in natural language processing machine learning models. With most recent interest being in analyzing emotions from the spoken voice, little experimentation has been performed to discover how emotions are recognized in the singing voice -- both in noiseless and noisy data (i.e., data that is either inaccurate, difficult to interpret, has corrupted/distorted/ nonsense information like actual noise sounds in this case, or has a low ratio of usable/unusable information). Not only does this ignore the challenges of training machine learning models on more subjective data and testing them with much noisier data, but there is also a clear disconnect in progress between advancing the development of convolutional neural networks and the goal of emotionally cognizant artificial intelligence. By training a new model to include this type of information with a rich comprehension of psycho-acoustic properties, not only can models be trained to recognize information within extremely noisy data, but advancement can be made toward more complex biofeedback applications -- including creating a model which could recognize emotions given any human information (language, breath, voice, body, posture) and be used in any performance medium (music, speech, acting) or psychological assistance for patients with disorders such as BPD, alexithymia, autism, among others. This paper seeks to reflect and expand upon the findings of related research and present a stepping-stone toward this end goal.
翻訳日:2021-05-05 10:00:21 公開日:2021-05-01
# (参考訳) deepfake技術に関する深い洞察 : レビュー [全文訳有]

Deep Insights of Deepfake Technology : A Review ( http://arxiv.org/abs/2105.00192v1 )

ライセンス: CC BY 4.0
Bahar Uddin Mahmud, Afsana Sharmin(参考訳) コンピュータービジョンとディープラーニング技術のエージスの下で、新しい技術が登場し、誰でもリアルだがフェイクなビデオを作れるようになり、画像は音声を操作できるようになった。 この技術はディープフェイク技術として知られている。 偽ビデオや人物のイメージを作るには興味深いテクニックだが、インターネットを通じて誤情報として拡散する可能性がある。 ディープフェイクの内容は、個人にとっても、私たちのコミュニティ、組織、国宗教にとっても危険です。 Deepfakeのコンテンツ作成には、いくつかのディープラーニングアルゴリズムを組み合わせた高度な専門知識が伴うため、ほとんど本物で本物で区別が難しい。 本稿では,Deepfake技術をより広範囲に理解するために,幅広い論文が検討されている。 これに責任を持つDeepfakeが何か、Deepfakeのメリットがあるのか、この技術の課題は何なのか、といった洞察を得るために、いくつかの記事を調べてきた。 また,いくつかの生成・検出技術についても検討した。 我々の研究によると、ディープフェイクは我々の社会にとって脅威であるが、適切な措置と厳格な規制がこれを防ぐ可能性がある。

Under the aegis of computer vision and deep learning technology, a new emerging techniques has introduced that anyone can make highly realistic but fake videos, images even can manipulates the voices. This technology is widely known as Deepfake Technology. Although it seems interesting techniques to make fake videos or image of something or some individuals but it could spread as misinformation via internet. Deepfake contents could be dangerous for individuals as well as for our communities, organizations, countries religions etc. As Deepfake content creation involve a high level expertise with combination of several algorithms of deep learning, it seems almost real and genuine and difficult to differentiate. In this paper, a wide range of articles have been examined to understand Deepfake technology more extensively. We have examined several articles to find some insights such as what is Deepfake, who are responsible for this, is there any benefits of Deepfake and what are the challenges of this technology. We have also examined several creation and detection techniques. Our study revealed that although Deepfake is a threat to our societies, proper measures and strict regulations could prevent this.
翻訳日:2021-05-05 09:49:22 公開日:2021-05-01
# (参考訳) スライスGANを用いた2次元スライスからの3次元構造生成における特徴分散 [全文訳有]

Feature Disentanglement in generating three-dimensional structure from two-dimensional slice with sliceGAN ( http://arxiv.org/abs/2105.00194v1 )

ライセンス: CC BY 4.0
Hyungjin Chung and Jong Chul Ye(参考訳) 深い生成モデルは任意の確率分布をモデル化できることが知られている。 これらのうち、最近の深層生成モデルであるslicganは、2次元(2d)スライスの微細構造特性を捉えるためにgan(generative adversarial network)を使い、同様の性質を持つ3次元ボリュームを生成する新しい方法を提案した。 3Dマイクログラフは様々な物質の挙動をシミュレートするのに大いに有用であるが、しばしば2D画像よりも入手が困難である。 そこで,スライスGANは2次元スライスから代表分布を学習し,学習知識を移譲して任意の3次元ボリュームを生成することにより,多くの興味深い研究方向を開く。 しかし、スライスGANの1つの制限は、潜在空間ステアリングが不可能であることである。 したがって、SliceGANとAdaINを組み合わせることで、モデルに特徴を絡めて合成を制御することができる。

Deep generative models are known to be able to model arbitrary probability distributions. Among these, a recent deep generative model, dubbed sliceGAN, proposed a new way of using the generative adversarial network (GAN) to capture the micro-structural characteristics of a two-dimensional (2D) slice and generate three-dimensional (3D) volumes with similar properties. While 3D micrographs are largely beneficial in simulating diverse material behavior, they are often much harder to obtain than their 2D counterparts. Hence, sliceGAN opens up many interesting directions of research by learning the representative distribution from 2D slices, and transferring the learned knowledge to generate arbitrary 3D volumes. However, one limitation of sliceGAN is that latent space steering is not possible. Hence, we combine sliceGAN with AdaIN to endow the model with the ability to disentangle the features and control the synthesis.
翻訳日:2021-05-05 09:32:53 公開日:2021-05-01
# (参考訳) 非定常環境における鳥種の音響識別のためのワンショット学習 [全文訳有]

One-shot learning for acoustic identification of bird species in non-stationary environments ( http://arxiv.org/abs/2105.00202v1 )

ライセンス: CC BY 4.0
Michelangelo Acconcjaioco and Stavros Ntalampiras(参考訳) 本稿では,計算バイオ音響領域におけるワンショット学習パラダイムを紹介する。 関連文献の多くは、問題のクラス辞書全体を特徴付けるデータが利用可能であると仮定しているが、生息地の種組成がある程度しか知られていないことは稀である。 したがって、この問題は非定常性に対処できる方法論によって対処する必要がある。 そこで本研究では,クラス辞書の変更を検知し,新しいクラスをオンザフライで組み込むフレームワークを提案する。 我々は,logMel スペクトログラム空間で動作する Siamese Neural Network からなるワンショット学習アーキテクチャを設計する。 本研究は,様々な鳥類の2つのデータセットに関する提案手法を,適度な評価指標を用いて詳細に検討した。 興味深いことに、このような学習スキームは、極端な非定常ケースを考慮して、アートパフォーマンスの状態を示す。

This work introduces the one-shot learning paradigm in the computational bioacoustics domain. Even though, most of the related literature assumes availability of data characterizing the entire class dictionary of the problem at hand, that is rarely true as a habitat's species composition is only known up to a certain extent. Thus, the problem needs to be addressed by methodologies able to cope with non-stationarity. To this end, we propose a framework able to detect changes in the class dictionary and incorporate new classes on the fly. We design an one-shot learning architecture composed of a Siamese Neural Network operating in the logMel spectrogram space. We extensively examine the proposed approach on two datasets of various bird species using suitable figures of merit. Interestingly, such a learning scheme exhibits state of the art performance, while taking into account extreme non-stationarity cases.
翻訳日:2021-05-05 09:28:46 公開日:2021-05-01
# (参考訳) DNNモデルの逆例検出:一考察 [全文訳有]

Adversarial Example Detection for DNN Models: A Review ( http://arxiv.org/abs/2105.00203v1 )

ライセンス: CC BY 4.0
Ahmed Aldahdooh, Wassim Hamidouche, Sid Ahmed Fezza, Olivier Deforges(参考訳) ディープラーニング(DL)は多くの人間関連のタスクで大きな成功を収めており、セキュリティ監視システム、自動運転車、ヘルスケアなど、多くのコンピュータビジョンベースのアプリケーションで採用されている。 このようなセーフティクリティカルなアプリケーションは、セーフティクリティカルな課題を克服できる能力を持つと、成功への道を開く必要があります。 これらの課題の1つは、敵の例(AE)の検出に対する防御である。 敵は小さく、しばしば知覚できない、摂動と呼ばれるノイズを慎重に作り、きれいな画像に追加してAEを生成する。 AEの目的は、DLアプリケーションに潜在的なリスクをもたらすDLモデルを騙すことである。 文献では,多くのテストタイム回避攻撃や対策,すなわち防御法や検出法が提案されている。 さらに,AE検出方法にはほとんど焦点を絞らず,脅威の分類と対策方法を理論的に示したレビューや調査は少なかった。 本稿では,AE検出法に関する理論的,実験的検討を行う。 このような方法に関する詳細な議論を行い,4つのデータセットの異なるシナリオ下で8つの最先端検出器の実験結果を示す。 この研究の方向性には潜在的な課題と今後の展望も提供します。

Deep Learning (DL) has shown great success in many human-related tasks, which has led to its adoption in many computer vision based applications, such as security surveillance system, autonomous vehicles and healthcare. Such safety-critical applications have to draw its path to success deployment once they have the capability to overcome safety-critical challenges. Among these challenges are the defense against or/and the detection of the adversarial example (AE). Adversary can carefully craft small, often imperceptible, noise called perturbations, to be added to the clean image to generate the AE. The aim of AE is to fool the DL model which makes it a potential risk for DL applications. Many test-time evasion attacks and countermeasures, i.e., defense or detection methods, are proposed in the literature. Moreover, few reviews and surveys were published and theoretically showed the taxonomy of the threats and the countermeasure methods with little focus in AE detection methods. In this paper, we attempt to provide a theoretical and experimental review for AE detection methods. A detailed discussion for such methods is provided and experimental results for eight state-of-the-art detectors are presented under different scenarios on four datasets. We also provide potential challenges and future perspectives for this research direction.
翻訳日:2021-05-05 09:13:16 公開日:2021-05-01
# (参考訳) ネットワークスケジューリングのための勾配に基づく不適切な強化学習 [全文訳有]

Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling ( http://arxiv.org/abs/2105.00210v1 )

ライセンス: CC BY 4.0
Mohammani Zaki, Avi Mohan, Aditya Gopalan, Shie Mannor(参考訳) パケット遅延を最小限に抑えた制約待ち行列ネットワークにおけるスケジューリングの問題を考える。 現代の通信システムはますます複雑化しており、到着率やサービス時間など、様々な特性を持つ複数の種類のトラフィックを扱う必要がある。 これは、高速なネットワーク展開の必要性と相まって、トラフィックを最初に特徴付け、次に適切なスケジューリングプロトコルを設計するボトムアップアプローチを適用します。 これとは対照的に、我々は、未知のネットワークと一連のスケジューリングポリシーが与えられた場合に、利用可能なアトミックポリシーよりも優れた機能を持つスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する、スケジューリングのためのトップダウンアプローチを定式化する。 収束結果を導出し,アルゴリズムの有限時間性能を解析する。 シミュレーションの結果,到着率が非定常であってもアルゴリズムは良好に動作し,構成方針が不安定であっても安定化できることがわかった。

We consider the problem of scheduling in constrained queueing networks with a view to minimizing packet delay. Modern communication systems are becoming increasingly complex, and are required to handle multiple types of traffic with widely varying characteristics such as arrival rates and service times. This, coupled with the need for rapid network deployment, render a bottom up approach of first characterizing the traffic and then devising an appropriate scheduling protocol infeasible. In contrast, we formulate a top down approach to scheduling where, given an unknown network and a set of scheduling policies, we use a policy gradient based reinforcement learning algorithm that produces a scheduler that performs better than the available atomic policies. We derive convergence results and analyze finite time performance of the algorithm. Simulation results show that the algorithm performs well even when the arrival rates are nonstationary and can stabilize the system even when the constituent policies are unstable.
翻訳日:2021-05-05 08:28:35 公開日:2021-05-01
# (参考訳) 潜在空間の部分的知識を持つ自己回帰型隠れマルコフモデルによる航空工学の診断 [全文訳有]

Autoregressive Hidden Markov Models with partial knowledge on latent space applied to aero-engines prognostics ( http://arxiv.org/abs/2105.00211v1 )

ライセンス: CC BY 4.0
Pablo Juesas, Emmanuel Ramasso, S\'ebastien Drujont, Vincent Placet(参考訳) (この論文は、当初は2016年のPHME会議で発表され、国際診断・健康管理ジャーナルに掲載された。) 本稿では,センサのデータに基づく機器の故障検出と予後予測のための自己回帰的部分隠れマルコフモデル(arphmm)について述べる。 これは特定の動的ベイズネットワークであり、隠れマルコフモデル(hmm)と自己回帰的(ar)プロセスによってシステムのダイナミクスを表現することができる。 マルコフ連鎖は、システムが内部状態の間を前後に切り替えていると仮定し、arプロセスはセンサー測定で時間的コヒーレンスを保証する。 最大度に基づく標準ARHMMの音響学習手順は、全てのパラメータを同時に反復的に推定することができる。 本稿では,構造に関する事前知識が部分的に隠れている可能性があることを考慮し,学習手順の修正を提案する。 前者の積分は、収束特性がまだ満たされているという意味での期待最大化アルゴリズムと互換性のある重み付き分布の理論に基づいている。 健康指標に基づいて,このモデルを用いて残りの生活を推定する方法を示す。 自己回帰パラメータは確かに予測に使用できるが、潜在構造は劣化レベルに関する情報を得るのに使うことができる。 CMAPSSデータセット上では, 診断・健康評価のための手法が注目されている。

[This paper was initially published in PHME conference in 2016, selected for further publication in International Journal of Prognostics and Health Management.] This paper describes an Autoregressive Partially-hidden Markov model (ARPHMM) for fault detection and prognostics of equipments based on sensors' data. It is a particular dynamic Bayesian network that allows to represent the dynamics of a system by means of a Hidden Markov Model (HMM) and an autoregressive (AR) process. The Markov chain assumes that the system is switching back and forth between internal states while the AR process ensures a temporal coherence on sensor measurements. A sound learning procedure of standard ARHMM based on maximum likelihood allows to iteratively estimate all parameters simultaneously. This paper suggests a modification of the learning procedure considering that one may have prior knowledge about the structure which becomes partially hidden. The integration of the prior is based on the Theory of Weighted Distributions which is compatible with the Expectation-Maximiza tion algorithm in the sense that the convergence properties are still satisfied. We show how to apply this model to estimate the remaining useful life based on health indicators. The autoregressive parameters can indeed be used for prediction while the latent structure can be used to get information about the degradation level. The interest of the proposed method for prognostics and health assessment is demonstrated on CMAPSS datasets.
翻訳日:2021-05-05 08:22:16 公開日:2021-05-01
# (参考訳) 雑音スケール空間による生成逆ネットワークの安定化 [全文訳有]

Stabilization of generative adversarial networks via noisy scale-space ( http://arxiv.org/abs/2105.00220v1 )

ライセンス: CC BY 4.0
Kensuke Nakamura and Simon Korman and Byung-Woo Hong(参考訳) generative adversarial networks (gan) は、与えられた実数に基づく偽データを生成するフレームワークであるが、最適化では不安定である。 GANを安定させるために、ノイズは実と偽の分布の重なりを、大きなばらつきを犠牲にして拡大する。 データの平滑化はデータの次元性を低下させるが、GANが高周波情報を学ぶ能力を抑制する。 そこで本研究では,gansの周波数変動をランダムなデータに置き換えつつデータ分散を保ちながら,データにノイズの平滑化を再帰的に適用し,gansの粗大から細かなトレーニングを実現する,ノイズスケール空間と呼ばれるgansのデータ表現を提案する。 また,データの真の分布を可視化するアダマールベースを用いた合成データセットも提示する。 我々は,NSS-GANが画像の内容に依存しない場合の最先端の処理を行う主要なデータセットを用いて,ノイズスケール空間(NSS-GAN)を持つDCGANを実験した。

Generative adversarial networks (GAN) is a framework for generating fake data based on given reals but is unstable in the optimization. In order to stabilize GANs, the noise enlarges the overlap of the real and fake distributions at the cost of significant variance. The data smoothing may reduce the dimensionality of data but suppresses the capability of GANs to learn high-frequency information. Based on these observations, we propose a data representation for GANs, called noisy scale-space, that recursively applies the smoothing with noise to data in order to preserve the data variance while replacing high-frequency information by random data, leading to a coarse-to-fine training of GANs. We also present a synthetic data-set using the Hadamard bases that enables us to visualize the true distribution of data. We experiment with a DCGAN with the noise scale-space (NSS-GAN) using major data-sets in which NSS-GAN overtook state-of-the-arts in most cases independent of the image content.
翻訳日:2021-05-05 08:12:12 公開日:2021-05-01
# (参考訳) mrcbert:unsupervised summarizationのための機械読解approach [全文訳有]

MRCBert: A Machine Reading ComprehensionApproac h for Unsupervised Summarization ( http://arxiv.org/abs/2105.00239v1 )

ライセンス: CC BY 4.0
Saurabh Jain, Guokai Tang, Lim Sze Chi(参考訳) オンライン購入を行う場合、顧客が製品レビューを注意深く読み、それに基づいて意思決定を行うことが重要になる。 しかし、レビューは長いり、繰り返し含まれたり、時には意思決定に役立たない情報を含むこともある。 本稿では,製品レビューから要約を生成する新しい教師なし手法であるMRCBertを紹介する。 私たちはMachine Reading Comprehensionを活用しています。 mrc: 関連する意見を抽出し、レビューから評価と側面的な要約の両方を生成するアプローチ。 mrcbertを通じて,既存のモデルと転送学習を用いて合理的なパフォーマンスを得ることができ,限られたリソースシナリオや低いリソースシナリオ下での学習に有用であることを示す。 Amazon ReviewsデータセットのElectronicsカテゴリからの製品レビューの結果を実演した。 私たちのアプローチは、トレーニングや微調整のために、製品レビューデータセットなどのドメイン固有のデータセットを必要としないため、教師なしです。 代わりに、SQuAD v1.1データセットを使用して、MRCタスクのためにBERTを微調整しました。 MRCBertはタスク固有のデータセットを必要としないため、他のドメインで簡単に適用および使用することができる。

When making an online purchase, it becomes important for the customer to read the product reviews carefully and make a decision based on that. However, reviews can be lengthy, may contain repeated, or sometimes irrelevant information that does not help in decision making. In this paper, we introduce MRCBert, a novel unsupervised method to generate summaries from product reviews. We leverage Machine Reading Comprehension, i.e. MRC, approach to extract relevant opinions and generate both rating-wise and aspect-wise summaries from reviews. Through MRCBert we show that we can obtain reasonable performance using existing models and transfer learning, which can be useful for learning under limited or low resource scenarios. We demonstrated our results on reviews of a product from the Electronics category in the Amazon Reviews dataset. Our approach is unsupervised as it does not require any domain-specific dataset, such as the product review dataset, for training or fine-tuning. Instead, we have used SQuAD v1.1 dataset only to fine-tune BERT for the MRC task. Since MRCBert does not require a task-specific dataset, it can be easily adapted and used in other domains.
翻訳日:2021-05-05 08:02:35 公開日:2021-05-01
# (参考訳) レギュラファルシ型ルート探索法によるl1-Norm最小化 [全文訳有]

l1-Norm Minimization with Regula Falsi Type Root Finding Methods ( http://arxiv.org/abs/2105.00244v1 )

ライセンス: CC BY 4.0
Metin Vural, Aleksandr Y. Aravkin, and S{\l}awomir Stan'czak(参考訳) スパースレベルセットの定式化により、実践者は確率制約を受ける最小1ノルム解を見つけることができる。 先行技術は、この制約が凸であることを要求する。 そこで本論文では,Regula Falsiルートフィニング技術を用いて,非凸確率に対する効率的なアプローチを開発し,レベルセットの定式化を解く。 regula falsi法は単純でデリバティブフリーで効率的であり、このアプローチはレベルセット法を非凸逆問題のより広いクラスに拡張できる。 実演は、非凸アプローチであるl1正規化学生のt反転を用いて示される。

Sparse level-set formulations allow practitioners to find the minimum 1-norm solution subject to likelihood constraints. Prior art requires this constraint to be convex. In this letter, we develop an efficient approach for nonconvex likelihoods, using Regula Falsi root-finding techniques to solve the level-set formulation. Regula Falsi methods are simple, derivative-free, and efficient, and the approach provably extends level-set methods to the broader class of nonconvex inverse problems. Practical performance is illustrated using l1-regularized Student's t inversion, which is a nonconvex approach used to develop outlier-robust formulations.
翻訳日:2021-05-05 07:48:39 公開日:2021-05-01
# (参考訳) オンラインおよび適応型パーキングアベイラビリティマッピング:コネクテッドカーにおける不確実性認識型アクティブセンシングアプローチ [全文訳有]

Online and Adaptive Parking Availability Mapping: An Uncertainty-Aware Active Sensing Approach for Connected Vehicles ( http://arxiv.org/abs/2105.00246v1 )

ライセンス: CC0 1.0
Luca Varotto, Angelo Cenedese(参考訳) コネクテッドカーの研究は、モノのインターネット(IoT)パラダイムと近年のインテリジェントトランスポートシステムの進歩によって育まれている、継続的な進化する技術領域を表している。 現在、車両は大量のデータに基づいて生成、受信、自動動作が可能なプラットフォームである。 運転支援の分野では、コネクテッドカー技術は周囲の交通状況に関するリアルタイム情報を提供する。 このような情報は、例えば、現在の駐車状況に応じて意思決定戦略を採用することにより、運転者の生活の質を向上させることが期待されている。 そこで本稿では,駐車状況の地図作成のためのオンラインかつ適応的な手法を提案する。 具体的には,入力データを選択するための情報探索型アクティブセンシング手法を採用し,車載ストレージと処理リソースを保存した上で,ガウス過程回帰による駐車可能量の推定を行った。 提案したアルゴリズムといくつかのベースラインを比較し, マッピング収束速度と適応能力の点で性能が劣るが, さらに, 提案手法は計算要求の少ないコストで実現可能である。

Research on connected vehicles represents a continuously evolving technological domain, fostered by the emerging Internet of Things (IoT) paradigm and the recent advances in intelligent transportation systems. Nowadays, vehicles are platforms capable of generating, receiving and automatically act based on large amount of data. In the context of assisted driving, connected vehicle technology provides real-time information about the surrounding traffic conditions. Such information is expected to improve drivers' quality of life, for example, by adopting decision making strategies according to the current parking availability status. In this context, we propose an online and adaptive scheme for parking availability mapping. Specifically, we adopt an information-seeking active sensing approach to select the incoming data, thus preserving the onboard storage and processing resources; then, we estimate the parking availability through Gaussian Process Regression. We compare the proposed algorithm with several baselines, which attain inferior performance in terms of mapping convergence speed and adaptivity capabilities; moreover, the proposed approach comes at the cost of a very small computational demand.
翻訳日:2021-05-05 07:39:13 公開日:2021-05-01
# (参考訳) ディープマトリックス係数化とグローバルグラフ再構成によるマルチビュークラスタリング [全文訳有]

Multi-view Clustering with Deep Matrix Factorization and Global Graph Refinement ( http://arxiv.org/abs/2105.00248v1 )

ライセンス: CC BY 4.0
Chen Zhang, Siwei Wang, Wenxuan Tu, Pei Zhang, Xinwang Liu, Changwang Zhang, Bo Yuan(参考訳) マルチビュークラスタリングは、マシンラーニングとデータマイニングコミュニティにおいて、重要ながら難しい課題である。 マルチビュークラスタリングの一般的な戦略は、低次元空間における有用な特徴表現を探索し、従って次元の呪いを軽減する行列分解である。 しかし、既存の研究には2つの大きな欠点がある: i) ほとんどの行列分解法は影の深さに制限されているため、元のデータの豊富な隠れ情報を完全に発見できない。 深い行列因数分解法は、異なる層の新しい表現の次元の選択の基礎となるものはほとんどない。 二 現状のアプローチの大半は、ビュー共有情報のみに集中し、異なるビューにおける特定のローカル特徴を無視している。 そこで本稿では,Deep semi-NMF と Global Graph Refinement (MVC-DMF-GGR) を用いた新しいマルチビュークラスタリング手法を提案する。 まず、階層的な分解によって各ビューの新しい表現行列をキャプチャし、これらの新しい表現から再構成されたグラフの組み合わせを近似して共通のグラフを学習し、新しい表現を改良する。 そこで, この最適化問題を解くために, コンバージェンスを証明した代替アルゴリズムを開発し, 提案アルゴリズムの有効性と優位性を6つのマルチビューベンチマークで示す。

Multi-view clustering is an important yet challenging task in machine learning and data mining community. One popular strategy for multi-view clustering is matrix factorization which could explore useful feature representations at lower-dimensional space and therefore alleviate dimension curse. However, there are two major drawbacks in the existing work: i) most matrix factorization methods are limited to shadow depth, which leads to the inability to fully discover the rich hidden information of original data. Few deep matrix factorization methods provide a basis for the selection of the new representation's dimensions of different layers. ii) the majority of current approaches only concentrate on the view-shared information and ignore the specific local features in different views. To tackle the above issues, we propose a novel Multi-View Clustering method with Deep semi-NMF and Global Graph Refinement (MVC-DMF-GGR) in this paper. Firstly, we capture new representation matrices for each view by hierarchical decomposition, then learn a common graph by approximating a combination of graphs which are reconstructed from these new representations to refine the new representations in return. An alternate algorithm with proved convergence is then developed to solve the optimization problem and the results on six multi-view benchmarks demonstrate the effectiveness and superiority of our proposed algorithm.
翻訳日:2021-05-05 07:23:46 公開日:2021-05-01
# (参考訳) DNNによる顔認証に対するユニバーサル偽装攻撃のためのマスターキーバックドア [全文訳有]

A Master Key Backdoor for Universal Impersonation Attack against DNN-based Face Verification ( http://arxiv.org/abs/2105.00249v1 )

ライセンス: CC BY 4.0
Wei Guo, Benedetta Tondi and Mauro Barni(参考訳) 本稿では,Deep Neural Networks (DNN) に基づく顔認証システムに対する新たな攻撃を提案する。 攻撃は隠れたバックドアのネットワークへの導入に依存し、テスト時のアクティベーションは、攻撃者が任意のユーザーを偽装できる検証エラーを誘導する。 新たな攻撃はマスターキーバックドア攻撃と呼ばれ、トレーニングフェーズに干渉することで動作し、攻撃者の顔が入力時に常に肯定的な検証回答を出力するようにDNNに指示する。 既存の攻撃に関して、新たなバックドア攻撃は、攻撃者が被害者の身元を事前に知る必要がないため、はるかに柔軟性がある。 このようにして、彼はオープンセットのフレームワークにユニバーサル・インフォメーション・アタックを展開でき、攻撃が着想された時点でまだシステムに登録されていないユーザーでさえも、登録されたユーザーを偽装することができる。 本稿では,シームズ・DNN顔認証システムを対象とした攻撃の実践的実装について述べるとともに,VGGFace2データセットでトレーニングし,LFWおよびYTFデータセットでテストした場合の有効性を示す。 我々の実験によると、マスターキーのバックドア攻撃は、有毒なトレーニングデータの比率が0.01以下であっても高い攻撃成功率を示し、セキュリティクリティカルなアプリケーションにおけるDNNベースの顔認証システムの使用に関する新たなアラームを生じさせる。

We introduce a new attack against face verification systems based on Deep Neural Networks (DNN). The attack relies on the introduction into the network of a hidden backdoor, whose activation at test time induces a verification error allowing the attacker to impersonate any user. The new attack, named Master Key backdoor attack, operates by interfering with the training phase, so to instruct the DNN to always output a positive verification answer when the face of the attacker is presented at its input. With respect to existing attacks, the new backdoor attack offers much more flexibility, since the attacker does not need to know the identity of the victim beforehand. In this way, he can deploy a Universal Impersonation attack in an open-set framework, allowing him to impersonate any enrolled users, even those that were not yet enrolled in the system when the attack was conceived. We present a practical implementation of the attack targeting a Siamese-DNN face verification system, and show its effectiveness when the system is trained on VGGFace2 dataset and tested on LFW and YTF datasets. According to our experiments, the Master Key backdoor attack provides a high attack success rate even when the ratio of poisoned training data is as small as 0.01, thus raising a new alarm regarding the use of DNN-based face verification systems in security-critical applications.
翻訳日:2021-05-05 07:03:47 公開日:2021-05-01
# (参考訳) 状態推定のためのEMアルゴリズムによるトランスフォーマーとLSTMをカルマンフィルタに組み込む [全文訳有]

Incorporating Transformer and LSTM to Kalman Filter with EM algorithm for state estimation ( http://arxiv.org/abs/2105.00250v1 )

ライセンス: CC BY 4.0
Zhuangwei Shi(参考訳) カルマンフィルタはモデルの真のパラメータを必要とし、最適状態推定を再帰的に解く。 予測最大化(EM)アルゴリズムは, EM-KFアルゴリズムであるカルマンフィルタ以前に利用できないモデルのパラメータを推定するために応用される。 EM-KFアルゴリズムの精度を向上させるために,Long-Short Term Memory Network (LSTM), Transformer, EM-KFアルゴリズムをSequence to Sequence(seq2seq)のEncoder-Decoderのフレームワークで組み合わせた状態推定手法を提案する。 線形移動ロボットモデルのシミュレーションにより,新しい手法がより正確であることを示す。 この論文のソースコードはhttps://github.com/z shicode/deep-learnin g-based-state-estima tionで入手できる。

Kalman Filter requires the true parameters of the model and solves optimal state estimation recursively. Expectation Maximization (EM) algorithm is applicable for estimating the parameters of the model that are not available before Kalman filtering, which is EM-KF algorithm. To improve the preciseness of EM-KF algorithm, the author presents a state estimation method by combining the Long-Short Term Memory network (LSTM), Transformer and EM-KF algorithm in the framework of Encoder-Decoder in Sequence to Sequence (seq2seq). Simulation on a linear mobile robot model demonstrates that the new method is more accurate. Source code of this paper is available at https://github.com/z shicode/Deep-Learnin g-Based-State-Estima tion.
翻訳日:2021-05-05 06:47:51 公開日:2021-05-01
# (参考訳) Deep Matrix FactorizationとPartition Alignmentによるマルチビュークラスタリング [全文訳有]

Multi-view Clustering via Deep Matrix Factorization and Partition Alignment ( http://arxiv.org/abs/2105.00277v1 )

ライセンス: CC BY 4.0
Chen Zhang, Siwei Wang, Jiyuan Liu, Sihang Zhou, Pei Zhang, Xinwang Liu, En Zhu, Changwang Zhang(参考訳) マルチビュークラスタリング(MVC)は近年,複数のソース情報を収集するために広く研究されている。 典型的なMVC手法の1つのタイプは、次元の縮小とクラスタリングを効果的に行うための行列分解に基づいている。 しかし、既存のアプローチは以下の考慮でさらに改善することができる: i) 現在の一層行列分解フレームワークは、有用なデータ表現を完全に活用することはできない。 ii)ほとんどのアルゴリズムは共有情報のみに焦点をあてるが、サブ最適解につながるビュー固有の構造は無視する。 三 分割レベル情報は、既存業務において利用されていない。 上記の課題を解決するために,深層行列分解と分割アライメントを用いた新しいマルチビュークラスタリングアルゴリズムを提案する。 具体的には、ディープマトリクス分解により各ビューのパーティション表現を求め、マルチビュー情報を用いた最適なパーティション表現と共同で利用する。 最後に,収束性が証明された最適化問題を解くために交互最適化アルゴリズムを開発した。 6つのベンチマーク・マルチビュー・データセットを用いた総合的な実験結果から,SOTA法に対する提案アルゴリズムの有効性が明らかとなった。

Multi-view clustering (MVC) has been extensively studied to collect multiple source information in recent years. One typical type of MVC methods is based on matrix factorization to effectively perform dimension reduction and clustering. However, the existing approaches can be further improved with following considerations: i) The current one-layer matrix factorization framework cannot fully exploit the useful data representations. ii) Most algorithms only focus on the shared information while ignore the view-specific structure leading to suboptimal solutions. iii) The partition level information has not been utilized in existing work. To solve the above issues, we propose a novel multi-view clustering algorithm via deep matrix decomposition and partition alignment. To be specific, the partition representations of each view are obtained through deep matrix decomposition, and then are jointly utilized with the optimal partition representation for fusing multi-view information. Finally, an alternating optimization algorithm is developed to solve the optimization problem with proven convergence. The comprehensive experimental results conducted on six benchmark multi-view datasets clearly demonstrates the effectiveness of the proposed algorithm against the SOTA methods.
翻訳日:2021-05-05 06:35:47 公開日:2021-05-01
# (参考訳) 機械学習のための検索スペース削減のための機会論的メタ知識の探索 [全文訳有]

Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for Automated Machine Learning ( http://arxiv.org/abs/2105.00282v1 )

ライセンス: CC BY 4.0
Tien-Dung Nguyen, David Jacob Kedziora, Katarzyna Musial, Bogdan Gabrys(参考訳) 機械学習(ML)パイプラインの構成と最適化は、多段階MLモデル、すなわち、探索するために研究されている。 Preprocessor-inclusi veは、有効かつ良好なパフォーマンスを持つ。 これらのプロセスは通常、個々のmlコンポーネントとそのハイパーパラメータだけでなく、これらのコンポーネントを結合する高レベルのパイプライン構造で構成される複雑な構成空間の設計と横断を必要とする。 最適化効率と結果のMLモデル精度は、パイプライン探索空間が不安定で過度に大きい場合にも問題となる。 そこで本研究では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。 データセット。 以前の経験は、ゆるい仮定のもとに、パイプライン評価の実質的かつ非排他的な数から派生した分類/回帰的精度ランキングという形で行われており、このメタ知識は「親和的」と見なされている。 AutoWeka4MCPSパッケージによる多数の実験は、相対的なランドマーク法を通じてデータセット間の類似性を活用することを含み、信頼性の低いように見えるにもかかわらず、機会論的メタ知識がMLの結果を改善することを示している。 しかし、その結果、分類器/回帰器のカリングもそれほど厳しいものではないことが示唆された。 実際には、以前最高のパフォーマーに期待を向けるよりも、推奨予測者の'トップティア'を検索した方がよい。

Machine learning (ML) pipeline composition and optimisation have been studied to seek multi-stage ML models, i.e. preprocessor-inclusi ve, that are both valid and well-performing. These processes typically require the design and traversal of complex configuration spaces consisting of not just individual ML components and their hyperparameters, but also higher-level pipeline structures that link these components together. Optimisation efficiency and resulting ML-model accuracy both suffer if this pipeline search space is unwieldy and excessively large; it becomes an appealing notion to avoid costly evaluations of poorly performing ML components ahead of time. Accordingly, this paper investigates whether, based on previous experience, a pool of available classifiers/regresso rs can be preemptively culled ahead of initiating a pipeline composition/optimisa tion process for a new ML problem, i.e. dataset. The previous experience comes in the form of classifier/regressor accuracy rankings derived, with loose assumptions, from a substantial but non-exhaustive number of pipeline evaluations; this meta-knowledge is considered 'opportunistic'. Numerous experiments with the AutoWeka4MCPS package, including ones leveraging similarities between datasets via the relative landmarking method, show that, despite its seeming unreliability, opportunistic meta-knowledge can improve ML outcomes. However, results also indicate that the culling of classifiers/regresso rs should not be too severe either. In effect, it is better to search through a 'top tier' of recommended predictors than to pin hopes onto one previously supreme performer.
翻訳日:2021-05-05 06:22:33 公開日:2021-05-01
# (参考訳) 深層畳み込みニューラルネットワークを用いた分類のための非漸近的過剰リスク境界

Non-asymptotic Excess Risk Bounds for Classification with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2105.00292v1 )

ライセンス: CC BY 4.0
Guohao Shen, Yuling Jiao, Yuanyuan Lin and Jian Huang(参考訳) 本稿では,完全接続型ニューラルネットワークと完全畳み込み型ニューラルネットワークを含む,汎用的な深層畳み込みニューラルネットワークのクラスによるバイナリ分類の問題について考察する。 非漸近的過剰リスク境界を凸代理損失のクラスと、連続性の異なる目標関数に対して確立する。 結果の重要な特徴は、入力データ次元や他のモデルパラメータの観点からリスク境界のプレファクタを明確に定義し、それらが重要なモデルの次元に多項式に依存することを示すことである。 また,cnnを用いた分類手法は,入力データが近似低次元多様体上で支持されている場合,次元の呪いを回避できることを示した。 これらの結果を確立するために,各畳み込み層にバイアス項を有する一般畳み込みニューラルネットワークのクラス被覆数の上界を導出し,任意の一様連続的対象関数に対するcnnの近似力に関する新たな結果を得る。 これらの結果は、独立した関心を持ち、他の応用がある一般畳み込みニューラルネットワークの複雑さと近似力に関するさらなる洞察を与える。 最後に,cnnを用いた損失関数の異なる4つの手法について,非漸近的過大なリスク境界を,最小二乗法,ロジスティック法,指数関数法,svmヒンジ損失などを用いて解析する。

In this paper, we consider the problem of binary classification with a class of general deep convolutional neural networks, which includes fully-connected neural networks and fully convolutional neural networks as special cases. We establish non-asymptotic excess risk bounds for a class of convex surrogate losses and target functions with different modulus of continuity. An important feature of our results is that we clearly define the prefactors of the risk bounds in terms of the input data dimension and other model parameters and show that they depend polynomially on the dimensionality in some important models. We also show that the classification methods with CNNs can circumvent the curse of dimensionality if the input data is supported on an approximate low-dimensional manifold. To establish these results, we derive an upper bound for the covering number for the class of general convolutional neural networks with a bias term in each convolutional layer, and derive new results on the approximation power of CNNs for any uniformly-continuous target functions. These results provide further insights into the complexity and the approximation power of general convolutional neural networks, which are of independent interest and may have other applications. Finally, we apply our general results to analyze the non-asymptotic excess risk bounds for four widely used methods with different loss functions using CNNs, including the least squares, the logistic, the exponential and the SVM hinge losses.
翻訳日:2021-05-05 06:08:31 公開日:2021-05-01
# (参考訳) 予測:ペルシア語逆辞書 [全文訳有]

PREDICT: Persian Reverse Dictionary ( http://arxiv.org/abs/2105.00309v1 )

ライセンス: CC BY 4.0
Arman Malekzadeh and Amin Gheibi and Ali Mohades(参考訳) 概念(すなわち語彙アクセス)を伝える適切な単語を見つけることは効果的なコミュニケーションには不可欠である。 逆辞書は、個人が特定の概念や考えに関係のある単語を見つけるのを助けることで、このニーズを満たす。 私たちの知る限りでは、この資源はペルシア語では利用できない。 本稿ではペルシャ語逆辞書(PREDICT)を実装するための4つの異なるアーキテクチャを比較する。 我々は,オンラインで利用可能な唯一のペルシア語辞書であるアンダー語,モエイン語,デフホダ語から抽出した(フレーズ,ワード)タプルを用いてモデルを評価する。 このフレーズが与えられた場合、モデルは概念を伝える能力において最も関連性の高い単語を示唆する。 このモデルは、正しい単語がその最上位の提案の1つである場合、うまく機能すると考えられている。 実験の結果,加法的アテンション機構によって拡張された長短記憶(LSTM)ユニットからなるモデルでは,元の辞書の単語に匹敵する(場合によってはより優れている)提案が得られた。 また,このモデルでは,単語の同義語を出力として生成する場合があり,この結果から,単語の生成や同義語の発生の回数について,Synonym Accuracyと呼ばれる逆辞書の評価のための新しい指標を導入することができた。 この新しい指標を用いた最良のモデルの評価は、少なくとも62%の確率で、上位100の提案の中で正確な結果が得られることを示している。

Finding the appropriate words to convey concepts (i.e., lexical access) is essential for effective communication. Reverse dictionaries fulfill this need by helping individuals to find the word(s) which could relate to a specific concept or idea. To the best of our knowledge, this resource has not been available for the Persian language. In this paper, we compare four different architectures for implementing a Persian reverse dictionary (PREDICT). We evaluate our models using (phrase,word) tuples extracted from the only Persian dictionaries available online, namely Amid, Moein, and Dehkhoda where the phrase describes the word. Given the phrase, a model suggests the most relevant word(s) in terms of the ability to convey the concept. The model is considered to perform well if the correct word is one of its top suggestions. Our experiments show that a model consisting of Long Short-Term Memory (LSTM) units enhanced by an additive attention mechanism is enough to produce suggestions comparable to (or in some cases better than) the word in the original dictionary. The study also reveals that the model sometimes produces the synonyms of the word as its output which led us to introduce a new metric for the evaluation of reverse dictionaries called Synonym Accuracy accounting for the percentage of times the event of producing the word or a synonym of it occurs. The assessment of the best model using this new metric also indicates that at least 62% of the times, it produces an accurate result within the top 100 suggestions.
翻訳日:2021-05-05 06:07:21 公開日:2021-05-01
# (参考訳) オンラインファッションコマース: 顧客が約束する日付をモデル化する [全文訳有]

Online Fashion Commerce: Modelling Customer Promise Date ( http://arxiv.org/abs/2105.00315v1 )

ライセンス: CC BY 4.0
Preethi V, Nachiappan Sundaram, Ravindra Babu Tallamraju(参考訳) 電子商取引の分野では、顧客体験やサプライチェーン運用の最適化において、正確な納期予測が重要な役割を果たす。 実際の納期日より遅れた日を予測すれば、顧客が注文(ロスト販売)をしない場合があり、実際の納期日よりも早い日を約束すると、悪い顧客体験とそれに伴う顧客の混乱につながる。 本稿では,交通の混乱,気象条件,サプライチェーン,物流など,様々な不確実性の下で作業しながら,非従来型損失関数を用いて不正確な予測を異なる方法でペナルティ化する機械学習に基づく手法を提案する。 統計的,深層学習,従来型機械学習のアプローチについて検討し,既存のルールベースモデルよりも優れるアプローチを提案する。 提案モデルはファッションeコマース用に社内に展開され、運用中である。

In the e-commerce space, accurate prediction of delivery dates plays a major role in customer experience as well as in optimizing the supply chain operations. Predicting a date later than the actual delivery date might sometimes result in the customer not placing the order (lost sales) while promising a date earlier than the actual delivery date would lead to a bad customer experience and consequent customer churn. In this paper, we present a machine learning-based approach for penalizing incorrect predictions differently using non-conventional loss functions, while working under various uncertainties involved in making successful deliveries such as traffic disruptions, weather conditions, supply chain, and logistics. We examine statistical, deep learning, and conventional machine learning approaches, and we propose an approach that outperformed the pre-existing rule-based models. The proposed model is deployed internally for Fashion e-Commerce and is operational.
翻訳日:2021-05-05 05:54:58 公開日:2021-05-01
# (参考訳) when to fold'em: 答えられない質問への答え方 [全文訳有]

When to Fold'em: How to answer Unanswerable questions ( http://arxiv.org/abs/2105.00328v1 )

ライセンス: CC BY 4.0
Marshall Ho, Zhipeng Zhou, Judith He(参考訳) squad2.0データセットでトレーニングされた3つの質問応答モデル -- bidaf、documentqa、albert retro-reader -- を紹介し、過去3年間の言語モデルの改善を示す。 質問応答のための微調整事前学習モデルの研究を通じて,SQuAD2.0 F1の2%点改善を達成できる新しいアプローチを開発した。 パラメータ共有言語モデルの選択層を再初期化する手法は単純だが経験的に強力である。

We present 3 different question-answering models trained on the SQuAD2.0 dataset -- BIDAF, DocumentQA and ALBERT Retro-Reader -- demonstrating the improvement of language models in the past three years. Through our research in fine-tuning pre-trained models for question-answering, we developed a novel approach capable of achieving a 2% point improvement in SQuAD2.0 F1 in reduced training time. Our method of re-initializing select layers of a parameter-shared language model is simple yet empirically powerful.
翻訳日:2021-05-05 05:44:48 公開日:2021-05-01
# (参考訳) ラベルノイズを考慮したエンド・ツー・エンドの時系列分類による産業機器の電力出力推定 [全文訳有]

Estimating the electrical power output of industrial devices with end-to-end time-series classification in the presence of label noise ( http://arxiv.org/abs/2105.00349v1 )

ライセンス: CC BY 4.0
Andrea Castellani, Sebastian Schmitt, and Barbara Hammer(参考訳) 複雑な産業環境では、望ましくない状態を検出し、メンテナンススケジュールを調整し、システム性能を最適化したり、個々のマシンの使用統計を収集するために、マシンの動作を監視することが一般的である。 本研究では,中規模企業施設の蓄熱機(chp)の発電出力を,施設全体の電力消費量を解析して推定することに焦点を当てる。 クラスラベルがCHP出力を表す時系列分類問題としてこの問題を定式化する。 施設が完全に測定され,CHPからのセンサ測定が可能となると,CHPセンサの読み取りからトレーニングラベルを自動生成する。 しかし、センサーの故障により、データセットの検出と削除が難しいトレーニングデータサンプルのラベルのずれが発生します。 そこで本研究では,共有組込み表現を用いた分類器とオートエンコーダを共同で学習する,新しいマルチタスクディープラーニング手法を提案する。 提案手法は,ラベルノイズの量を事前に仮定することなく,自己教師方式でトレーニング中の誤ラベルデータサンプルを徐々に修正することを目的としている。 我々は、いくつかの時系列分類データセットにアプローチをベンチマークし、最先端の手法に匹敵する、時には優れた方法を見出した。 実世界のCHP出力予測のユースケースとして,アーキテクチャ設計の選択を徹底的に評価し,最終アーキテクチャが学習プロセスの堅牢性を大幅に向上させ,非構造化および構造化されたラベルノイズの存在下で,最新の最先端アルゴリズムを一貫して上回っていることを示す。

In complex industrial settings, it is common practice to monitor the operation of machines in order to detect undesired states, adjust maintenance schedules, optimize system performance or collect usage statistics of individual machines. In this work, we focus on estimating the power output of a Combined Heat and Power (CHP) machine of a medium-sized company facility by analyzing the total facility power consumption. We formulate the problem as a time-series classification problem where the class label represents the CHP power output. As the facility is fully instrumented and sensor measurements from the CHP are available, we generate the training labels in an automated fashion from the CHP sensor readings. However, sensor failures result in mislabeled training data samples which are hard to detect and remove from the dataset. Therefore, we propose a novel multi-task deep learning approach that jointly trains a classifier and an autoencoder with a shared embedding representation. The proposed approach targets to gradually correct the mislabelled data samples during training in a self-supervised fashion, without any prior assumption on the amount of label noise. We benchmark our approach on several time-series classification datasets and find it to be comparable and sometimes better than state-of-the-art methods. On the real-world use-case of predicting the CHP power output, we thoroughly evaluate the architectural design choices and show that the final architecture considerably increases the robustness of the learning process and consistently beats other recent state-of-the-art algorithms in the presence of unstructured as well as structured label noise.
翻訳日:2021-05-05 05:33:30 公開日:2021-05-01
# (参考訳) RotLSTM: リカレントニューラルネットワークにおける回転記憶 [全文訳有]

RotLSTM: Rotating Memories in Recurrent Neural Networks ( http://arxiv.org/abs/2105.00357v1 )

ライセンス: CC BY-SA 4.0
Vlad Velici, Adam Pr\"ugel-Bennett(参考訳) LSTM(Long Short-Term Memory)ユニットは、入力間の長期的な依存関係を記憶し、時系列データで予測を生成する能力を持つ。 我々は,新しいトレーニング可能な重みの集合によってパラメータ化された回転行列を用いてLSTMのセル状態(メモリ)を変更するという概念を導入する。 この追加により、bAbIデータセットからタスクの一部のパフォーマンスが大幅に向上した。

Long Short-Term Memory (LSTM) units have the ability to memorise and use long-term dependencies between inputs to generate predictions on time series data. We introduce the concept of modifying the cell state (memory) of LSTMs using rotation matrices parametrised by a new set of trainable weights. This addition shows significant increases of performance on some of the tasks from the bAbI dataset.
翻訳日:2021-05-05 05:29:57 公開日:2021-05-01
# ニューラルネットワークの推論を覗く - 構造的視覚概念による解釈-

A Peek Into the Reasoning of Neural Networks: Interpreting with Structural Visual Concepts ( http://arxiv.org/abs/2105.00290v1 )

ライセンス: Link先を確認
Yunhao Ge, Yao Xiao, Zhi Xu, Meng Zheng, Srikrishna Karanam, Terrence Chen, Laurent Itti, Ziyan Wu(参考訳) ニューラルネットワーク(NN)を幅広い分野に適用する大きな進歩にもかかわらず、透明性と解釈可能性の欠如に悩まされている。 最近では、このギャップを埋めようとする説明可能な人工知能(例えば、入力ピクセルと最終的な出力との相関を可視化するなど)が開発されているが、これらのアプローチは低レベルの関係を説明することに限定されており、重要な点として、エラー訂正に関する洞察を与えていない。 本研究では,直感的な構造的視覚概念を用いて分類NNを解釈するフレームワーク(VRX)を提案する。 学習された分類モデルにより、VRXは関連クラス固有の視覚概念を抽出し、ペアの概念関係に基づいた構造概念グラフ(SCG)を用いてそれらを整理する。 知識蒸留により,vrx は nn の推論過程を模倣し,最終的なモデル決定に論理的かつ概念レベルな説明を与えるための一歩を踏み出すことができることを示した。 広範な実験により、VRXは予測に関する「なぜ」および「なぜ」疑問に有意義に答えることができ、推論プロセスについての理解が容易であることを実証的に示します。 また、これらの知見がNNのパフォーマンス向上に関するガイダンスを提供する可能性があることも示しています。

Despite substantial progress in applying neural networks (NN) to a wide variety of areas, they still largely suffer from a lack of transparency and interpretability. While recent developments in explainable artificial intelligence attempt to bridge this gap (e.g., by visualizing the correlation between input pixels and final outputs), these approaches are limited to explaining low-level relationships, and crucially, do not provide insights on error correction. In this work, we propose a framework (VRX) to interpret classification NNs with intuitive structural visual concepts. Given a trained classification model, the proposed VRX extracts relevant class-specific visual concepts and organizes them using structural concept graphs (SCG) based on pairwise concept relationships. By means of knowledge distillation, we show VRX can take a step towards mimicking the reasoning process of NNs and provide logical, concept-level explanations for final model decisions. With extensive experiments, we empirically show VRX can meaningfully answer "why" and "why not" questions about the prediction, providing easy-to-understand insights about the reasoning process. We also show that these insights can potentially provide guidance on improving NN's performance.
翻訳日:2021-05-04 14:22:54 公開日:2021-05-01
# ツインサポートベクターマシンの包括的レビュー

Comprehensive Review On Twin Support Vector Machines ( http://arxiv.org/abs/2105.00336v1 )

ライセンス: Link先を確認
M. Tanveer and T. Rajani and R. Rastogi and Y.H. Shao(参考訳) ツインサポートベクターマシン (TSVM) とツインサポートベクターレグレッション (TSVR) は、それぞれに分類と回帰の課題に対する有望な解決策を提供する新しい効率的な機械学習技術である。 TSVMは、データポイントをそれぞれのクラスに分類する2つの非平行超平面を識別するアイデアに基づいている。 TSVRはTSVMのライン上に定式化され、2つのSVMのような問題を解く必要があるが、サポートベクトルマシン(SVM)では1つの大きなQPPを解く代わりに2つの小さな二次プログラミング問題(QPP)を解く必要がある。 これらの技術については研究が進んでいるが、TSVRの異なる変種の比較に関する文献は限られている。 そこで本研究では,TSVM と TSVR の最近の研究成果を厳密に分析し,その限界と優位性について述べる。 まず、まずTSVMの基本理論を紹介し、次にTSVMの様々な改善と応用に焦点を当て、次にTSVRとその様々な拡張を紹介します。 最後に,今後の研究開発の展望を提案する。

Twin support vector machine (TSVM) and twin support vector regression (TSVR) are newly emerging efficient machine learning techniques which offer promising solutions for classification and regression challenges respectively. TSVM is based upon the idea to identify two nonparallel hyperplanes which classify the data points to their respective classes. It requires to solve two small sized quadratic programming problems (QPPs) in lieu of solving single large size QPP in support vector machine (SVM) while TSVR is formulated on the lines of TSVM and requires to solve two SVM kind problems. Although there has been good research progress on these techniques; there is limited literature on the comparison of different variants of TSVR. Thus, this review presents a rigorous analysis of recent research in TSVM and TSVR simultaneously mentioning their limitations and advantages. To begin with we first introduce the basic theory of TSVM and then focus on the various improvements and applications of TSVM, and then we introduce TSVR and its various enhancements. Finally, we suggest future research and development prospects.
翻訳日:2021-05-04 14:21:39 公開日:2021-05-01
# RATT: ラベルなしデータを一般化に活用

RATT: Leveraging Unlabeled Data to Guarantee Generalization ( http://arxiv.org/abs/2105.00303v1 )

ライセンス: Link先を確認
Saurabh Garg, Sivaraman Balakrishnan, J. Zico Kolter, Zachary C. Lipton(参考訳) 一般化を評価するために、機械学習の科学者は通常、(i)一般化ギャップを束縛し、(トレーニング後の)経験的リスクをプラグして真のリスクに縛られるか、または(ii)保持データに実証的に検証する。 しかし、(i) は通常、過パラメータモデルの空白な保証を与える。 さらに、(ii)は、ホールドアウトセットの再利用毎に、トレーニングセットとその保証エローデを縮小する。 本稿では,ラベルなしデータを利用して一般化境界を生成する手法を提案する。 ランダムにラベル付けされた新しい例で(ラベル付き)トレーニングセットを拡大した後、私たちは標準的な方法でトレーニングします。 分類器がクリーンなデータで低いエラーとノイズの多いデータで高いエラーを達成すると、我々の境界は真のリスクに対する厳密な上限を提供する。 我々は, 線形分類器を勾配降下法で訓練することにより, 0-1 のリスク最小化が可能であることを証明した。 提案手法は,ニューラルネットワークがノイズラベルの前に真のラベルに適合するが,直観的な仮定が1つ必要となる早期学習現象のため,ディープラーニングと併用して特に有用である。 実証的には、標準的なコンピュータビジョンとNLPタスクにおいて、我々の限界は実際のパフォーマンスを綿密に追跡する非空の一般化保証を提供する。 この研究は、目に見えないラベル付きデータが利用できない場合でもディープネットの一般化を認証するオプションを提供し、ランダムラベルノイズと一般化の関係に関する理論的洞察を提供する。

To assess generalization, machine learning scientists typically either (i) bound the generalization gap and then (after training) plug in the empirical risk to obtain a bound on the true risk; or (ii) validate empirically on holdout data. However, (i) typically yields vacuous guarantees for overparameterized models. Furthermore, (ii) shrinks the training set and its guarantee erodes with each re-use of the holdout set. In this paper, we introduce a method that leverages unlabeled data to produce generalization bounds. After augmenting our (labeled) training set with randomly labeled fresh examples, we train in the standard fashion. Whenever classifiers achieve low error on clean data and high error on noisy data, our bound provides a tight upper bound on the true risk. We prove that our bound is valid for 0-1 empirical risk minimization and with linear classifiers trained by gradient descent. Our approach is especially useful in conjunction with deep learning due to the early learning phenomenon whereby networks fit true labels before noisy labels but requires one intuitive assumption. Empirically, on canonical computer vision and NLP tasks, our bound provides non-vacuous generalization guarantees that track actual performance closely. This work provides practitioners with an option for certifying the generalization of deep nets even when unseen labeled data is unavailable and provides theoretical insights into the relationship between random label noise and generalization.
翻訳日:2021-05-04 14:19:50 公開日:2021-05-01
# 深層学習による物理法則のデータの探索

Data-driven discovery of physical laws with human-understandable deep learning ( http://arxiv.org/abs/2105.00266v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Christopher J. Earls, Alex Townsend(参考訳) 深層学習は、その発見を人間の解釈可能な方法で明らかにすることで、科学とテクノロジーに革命をもたらす機会がある。 我々は、科学的発見を加速するための人間と機械のパートナーシップを作るための、新しいデータ駆動アプローチを開発した。 物理系の応答を収集し、慎重に選択された励起の下で有理ニューラルネットワークを訓練し、隠れた偏微分方程式のグリーン関数を学習する。 これらの解は、線形保存則や対称性といった人間の理解可能な性質や特徴、衝撃や特異点の位置、境界効果、支配的モードなどを明らかにする。 この手法をいくつかの例で説明し, 蓋駆動キャビティ内の対流拡散, 粘性衝撃, ストークス流れなど, 様々な物理現象を捉える。

There is an opportunity for deep learning to revolutionize science and technology by revealing its findings in a human interpretable manner. We develop a novel data-driven approach for creating a human-machine partnership to accelerate scientific discovery. By collecting physical system responses, under carefully selected excitations, we train rational neural networks to learn Green's functions of hidden partial differential equation. These solutions reveal human-understandable properties and features, such as linear conservation laws, and symmetries, along with shock and singularity locations, boundary effects, and dominant modes. We illustrate this technique on several examples and capture a range of physics, including advection-diffusion, viscous shocks, and Stokes flow in a lid-driven cavity.
翻訳日:2021-05-04 14:17:35 公開日:2021-05-01
# neko: ニューロモルフィックな学習ルールを探求するライブラリ

Neko: a Library for Exploring Neuromorphic Learning Rules ( http://arxiv.org/abs/2105.00324v1 )

ライセンス: Link先を確認
Zixuan Zhao, Nathan Wycoff, Neil Getty, Rick Stevens, Fangfang Xia(参考訳) ニューロモルフィックコンピューティングの分野は、活発な探索の段階にある。 神経力学をシミュレートしたり、深層ネットワークをスパイクモデルに変換するために多くのツールが開発されているが、学習ルールのための一般的なソフトウェアライブラリはまだ未熟である。 これは、符号化方法から勾配近似まで、ベイズ脳を模倣する集団アプローチから、memristorクロスバー上に展開される制約付き学習アルゴリズムまで、新しい学習ルールを設計するための多様で挑戦的な努力が原因である。 このギャップに対処するために,新しい学習アルゴリズムの設計を支援するモジュール形式の拡張可能なライブラリであるNekoを紹介した。 オンラインローカルラーニング,確率学習,アナログオンデバイスラーニングの3つの例において,nekoの有用性を実証した。 その結果、nekoは最先端のアルゴリズムを再現でき、あるケースでは精度と速度が大幅に低下することがわかった。 さらに、新しいアルゴリズムの変種を開発するのに役立つ勾配比較を含むツールも提供する。 NekoはオープンソースのPythonライブラリで、PyTorchとTensorFlowバックエンドをサポートする。

The field of neuromorphic computing is in a period of active exploration. While many tools have been developed to simulate neuronal dynamics or convert deep networks to spiking models, general software libraries for learning rules remain underexplored. This is partly due to the diverse, challenging nature of efforts to design new learning rules, which range from encoding methods to gradient approximations, from population approaches that mimic the Bayesian brain to constrained learning algorithms deployed on memristor crossbars. To address this gap, we present Neko, a modular, extensible library with a focus on aiding the design of new learning algorithms. We demonstrate the utility of Neko in three exemplar cases: online local learning, probabilistic learning, and analog on-device learning. Our results show that Neko can replicate the state-of-the-art algorithms and, in one case, lead to significant outperformance in accuracy and speed. Further, it offers tools including gradient comparison that can help develop new algorithmic variants. Neko is an open source Python library that supports PyTorch and TensorFlow backends.
翻訳日:2021-05-04 14:17:23 公開日:2021-05-01
# ディープネットワークトレーニングのための確率ブロックadmm

Stochastic Block-ADMM for Training Deep Networks ( http://arxiv.org/abs/2105.00339v1 )

ライセンス: Link先を確認
Saeed Khorram, Xiao Fu, Mohamad H. Danesh, Zhongang Qi, Li Fuxin(参考訳) 本稿では,バッチおよびオンライン設定におけるディープニューラルネットワークのトレーニング手法として,Stochastic Block-ADMMを提案する。 本手法は,ニューラルネットワークを任意のブロックに分割し,確率勾配勾配を最適化しながら,補助変数を用いてこれらのブロックを接続する。 これにより、従来のバックプロパゲーションが適用できない、非微分可能な制約を持つディープネットワークのトレーニングが可能になる。 そこで提案したDeepFactoは非負行列分解(NMF)層をネットワークに挿入する。 バックプロパゲーションは各ブロック内でのみ実行する必要があるため、このアプローチは消滅する勾配を緩和し、並列化のポテンシャルを提供する。 我々は,提案手法の収束を証明し,教師あり・弱教師あり設定実験を通じてその能力の正当化を行う。

In this paper, we propose Stochastic Block-ADMM as an approach to train deep neural networks in batch and online settings. Our method works by splitting neural networks into an arbitrary number of blocks and utilizes auxiliary variables to connect these blocks while optimizing with stochastic gradient descent. This allows training deep networks with non-differentiable constraints where conventional backpropagation is not applicable. An application of this is supervised feature disentangling, where our proposed DeepFacto inserts a non-negative matrix factorization (NMF) layer into the network. Since backpropagation only needs to be performed within each block, our approach alleviates vanishing gradients and provides potentials for parallelization. We prove the convergence of our proposed method and justify its capabilities through experiments in supervised and weakly-supervised settings.
翻訳日:2021-05-04 14:17:04 公開日:2021-05-01
# 次元還元ネットワークにおける確率的相互情報勾配推定

Stochastic Mutual Information Gradient Estimation for Dimensionality Reduction Networks ( http://arxiv.org/abs/2105.00191v1 )

ライセンス: Link先を確認
Ozan Ozdenizci, Deniz Erdogmus(参考訳) 特徴ランク付けと選択は、識別機械学習における教師付き次元減少の様々な応用において広く用いられているアプローチである。 それにもかかわらず、任意の基準に基づく特徴ランク付けと選択アルゴリズムには、クラス分離可能性の最適化ソリューションにつながる可能性のある重要な証拠が存在する。 その上で、エンドツーエンドニューラルネットワークトレーニングアプローチとして、情報理論的特徴変換プロトコルを新たに導入する。 本稿では,相互情報勾配の確率的推定に基づく次元減少ネットワーク(MMINET)のトレーニング手法を提案する。 ネットワークは、特徴の低次元表現が関連するクラスラベルとの最大相互情報を運ぶ出力特徴空間に高次元特徴を投影する。 さらに,非パラメトリックに推定されるトレーニング目標を分布仮定なしで定式化する。 本手法を高次元生物データセットに適用して実験的に評価し,従来の特徴選択アルゴリズムと関連づけて,この手法の特別な場合を定式化する。

Feature ranking and selection is a widely used approach in various applications of supervised dimensionality reduction in discriminative machine learning. Nevertheless there exists significant evidence on feature ranking and selection algorithms based on any criterion leading to potentially sub-optimal solutions for class separability. In that regard, we introduce emerging information theoretic feature transformation protocols as an end-to-end neural network training approach. We present a dimensionality reduction network (MMINet) training procedure based on the stochastic estimate of the mutual information gradient. The network projects high-dimensional features onto an output feature space where lower dimensional representations of features carry maximum mutual information with their associated class labels. Furthermore, we formulate the training objective to be estimated non-parametrically with no distributional assumptions. We experimentally evaluate our method with applications to high-dimensional biological data sets, and relate it to conventional feature selection algorithms to form a special case of our approach.
翻訳日:2021-05-04 14:13:26 公開日:2021-05-01
# ガウス的信念伝播に基づく行列補完

Matrix completion based on Gaussian belief propagation ( http://arxiv.org/abs/2105.00233v1 )

ライセンス: Link先を確認
Koki Okajima and Yoshiyuki Kabashima(参考訳) 行列因子分解に基づく雑音行列補完問題に対するメッセージパッシングアルゴリズムを開発した。 このアルゴリズムは、同一の第1モーメントと第2モーメントを共有するガウス分布と、信念伝達のメッセージ分布を近似して導出する。 また,近似メッセージパッシングの文献によく用いられる摂動処理を適用することにより,提案アルゴリズムのメモリフレンドリーなバージョンを導出する。 また、最適性能に欠かせないダンピング手法を計算負荷なしに導入し、特定の設定において最適であると報告される交互最小二乗のメッセージ通過バージョンとの関係について論じる。 合成データセットの実験により, 提案アルゴリズムは, 先行アルゴリズムが最適となる条件下では, ほぼ同じ性能を示すが, 非ガウス雑音により観測されたデータセットが破損した場合に有利であることがわかった。 実世界のデータセットの実験では、2つのアルゴリズムのパフォーマンスの違いも強調されている。

We develop a message-passing algorithm for noisy matrix completion problems based on matrix factorization. The algorithm is derived by approximating message distributions of belief propagation with Gaussian distributions that share the same first and second moments. We also derive a memory-friendly version of the proposed algorithm by applying a perturbation treatment commonly used in the literature of approximate message passing. In addition, a damping technique, which is demonstrated to be crucial for optimal performance, is introduced without computational strain, and the relationship to the message-passing version of alternating least squares, a method reported to be optimal in certain settings, is discussed. Experiments on synthetic datasets show that while the proposed algorithm quantitatively exhibits almost the same performance under settings where the earlier algorithm is optimal, it is advantageous when the observed datasets are corrupted by non-Gaussian noise. Experiments on real-world datasets also emphasize the performance differences between the two algorithms.
翻訳日:2021-05-04 14:13:14 公開日:2021-05-01
# オーバーパラメトリズド2層ニューラルネットワークにおける1パス確率勾配勾配

One-pass Stochastic Gradient Descent in Overparametrized Two-layer Neural Networks ( http://arxiv.org/abs/2105.00262v1 )

ライセンス: Link先を確認
Jiaming Xu and Hanjing Zhu(参考訳) 過パラメータニューラルネットワークにおける勾配降下(GD)と確率勾配降下(SGD)の収束を理解することへの関心が高まっている。 これまでのほとんどの作業では、トレーニングデータがバッチで事前提供されるが、トレーニングデータがストリームに到着する重要な設定にはあまり注意が払われていない。 本稿では,ストリーミングデータの設定について検討し,過並列化とランダム初期化により,一パスSGD下での2層ニューラルネットワークの予測誤差が期待通りに収束することを示す。 収束速度は、いわゆる神経接核(NTK)に関連する積分作用素の固有分解に依存する。 我々の分析の重要なステップは、VC次元とマクダイアルミドの不等式を用いて、ランダムなカーネル関数が高い確率でNTKに収束することを示すことである。

There has been a recent surge of interest in understanding the convergence of gradient descent (GD) and stochastic gradient descent (SGD) in overparameterized neural networks. Most previous works assume that the training data is provided a priori in a batch, while less attention has been paid to the important setting where the training data arrives in a stream. In this paper, we study the streaming data setup and show that with overparamterization and random initialization, the prediction error of two-layer neural networks under one-pass SGD converges in expectation. The convergence rate depends on the eigen-decomposition of the integral operator associated with the so-called neural tangent kernel (NTK). A key step of our analysis is to show a random kernel function converges to the NTK with high probability using the VC dimension and McDiarmid's inequality.
翻訳日:2021-05-04 14:12:59 公開日:2021-05-01
# 新型コロナウイルスウイルススパイクタンパク質のトポロジーデータ解析

Topological Data Analysis of COVID-19 Virus Spike Proteins ( http://arxiv.org/abs/2105.00351v1 )

ライセンス: Link先を確認
Moo K. Chung, Hernando Ombao(参考訳) 永続的ホモロジーを含む位相的データ分析は近年大きな発展を遂げている。 しかし, 持続的ホモロジーの特徴が一対一の対応を持たない異種性のため, コヒーレントな統計的推論法を構築することは依然として困難である。 トポロジカル特徴の生死イベントとしての永続的ホモロジーにおけるペアデータ構造は、推論の実行にさらなる複雑さをもたらす。 これらの問題に対処するため,格子路を用いた生死事象の解析を提案する。 提案手法は,コロナウイルスのタンパク質構造のトポロジ的特徴を特徴付けるために実装された。 これは永続ホモロジーにおいてコヒーレントな統計推論手順を構築するための新しい洞察を示す。

Topological data analysis, including persistent homology, has undergone significant development in recent years. However, due to heterogenous nature of persistent homology features that do not have one-to-one correspondence across measurements, it is still difficult to build a coherent statistical inference procedure. The paired data structure in persistent homology as birth and death events of topological features add further complexity to conducting inference. To address these current problems, we propose to analyze the birth and death events using lattice paths. The proposed lattice path method is implemented to characterize the topological features of the protein structures of corona viruses. This demonstrates new insights to building a coherent statistical inference procedure in persistent homology.
翻訳日:2021-05-04 14:12:44 公開日:2021-05-01
# 都市走行におけるシーン理解のためのレーングラフ推定

Lane Graph Estimation for Scene Understanding in Urban Driving ( http://arxiv.org/abs/2105.00195v1 )

ライセンス: Link先を確認
Jannik Z\"urn, Johan Vertens, Wolfram Burgard(参考訳) レーンレベルのシーンアノテーションは、都市部や都市のような複雑な環境での軌道計画のために自動運転車に貴重なデータを提供する。 しかし、車線アノテーションを人間が手動で注釈付けする必要があるため、そのようなデータを取得するのに時間がかかり費用がかかる。 本研究では,鳥眼画像からレーン形状を推定する手法を提案する。 レーンアンカーポイントをグラフノードとし、レーンセグメントをグラフエッジとするグラフ推定問題として、レーン形状とレーン接続推定の問題を定式化する。 人気のあるnuscenesデータセットとそのマップ拡張パックから処理されたマルチモーダルバードズ・アイビューデータに基づくグラフ推定モデルをトレーニングする。 さらに、各レーンセグメントのレーン接続方向を、指向したレーングラフとなる別のモデルで推定する。 lanegraphnetモデルの性能を、難解なnuscenesデータセット上で説明し、広範囲な質的、定量的評価を提供する。 本モデルでは,ほとんどの都市シーンで有望な性能を示すとともに,自動運転のためのhdレーンアノテーションの自動生成への一歩として機能する。

Lane-level scene annotations provide invaluable data in autonomous vehicles for trajectory planning in complex environments such as urban areas and cities. However, obtaining such data is time-consuming and expensive since lane annotations have to be annotated manually by humans and are as such hard to scale to large areas. In this work, we propose a novel approach for lane geometry estimation from bird's-eye-view images. We formulate the problem of lane shape and lane connections estimation as a graph estimation problem where lane anchor points are graph nodes and lane segments are graph edges. We train a graph estimation model on multimodal bird's-eye-view data processed from the popular NuScenes dataset and its map expansion pack. We furthermore estimate the direction of the lane connection for each lane segment with a separate model which results in a directed lane graph. We illustrate the performance of our LaneGraphNet model on the challenging NuScenes dataset and provide extensive qualitative and quantitative evaluation. Our model shows promising performance for most evaluated urban scenes and can serve as a step towards automated generation of HD lane annotations for autonomous driving.
翻訳日:2021-05-04 14:11:38 公開日:2021-05-01
# 拡散強調MRIにおける教師なし深層学習を用いた超解像と動画像の同時除去

Simultaneous super-resolution and motion artifact removal in diffusion-weighted MRI using unsupervised deep learning ( http://arxiv.org/abs/2105.00240v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jaehyun Kim, Jeong Hee Yoon, Jeong Min Lee, and Jong Chul Ye(参考訳) 拡散強調MRIは, 予後不良のため, 日常的に行われているが, スキャンの質は不満足であり, 臨床効果を阻害する可能性がある。 本稿では,この制限を克服するため,完全教師なし品質向上手法を提案し,解像度を向上し,同時に動作アーティファクトを除去する。 このプロセスは、まず、まず、搬送駆動サイクルGANと確率分解ブロックを用いてネットワークをトレーニングし、エイリアシングアーティファクトを除去し、分解性を高めることを学習し、次にブートストラップサブサンプリングとアグリゲーションを利用して、テスト段階でトレーニングされたネットワークを使用して動きアーティファクトを抑圧する。 さらに,推定段階でのブートストラップサブサンプリング比を制御することにより,アーティファクト補正量と分解能のトレードオフを制御できることも示している。 提案手法は, 教師なし学習を用いたmriの文脈において, 超解像と運動アーティファクトの補正を同時に行う最初の方法である。 本手法はシミュレーションによる定量的評価と生体内拡散強調型mrスキャンの両方に応用し,その効率を実証する。 提案手法は,他の種類のMRスキャンにおける様々な品質向上スキームに適用可能であり,また,明らかな拡散係数マップの品質向上にも直接適用可能である。

Diffusion-weighted MRI is nowadays performed routinely due to its prognostic ability, yet the quality of the scans are often unsatisfactory which can subsequently hamper the clinical utility. To overcome the limitations, here we propose a fully unsupervised quality enhancement scheme, which boosts the resolution and removes the motion artifact simultaneously. This process is done by first training the network using optimal transport driven cycleGAN with stochastic degradation block which learns to remove aliasing artifacts and enhance the resolution, then using the trained network in the test stage by utilizing bootstrap subsampling and aggregation for motion artifact suppression. We further show that we can control the trade-off between the amount of artifact correction and resolution by controlling the bootstrap subsampling ratio at the inference stage. To the best of our knowledge, the proposed method is the first to tackle super-resolution and motion artifact correction simultaneously in the context of MRI using unsupervised learning. We demonstrate the efficiency of our method by applying it to both quantitative evaluation using simulation study, and to in vivo diffusion-weighted MR scans, which shows that our method is superior to the current state-of-the-art methods. The proposed method is flexible in that it can be applied to various quality enhancement schemes in other types of MR scans, and also directly to the quality enhancement of apparent diffusion coefficient maps.
翻訳日:2021-05-04 14:11:23 公開日:2021-05-01
# 対向摂動生成のための知覚歪み低減フレームワーク

A Perceptual Distortion Reduction Framework for Adversarial Perturbation Generation ( http://arxiv.org/abs/2105.00278v1 )

ライセンス: Link先を確認
Ruijie Yang, Yunhong Wang and Yuanfang Guo(参考訳) 敵の攻撃方法のほとんどは、攻撃強度が比較的高い場合、目に見えるアーティファクトのような大きな知覚的歪みに苦しむ。 これらの知覚的歪みは、攻撃の成功率にあまり寄与しない部分を含む。 この歪みの一部は、不要な修正と適切な知覚歪み制約の欠如によって引き起こされるものであり、提案フレームワークのターゲットとなっている。 本稿では,2つの視点からこの問題に取り組むための知覚的歪み低減枠組みを提案する。 対象モデルの活性化された領域を正しい予測から間違ったものに転送しようとする活性化領域移動注意マスクを提案することにより、不必要な修正を減らすために摂動付加過程を指導する。 フレームワークのブラックボックス設定において、未知のモデルの活性化領域を予測するためにアンサンブルモデルを採用することに注意。 また,知覚的歪みの制約を提案し,それを敵攻撃の客観的機能に追加し,知覚的歪みと攻撃成功率を共同で最適化する。 大規模実験により,本フレームワークの有効性が検証された。

Most of the adversarial attack methods suffer from large perceptual distortions such as visible artifacts, when the attack strength is relatively high. These perceptual distortions contain a certain portion which contributes less to the attack success rate. This portion of distortions, which is induced by unnecessary modifications and lack of proper perceptual distortion constraint, is the target of the proposed framework. In this paper, we propose a perceptual distortion reduction framework to tackle this problem from two perspectives. We guide the perturbation addition process to reduce unnecessary modifications by proposing an activated region transfer attention mask, which intends to transfer the activated regions of the target model from the correct prediction to incorrect ones. Note that an ensemble model is adopted to predict the activated regions of the unseen models in the black-box setting of our framework. Besides, we propose a perceptual distortion constraint and add it into the objective function of adversarial attack to jointly optimize the perceptual distortions and attack success rate. Extensive experiments have verified the effectiveness of our framework on several baseline methods.
翻訳日:2021-05-04 14:10:56 公開日:2021-05-01
# マルチチャネル通信システムとしての音声の差別的知覚

It's not what you said, it's how you said it: discriminative perception of speech as a multichannel communication system ( http://arxiv.org/abs/2105.00260v1 )

ライセンス: Link先を確認
Sarenne Wallbridge, Peter Bell, Catherine Lai(参考訳) 情報伝達の複数のチャンネル、つまり、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、人々は非常に効果的に情報を伝達する。 本稿では,これらのチャネル間での情報符号化の理解を深める手段として,音声コミュニケーションの人間の知覚について検討し,「コミュニケーションコンテキストの特徴が聞き手の音声に対する期待にどのような影響を及ぼすか」という問いに焦点をあてる。 そこで本研究では,対話中の真の発話と,同じ語彙内容の他の文脈からサンプリングされた発話とを,聞き手が判別できるのかを,新たな行動課題として検証する。 我々は,知覚とその後の識別能力が,語彙と非語彙の両方にまたがる追加の文脈情報によってどのように影響されるかを特徴付ける。 結果は,非語彙的文脈が情報的であること,このチャネルが語彙的チャネルよりもより健全な情報を提供し,非語彙的チャネルが音声対話において重要であることを明らかにする。

People convey information extremely effectively through spoken interaction using multiple channels of information transmission: the lexical channel of what is said, and the non-lexical channel of how it is said. We propose studying human perception of spoken communication as a means to better understand how information is encoded across these channels, focusing on the question 'What characteristics of communicative context affect listener's expectations of speech?'. To investigate this, we present a novel behavioural task testing whether listeners can discriminate between the true utterance in a dialogue and utterances sampled from other contexts with the same lexical content. We characterize how perception - and subsequent discriminative capability - is affected by different degrees of additional contextual information across both the lexical and non-lexical channel of speech. Results demonstrate that people can effectively discriminate between different prosodic realisations, that non-lexical context is informative, and that this channel provides more salient information than the lexical channel, highlighting the importance of the non-lexical channel in spoken interaction.
翻訳日:2021-05-04 14:08:19 公開日:2021-05-01
# 生涯機械学習のためのディープラーニングフレームワーク

A Deep Learning Framework for Lifelong Machine Learning ( http://arxiv.org/abs/2105.00157v1 )

ライセンス: Link先を確認
Charles X. Ling, Tanner Bohn(参考訳) 人間は人生を通じて様々な概念やスキルを段階的に学びながら、忘れない継続的な学習、知識の前方移動と後方移動、少数の例で新しい概念やタスクを学ぶなど、多くの望ましい特性を示すことができる。 生涯にわたる機械学習、数ショットの学習、これらの特性を捉えようとする移動学習など、機械学習研究のいくつかの行。 しかし、ほとんどの以前のアプローチは、しばしば異なる複雑なメカニズムによって、これらの性質のサブセットしか示さない。 本研究では,これらの特性とアプローチのほぼすべてをサポートする,シンプルだが強力な統合型ディープラーニングフレームワークを提案する。 おもちゃの例の実験は我々の主張を裏付ける。 また、人間学習の多くの特徴(記憶喪失や「人間」など)と我々の枠組みとのつながりも引き合いに出した。 学者として、数百のTPU上で数十億のパラメータを持つディープニューラルネットワークの構築とトレーニングに必要なリソースが欠如していることが多い。 このように、我々のフレームワークはまだ概念的であり、実験結果は確実にSOTAではないものの、この統合された生涯学習フレームワークが大規模な実験への新たな取り組みを促し、人間の学習全般を理解することを願っている。 この論文は2つの短いYouTubeビデオで要約されている: https://youtu.be/gCu UyGETbTU (part 1) と https://youtu.be/Xsa GI01b-1o (part2)。

Humans can learn a variety of concepts and skills incrementally over the course of their lives while exhibiting many desirable properties, such as continual learning without forgetting, forward transfer and backward transfer of knowledge, and learning a new concept or task with only a few examples. Several lines of machine learning research, such as lifelong machine learning, few-shot learning, and transfer learning attempt to capture these properties. However, most previous approaches can only demonstrate subsets of these properties, often by different complex mechanisms. In this work, we propose a simple yet powerful unified deep learning framework that supports almost all of these properties and approaches through one central mechanism. Experiments on toy examples support our claims. We also draw connections between many peculiarities of human learning (such as memory loss and "rain man") and our framework. As academics, we often lack resources required to build and train, deep neural networks with billions of parameters on hundreds of TPUs. Thus, while our framework is still conceptual, and our experiment results are surely not SOTA, we hope that this unified lifelong learning framework inspires new work towards large-scale experiments and understanding human learning in general. This paper is summarized in two short YouTube videos: https://youtu.be/gCu UyGETbTU (part 1) and https://youtu.be/Xsa GI01b-1o (part 2).
翻訳日:2021-05-04 14:07:20 公開日:2021-05-01
# SVT-Net:スパースボクセル変換器を用いた大規模位置認識のための超軽量ネットワーク

SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition using Sparse Voxel Transformers ( http://arxiv.org/abs/2105.00149v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Zhenbo Song, Hongyan Liu, Jun He and Xiaoyong Du(参考訳) ポイントクラウドベースの大規模位置認識は、同時ローカライゼーションやマッピング(SLAM)など、多くのアプリケーションに欠かせない。 従来の手法は短距離の局所特徴を学習することで良好な性能を得たが、長い範囲の文脈特性は長い間無視されてきた。 そしてモデルのサイズは、さらなる普及のボトルネックになっている。 本稿では,大規模位置認識のための超軽量ネットワークSVTNetを提案する。 本研究では,高効率な3Dスパース変換(SP-Conv),AtomベースのスパースVoxel変換(ASVT),クラスタベースのスパースVoxel変換(CSVT)を用いて,短距離局所特徴と長距離コンテキスト特徴の両方を学習する。 ASVTとCSVTを組み合わせたSVT-Netは,超軽量モデルサイズ(0.9M)の精度と速度の両面で,最先端の性能を実現することができる。 ASVT-NetとCSVT-Netと名付けられたSVT-Netの2つの簡易版も導入された。

Point cloud-based large scale place recognition is fundamental for many applications like Simultaneous Localization and Mapping (SLAM). Though previous methods have achieved good performance by learning short range local features, long range contextual properties have long been neglected. And model size has became a bottleneck for further popularizing. In this paper, we propose model SVTNet, a super light-weight network, for large scale place recognition. In our work, building on top of the highefficiency 3D Sparse Convolution (SP-Conv), an Atom-based Sparse Voxel Transformer (ASVT) and a Cluster-based Sparse Voxel Transformer (CSVT) are proposed to learn both short range local features and long range contextual features. Consisting of ASVT and CSVT, our SVT-Net can achieve state-of-art performance in terms of both accuracy and speed with a super-light model size (0.9M). Two simplified version of SVT-Net named ASVT-Net and CSVT-Net are also introduced, which also achieve state-of-art performances while further reduce the model size to 0.8M and 0.4M respectively.
翻訳日:2021-05-04 14:05:29 公開日:2021-05-01
# ビジュアルトラッキングにおける相関フィルタと畳み込みフィルタの等価性

Equivalence of Correlation Filter and Convolution Filter in Visual Tracking ( http://arxiv.org/abs/2105.00158v1 )

ライセンス: Link先を確認
Shuiwang Li, Qijun Zhao, Ziliang Feng, Li Lu(参考訳) (判別)相関フィルタは視覚追跡にうまく適用され、近年はこの分野を著しく進歩させている。 相関フィルタベースのトラッカーは、ビジュアルトラッキングを、相関フィルタが類似度を計算する手段を提供する検出サンプルのオブジェクトと候補領域の特徴テンプレートをマッチングする問題として捉えている。 対照的に畳み込みフィルタは通常、画像処理においてぼやけ、シャープ化、エンボス、エッジ検出などに使用される。 表面では、相関フィルタと畳み込みフィルタは、通常異なる目的のために使用される。 しかし本稿では, 相関フィルタと畳み込みフィルタが, 最適解が存在し, 理想フィルタ応答がガウス的かつ遠心対称である条件下で, 視覚追跡における最小平均二乗誤差 (mmses) が等しくなるという意味で, 初めて等価であることを示す。 この結果、研究者はトラッカーを定式化する際に相関や畳み込みを自由に選択できる。 また、類似性の観点からの理想的な反応の説明は必須ではないことを示唆する。

(Discriminative) Correlation Filter has been successfully applied to visual tracking and has advanced the field significantly in recent years. Correlation filter-based trackers consider visual tracking as a problem of matching the feature template of the object and candidate regions in the detection sample, in which correlation filter provides the means to calculate the similarities. In contrast, convolution filter is usually used for blurring, sharpening, embossing, edge detection, etc in image processing. On the surface, correlation filter and convolution filter are usually used for different purposes. In this paper, however, we proves, for the first time, that correlation filter and convolution filter are equivalent in the sense that their minimum mean-square errors (MMSEs) in visual tracking are equal, under the condition that the optimal solutions exist and the ideal filter response is Gaussian and centrosymmetric. This result gives researchers the freedom to choose correlation or convolution in formulating their trackers. It also suggests that the explanation of the ideal response in terms of similarities is not essential.
翻訳日:2021-05-04 14:05:06 公開日:2021-05-01
# 低解像度画像の細粒度分類の精度向上

Enhancing Fine-Grained Classification for Low Resolution Images ( http://arxiv.org/abs/2105.00241v1 )

ライセンス: Link先を確認
Maneet Singh, Shruti Nagpal, Mayank Vatsa, Richa Singh(参考訳) 低解像度のきめ細かい分類は、監視やモバイル写真などの遠隔地でデータをキャプチャするアプリケーションに適用可能である。 高解像度画像による細粒度分類は注目されているが,低解像度画像には限定的な注意が払われている。 これらの画像は、限定的な情報内容と、サブカテゴリ分類に有用な詳細情報がないという固有の課題に苦しむ。 この結果、視覚的に類似したクラスのサンプル間でクラス間の変動が低くなる。 これらの課題に対処するため,本研究では,アシラリー情報を用いて識別的特徴を識別する新たな属性支援損失を提案する。 提案した損失関数は,属性レベルの分離性を取り入れたモデルで,クラス固有の識別的特徴を学習することができる。 異なるモデルを持つ複数のデータセット上で、32x32から224x224までの4つの解像度で評価が行われる。 異なる実験により,低分解能細粒度分類における属性支援損失の有効性が示された。

Low resolution fine-grained classification has widespread applicability for applications where data is captured at a distance such as surveillance and mobile photography. While fine-grained classification with high resolution images has received significant attention, limited attention has been given to low resolution images. These images suffer from the inherent challenge of limited information content and the absence of fine details useful for sub-category classification. This results in low inter-class variations across samples of visually similar classes. In order to address these challenges, this research proposes a novel attribute-assisted loss, which utilizes ancillary information to learn discriminative features for classification. The proposed loss function enables a model to learn class-specific discriminative features, while incorporating attribute-level separability. Evaluation is performed on multiple datasets with different models, for four resolutions varying from 32x32 to 224x224. Different experiments demonstrate the efficacy of the proposed attributeassisted loss for low resolution fine-grained classification.
翻訳日:2021-05-04 14:04:46 公開日:2021-05-01
# DeepMultiCap:スパースマルチビューカメラを用いた複数文字のパフォーマンスキャプチャ

DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras ( http://arxiv.org/abs/2105.00261v1 )

ライセンス: Link先を確認
Yang Zheng, Ruizhi Shao, Yuxiang Zhang, Tao Yu, Zerong Zheng, Qionghai Dai, Yebin Liu(参考訳) スパースマルチビューカメラを用いた複数対人パフォーマンスキャプチャのための新しい手法であるDeepMultiCapを提案する。 本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。 接近場面における重度の咬合問題に取り組むため,最近提案されている画素整合暗黙関数とパラメトリックモデルを組み合わせて,見えない表面領域の堅牢な再構成を行った。 高忠実度結果が生成される多視点画像から細かな幾何学的詳細を効果的に把握するモジュールを設計する。 映像入力のための空間的注意法に加えて,移動文字再構成のためのノイズや時間的不整合を緩和する新しい時間的融合法を提案する。 定量的評価のために,我々は150の静的シーンからなり,異なる咬合レベルと基底真理の3dモデルからなる,高品質なマルチパーソンデータセットであるmultihumanをコントリビュートする。 実験により,本手法の最先端性能と実写映像データへの十分に一般化が示され,従来よりも大きなマージンで性能が向上した。

We propose DeepMultiCap, a novel method for multi-person performance capture using sparse multi-view cameras. Our method can capture time varying surface details without the need of using pre-scanned template models. To tackle with the serious occlusion challenge for close interacting scenes, we combine a recently proposed pixel-aligned implicit function with parametric model for robust reconstruction of the invisible surface areas. An effective attention-aware module is designed to obtain the fine-grained geometry details from multi-view images, where high-fidelity results can be generated. In addition to the spatial attention method, for video inputs, we further propose a novel temporal fusion method to alleviate the noise and temporal inconsistencies for moving character reconstruction. For quantitative evaluation, we contribute a high quality multi-person dataset, MultiHuman, which consists of 150 static scenes with different levels of occlusions and ground truth 3D human models. Experimental results demonstrate the state-of-the-art performance of our method and the well generalization to real multiview video data, which outperforms the prior works by a large margin.
翻訳日:2021-05-04 14:04:33 公開日:2021-05-01
# キーポイント型モノクロ3次元物体検出のためのLite-FPN

Lite-FPN for Keypoint-based Monocular 3D Object Detection ( http://arxiv.org/abs/2105.00268v1 )

ライセンス: Link先を確認
Lei Yang, Xinyu Zhang, Li Wang, Minghan Zhu, Jun Li(参考訳) 単一の画像による3Dオブジェクト検出は、自動運転にとって必須かつ困難な課題である。 近年,キーポイントを用いたモノクル3次元物体検出が大幅に進歩し,高精度なトレードオフを実現している。 しかし、精度の観点からは、LIDARベースの手法には大きなギャップがある。 効率を犠牲にすることなく性能を向上させるために,Lite-FPNと呼ばれる軽量な特徴ピラミッドネットワークを提案し,キーポイント型検出器のマルチスケール検出能力を向上する。 また、注目損失という新たな回帰損失を導入することにより、分類スコアと位置決め精度の誤調整をさらに軽減する。 提案手法では,信頼度が高いがローカライズ性に乏しい予測が訓練段階でより注目される。 kittiデータセットにおける最先端のキーポイントに基づく検出器による比較実験により,提案手法が精度とフレームレートを両立することを示した。 コードと事前訓練されたモデルはhttps://github.com/y anglei18/Lite-FPN.co mで入手できる。

3D object detection with a single image is an essential and challenging task for autonomous driving. Recently, keypoint-based monocular 3D object detection has made tremendous progress and achieved great speed-accuracy trade-off. However, there still exists a huge gap with LIDAR-based methods in terms of accuracy. To improve their performance without sacrificing efficiency, we propose a sort of lightweight feature pyramid network called Lite-FPN to achieve multi-scale feature fusion in an effective and efficient way, which can boost the multi-scale detection capability of keypoint-based detectors. Besides, the misalignment between the classification score and the localization precision is further relieved by introducing a novel regression loss named attention loss. With the proposed loss, predictions with high confidence but poor localization are treated with more attention during the training phase. Comparative experiments based on several state-of-the-art keypoint-based detectors on the KITTI dataset show that our proposed method achieves significantly higher accuracy and frame rate at the same time. The code and pretrained models will be available at https://github.com/y anglei18/Lite-FPN.
翻訳日:2021-05-04 14:04:15 公開日:2021-05-01
# MARL:病気予測のためのマルチモーダル注意表現学習

MARL: Multimodal Attentional Representation Learning for Disease Prediction ( http://arxiv.org/abs/2105.00310v1 )

ライセンス: Link先を確認
Ali Hamdi, Amr Aboeleneen, Khaled Shaban(参考訳) 既存の学習モデルは、しばしばCTスキャン画像を利用して肺疾患を予測する。 これらのモデルは、肺のセグメンテーションと視覚特徴学習に影響を与える高い不確実性によって構成される。 MARLは、不確実なマルチモーダルデータから有用な特徴を学習する、新しいマルチモーダル注意表現学習モデルアーキテクチャである。 提案モデルでは,肺ct-scan画像と,患者の生物学的記録を経時的に収集し,その観察結果から検討した。 このような豊富なデータは、病気の空間的側面と時間的側面の両方を分析する。 MARLは、CTスキャン画像の不確かさを克服するためにファジィ画像空間分割を用いる。 次に、訓練済みの畳み込みニューラルネットワーク(CNN)を用いて画像から視覚表現ベクトルを学習する。 分類画像から統計的特徴で患者のデータを増強する。 拡張データを表現し,疾患進行の逐次パターンを学習するLong Short-Term Memory(LSTM)ネットワークを開発した。 最後に、CNNとLSTMの両方の特徴ベクトルを注意層に注入し、最高の学習機能に集中する。 MARLは肺疾患の進行と病状分類の回帰について検討した。 MARLはEfficientNetやDenseNetといった最先端のCNNアーキテクチャやベースライン予測モデルよりも優れています。 91%のr^2スコアを達成し、8%から27%の範囲で他のモデルよりも高い。 また、MARLは2進分類では97%と92%の精度を達成している。 MARLは19%から57%の範囲で最先端のCNNモデルの精度を向上させる。 その結果, 時間的特徴と時間的特徴を組み合わせることで, 識別性が向上することが示唆された。

Existing learning models often utilise CT-scan images to predict lung diseases. These models are posed by high uncertainties that affect lung segmentation and visual feature learning. We introduce MARL, a novel Multimodal Attentional Representation Learning model architecture that learns useful features from multimodal data under uncertainty. We feed the proposed model with both the lung CT-scan images and their perspective historical patients' biological records collected over times. Such rich data offers to analyse both spatial and temporal aspects of the disease. MARL employs Fuzzy-based image spatial segmentation to overcome uncertainties in CT-scan images. We then utilise a pre-trained Convolutional Neural Network (CNN) to learn visual representation vectors from images. We augment patients' data with statistical features from the segmented images. We develop a Long Short-Term Memory (LSTM) network to represent the augmented data and learn sequential patterns of disease progressions. Finally, we inject both CNN and LSTM feature vectors to an attention layer to help focus on the best learning features. We evaluated MARL on regression of lung disease progression and status classification. MARL outperforms state-of-the-art CNN architectures, such as EfficientNet and DenseNet, and baseline prediction models. It achieves a 91% R^2 score, which is higher than the other models by a range of 8% to 27%. Also, MARL achieves 97% and 92% accuracy for binary and multi-class classification, respectively. MARL improves the accuracy of state-of-the-art CNN models with a range of 19% to 57%. The results show that combining spatial and sequential temporal features produces better discriminative feature.
翻訳日:2021-05-04 14:04:00 公開日:2021-05-01
# 不規則サンプリングされた時間点雲の深部畳み込み

Deep Convolution for Irregularly Sampled Temporal Point Clouds ( http://arxiv.org/abs/2105.00137v1 )

ライセンス: Link先を確認
Erich Merrill, Stefan Lee, Li Fuxin, Thomas G. Dietterich, Alan Fern(参考訳) 我々は,不規則な試料で表される連続的空間-時間過程のダイナミクスを,空間と時間の両方を通してモデル化する問題を考える。 このようなプロセスは、センサーネットワーク、市民科学、マルチロボットシステムなど多くの分野で発生する。 本稿では,最近の畳み込み型アーキテクチャを静的ポイントクラウドに適用することにより,ボクセル化せずに,この不規則にサンプリングされたデータを直接学習し,予測することができる新しい深層モデルを提案する。 モデルはまた、プロセス内に複数のエンティティの概念を簡単に組み込む。 特に、トレーニングデータやテストタイムデータの分布に関係なく、異なるエンティティに対する任意の時空点に関する予測クエリに柔軟に答えることができる。 我々は,StarCraft IIにおける実世界の気象観測データと大軍間の戦闘について実験を行った。 その結果、様々なクエリタイプに応答するモデルの柔軟性を示し、最先端のベースラインと比較してパフォーマンスと効率が改善された。

We consider the problem of modeling the dynamics of continuous spatial-temporal processes represented by irregular samples through both space and time. Such processes occur in sensor networks, citizen science, multi-robot systems, and many others. We propose a new deep model that is able to directly learn and predict over this irregularly sampled data, without voxelization, by leveraging a recent convolutional architecture for static point clouds. The model also easily incorporates the notion of multiple entities in the process. In particular, the model can flexibly answer prediction queries about arbitrary space-time points for different entities regardless of the distribution of the training or test-time data. We present experiments on real-world weather station data and battles between large armies in StarCraft II. The results demonstrate the model's flexibility in answering a variety of query types and demonstrate improved performance and efficiency compared to state-of-the-art baselines.
翻訳日:2021-05-04 13:57:49 公開日:2021-05-01
# AIを活用した効率的かつ安全な食品供給チェーン

AI-enabled Efficient and Safe Food Supply Chain ( http://arxiv.org/abs/2105.00333v1 )

ライセンス: Link先を確認
Ilianna Kollia and Jack Stevenson and Stefanos Kollias(参考訳) 本稿では,農業からフォークまで,人工知能(ai)によって実現される効率的で安全な食品供給チェーンについて,食品加工分野の新興分野について概観する。 機械と深層学習の最近の進歩は、効率的な食品生産、エネルギー管理、食品ラベル付けに利用されている。 適切なディープニューラルネットワークアーキテクチャは、完全畳み込みネットワーク、長期短期記憶、リカレントニューラルネットワーク、オートエンコーダとアテンション機構、潜在変数抽出とクラスタリング、ドメイン適応など、この目的のために採用され、使用される。 食品サプライチェーン全体での最先端のパフォーマンスを実現するためのai方法論の能力を示す3つの実験的研究が紹介されている。 In particular, these concern: (i) predicting plant growth and tomato yield in greenhouses, thus matching food production to market needs and reducing food waste or food unavailability; (ii) optimizing energy consumption across large networks of food retail refrigeration systems, through optimal selection of systems that can get shut-down and through prediction of the respective food de-freezing times, during peaks of power demand load; (iii) optical recognition and verification of food consumption expiry date in automatic inspection of retail packaged food, thus ensuring safety of food and people's health.

This paper provides a review of an emerging field in the food processing sector, referring to efficient and safe food supply chains, from farm to fork, as enabled by Artificial Intelligence (AI). Recent advances in machine and deep learning are used for effective food production, energy management and food labeling. Appropriate deep neural architectures are adopted and used for this purpose, including Fully Convolutional Networks, Long Short-Term Memories and Recurrent Neural Networks, Auto-Encoders and Attention mechanisms, Latent Variable extraction and clustering, as well as Domain Adaptation. Three experimental studies are presented, illustrating the ability of these AI methodologies to produce state-of-the-art performance in the whole food supply chain. In particular, these concern: (i) predicting plant growth and tomato yield in greenhouses, thus matching food production to market needs and reducing food waste or food unavailability; (ii) optimizing energy consumption across large networks of food retail refrigeration systems, through optimal selection of systems that can get shut-down and through prediction of the respective food de-freezing times, during peaks of power demand load; (iii) optical recognition and verification of food consumption expiry date in automatic inspection of retail packaged food, thus ensuring safety of food and people's health.
翻訳日:2021-05-04 13:57:36 公開日:2021-05-01
# ニューラルビジュアル文法とデュアルエンコーダを用いた生成芸術

Generative Art Using Neural Visual Grammars and Dual Encoders ( http://arxiv.org/abs/2105.00162v1 )

ライセンス: Link先を確認
Chrisantha Fernando, S. M. Ali Eslami, Jean-Baptiste Alayrac, Piotr Mirowski, Dylan Banarse, Simon Osindero(参考訳) 科学的な手法は少なからず存在するが、芸術的手法は芸術家とほぼ同程度である。 芸術的過程は、最も高い開放性を持つ。 アートのプロセスの一部を理解し始めるには、それを部分的に自動化しようとしても役立ちます。 本稿では,ユーザがテキスト文字列を入力し,その文字列に対する創造的応答の中でその文字列を解釈する画像を出力する,生成的アートを生成する新しいアルゴリズムについて述べる。 階層型ニューラルリンデンメイヤーシステムを用いて画像を進化させ、何十億もの画像とそれに関連するインターネットからのテキストに基づいて訓練された画像テキストデュアルエンコーダを用いて、これらの画像を評価する。 それによって、アートプロセスのどの側面がアルゴリズムのタスクとなり、どの要素がアーティストの責任のままなのかを分析することができる。

Whilst there are perhaps only a few scientific methods, there seem to be almost as many artistic methods as there are artists. Artistic processes appear to inhabit the highest order of open-endedness. To begin to understand some of the processes of art making it is helpful to try to automate them even partially. In this paper, a novel algorithm for producing generative art is described which allows a user to input a text string, and which in a creative response to this string, outputs an image which interprets that string. It does so by evolving images using a hierarchical neural Lindenmeyer system, and evaluating these images along the way using an image text dual encoder trained on billions of images and their associated text from the internet. In doing so we have access to and control over an instance of an artistic process, allowing analysis of which aspects of the artistic process become the task of the algorithm, and which elements remain the responsibility of the artist.
翻訳日:2021-05-04 13:55:21 公開日:2021-05-01
# 時間制約された行動を規制する規範の自動監視のための枠組み

A Framework for Automatic Monitoring of Norms that regulate Time Constrained Actions ( http://arxiv.org/abs/2105.00200v1 )

ライセンス: Link先を確認
Nicoletta Fornara, Soheil Roshankish, Marco Colombetti(参考訳) 本稿では,規範のモデルを提案する問題と,その違反や満足度を自動的に計算する枠組みについて述べる。 提案されたT-NORMモデルは、時間間隔で実行すべき、あるいはすべきでないアクションのクラスを規制できる抽象的なノルムを表現するために使用できる。 このモデルを用いて,義務や禁止を定式化し,許可や免除を導入することで禁止する方法を示す。 標準仕様の基本的なビルディングブロックは、適切にネストされたコンポーネントを持つルールで構成されている。 W3C Web Ontology Language(OWL2)を用いて、アクティベーション条件、規制された動作、およびノルムの時間的制約を特定する。 この選択により、アクション間の論理的影響が規範を満たすか違反するかを計算するためにOWL推論を使用することが可能である。 T-NORMモデルのオペレーションセマンティクスは、すべてのノルムとすべての例外をプロダクションルールに翻訳するあいまいな手順を提供することによって指定されます。

This paper addresses the problem of proposing a model of norms and a framework for automatically computing their violation or fulfilment. The proposed T-NORM model can be used to express abstract norms able to regulate classes of actions that should or should not be performed in a temporal interval. We show how the model can be used to formalize obligations and prohibitions and for inhibiting them by introducing permissions and exemptions. The basic building blocks for norm specification consists of rules with suitably nested components. The activation condition, the regulated actions, and the temporal constrains of norms are specified using the W3C Web Ontology Language (OWL 2). Thanks to this choice, it is possible to use OWL reasoning for computing the effects that the logical implication between actions has on norms fulfilment or violation. The operational semantics of the T-NORM model is specified by providing an unambiguous procedure for translating every norm and every exception into production rules.
翻訳日:2021-05-04 13:55:07 公開日:2021-05-01
# 新しい個人によるシグネチャに基づくアブダクションと記述論理の複雑な概念(拡張版)

Signature-Based Abduction with Fresh Individuals and Complex Concepts for Description Logics (Extended Version) ( http://arxiv.org/abs/2105.00274v1 )

ライセンス: Link先を確認
Patrick Koopmann(参考訳) 知識ベースと事実の集合としての観察が与えられた場合、ABoxの誘拐は知識ベースに加えられると、観察を精査するのに十分な仮説を計算することを目的としている。 シグネチャベースのaboxアブダクションでは、仮説は与えられた集合からの名前のみを使用する必要がある。 この種のアブダクションには、診断、kb修復、補足の欠如を説明するといった応用がある。 与えられた観察のための仮説は、与えられたシグネチャから構築された新鮮な個人や/または複雑な概念の使用を認める場合にのみ存在する可能性がある。 本稿では, 様々な記述論理に対して, 新たな個人, 複雑な概念, あるいはその両方を許容する, この形の推論の計算複雑性を考察し, それらが存在する場合の仮説にサイズ境界を与える。

Given a knowledge base and an observation as a set of facts, ABox abduction aims at computing a hypothesis that, when added to the knowledge base, is sufficient to entail the observation. In signature-based ABox abduction, the hypothesis is further required to use only names from a given set. This form of abduction has applications such as diagnosis, KB repair, or explaining missing entailments. It is possible that hypotheses for a given observation only exist if we admit the use of fresh individuals and/or complex concepts built from the given signature, something most approaches for ABox abduction so far do not support or only support with restrictions. In this paper, we investigate the computational complexity of this form of abduction -- allowing either fresh individuals, complex concepts, or both -- for various description logics, and give size bounds on the hypotheses if they exist.
翻訳日:2021-05-04 13:54:50 公開日:2021-05-01
# 量子化による二元化集約ネットワーク:大規模MIMOシステムにおけるCSIフィードバックのための柔軟な深層学習展開

Binarized Aggregated Network with Quantization: Flexible Deep Learning Deployment for CSI Feedback in Massive MIMO System ( http://arxiv.org/abs/2105.00354v1 )

ライセンス: Link先を確認
Zhilin Lu, Xudong Zhang, Hongyi He, Jintao Wang and Jian Song(参考訳) 大規模マルチインプット多重出力(MIMO)は、5Gシステムにおいてより優れたスペクトルとエネルギー効率を達成するための鍵となる技術の一つである。 チャネル状態情報(csi)は、周波数分割二重化(fdd)モードにおいて、ユーザ機器からベースステーションに送信される必要がある。 しかし、大規模なmimoシステムでは、大きなアンテナアレイのため、直接フィードバックのオーバーヘッドは許容できない。 近年,圧縮CSIフィードバックタスクにはディープラーニングが広く採用されており,有効であることが証明されている。 本稿では,ネットワークアグリゲーションとパラメトリック整合線形ユニット(PReLU)のアクティベーションにより,ACRNetと呼ばれる新しいネットワークがフィードバック性能を向上させるように設計されている。 通信システムにおけるフィードバックネットワークの実践的展開についても検討する。 具体的には、異なるリソース制限を満たすために柔軟にネットワークを適応させるために弾性フィードバックスキームを提案する。 さらに、ネットワークバイナライゼーション技術と、軽量で実用的なデプロイメントのための特徴量化を組み合わせる。 実験の結果, acrnetは, 従来の最先端ネットワークの負荷を上回っており, 高性能, 低コスト, 印象的な柔軟性を備えた, きちんとしたフィードバックソリューションを提供する。

Massive multiple-input multiple-output (MIMO) is one of the key techniques to achieve better spectrum and energy efficiency in 5G system. The channel state information (CSI) needs to be fed back from the user equipment to the base station in frequency division duplexing (FDD) mode. However, the overhead of the direct feedback is unacceptable due to the large antenna array in massive MIMO system. Recently, deep learning is widely adopted to the compressed CSI feedback task and proved to be effective. In this paper, a novel network named aggregated channel reconstruction network (ACRNet) is designed to boost the feedback performance with network aggregation and parametric rectified linear unit (PReLU) activation. The practical deployment of the feedback network in the communication system is also considered. Specifically, the elastic feedback scheme is proposed to flexibly adapt the network to meet different resource limitations. Besides, the network binarization technique is combined with the feature quantization for lightweight and practical deployment. Experiments show that the proposed ACRNet outperforms loads of previous state-of-the-art networks, providing a neat feedback solution with high performance, low cost and impressive flexibility.
翻訳日:2021-05-04 13:52:06 公開日:2021-05-01
# すべてを支配する1つの検出器:一般的なディープフェイク攻撃検出フレームワークに向けて

One Detector to Rule Them All: Towards a General Deepfake Attack Detection Framework ( http://arxiv.org/abs/2105.00187v1 )

ライセンス: Link先を確認
Shahroz Tariq, Sangyup Lee and Simon S. Woo(参考訳) 深層学習に基づくビデオ操作手法が大衆に広く普及している。 ほとんど努力せずに、deepfake(df)ビデオを素早く生成する方法を学べる。 特定の種類のdfを識別するためにディープラーニングに基づく検出手法が提案されているが、その性能は実世界のディープフェイクを含む他のタイプのディープフェイク法では十分に訓練されていない。 言い換えれば、深層学習に基づく検出手法のほとんどは、転送可能性と一般化性を欠いている。 ベンチマークディープフェイクデータセットから単一タイプのDFを検出することに加えて、DeepFake-in-the-Wild (DFW)ビデオのような未知の生成方法からのディープフェイクを含む、複数のタイプのDFを検出する一般的なアプローチの開発にも重点を置いている。 未知および未知のディープフェイクに対して,我々は,ユニークなモデルトレーニング戦略を採用し,時間的情報だけでなく空間的情報も探索する畳み込み型lstmベース残差ネットワーク(clrnet)を提案する。 広範な実験を通じて,既存の防御手法が実世界展開の準備ができていないことを示す。 一方、CLRNetは、様々なベンチマークディープフェイク法(平均97.57%)を検出する際に、はるかに優れた一般化を実現する。 さらに,本手法を高品質なDeepFake-in-the-Wild データセットを用いて評価した。 私たちのclrnetモデルは、93.86%の検出精度を達成して、高品質なdfwビデオに対してうまく一般化できることを示しました。

Deep learning-based video manipulation methods have become widely accessible to the masses. With little to no effort, people can quickly learn how to generate deepfake (DF) videos. While deep learning-based detection methods have been proposed to identify specific types of DFs, their performance suffers for other types of deepfake methods, including real-world deepfakes, on which they are not sufficiently trained. In other words, most of the proposed deep learning-based detection methods lack transferability and generalizability. Beyond detecting a single type of DF from benchmark deepfake datasets, we focus on developing a generalized approach to detect multiple types of DFs, including deepfakes from unknown generation methods such as DeepFake-in-the-Wild (DFW) videos. To better cope with unknown and unseen deepfakes, we introduce a Convolutional LSTM-based Residual Network (CLRNet), which adopts a unique model training strategy and explores spatial as well as the temporal information in deepfakes. Through extensive experiments, we show that existing defense methods are not ready for real-world deployment. Whereas our defense method (CLRNet) achieves far better generalization when detecting various benchmark deepfake methods (97.57% on average). Furthermore, we evaluate our approach with a high-quality DeepFake-in-the-Wild dataset, collected from the Internet containing numerous videos and having more than 150,000 frames. Our CLRNet model demonstrated that it generalizes well against high-quality DFW videos by achieving 93.86% detection accuracy, outperforming existing state-of-the-art defense methods by a considerable margin.
翻訳日:2021-05-04 13:51:46 公開日:2021-05-01
# JAS-GAN:非平衡心房ターゲットにおける共振器とスカーセグメンテーション

JAS-GAN: Generative Adversarial Network Based Joint Atrium and Scar Segmentations on Unbalanced Atrial Targets ( http://arxiv.org/abs/2105.00234v1 )

ライセンス: Link先を確認
Jun Chen, Guang Yang, Habib Khan, Heye Zhang, Yanping Zhang, Shu Zhao, Raad Mohiaddin, Tom Wong, David Firmin, Jennifer Keegan(参考訳) 後期gadolinium-enhanced heart magnetic resonance (lge cmr)画像からの左心房(la)と心房の傷の自動的および正確なセグメント化は、心房の傷の定量化に高需要である。 前回の心房の傷の定量化は、大容量の差(非バランスな心房の標的)のため、laと心房の傷に対する2相の区分に依存する。 本稿では,LGE CMR画像から不均衡な心房ターゲットをエンド・ツー・エンドで自動的かつ正確に抽出する,カスケード間対向ネットワーク,すなわち JAS-GAN を提案する。 まず、JAS-GANは適応的な注意カスケードを調査し、不均衡な心房ターゲットのセグメンテーションタスクを自動的に相関させる。 アダプティブ・アテンション・カスケード(adaptive attention cascade)は、主に2つの非平衡心房目標の包含関係をモデル化し、推定されたlaは、概ね小さな心房の傷に適応的に焦点を合わせるアテンションマップとして作用する。 そして、不均衡な心房ターゲットのセグメンテーションタスクに逆正則化を適用し、一貫した最適化を行う。 主に、LAと心房障害の予測された共同分布を実際のものと一致させる。 JAS-GANを3次元LGE CMRデータセットで192スキャンで評価した。 方法と比較すると, 提案手法はより優れたセグメンテーション性能(平均Dice similarity Coefficient (DSC) はLAでは0.946, 0.821, 心房障害では0.821) を示し, 心房目標のセグメンテーションに対する提案手法の有効性を示した。

Automated and accurate segmentations of left atrium (LA) and atrial scars from late gadolinium-enhanced cardiac magnetic resonance (LGE CMR) images are in high demand for quantifying atrial scars. The previous quantification of atrial scars relies on a two-phase segmentation for LA and atrial scars due to their large volume difference (unbalanced atrial targets). In this paper, we propose an inter-cascade generative adversarial network, namely JAS-GAN, to segment the unbalanced atrial targets from LGE CMR images automatically and accurately in an end-to-end way. Firstly, JAS-GAN investigates an adaptive attention cascade to automatically correlate the segmentation tasks of the unbalanced atrial targets. The adaptive attention cascade mainly models the inclusion relationship of the two unbalanced atrial targets, where the estimated LA acts as the attention map to adaptively focus on the small atrial scars roughly. Then, an adversarial regularization is applied to the segmentation tasks of the unbalanced atrial targets for making a consistent optimization. It mainly forces the estimated joint distribution of LA and atrial scars to match the real ones. We evaluated the performance of our JAS-GAN on a 3D LGE CMR dataset with 192 scans. Compared with the state-of-the-art methods, our proposed approach yielded better segmentation performance (Average Dice Similarity Coefficient (DSC) values of 0.946 and 0.821 for LA and atrial scars, respectively), which indicated the effectiveness of our proposed approach for segmenting unbalanced atrial targets.
翻訳日:2021-05-04 13:51:17 公開日:2021-05-01
# COVID-Net CXR-S: 胸部X線画像による重症度評価のための深部畳み込みニューラルネットワーク

COVID-Net CXR-S: Deep Convolutional Neural Network for Severity Assessment of COVID-19 Cases from Chest X-ray Images ( http://arxiv.org/abs/2105.00256v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Maya Pavlova, Mohammad Javad Shafiee, Ali Sabri, Amer Alaref, Alexander Wong(参考訳) 世界は、SARS-CoV-2ウイルスによる新型コロナウイルスの感染拡大を抑えるのに苦戦している。 SARS-CoV-2感染に伴う医療状況は、クリニックや病院で患者の数が急増し、医療資源の大幅な増加につながった。 臨床ワークフローにおけるsars-cov-2感染患者の管理と治療の重要な部分は重症度評価であり、胸部x線(cxr)画像を用いて行うことが多い。 本研究では,SARS-CoV-2陽性患者の胸部CXR画像に基づいて,空気空間の重症度を予測する畳み込みニューラルネットワークであるCOVID-Net CXR-Sを紹介する。 具体的には、16,000以上のcxr画像から得られた表現的知識を、15,000人以上の患者からなる多国籍コホートから、重症度評価のためのカスタムネットワークアーキテクチャに移すために、転送学習を利用した。 北米放射線学会 (RSNA) のRICORDイニシアチブによる多国籍患者のコホートによる実験結果から、提案されたCXR-Sは、CXR画像のコンピュータ支援による重症度評価の強力なツールとなる可能性が示唆された。 さらに,10年以上の経験を持つ2名の放射線科医による放射線科医による放射線検査の結果,重度評価にCOVID-Net CXR-Sが有効であった。 新型コロナウイルス(COVID-Net CXR-S)のオープンソースリリースの最終的な目標は、臨床科学者、機械学習研究者、市民科学者のための触媒として機能し、世界中の臨床医がパンデミックを管理できるようにする革新的な新しい臨床試験支援ソリューションを開発することである。

The world is still struggling in controlling and containing the spread of the COVID-19 pandemic caused by the SARS-CoV-2 virus. The medical conditions associated with SARS-CoV-2 infections have resulted in a surge in the number of patients at clinics and hospitals, leading to a significantly increased strain on healthcare resources. As such, an important part of managing and handling patients with SARS-CoV-2 infections within the clinical workflow is severity assessment, which is often conducted with the use of chest x-ray (CXR) images. In this work, we introduce COVID-Net CXR-S, a convolutional neural network for predicting the airspace severity of a SARS-CoV-2 positive patient based on a CXR image of the patient's chest. More specifically, we leveraged transfer learning to transfer representational knowledge gained from over 16,000 CXR images from a multinational cohort of over 15,000 patient cases into a custom network architecture for severity assessment. Experimental results with a multi-national patient cohort curated by the Radiological Society of North America (RSNA) RICORD initiative showed that the proposed COVID-Net CXR-S has potential to be a powerful tool for computer-aided severity assessment of CXR images of COVID-19 positive patients. Furthermore, radiologist validation on select cases by two board-certified radiologists with over 10 and 19 years of experience, respectively, showed consistency between radiologist interpretation and critical factors leveraged by COVID-Net CXR-S for severity assessment. While not a production-ready solution, the ultimate goal for the open source release of COVID-Net CXR-S is to act as a catalyst for clinical scientists, machine learning researchers, as well as citizen scientists to develop innovative new clinical decision support solutions for helping clinicians around the world manage the continuing pandemic.
翻訳日:2021-05-04 13:50:43 公開日:2021-05-01
# 深い残差とマルチスケールエンコーダ/デコーダネットワークを用いたブラインド顕微鏡像

Blind microscopy image denoising with a deep residual and multiscale encoder/decoder network ( http://arxiv.org/abs/2105.00273v1 )

ライセンス: Link先を確認
Fabio Hern\'an Gil Zuluaga, Francesco Bardozzo, Jorge Iv\'an R\'ios Pati\~no, Roberto Tagliaferri(参考訳) 顕微鏡に焦点を当てたコンピュータ支援診断(cad)では、画像解析の質を向上させる。 一般に、このプロセスの精度は、マイクロスコピストの経験と、機器の感度と特異性の両方に依存する。 医用画像は、装置の制限による内在ノイズと、画像取得時の外因性信号の摂動の両方によって劣化する可能性がある。 近年,CAD深層学習は,学習と予測を強化するために,画像デノゲーションモデルによる画像の事前処理を行っている。 本研究では,革新的で軽量なマルチスケール畳み込みエンコーダ・デコーダニューラルネットワークを提案する。 具体的には、エンコーダは決定論的マッピングを使用して、特徴を隠れた表現にマッピングする。 そして、潜在表現を再構築して、再構成された分別画像を生成する。 残差学習戦略は、畳み込み層と畳み込み層にまたがるブリッジリングにおけるスキップ接続を使用して、トレーニングプロセスを改善および加速するために使用される。 提案モデルはPSNRの38.38、SSIMの0.98に到達し、同じアプリケーション領域における最先端モデルを克服する57458イメージのテストセットである。

In computer-aided diagnosis (CAD) focused on microscopy, denoising improves the quality of image analysis. In general, the accuracy of this process may depend both on the experience of the microscopist and on the equipment sensitivity and specificity. A medical image could be corrupted by both intrinsic noise, due to the device limitations, and, by extrinsic signal perturbations during image acquisition. Nowadays, CAD deep learning applications pre-process images with image denoising models to reinforce learning and prediction. In this work, an innovative and lightweight deep multiscale convolutional encoder-decoder neural network is proposed. Specifically, the encoder uses deterministic mapping to map features into a hidden representation. Then, the latent representation is rebuilt to generate the reconstructed denoised image. Residual learning strategies are used to improve and accelerate the training process using skip connections in bridging across convolutional and deconvolutional layers. The proposed model reaches on average 38.38 of PSNR and 0.98 of SSIM on a test set of 57458 images overcoming state-of-the-art models in the same application domain
翻訳日:2021-05-04 13:50:08 公開日:2021-05-01
# deep spectrum cartography: 学習ニューラルモデルを用いたラジオマップテンソルの完成

Deep Spectrum Cartography: Completing Radio Map Tensors Using Learned Neural Models ( http://arxiv.org/abs/2105.00177v1 )

ライセンス: Link先を確認
Sagar Shrestha, Xiao Fu and Mingyi Hong(参考訳) スペクトル地図法(SC)技術は、限られた測定値から多重領域(周波数、空間、時間)の無線周波数(RF)マップを構築し、不測のテンソル完備問題と見なすことができる。 モデルに基づく地図技術は、しばしば完了作業のために手作りの先行(例えば、疎さ、滑らかさ、低ランク構造)に依存する。 このような先入観は、複雑な無線環境の本質を捉えるには不十分かもしれない。 このような問題を回避するため、無線マップのオフライントレーニングされたディープニューラルネットワークは、データから基盤構造を“学習”できるため、SCでは考慮された。 しかし、このような深層学習(DL)ベースのSCアプローチは、オフラインモデル学習(トレーニング)と完了(一般化)の両方において深刻な課題に直面している。 本研究では,個々のエミッタの電波マップのみをdnnでモデル化するエミッタ電波マップ分離に基づくアプローチを提案する。 このように、学習と一般化の課題はどちらも実質的に緩和できる。 学習したdnnを用いて,高速非負行列分解に基づく2段階sc法と性能向上反復最適化アルゴリズムを提案する。 提案手法を用いて, ラジオテンソルの復元性, サンプル複雑性, ノイズロバスト性などの理論的側面を特徴付けるとともに, DLに基づくラジオテンソル完成の文脈において, 理論的特性が解明されている。 提案手法の有効性を示すために, 室内および濃密なシャドー環境からの合成および実データを用いた実験を行った。

The spectrum cartography (SC) technique constructs multi-domain (e.g., frequency, space, and time) radio frequency (RF) maps from limited measurements, which can be viewed as an ill-posed tensor completion problem. Model-based cartography techniques often rely on handcrafted priors (e.g., sparsity, smoothness and low-rank structures) for the completion task. Such priors may be inadequate to capture the essence of complex wireless environments -- especially when severe shadowing happens. To circumvent such challenges, offline-trained deep neural models of radio maps were considered for SC, as deep neural networks (DNNs) are able to "learn" intricate underlying structures from data. However, such deep learning (DL)-based SC approaches encounter serious challenges in both off-line model learning (training) and completion (generalization), possibly because the latent state space for generating the radio maps is prohibitively large. In this work, an emitter radio map disaggregation-based approach is proposed, under which only individual emitters' radio maps are modeled by DNNs. This way, the learning and generalization challenges can both be substantially alleviated. Using the learned DNNs, a fast nonnegative matrix factorization-based two-stage SC method and a performance-enhanced iterative optimization algorithm are proposed. Theoretical aspects -- such as recoverability of the radio tensor, sample complexity, and noise robustness -- under the proposed framework are characterized, and such theoretical properties have been elusive in the context of DL-based radio tensor completion. Experiments using synthetic and real-data from indoor and heavily shadowed environments are employed to showcase the effectiveness of the proposed methods.
翻訳日:2021-05-04 13:45:51 公開日:2021-05-01
# 量子化ニューラルネットワークの逆ロバスト性について

On the Adversarial Robustness of Quantized Neural Networks ( http://arxiv.org/abs/2105.00227v1 )

ライセンス: Link先を確認
Micah Gorsline, James Smith, Cory Merkel(参考訳) ニューラルネットワークモデルのサイズを減らすことは、AIをクラウド中心からエッジ中心(すなわち、エッジ中心)に移行するための重要なステップである。 オンデバイス) 計算パラダイム。 このクラウドからエッジへの移行は、レイテンシの低減、セキュリティの改善、複数のアプリケーションドメイン(例えば、)にわたるAIアルゴリズムの柔軟性向上など、さまざまな要因によって動機付けられている。 交通、医療、防衛など)。 しかし、モデル圧縮技術がAIアルゴリズムの敵攻撃に対する堅牢性にどのように影響するかは現在不明である。 本稿では,最も一般的な圧縮手法である量子化がニューラルネットワークの対角的堅牢性に与える影響について検討する。 具体的には,逆摂動画像における量子化ニューラルネットワークの精度について検討・モデル化する。 その結果、単純な勾配に基づく攻撃の場合、量子化は攻撃強度に応じて敵の強固さを改善または低下させることができる。

Reducing the size of neural network models is a critical step in moving AI from a cloud-centric to an edge-centric (i.e. on-device) compute paradigm. This shift from cloud to edge is motivated by a number of factors including reduced latency, improved security, and higher flexibility of AI algorithms across several application domains (e.g. transportation, healthcare, defense, etc.). However, it is currently unclear how model compression techniques may affect the robustness of AI algorithms against adversarial attacks. This paper explores the effect of quantization, one of the most common compression techniques, on the adversarial robustness of neural networks. Specifically, we investigate and model the accuracy of quantized neural networks on adversarially-pertur bed images. Results indicate that for simple gradient-based attacks, quantization can either improve or degrade adversarial robustness depending on the attack strength.
翻訳日:2021-05-04 13:45:22 公開日:2021-05-01
# FedProto: 異種デバイスによるフェデレーションプロトタイプ学習

FedProto: Federated Prototype Learning over Heterogeneous Devices ( http://arxiv.org/abs/2105.00243v1 )

ライセンス: Link先を確認
Yue Tan, Guodong Long, Lu Liu, Tianyi Zhou and Jing Jiang(参考訳) デバイス間の不均一性は、通常、デバイス知識の集積が勾配空間で起こる場合、連合学習(fl)の最適化収束と一般化性能を妨げる。 例えば、デバイスはデータ分散、ネットワーク遅延、入出力スペース、および/またはモデルアーキテクチャの点で異なり、ローカルな勾配の誤調整につながる可能性がある。 不均一性に対する耐性を向上させるために,デバイスとサーバが勾配の代わりにクラスプロトタイプを通信する新しいフェデレーション型プロトタイプ学習(FedProto)フレームワークを提案する。 fedprotoは、さまざまなデバイスから収集したローカルプロトタイプを集約し、グローバルプロトタイプをすべてのデバイスに送信して、ローカルモデルのトレーニングを定期化する。 各デバイスでのトレーニングは,各ローカルデータの分類誤差を最小限に抑えつつ,結果のローカルプロトタイプを対応するグローバルデータに十分に近づけることを目的としている。 実験により、FedProtoは複数のデータセットに対する最近のFLアプローチよりも優れており、異種FLに適したベンチマーク設定を提案する。

The heterogeneity across devices usually hinders the optimization convergence and generalization performance of federated learning (FL) when the aggregation of devices' knowledge occurs in the gradient space. For example, devices may differ in terms of data distribution, network latency, input/output space, and/or model architecture, which can easily lead to the misalignment of their local gradients. To improve the tolerance to heterogeneity, we propose a novel federated prototype learning (FedProto) framework in which the devices and server communicate the class prototypes instead of the gradients. FedProto aggregates the local prototypes collected from different devices, and then sends the global prototypes back to all devices to regularize the training of local models. The training on each device aims to minimize the classification error on the local data while keeping the resulting local prototypes sufficiently close to the corresponding global ones. Through experiments, we propose a benchmark setting tailored for heterogeneous FL, with FedProto outperforming several recent FL approaches on multiple datasets.
翻訳日:2021-05-04 13:45:07 公開日:2021-05-01
# 機械学習による小分子凝集と闘う

Combating small molecule aggregation with machine learning ( http://arxiv.org/abs/2105.00267v1 )

ライセンス: Link先を確認
Kuan Lee, Ann Yang, Yen-Chu Lin, Daniel Reker, Goncalo J. L. Bernardes and Tiago Rodrigues(参考訳) 生物学的スクリーンは凝集による偽陽性に苦しめられている。 したがって、小さなコロイド凝集分子(SCAM)をトリアージする方法が要求される。 本稿では,そのようなエンティティに自信と知性を持ってフラグを付ける機械学習ツールを公開する。 我々のデータは、SCAMの予測に機械学習が前例のない有用性を示し、挑戦的なサンプル外検証において正しい予測の80%を達成している。 このツールは、チューリングのようなテストで同じテスト分子の61+/-7%を正しく予測した専門家化学者のパネルを上回った。 さらに計算ルーチンは、専門家の直感に隠れていた凝集を司る分子的特徴に関する洞察を提供した。 このツールを活用することで、利用可能な化学遺伝学データベースにおけるリガンドの最大15~20%が、典型的なスクリーニング濃度で集約する可能性が高いことを定量化し、システム生物学および薬物設計プログラムにおいて注意を喚起する。 我々のアプローチは、人間の直感を増強し、誘因を緩和し、将来の分子医学を加速する手段を提供する。

Biological screens are plagued by false positive hits resulting from aggregation. Thus, methods to triage small colloidally aggregating molecules (SCAMs) are in high demand. Herein, we disclose a bespoke machine-learning tool to confidently and intelligibly flag such entities. Our data demonstrate an unprecedented utility of machine learning for predicting SCAMs, achieving 80% of correct predictions in a challenging out-of-sample validation. The tool outperformed a panel of expert chemists, who correctly predicted 61 +/- 7% of the same test molecules in a Turing-like test. Further, the computational routine provided insight into molecular features governing aggregation that had remained hidden to expert intuition. Leveraging our tool, we quantify that up to 15-20% of ligands in publicly available chemogenomic databases have the high potential to aggregate at typical screening concentrations, imposing caution in systems biology and drug design programs. Our approach provides a means to augment human intuition, mitigate attrition and a pathway to accelerate future molecular medicine.
翻訳日:2021-05-04 13:44:50 公開日:2021-05-01
# spookynet: 電子自由度と非局所効果を持つ学習力場

SpookyNet: Learning Force Fields with Electronic Degrees of Freedom and Nonlocal Effects ( http://arxiv.org/abs/2105.00304v1 )

ライセンス: Link先を確認
Oliver T. Unke, Stefan Chmiela, Michael Gastegger, Kristof T. Sch\"utt, Huziel E. Sauceda, Klaus-Robert M\"uller(参考訳) 近年、機械学習力場(ML-FF)は計算化学の分野で人気が高まっている。 ML-FFは、適切な基準データに基づいて訓練された場合、ab initio法の精度と従来の力場の効率を結合する。 しかしながら、現在のML-FFは、予測を形成する際に、総電荷やスピンなどの電子自由度を無視する。 さらに、しばしば化学的局所性を仮定するが、これは非局所効果が重要な役割を果たす場合に問題となる。 この研究は、電子自由度と量子非局所性を明確に扱うML-FFを構築するためのディープニューラルネットワークであるSpookyNetを紹介する。 その予測は、長距離相互作用と核反発の説明を改善するために、身体的なモチベーションによる修正によってさらに強化される。 SpookyNetは、一般的な量子化学データセットの最先端(または同様のパフォーマンス)を改善している。 特に、学習した化学的な洞察を活用できる。 未知のスピン状態を予測するか 物理的限界を適切にモデル化することで さらに、化学とコンフォメーション空間をまたいで一般化することができ、量子化学における今日の機械学習モデルにとって重要なギャップを埋めることができる。

In recent years, machine-learned force fields (ML-FFs) have gained increasing popularity in the field of computational chemistry. Provided they are trained on appropriate reference data, ML-FFs combine the accuracy of ab initio methods with the efficiency of conventional force fields. However, current ML-FFs typically ignore electronic degrees of freedom, such as the total charge or spin, when forming their prediction. In addition, they often assume chemical locality, which can be problematic in cases where nonlocal effects play a significant role. This work introduces SpookyNet, a deep neural network for constructing ML-FFs with explicit treatment of electronic degrees of freedom and quantum nonlocality. Its predictions are further augmented with physically-motivated corrections to improve the description of long-ranged interactions and nuclear repulsion. SpookyNet improves upon the current state-of-the-art (or achieves similar performance) on popular quantum chemistry data sets. Notably, it can leverage the learned chemical insights, e.g. by predicting unknown spin states or by properly modeling physical limits. Moreover, it is able to generalize across chemical and conformational space and thus close an important remaining gap for today's machine learning models in quantum chemistry.
翻訳日:2021-05-04 13:44:32 公開日:2021-05-01
# waypoint プランニングネットワーク

Waypoint Planning Networks ( http://arxiv.org/abs/2105.00312v1 )

ライセンス: Link先を確認
Alexandru-Iosif Toma, Hussein Ali Jaafar, Hao-Ya Hsueh, Stephen James, Daniel Lenton, Ronald Clark, Sajad Saeedi(参考訳) 機械学習の最近の進歩により、経路計画アルゴリズムも進化しつつあるが、学習された経路計画アルゴリズムは、古典的なアルゴリズムの成功率と競合することがしばしばある。 本稿では,ローカルカーネルを用いたLSTMに基づくハイブリッドアルゴリズムであるWPN(Waypoint Planning Network)と,学習アルゴリズムを用いたグローバルカーネルを提案する。 wpnは計算効率が良くロバストなソリューションを生み出す。 我々は、wpn と a* を比較し、関連する動き計画ネットワーク (mpnet) と値反復ネットワーク (vin) を比較した。 本稿では,2次元環境における設計と実験について述べる。 実験結果はWPNの効率性と一般化の両面での利点を概説した。 WPN の探索空間は A* よりもかなり小さいが、ほぼ最適な結果が得られることが示されている。 加えて、WPN は部分写像で作用するが、前もって全写像を必要とする A* とは異なっている。 コードはオンラインで入手できる。

With the recent advances in machine learning, path planning algorithms are also evolving; however, the learned path planning algorithms often have difficulty competing with success rates of classic algorithms. We propose waypoint planning networks (WPN), a hybrid algorithm based on LSTMs with a local kernel - a classic algorithm such as A*, and a global kernel using a learned algorithm. WPN produces a more computationally efficient and robust solution. We compare WPN against A*, as well as related works including motion planning networks (MPNet) and value iteration networks (VIN). In this paper, the design and experiments have been conducted for 2D environments. Experimental results outline the benefits of WPN, both in efficiency and generalization. It is shown that WPN's search space is considerably less than A*, while being able to generate near optimal results. Additionally, WPN works on partial maps, unlike A* which needs the full map in advance. The code is available online.
翻訳日:2021-05-04 13:44:15 公開日:2021-05-01
# 分散オンライン制約付き凸最適化における後悔と累積制約違反解析

Regret and Cumulative Constraint Violation Analysis for Distributed Online Constrained Convex Optimization ( http://arxiv.org/abs/2105.00321v1 )

ライセンス: Link先を確認
Xinlei Yi, Xiuxian Li, Tao Yang, Lihua Xie, Tianyou Chai, and Karl H. Johansson(参考訳) 本稿では,エージェントネットワーク上の時間的制約を伴う分散オンライン凸最適化問題を考察する。 これは、任意に変化する凸損失と制約関数の2つの列による逐次決定問題である。 各ラウンドにおいて、各エージェントは決定セットから決定を選択し、その後、損失関数の一部と、このラウンドにおける制約関数の座標ブロックのみを、このエージェントにプライベートに開示する。 ネットワークの目的は、ネットワークの後悔と制約違反を最小限に抑えることである。 完全情報とバンディットフィードバックを備えた2つの分散オンラインアルゴリズムを提案する。 ネットワーク累積制約違反は制約違反を計測するために使用され、厳密な制約が違反した制約の影響を補償できる状況を排除する。 特に、提案アルゴリズムは、静的ネットワーク後悔とネットワーク累積制約違反を$\mathcal{O}(T^{\max\{\kappa,1-\kappa\}})$で達成し、$T$はラウンドの総数であり、$\kappa\in(0,1)$はユーザ定義のトレードオフパラメータであることを示す。 さらに、損失関数が強く凸であれば、静的ネットワークの後悔境界は$\mathcal{O}(T^{\kappa})$に縮めることができる。 最後に, 理論結果の有効性を説明するため, 数値シミュレーションを行った。

This paper considers the distributed online convex optimization problem with time-varying constraints over a network of agents. This is a sequential decision making problem with two sequences of arbitrarily varying convex loss and constraint functions. At each round, each agent selects a decision from the decision set, and then only a portion of the loss function and a coordinate block of the constraint function at this round are privately revealed to this agent. The goal of the network is to minimize network regret and constraint violation. Two distributed online algorithms with full-information and bandit feedback are proposed. Both dynamic and static network regret bounds are analyzed for the proposed algorithms, and network cumulative constraint violation is used to measure constraint violation, which excludes the situation that strictly feasible constraints can compensate the effects of violated constraints. In particular, we show that the proposed algorithms achieve $\mathcal{O}(T^{\max\{\kappa,1-\kappa\}})$ static network regret and $\mathcal{O}(T^{1-\kappa/2})$ network cumulative constraint violation, where $T$ is the total number of rounds and $\kappa\in(0,1)$ is a user-defined trade-off parameter. Moreover, if the loss functions are strongly convex, then the static network regret bound can be reduced to $\mathcal{O}(T^{\kappa})$. Finally, numerical simulations are provided to illustrate the effectiveness of the theoretical results.
翻訳日:2021-05-04 13:44:01 公開日:2021-05-01
# 信頼されたハードウェアを用いたプライバシと整合性のトレーニング

Privacy and Integrity Preserving Training Using Trusted Hardware ( http://arxiv.org/abs/2105.00334v1 )

ライセンス: Link先を確認
Hanieh Hashemi, Yongqin Wang, Murali Annavaram(参考訳) 機械学習が多様なアプリケーションドメインに到達するにつれ、プライバシとセキュリティ関連の懸念が高まりつつある。 データ保持者は、クラウドにホストされているGPUなどのアクセラレータを活用しながら、プライベートデータでトレーニングしたいと考えています。 しかし、クラウドシステムはデータのプライバシーと計算の完全性を侵害する攻撃者に対して脆弱である。 これは、入力プライバシと計算の整合性を保護しながら、大規模なdnnトレーニングのためのフレームワークである。 DarKnightは信頼された実行環境(TEE)とアクセラレータ間の協調実行に依存しており、TEEはプライバシと整合性検証を提供し、アクセラレータは重い線形代数演算を実行する。

Privacy and security-related concerns are growing as machine learning reaches diverse application domains. The data holders want to train with private data while exploiting accelerators, such as GPUs, that are hosted in the cloud. However, Cloud systems are vulnerable to attackers that compromise the privacy of data and integrity of computations. This work presents DarKnight, a framework for large DNN training while protecting input privacy and computation integrity. DarKnight relies on cooperative execution between trusted execution environments (TEE) and accelerators, where the TEE provides privacy and integrity verification, while accelerators perform the computation heavy linear algebraic operations.
翻訳日:2021-05-04 13:37:32 公開日:2021-05-01
# オーディオトランスフォーマー:大規模なオーディオ理解のためのトランスフォーマーアーキテクチャ。 Adieu Convolutions

Audio Transformers:Transfo rmer Architectures For Large Scale Audio Understanding. Adieu Convolutions ( http://arxiv.org/abs/2105.00335v1 )

ライセンス: Link先を確認
Prateek Verma and Jonathan Berger(参考訳) 過去20年にわたり、cnnアーキテクチャは音の知覚と認知の説得力のあるモデルを生み出し、機能の階層的な組織を学習してきた。 コンピュータビジョンの成功と類似して、オーディオ特徴分類は、様々なデータセットやラベルに対して、特定の興味のあるタスクに最適化することができる。 実際、画像理解のために設計された同様のアーキテクチャは音響シーン分析に有効であることが証明されている。 本稿では,畳み込み層を伴わない変圧器ベースのアーキテクチャを生音声信号に適用する。 200のカテゴリからなるフリーサウンド50kの標準データセットでは、我々のモデルは畳み込みモデルよりも優れており、結果の状態が得られます。 自然言語処理やコンピュータビジョンとは異なり、私たちは畳み込みアーキテクチャを上回っても教師なしの事前トレーニングは行いません。 同じトレーニングセットでは、平均平均年齢精度ベンチマークが大幅に改善しています。 ここ数年で設計された畳み込みネットワークにインスパイアされたプールなどの技術を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。 さらに、ウェーブレットにインスパイアされたマルチレート信号処理のアイデアをTransformerの埋め込みに適用して結果を改善する方法を示す。 また,本モデルでは,非非線形帯域幅フィルタバンクを学習し,音声理解のタスクに対して適応可能な時間周波数フロントエンド表現を示す。 ピッチ推定。

Over the past two decades, CNN architectures have produced compelling models of sound perception and cognition, learning hierarchical organizations of features. Analogous to successes in computer vision, audio feature classification can be optimized for a particular task of interest, over a wide variety of datasets and labels. In fact similar architectures designed for image understanding have proven effective for acoustic scene analysis. Here we propose applying Transformer based architectures without convolutional layers to raw audio signals. On a standard dataset of Free Sound 50K,comprising of 200 categories, our model outperforms convolutional models to produce state of the art results. This is significant as unlike in natural language processing and computer vision, we do not perform unsupervised pre-training for outperforming convolutional architectures. On the same training set, with respect mean aver-age precision benchmarks, we show a significant improvement. We further improve the performance of Transformer architectures by using techniques such as pooling inspired from convolutional net-work designed in the past few years. In addition, we also show how multi-rate signal processing ideas inspired from wavelets, can be applied to the Transformer embeddings to improve the results. We also show how our models learns a non-linear non constant band-width filter-bank, which shows an adaptable time frequency front end representation for the task of audio understanding, different from other tasks e.g. pitch estimation.
翻訳日:2021-05-04 13:37:22 公開日:2021-05-01
# クロスビュー一貫性に基づく3次元人行動表現学習

3D Human Action Representation Learning via Cross-View Consistency Pursuit ( http://arxiv.org/abs/2104.14466v2 )

ライセンス: Link先を確認
Linguo Li, Minsi Wang, Bingbing Ni, Hang Wang, Jiancheng Yang, Wenjun Zhang(参考訳) 本研究では,多視点補完型監視信号を利用した非教師なし3次元骨格型行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。 CrosSCLRはシングルビューコントラスト学習(SkeletonCLR)とクロスビュー一貫した知識マイニング(CVC-KM)モジュールの両方で構成され、協調的な学習方法に統合されている。 CVC-KMは、高信頼の正負のサンプルとそれらの分布が、それらの埋め込み類似性に従ってビュー間で交換されるように機能し、対照的な文脈、すなわち類似の分布において、クロスビュー整合性を保証する。 大規模な実験により、NTU-60およびNTU-120データセットにおいて、高品質な動作表現が観察され、CrosSCLRが顕著な動作認識結果が得られることが示された。 私たちのコードはhttps://github.com/L inguoLi/CrosSCLRで利用可能です。

In this work, we propose a Cross-view Contrastive Learning framework for unsupervised 3D skeleton-based action Representation (CrosSCLR), by leveraging multi-view complementary supervision signal. CrosSCLR consists of both single-view contrastive learning (SkeletonCLR) and cross-view consistent knowledge mining (CVC-KM) modules, integrated in a collaborative learning manner. It is noted that CVC-KM works in such a way that high-confidence positive/negative samples and their distributions are exchanged among views according to their embedding similarity, ensuring cross-view consistency in terms of contrastive context, i.e., similar distributions. Extensive experiments show that CrosSCLR achieves remarkable action recognition results on NTU-60 and NTU-120 datasets under unsupervised settings, with observed higher-quality action representations. Our code is available at https://github.com/L inguoLi/CrosSCLR.
翻訳日:2021-05-04 10:47:38 公開日:2021-05-01
# 感情的属性なしでフェアネスを達成できる:非感覚的特徴のバイアスを探る

You Can Still Achieve Fairness Without Sensitive Attributes: Exploring Biases in Non-Sensitive Features ( http://arxiv.org/abs/2104.14537v2 )

ライセンス: Link先を確認
Tianxiang Zhao, Enyan Dai, Kai Shu, Suhang Wang(参考訳) 機械学習モデルは大きな成功を収めていますが、過度な研究によって、トレーニングデータから潜在的差別と社会的偏見を継承する不利益が明らかになっています。 このように、公正な機械学習モデルの開発には多くの努力が払われている。 その多くは、公正なモデルを学ぶためにトレーニング中にセンシティブな属性が利用できることを要求します。 しかし、多くの現実世界のアプリケーションでは、プライバシや法的な問題によるセンシティブな属性が得られず、既存の公正な分類に挑戦する。 各データサンプルの感度特性は不明だが、トレーニングデータには通常、感度特性と高い相関性を持つ非感度の特徴がいくつか存在し、バイアスを軽減するために使用できる。 そこで本稿では, 感度属性を含まない公平かつ正確な分類法を学習するための, 感度属性と高い相関性を持つ特徴を探索する新たな課題について検討する。 これらの特徴とモデル予測の相関を最小化することで、公平な分類法を学習できることを理論的に示す。 そこで本研究では,これらの特徴を同時利用して正確な予測とモデルの正則化を行う新しい枠組みを提案する。 さらに,各特徴の重要度を動的に調整することで,特徴のモデル分類と公平性への寄与度をバランスさせることができる。 実世界のデータセットにおける実験結果は,高い分類精度を持つフェアモデル学習における提案モデルの有効性を示す。

Though machine learning models are achieving great success, ex-tensive studies have exposed their disadvantage of inheriting latent discrimination and societal bias from the training data, which hinders their adoption on high-state applications. Thus, many efforts have been taken for developing fair machine learning models. Most of them require that sensitive attributes are available during training to learn fair models. However, in many real-world applications, it is usually infeasible to obtain the sensitive attribute due to privacy or legal issues, which challenges existing fair classifiers. Though the sensitive attribute of each data sample is unknown, we observe that there are usually some non-sensitive features in the training data that are highly correlated with sensitive attributes, which can be used to alleviate the bias. Therefore, in this paper, we study a novel problem of exploring features that are highly correlated with sensitive attributes for learning fair and accurate classifier without sensitive attributes. We theoretically show that by minimizing the correlation between these related features and model prediction, we can learn a fair classifier. Based on this motivation, we propose a novel framework which simultaneously uses these related features for accurate prediction and regularizing the model to be fair. In addition, the model can dynamically adjust the importance weight of each related feature to balance the contribution of the feature on model classification and fairness. Experimental results on real-world datasets demonstrate the effectiveness of the proposed model for learning fair models with high classification accuracy.
翻訳日:2021-05-04 09:26:36 公開日:2021-05-01