このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210305となっている論文です。

PDF登録状況(公開日: 20210305)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ひび割れ検出のための深部ニューラルネットワークの臨界評価 [全文訳有]

Critical Evaluation of Deep Neural Networks for Wrist Fracture Detection ( http://arxiv.org/abs/2012.02577v2 )

ライセンス: CC BY 4.0
Abu Mohammed Raisuddin, Elias Vaattovaara, Mika Nevalainen, Marko Nikki, Elina J\"arvenp\"a\"a, Kaisa Makkonen, Pekka Pinola, Tuula Palsio, Arttu Niemensivu, Osmo Tervonen, Aleksei Tiulpin(参考訳) 手関節骨折は最も一般的なタイプの骨折であり、発症率が高い。 従来のx線撮影(例) x線イメージングは定期的に手関節骨折の検出に用いられるが、時折骨折の脱線が問題となり、ct(ct)による追加診断が必要となる。 人工知能(AI)のサブフィールドであるDeep Learning(DL)分野の最近の進歩は、畳み込みニューラルネットワークを用いて手首骨折検出を自動化できることを証明している。 しかし、従来の研究では、CT画像でのみ確認できる難しい症例にはあまり注意を払わなかった。 In this study, we have developed and analyzed a state-of-the-art DL-based pipeline for wrist (distal radius) fracture detection -- DeepWrist, and evaluated it against one general population test set, and one challenging test set comprising only cases requiring confirmation by CT. Our results reveal that a typical state-of-the-art approach, such as DeepWrist, while having a near-perfect performance on the general independent test set, has a substantially lower performance on the challenging test set -- average precision of 0.99 (0.99-0.99) vs 0.64 (0.46-0.83), respectively. 同様に、ROC曲線下の面積はそれぞれ 0.99 (0.98-0.99) と 0.84 (0.72-0.93) であった。 本研究は,臨床使用前にdlベースモデルの細心の注意深い分析の重要性を浮き彫りにして,医療aiシステムをテストするためのより困難な設定の必要性を明らかにする。

Wrist Fracture is the most common type of fracture with a high incidence rate. Conventional radiography (i.e. X-ray imaging) is used for wrist fracture detection routinely, but occasionally fracture delineation poses issues and an additional confirmation by computed tomography (CT) is needed for diagnosis. Recent advances in the field of Deep Learning (DL), a subfield of Artificial Intelligence (AI), have shown that wrist fracture detection can be automated using Convolutional Neural Networks. However, previous studies did not pay close attention to the difficult cases which can only be confirmed via CT imaging. In this study, we have developed and analyzed a state-of-the-art DL-based pipeline for wrist (distal radius) fracture detection -- DeepWrist, and evaluated it against one general population test set, and one challenging test set comprising only cases requiring confirmation by CT. Our results reveal that a typical state-of-the-art approach, such as DeepWrist, while having a near-perfect performance on the general independent test set, has a substantially lower performance on the challenging test set -- average precision of 0.99 (0.99-0.99) vs 0.64 (0.46-0.83), respectively. Similarly, the area under the ROC curve was of 0.99 (0.98-0.99) vs 0.84 (0.72-0.93), respectively. Our findings highlight the importance of a meticulous analysis of DL-based models before clinical use, and unearth the need for more challenging settings for testing medical AI systems.
翻訳日:2021-05-23 05:34:15 公開日:2021-03-05
# 限られたデータから高次元ヒルベルト値関数を学習するディープニューラルネットワーク

Deep Neural Networks Are Effective At Learning High-Dimensional Hilbert-Valued Functions From Limited Data ( http://arxiv.org/abs/2012.06081v2 )

ライセンス: Link先を確認
Ben Adcock and Simone Brugiapaglia and Nick Dexter and Sebastian Moraga(参考訳) サンプル点からのスカラー値関数の正確な近似は計算科学における重要な課題である。 近年、Deep Neural Networks (DNN) を用いた機械学習が科学計算の有望なツールとして登場し、データや問題領域の次元が大きくなる問題に対して素晴らしい結果が得られた。 この研究は、ヒルベルト値を持つ関数、すなわち近似関数に焦点をあてて、この視点を広げている。 分離可能だが典型的には無限次元のヒルベルト空間で値を取る。 これは科学や工学の問題、特にパラメトリック偏微分方程式(pdes)の解を含む問題において生じる。 このような問題は困難である: 1) 点的サンプルは取得に費用がかかり、2) 関数領域は高次元であり、3) 範囲はヒルベルト空間にある。 私たちの貢献は2倍です。 まず,隠れ異方性をもつ正則関数に対するDNNトレーニングにおける新しい結果を示す。 この結果は、dnnトレーニング手順と、エラーとサンプルの複雑さを明示的に保証した完全な理論解析を導入する。 誤差境界は近似手順で発生する3つの重要な誤り(最良の近似、測定、物理的離散化誤差)で明示される。 以上の結果から, ヒルベルト値関数をdnnで学習するための手続き(非標準的)が存在することが判明した。 これは、DNNがそのような問題に対してどれだけうまく機能できるかに関して、ベンチマークを低くする。 第2に,異なるタイプのアーキテクチャやトレーニングを通じて,より優れたパフォーマンスを実現することができるかどうかを検討する。 パラメトリックPDEにおけるDNNの実用性能を示す予備的な数値結果を提供する。 異なるパラメータを検討し、より良く競争的な結果を得るためにdnnアーキテクチャを変更し、これらを現在のベストインクラススキームと比較する。

Accurate approximation of scalar-valued functions from sample points is a key task in computational science. Recently, machine learning with Deep Neural Networks (DNNs) has emerged as a promising tool for scientific computing, with impressive results achieved on problems where the dimension of the data or problem domain is large. This work broadens this perspective, focusing on approximating functions that are Hilbert-valued, i.e. take values in a separable, but typically infinite-dimensional , Hilbert space. This arises in science and engineering problems, in particular those involving solution of parametric Partial Differential Equations (PDEs). Such problems are challenging: 1) pointwise samples are expensive to acquire, 2) the function domain is high dimensional, and 3) the range lies in a Hilbert space. Our contributions are twofold. First, we present a novel result on DNN training for holomorphic functions with so-called hidden anisotropy. This result introduces a DNN training procedure and full theoretical analysis with explicit guarantees on error and sample complexity. The error bound is explicit in three key errors occurring in the approximation procedure: the best approximation, measurement, and physical discretization errors. Our result shows that there exists a procedure (albeit non-standard) for learning Hilbert-valued functions via DNNs that performs as well as, but no better than current best-in-class schemes. It gives a benchmark lower bound for how well DNNs can perform on such problems. Second, we examine whether better performance can be achieved in practice through different types of architectures and training. We provide preliminary numerical results illustrating practical performance of DNNs on parametric PDEs. We consider different parameters, modifying the DNN architecture to achieve better and competitive results, comparing these to current best-in-class schemes.
翻訳日:2021-05-11 02:48:34 公開日:2021-03-05
# FlowMOT:Scene Flow Associationによる3次元多物体追跡

FlowMOT: 3D Multi-Object Tracking by Scene Flow Association ( http://arxiv.org/abs/2012.07541v3 )

ライセンス: Link先を確認
Guangyao Zhai, Xin Kong, Jinhao Cui, Yong Liu, and Zhen Yang(参考訳) ほとんどのエンドツーエンドのマルチオブジェクト追跡(MOT)手法は、低い精度と低い一般化能力の問題に直面している。 従来のフィルタに基づく手法はより良い結果が得られるが、最適なハイパーパラメーターを付与することは困難であり、しばしば様々なシナリオで失敗する。 これらの欠点を軽減するために,従来のマッチングアルゴリズムとポイントワイド動作情報を統合し,動き予測の堅牢性を高めるLiDARベースの3次元MOTフレームワークFlowMOTを提案する。 まず,シーンフロー推定ネットワークを用いて隣り合う2つのフレーム間の暗黙的な動き情報を取得し,先行するフレーム内の各古いトラックレットの予測検出値を算出する。 次に,ハンガリーアルゴリズムを用いてid伝播戦略と最適マッチング関係を生成し,追跡タスクを完了させる。 KITTI MOTデータセットの実験により、我々の手法は最近のエンドツーエンド手法よりも優れており、最先端のフィルタ方式と競合する性能を発揮することが示された。 さらに、フィルタベースのメソッドがフェールする可能性のある様々な速度シナリオでも、着実に機能します。

Most end-to-end Multi-Object Tracking (MOT) methods face the problems of low accuracy and poor generalization ability. Although traditional filter-based methods can achieve better results, they are difficult to be endowed with optimal hyperparameters and often fail in varying scenarios. To alleviate these drawbacks, we propose a LiDAR-based 3D MOT framework named FlowMOT, which integrates point-wise motion information with the traditional matching algorithm, enhancing the robustness of the motion prediction. We firstly utilize a scene flow estimation network to obtain implicit motion information between two adjacent frames and calculate the predicted detection for each old tracklet in the previous frame. Then we use Hungarian algorithm to generate optimal matching relations with the ID propagation strategy to finish the tracking task. Experiments on KITTI MOT dataset show that our approach outperforms recent end-to-end methods and achieves competitive performance with the state-of-the-art filter-based method. In addition, ours can work steadily in the various-speed scenarios where the filter-based methods may fail.
翻訳日:2021-05-08 14:20:01 公開日:2021-03-05
# 歴史から学ぶ:逐次的コピージェネレーションネットワークを用いた時間知識グラフのモデル化

Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks ( http://arxiv.org/abs/2012.08492v2 )

ライセンス: Link先を確認
Cunchao Zhu, Muhao Chen, Changjun Fan, Guangquan Cheng, Yan Zhan(参考訳) 大きな知識グラフは、時間軸に沿ったエンティティの動的関係や相互作用をモデル化する時間的事実を保存するために成長する。 このような時相知識グラフは不完全性に苦しむことが多いため、時間認識表現学習モデルの開発が重要である。 時間的事実は典型的に進化しているが、経済危機や外交活動など、多くの事実がタイムラインに沿って繰り返しパターンを示すことが多い。 この観察は、モデルが歴史に現れる既知の事実から多くを学ぶ可能性があることを示している。 そこで本研究では,新しいタイムアウェアコピー生成機構に基づく時間知識グラフ,すなわちCyGNetの表現学習モデルを提案する。 CyGNetは、エンティティの語彙全体から将来の事実を予測するだけでなく、繰り返しで事実を識別し、過去の既知の事実を参照して将来の事実を予測することもできる。 5つのベンチマークデータセットを用いて知識グラフ補完作業における提案手法の評価を行った。 広範囲にわたる実験は、CyGNetが将来の事実の予測とデ・ノボの事実予測に有効であることを実証している。

Large knowledge graphs often grow to store temporal facts that model the dynamic relations or interactions of entities along the timeline. Since such temporal knowledge graphs often suffer from incompleteness, it is important to develop time-aware representation learning models that help to infer the missing temporal facts. While the temporal facts are typically evolving, it is observed that many facts often show a repeated pattern along the timeline, such as economic crises and diplomatic activities. This observation indicates that a model could potentially learn much from the known facts appeared in history. To this end, we propose a new representation learning model for temporal knowledge graphs, namely CyGNet, based on a novel timeaware copy-generation mechanism. CyGNet is not only able to predict future facts from the whole entity vocabulary, but also capable of identifying facts with repetition and accordingly predicting such future facts with reference to the known facts in the past. We evaluate the proposed method on the knowledge graph completion task using five benchmark datasets. Extensive experiments demonstrate the effectiveness of CyGNet for predicting future facts with repetition as well as de novo fact prediction.
翻訳日:2021-05-07 05:41:15 公開日:2021-03-05
# 偏微分方程式に対する深層学習に基づく近似法の概要

An overview on deep learning-based approximation methods for partial differential equations ( http://arxiv.org/abs/2012.12348v2 )

ライセンス: Link先を確認
Christian Beck, Martin Hutzenthaler, Arnulf Jentzen, Benno Kuckuck(参考訳) これは高次元偏微分方程式(PDE)を近似的に解くための応用数学における最も難しい問題の1つである。 近年,この問題に対する深層学習に基づく近似アルゴリズムが提案され,高次元PDEの例で数値的に検証されている。 このことは、深層学習に基づく手法と関連するモンテカルロ法を高次元pdesの近似に適用する活発な研究分野を生み出した。 本稿では,この研究分野の紹介,PDEの深層学習に基づく近似法の主な考え方,PDEの深部ニューラルネットワーク近似における中心的な数学的結果の1つを再考し,最近の研究分野の文献の概要を紹介する。

It is one of the most challenging problems in applied mathematics to approximatively solve high-dimensional partial differential equations (PDEs). Recently, several deep learning-based approximation algorithms for attacking this problem have been proposed and tested numerically on a number of examples of high-dimensional PDEs. This has given rise to a lively field of research in which deep learning-based methods and related Monte Carlo methods are applied to the approximation of high-dimensional PDEs. In this article we offer an introduction to this field of research, we review some of the main ideas of deep learning-based approximation methods for PDEs, we revisit one of the central mathematical results for deep neural network approximations for PDEs, and we provide an overview of the recent literature in this area of research.
翻訳日:2021-04-26 07:14:27 公開日:2021-03-05
# Naive Bayes を識別分類器として使う

Using the Naive Bayes as a discriminative classifier ( http://arxiv.org/abs/2012.13572v3 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) 分類タスクでは、確率的モデルは2つの非結合クラス(生成的または識別的)に分類される。 これは、観測値 $y$, $p(x | y)$ が与えられると、ラベル $x$ の後方確率計算に依存する。 一方、ナイーブ・ベイズ(英語版)や隠れマルコフモデル(英語版)(hmm)のような生成的分類器は、ベイズ則を用いて$p(x | y)$を計算する前に、合同確率 p(x,y) の計算が必要である。 一方、判別分類器は観察の法則に関係なく直接的に$p(x | y)$を計算する。 現在では、ロジスティック回帰、条件ランダムフィールド(CRF)、ニューラルネットワークなどのモデルで、集中的に使用されている。 しかし、最近のentropic forward-backwardアルゴリズムは、生成モデルと見なされるhmmが差別的定義にマッチすることを示している。 この例は、他の生成モデルの場合について疑問を呈する。 本稿では,ナイーブベイズ分類器が識別的分類器の定義と一致することも示し,生成的あるいは識別的手法で使用することができることを示す。 さらに、この観察では、例えば、Naive Bayes や Logistic Regression や HMM や CRF など、生成-識別対の概念についても論じている。 この点に関連して、ロジスティック回帰は、識別的に使用されるナイーブベイの特定のケースと見なすことができることを示した。

For classification tasks, probabilistic models can be categorized into two disjoint classes: generative or discriminative. It depends on the posterior probability computation of the label $x$ given the observation $y$, $p(x | y)$. On the one hand, generative classifiers, like the Naive Bayes or the Hidden Markov Model (HMM), need the computation of the joint probability p(x,y), before using the Bayes rule to compute $p(x | y)$. On the other hand, discriminative classifiers compute $p(x | y)$ directly, regardless of the observations' law. They are intensively used nowadays, with models as Logistic Regression, Conditional Random Fields (CRF), and Artificial Neural Networks. However, the recent Entropic Forward-Backward algorithm shows that the HMM, considered as a generative model, can also match the discriminative one's definition. This example leads to question if it is the case for other generative models. In this paper, we show that the Naive Bayes classifier can also match the discriminative classifier definition, so it can be used in either a generative or a discriminative way. Moreover, this observation also discusses the notion of Generative-Discrimin ative pairs, linking, for example, Naive Bayes and Logistic Regression, or HMM and CRF. Related to this point, we show that the Logistic Regression can be viewed as a particular case of the Naive Bayes used in a discriminative way.
翻訳日:2021-04-25 04:37:46 公開日:2021-03-05
# (参考訳) プロプライエタリデータの不正使用を防止する - セキュアなデータセットのリリース [全文訳有]

Preventing Unauthorized Use of Proprietary Data: Poisoning for Secure Dataset Release ( http://arxiv.org/abs/2103.02683v2 )

ライセンス: CC BY 4.0
Liam Fowl, Ping-yeh Chiang, Micah Goldblum, Jonas Geiping, Arpit Bansal, Wojtek Czaja, Tom Goldstein(参考訳) ソーシャルメディア企業などの大企業は、ユーザイメージなどのデータを継続的にリリースしている。 同時に、これらの組織は、リリース済みデータの膨大なコーパスを活用して、プロプライエタリなモデルをトレーニングし、競合他社に対して優位性を与えている。 この2つの行動は、競合企業が独自のデータを使用して独自のモデルのパフォーマンスを複製することを阻止しようとするため、対立する可能性がある。 本稿では,公開データを最小限に修正して,他者のトレーニングモデルに対処できるデータ中毒法を開発することにより,この問題を解決した。 さらに,本手法は,企業が公開時にリアルタイムでデータを保護し,画像ネットの分類と顔認識におけるアプローチの成功を実証するために,オンライン方式で利用することができる。

Large organizations such as social media companies continually release data, for example user images. At the same time, these organizations leverage their massive corpora of released data to train proprietary models that give them an edge over their competitors. These two behaviors can be in conflict as an organization wants to prevent competitors from using their own data to replicate the performance of their proprietary models. We solve this problem by developing a data poisoning method by which publicly released data can be minimally modified to prevent others from train-ing models on it. Moreover, our method can be used in an online fashion so that companies can protect their data in real time as they release it.We demonstrate the success of our approach onImageNet classification and on facial recognition.
翻訳日:2021-04-06 04:50:36 公開日:2021-03-05
# (参考訳) プロセス変動, デバイス老化, フリッカノイズを考慮した強誘電体finfetを用いたニューロモルフィックコンピューティング [全文訳有]

Neuromorphic Computing with Deeply Scaled Ferroelectric FinFET in Presence of Process Variation, Device Aging and Flicker Noise ( http://arxiv.org/abs/2103.13302v1 )

ライセンス: CC BY 4.0
Sourav De, Bo-Han Qiu, Wei-Xuan Bu, Md.Aftab Baig, Chung-Jun Su, Yao-Jen Lee, and Darsen Lu(参考訳) 本稿では,6nm厚の酸化ハフニウム層を有する超小型強誘電体FinFETのニューロモルフィックコンピューティングへの応用について,プロセス変動,フリックノイズ,デバイス老化の存在下での総合的研究を行った。 このような変化が、アナログ、四元数(2ビット/セル)、バイナリシナプスからなる事前学習ニューラルネットワークの推論精度に与える影響について、複雑な研究がなされている。 MNISTデータセット上で97.5%の推測精度を持つ事前学習ニューラルネットワークがベースラインとして採用されている。 プロセス変動,フリックノイズ,デバイスエイジング特性について検討し,ニューラルネットワークシミュレーション中にこれらすべての効果を捉えるための統計モデルを構築した。 バイナリ読み出し処理では、10年以上の余分な保持が達成されている。 我々は,(1)酸化物厚さスケーリングによる保持劣化,(2)プロセス変動,(3)フレッカーノイズの影響を,四元系およびアナログ系ニューラルネットワークよりも優れた性能を示す強誘電性finfetベースの二元系ニューラルネットワークにおいて軽減できることを実証した。 ニューラルネットワークのパフォーマンスは、デバイス、アーキテクチャ、アルゴリズムの合理化されたパフォーマンスの結果である。 この研究は、アーキテクチャとアルゴリズムを適切に組み合わせた非ヴォンニューマン計算における強誘電体FinFETの適用性を裏付けるものである。

This paper reports a comprehensive study on the applicability of ultra-scaled ferroelectric FinFETs with 6 nm thick hafnium zirconium oxide layer for neuromorphic computing in the presence of process variation, flicker noise, and device aging. An intricate study has been conducted about the impact of such variations on the inference accuracy of pre-trained neural networks consisting of analog, quaternary (2-bit/cell) and binary synapse. A pre-trained neural network with 97.5% inference accuracy on the MNIST dataset has been adopted as the baseline. Process variation, flicker noise, and device aging characterization have been performed and a statistical model has been developed to capture all these effects during neural network simulation. Extrapolated retention above 10 years have been achieved for binary read-out procedure. We have demonstrated that the impact of (1) retention degradation due to the oxide thickness scaling, (2) process variation, and (3) flicker noise can be abated in ferroelectric FinFET based binary neural networks, which exhibits superior performance over quaternary and analog neural network, amidst all variations. The performance of a neural network is the result of coalesced performance of device, architecture and algorithm. This research corroborates the applicability of deeply scaled ferroelectric FinFETs for non-von Neumann computing with proper combination of architecture and algorithm.
翻訳日:2021-04-05 06:25:59 公開日:2021-03-05
# (参考訳) Sparse Support Recoveryアルゴリズムの誤り訂正 [全文訳有]

Error-Correction for Sparse Support Recovery Algorithms ( http://arxiv.org/abs/2103.03801v1 )

ライセンス: CC0 1.0
Mohammad Mehrabi and Aslan Tchamkerten(参考訳) a $m$-sparse $d$-dimensional signal $x$の$s^*$が与えられたアルゴリズムで$n$の線形測定から回収されるような圧縮されたセンシング設定を考えてみましょう。 測定値が、アルゴリズムが完全なサポート回復を保証せず、真の特徴が失われる可能性があると仮定する。 効率よく回収できますか。 本稿では,LiREと呼ばれる単純なエラー訂正モジュールを用いてこの問題に対処する。 LiRE は、真のサポート $s^*$ の見積 $s_{in}$ を入力とし、洗練されたサポートの見積 $s_{out}$ を出力する。 ノイズレス測定設定では、LiRE が $s_{out}$ が $s^*$ を含むサポート全体を回復することを保証した十分な条件が確立される。 これらの条件は、例えば、高次元の規則では、LiRE は直交整合法 (OMP) による誤り数$m$$のサブ線形を補正できることを意味する。 LiREの計算複雑性は$O(mnd)$である。 ランダムガウス設計行列を用いた実験の結果、LiREは圧縮サンプリングマッチングスーツ、Basis Pursuit(BP)、OMPを介して完全なサポート回復に必要な測定値を大幅に削減できることが示された。 興味深いことに、LiREをOMPに追加すると、BPよりも正確ではるかに高速なサポート回復手順が得られる。 この観測はノイズ測定装置で継続される。 最後に、ランダム初期化を伴うスタンドアローンサポート回復アルゴリズムとして、LiREの再構成性能がOMPとBPの間にあることを示す実験を行った。 これらの結果は、LiREを任意の最適ベースライン回復アルゴリズムの上に汎用的に使用して、比較的少ない計算オーバーヘッドで、サポートリカバリを改善したり、より少ない測定値で運用することができることを示唆している。 また、LiREは、OMPに関して競争力のあるスタンドアロンのサポートリカバリアルゴリズムとして使用することができる。

Consider the compressed sensing setup where the support $s^*$ of an $m$-sparse $d$-dimensional signal $x$ is to be recovered from $n$ linear measurements with a given algorithm. Suppose that the measurements are such that the algorithm does not guarantee perfect support recovery and that true features may be missed. Can they efficiently be retrieved? This paper addresses this question through a simple error-correction module referred to as LiRE. LiRE takes as input an estimate $s_{in}$ of the true support $s^*$, and outputs a refined support estimate $s_{out}$. In the noiseless measurement setup, sufficient conditions are established under which LiRE is guaranteed to recover the entire support, that is $s_{out}$ contains $s^*$. These conditions imply, for instance, that in the high-dimensional regime LiRE can correct a sublinear in $m$ number of errors made by Orthogonal Matching Pursuit (OMP). The computational complexity of LiRE is $O(mnd)$. Experimental results with random Gaussian design matrices show that LiRE substantially reduces the number of measurements needed for perfect support recovery via Compressive Sampling Matching Pursuit, Basis Pursuit (BP), and OMP. Interestingly, adding LiRE to OMP yields a support recovery procedure that is more accurate and significantly faster than BP. This observation carries over in the noisy measurement setup. Finally, as a standalone support recovery algorithm with a random initialization, experiments show that LiRE's reconstruction performance lies between OMP and BP. These results suggest that LiRE may be used generically, on top of any suboptimal baseline support recovery algorithm, to improve support recovery or to operate with a smaller number of measurements, at the cost of a relatively small computational overhead. Alternatively, LiRE may be used as a standalone support recovery algorithm that is competitive with respect to OMP.
翻訳日:2021-03-11 08:33:18 公開日:2021-03-05
# 医用画像における深部強化学習 : 文献的考察

Deep reinforcement learning in medical imaging: A literature review ( http://arxiv.org/abs/2103.05115v1 )

ライセンス: Link先を確認
S. Kevin Zhou, Hoang Ngan Le, Khoa Luu, Hien V. Nguyen, Nicholas Ayache(参考訳) 深層強化学習(DRL)は、期待される報酬を最大化する一連のアクションを深層ニューラルネットワークの代表力で学習する強化学習フレームワークを強化する。 最近の研究は、医療と医療におけるDRLの大きな可能性を示している。 本稿では,医療画像におけるDRLの文献的考察について述べる。 まず、最新のモデルフリーおよびモデルベースアルゴリズムを含むDRLの包括的なチュートリアルから始める。 We then cover existing DRL applications for medical imaging, which are roughly divided into three main categories: (I) parametric medical image analysis tasks including landmark detection, object/lesion detection, registration, and view plane localization; (ii) solving optimization tasks including hyperparameter tuning, selecting augmentation strategies, and neural architecture search; and (iii) miscellaneous applications including surgical gesture segmentation, personalized mobile health intervention, and computational model personalization. 論文は、将来の視点の議論で締めくくられる。

Deep reinforcement learning (DRL) augments the reinforcement learning framework, which learns a sequence of actions that maximizes the expected reward, with the representative power of deep neural networks. Recent works have demonstrated the great potential of DRL in medicine and healthcare. This paper presents a literature review of DRL in medical imaging. We start with a comprehensive tutorial of DRL, including the latest model-free and model-based algorithms. We then cover existing DRL applications for medical imaging, which are roughly divided into three main categories: (I) parametric medical image analysis tasks including landmark detection, object/lesion detection, registration, and view plane localization; (ii) solving optimization tasks including hyperparameter tuning, selecting augmentation strategies, and neural architecture search; and (iii) miscellaneous applications including surgical gesture segmentation, personalized mobile health intervention, and computational model personalization. The paper concludes with discussions of future perspectives.
翻訳日:2021-03-10 15:03:53 公開日:2021-03-05
# (参考訳) 条件付き変分オートエンコーダを用いた動的環境における確率軌道のマルチモーダル予測 [全文訳有]

Multi-modal anticipation of stochastic trajectories in a dynamic environment with Conditional Variational Autoencoders ( http://arxiv.org/abs/2103.03912v1 )

ライセンス: CC BY 4.0
Albert Dulian, John C. Murray(参考訳) 近くの車両の短期的な動きを予測することは本質的に困難な問題であり、将来の動きの可能性は単一の軌道の集合に限定されていない。 最近提案された手法は、主に固定数の決定論的予測を予測すること、あるいは以前に生成された様々な軌道を分類することに集中している。 動的モデル。 本論文では,生成モデルの確率的性質を利用して,追跡された車両に関する多様な経路を生成することにより,議論されたタスクに関連する不確実性に対処することに焦点を当てる。 具体的には,C-VAE(Conditional Variational Autoencoder)とCapsule Network(CapsNet)でエンコードされたラスタライズされたシーンコンテキストを用いて,この問題の多モード性を考慮することを提案する。 さらに,N(MoN)コスト関数を用いて,N(MoN)コスト関数を用いて,真理とN(N)生成サンプルの距離を計測し,最も近いサンプルに対する損失を最小化し,より多様な予測を導出する利点を示す。 我々は,最近の最先端手法に対する公開データセット上での我々のネットワークを検証し,学習可能なパラメータの数を大幅に削減しつつ,任意の量の多種多様なトラジェクタをサンプリングできる手法が,多くのシナリオでこれらの手法を上回っていることを示す。

Forecasting short-term motion of nearby vehicles presents an inherently challenging issue as the space of their possible future movements is not strictly limited to a set of single trajectories. Recently proposed techniques that demonstrate plausible results concentrate primarily on forecasting a fixed number of deterministic predictions, or on classifying over a wide variety of trajectories that were previously generated using e.g. dynamic model. This paper focuses on addressing the uncertainty associated with the discussed task by utilising the stochastic nature of generative models in order to produce a diverse set of plausible paths with regards to tracked vehicles. More specifically, we propose to account for the multi-modality of the problem with use of Conditional Variational Autoencoder (C-VAE) conditioned on an agent's past motion as well as a rasterised scene context encoded with Capsule Network (CapsNet). In addition, we demonstrate advantages of employing the Minimum over N (MoN) cost function which measures the distance between ground truth and N generated samples and tries to minimise the loss with respect to the closest sample, effectively leading to more diverse predictions. We examine our network on a publicly available dataset against recent state-of-the-art methods and show that our approach outperforms these techniques in numerous scenarios whilst significantly reducing the number of trainable parameters as well as allowing to sample an arbitrary amount of diverse trajectories.
翻訳日:2021-03-10 13:51:14 公開日:2021-03-05
# (参考訳) パキスタンにおける深層学習による小麦の地域ワイズ価格予測 [全文訳有]

District Wise Price Forecasting of Wheat in Pakistan using Deep Learning ( http://arxiv.org/abs/2103.04781v1 )

ライセンス: CC BY 4.0
Ahmed Rasheed, Muhammad Shahzad Younis, Farooq Ahmad, Junaid Qadir, and Muhammad Kashif(参考訳) 小麦はパキスタンの主要な農業作物であり、ほぼすべてのパキスタン世帯の主食要件であり、その可用性と手頃な価格が政府の主な優先事項である国の主要な戦略商品です。 小麦の食料供給は、生産、消費、金融危機、インフレ、揮発性市場などを含む複数の要因によって大きく影響を受ける可能性がある。 政府は特定の政策と監視措置によって食料の安全を確保し、貧困層に平等を保ち続ける。 このような配置は、ある現在の要因に基づいて将来の収率を推定するために動的解析を行うことでより効果的になる。 商品価格の今後の計画は、現在の状況で期待される将来の価格を予測することで達成できる。 本稿では,近年の小麦価格の価格,天気,生産,消費の傾向を,先進的なニューラルネットワークアーキテクチャであるLong Short Term Memory(LSTM)ネットワークの助けを借りて分析する,小麦価格予測手法を提案する。 提案手法は,従来の機械学習や統計時系列分析法と比較して有意に改善した。

Wheat is the main agricultural crop of Pakistan and is a staple food requirement of almost every Pakistani household making it the main strategic commodity of the country whose availability and affordability is the government's main priority. Wheat food availability can be vastly affected by multiple factors included but not limited to the production, consumption, financial crisis, inflation, or volatile market. The government ensures food security by particular policy and monitory arrangements, which keeps up purchase parity for the poor. Such arrangements can be made more effective if a dynamic analysis is carried out to estimate the future yield based on certain current factors. Future planning of commodity pricing is achievable by forecasting their future price anticipated by the current circumstances. This paper presents a wheat price forecasting methodology, which uses the price, weather, production, and consumption trends for wheat prices taken over the past few years and analyzes them with the help of advance neural networks architecture Long Short Term Memory (LSTM) networks. The proposed methodology presented significantly improved results versus other conventional machine learning and statistical time series analysis methods.
翻訳日:2021-03-10 12:37:27 公開日:2021-03-05
# (参考訳) scrib: blackboxモデルのためのクラス固有のリスク境界を持つセット分類子 [全文訳有]

SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox Models ( http://arxiv.org/abs/2103.03945v1 )

ライセンス: CC BY 4.0
Zhen Lin, Cao Xiao, Lucas Glass, M. Brandon Westover, Jimeng Sun(参考訳) 分類問題における深層学習(DL)の成功にもかかわらず、DL分類器はいつ予測を控えるかを決定するための健全なメカニズムを提供していない。 最近の研究では、拒絶オプションによる分類による全体的な予測リスクの制御を試みた。 しかし、既存の作品は異なるクラスの異なる重要性を見落としている。 クラス固有のRIsk境界(SCRIB)を持つSet-classifierを導入し、各例に複数のラベルを割り当てる。 検証セット上のブラックボックスモデルの出力を考えると、SCRIBは理論的な保証でクラス固有の予測リスクを制御するセット分類器を構築する。 キーとなる考え方は、集合分類器が複数のラベルを返すときに拒否することである。 脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。 SCRIB は, 基準法よりも目標リスクに35 %-88 % 近く, 望ましいクラス固有リスクを得た。

Despite deep learning (DL) success in classification problems, DL classifiers do not provide a sound mechanism to decide when to refrain from predicting. Recent works tried to control the overall prediction risk with classification with rejection options. However, existing works overlook the different significance of different classes. We introduce Set-classifier with Class-specific RIsk Bounds (SCRIB) to tackle this problem, assigning multiple labels to each example. Given the output of a black-box model on the validation set, SCRIB constructs a set-classifier that controls the class-specific prediction risks with a theoretical guarantee. The key idea is to reject when the set classifier returns more than one label. We validated SCRIB on several medical applications, including sleep staging on electroencephalogram (EEG) data, X-ray COVID image classification, and atrial fibrillation detection based on electrocardiogram (ECG) data. SCRIB obtained desirable class-specific risks, which are 35\%-88\% closer to the target risks than baseline methods.
翻訳日:2021-03-10 12:20:15 公開日:2021-03-05
# (参考訳) ロボット知覚と対話における感情刺激の明瞭化 [全文訳有]

Disambiguating Affective Stimulus Associations for Robot Perception and Dialogue ( http://arxiv.org/abs/2103.03940v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Alexander Sutherland, Pablo Barros, Mattias Kerzel, Sven Magg, Stefan Wermter(参考訳) 感情を効果的に認識し、相互作用に適用することは、社会ロボットにとって非常に望ましい特徴である。 被験者が世界のさまざまな種類の行動や物体を体験する方法を暗黙的に理解することは、自然なHRI相互作用にとって不可欠であり、ポジティブな行動を実行し、ネガティブな行動を回避できる可能性がある。 本稿では、NICOロボットの外観と能力を利用して、NICOロボットに知覚された聴覚刺激と時間的に非同期な感情表現のコヒーレントな感情関係をモデル化する能力を与える。 これは視覚と言語からの感情的価値の評価を組み合わせることによって行われる。 NICOは、この情報を使用して、協会の表現が一貫性がない場合には、より感情的な情報を生み出すために会話を延長する時期を決定します。 我々の主な貢献は、知覚された聴覚刺激と感情表現の感情的関連を学習できるNICOロボットを提供することである。 NICOは、感情的な表情の不整合を是正する感情駆動対話システムによって、個人と特定の刺激の両方でこれを実現できる。 ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。

Effectively recognising and applying emotions to interactions is a highly desirable trait for social robots. Implicitly understanding how subjects experience different kinds of actions and objects in the world is crucial for natural HRI interactions, with the possibility to perform positive actions and avoid negative actions. In this paper, we utilize the NICO robot's appearance and capabilities to give the NICO the ability to model a coherent affective association between a perceived auditory stimulus and a temporally asynchronous emotion expression. This is done by combining evaluations of emotional valence from vision and language. NICO uses this information to make decisions about when to extend conversations in order to accrue more affective information if the representation of the association is not coherent. Our primary contribution is providing a NICO robot with the ability to learn the affective associations between a perceived auditory stimulus and an emotional expression. NICO is able to do this for both individual subjects and specific stimuli, with the aid of an emotion-driven dialogue system that rectifies emotional expression incoherences. The robot is then able to use this information to determine a subject's enjoyment of perceived auditory stimuli in a real HRI scenario.
翻訳日:2021-03-10 10:06:35 公開日:2021-03-05
# (参考訳) ODIN: 位相変化RAMにおけるその場ニューラルネットワーク処理のためのビットパラレル確率的算術ベース加速器 [全文訳有]

ODIN: A Bit-Parallel Stochastic Arithmetic Based Accelerator for In-Situ Neural Network Processing in Phase Change RAM ( http://arxiv.org/abs/2103.03953v1 )

ライセンス: CC0 1.0
Supreeth Mysore Shivanandamurthy, Ishan. G. Thakkar, Sayed Ahmad Salehi(参考訳) ANN(Artificial Neural Networks)が機械学習やAI(Artificial Intelligence)に関連する現実世界のアプリケーションで急速に普及しているため、ANNのハードウェアアクセラレーター設計が最近提案されている。 本論文では,マルチプライ累積(MAC),非線形アクティベーション,プーリングといった重要なANN関数を低オーバーヘッドで加速するために,ハイブリッドバイナリ確率ビット並列演算インサイド位相変化RAM (PCRAM) を採用した ODIN と呼ばれる新しい処理インメモリ (PIM) エンジンを提案する。 4つのANNベンチマークアプリケーションをODIN上にマップし、従来のプロセッサ中心の設計とクロスバーベースのANNアクセラレータと比較した。 検討されたANNトポロジの分析の結果は、ODIN加速器が少なくとも5.8倍速く、23.2倍エネルギー効率が高く、最大90.8倍速く、1554倍エネルギー効率が高いことを示しています。

Due to the very rapidly growing use of Artificial Neural Networks (ANNs) in real-world applications related to machine learning and Artificial Intelligence (AI), several hardware accelerator de-signs for ANNs have been proposed recently. In this paper, we present a novel processing-in-memory (PIM) engine called ODIN that employs hybrid binary-stochastic bit-parallel arithmetic in-side phase change RAM (PCRAM) to enable a low-overhead in-situ acceleration of all essential ANN functions such as multiply-accumulate (MAC), nonlinear activation, and pooling. We mapped four ANN benchmark applications on ODIN to compare its performance with a conventional processor-centric design and a crossbar-based in-situ ANN accelerator from prior work. The results of our analysis for the considered ANN topologies indicate that our ODIN accelerator can be at least 5.8x faster and 23.2x more energy-efficient, and up to 90.8x faster and 1554x more energy-efficient, compared to the crossbar-based in-situ ANN accelerator from prior work.
翻訳日:2021-03-10 07:48:52 公開日:2021-03-05
# (参考訳) 畳み込みネットワークに基づく表情の連続学習のための共有表現を用いたアンサンブル [全文訳有]

An Ensemble with Shared Representations Based on Convolutional Networks for Continually Learning Facial Expressions ( http://arxiv.org/abs/2103.03934v1 )

ライセンス: CC BY 4.0
Henrique Siqueira, Pablo Barros, Sven Magg and Stefan Wermter(参考訳) 表情を継続的に学習できるソーシャルロボットは、対話する人々に対する感情認識能力を徐々に改善することができる。 アンサンブル予測による半教師付き学習は、人間とロボットの相互作用中に不規則な表情の高い露出を利用するための効率的な戦略です。 しかし、従来のアンサンブルベースのシステムは、高い冗長性、不必要な計算資源の割り当てにつながる複数の独立した分類器で構成されている。 本稿では,初期層が強い低レベル特徴抽出器である畳み込みネットワークに基づくアンサンブルを提案し,それらの表現を畳み込み枝の組合わせで共有する。 その結果、低レベルの特徴処理の冗長性が著しく低下する。 半教師付き環境下でのトレーニングでは,異なるデータ分布の未学習サンプルを用いて,アンサンブル予測によって表情を継続的に学習できることを示す。

Social robots able to continually learn facial expressions could progressively improve their emotion recognition capability towards people interacting with them. Semi-supervised learning through ensemble predictions is an efficient strategy to leverage the high exposure of unlabelled facial expressions during human-robot interactions. Traditional ensemble-based systems, however, are composed of several independent classifiers leading to a high degree of redundancy, and unnecessary allocation of computational resources. In this paper, we proposed an ensemble based on convolutional networks where the early layers are strong low-level feature extractors, and their representations shared with an ensemble of convolutional branches. This results in a significant drop in redundancy of low-level features processing. Training in a semi-supervised setting, we show that our approach is able to continually learn facial expressions through ensemble predictions using unlabelled samples from different data distributions.
翻訳日:2021-03-10 04:13:53 公開日:2021-03-05
# (参考訳) 自己相似性と平滑性を用いたCT投影の補間 [全文訳有]

Interpolation of CT Projections by Exploiting Their Self-Similarity and Smoothness ( http://arxiv.org/abs/2103.03968v1 )

ライセンス: CC BY 4.0
Davood Karimi and Rabab K. Ward(参考訳) CT(Computerd Tomography)の医学的使用が増加するにつれて、放射線線量は健康リスクを減らすために低レベルにとどまるべきである。 そのため,低線量スキャンから高品質な画像を再構成するアルゴリズムの必要性が高まっている。 この点において、最近の研究の多くは反復的再構成アルゴリズムに焦点を合わせており、予測値の復元にはほとんど注意が払われていない。 本稿では,新しいシングラム補間アルゴリズムを提案する。 提案アルゴリズムは, シングラムの自己相似性と滑らか性を利用する。 Sinogram self-similarity is modeled by terms of the similarity of small block extract from stacked projections。 滑らかさは第2次総変動によってモデル化される。 シミュレーションおよび実ctデータを用いた実験により,提案アルゴリズムとのシンノグラム補間により,特に低線量スキャンにおいて,再構成画像の品質が大幅に向上することが示された。 提案手法は、投影測定の回数を大幅に削減することができる。 これにより、リモートサイトで再構築を行う場合、放射線線量と保存または送信する必要があるデータの量も削減されます。

As the medical usage of computed tomography (CT) continues to grow, the radiation dose should remain at a low level to reduce the health risks. Therefore, there is an increasing need for algorithms that can reconstruct high-quality images from low-dose scans. In this regard, most of the recent studies have focused on iterative reconstruction algorithms, and little attention has been paid to restoration of the projection measurements, i.e., the sinogram. In this paper, we propose a novel sinogram interpolation algorithm. The proposed algorithm exploits the self-similarity and smoothness of the sinogram. Sinogram self-similarity is modeled in terms of the similarity of small blocks extracted from stacked projections. The smoothness is modeled via second-order total variation. Experiments with simulated and real CT data show that sinogram interpolation with the proposed algorithm leads to a substantial improvement in the quality of the reconstructed image, especially on low-dose scans. The proposed method can result in a significant reduction in the number of projection measurements. This will reduce the radiation dose and also the amount of data that need to be stored or transmitted, if the reconstruction is to be performed in a remote site.
翻訳日:2021-03-10 04:02:38 公開日:2021-03-05
# (参考訳) 深さ推定と3次元物体検出のためのスパースLiDARとステレオ融合(SLS-Fusion) [全文訳有]

Sparse LiDAR and Stereo Fusion (SLS-Fusion) for Depth Estimationand 3D Object Detection ( http://arxiv.org/abs/2103.03977v1 )

ライセンス: CC BY 4.0
Nguyen Anh Minh Mai, Pierre Duthon, Louahdi Khoudour, Alain Crouzil, Sergio A. Velastin(参考訳) オブジェクトを正確に検出し、ローカライズする能力は、自動運転車の認識にとって最も重要であると認識されています。 2Dから3Dの物体検出まで、最も難しいのは、自我から物体までの距離を決定することです。 LiDARのような高価な技術は正確な深度情報を提供するので、ほとんどの研究はLiDARベースの方法とカメラベースの方法の間にパフォーマンスのギャップを示すこのセンサーに焦点を当てる傾向にある。 多くの研究者が、RGBカメラでLiDARを融合する方法を研究しているが、3Dオブジェクト検出タスクのためのディープニューラルネットワークにLiDARとステレオを融合させる研究はない。 SLS-Fusionは、4ビームLiDARとステレオカメラからのデータをニューラルネットワークで融合して深度推定を行い、より高密度な深度マップを実現し、3次元物体検出性能を向上させる。 4ビームのLiDARは64ビームのLiDARよりも安価であるため、この手法は低コストのセンサベース手法に分類される。 提案手法は, KITTI ベンチマークによる評価により, ベースライン法と比較して, 深度推定性能を著しく向上することを示した。 また、これを3次元物体検出に適用する場合、低コストのセンサベース手法による新しい技術の現状が達成される。

The ability to accurately detect and localize objects is recognized as being the most important for the perception of self-driving cars. From 2D to 3D object detection, the most difficult is to determine the distance from the ego-vehicle to objects. Expensive technology like LiDAR can provide a precise and accurate depth information, so most studies have tended to focus on this sensor showing a performance gap between LiDAR-based methods and camera-based methods. Although many authors have investigated how to fuse LiDAR with RGB cameras, as far as we know there are no studies to fuse LiDAR and stereo in a deep neural network for the 3D object detection task. This paper presents SLS-Fusion, a new approach to fuse data from 4-beam LiDAR and a stereo camera via a neural network for depth estimation to achieve better dense depth maps and thereby improves 3D object detection performance. Since 4-beam LiDAR is cheaper than the well-known 64-beam LiDAR, this approach is also classified as a low-cost sensors-based method. Through evaluation on the KITTI benchmark, it is shown that the proposed method significantly improves depth estimation performance compared to a baseline method. Also, when applying it to 3D object detection, a new state of the art on low-cost sensor based method is achieved.
翻訳日:2021-03-10 03:53:32 公開日:2021-03-05
# (参考訳) Pufferfish: 余計なコストでコミュニケーション効率の高いモデル [全文訳有]

Pufferfish: Communication-effici ent Models At No Extra Cost ( http://arxiv.org/abs/2103.03936v1 )

ライセンス: CC BY 4.0
Hongyi Wang, Saurabh Agarwal, Dimitris Papailiopoulos(参考訳) 分散モデルトレーニングにおける通信オーバーヘッドを軽減するために、いくつかの研究は圧縮確率勾配の使用を提案している。 このような手法は高い圧縮比を達成するが、多くの場合、かなりの計算オーバーヘッドまたはある程度の精度の損失を生じる。 本稿では,低ランクで事前構成された深層ネットワークをトレーニングすることで,勾配圧縮をモデルトレーニングプロセスに組み込む通信・計算効率のよい分散トレーニングフレームワークであるPufferfishを提案する。 Pufferfishは通信を減らすだけでなく、圧縮に関連する計算オーバーヘッドを完全に回避し、最先端の既成の深層モデルと同じ精度を達成する。 Pufferfishは、最小限の実装変更で現在のディープラーニングフレームワークに直接統合することができる。 さまざまな大規模な機械学習タスクにわたって、実際の分散セットアップに関する広範な実験により、PyTorchの最新の分散トレーニングAPIに対して、Pufferfishが最大1.64倍のエンドツーエンドのスピードアップを達成できることが示されています。 Lottery Ticket仮説モデルと比較すると、Pufferfishは「宝くじに勝つ」という負担を回避しつつ、同じくらい正確で小さなパラメータモデルを生み出す。 Pufferfishはまた、SOTA構造化モデルプルーニング法よりも正確で小さなモデルを生み出す。

To mitigate communication overheads in distributed model training, several studies propose the use of compressed stochastic gradients, usually achieved by sparsification or quantization. Such techniques achieve high compression ratios, but in many cases incur either significant computational overheads or some accuracy loss. In this work, we present Pufferfish, a communication and computation efficient distributed training framework that incorporates the gradient compression into the model training process via training low-rank, pre-factorized deep networks. Pufferfish not only reduces communication, but also completely bypasses any computation overheads related to compression, and achieves the same accuracy as state-of-the-art, off-the-shelf deep models. Pufferfish can be directly integrated into current deep learning frameworks with minimum implementation modification. Our extensive experiments over real distributed setups, across a variety of large-scale machine learning tasks, indicate that Pufferfish achieves up to 1.64x end-to-end speedup over the latest distributed training API in PyTorch without accuracy loss. Compared to the Lottery Ticket Hypothesis models, Pufferfish leads to equally accurate, small-parameter models while avoiding the burden of "winning the lottery". Pufferfish also leads to more accurate and smaller models than SOTA structured model pruning methods.
翻訳日:2021-03-09 21:26:20 公開日:2021-03-05
# AI安全のためのエージェント行動の因果分析

Causal Analysis of Agent Behavior for AI Safety ( http://arxiv.org/abs/2103.03938v1 )

ライセンス: Link先を確認
Gr\'egoire D\'eletang, Jordi Grau-Moya, Miljan Martic, Tim Genewein, Tom McGrath, Vladimir Mikulik, Markus Kunesch, Shane Legg, Pedro A. Ortega(参考訳) 機械学習システムがより強力になると、予測不能で不透明になる。 しかし、人間の理解可能な説明を見つけることは、彼らの安全なデプロイメントに不可欠である。 本報告では,人工エージェントの行動を促す因果メカニズムを調査する方法論について述べる。 6つのユースケースをカバーし、アナリストがエージェントについて尋ねる典型的な質問にそれぞれ対処します。 特に、各質問は純粋な観察だけでは対処できないが、適切な因果証拠を生成するために、体系的に選択された操作による実験を行う必要がある。

As machine learning systems become more powerful they also become increasingly unpredictable and opaque. Yet, finding human-understandable explanations of how they work is essential for their safe deployment. This technical report illustrates a methodology for investigating the causal mechanisms that drive the behaviour of artificial agents. Six use cases are covered, each addressing a typical question an analyst might ask about an agent. In particular, we show that each question cannot be addressed by pure observation alone, but instead requires conducting experiments with systematically chosen manipulations so as to generate the correct causal evidence.
翻訳日:2021-03-09 16:01:02 公開日:2021-03-05
# ニューロモルフィックプラットフォームにおける強化学習のためのデュアルメモリアーキテクチャ

A Dual-Memory Architecture for Reinforcement Learning on Neuromorphic Platforms ( http://arxiv.org/abs/2103.04780v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp, Yury Sokolov, Maxim Bazhenov(参考訳) 強化学習(RL)は、生物システムにおける学習の基礎であり、現実世界の人工知能アプリケーションで多くの課題に対処するためのフレームワークを提供します。 RL手法の効率的な実装により、エッジユースケースにデプロイされたエージェントは、ナビゲーションの改善、複雑な状況の理解、意思決定などの新しい能力を得ることができる。 この目標に向けて,ニューロモルフィックプラットフォーム上で強化学習を行うための柔軟なアーキテクチャについて述べる。 このアーキテクチャはIntelのニューロモーフィックプロセッサを用いて実装され、スパイキングダイナミクスを用いて様々なタスクを解くことを実証した。 本研究は,実世界のRL応用のためのエネルギー効率の良い解法を提案し,RL問題に対するニューロモルフィックプラットフォームの適用性を実証する。

Reinforcement learning (RL) is a foundation of learning in biological systems and provides a framework to address numerous challenges with real-world artificial intelligence applications. Efficient implementations of RL techniques could allow for agents deployed in edge-use cases to gain novel abilities, such as improved navigation, understanding complex situations and critical decision making. Towards this goal, we describe a flexible architecture to carry out reinforcement learning on neuromorphic platforms. This architecture was implemented using an Intel neuromorphic processor and demonstrated solving a variety of tasks using spiking dynamics. Our study proposes a usable energy efficient solution for real-world RL applications and demonstrates applicability of the neuromorphic platforms for RL problems.
翻訳日:2021-03-09 15:59:15 公開日:2021-03-05
# LOHO:直交によるヘアスタイルの遅延最適化

LOHO: Latent Optimization of Hairstyles via Orthogonalization ( http://arxiv.org/abs/2103.03891v1 )

ライセンス: Link先を確認
Rohit Saha and Brendan Duke and Florian Shkurti and Graham W. Taylor and Parham Aarabi(参考訳) 毛髪形態の移動は源およびターゲット毛の毛の構造の相違による挑戦的です。 そこで本研究では, 髪型移動時において, ヘア構造の詳細を埋め込むため, GANインバージョンを用いた最適化手法である, オルソゴン化によるヘアスタイルの潜在最適化(LOHO)を提案する。 提案手法は毛髪を知覚的構造,外観,スタイルの3つの属性に分解し,それぞれの属性を個別にモデル化するための調整された損失を含む。 さらに,2段階最適化とグラデーション直交化を提案し,毛髪特性の分散ラタン空間最適化を可能にした。 潜時空間操作にLOHOを用いると、ユーザーは毛髪属性を個別または共同で操作し、所望の属性を基準髪型から転送することで、新しい写実画像を生成することができる。 LOHOはヘアスタイル転送のための現在の最先端技術(SOTA)と比較して優れたFIDを達成する。 さらに、LOHOは、SOTA画像埋め込みパイプラインと比較して、PSNRとSSIMに応じて、被験者のアイデンティティを良好に保持する。

Hairstyle transfer is challenging due to hair structure differences in the source and target hair. Therefore, we propose Latent Optimization of Hairstyles via Orthogonalization (LOHO), an optimization-based approach using GAN inversion to infill missing hair structure details in latent space during hairstyle transfer. Our approach decomposes hair into three attributes: perceptual structure, appearance, and style, and includes tailored losses to model each of these attributes independently. Furthermore, we propose two-stage optimization and gradient orthogonalization to enable disentangled latent space optimization of our hair attributes. Using LOHO for latent space manipulation, users can synthesize novel photorealistic images by manipulating hair attributes either individually or jointly, transferring the desired attributes from reference hairstyles. LOHO achieves a superior FID compared with the current state-of-the-art (SOTA) for hairstyle transfer. Additionally, LOHO preserves the subject's identity comparably well according to PSNR and SSIM when compared to SOTA image embedding pipelines.
翻訳日:2021-03-09 15:55:41 公開日:2021-03-05
# labelCloud: ポイントクラウド内の3Dオブジェクト検出のための軽量なドメイン非依存ラベルツール

labelCloud: A Lightweight Domain-Independent Labeling Tool for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2103.04970v1 )

ライセンス: Link先を確認
Christoph Sager, Patrick Zschech, Niklas K\"uhl(参考訳) 過去10年の間に、一般的な人工知能(AI)と特定の機械学習(ML)に基づくアプリケーションの台頭は、さまざまな領域で多くの重要な貢献をもたらしました。 応用範囲はロボット工学から医療診断から自動運転まで多岐にわたる。 しかし、ほとんどすべてのアプリケーションは訓練されたデータに依存します。 このデータが3D画像で構成されている場合、ラベル付けが可能な限り正確であり、MLモデルの高品質の結果を保証することが非常に重要です。 3D空間でのラベル付けは、主に専門家が行う手作業であり、MLモデルが後で自動的に識別すべきターゲットオブジェクトの周りに3Dバウンディングボックスを描画します。 最近の3Dラベリングツールの小さな範囲は存在するが、これらはすべて3つの大きな欠点を共有している。(i) 自動運転アプリケーションに指定されている、(ii) 利便性と快適性が欠けている、(iii) データフォーマットの依存関係が高く、柔軟性が少ない。 そこで本研究では,点群における3次元物体検出のための新しいラベリングツールを提案する。

Within the past decade, the rise of applications based on artificial intelligence (AI) in general and machine learning (ML) in specific has led to many significant contributions within different domains. The applications range from robotics over medical diagnoses up to autonomous driving. However, nearly all applications rely on trained data. In case this data consists of 3D images, it is of utmost importance that the labeling is as accurate as possible to ensure high-quality outcomes of the ML models. Labeling in the 3D space is mostly manual work performed by expert workers, where they draw 3D bounding boxes around target objects the ML model should later automatically identify, e.g., pedestrians for autonomous driving or cancer cells within radiography. While a small range of recent 3D labeling tools exist, they all share three major shortcomings: (i) they are specified for autonomous driving applications, (ii) they lack convenience and comfort functions, and (iii) they have high dependencies and little flexibility in data format. Therefore, we propose a novel labeling tool for 3D object detection in point clouds to address these shortcomings.
翻訳日:2021-03-09 15:54:02 公開日:2021-03-05
# FedV: 垂直分割データに対するプライバシー保護フェデレーション学習

FedV: Privacy-Preserving Federated Learning over Vertically Partitioned Data ( http://arxiv.org/abs/2103.03918v1 )

ライセンス: Link先を確認
Runhua Xu, Nathalie Baracaldo, Yi Zhou, Ali Anwar, James Joshi, Heiko Ludwig(参考訳) フェデレーションラーニング(Federated Learning, FFL)は、複数のパーティ間で機械学習(ML)モデルの協調トレーニングを可能にするために提案されている。 このパラダイムでは、モデルウェイトや勾配のようなモデル更新のみが共有されます。 既存のアプローチの多くは水平flに注目しており、各パーティがトレーニングデータセット内の機能セットとラベルをすべて持っている。 しかし、多くの実際のシナリオは、垂直分割されたFLセットアップに従います。完全な機能セットは、パーティーのすべてのデータセットが結合された場合にのみ形成され、ラベルは単一のパーティーでのみ利用できます。 ラベルと機能の完全なセットが1つのエンティティによって所有されていないため、プライバシー保護垂直FLは困難です。 既存の垂直FLのアプローチでは、パーティ間で複数のピアツーピア通信が必要であり、長いトレーニング時間をもたらし、(近似された)線形モデルと2つのパーティに制限される。 このギャップを埋めるために、線形モデルやロジスティック回帰、サポートベクターマシンなど、広く使われているMLモデルの垂直設定における安全な勾配計算のためのフレームワークであるFedVを提案する。 FedVは、機能的な暗号化スキームを使用することで、当事者間のピアツーピア通信の必要性を排除します。 また、より大きく変化したパーティーでも機能する。 本研究では,複数種類のmlモデルに適用可能なことを示すとともに,トレーニング時間の10%~70%,データ転送の80%から90%の削減効果を示す。

Federated learning (FL) has been proposed to allow collaborative training of machine learning (ML) models among multiple parties where each party can keep its data private. In this paradigm, only model updates, such as model weights or gradients, are shared. Many existing approaches have focused on horizontal FL, where each party has the entire feature set and labels in the training data set. However, many real scenarios follow a vertically-partition ed FL setup, where a complete feature set is formed only when all the datasets from the parties are combined, and the labels are only available to a single party. Privacy-preserving vertical FL is challenging because complete sets of labels and features are not owned by one entity. Existing approaches for vertical FL require multiple peer-to-peer communications among parties, leading to lengthy training times, and are restricted to (approximated) linear models and just two parties. To close this gap, we propose FedV, a framework for secure gradient computation in vertical settings for several widely used ML models such as linear models, logistic regression, and support vector machines. FedV removes the need for peer-to-peer communication among parties by using functional encryption schemes; this allows FedV to achieve faster training times. It also works for larger and changing sets of parties. We empirically demonstrate the applicability for multiple types of ML models and show a reduction of 10%-70% of training time and 80% to 90% in data transfer with respect to the state-of-the-art approaches.
翻訳日:2021-03-09 15:52:46 公開日:2021-03-05
# GEDI LIDAR波形とベイズ深層学習による世界キャノピー高さ推定

Global canopy height estimation with GEDI LIDAR waveforms and Bayesian deep learning ( http://arxiv.org/abs/2103.03975v1 )

ライセンス: Link先を確認
Nico Lang, Nikolai Kalischek, John Armston, Konrad Schindler, Ralph Dubayah, Jan Dirk Wegner(参考訳) NASAのGlobal Ecosystem Dynamics Investigation(GEDI)は、地球規模の炭素循環における森林の役割の理解を深めることを目的としている重要な気候ミッションである。 GEDIは、地上のバイオマスを推定する垂直森林構造を測定するために明示的に最適化された最初の宇宙ベースのLIDARであるが、この膨大な波形データの幅広い観測および環境条件の正確な解釈は困難である。 本稿では,gedi波形とレグレッシブキャノピー頂高さをグローバルに解釈するための教師あり機械学習手法を提案する。 本研究では,大気雑音などの未知効果の明確なモデル化を避けるために,ベイズ畳み込みニューラルネットワーク(CNN)を提案する。 このモデルは、目に見えない地理的領域に一般化するロバストな特徴を抽出し、さらに予測の不確実性の信頼性を推定する。 最終的に、私たちのモデルによって生成されたグローバルキャノピートップ高さ推定は、低バイアスで2.7 mの予想RMSEを持っています。

NASA's Global Ecosystem Dynamics Investigation (GEDI) is a key climate mission whose goal is to advance our understanding of the role of forests in the global carbon cycle. While GEDI is the first space-based LIDAR explicitly optimized to measure vertical forest structure predictive of aboveground biomass, the accurate interpretation of this vast amount of waveform data across the broad range of observational and environmental conditions is challenging. Here, we present a novel supervised machine learning approach to interpret GEDI waveforms and regress canopy top height globally. We propose a Bayesian convolutional neural network (CNN) to avoid the explicit modelling of unknown effects, such as atmospheric noise. The model learns to extract robust features that generalize to unseen geographical regions and, in addition, yields reliable estimates of predictive uncertainty. Ultimately, the global canopy top height estimates produced by our model have an expected RMSE of 2.7 m with low bias.
翻訳日:2021-03-09 15:49:30 公開日:2021-03-05
# ES-Net: 効率的なステレオマッチングネットワーク

ES-Net: An Efficient Stereo Matching Network ( http://arxiv.org/abs/2103.03922v1 )

ライセンス: Link先を確認
Zhengyu Huang, Theodore B. Norris, Panqu Wang(参考訳) ディープニューラルネットワークとのディセンスステレオマッチングは、研究コミュニティにとって非常に興味深いものです。 既存のステレオマッチングネットワークは通常、低速で計算的に高価な3D畳み込みを使用してパフォーマンスを向上させます。 本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。 ESNetは2次元畳み込みのみを頼りに、ワーピング方式で効率的にマルチスケールコストボリュームを算出し、細部の細かい領域での性能を向上させます。 さらに、ESNetの変種であるESNet-Mを監督なしで閉塞マスクを推定する提案を行い、閉塞領域の一致曖昧性問題に対処します。 データセットスケジューリングと教師なし事前トレーニングを含む新しいトレーニングスキームを提案し、ネットワークパフォーマンスをさらに向上させます。 提案手法は,他の低コスト高密度ステレオ深度推定法と比較して,Scene Flow [1], DrivingStereo [2], KITTI-2015 データセットの最先端性能を実現する。 コードが利用可能になります。

Dense stereo matching with deep neural networks is of great interest to the research community. Existing stereo matching networks typically use slow and computationally expensive 3D convolutions to improve the performance, which is not friendly to real-world applications such as autonomous driving. In this paper, we propose the Efficient Stereo Network (ESNet), which achieves high performance and efficient inference at the same time. ESNet relies only on 2D convolution and computes multi-scale cost volume efficiently using a warping-based method to improve the performance in regions with fine-details. In addition, we address the matching ambiguity issue in the occluded region by proposing ESNet-M, a variant of ESNet that additionally estimates an occlusion mask without supervision. We further improve the network performance by proposing a new training scheme that includes dataset scheduling and unsupervised pre-training. Compared with other low-cost dense stereo depth estimation methods, our proposed approach achieves state-of-the-art performance on the Scene Flow [1], DrivingStereo [2], and KITTI-2015 dataset [3]. Our code will be made available.
翻訳日:2021-03-09 15:43:49 公開日:2021-03-05
# CTにおける肺結節の複数属性解析のための注意強化クロスタスクネットワーク

Attention-Enhanced Cross-Task Network for Analysing Multiple Attributes of Lung Nodules in CT ( http://arxiv.org/abs/2103.03931v1 )

ライセンス: Link先を確認
Xiaohang Fu, Lei Bi, Ashnil Kumar, Michael Fulham, and Jinman Kim(参考訳) 肺結節の発芽,発芽,石灰化などの視覚特性の正確な特徴は,がん管理において重要である。 これらの属性の特徴付けはしばしば主観的であり、これは高いオブジェクト間およびオブジェクト内変動をもたらす可能性がある。 さらに、肺結節は3dボリュームの断面画像スライスにおいてしばしば異種である。 複数の属性をスコアリングする現在の最先端手法は、深層学習に基づくマルチタスク学習(MTL)方式に依存している。 しかし、これらのメソッドは属性間で共有された視覚的特徴を抽出し、固有の相関を明示的に活用せずに各属性を調べます。 さらに、現在のメソッドは、各スライスの関連性や不均質性を考慮せずに、等しい重要性で扱うか、またはパフォーマンスを制限する入力スライスの数を制限する。 本研究では,新しい畳み込みニューラルネットワーク(CNN)を用いたMTLモデルを用いて,CT画像量における肺結節の9つの視覚的特性を同時に評価する手法を提案する。 モデルでは任意の深さのnoduleボリューム全体を処理し,無関係なスライスをフィルタするためにslice attentionモジュールを使用する。 また,属性間の関連性を活用するために,意味表現の最適アマルガメーションを学習する属性特化モジュールも導入する。 本モデルは,肺結節のLIDC-IDRIデータセットを用いて,従来の評価方法よりも優れていた。 当社の注意モジュールは、モデルの予測に関する洞察を提供する、分かりやすい重み付けも提供します。

Accurate characterisation of visual attributes such as spiculation, lobulation, and calcification of lung nodules is critical in cancer management. The characterisation of these attributes is often subjective, which may lead to high inter- and intra-observer variability. Furthermore, lung nodules are often heterogeneous in the cross-sectional image slices of a 3D volume. Current state-of-the-art methods that score multiple attributes rely on deep learning-based multi-task learning (MTL) schemes. These methods, however, extract shared visual features across attributes and then examine each attribute without explicitly leveraging their inherent intercorrelations. Furthermore, current methods either treat each slice with equal importance without considering their relevance or heterogeneity, or restrict the number of input slices, which limits performance. In this study, we address these challenges with a new convolutional neural network (CNN)-based MTL model that incorporates attention modules to simultaneously score 9 visual attributes of lung nodules in computed tomography (CT) image volumes. Our model processes entire nodule volumes of arbitrary depth and uses a slice attention module to filter out irrelevant slices. We also introduce cross-attribute and attribute specialisation attention modules that learn an optimal amalgamation of meaningful representations to leverage relationships between attributes. We demonstrate that our model outperforms previous state-of-the-art methods at scoring attributes using the well-known public LIDC-IDRI dataset of pulmonary nodules from over 1,000 patients. Our attention modules also provide easy-to-interpret weights that offer insights into the predictions of the model.
翻訳日:2021-03-09 15:43:29 公開日:2021-03-05
# ポルトガル語の点字テキストにおける転写誤りを軽減させる自動的アプローチ

An automated approach to mitigate transcription errors in braille texts for the Portuguese language ( http://arxiv.org/abs/2103.03935v1 )

ライセンス: Link先を確認
Andr\'e Roberto Ortoncelli and Marlon Marcon and Franciele Beal(参考訳) ブラジルのクォータ制度は、高等教育に盲目の学生を含めることを可能にした。 点字システムに関する教師の知識の欠如は、それらとそれを読み書きに使う学生の間の障壁を表している。 コンピュータビジョンベースの転写ソリューションは、このシステムの理解制限を減らすメカニズムを表す。 しかし、このようなツールは、照明、ノイズ、スケールなどの画像処理システム固有の迷惑に直面し、その結果を害します。 本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。 本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。 提案手法を合成画像のデータセット上で検証し, 異なる雑音レベルに適用し, 提案手法の頑健性を検証する。 実験の結果, 標準手法と比較し, 溶液の有効性を確認した。 本論文のコントリビューションとして,実使用条件に対する堅牢かつ適応可能なソリューションをサポートする方法を提供することが期待されます。

The quota system in Brazil made it possible to include blind students in higher education. Teachers' lack of knowledge about the braille system can represent a barrier between them and students who use it for writing and reading. Computer-vision-base d transcription solutions represent mechanisms for reducing understanding restrictions on this system. However, such tools face nuisances inherent to image processing systems, e.g., illumination, noise, and scale, harming the result. This paper presents an automated approach to mitigate transcription errors in braille texts for the Portuguese language. We propose a selection function, combined with dictionaries, that provides the best correspondence of words based on their braille representation. We validated our proposal on a dataset of synthetic images by submitting them to different noise levels and testing the proposal's robustness. Experimental results confirm the effectiveness of the solution compared to a standard approach. As a contribution of this paper, we expect to provide a method to support robust and adaptable solutions to real use conditions.
翻訳日:2021-03-09 15:43:06 公開日:2021-03-05
# 一般化スライスワッサーシュタイン埋め込みを用いた集合表現学習

Set Representation Learning with Generalized Sliced-Wasserstein Embeddings ( http://arxiv.org/abs/2103.03892v1 )

ライセンス: Link先を確認
Navid Naderializadeh, Soheil Kolouri, Joseph F. Comer, Reed W. Andrews, Heiko Hoffmann(参考訳) 集合構造データからの学習表現を扱う機械学習タスクが増えている。 これらの問題に対する解決策は、置換等変性モジュール(例えば、自己アテンション、またはフィードフォワードニューラルネットワークによる個々の処理)と置換不変モジュール(例えば、グローバル平均プーリング、マルチヘッドの注意によるプーリング)の構成を含む。 本稿では,最適質量輸送問題に根ざした集合構造データから表現を学習するための幾何学的解釈可能なフレームワークを提案する。 特に,集合の要素を確率測度からサンプルとして扱い,集合構造データから効率的に学習するための一般化スライスワッサースタイン距離(gsw)に対する完全ユークリッド埋め込みを提案する。 我々は,複数の教師付きおよび教師なし集合学習タスクに関する提案フレームワークを評価し,最先端集合表現学習アプローチに対するその優位性を実証する。

An increasing number of machine learning tasks deal with learning representations from set-structured data. Solutions to these problems involve the composition of permutation-equivari ant modules (e.g., self-attention, or individual processing via feed-forward neural networks) and permutation-invarian t modules (e.g., global average pooling, or pooling by multi-head attention). In this paper, we propose a geometrically-interp retable framework for learning representations from set-structured data, which is rooted in the optimal mass transportation problem. In particular, we treat elements of a set as samples from a probability measure and propose an exact Euclidean embedding for Generalized Sliced Wasserstein (GSW) distances to learn from set-structured data effectively. We evaluate our proposed framework on multiple supervised and unsupervised set learning tasks and demonstrate its superiority over state-of-the-art set representation learning approaches.
翻訳日:2021-03-09 15:30:10 公開日:2021-03-05
# インフォームドクラスタリングとモデリングによるシーケンスデータの新規性検出

Novelty Detection in Sequential Data by Informed Clustering and Modeling ( http://arxiv.org/abs/2103.03943v1 )

ライセンス: Link先を確認
Linara Adilova, Siming Chen, Michael Kamp(参考訳) 通常のデータを生成するプロセスからの逸脱は、しばしば小さく、意図的に隠されるため、離散シーケンスにおけるノベルティ検出は難しい作業です。 正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。 しかし、多くのアプリケーションでは、データは複数の異なるプロセスによって生成されるため、すべてのデータで訓練されたモデルは過剰に一般化され、新規性は検出されない。 データをクラスタリングすることで問題を分解し、より正確にモデル化可能な各クラスタのよりシンプルなモデリングタスクを得る。 しかし、クラスタ当たりのトレーニングデータの量が削減されるため、これはトレードオフになる。 これは、最先端のモデルがデータ格納型である離散シーケンスでは特に問題である。 このアプローチの成功はクラスタリングの品質、すなわち個々の学習問題が共同問題よりも十分単純であるかどうかに依存する。 離散シーケンスの自動クラスタリングは困難でドメイン固有のタスクだが、適切なツールを考えると、多くの場合、人間のドメインエキスパートにとって容易である。 本稿では、離散シーケンスクラスタリングのための最先端のビジュアル分析ツールを適用し、ドメインエキスパートから情報クラスタを取得し、LSTMを用いて各クラスタを個別にモデル化する。 また,本手法は,実世界の3つのシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法よりも優れていることを示す。 特に、各クラスタのトレーニングデータが少ないにもかかわらず、分解はグローバルモデルを上回る。

Novelty detection in discrete sequences is a challenging task, since deviations from the process generating the normal data are often small or intentionally hidden. Novelties can be detected by modeling normal sequences and measuring the deviations of a new sequence from the model predictions. However, in many applications data is generated by several distinct processes so that models trained on all the data tend to over-generalize and novelties remain undetected. We propose to approach this challenge through decomposition: by clustering the data we break down the problem, obtaining simpler modeling task in each cluster which can be modeled more accurately. However, this comes at a trade-off, since the amount of training data per cluster is reduced. This is a particular problem for discrete sequences where state-of-the-art models are data-hungry. The success of this approach thus depends on the quality of the clustering, i.e., whether the individual learning problems are sufficiently simpler than the joint problem. While clustering discrete sequences automatically is a challenging and domain-specific task, it is often easy for human domain experts, given the right tools. In this paper, we adapt a state-of-the-art visual analytics tool for discrete sequence clustering to obtain informed clusters from domain experts and use LSTMs to model each cluster individually. Our extensive empirical evaluation indicates that this informed clustering outperforms automatic ones and that our approach outperforms state-of-the-art novelty detection methods for discrete sequences in three real-world application scenarios. In particular, decomposition outperforms a global model despite less training data on each individual cluster.
翻訳日:2021-03-09 15:29:53 公開日:2021-03-05
# 実シナリオにおける多目的ゴミ蓄積点の厳密かつヒューリスティックなアプローチ

Exact and heuristic approaches for multi-objective garbage accumulation points location in real scenarios ( http://arxiv.org/abs/2103.04826v1 )

ライセンス: Link先を確認
Diego Gabriel Rossit, Jamal Toutouh, and Sergio Nesmachnow(参考訳) 都市ごみ処理は, 公共予算の大部分を占め, 誤操作によって環境問題や社会問題につながる可能性があるため, 都市社会にとって大きな課題となっている。 この研究は、逆ロジスティックチェーンの全体的な効率に強い影響を及ぼすと考えられている都市部における廃棄物箱の配置の問題に焦点を当てています。 本稿は,システムへのアクセシビリティ(サービス品質の指標として),投資コスト,ビンからの廃棄物除去に必要な頻度(後方ルーティングコストの指標として)が考慮される廃棄物箱の場所を解決するための,完全な多目的アプローチを提案する。 本手法では, パレート前線における目的の理想とnadir値の異なる方法を提案し, 比較を行った。 そこで,PageRankアルゴリズムに基づくヒューリスティック手法のファミリーを提案し,システムへのアクセシビリティ,収集した廃棄物量,インストールコストを最適化することを目的とした。 実験的な評価は、アルゼンチンのモンテビデオ、ウルグアイ、バールシアブランカの都市の現実世界のシナリオで行われました。 その結果,最適化基準間のトレードオフを考慮に入れた候補解の集合を構築するための提案手法の競争性を示した。

Municipal solid waste management is a major challenge for nowadays urban societies, because it accounts for a large proportion of public budget and, when mishandled, it can lead to environmental and social problems. This work focuses on the problem of locating waste bins in an urban area, which is considered to have a strong influence in the overall efficiency of the reverse logistic chain. This article contributes with an exact multiobjective approach to solve the waste bin location in which the optimization criteria that are considered are: the accessibility to the system (as quality of service measure), the investment cost, and the required frequency of waste removal from the bins (as a proxy of the posterior routing costs). In this approach, different methods to obtain the objectives ideal and nadir values over the Pareto front are proposed and compared. Then, a family of heuristic methods based on the PageRank algorithm is proposed which aims to optimize the accessibility to the system, the amount of collected waste and the installation cost. The experimental evaluation was performed on real-world scenarios of the cities of Montevideo, Uruguay, and Bah\'ia Blanca, Argentina. The obtained results show the competitiveness of the proposed approaches for constructing a set of candidate solutions that considers the different trade-offs between the optimization criteria.
翻訳日:2021-03-09 15:23:00 公開日:2021-03-05
# シュルツ投票法における細粒度複雑さとアルゴリズム

Fine-Grained Complexity and Algorithms for the Schulze Voting Method ( http://arxiv.org/abs/2103.03959v1 )

ライセンス: Link先を確認
Krzysztof Sornat, Virginia Vassilevska Williams, Yinzhan Xu(参考訳) シュルツェ法(Schulze method[Schulze, 2003])と呼ばれる、よく知られた単一勝者投票規則の計算的側面について研究する。 この方法では、有権者は対の候補間の直接比較の重み付き多数決グラフ(wmg)を定義するために使われる順序選好投票(弱)を与える。 勝者の選択は、グラフの間接的比較、およびより具体的には、候補者間の直接比較ではなく、指示されたパスを検討することから来ています。 入力がWMGであるとき、私たちの知識によると、Schulzeメソッドのすべての勝者を計算するための最速のアルゴリズムは、オールペアボトルネックパス(APBP)問題への民話還元を使用し、$O(m^{2.69})$時間で実行され、$m$は候補者の数です。 これが改善できるかどうかは、興味深い疑問である。 最初の結果は、すべての勝者を計算するためにほぼ2倍の実行時間を持つ組合せアルゴリズムです。 可能な勝者問題への入力がWMGではなく優先度プロファイルである場合、WMGの構築は実行時間を大幅に増加させるボトルネックである。特別の場合、$O(m)$有権者および候補者がある場合、実行時間は$O(m^{2.69})$、または$O(m^{2.5})$になる。 このボトルネックに対処するため、よく研究されている支配的製品問題とWMGの計算問題との正式な等価性を証明した。 我々は、いわゆる支配ペア問題と、与えられた候補が勝者であるかどうかを検証する問題との類似性を証明する。 私たちの論文は、計算社会的選択の分野に微細な複雑さをもたらす最初のものです。 これを使用すると、多数の候補者や有権者にとって実用的ではない投票プロトコルを特定することができます。

We study computational aspects of a well-known single-winner voting rule called the Schulze method [Schulze, 2003] which is used broadly in practice. In this method the voters give (weak) ordinal preference ballots which are used to define the weighted majority graph (WMG) of direct comparisons between pairs of candidates. The choice of the winner comes from indirect comparisons in the graph, and more specifically from considering directed paths instead of direct comparisons between candidates. When the input is the WMG, to our knowledge, the fastest algorithm for computing all possible winners in the Schulze method uses a folklore reduction to the All-Pairs Bottleneck Paths (APBP) problem and runs in $O(m^{2.69})$ time, where $m$ is the number of candidates. It is an interesting open question whether this can be improved. Our first result is a combinatorial algorithm with a nearly quadratic running time for computing all possible winners. If the input to the possible winners problem is not the WMG but the preference profile, then constructing the WMG is a bottleneck that increases the running time significantly; in the special case when there are $O(m)$ voters and candidates, the running time becomes $O(m^{2.69})$, or $O(m^{2.5})$ if there is a nearly-linear time algorithm for multiplying dense square matrices. To address this bottleneck, we prove a formal equivalence between the well-studied Dominance Product problem and the problem of computing the WMG. We prove a similar connection between the so called Dominating Pairs problem and the problem of verifying whether a given candidate is a possible winner. Our paper is the first to bring fine-grained complexity into the field of computational social choice. Using it we can identify voting protocols that are unlikely to be practical for large numbers of candidates and/or voters, as their complexity is likely, say at least cubic.
翻訳日:2021-03-09 15:17:19 公開日:2021-03-05
# NF-GNN:マルウェア検出と分類のためのネットワークフローグラフニューラルネットワーク

NF-GNN: Network Flow Graph Neural Networks for Malware Detection and Classification ( http://arxiv.org/abs/2103.03939v1 )

ライセンス: Link先を確認
Julian Busch, Anton Kocheturov, Volker Tresp, Thomas Seidl(参考訳) 悪意あるソフトウェア(マルウェア)は、相互接続されたモバイルデバイスの数が指数関数的に増加するにつれて、通信システムのセキュリティに対する脅威が増大する。 既存のマルウェア検出と分類のアプローチはネットワークトラフィックデータを活用することに成功しているが、エンドポイント間のネットワークフローを独立して扱うため、ネットワーク全体の構造的依存関係を十分に活用できない。 このアプローチはまずフローグラフを抽出し,その後,新しいグラフニューラルネットワークモデルを用いて分類する。 監視および監視されていない設定でマルウェアの検出と分類をサポートする3つのベースモデルを紹介します。 最近公開されたモバイルマルウェア検出のためのデータセットから抽出したフローグラフのアプローチを評価し、以前に利用可能なデータセットに関するいくつかの問題に対処する。 4つの異なる予測タスクに関する実験は、一貫してこのアプローチの利点を実証し、グラフニューラルネットワークモデルが検出性能を大幅に向上させることができることを示した。

Malicious software (malware) poses an increasing threat to the security of communication systems, as the number of interconnected mobile devices increases exponentially. While some existing malware detection and classification approaches successfully leverage network traffic data, they treat network flows between pairs of endpoints independently and thus fail to leverage the rich structural dependencies in the complete network. Our approach first extracts flow graphs and subsequently classifies them using a novel graph neural network model. We present three variants of our base model, which all support malware detection and classification in supervised and unsupervised settings. We evaluate our approach on flow graphs that we extract from a recently published dataset for mobile malware detection that addresses several issues with previously available datasets. Experiments on four different prediction tasks consistently demonstrate the advantages of our approach and show that our graph neural network model can boost detection performance by a significant margin.
翻訳日:2021-03-09 15:15:56 公開日:2021-03-05
# CDLNet:Deep Convolutional Dictionary Learningによるロバストで解釈可能なDenoising

CDLNet: Robust and Interpretable Denoising Through Deep Convolutional Dictionary Learning ( http://arxiv.org/abs/2103.04779v1 )

ライセンス: Link先を確認
Nikola Janju\v{s}evi\'c, Amirhossein Khalilian-Gourtani, Yao Wang(参考訳) 深層学習に基づく手法は、画像の復調における最先端の結果を保持するが、バッチ正規化や残差学習、特徴領域処理といった、理解の行き届かない構成要素から構築されているため、解釈が困難である。 unrolled optimization networksは、通常のディープラーニングツールボックスからトリックを使わずに、古典的な反復的最適化手法からアーキテクチャを導出することで、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。 これまでのところ、そのような手法は、解釈可能な構成を用いて比較可能な低い学習パラメータ数を達成する一方で、最先端モデルに近いパフォーマンスを示している。 本研究では,未展開の畳み込み辞書学習ネットワーク (CDLNet) を提案し,低パラメータと高パラメータの両方で競合する消音性能を示す。 具体的には,同様のパラメータ数にスケールした場合,提案モデルが最先端のデノージングモデルを上回ることを示す。 さらに,本モデルの解釈可能な構成を利用して,学習中に見えない雑音レベルに対する最先端のブラインドデノイング性能とほぼ完璧な一般化を可能にする,ネットワークのしきい値の増大を提案する。

Deep learning based methods hold state-of-the-art results in image denoising, but remain difficult to interpret due to their construction from poorly understood building blocks such as batch-normalization, residual learning, and feature domain processing. Unrolled optimization networks propose an interpretable alternative to constructing deep neural networks by deriving their architecture from classical iterative optimization methods, without use of tricks from the standard deep learning tool-box. So far, such methods have demonstrated performance close to that of state-of-the-art models while using their interpretable construction to achieve a comparably low learned parameter count. In this work, we propose an unrolled convolutional dictionary learning network (CDLNet) and demonstrate its competitive denoising performance in both low and high parameter count regimes. Specifically, we show that the proposed model outperforms the state-of-the-art denoising models when scaled to similar parameter count. In addition, we leverage the model's interpretable construction to propose an augmentation of the network's thresholds that enables state-of-the-art blind denoising performance and near-perfect generalization on noise-levels unseen during training.
翻訳日:2021-03-09 15:11:52 公開日:2021-03-05
# ディープヘッジ,ジェネレーティブな敵ネットワーク,その他

Deep Hedging, Generative Adversarial Networks, and Beyond ( http://arxiv.org/abs/2103.03913v1 )

ライセンス: Link先を確認
Hyunsu Kim(参考訳) 本稿では,ディープラーニングと人工知能の金融応用,特にヘッジへの応用について紹介する。 主な目的は2つの目的である。 まず,単純なバニラ欧州コールオプションを複製した直接ポリシー検索強化エージェントの枠組みを示し,モデルフリーデルタヘッジにエージェントを使用する。 本稿では,RNNをベースとした直接ポリシー探索RLエージェントが,パラメトリックに生成された基礎シナリオ,特にリスク回避パラメータのより高い値でのテール露光を最小限に抑えることに基づいて,Q-worldの古典的なブラック・ショールズモデルよりもデルタヘッジを行うことができることを示す。 本論文の第2部では,多変量時間空間からの時系列GANが生成する非パラメトリックパスを用いて,本論文の第1部で導入した基本RNNベースRLエージェントを用いて,リスク回避パラメータの様々な値に対するデルタヘッジ性能を示す。 このrlベースのヘッジフレームワークは、より効率的なヘッジの実行方法であり、古典的なモデルに固有の問題に対処し、有望で直観的なヘッジ結果を提供し、他の多くの目的のために他のaiベースのモデルと簡単にペアリングできる柔軟なフレームワークを作成する。

This paper introduces a potential application of deep learning and artificial intelligence in finance, particularly its application in hedging. The major goal encompasses two objectives. First, we present a framework of a direct policy search reinforcement agent replicating a simple vanilla European call option and use the agent for the model-free delta hedging. Through the first part of this paper, we demonstrate how the RNN-based direct policy search RL agents can perform delta hedging better than the classic Black-Scholes model in Q-world based on parametrically generated underlying scenarios, particularly minimizing tail exposures at higher values of the risk aversion parameter. In the second part of this paper, with the non-parametric paths generated by time-series GANs from multi-variate temporal space, we illustrate its delta hedging performance on various values of the risk aversion parameter via the basic RNN-based RL agent introduced in the first part of the paper, showing that we can potentially achieve higher average profits with a rather evident risk-return trade-off. We believe that this RL-based hedging framework is a more efficient way of performing hedging in practice, addressing some of the inherent issues with the classic models, providing promising/intuitive hedging results, and rendering a flexible framework that can be easily paired with other AI-based models for many other purposes.
翻訳日:2021-03-09 15:09:44 公開日:2021-03-05
# (参考訳) マルコフコヒーレントリスクに対する政策勾配の収束と最適性について

On the Convergence and Optimality of Policy Gradient for Markov Coherent Risk ( http://arxiv.org/abs/2103.02827v2 )

ライセンス: CC BY 4.0
Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli(参考訳) 強化学習におけるリスク回避をモデル化するために、新たな研究ラインでは、よく知られたアルゴリズムを使用してコヒーレントリスク関数(条件付きリスク(CVaR)を含むクラス)を最適化する。 マルコフの決定プロセスではコヒーレントリスクの最適化は困難であるため、最近の研究では、時間の一貫性のある代理であるマルコフコヒーレントリスク(MCR)に焦点を当てる傾向にある。 政策勾配 (PG) の更新はこの目的のために導出されているが、(i) PG が MCR にグローバルに最適であるかどうか、(ii) トラクタブルな方法で勾配を推定する方法は不明である。 本稿では,mcrの目的が(期待値と異なり)勾配が支配的ではなく,定常点が一般にグローバルに最適であることを保証するものではないことを実証する。 さらに,目的の非線形性とリスク回避の程度に依存することを特徴として,学習方針の最適性に対する厳密な上限を示す。 対処法(ii)では, 従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。 実験を通じて,最適性ギャップが小さい場合,pgはリスクに敏感な方針を学習できることを実証する。 しかし、大きな最適性ギャップを持つインスタンスは豊富で構築が容易であり、将来の研究における重要な課題を概説する。

In order to model risk aversion in reinforcement learning, an emerging line of research adapts familiar algorithms to optimize coherent risk functionals, a class that includes conditional value-at-risk (CVaR). Because optimizing the coherent risk is difficult in Markov decision processes, recent work tends to focus on the Markov coherent risk (MCR), a time-consistent surrogate. While, policy gradient (PG) updates have been derived for this objective, it remains unclear (i) whether PG finds a global optimum for MCR; (ii) how to estimate the gradient in a tractable manner. In this paper, we demonstrate that, in general, MCR objectives (unlike the expected return) are not gradient dominated and that stationary points are not, in general, guaranteed to be globally optimal. Moreover, we present a tight upper bound on the suboptimality of the learned policy, characterizing its dependence on the nonlinearity of the objective and the degree of risk aversion. Addressing (ii), we propose a practical implementation of PG that uses state distribution reweighting to overcome previous limitations. Through experiments, we demonstrate that when the optimality gap is small, PG can learn risk-sensitive policies. However, we find that instances with large suboptimality gaps are abundant and easy to construct, outlining an important challenge for future research.
翻訳日:2021-03-09 12:53:00 公開日:2021-03-05
# 微分プライベートディープラーニングにおける$\epsilon$の選択と監査の定量化

Quantifying identifiability to choose and audit $\epsilon$ in differentially private deep learning ( http://arxiv.org/abs/2103.02913v2 )

ライセンス: Link先を確認
Daniel Bernau, G\"unther Eibl, Philip W. Grassal, Hannah Keller, Florian Kerschbaum(参考訳) 差分プライバシーにより、トレーニングデータレコードが機械学習モデルに与える影響を制限できます。 機械学習で差分プライバシーを使用するには、データサイエンティストがプライバシパラメータを$(\epsilon,\delta)$を選択する必要がある。 弱いプライバシパラメータでトレーニングされたモデルが過剰なプライバシリークを引き起こす可能性があり、強力なプライバシパラメータがモデルユーティリティを過度に低下させる可能性があるため、有意義なプライバシパラメータを選択することが重要だ。 しかし,プライバシパラメータの値は2つの主な理由から選択が難しい。 まず、選択された感度と実用的なデータセットのデータ分布に応じて、プライバシー損失$(\epsilon,\delta)$の上限は緩いかもしれません。 第二に、匿名化の法的要件と社会的規範は個々の識別可能性を指し、$(\epsilon,\delta)$は間接的にのみ関係している。 我々は(\epsilon,\delta)$を、トレーニングデータセットにおけるレコードの存在に関する差分プライバシーによって仮定される敵のベイズ的後方信念の束縛に変換する。 構成下における多次元クエリのバウンダリは保持され、実際はタイトであることを示す。 さらに, 識別可能性境界を導出し, 差動プライバシで想定される敵と, メンバシップ推論敵に対する先行研究との関連性を示す。 我々は、データサイエンティストがモデルトレーニングを監査し、経験的識別可能性スコアと経験的$(\epsilon,\delta)$を計算することを可能にするこの差分プライバシーの逆数の実装を策定します。

Differential privacy allows bounding the influence that training data records have on a machine learning model. To use differential privacy in machine learning, data scientists must choose privacy parameters $(\epsilon,\delta)$. Choosing meaningful privacy parameters is key since models trained with weak privacy parameters might result in excessive privacy leakage, while strong privacy parameters might overly degrade model utility. However, privacy parameter values are difficult to choose for two main reasons. First, the upper bound on privacy loss $(\epsilon,\delta)$ might be loose, depending on the chosen sensitivity and data distribution of practical datasets. Second, legal requirements and societal norms for anonymization often refer to individual identifiability, to which $(\epsilon,\delta)$ are only indirectly related. We transform $(\epsilon,\delta)$ to a bound on the Bayesian posterior belief of the adversary assumed by differential privacy concerning the presence of any record in the training dataset. The bound holds for multidimensional queries under composition, and we show that it can be tight in practice. Furthermore, we derive an identifiability bound, which relates the adversary assumed in differential privacy to previous work on membership inference adversaries. We formulate an implementation of this differential privacy adversary that allows data scientists to audit model training and compute empirical identifiability scores and empirical $(\epsilon,\delta)$.
翻訳日:2021-03-09 12:24:31 公開日:2021-03-05
# (参考訳) LSTMとデータデノイジング法を用いた金融時系列の予測 [全文訳有]

Prediction of financial time series using LSTM and data denoising methods ( http://arxiv.org/abs/2103.03505v1 )

ライセンス: CC BY 4.0
Qi Tang and Tongmei Fan and Ruchen Shi and Jingyan Huang and Yidan Ma(参考訳) In order to further overcome the difficulties of the existing models in dealing with the non-stationary and nonlinear characteristics of high-frequency financial time series data, especially its weak generalization ability, this paper proposes an ensemble method based on data denoising methods, including the wavelet transform (WT) and singular spectrum analysis (SSA), and long-term short-term memory neural network (LSTM) to build a data prediction model, The financial time series is decomposed and reconstructed by WT and SSA to denoise. 雑音化条件下では、有効な情報を有する平滑なシーケンスを再構成する。 LSTMに平滑化シーケンスを導入し、予測値を得る。 ダウ・ジョーンズ工業平均指数(DJIA)を研究対象とし、5分ごとにDJIAの終了価格を短期(1時間)、中期(3時間)、長期(6時間)に分けます。 . ルート平均二乗誤差(RMSE)、平均絶対誤差(MAE)、平均絶対パーセンテージ誤差(MAPE)および絶対パーセンテージ誤差標準偏差(SDAPE)に基づいて、実験結果は、短期的、中期的、長期的データ解読において、予測の精度と安定性を大幅に向上させ、LSTM予測モデルの一般化能力を効果的に改善できることを示しています。 WTとSSAは、元のシーケンスから有用な情報を抽出し、オーバーフィッティングを避けるため、ハイブリッドモデルはDJIAの閉値のシーケンスパターンをよりよく把握することができる。 WT-LSTMモデルはベンチマークLSTMモデルとSSA-LSTMモデルよりも優れています。

In order to further overcome the difficulties of the existing models in dealing with the non-stationary and nonlinear characteristics of high-frequency financial time series data, especially its weak generalization ability, this paper proposes an ensemble method based on data denoising methods, including the wavelet transform (WT) and singular spectrum analysis (SSA), and long-term short-term memory neural network (LSTM) to build a data prediction model, The financial time series is decomposed and reconstructed by WT and SSA to denoise. Under the condition of denoising, the smooth sequence with effective information is reconstructed. The smoothing sequence is introduced into LSTM and the predicted value is obtained. With the Dow Jones industrial average index (DJIA) as the research object, the closing price of the DJIA every five minutes is divided into short-term (1 hour), medium-term (3 hours) and long-term (6 hours) respectively. . Based on root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE) and absolute percentage error standard deviation (SDAPE), the experimental results show that in the short-term, medium-term and long-term, data denoising can greatly improve the accuracy and stability of the prediction, and can effectively improve the generalization ability of LSTM prediction model. As WT and SSA can extract useful information from the original sequence and avoid overfitting, the hybrid model can better grasp the sequence pattern of the closing price of the DJIA. And the WT-LSTM model is better than the benchmark LSTM model and SSA-LSTM model.
翻訳日:2021-03-09 09:53:05 公開日:2021-03-05
# (参考訳) 非凸最適化のためのSGDの2次ステップサイズチューニング [全文訳有]

Second-order step-size tuning of SGD for non-convex optimization ( http://arxiv.org/abs/2103.03570v1 )

ライセンス: CC BY 4.0
Camille Castera, J\'er\^ome Bolte, C\'edric F\'evotte, Edouard Pauwels(参考訳) 本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。 そのため、局所二次モデルに基づいて曲率を推定し、ノイズの勾配近似のみを用いる。 古典的barzilai-borwein法の確率的バージョンと見なすことができる新しい確率的一階法(ステップ調整sgd)を得る。 我々の理論的結果は、臨界集合への収束をほぼ確実にし、収束率を提供する。 ディープ残差ネットワークトレーニングの実験は、我々のアプローチの好ましい特性を示している。 このようなネットワークでは、トレーニング中に、損失の突然の低下と中程度のテスト精度の向上の両方を観察し、SGD、RMSprop、またはADAMよりも優れた結果をもたらします。

In view of a direct and simple improvement of vanilla SGD, this paper presents a fine-tuning of its step-sizes in the mini-batch case. For doing so, one estimates curvature, based on a local quadratic model and using only noisy gradient approximations. One obtains a new stochastic first-order method (Step-Tuned SGD) which can be seen as a stochastic version of the classical Barzilai-Borwein method. Our theoretical results ensure almost sure convergence to the critical set and we provide convergence rates. Experiments on deep residual network training illustrate the favorable properties of our approach. For such networks we observe, during training, both a sudden drop of the loss and an improvement of test accuracy at medium stages, yielding better results than SGD, RMSprop, or ADAM.
翻訳日:2021-03-09 09:40:50 公開日:2021-03-05
# (参考訳) Golem: 堅牢な実験とプロセス最適化のためのアルゴリズム

Golem: An algorithm for robust experiment and process optimization ( http://arxiv.org/abs/2103.03716v1 )

ライセンス: CC BY 4.0
Matteo Aldeghi, Florian H\"ase, Riley J. Hickman, Isaac Tamblyn, Al\'an Aspuru-Guzik(参考訳) 科学と工学における多くの課題は、反応収率の最大化、分子および材料特性の最適化、自動ハードウェアプロトコルの微調整など、最適化タスクとして表すことができる。 実験および最適化アルゴリズムの設計は、これらのタスクを効率的に解くためによく用いられる。 これらの実験計画戦略は、自律的な実験プラットフォームを実現するために、自動ハードウェアと結合される。 しかし、使用される戦略の大部分は実験条件やプロセス条件の変動に対する堅牢性を考慮していない。 実際、これらのパラメータは正確かつ再現可能であると一般に仮定される。 しかし、いくつかの実験では、いくつかの条件に関連したかなりのノイズがあり、正確な制御の下で最適化されたプロセスパラメータは、将来、変動操作条件下で適用される可能性がある。 いずれのシナリオにおいても、最適なソリューションは入力の可変性に対して堅牢ではなく、結果の再現性に影響を与え、実用上最適なパフォーマンスを返します。 本稿では,実験計画戦略の選択に非依存なアルゴリズムであるGolemを紹介し,ロバストな実験とプロセス最適化を実現する。 Golemは、入力の不確実性に強い最適なソリューションを特定し、最適化された実験プロトコルとプロセスの再現性を確保します。 過去の実験の堅牢性を分析したり、実験計画アルゴリズムをオンザフライで堅牢なソリューションに導くために使用できます。 広範ベンチマークによるGolemの性能と適用範囲の評価を行い,実験条件下での有意雑音の存在下で分析化学プロトコルを最適化することにより,その実用的妥当性を実証する。

Numerous challenges in science and engineering can be framed as optimization tasks, including the maximization of reaction yields, the optimization of molecular and materials properties, and the fine-tuning of automated hardware protocols. Design of experiment and optimization algorithms are often adopted to solve these tasks efficiently. Increasingly, these experiment planning strategies are coupled with automated hardware to enable autonomous experimental platforms. The vast majority of the strategies used, however, do not consider robustness against the variability of experiment and process conditions. In fact, it is generally assumed that these parameters are exact and reproducible. Yet some experiments may have considerable noise associated with some of their conditions, and process parameters optimized under precise control may be applied in the future under variable operating conditions. In either scenario, the optimal solutions found might not be robust against input variability, affecting the reproducibility of results and returning suboptimal performance in practice. Here, we introduce Golem, an algorithm that is agnostic to the choice of experiment planning strategy and that enables robust experiment and process optimization. Golem identifies optimal solutions that are robust to input uncertainty, thus ensuring the reproducible performance of optimized experimental protocols and processes. It can be used to analyze the robustness of past experiments, or to guide experiment planning algorithms toward robust solutions on the fly. We assess the performance and domain of applicability of Golem through extensive benchmark studies and demonstrate its practical relevance by optimizing an analytical chemistry protocol under the presence of significant noise in its experimental conditions.
翻訳日:2021-03-09 08:12:19 公開日:2021-03-05
# (参考訳) 非線形最適レギュレータ問題における過渡学習性能向上のためのモデルフリー二段階設計 [全文訳有]

Model-free two-step design for improving transient learning performance in nonlinear optimal regulator problems ( http://arxiv.org/abs/2103.03808v1 )

ライセンス: CC BY 4.0
Yuka Masumoto, Yoshihiro Okawa, Tomotake Sasaki, Yutaka Hori(参考訳) 強化学習(rl)は、非線形力学系の最適制御系を設計するためのモデルフリーなアプローチを提供する。 しかし、学習プロセスは、制御の不十分なシステムを使用して、かなりの数の試行錯誤実験を必要とし、植物に摩耗と裂傷を蓄積する。 したがって、学習過程においてある程度の制御性能を維持することが望ましい。 本論文では,未知の非線形系の最適レギュレータ設計問題におけるRLの過渡学習性能を改善するためのモデルフリー2ステップ設計手法を提案する。 具体的には、オンラインRLと並行してモデルフリーで事前設計された線形制御法を用いて、学習の初期段階において一定の性能を保証する。 数値シミュレーションにより,rlのハイパーパラメータチューニングにおける過渡学習性能と効率が向上した。

Reinforcement learning (RL) provides a model-free approach to designing an optimal controller for nonlinear dynamical systems. However, the learning process requires a considerable number of trial-and-error experiments using the poorly controlled system, and accumulates wear and tear on the plant. Thus, it is desirable to maintain some degree of control performance during the learning process. In this paper, we propose a model-free two-step design approach to improve the transient learning performance of RL in an optimal regulator design problem for unknown nonlinear systems. Specifically, a linear control law pre-designed in a model-free manner is used in parallel with online RL to ensure a certain level of performance at the early stage of learning. Numerical simulations show that the proposed method improves the transient learning performance and efficiency in hyperparameter tuning of RL.
翻訳日:2021-03-09 08:11:04 公開日:2021-03-05
# (参考訳) Lyapunov-Regularized Reinforcement Learning for Power System Transient Stability [全文訳有]

Lyapunov-Regularized Reinforcement Learning for Power System Transient Stability ( http://arxiv.org/abs/2103.03869v1 )

ライセンス: CC BY 4.0
Wenqi Cui, Baosen Zhang(参考訳) 再生可能資源の統合が進み、電力システムの過渡的安定性がますます重要になっている。 これらの資源は機械的慣性の減少につながるが、周波数応答の柔軟性も増す。 すなわち、パワー電子インタフェースは、ほぼ任意の制御法則を実装できる。 これらのコントローラを設計するために、ニューラルネットワークによってパラメータ化される最適非線形制御ポリシーを探すための強力な方法として強化学習(RL)が登場した。 重要な課題は、学習したコントローラが安定化しなければならないことを強制することです。 本稿では、損失ネットワークにおける過渡安定性のための最適周波数制御のためのLyapunov正規化RLアプローチを提案する。 解析的Lyapunov関数が欠如しているため、ニューラルネットワークによってパラメータ化されたLyapunov関数を学習する。 損失は物理的な電力システムに関して特に設計されています。 学習されたニューラルネットワークLyapunov関数は、Lyapunov条件に違反する行動を罰することによって、ニューラルネットワークコントローラを訓練するために正規化として利用される。 ケーススタディでは、リアプノフ正則化の導入により、コントローラの安定化と損失の低減が可能になる。

Transient stability of power systems is becoming increasingly important because of the growing integration of renewable resources. These resources lead to a reduction in mechanical inertia but also provide increased flexibility in frequency responses. Namely, their power electronic interfaces can implement almost arbitrary control laws. To design these controllers, reinforcement learning (RL) has emerged as a powerful method in searching for optimal non-linear control policy parameterized by neural networks. A key challenge is to enforce that a learned controller must be stabilizing. This paper proposes a Lyapunov regularized RL approach for optimal frequency control for transient stability in lossy networks. Because the lack of an analytical Lyapunov function, we learn a Lyapunov function parameterized by a neural network. The losses are specially designed with respect to the physical power system. The learned neural Lyapunov function is then utilized as a regularization to train the neural network controller by penalizing actions that violate the Lyapunov conditions. Case study shows that introducing the Lyapunov regularization enables the controller to be stabilizing and achieve smaller losses.
翻訳日:2021-03-09 07:59:17 公開日:2021-03-05
# (参考訳) 対向攻撃による深部診断モデルのロバスト性評価に向けて

Towards Evaluating the Robustness of Deep Diagnostic Models by Adversarial Attack ( http://arxiv.org/abs/2103.03438v1 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Zhongnian Li, Mingxia Liu, Daoqiang Zhang(参考訳) 深層学習モデル(ニューラルネットワーク)は、医療画像に基づくコンピュータ支援疾患診断などの課題に広く用いられている。 近年の研究では、深い診断モデルは推論プロセスにおいて堅牢でなく、臨床において深刻なセキュリティ上の懸念をもたらす可能性がある。 モデルが堅牢でないすべての要因のうち、最も深刻なものは逆の例である。 いわゆる"adversarial example"はよく設計された摂動であり、人間には容易には認識できないが、信頼性の高い深い診断モデルの誤ったアウトプットをもたらす。 本稿では, 対人攻撃による深部診断モデルの堅牢性を評価する。 具体的には, 単一ラベルと複数ラベルの分類タスクにおいて, 3つの深部診断モデルに対して2種類の逆転攻撃を行い, 逆転例で攻撃した場合, これらのモデルが信頼できないことがわかった。 我々はさらに,その量的分類結果,中間的特徴,特徴の判別性,推定ラベルの相関性を解析し,そのモデルに対する逆例のアプローチについて検討した。 また、深い診断モデル、すなわちMPAdvT(Multi-Perturb ations Adversarial Training)とMAAdvT(Misclassifica tion-Aware Adversarial Training)における敵対的例を処理するための2つの新しい防御方法も設計した。 実験結果は、防御方法の使用が逆襲に対する深い診断モデルの堅牢性を大幅に改善できることを示した。

Deep learning models (with neural networks) have been widely used in challenging tasks such as computer-aided disease diagnosis based on medical images. Recent studies have shown deep diagnostic models may not be robust in the inference process and may pose severe security concerns in clinical practice. Among all the factors that make the model not robust, the most serious one is adversarial examples. The so-called "adversarial example" is a well-designed perturbation that is not easily perceived by humans but results in a false output of deep diagnostic models with high confidence. In this paper, we evaluate the robustness of deep diagnostic models by adversarial attack. Specifically, we have performed two types of adversarial attacks to three deep diagnostic models in both single-label and multi-label classification tasks, and found that these models are not reliable when attacked by adversarial example. We have further explored how adversarial examples attack the models, by analyzing their quantitative classification results, intermediate features, discriminability of features and correlation of estimated labels for both original/clean images and those adversarial ones. We have also designed two new defense methods to handle adversarial examples in deep diagnostic models, i.e., Multi-Perturbations Adversarial Training (MPAdvT) and Misclassification-Aw are Adversarial Training (MAAdvT). The experimental results have shown that the use of defense methods can significantly improve the robustness of deep diagnostic models against adversarial attacks.
翻訳日:2021-03-09 07:45:11 公開日:2021-03-05
# (参考訳) iot: トランスフォーマー構造のためのインスタンス単位のレイヤリオーダ [全文訳有]

IOT: Instance-wise Layer Reordering for Transformer Structures ( http://arxiv.org/abs/2103.03457v1 )

ライセンス: CC BY 4.0
Jinhua Zhu, Lijun Wu, Yingce Xia, Shufang Xie, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan Liu(参考訳) 順次積み重ねられた自己保持、(任意)エンコーダデコーダの注意、およびフィードフォワード層により、Transformerは自然言語処理(NLP)で大きな成功を収め、多くのバリエーションが提案されています。 現在、これらのモデルのほとんどは、レイヤ順序が固定され、データサンプル間で同じ状態に保つと仮定しています。 異なるデータサンプルが実際に異なる層の順序を好むのを観察します。 この観察に基づいて、本研究では、トランスフォーマの固定層オーダーの仮定を分解し、モデル構造にインスタンス単位の層再順序付けを導入する。 当社のIOT(Instance-wise Ordered Transformer)は、再順序化層による可変関数のモデル化が可能であり、各サンプルは、ほぼ同じ数のパラメータの制約の下でモデルのパフォーマンスを向上させるために、より良いものを選択することができます。 そこで本研究では,任意の入力列に対して最も有能で好適な層順を決定するために,無視可能なパラメータと推論コストを持つ光予測器を提案する。 3つのタスク(ニューラル機械翻訳、抽象要約、コード生成)と9つのデータセットに関する実験は、この方法の一貫した改善を示している。 さらに、この方法がTransformer以外のアーキテクチャにも適用できることも示しています。 私たちのコードはgithubでリリースされています。

With sequentially stacked self-attention, (optional) encoder-decoder attention, and feed-forward layers, Transformer achieves big success in natural language processing (NLP), and many variants have been proposed. Currently, almost all these models assume that the layer order is fixed and kept the same across data samples. We observe that different data samples actually favor different orders of the layers. Based on this observation, in this work, we break the assumption of the fixed layer order in the Transformer and introduce instance-wise layer reordering into the model structure. Our Instance-wise Ordered Transformer (IOT) can model variant functions by reordered layers, which enables each sample to select the better one to improve the model performance under the constraint of almost the same number of parameters. To achieve this, we introduce a light predictor with negligible parameter and inference cost to decide the most capable and favorable layer order for any input sequence. Experiments on 3 tasks (neural machine translation, abstractive summarization, and code generation) and 9 datasets demonstrate consistent improvements of our method. We further show that our method can also be applied to other architectures beyond Transformer. Our code is released at Github.
翻訳日:2021-03-09 07:43:48 公開日:2021-03-05
# (参考訳) 機械学習によるインドネシア語文の抽象意味表現への解析 [全文訳有]

Parsing Indonesian Sentence into Abstract Meaning Representation using Machine Learning Approach ( http://arxiv.org/abs/2103.03730v1 )

ライセンス: CC BY-SA 4.0
Adylan Roaffa Ilmy and Masayu Leylia Khodra(参考訳) 抽象意味表現(AMR: Abstract Meaning Representation)は、意味関係、コアファレンス、名前付きエンティティ関係などの文の多くの情報を1つの表現で提供します。 しかし、インドネシア語文に対するAMR解析の研究は限定的である。 本稿では,インドネシア語の文を機械学習を用いて解析するシステムを開発した。 Zhangらに基づいて。 私たちのシステムは,ペア予測,ラベル予測,グラフ構築という3つのステップで構成されています。 ペア予測は依存性解析コンポーネントを使用して、AMRのワード間のエッジを取得する。 ペア予測の結果は、教師付き学習アルゴリズムを使用してAMRの端間のラベルを予測したラベル予測プロセスに渡される。 記事やニュース記事の文章から収集した簡易文データセットを用いた。 本モデルでは, SMATCHスコア0.820を達成した。

Abstract Meaning Representation (AMR) provides many information of a sentence such as semantic relations, coreferences, and named entity relation in one representation. However, research on AMR parsing for Indonesian sentence is fairly limited. In this paper, we develop a system that aims to parse an Indonesian sentence using a machine learning approach. Based on Zhang et al. work, our system consists of three steps: pair prediction, label prediction, and graph construction. Pair prediction uses dependency parsing component to get the edges between the words for the AMR. The result of pair prediction is passed to the label prediction process which used a supervised learning algorithm to predict the label between the edges of the AMR. We used simple sentence dataset that is gathered from articles and news article sentences. Our model achieved the SMATCH score of 0.820 for simple sentence test data.
翻訳日:2021-03-09 07:20:52 公開日:2021-03-05
# (参考訳) レンダリングのない単一2次元画像から3次元モデルを生成するための有効な損失関数 [全文訳有]

An Effective Loss Function for Generating 3D Models from Single 2D Image without Rendering ( http://arxiv.org/abs/2103.03390v1 )

ライセンス: CC BY 4.0
Nikola Zubi\'c, Pietro Li\`o(参考訳) 微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。 現在のレンダラーは、ある3d再構成されたオブジェクトのレンダリング画像と与えられた一致視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。 これらのモデルにはレンダリングステップと、シェーディングモデルの可視性処理と評価が必要である。 本稿の主目的は,これらのステップを回避し,既存のカテゴリ固有の再構築手法と同等あるいはそれ以上に優れた最先端モデルとして,再構築結果が得られることを示すことである。 まず、同じCNNアーキテクチャを使用して点群形状の予測を行い、Insafutdinov \& Dosovitskiyが使用するようなポーズ予測を行います。 第2に,再構成された3次元点雲の投影が地上真理物体のシルエットを如何にカバーしているかを評価する新しい有効損失関数を提案する。 次にポアソン表面再構成を用いて再構成された点雲を3次元メッシュに変換する。 最後に、特定の3Dメッシュ上でGANベースのテクスチャマッピングを行い、単一の2Dイメージからテクスチャ化された3Dメッシュを生成する。 本研究では,ShapeNet,CUB-200-20 11,Pascal3D+などの異なるデータセット上で評価を行い,その性能,精度,トレーニング時間など,教師なしおよび教師なしの他の手法や3D表現よりも優れていることを示す。

Differentiable rendering is a very successful technique that applies to a Single-View 3D Reconstruction. Current renderers use losses based on pixels between a rendered image of some 3D reconstructed object and ground-truth images from given matched viewpoints to optimise parameters of the 3D shape. These models require a rendering step, along with visibility handling and evaluation of the shading model. The main goal of this paper is to demonstrate that we can avoid these steps and still get reconstruction results as other state-of-the-art models that are equal or even better than existing category-specific reconstruction methods. First, we use the same CNN architecture for the prediction of a point cloud shape and pose prediction like the one used by Insafutdinov \& Dosovitskiy. Secondly, we propose the novel effective loss function that evaluates how well the projections of reconstructed 3D point clouds cover the ground truth object's silhouette. Then we use Poisson Surface Reconstruction to transform the reconstructed point cloud into a 3D mesh. Finally, we perform a GAN-based texture mapping on a particular 3D mesh and produce a textured 3D mesh from a single 2D image. We evaluate our method on different datasets (including ShapeNet, CUB-200-2011, and Pascal3D+) and achieve state-of-the-art results, outperforming all the other supervised and unsupervised methods and 3D representations, all in terms of performance, accuracy, and training time.
翻訳日:2021-03-09 07:12:56 公開日:2021-03-05
# (参考訳) 3次元モデル埋め込みのための畳み込みアーキテクチャ [全文訳有]

A Convolutional Architecture for 3D Model Embedding ( http://arxiv.org/abs/2103.03764v1 )

ライセンス: CC BY 4.0
Arniel Labrada, Benjamin Bustos, Ivan Sipiran(参考訳) 近年,3dモデル検索,3dモデル分類,3dモデルセグメンテーションなどのタスクにおいて,ポイントクラウドやボクセル,多角形メッシュなどの典型的な3d表現はレンダリング目的に適しているが,認知的プロセス(再評価,分類,セグメンテーション)の使用は冗長性や複雑性が高いため制限されている。 3Dモデルをインプットとして扱うディープラーニングアーキテクチャを提案します。 この階層構造を畳み込みニューラルネットワークや3dモデル埋め込み計算のためのオートエンコーダといった他の標準アーキテクチャと組み合わせる。 我々のゴールは、高レベルなタスクに3Dモデルを置き換えるのに十分な情報を持つベクトルとして3Dモデルを表現することである。 このベクトルは3dモデルの関連情報をキャプチャしようとする学習された再現であり、埋め込み表現が3dオブジェクトの類似性評価を扱うのに役立つ意味情報を伝達することを示す。 我々の経験は、3次元モデルデータセットの埋め込みを計算し、効果的な3次元モデル検索に利用することの利点を示している。

During the last years, many advances have been made in tasks like3D model retrieval, 3D model classification, and 3D model segmentation.The typical 3D representations such as point clouds, voxels, and poly-gon meshes are mostly suitable for rendering purposes, while their use forcognitive processes (retrieval, classification, segmentation) is limited dueto their high redundancy and complexity. We propose a deep learningarchitecture to handle 3D models as an input. We combine this architec-ture with other standard architectures like Convolutional Neural Networksand autoencoders for computing 3D model embeddings. Our goal is torepresent a 3D model as a vector with enough information to substitutethe 3D model for high-level tasks. Since this vector is a learned repre-sentation which tries to capture the relevant information of a 3D model,we show that the embedding representation conveys semantic informationthat helps to deal with the similarity assessment of 3D objects. Our ex-periments show the benefit of computing the embeddings of a 3D modeldata set and use them for effective 3D Model Retrieval.
翻訳日:2021-03-09 07:00:13 公開日:2021-03-05
# (参考訳) 多言語機械翻訳のための階層的トランスフォーマー [全文訳有]

Hierarchical Transformer for Multilingual Machine Translation ( http://arxiv.org/abs/2103.03589v1 )

ライセンス: CC BY 4.0
Albina Khusainova, Adil Khan, Ad\'in Ram\'irez Rivera, Vitaly Romanov(参考訳) 多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、最適なパラメータ空間の使用方法を決定するため、最終的な翻訳品質に直接影響を及ぼす。 異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。 主な考え方は、これらの専門家言語階層を多言語アーキテクチャの基礎として使うことである。 本研究では,Transformerアーキテクチャを用いてこのアイデアを検証し,従来の作業の成功にもかかわらず,そのような階層モデルのトレーニングに固有の問題があることを示す。 注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。

The choice of parameter sharing strategy in multilingual machine translation models determines how optimally parameter space is used and hence, directly influences ultimate translation quality. Inspired by linguistic trees that show the degree of relatedness between different languages, the new general approach to parameter sharing in multilingual machine translation was suggested recently. The main idea is to use these expert language hierarchies as a basis for multilingual architecture: the closer two languages are, the more parameters they share. In this work, we test this idea using the Transformer architecture and show that despite the success in previous work there are problems inherent to training such hierarchical models. We demonstrate that in case of carefully chosen training strategy the hierarchical architecture can outperform bilingual models and multilingual models with full parameter sharing.
翻訳日:2021-03-09 06:49:08 公開日:2021-03-05
# (参考訳) DAGタスクのスケジュールの学習 [全文訳有]

Learning to Schedule DAG Tasks ( http://arxiv.org/abs/2103.03412v1 )

ライセンス: CC BY 4.0
Zhigang Hua, Feng Qi, Gan Liu and Shuang Yang(参考訳) 有向非巡回グラフ(DAG)で表される計算タスクのスケジューリングはその複雑さのため困難である。 従来のスケジューリングアルゴリズムは、最短のジョブファースト(SJF)やクリティカルパス(CP)といった単純なヒューリスティックに大きく依存しており、スケジューリング品質に欠けることが多い。 本稿では,DAGタスクのスケジューリングに新たな学習ベースアプローチを提案する。 このアルゴリズムでは、強化学習エージェントを使用して、DAGに1回ずつ有向エッジを反復的に追加し、"トリッキー"なジョブノードの順序付け(実行の優先順位とリソース割り当て)を実行する。 これにより、元のDAGスケジューリング問題は、SJFやCPなどのヒューリスティックスケジューリングアルゴリズムを効率的に改善できる、はるかに単純なプロキシ問題へと劇的に削減される。 本手法は既存のヒューリスティックスケジューリングアルゴリズムにも容易に適用できる。 TPC-Hのベンチマークデータセットから,我々の学習に基づくアプローチは,一般的なヒューリスティックアルゴリズムよりも大幅に向上し,様々な条件下でのいくつかの手法の最高の性能を一貫して達成できることを示す。

Scheduling computational tasks represented by directed acyclic graphs (DAGs) is challenging because of its complexity. Conventional scheduling algorithms rely heavily on simple heuristics such as shortest job first (SJF) and critical path (CP), and are often lacking in scheduling quality. In this paper, we present a novel learning-based approach to scheduling DAG tasks. The algorithm employs a reinforcement learning agent to iteratively add directed edges to the DAG, one at a time, to enforce ordering (i.e., priorities of execution and resource allocation) of "tricky" job nodes. By doing so, the original DAG scheduling problem is dramatically reduced to a much simpler proxy problem, on which heuristic scheduling algorithms such as SJF and CP can be efficiently improved. Our approach can be easily applied to any existing heuristic scheduling algorithms. On the benchmark dataset of TPC-H, we show that our learning based approach can significantly improve over popular heuristic algorithms and consistently achieves the best performance among several methods under a variety of settings.
翻訳日:2021-03-09 06:38:21 公開日:2021-03-05
# (参考訳) ニューラルネットワーク認証のための高精度マルチニューロアブストラクション [全文訳有]

Precise Multi-Neuron Abstractions for Neural Network Certification ( http://arxiv.org/abs/2103.03638v1 )

ライセンス: CC BY 4.0
Mark Niklas M\"uller, Gleb Makarchuk, Gagandeep Singh, Markus P\"uschel, Martin Vechev(参考訳) ニューラルネットワークの形式的検証は、現実世界のアプリケーションで安全な適用のために重要である。 しかし、正確な方法で現実的なネットワークを処理できる検証器の設計は、オープンで難しい課題である。 本稿では,この課題に対処する上で大きな一歩を踏み出し,任意の非線形アクティベーションの凸近似を正確に計算する PRIMA という新しいフレームワークを提案する。 PRIMAは、計算幾何学の概念を利用して、ポリトープの凸殻を計算する新しい近似アルゴリズムに基づいている。 アルゴリズムは多項式複雑性を持ち、制約を少なくし、精度の損失を最小限に抑える。 ReLU, Sigmoid, Tanhアクティベーションを用いたチャレンジングニューラルネットワークにおけるPRIMAの有効性を評価する。 その結果、PRIMAは最先端のネットワークよりも大幅に正確であり、RELU-、Sigmoid-、Tanhベースのネットワークでの以前の作業よりも最大16%、30%、および34%の画像の堅牢性を検証しています。

Formal verification of neural networks is critical for their safe adoption in real-world applications. However, designing a verifier which can handle realistic networks in a precise manner remains an open and difficult challenge. In this paper, we take a major step in addressing this challenge and present a new framework, called PRIMA, that computes precise convex approximations of arbitrary non-linear activations. PRIMA is based on novel approximation algorithms that compute the convex hull of polytopes, leveraging concepts from computational geometry. The algorithms have polynomial complexity, yield fewer constraints, and minimize precision loss. We evaluate the effectiveness of PRIMA on challenging neural networks with ReLU, Sigmoid, and Tanh activations. Our results show that PRIMA is significantly more precise than the state-of-the-art, verifying robustness for up to 16%, 30%, and 34% more images than prior work on ReLU-, Sigmoid-, and Tanh-based networks, respectively.
翻訳日:2021-03-09 06:12:30 公開日:2021-03-05
# (参考訳) 地中真理存在下におけるモデルバイアスの測定 [全文訳有]

Measuring Model Biases in the Absence of Ground Truth ( http://arxiv.org/abs/2103.03417v1 )

ライセンス: CC BY 4.0
Osman Aka, Ken Burke, Alex B\"auerle, Christina Greer, Margaret Mitchell(参考訳) コンピュータビジョンの最近の進歩は、何万ものオブジェクトクラスを予測できる画像分類モデルの開発につながっている。 これらのモデルのトレーニングには数百万のサンプルが必要となり、数十億のアノテーションが要求されます。 しかし実際には、画像は概して微妙に注釈付けされ、収集された基底真理ラベルの分布に問題のあるバイアスをもたらす。 このアノテーションバイアスのポテンシャルは、基底真理依存の公平性指標(例えば等化オッズ)の有用性を制限する可能性がある。 この問題に対処するため,本研究では,根拠の真理ラベルに依存しない公平さとバイアスの測定に新たなフレーミングを導入する。 代わりに、与えられた画像のモデル予測をラベルの集合として扱い、自然言語処理(NLP)で使用される「単語のバグ」アプローチに類似する。 これにより、バイアスのパターンを検出するために、予測セット間で異なる関連メトリクスを探索できる。 本手法を用いて,データセット内の識別ラベルと他のすべてのラベルとの関係を,具体的な例として「男性」と「女性」に関連付けられたラベルを用いて検討する。 異なる相関指標の統計特性(特に正規化)が「ジェンダーバイアス」を持つと検出されたラベルの異なるセットにどのように導かれるかを示す。 統合確率 (npmi) によって正規化されたポイントワイズ相互情報では, 境界周波数の違いにもかかわらず, 有意な性別バイアスを持つ多くのラベルを検出できることを示した。 最後に、TensorBoardを使用したオープンソースnPMI視覚化ツールを発表しました。

Recent advances in computer vision have led to the development of image classification models that can predict tens of thousands of object classes. Training these models can require millions of examples, leading to a demand of potentially billions of annotations. In practice, however, images are typically sparsely annotated, which can lead to problematic biases in the distribution of ground truth labels that are collected. This potential for annotation bias may then limit the utility of ground truth-dependent fairness metrics (e.g., Equalized Odds). To address this problem, in this work we introduce a new framing to the measurement of fairness and bias that does not rely on ground truth labels. Instead, we treat the model predictions for a given image as a set of labels, analogous to a 'bag of words' approach used in Natural Language Processing (NLP). This allows us to explore different association metrics between prediction sets in order to detect patterns of bias. We apply this approach to examine the relationship between identity labels, and all other labels in the dataset, using labels associated with 'male' and 'female') as a concrete example. We demonstrate how the statistical properties (especially normalization) of the different association metrics can lead to different sets of labels detected as having "gender bias". We conclude by demonstrating that pointwise mutual information normalized by joint probability (nPMI) is able to detect many labels with significant gender bias despite differences in the labels' marginal frequencies. Finally, we announce an open-sourced nPMI visualization tool using TensorBoard.
翻訳日:2021-03-09 04:43:54 公開日:2021-03-05
# (参考訳) ドメイン適応のためのサイクル自己訓練 [全文訳有]

Cycle Self-Training for Domain Adaptation ( http://arxiv.org/abs/2103.03571v1 )

ライセンス: CC BY 4.0
Hong Liu and Jianmin Wang and Mingsheng Long(参考訳) 教師なしドメイン適応(UDA)に対するメインストリームアプローチは、ドメイン間のギャップを埋めるためにドメイン不変表現を学ぶ。 最近では、UDAの自己学習が勢いを増している。 半教師付き学習から派生したセルフトレーニングは、疑似ラベルのトレーニングによってラベルなしデータを効率的に利用します。 しかし、この研究で裏付けられたように、UDAの分布シフトの下で、疑似ラベルは地上の真理ラベルとの大きな相違の点では信頼できない。 そこで本研究では,疑似ラベルを一般化させる原理的自己学習アルゴリズムであるcycle self-training (cst)を提案する。 前進ステップでは、CSTはソース訓練された分類器でターゲット擬似ラベルを生成する。 逆ステップでは、CSTはターゲット擬似ラベルを使用してターゲット分類器を訓練し、共有表現を更新して、ターゲット分類器をソースデータ上で良好に動作させる。 ターゲット擬似ラベルの品質を向上させるための新しい正規化である tsallis entropy を導入する。 2次ニューラルネットワークでは、CSTがターゲットの真実を回復するのに対し、不変の特徴学習とバニラ自己学習はどちらも失敗する。 実験の結果、CSTは視覚認識や感情分析のタスクにまたがる標準的なUDAベンチマークにおいて、先行技術よりも大幅に改善されていることが示唆された。

Mainstream approaches for unsupervised domain adaptation (UDA) learn domain-invariant representations to bridge domain gap. More recently, self-training has been gaining momentum in UDA. Originated from semi-supervised learning, self-training uses unlabeled data efficiently by training on pseudo-labels. However, as corroborated in this work, under distributional shift in UDA, the pseudo-labels can be unreliable in terms of their large discrepancy from the ground truth labels. Thereby, we propose Cycle Self-Training (CST), a principled self-training algorithm that enforces pseudo-labels to generalize across domains. In the forward step, CST generates target pseudo-labels with a source-trained classifier. In the reverse step, CST trains a target classifier using target pseudo-labels, and then updates the shared representations to make the target classifier perform well on the source data. We introduce the Tsallis entropy, a novel regularization to improve the quality of target pseudo-labels. On quadratic neural networks, we prove that CST recovers target ground truth, while both invariant feature learning and vanilla self-training fail. Empirical results indicate that CST significantly improves over prior state-of-the-arts in standard UDA benchmarks across visual recognition and sentiment analysis tasks.
翻訳日:2021-03-09 04:29:15 公開日:2021-03-05
# (参考訳) 基底細胞癌(BCC)の皮膚病理学的評価を支援するセマンティックセグメンテーションのための深い監視UNet [全文訳有]

Deeply supervised UNet for semantic segmentation to assist dermatopathological assessment of Basal Cell Carcinoma (BCC) ( http://arxiv.org/abs/2103.03759v1 )

ライセンス: CC BY 4.0
Jean Le'Clerc Arrastia, Nick Heilenk\"otter, Daniel Otero Baguer, Lena Hauberg-Lotte, Tobias Boskamp, Sonja Hetzer, Nicole Duschner, J\"org Schaller, and Peter Maa{\ss}(参考訳) 切除マージンの正確かつ迅速な評価は、皮膚病理学者の臨床ルーチンの重要な部分です。 本研究は,全スライド画像(WSI)に病的特徴を示す確率の高い重要な領域をマークすることで,病理医を支援する深層学習手法の開発に成功した。 unetアーキテクチャに基づく複数のモデルを用いた意味セグメンテーションによる基底細胞癌(bcc)の検出に焦点を当てた。 この研究には650のWSIと3443の組織セクションが含まれている。 2人の臨床皮膚病理医が、腫瘍組織の正確な位置を100 WSIで記録した。 残りの部分的なラベル付きデータは、モデルをさらに検証し、テストするために使用される。 我々は,UNetネットワークの最初の部分における2つの異なるエンコーダと,さらに2つのトレーニング戦略を解析する。a)Decoder出力の線形結合,b)Decoder出力の各ケースにおけるネットワークのデコーダの動作に関する解釈を得る。 最高のモデルは、テストセット上の96%、精度、感度、および特異性を達成します。

Accurate and fast assessment of resection margins is an essential part of a dermatopathologist&# x27;s clinical routine. In this work, we successfully develop a deep learning method to assist the pathologists by marking critical regions that have a high probability of exhibiting pathological features in Whole Slide Images (WSI). We focus on detecting Basal Cell Carcinoma (BCC) through semantic segmentation using several models based on the UNet architecture. The study includes 650 WSI with 3443 tissue sections in total. Two clinical dermatopathologists annotated the data, marking tumor tissues' exact location on 100 WSI. The rest of the data, with ground-truth section-wise labels, is used to further validate and test the models. We analyze two different encoders for the first part of the UNet network and two additional training strategies: a) deep supervision, b) linear combination of decoder outputs, and obtain some interpretations about what the network's decoder does in each case. The best model achieves over 96%, accuracy, sensitivity, and specificity on the test set.
翻訳日:2021-03-09 04:00:03 公開日:2021-03-05
# (参考訳) 乳癌検診におけるトランスファーラーニングとウェーブレット変換の利用 [全文訳有]

Use of Transfer Learning and Wavelet Transform for Breast Cancer Detection ( http://arxiv.org/abs/2103.03602v1 )

ライセンス: CC BY 4.0
Ahmed Rasheed, Muhammad Shahzad Younis, Junaid Qadir and Muhammad Bilal(参考訳) 乳がんは女性の間で最も一般的な死因の1つである。 マンモグラフィーは、がんの早期発見に使用できる画像モダリティとして広く用いられている。 深層学習はマンモグラフィーで得られた画像中の癌塊の検出に広く用いられている。 データセットの感度特性により精度を向上させる必要性は一定であり、画像スキャンにおける重要な特徴を高めるためにセグメンテーションとウェーブレット変換を導入する。 提案システムは, がん検出のスクリーニング段階において, セグメンテーションとウェーブレット変換の組み合わせを前処理の強化として用い, ニューラルネットワークの伝達学習に寄与する。 これらの前処理技術により,Mini-MIASにおける検出精度を大幅に向上させる。

Breast cancer is one of the most common cause of deaths among women. Mammography is a widely used imaging modality that can be used for cancer detection in its early stages. Deep learning is widely used for the detection of cancerous masses in the images obtained via mammography. The need to improve accuracy remains constant due to the sensitive nature of the datasets so we introduce segmentation and wavelet transform to enhance the important features in the image scans. Our proposed system aids the radiologist in the screening phase of cancer detection by using a combination of segmentation and wavelet transforms as pre-processing augmentation that leads to transfer learning in neural networks. The proposed system with these pre-processing techniques significantly increases the accuracy of detection on Mini-MIAS.
翻訳日:2021-03-09 03:46:23 公開日:2021-03-05
# (参考訳) メタラーニングブラックボックス人口ベースオプティマイザ [全文訳有]

Meta Learning Black-Box Population-Based Optimizers ( http://arxiv.org/abs/2103.03526v1 )

ライセンス: CC BY 4.0
Hugo Siqueira Gomes, Benjamin L\'eger and Christian Gagn\'e(参考訳) no free lunch定理は、どの問題にもより適したモデルはない、と述べる。 これから生じる疑問は、最先端のパフォーマンスを達成する特定の問題に合わせて最適化するメソッドを設計する方法だ。 本稿では,特定の問題のクラスに自動的に適応できる集団型ブラックボックスオプティマイザを推定するために,メタラーニングの利用を提案する。 特定の部分可観測マルコフ決定プロセス(POMDP)に基づくメタラーニングフレームワークであるLTO-POMDP(Learning-t o-Optimize POMDP)を導出する集団ベースのアルゴリズムの一般モデルを提案する。 このフレームワークの定式化から,ディープリカレントニューラルネットワークを用いたアルゴリズムのパラメータ化と,確率アルゴリズムの性能に基づくメタロス関数を用いて,関連する最適化タスクに対する効率的なデータ駆動オプティマイザのトレーニングを提案する。 この実装に基づく学習オプティマイザの性能は、様々なブラックボックス最適化タスクと機械学習モデルのハイパーパラメータチューニングに基づいて評価される。 その結果,メタロス関数は学習アルゴリズムの探索動作を変化させ,新たなコンテキストに容易に適合できることを示した。 これにより、CMA-ES(Covariance matrix adapt evolution strategy)のような最先端の汎用最適化アルゴリズムよりも、より優れた一般化とサンプル効率を実現することができる。

The no free lunch theorem states that no model is better suited to every problem. A question that arises from this is how to design methods that propose optimizers tailored to specific problems achieving state-of-the-art performance. This paper addresses this issue by proposing the use of meta-learning to infer population-based black-box optimizers that can automatically adapt to specific classes of problems. We suggest a general modeling of population-based algorithms that result in Learning-to-Optimize POMDP (LTO-POMDP), a meta-learning framework based on a specific partially observable Markov decision process (POMDP). From that framework's formulation, we propose to parameterize the algorithm using deep recurrent neural networks and use a meta-loss function based on stochastic algorithms' performance to train efficient data-driven optimizers over several related optimization tasks. The learned optimizers' performance based on this implementation is assessed on various black-box optimization tasks and hyperparameter tuning of machine learning models. Our results revealed that the meta-loss function encourages a learned algorithm to alter its search behavior so that it can easily fit into a new context. Thus, it allows better generalization and higher sample efficiency than state-of-the-art generic optimization algorithms, such as the Covariance matrix adaptation evolution strategy (CMA-ES).
翻訳日:2021-03-09 03:33:19 公開日:2021-03-05
# (参考訳) MalBERT: サイバーセキュリティと悪意あるソフトウェア検出にトランスフォーマーを使う [全文訳有]

MalBERT: Using Transformers for Cybersecurity and Malicious Software Detection ( http://arxiv.org/abs/2103.03806v1 )

ライセンス: CC BY 4.0
Abir Rahali and Moulay A. Akhloufi(参考訳) 近年、さまざまなプラットフォームでサイバー脅威や悪意のあるソフトウェア攻撃が増加し、人やビジネスに重要な影響を与えています。 マルウェアに対して積極的に防御する自動機械学習技術を見つけることが重要になっている。 注目に基づくディープラーニング技術のカテゴリであるTransformersは、自然言語処理(NLP)の分野を中心に、さまざまなタスクを解くという、目覚ましい成果を最近示した。 本稿では,トランスフォーマーアーキテクチャを用いて悪意のあるソフトウェアを自動的に検出する手法を提案する。 BERT(Bidirectional Encoder Representations from Transformers)に基づくモデルを提案し,既存のマルウェアを識別し,異なる代表的なマルウェアカテゴリに分類する前処理機能を用いて,Androidアプリケーションのソースコードの静的解析を行う。 得られた結果は、悪意のあるソフトウェア検出のためのTransformerベースのモデルによって得られた高い性能を示す。

In recent years we have witnessed an increase in cyber threats and malicious software attacks on different platforms with important consequences to persons and businesses. It has become critical to find automated machine learning techniques to proactively defend against malware. Transformers, a category of attention-based deep learning techniques, have recently shown impressive results in solving different tasks mainly related to the field of Natural Language Processing (NLP). In this paper, we propose the use of a Transformers' architecture to automatically detect malicious software. We propose a model based on BERT (Bidirectional Encoder Representations from Transformers) which performs a static analysis on the source code of Android applications using preprocessed features to characterize existing malware and classify it into different representative malware categories. The obtained results are promising and show the high performance obtained by Transformer-based models for malicious software detection.
翻訳日:2021-03-09 03:14:14 公開日:2021-03-05
# (参考訳) ランダム化Douglas-Rachford分割法によるフェデレーション学習 [全文訳有]

Federated Learning with Randomized Douglas-Rachford Splitting Methods ( http://arxiv.org/abs/2103.03452v1 )

ライセンス: CC BY 4.0
Nhan H. Pham, Lam M. Nguyen, Dzung T. Phan, Quoc Tran-Dinh(参考訳) 本稿では,フェデレート学習における基本非凸最適化問題を解くための2つの新しいアルゴリズム, \textbf{feddr} と \textbf{asyncfeddr} を開発した。 提案手法は,非凸douglas-rachford分割法,ランダム化ブロック座標戦略,非同期実装の新たな組み合わせに依拠する。 FedSplitやFedPDのような最近の文献の手法とは異なり、我々のアルゴリズムは各通信ラウンドにおけるユーザーのサブセットのみを更新し、おそらく非同期モードで更新し、より実用的になる。 これらの新しいアルゴリズムは通信効率も達成し、さらに重要なことは、フェデレート学習における2つの主要な課題である統計的およびシステム不均一性を扱うことができる。 コンバージェンス解析により,新しいアルゴリズムは,標準仮定下での定数係数まで低い通信複雑性に適合することが示された。 数値実験により,合成データと実データの両方を用いた既存手法と比較して,提案手法の利点を示す。

In this paper, we develop two new algorithms, called, \textbf{FedDR} and \textbf{asyncFedDR}, for solving a fundamental nonconvex optimization problem in federated learning. Our algorithms rely on a novel combination between a nonconvex Douglas-Rachford splitting method, randomized block-coordinate strategies, and asynchronous implementation. Unlike recent methods in the literature, e.g., FedSplit and FedPD, our algorithms update only a subset of users at each communication round, and possibly in an asynchronous mode, making them more practical. These new algorithms also achieve communication efficiency and more importantly can handle statistical and system heterogeneity, which are the two main challenges in federated learning. Our convergence analysis shows that the new algorithms match the communication complexity lower bound up to a constant factor under standard assumptions. Our numerical experiments illustrate the advantages of the proposed methods compared to existing ones using both synthetic and real datasets.
翻訳日:2021-03-09 03:03:52 公開日:2021-03-05
# (参考訳) 西森はBetheに会う:スパース重み付きグラフにおけるノード分類のスペクトル法 [全文訳有]

Nishimori meets Bethe: a spectral method for node classification in sparse weighted graphs ( http://arxiv.org/abs/2103.03561v1 )

ライセンス: CC BY 4.0
Lorenzo Dall'Amico, Romain Couillet, Nicolas Tremblay(参考訳) This article unveils a new relation between the Nishimori temperature parametrizing a distribution P and the Bethe free energy on random Erdos-Renyi graphs with edge weights distributed according to P. Estimating the Nishimori temperature being a task of major importance in Bayesian inference problems, as a practical corollary of this new relation, a numerical method is proposed to accurately estimate the Nishimori temperature from the eigenvalues of the Bethe Hessian matrix of the weighted graph. このアルゴリズムは、重み付きグラフ(おそらくスパース)におけるノード分類の新しいスペクトル法を提案するのに用いられる。 競合する最先端のアプローチに対する方法の優位性は、理論的な議論と実世界のデータ実験の両方によって示されています。

This article unveils a new relation between the Nishimori temperature parametrizing a distribution P and the Bethe free energy on random Erdos-Renyi graphs with edge weights distributed according to P. Estimating the Nishimori temperature being a task of major importance in Bayesian inference problems, as a practical corollary of this new relation, a numerical method is proposed to accurately estimate the Nishimori temperature from the eigenvalues of the Bethe Hessian matrix of the weighted graph. The algorithm, in turn, is used to propose a new spectral method for node classification in weighted (possibly sparse) graphs. The superiority of the method over competing state-of-the-art approaches is demonstrated both through theoretical arguments and real-world data experiments.
翻訳日:2021-03-09 00:44:16 公開日:2021-03-05
# (参考訳) 非平衡ミニバッチ最適輸送;ドメイン適応への応用 [全文訳有]

Unbalanced minibatch Optimal Transport; applications to Domain Adaptation ( http://arxiv.org/abs/2103.03606v1 )

ライセンス: CC BY 4.0
Kilian Fatras, Thibault S\'ejourn\'e, Nicolas Courty, R\'emi Flamary(参考訳) 最適輸送距離は、非パラメトリック確率分布を比較するための機械学習の能力に多くの応用を見出した。 しかし、アルゴリズムの複雑さは一般的に大規模なデータセットでの使用を妨げている。 この問題を緩和するための可能な戦略の中で、実践者はデータのサブセット上のこれらの距離の計算推定に頼ることができる。 ミニバッチ。 計算上は魅力的だが,本論文ではこの戦略の限界を強調し,好ましくない平滑化効果をもたらす可能性があることを指摘する。 代替案として,同じミニバッチ戦略と不均衡な最適輸送が組み合わさることで,より堅牢な行動が得られることを示唆する。 偏りのない推定子,勾配の存在,濃度境界など,関連する理論的性質について考察する。 実験により, 領域適応に関する課題において, 不均衡な最適移動の利用は, 最近のベースラインと競合するか, はるかに良好な結果をもたらすことが示された。

Optimal transport distances have found many applications in machine learning for their capacity to compare non-parametric probability distributions. Yet their algorithmic complexity generally prevents their direct use on large scale datasets. Among the possible strategies to alleviate this issue, practitioners can rely on computing estimates of these distances over subsets of data, {\em i.e.} minibatches. While computationally appealing, we highlight in this paper some limits of this strategy, arguing it can lead to undesirable smoothing effects. As an alternative, we suggest that the same minibatch strategy coupled with unbalanced optimal transport can yield more robust behavior. We discuss the associated theoretical properties, such as unbiased estimators, existence of gradients and concentration bounds. Our experimental study shows that in challenging problems associated to domain adaptation, the use of unbalanced optimal transport leads to significantly better results, competing with or surpassing recent baselines.
翻訳日:2021-03-09 00:07:18 公開日:2021-03-05
# (参考訳) 機械学習による保険料自動校正とツイーディ・マディナンス

Autocalibration and Tweedie-dominance for Insurance Pricing with Machine Learning ( http://arxiv.org/abs/2103.03635v1 )

ライセンス: CC BY 4.0
Michel Denuit and Arthur Charpentier and Julien Trufin(参考訳) 強化技術やニューラルネットワークは、特に保険価格の効果的な機械学習方法です。 多くの場合、機械学習モデルのトレーニングに使用する適切な損失関数の選択や、競合するモデルのパフォーマンスを評価するための適切なメトリックについて、無限に議論されている。 また、適合値の総和は観測された総和から大きく離れる可能性があり、これはしばしば時間的アナリストを混乱させる。 標準リンク設定による慣れ親しんだGLM外部の偏差を最小化することで、トレーニングモデル固有のバランスの欠如が、W\'uthrich (2019, 2020) で実証的に記録され、モデルフィッティングの勾配降下法における早期停止則に起因している。 本稿では,Tweedie Devianceを最小化することにより,学習が進むにつれて,この現象をさらに研究することを目的とする。 逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。 自動校正は治療として提案される。 バイアスを補正する新しい手法は、解析にさらに局所的なGLMステップを追加する。 理論的には、純粋にプレミアムな計算で自己校正の概念を実装し、既存のバイアス補正技術と同様にポートフォリオレベルだけでなく、局所的なスケールでもバランスが保たれることを保証する。 凸オーダーは競合するモデルを比較する自然なツールのようで、Denuitらによって提案された診断グラフと関連するメトリクスに新たな光を当てている。 (2019).

Boosting techniques and neural networks are particularly effective machine learning methods for insurance pricing. Often in practice, there are nevertheless endless debates about the choice of the right loss function to be used to train the machine learning model, as well as about the appropriate metric to assess the performances of competing models. Also, the sum of fitted values can depart from the observed totals to a large extent and this often confuses actuarial analysts. The lack of balance inherent to training models by minimizing deviance outside the familiar GLM with canonical link setting has been empirically documented in W\"uthrich (2019, 2020) who attributes it to the early stopping rule in gradient descent methods for model fitting. The present paper aims to further study this phenomenon when learning proceeds by minimizing Tweedie deviance. It is shown that minimizing deviance involves a trade-off between the integral of weighted differences of lower partial moments and the bias measured on a specific scale. Autocalibration is then proposed as a remedy. This new method to correct for bias adds an extra local GLM step to the analysis. Theoretically, it is shown that it implements the autocalibration concept in pure premium calculation and ensures that balance also holds on a local scale, not only at portfolio level as with existing bias-correction techniques. The convex order appears to be the natural tool to compare competing models, putting a new light on the diagnostic graphs and associated metrics proposed by Denuit et al. (2019).
翻訳日:2021-03-08 23:09:14 公開日:2021-03-05
# (参考訳) エッジにおける環境音の分類 : 超資源制約型デバイスのための深層音響ネットワーク [全文訳有]

Environmental Sound Classification on the Edge: Deep Acoustic Networks for Extremely Resource-Constrained Devices ( http://arxiv.org/abs/2103.03483v1 )

ライセンス: CC BY 4.0
Md Mohaimenuzzaman, Christoph Bergmeir, Ian Thomas West and Bernd Meyer(参考訳) デスクトップとクラウドシステムの分類と認識能力を直接エッジデバイスに持ち込むことに、重要な努力が注がれている。 エッジ上のディープラーニングの主な課題は、極端なリソース制約(メモリ、CPU速度、GPUサポートの欠如)に対処することです。 ESC-50では,大規模でリソース制約のないネットワークの評価に使用したのと同じベンチマークで,最先端の性能に近づいた音声分類のためのエッジソリューションを提案する。 重要なのは、エッジデバイス用のthenetworkを特に設計していないことです。 そこで本研究では,大規模深層畳み込みニューラルネットワーク(cnn)を圧縮と量子化によって自動的に変換するuniversalpipelineを提案する。 まず,ESC-10 と ESC-50 でそれぞれ96.75% と87.05% の精度を実現する新しい音響分類アーキテクチャ ACDNet を導入する。 次に,ネットワークに依存しない新しいアプローチを用いてACDNetを圧縮し,極めて小さなモデルを得る。 97.22%の小型化と97.28%のFLOP削減にもかかわらず、圧縮ネットワークはESC-50で82.90%の精度を達成し、最先端のものにとどまっている。 8ビット量子化を用いて,標準マイクロコントローラユニット(MCU)にACD-Netをデプロイする。 私たちの知る限りでは、エッジデバイス上で50クラスの音響分類のためのディープネットワークがうまくデプロイされたのは、これが初めてです。 これは、それ自身には興味があるはずですが、ミニマルサイズのネットワークを手作りするよりも、普遍的な収束パイプラインで達成された、特別な命令であると考えています。

Significant efforts are being invested to bring the classification and recognition powers of desktop and cloud systemsdirectly to edge devices. The main challenge for deep learning on the edge is to handle extreme resource constraints(memory, CPU speed and lack of GPU support). We present an edge solution for audio classification that achieves close to state-of-the-art performance on ESC-50, the same benchmark used to assess large, non resource-constrained networks. Importantly, we do not specifically engineer thenetwork for edge devices. Rather, we present a universalpipeline that converts a large deep convolutional neuralnetwork (CNN) automatically via compression and quantization into a network suitable for resource-impoverishe dedge devices. We first introduce a new sound classification architecture, ACDNet, that produces above state-of-the-art accuracy on both ESC-10 and ESC-50 which are 96.75% and 87.05% respectively. We then compress ACDNet using a novel network-independent approach to obtain an extremely small model. Despite 97.22% size reduction and 97.28% reduction in FLOPs, the compressed network still achieves 82.90% accuracy on ESC-50, staying close to the state-of-the-art. Using 8-bit quantization, we deploy ACD-Net on standard microcontroller units (MCUs). To the best of our knowledge, this is the first time that a deep network for sound classification of 50 classes has successfully been deployed on an edge device. While this should be of interestin its own right, we believe it to be of particular impor-tance that this has been achieved with a universal conver-sion pipeline rather than hand-crafting a network for mini-mal size.
翻訳日:2021-03-08 23:08:06 公開日:2021-03-05
# (参考訳) Generative Adversarial Networkに基づく太陽電池品質検査のための異常検出と自動ラベル付け [全文訳有]

Anomaly detection and automatic labeling for solar cell quality inspection based on Generative Adversarial Network ( http://arxiv.org/abs/2103.03518v1 )

ライセンス: CC BY-SA 4.0
Balzategui Julen, Eciolaza Luka, Maestro-Watson Daniel(参考訳) 本稿では,太陽電池の欠陥検出のための検査システムを開発するためのパイプラインを提案する。 第1フェーズでは、異常検出のために医療領域で使用されているGAN(Generative Adversarial Network)が、検出率の向上と処理速度の低下のための検査に適応されます。 この最初のアプローチでは、トレーニングに欠陥サンプルを必要としないモデルを得ることができ、新しい生産ラインの開始時から異常細胞の検出と配置を開始することができる。 次に第2段階では、不良サンプルが発生すると、訓練されたモデルで自動的にピクセルレベルでラベル付けされ、第2モデルの監督トレーニングに使用されます。 実験の結果, 自動生成ラベルの使用は, 異常検出モデルや, 専門家による手作業ラベルによる学習モデルに対して, 検出率を向上できることがわかった。

In this manuscript, a pipeline to develop an inspection system for defect detection of solar cells is proposed. The pipeline is divided into two phases: In the first phase, a Generative Adversarial Network (GAN) employed in the medical domain for anomaly detection is adapted for inspection improving the detection rate and reducing the processing rates. This initial approach allows obtaining a model that does not require defective samples for training and can start detecting and location anomaly cells from the very beginning of a new production line. Then, in a second stage, as defective samples arise, they will be automatically labeled at pixel-level with the trained model and employed for supervised training of a second model. The experimental results show that the use of such automatically generated labels can improve the detection rates with respect to the anomaly detection model and the model trained on manual labels made by experts.
翻訳日:2021-03-08 22:47:58 公開日:2021-03-05
# (参考訳) 文中の複数関係の高速抽出のためのデュアルポインタネットワーク [全文訳有]

Dual Pointer Network for Fast Extraction of Multiple Relations in a Sentence ( http://arxiv.org/abs/2103.03509v1 )

ライセンス: CC BY-SA 4.0
Seongsik Park and Harksoo Kim(参考訳) 関係抽出は、文中のエンティティ間の意味的関係を認識する情報抽出タスクの一種である。 これまでの多くの研究は、1つの文中の2つのエンティティ間の意味関係を1つだけ抽出することに焦点を当ててきた。 しかし、文中の複数の実体は様々な関係を通じて関連づけられる。 そこで本研究では,マルチヘッドアテンション機構を備えたデュアルポインタネットワークに基づく関係抽出モデルを提案する。 提案モデルは、フォワードオブジェクトデコーダを用いて n-to-1 対象関係を見つける。 そして、後向きの被写体デコーダを用いて1対nの被写体オブジェクト関係を求める。 実験では、提案されたモデルは、ACE-2005コーパスのF1スコアが80.8%、NYTコーパスのF1スコアが78.3%であった。

Relation extraction is a type of information extraction task that recognizes semantic relationships between entities in a sentence. Many previous studies have focused on extracting only one semantic relation between two entities in a single sentence. However, multiple entities in a sentence are associated through various relations. To address this issue, we propose a relation extraction model based on a dual pointer network with a multi-head attention mechanism. The proposed model finds n-to-1 subject-object relations using a forward object decoder. Then, it finds 1-to-n subject-object relations using a backward subject decoder. Our experiments confirmed that the proposed model outperformed previous models, with an F1-score of 80.8% for the ACE-2005 corpus and an F1-score of 78.3% for the NYT corpus.
翻訳日:2021-03-08 22:28:29 公開日:2021-03-05
# (参考訳) CQAにおける回答ランク付けのためのグラフベーストリアテンションネットワーク [全文訳有]

Graph-Based Tri-Attention Network for Answer Ranking in CQA ( http://arxiv.org/abs/2103.03583v1 )

ライセンス: CC BY 4.0
Wei Zhang, Zeyuan Chen, Chao Dong, Wen Wang, Hongyuan Zha, Jianyong Wang(参考訳) コミュニティベースの質問応答 (CQA) プラットフォームでは,質問に対する自動回答ランキングが早期に人気がある可能性のある回答を見つける上で重要である。 主流のアプローチは、質問と回答の表現の一致度と回答者の影響に基づいて答えのランキングスコアを生成することを学びます。 しかし、それらは2つの主な制限に遭遇する: (1)同じ質問における回答間の相関はしばしば見過ごされる。 2) 質問応答表現は, 回答表現に影響を及ぼす前に, 特定の回答とは独立して構築される。 この制限に対処するため、グラフベースの新しいトリアテンションネットワーク、すなわち2つのイノベーションを持つGTANを考案した。 まず、GTANは各質問に対するグラフを構築し、グラフニューラルネットワーク(GNN)を介して各グラフから回答相関を学習することを提案する。 第二に,gnnsから得られた表現に基づいて,ターゲット対応応答表現,回答固有質問表現,文脈対応応答表現を交互に構築する手法を開発した。 GTANは最終的に上記の表現を統合し、回答ランキングスコアを生成する。 実世界の3つのCQAデータセットの実験では、GTANは最先端の回答ランキング法を著しく上回り、ネットワークアーキテクチャの合理性を検証する。

In community-based question answering (CQA) platforms, automatic answer ranking for a given question is critical for finding potentially popular answers in early times. The mainstream approaches learn to generate answer ranking scores based on the matching degree between question and answer representations as well as the influence of respondents. However, they encounter two main limitations: (1) Correlations between answers in the same question are often overlooked. (2) Question and respondent representations are built independently of specific answers before affecting answer representations. To address the limitations, we devise a novel graph-based tri-attention network, namely GTAN, which has two innovations. First, GTAN proposes to construct a graph for each question and learn answer correlations from each graph through graph neural networks (GNNs). Second, based on the representations learned from GNNs, an alternating tri-attention method is developed to alternatively build target-aware respondent representations, answer-specific question representations, and context-aware answer representations by attention computation. GTAN finally integrates the above representations to generate answer ranking scores. Experiments on three real-world CQA datasets demonstrate GTAN significantly outperforms state-of-the-art answer ranking methods, validating the rationality of the network architecture.
翻訳日:2021-03-08 22:15:28 公開日:2021-03-05
# (参考訳) インドネシアのアスペクトベース感性分析のための微調整事前訓練多言語BERTモデル [全文訳有]

Fine-tuning Pretrained Multilingual BERT Model for Indonesian Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2103.03732v1 )

ライセンス: CC BY-SA 4.0
Annisa Nurul Azhar and Masayu Leylia Khodra(参考訳) ホテルドメインにおけるインドネシア語レビューに対するAspect-based Sentiment Analysis (ABSA) に関する以前の研究はCNNとXGBoostを用いて実施されているが、そのモデルはテストデータではあまり一般化されておらず、OOVワードの多さは誤分類事件に貢献した。 現在、多くのNLPタスクに対する最先端の成果は、事前訓練された言語表現を利用することで達成されている。 本稿では,インドネシアのレビューデータセットにおいて,最も先進的な言語表現モデルであるBERTをABSAに組み込むことを目的としている。 マルチリンガルBERT(m-BERT)とタスク変換法を組み合わせることで、これまでの研究結果と比較して、F1スコアで8%の大幅な改善を達成しました。

Although previous research on Aspect-based Sentiment Analysis (ABSA) for Indonesian reviews in hotel domain has been conducted using CNN and XGBoost, its model did not generalize well in test data and high number of OOV words contributed to misclassification cases. Nowadays, most state-of-the-art results for wide array of NLP tasks are achieved by utilizing pretrained language representation. In this paper, we intend to incorporate one of the foremost language representation model, BERT, to perform ABSA in Indonesian reviews dataset. By combining multilingual BERT (m-BERT) with task transformation method, we manage to achieve significant improvement by 8% on the F1-score compared to the result from our previous study.
翻訳日:2021-03-08 21:59:04 公開日:2021-03-05
# (参考訳) インドネシアニュース記事のセマンティックロールラベルとセマンティックグラフを用いた多文書要約 [全文訳有]

Multi-document Summarization using Semantic Role Labeling and Semantic Graph for Indonesian News Article ( http://arxiv.org/abs/2103.03736v1 )

ライセンス: CC BY-SA 4.0
Yuly Haruka Berliana Gunawan and Masayu Leylia Khodra(参考訳) 本稿では,インドネシアのニュース記事に対する意味ロールラベリング(srl)と意味グラフを用いた複数文書要約システムを提案する。 既存の要約器を改善するために, 主語, 述語, 目的語, 副詞(SVOA)抽出を用いて, 述語引数構造(PAS)抽出を行った。 SVOA抽出はインドネシアのSRLモデルに置き換えられた。 また,遺伝的アルゴリズムを伴わない要約器の性能が向上するため,決定木分類器に重要なpasを同定する遺伝的アルゴリズムを置き換えた。 決定木モデルは重要なPASを特定するのに用いられる。 10 つの特徴を持つ決定木モデルは 4 つの文特徴を持つ決定木よりも優れた性能を得た。 実験と評価を行い,100単語要約と200単語要約を生成する。 提案モデルでは,100語で平均ROUGE-2リコールが0.313,200語で平均ROUGE-2リコールが0.394となった。

In this paper, we proposed a multi-document summarization system using semantic role labeling (SRL) and semantic graph for Indonesian news articles. In order to improve existing summarizer, our system modified summarizer that employed subject, predicate, object, and adverbial (SVOA) extraction for predicate argument structure (PAS) extraction. SVOA extraction is replaced with SRL model for Indonesian. We also replace the genetic algorithm to identify important PAS with the decision tree classifier since the summarizer without genetic algorithm gave better performance. The decision tree model is employed to identify important PAS. The decision tree model with 10 features achieved better performance than decision tree with 4 sentence features. Experiments and evaluations are conducted to generate 100 words summary and 200 words summary. The evaluation shows the proposed model get 0.313 average ROUGE-2 recall in 100 words summary and 0.394 average ROUGE-2 recall in 200 words summary.
翻訳日:2021-03-08 21:48:34 公開日:2021-03-05
# (参考訳) 昔は悪い詩人がいて 自動化されましたが 知らなかったでしょう [全文訳有]

There Once Was a Really Bad Poet, It Was Automated but You Didn't Know It ( http://arxiv.org/abs/2103.03775v1 )

ライセンス: CC BY 4.0
Jianyou Wang, Xiaoxuan Zhang, Yuren Zhou, Christopher Suh, Cynthia Rudin(参考訳) 詩は韻、ストレス、メーターに制約を課しながら、わずか5行で物語を語らなければならないため、リメリック世代は詩の世代で直面した最も困難な課題のいくつかを例示している。 これらの課題に対処するために,我々は,最先端のニューラルネットワークベースの詩モデルと先行するルールベースの詩モデルに勝る,新しい,完全に自動化されたライムリック生成システムlimgenを紹介する。 limgenは3つの重要なピースから成り立っている: 現実的な詩の空間への探索を制約する適応的マルチテンプレート制約アルゴリズム、空間を効率的に探索するマルチテンプレートビーム探索アルゴリズム、そしてユーザーが提供するプロンプトワードに関連するコヒーレントなストーリーラインを提供する確率的ストーリーラインアルゴリズム。 結果として生じるライムリックは詩的な制約を満たし、テーマ的に一貫性のあるストーリーラインを持ちます。

Limerick generation exemplifies some of the most difficult challenges faced in poetry generation, as the poems must tell a story in only five lines, with constraints on rhyme, stress, and meter. To address these challenges, we introduce LimGen, a novel and fully automated system for limerick generation that outperforms state-of-the-art neural network-based poetry models, as well as prior rule-based poetry models. LimGen consists of three important pieces: the Adaptive Multi-Templated Constraint algorithm that constrains our search to the space of realistic poems, the Multi-Templated Beam Search algorithm which searches efficiently through the space, and the probabilistic Storyline algorithm that provides coherent storylines related to a user-provided prompt word. The resulting limericks satisfy poetic constraints and have thematically coherent storylines, which are sometimes even funny (when we are lucky).
翻訳日:2021-03-08 21:39:50 公開日:2021-03-05
# (参考訳) AnswerQuest: マルチパラグラフ文書から質問応答項目を生成するシステム [全文訳有]

AnswerQuest: A System for Generating Question-Answer Items from Multi-Paragraph Documents ( http://arxiv.org/abs/2103.03820v1 )

ライセンス: CC BY 4.0
Melissa Roemmele, Deep Sidhpura, Steve DeNeefe and Ling Tsou(参考訳) 読みやすくするための戦略の1つは、質問と回答の形式で情報を提示することです。 本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。 両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。 デモはqna.sdl.comで閲覧できる。

One strategy for facilitating reading comprehension is to present information in a question-and-answer format. We demo a system that integrates the tasks of question answering (QA) and question generation (QG) in order to produce Q&A items that convey the content of multi-paragraph documents. We report some experiments for QA and QG that yield improvements on both tasks, and assess how they interact to produce a list of Q&A items for a text. The demo is accessible at qna.sdl.com.
翻訳日:2021-03-08 21:13:14 公開日:2021-03-05
# (参考訳) 単語定義による貧弱な単語埋め込みの克服 [全文訳有]

Overcoming Poor Word Embeddings with Word Definitions ( http://arxiv.org/abs/2103.03842v1 )

ライセンス: CC BY-SA 4.0
Christopher Malon(参考訳) 現代の自然言語理解モデルは、事前学習されたサブワード埋め込みに依存するが、アプリケーションは、事前学習中に見られなかったり、滅多に見られない単語を判断する必要がある。 より稀な単語に依存する例は、自然言語推論モデルにおいてより困難であることを示す。 そして、モデルがこのハンディキャップを克服するために、自然文で提供される定義をどう使うかを学ぶ。 モデルの定義に対する理解は通常、よくモデル化された単語埋め込みよりも弱いが、完全に訓練されていない単語の使用からパフォーマンスのギャップの大部分を回復する。

Modern natural language understanding models depend on pretrained subword embeddings, but applications may need to reason about words that were never or rarely seen during pretraining. We show that examples that depend critically on a rarer word are more challenging for natural language inference models. Then we explore how a model could learn to use definitions, provided in natural text, to overcome this handicap. Our model's understanding of a definition is usually weaker than a well-modeled word embedding, but it recovers most of the performance gap from using a completely untrained word.
翻訳日:2021-03-08 20:59:48 公開日:2021-03-05
# (参考訳) 視覚認識のための人間理解型意思決定 [全文訳有]

Human-Understandable Decision Making for Visual Recognition ( http://arxiv.org/abs/2103.03429v1 )

ライセンス: CC BY 4.0
Xiaowei Zhou, Jie Yin, Ivor Tsang and Chen Wang(参考訳) ディープニューラルネットワークの広範な利用は多くのタスクで大きな成功を収めている。 しかし、深層学習モデルの動作メカニズムと人間の理解可能な意思決定との間には大きなギャップがあるため、人間がこれらのモデルによる予測を完全に信頼できない。 これまで、人間の理解可能なモデルを訓練するために、深層学習モデルの行動と人間の知覚を連携させる方法についてはほとんど研究されていない。 このギャップを埋めるために,人間の知覚の先行をモデル学習プロセスに組み込むことにより,深層ニューラルネットワークを訓練するための新しい枠組みを提案する。 提案モデルは,画像から概念的部分を認識し,それらの相対的貢献度を評価する過程を模倣する。 提案モデルの有効性を2つの古典的視覚認識タスクで評価する。 実験結果と分析により,本モデルが予測の解釈可能な説明を提供すると同時に,競合認識精度も維持できることを確認した。

The widespread use of deep neural networks has achieved substantial success in many tasks. However, there still exists a huge gap between the operating mechanism of deep learning models and human-understandable decision making, so that humans cannot fully trust the predictions made by these models. To date, little work has been done on how to align the behaviors of deep learning models with human perception in order to train a human-understandable model. To fill this gap, we propose a new framework to train a deep neural network by incorporating the prior of human perception into the model learning process. Our proposed model mimics the process of perceiving conceptual parts from images and assessing their relative contributions towards the final recognition. The effectiveness of our proposed model is evaluated on two classical visual recognition tasks. The experimental results and analysis confirm our model is able to provide interpretable explanations for its predictions, but also maintain competitive recognition accuracy.
翻訳日:2021-03-08 20:51:48 公開日:2021-03-05
# (参考訳) 貢献の可視性向上による共有人工知能モデルの透明性向上のためのフレームワーク [全文訳有]

A framework for fostering transparency in shared artificial intelligence models by increasing visibility of contributions ( http://arxiv.org/abs/2103.03610v1 )

ライセンス: CC BY 4.0
Iain Barclay, Harrison Taylor, Alun Preece, Ian Taylor, Dinesh Verma, Geeth de Mel(参考訳) 人工知能(AI)システムを科学的なワークフローに導入すると、AIシステムコンポーネントを開発するデータサイエンティストと科学者、研究者、その他のユーザーの間の距離が大きくなるにつれて、技術的負債が増加します。 特にガイダンスや規制が変化し、一度受け入れ可能なベストプラクティスが時代遅れになる場合や、データソースが後にバイアスや不正確なものとして信用される場合などである。 本稿では,ユーザ,監査人,その他の利害関係者が,信頼するAIシステムのデータソースやコントリビュータを検証し,信頼できることを確信できるような,AIシステム生成に使用されるプロセスパイプラインの全体的な透明性をランク付けできる定量化可能なメトリクスの導出方法を提案する。 The methodology for calculating the metric, and the type of criteria that could be used to make judgements on the visibility of contributions to systems are evaluated through models published at ModelHub and PyTorch Hub, popular archives for sharing science resources, and is found to be helpful in driving consideration of the contributions made to generating AI systems and approaches towards effective documentation and improving transparency in machine learning assets shared within scientific communities.

Increased adoption of artificial intelligence (AI) systems into scientific workflows will result in an increasing technical debt as the distance between the data scientists and engineers who develop AI system components and scientists, researchers and other users grows. This could quickly become problematic, particularly where guidance or regulations change and once-acceptable best practice becomes outdated, or where data sources are later discredited as biased or inaccurate. This paper presents a novel method for deriving a quantifiable metric capable of ranking the overall transparency of the process pipelines used to generate AI systems, such that users, auditors and other stakeholders can gain confidence that they will be able to validate and trust the data sources and contributors in the AI systems that they rely on. The methodology for calculating the metric, and the type of criteria that could be used to make judgements on the visibility of contributions to systems are evaluated through models published at ModelHub and PyTorch Hub, popular archives for sharing science resources, and is found to be helpful in driving consideration of the contributions made to generating AI systems and approaches towards effective documentation and improving transparency in machine learning assets shared within scientific communities.
翻訳日:2021-03-08 20:41:14 公開日:2021-03-05
# (参考訳) 完全畳み込みネットワークへのスーパーピクセルセグメンテーションの暗黙的統合 [全文訳有]

Implicit Integration of Superpixel Segmentation into Fully Convolutional Networks ( http://arxiv.org/abs/2103.03435v1 )

ライセンス: CC BY 4.0
Teppei Suzuki(参考訳) スーパーピクセルは画像データの複雑さを減らすのに有用な表現である。 しかし、スーパーピクセルと畳み込みニューラルネットワーク(CNN)をエンドツーエンドで組み合わせるためには、スーパーピクセルを生成するための余分なモデルとグラフ畳み込みのような特別な操作が必要である。 本稿では,スーパーピクセル方式をCNNに暗黙的に統合する手法を提案する。 提案手法は,ダウンサンプリング層で画素を階層的にグループ化し,スーパーピクセルを生成する。 提案手法は,フィードフォワードパスにスーパーピクセルを使用せず,バイリニアアップサンプリングではなく,消失した解像度を復元するために使用するため,フィードフォワードパスを変更することなく,既存の多くのアーキテクチャにプラグインすることができる。 その結果,本手法は,下地層を含むモデルであっても,オブジェクト境界などの詳細な情報をスーパーピクセルの形で保存する。 本手法は,セマンティックセグメンテーション,スーパーピクセルセグメンテーション,単眼深度推定などのいくつかのタスクで評価し,現代のアーキテクチャの高速化や予測精度の向上を検証した。

Superpixels are a useful representation to reduce the complexity of image data. However, to combine superpixels with convolutional neural networks (CNNs) in an end-to-end fashion, one requires extra models to generate superpixels and special operations such as graph convolution. In this paper, we propose a way to implicitly integrate a superpixel scheme into CNNs, which makes it easy to use superpixels with CNNs in an end-to-end fashion. Our proposed method hierarchically groups pixels at downsampling layers and generates superpixels. Our method can be plugged into many existing architectures without a change in their feed-forward path because our method does not use superpixels in the feed-forward path but use them to recover the lost resolution instead of bilinear upsampling. As a result, our method preserves detailed information such as object boundaries in the form of superpixels even when the model contains downsampling layers. We evaluate our method on several tasks such as semantic segmentation, superpixel segmentation, and monocular depth estimation, and confirm that it speeds up modern architectures and/or improves their prediction accuracy in these tasks.
翻訳日:2021-03-08 20:21:32 公開日:2021-03-05
# (参考訳) 教師が教えるよりも、画像と画像のモデルを圧縮する [全文訳有]

Teachers Do More Than Teach: Compressing Image-to-Image Models ( http://arxiv.org/abs/2103.03467v1 )

ライセンス: CC BY 4.0
Qing Jin, Jian Ren, Oliver J. Woodford, Jiazhuo Wang, Geng Yuan, Yanzhi Wang, Sergey Tulyakov(参考訳) generative adversarial networks (gans) は高忠実度画像の生成に多大な成功を収めているが、膨大な計算コストとかさばるメモリ使用により効率が低下している。 圧縮GANの最近の取り組みは、画像品質を犠牲にしたり、時間のかかる探索プロセスを含むことで、小型発電機の獲得の顕著な進歩を示しています。 本研究では,知識蒸留に加えて,効率的なネットワークアーキテクチャの発見が可能な検索空間を提供する教師ネットワークを導入することで,これらの課題に対処することを目的とする。 まず,生成モデルの探索空間を再検討し,インセプションに基づく残差ブロックを生成器に導入する。 第2に,目標計算コストを達成するために,教師モデルから学生のアーキテクチャを検索し,検索コストを大幅に削減する一段階の刈り込みアルゴリズムを提案する。 l1間隔の正規化とそれに関連するハイパーパラメータは不要で、トレーニング手順が簡単になる。 最後に,グローバルカーネルアライメント(gka)という指標を用いて教師と生徒の特徴的類似性を最大化することで知識を蒸留する。 当社の圧縮ネットワークは、MACなどの計算コストを大幅に削減した元のモデルよりも、類似またはさらに優れた画像忠実性(FID、mIoU)を実現します。 コードはhttps://github.com/s nap-research/CATで公開される。

Generative Adversarial Networks (GANs) have achieved huge success in generating high-fidelity images, however, they suffer from low efficiency due to tremendous computational cost and bulky memory usage. Recent efforts on compression GANs show noticeable progress in obtaining smaller generators by sacrificing image quality or involving a time-consuming searching process. In this work, we aim to address these issues by introducing a teacher network that provides a search space in which efficient network architectures can be found, in addition to performing knowledge distillation. First, we revisit the search space of generative models, introducing an inception-based residual block into generators. Second, to achieve target computation cost, we propose a one-step pruning algorithm that searches a student architecture from the teacher model and substantially reduces searching cost. It requires no l1 sparsity regularization and its associated hyper-parameters, simplifying the training procedure. Finally, we propose to distill knowledge through maximizing feature similarity between teacher and student via an index named Global Kernel Alignment (GKA). Our compressed networks achieve similar or even better image fidelity (FID, mIoU) than the original models with much-reduced computational cost, e.g., MACs. Code will be released at https://github.com/s nap-research/CAT.
翻訳日:2021-03-08 20:02:48 公開日:2021-03-05
# (参考訳) 視覚言語課題に対する因果注意 [全文訳有]

Causal Attention for Vision-Language Tasks ( http://arxiv.org/abs/2103.03493v1 )

ライセンス: CC0 1.0
Xu Yang, Hanwang Zhang, Guojun Qi, Jianfei Cai(参考訳) 本稿では,既存の注意に基づく視覚言語モデルにおいて,因果注意 (Causal Attention, CATT) という新たな注意機構を提案する。 この効果は有害なバイアスを引き起こし、アテンションモジュールはトレーニングデータの急激な相関に焦点を合わせ、モデルの一般化を損なう。 共同設立者が一般的に観察されていないため、私たちはフロントドアの調整を使って因果的介入を実現します。 具体的には,(1)IS-ATT(In-Sample Attention)と(2)CS-ATT(Cross-Samp le Attention)の組み合わせとして,CATTが実施される。 CATTはQ-K-V規約に従属するため、トランスフォーマーにおけるトップダウンアテンションや自己アテンションなどのアテンションモジュールを置き換えることができる。 CATTは、様々な注目に基づく視覚言語モデルを大幅に改善する。 特に、CATTは、より重いUNITER~\cite{chen2020uniter}に匹敵する少ないデータとより少ない計算能力を使用する軽量LXMERT~\cite{tan2019lxmert}を促進することができるなど、大規模な前訓練に大きな可能性を秘めていることを示しています。 コードは \url{https://github.com/y angxuntu/catt} で公開される。

We present a novel attention mechanism: Causal Attention (CATT), to remove the ever-elusive confounding effect in existing attention-based vision-language models. This effect causes harmful bias that misleads the attention module to focus on the spurious correlations in training data, damaging the model generalization. As the confounder is unobserved in general, we use the front-door adjustment to realize the causal intervention, which does not require any knowledge on the confounder. Specifically, CATT is implemented as a combination of 1) In-Sample Attention (IS-ATT) and 2) Cross-Sample Attention (CS-ATT), where the latter forcibly brings other samples into every IS-ATT, mimicking the causal intervention. CATT abides by the Q-K-V convention and hence can replace any attention module such as top-down attention and self-attention in Transformers. CATT improves various popular attention-based vision-language models by considerable margins. In particular, we show that CATT has great potential in large-scale pre-training, e.g., it can promote the lighter LXMERT~\cite{tan2019lxmert}, which uses fewer data and less computational power, comparable to the heavier UNITER~\cite{chen2020uniter}. Code is published in \url{https://github.com/y angxuntu/catt}.
翻訳日:2021-03-08 19:36:08 公開日:2021-03-05
# (参考訳) 半監督胸部X線分類のための自己監督平均教師 [全文訳有]

Self-supervised Mean Teacher for Semi-supervised Chest X-ray Classification ( http://arxiv.org/abs/2103.03629v1 )

ライセンス: CC BY 4.0
Fengbei Liu, Yu Tian, Filipe R. Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) ディープラーニングモデルのトレーニングは通常、効果的な収束と一般化のために大量の注釈データを必要とする。 しかし,良質なアノテーションを得ることは,ラベリング作業に専門家の放射線科医が必要となるため,手間と費用がかかる作業である。 The study of semi-supervised learning in medical image analysis is then of crucial importance given that it is much less expensive to obtain unlabelled images than to acquire images labelled by expert radiologists.Essenti ally, semi-supervised methods leverage large sets of unlabelled data to enable better training convergence and generalisation than if we use only the small set of labelled images.In this paper, we propose the Self-supervised Mean Teacher for Semi-supervised (S$^2$MTS$^2$) learning that combines self-supervised mean-teacher pre-training with semi-supervised fine-tuning. s$^2$mts$^2$の主な革新は、無限個の正の問合せと重要な特徴を用いて平均教師表現を改善するジョイントコントラスト学習に基づく自己教師付き平均教師事前学習である。 このモデルは,半教師学習で訓練された指数的移動平均教師フレームワークを用いて微調整され,データセットChest X-ray14の胸部疾患の多ラベル分類問題に対するS$^2$MTS$^2$の検証を行った。

The training of deep learning models generally requires a large amount of annotated data for effective convergence and generalisation. However, obtaining high-quality annotations is a laboursome and expensive process due to the need of expert radiologists for the labelling task. The study of semi-supervised learning in medical image analysis is then of crucial importance given that it is much less expensive to obtain unlabelled images than to acquire images labelled by expert radiologists.Essenti ally, semi-supervised methods leverage large sets of unlabelled data to enable better training convergence and generalisation than if we use only the small set of labelled images.In this paper, we propose the Self-supervised Mean Teacher for Semi-supervised (S$^2$MTS$^2$) learning that combines self-supervised mean-teacher pre-training with semi-supervised fine-tuning. The main innovation of S$^2$MTS$^2$ is the self-supervised mean-teacher pre-training based on the joint contrastive learning, which uses an infinite number of pairs of positive query and key features to improve the mean-teacher representation. The model is then fine-tuned using the exponential moving average teacher framework trained with semi-supervised learning.We validate S$^2$MTS$^2$ on the thorax disease multi-label classification problem from the dataset Chest X-ray14, where we show that it outperforms the previous SOTA semi-supervised learning methods by a large margin.
翻訳日:2021-03-08 19:06:49 公開日:2021-03-05
# (参考訳) 注意がすべてではない: 純粋注意力は深さで2倍に低下する [全文訳有]

Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth ( http://arxiv.org/abs/2103.03404v1 )

ライセンス: CC BY 4.0
Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas(参考訳) 注意に基づくアーキテクチャは機械学習においてユビキタスになってきたが、その有効性に対する我々の理解は依然として限られている。 本研究は,自己着脱ネットワークを理解する新しい方法を提案する。これらのアウトプットがより小さな項の和に分解され,各層にまたがる注意ヘッドの一連の操作を含むことを示す。 この分解を用いて,自己意識は「連続的均一性」に対する強い誘導バイアスを有することを証明した。 具体的には、スキップ接続や多層パーセプトロン(MLP)なしで、出力は指数関数的にランク1行列に収束する。 一方、接続をスキップし、MLPが出力をデジェネレーションから停止します。 本実験は標準変圧器アーキテクチャの異なる変種で同定された収束現象を検証する。

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.
翻訳日:2021-03-08 18:23:15 公開日:2021-03-05
# (参考訳) ラベルノイズに対するグラフニューラルネットワークの統一ロバストトレーニング [全文訳有]

Unified Robust Training for Graph NeuralNetworks against Label Noise ( http://arxiv.org/abs/2103.03414v1 )

ライセンス: CC BY 4.0
Yayong Li, Jie yin, Ling Chen(参考訳) グラフニューラルネットワーク(GNN)は,グラフ上のノード分類の最先端性能を実現している。 既存の作業の大部分は、本物のノードラベルがトレーニングに常に提供されると仮定しています。 しかし、ラベルノイズの存在下でGNNの堅牢性を改善する方法に関する研究はほとんど行われていない。 ラベルノイズによる学習は、主に画像分類の文脈で研究されているが、これらの手法は、グラフ上の学習によって直面するラベルスパーシティとラベル依存性という2つの大きな課題のために、グラフ構造化データに直接適用できない。 本論文では,半教師付き設定でノイズの多いラベルをグラフ上で学習するための新しいフレームワークである UnionNET を提案する。 提案手法は,GNNを頑健に訓練し,ラベル修正を同時に行うための統一的なソリューションを提供する。 重要なアイデアは、サンプルの再重み付けとラベルの補正を導くために使用されるノードレベルのクラスの確率分布を推定するためにラベルアグリゲーションを実行することです。 既存の作品と比較して、UnionNETには2つの魅力的な利点があります。 第一に、余分なクリーンな監督やノイズ遷移行列の明示的な推定は不要である。 第2に、GNNをエンドツーエンドで堅牢にトレーニングする統合学習フレームワークを提案する。 実験の結果,(1)異なるタイプやラベルノイズのレベルに対するモデルのロバスト性向上に有効であり,(2)最先端のベースラインよりも大幅に改善できることがわかった。

Graph neural networks (GNNs) have achieved state-of-the-art performance for node classification on graphs. The vast majority of existing works assume that genuine node labels are always provided for training. However, there has been very little research effort on how to improve the robustness of GNNs in the presence of label noise. Learning with label noise has been primarily studied in the context of image classification, but these techniques cannot be directly applied to graph-structured data, due to two major challenges -- label sparsity and label dependency -- faced by learning on graphs. In this paper, we propose a new framework, UnionNET, for learning with noisy labels on graphs under a semi-supervised setting. Our approach provides a unified solution for robustly training GNNs and performing label correction simultaneously. The key idea is to perform label aggregation to estimate node-level class probability distributions, which are used to guide sample reweighting and label correction. Compared with existing works, UnionNET has two appealing advantages. First, it requires no extra clean supervision, or explicit estimation of the noise transition matrix. Second, a unified learning framework is proposed to robustly train GNNs in an end-to-end manner. Experimental results show that our proposed approach: (1) is effective in improving model robustness against different types and levels of label noise; (2) yields significant improvements over state-of-the-art baselines.
翻訳日:2021-03-08 17:30:45 公開日:2021-03-05
# (参考訳) 少ないグラフ分類のための構造強化メタラーニング [全文訳有]

Structure-Enhanced Meta-Learning For Few-Shot Graph Classification ( http://arxiv.org/abs/2103.03547v1 )

ライセンス: CC BY 4.0
Shunyu Jiang, Fuli Feng, Weijian Chen, Xiang Li, Xiangnan He(参考訳) グラフ分類は、分子特性予測やタンパク質機能予測など、無数の実世界のアプリケーションで重要な役割を果たす非常にインパクトの高いタスクです。 ラベル付きグラフで新しいクラスを扱うことを目指して、少数のグラフ分類は既存のグラフ分類ソリューションと実用的な利用の橋渡しになっている。 本研究では,数点グラフ分類の解法のためのメトリベースメタラーニングの可能性を検討する。 本研究では, 溶液の構造特性を考慮することの重要性を強調し, 入力グラフのグローバル構造と局所構造を明示的に考慮した新しい枠組みを提案する。 SMFGINと呼ばれるGINの実装は、ChemblとTRIANGLESの2つのデータセットでテストされ、広範な実験が提案された方法の有効性を検証します。 Chemblは、数ショットグラフ分類評価のための大規模なベンチマークの欠如を埋めるために構築され、SMF-GINの実装とともにリリースされる。

Graph classification is a highly impactful task that plays a crucial role in a myriad of real-world applications such as molecular property prediction and protein function prediction. Aiming to handle the new classes with limited labeled graphs, few-shot graph classification has become a bridge of existing graph classification solutions and practical usage. This work explores the potential of metric-based meta-learning for solving few-shot graph classification. We highlight the importance of considering structural characteristics in the solution and propose a novel framework which explicitly considers global structure and local structure of the input graph. An implementation upon GIN, named SMFGIN, is tested on two datasets, Chembl and TRIANGLES, where extensive experiments validate the effectiveness of the proposed method. The Chembl is constructed to fill in the gap of lacking largescale benchmark for few-shot graph classification evaluation, which will be released together with the implementation of SMF-GIN upon acceptance
翻訳日:2021-03-08 17:19:23 公開日:2021-03-05
# (参考訳) 教師なしコアセット選択へのコントラスト学習の拡張 [全文訳有]

Extending Contrastive Learning to Unsupervised Coreset Selection ( http://arxiv.org/abs/2103.03574v1 )

ライセンス: CC BY 4.0
Jeongwoo Ju, Heechul Jung, Yoonju Oh, Junmo Kim(参考訳) 自己教師付きコントラスト学習は、ラベルなしデータのプールから情報的特徴を学習する手段を提供する。 本稿では、完全にラベル付けされていないコアセットを選択する方法を提供する、別の有用なアプローチを掘り下げる。 この点において、多くの自己指導的手法の1つであるコントラスト学習が近年提案され、常に最高性能を達成している。 これにより、視覚表現のコントラスト学習のための単純なフレームワーク(SimCLR)とモーメントコントラスト学習フレームワーク(MoCo)という2つの主要なコントラスト学習方法を選択することができた。 対照的学習プロセスの全期間において,各エポックの例のコサイン類似度を計算し,その後コサイン類似度値を蓄積してコアセットスコアを得る。 我々の仮定では、類似度の低いサンプルはコアセットとして振る舞う可能性が高い。 ラベルを用いた既存のコアセット選択手法と比較して,人間のアノテーションに関連するコストを削減した。 本研究で実施したコアセット選択のための監視されていない方法は、ランダムに選択されたサブセットよりも改善された結果を得、様々な分類データセット(CIFAR、SVHN、QMNISTなど)における既存の監視されたコアセット選択に匹敵するものであった。

Self-supervised contrastive learning offers a means of learning informative features from a pool of unlabeled data. In this paper, we delve into another useful approach -- providing a way of selecting a core-set that is entirely unlabeled. In this regard, contrastive learning, one of a large number of self-supervised methods, was recently proposed and has consistently delivered the highest performance. This prompted us to choose two leading methods for contrastive learning: the simple framework for contrastive learning of visual representations (SimCLR) and the momentum contrastive (MoCo) learning framework. We calculated the cosine similarities for each example of an epoch for the entire duration of the contrastive learning process and subsequently accumulated the cosine-similarity values to obtain the coreset score. Our assumption was that an sample with low similarity would likely behave as a coreset. Compared with existing coreset selection methods with labels, our approach reduced the cost associated with human annotation. The unsupervised method implemented in this study for coreset selection obtained improved results over a randomly chosen subset, and were comparable to existing supervised coreset selection on various classification datasets (e.g., CIFAR, SVHN, and QMNIST).
翻訳日:2021-03-08 17:03:51 公開日:2021-03-05
# (参考訳) 画像分類器の構成解説 [全文訳有]

Compositional Explanations for Image Classifiers ( http://arxiv.org/abs/2103.03622v1 )

ライセンス: CC BY 4.0
Hana Chockler, Daniel Kroening, Youcheng Sun(参考訳) 画像分類器の出力を説明する既存のアルゴリズムは、関心のあるオブジェクトが部分的に含まれている入力で不十分に実行されます。 本稿では,因果理論に基づく原理的アプローチを用いた説明計算のための新しいブラックボックスアルゴリズムを提案する。 このメソッドはツールCET(Compositional Explanation Tool)で実装しています。 アルゴリズムの構成性により、CETは、既存の説明ツールで生成された説明よりもずっと正確な説明を閉塞を伴う画像で計算し、閉塞のない画像を説明するときの芸術の状態に匹敵するレベルのパフォーマンスを提供します。

Existing algorithms for explaining the output of image classifiers perform poorly on inputs where the object of interest is partially occluded. We present a novel, black-box algorithm for computing explanations that uses a principled approach based on causal theory. We implement the method in the tool CET (Compositional Explanation Tool). Owing to the compositionality in its algorithm, CET computes explanations that are much more accurate than those generated by the existing explanation tools on images with occlusions and delivers a level of performance comparable to the state of the art when explaining images without occlusions.
翻訳日:2021-03-08 16:50:36 公開日:2021-03-05
# (参考訳) FFmpegフレームワークを拡張してメディアコンテンツを分析 [全文訳有]

Extend the FFmpeg Framework to Analyze Media Content ( http://arxiv.org/abs/2103.03539v1 )

ライセンス: CC BY 4.0
Xintian Wu, Pengfei Qu, Shaofei Wang, Lin Xie and Jie Dong(参考訳) 本稿では、FFmpegフレームワーク用に開発された新しいビデオ分析プラグインセットを紹介します。 FFmpegメディア機能をその包括的メディアエンコーディング、デコード、モックス、デデマ機能に利用しているマルチメディアアプリケーションは、AIモデルに基づいてビデオコンテンツも分析できるようになった。 プラグインは、特定のFFmpegスレッド制限を克服するためにスレッド最適化されている。 プラグインはバックエンドとしてIntel OpenVINO Toolkit推論エンジンを使用している。 分析ワークロードは、CPU、GPU、FPGA、あるいは特殊な分析アクセラレータなど、さまざまなプラットフォーム上で加速される。 リファレンス実装では、推論バックエンドとしてのOpenVINOの機能はFFmpegのメインストリームリポジトリにプッシュされています。 後でもっとパッチを提出する予定です。

This paper introduces a new set of video analytics plugins developed for the FFmpeg framework. Multimedia applications that increasingly utilize the FFmpeg media features for its comprehensive media encoding, decoding, muxing, and demuxing capabilities can now additionally analyze the video content based on AI models. The plugins are thread optimized for best performance overcoming certain FFmpeg threading limitations. The plugins utilize the Intel OpenVINO Toolkit inference engine as the backend. The analytics workloads are accelerated on different platforms such as CPU, GPU, FPGA or specialized analytics accelerators. With our reference implementation, the feature of OpenVINO as inference backend has been pushed into FFmpeg mainstream repository. We plan to submit more patches later.
翻訳日:2021-03-08 16:38:35 公開日:2021-03-05
# (参考訳) 仮想テンプレート合成とマッチングによる火星試料のローバー再局在化 [全文訳有]

Rover Relocalization for Mars Sample Return by Virtual Template Synthesis and Matching ( http://arxiv.org/abs/2103.03395v1 )

ライセンス: CC BY 4.0
Tu-Hoa Pham, William Seto, Shreyansh Daftry, Barry Ridge, Johanna Hansen, Tristan Thrush, Mark Van der Merwe, Gerard Maggiolino, Alexander Brinkman, John Mayo, Yang Cheng, Curtis Padgett, Eric Kulczycki, Renaud Detry(参考訳) 我々は、概念火星サンプルリターンキャンペーンの文脈におけるローバー再局在化の問題を検討する。 このキャンペーンでは、ローバー(R1)は、別のローバー(R0)によって数年前に収集された参照画像を使用して、約50 x 50 mの領域内を自律的にナビゲートおよびローカライズできる必要があります。 本研究では,相対的に不規則な地形に対してロバスト性を示す視覚ローカライザーを提案し,r0とr1の照明と視点の違いを明らかにした。 ローカライザは、参照r0画像から構築されたメッシュの部分レンダリングを合成し、r1画像とマッチングする。 提案手法は,予測環境条件(地形,照明,接近角)を網羅した2160枚の画像のデータセット上で評価した。 実験結果は、我々のアプローチの有効性を示しています。 この作品は、別のローバー(R1)による将来の検索のために、Perseverance(R0)がサンプルチューブのセットを配置するサイトの選択に関するMars Sample Returnキャンペーンを知らせます。

We consider the problem of rover relocalization in the context of the notional Mars Sample Return campaign. In this campaign, a rover (R1) needs to be capable of autonomously navigating and localizing itself within an area of approximately 50 x 50 m using reference images collected years earlier by another rover (R0). We propose a visual localizer that exhibits robustness to the relatively barren terrain that we expect to find in relevant areas, and to large lighting and viewpoint differences between R0 and R1. The localizer synthesizes partial renderings of a mesh built from reference R0 images and matches those to R1 images. We evaluate our method on a dataset totaling 2160 images covering the range of expected environmental conditions (terrain, lighting, approach angle). Experimental results show the effectiveness of our approach. This work informs the Mars Sample Return campaign on the choice of a site where Perseverance (R0) will place a set of sample tubes for future retrieval by another rover (R1).
翻訳日:2021-03-08 16:31:54 公開日:2021-03-05
# (参考訳) 研究グループ学習:雑音ラベルを用いた網膜血管セグメンテーションの改善 [全文訳有]

Study Group Learning: Improving Retinal Vessel Segmentation Trained with Noisy Labels ( http://arxiv.org/abs/2103.03451v1 )

ライセンス: CC BY 4.0
Yuqian Zhou, Hanchao Yu, Humphrey Shi(参考訳) 網膜画像からの網膜血管のセグメンテーションは、網膜疾患に対するコンピュータ支援診断システムの開発に欠かせない課題である。 網膜像をエンドツーエンドに分割する高性能な深層学習アプローチへの取り組みがなされている。 しかし、網膜血管画像とセグメンテーションラベルの取得は、専門医による面倒な作業を必要とし、その結果、不完全なラベルを持つトレーニングデータセットが小さくなる。 既知のように、データ駆動型メソッドはデータ不足に苦しんでおり、モデルは小規模のトレーニングデータに簡単に過剰適合する。 このような状況は、訓練船ラベルが不完全または不正確な場合、より厳しいものとなる。 本稿では,雑音ラベルに訓練されたモデルの堅牢性を改善するための学習グループ学習(SGL)手法を提案する。 また, 臨床医の補助ツールとして, 従来の方法よりも可視化性が向上した。 実験により,提案手法はDRIVEおよびCHASE$\_$DB1データセットにおいて,特にトレーニングラベルがノイズのある場合において,血管セグメンテーション性能をさらに向上することが示された。

Retinal vessel segmentation from retinal images is an essential task for developing the computer-aided diagnosis system for retinal diseases. Efforts have been made on high-performance deep learning-based approaches to segment the retinal images in an end-to-end manner. However, the acquisition of retinal vessel images and segmentation labels requires onerous work from professional clinicians, which results in smaller training dataset with incomplete labels. As known, data-driven methods suffer from data insufficiency, and the models will easily over-fit the small-scale training data. Such a situation becomes more severe when the training vessel labels are incomplete or incorrect. In this paper, we propose a Study Group Learning (SGL) scheme to improve the robustness of the model trained on noisy labels. Besides, a learned enhancement map provides better visualization than conventional methods as an auxiliary tool for clinicians. Experiments demonstrate that the proposed method further improves the vessel segmentation performance in DRIVE and CHASE$\_$DB1 datasets, especially when the training labels are noisy.
翻訳日:2021-03-08 16:10:42 公開日:2021-03-05
# (参考訳) 自己監督学習とテクスチャエンコーディングを用いたCT画像からの肝線維化とNASスコアリング [全文訳有]

Liver Fibrosis and NAS scoring from CT images using self-supervised learning and texture encoding ( http://arxiv.org/abs/2103.03761v1 )

ライセンス: CC BY 4.0
Ananya Jana, Hui Qu, Carlos D. Minacapelli, Carolyn Catalano, Vinod Rustgi, Dimitris Metaxas(参考訳) 非アルコール性脂肪肝疾患(NAFLD)は、肝臓癌に進行できる慢性肝疾患(CLD)の最も一般的な原因の1つです。 NAFLDの重症度と治療は、通常肝臓生検から得られるNAFLD活動スコア(NAS)および肝線維化段階によって決定される。 しかし、生検は自然界に侵入し、手続き的な合併症のリスクを負う。 非侵襲的ct画像から線維化とnasスコアを予測する現在の方法は、事前訓練されたネットワークを用いた大規模な注釈付きデータセットまたは転送学習に依存している。 しかし、大きなアノテートされたデータセットの可用性を常に保証することはできず、転送学習を使用する場合のドメインシフトも可能となる。 本研究では,両問題に対する自己監督型学習手法を提案する。 また,nafldが肝組織質の変化を引き起こすため,モデルの性能を向上させるためにテクスチャエンコード入力を用いることも提案する。 30人の患者からなる比較的小さなデータセットを考えると、転送学習によって訓練されたネットワークよりも優れたパフォーマンスを実現する自己教師付きネットワークを採用する。 コードはhttps://github.com/a nanyajana/fibrosis_c odeで公開されている。

Non-alcoholic fatty liver disease (NAFLD) is one of the most common causes of chronic liver diseases (CLD) which can progress to liver cancer. The severity and treatment of NAFLD is determined by NAFLD Activity Scores (NAS)and liver fibrosis stage, which are usually obtained from liver biopsy. However, biopsy is invasive in nature and involves risk of procedural complications. Current methods to predict the fibrosis and NAS scores from noninvasive CT images rely heavily on either a large annotated dataset or transfer learning using pretrained networks. However, the availability of a large annotated dataset cannot be always ensured andthere can be domain shifts when using transfer learning. In this work, we propose a self-supervised learning method to address both problems. As the NAFLD causes changes in the liver texture, we also propose to use texture encoded inputs to improve the performance of the model. Given a relatively small dataset with 30 patients, we employ a self-supervised network which achieves better performance than a network trained via transfer learning. The code is publicly available at https://github.com/a nanyajana/fibrosis_c ode.
翻訳日:2021-03-08 16:00:13 公開日:2021-03-05
# (参考訳) 機械学習に基づくスマートヘルスケアシステムの脅威分析のための新しいフレームワーク [全文訳有]

A Novel Framework for Threat Analysis of Machine Learning-based Smart Healthcare Systems ( http://arxiv.org/abs/2103.03472v1 )

ライセンス: CC BY 4.0
Nur Imtiazul Haque, Mohammad Ashiqur Rahman, Md Hasan Shahriar, Alvi Ataur Khalil and Selcuk Uluagac(参考訳) スマートヘルスケアシステム(SHS)は、ワイヤレスボディセンサーネットワーク(WBSN)と組み込み医療機器(IMD)ベースの医療物のインターネット(IoMT)を活用した、高速で効率的な疾患治療を提供している。 さらに、IoMTベースのSHSは、無数のヘルスケアセンサーデバイス間の通信を可能にする自動投薬を可能にしています。 しかし、相手は、通信ネットワークとハードウェア/確認装置に様々な攻撃を仕掛け、偽データを導入したり、患者の生活を危険にさらす自動治療システムにデータを利用できなくなる。 本稿では、機械学習と形式解析機能を統合した新しい脅威分析フレームワークSHCheckerを提案し、IoMTベースのSHSに対する潜在的な攻撃と対応する影響を特定する。 当社のフレームワークは,攻撃特性のセットを与えられたshsに対して,変更対象のセンサのセットを表すすべての潜在的な攻撃ベクトルを提供することで,システムのレジリエンスを実現することにより,モデルの堅牢性を高めるための洞察を得ることができます。 私たちは合成データセットと実データセットにSHCheckerを実装し、フレームワークがIoMTシステムにおける潜在的な攻撃ベクトルを明らかにすることができることを確認します。 これは、ブラックボックスSHS脅威分析のための監視および監視されていない機械学習モデルを正式に分析する新しい取り組みです。

Smart healthcare systems (SHSs) are providing fast and efficient disease treatment leveraging wireless body sensor networks (WBSNs) and implantable medical devices (IMDs)-based internet of medical things (IoMT). In addition, IoMT-based SHSs are enabling automated medication, allowing communication among myriad healthcare sensor devices. However, adversaries can launch various attacks on the communication network and the hardware/firmware to introduce false data or cause data unavailability to the automatic medication system endangering the patient's life. In this paper, we propose SHChecker, a novel threat analysis framework that integrates machine learning and formal analysis capabilities to identify potential attacks and corresponding effects on an IoMT-based SHS. Our framework can provide us with all potential attack vectors, each representing a set of sensor measurements to be altered, for an SHS given a specific set of attack attributes, allowing us to realize the system's resiliency, thus the insight to enhance the robustness of the model. We implement SHChecker on a synthetic and a real dataset, which affirms that our framework can reveal potential attack vectors in an IoMT system. This is a novel effort to formally analyze supervised and unsupervised machine learning models for black-box SHS threat analysis.
翻訳日:2021-03-08 15:50:08 公開日:2021-03-05
# Rissanen データ分析:記述長によるデータセット特性の検討

Rissanen Data Analysis: Examining Dataset Characteristics via Description Length ( http://arxiv.org/abs/2103.03872v1 )

ライセンス: Link先を確認
Ethan Perez, Douwe Kiela, Kyunghyun Cho(参考訳) 特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。 我々は、ラベルを異なる機能を持つサブルーチンからなるプログラムによって入力から生成されるものとみなし、サブルーチンが有用であることと、それを呼び出す最小限のプログラムがそうでないプログラムよりも短いことを仮定する。 最小プログラム長は計算不可能であるため、ラベルの最小記述長 (MDL) をプロキシとして推定し、理論的に基礎的な解析手法を提案する。 我々はMDLの父に因んでRDA(Rissanen Data Analysis)と呼ぶこの手法を,質問に答える前にサブクエストの生成の有用性を評価すること,理性や説明の値を分析すること,発話の異なる部分の重要性を調査すること,データセットの性別バイアスを明らかにすることなど,NLPのさまざまな設定に適用可能であることを示す。

We introduce a method to determine if a certain capability helps to achieve an accurate model of given data. We view labels as being generated from the inputs by a program composed of subroutines with different capabilities, and we posit that a subroutine is useful if and only if the minimal program that invokes it is shorter than the one that does not. Since minimum program length is uncomputable, we instead estimate the labels' minimum description length (MDL) as a proxy, giving us a theoretically-ground ed method for analyzing dataset characteristics. We call the method Rissanen Data Analysis (RDA) after the father of MDL, and we showcase its applicability on a wide variety of settings in NLP, ranging from evaluating the utility of generating subquestions before answering a question, to analyzing the value of rationales and explanations, to investigating the importance of different parts of speech, and uncovering dataset gender bias.
翻訳日:2021-03-08 15:08:03 公開日:2021-03-05
# MATHデータセットによる数学的問題解決の測定

Measuring Mathematical Problem Solving With the MATH Dataset ( http://arxiv.org/abs/2103.03874v1 )

ライセンス: Link先を確認
Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt(参考訳) 多くの知的努力は数学的問題解決を必要とするが、このスキルはコンピュータの能力を超えている。 この能力を機械学習モデルで測定するために、12,500の競合数学問題からなる新しいデータセットであるMATHを紹介する。 MATHの各問題には完全なステップバイステップのソリューションがあり、モデルに答えの導出と説明を生成するために使用することができる。 今後の研究の促進とMATHの精度向上のために,我々は,モデルに数学の基礎を教えるための補助的事前学習データセットを大規模に提供した。 計算精度は向上できたが, 膨大なトランスフォーマーモデルにおいても, 計算精度は比較的低いことが判明した。 さらに,スケーリングの傾向が続くと,単に予算やモデルパラメータの数を増やすだけでは,強力な数学的推論を達成できないことが判明した。 Transformersのスケーリングは他のほとんどのテキストベースのタスクを自動的に解決しますが、スケーリングは現在MATHを解決していません。 数学的な問題解決にもっと力を入れるためには、より広い研究コミュニティからの新しいアルゴリズムの進歩が必要だ。

Many intellectual endeavors require mathematical problem solving, but this skill remains beyond the capabilities of computers. To measure this ability in machine learning models, we introduce MATH, a new dataset of 12,500 challenging competition mathematics problems. Each problem in MATH has a full step-by-step solution which can be used to teach models to generate answer derivations and explanations. To facilitate future research and increase accuracy on MATH, we also contribute a large auxiliary pretraining dataset which helps teach models the fundamentals of mathematics. Even though we are able to increase accuracy on MATH, our results show that accuracy remains relatively low, even with enormous Transformer models. Moreover, we find that simply increasing budgets and model parameter counts will be impractical for achieving strong mathematical reasoning if scaling trends continue. While scaling Transformers is automatically solving most other text-based tasks, scaling is not currently solving MATH. To have more traction on mathematical problem solving we will likely need new algorithmic advancements from the broader research community.
翻訳日:2021-03-08 15:07:21 公開日:2021-03-05
# pretext-based self-supervised learningは下流データによって促進されるか? 理論的な分析

Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream Data? A Theoretical Analysis ( http://arxiv.org/abs/2103.03568v1 )

ライセンス: Link先を確認
Jiaye Teng, Weiran Huang(参考訳) pretext-based self-supervised learningは,ラベルのないデータ上で手作りのpretextタスクを通じて意味表現を学習し,下流予測タスクに学習表現を使用する。 \citet{lee2020predicting} プリテキストベースの自己教師付き学習は、下流ラベル上のプリテキストタスク条件のコンポーネント間の条件付き独立(ci)下での下流タスクのサンプル複雑性を効果的に低減できる。 しかし、CI条件が実際に保持されることはめったになく、CI条件が満たなければ、下流のサンプルの複雑さはさらに悪化する。 本稿では,CI条件を保持するために学習可能な関数を入力に適用するアイデアを検討する。 特に、まず関数が満たす必要がある基準を厳密に定式化します。 そして,そのような関数を学習するための巧妙な損失関数を設計し,提案する損失を最小化する関数が上記の基準を満たすことを証明した。 理論的には,必要なラベル付きデータの数について検討し,下流データに制限を課すことで,自己教師付き学習の性能を損なうことを示す。 さらに、モデル構造を考慮に入れ、モデル依存の下位境界を与え、モデル容量が大きくなるとより高くなります。 さらに,いくつかの数値実験を行い,実験結果の検証を行った。

Pretext-based self-supervised learning aims to learn the semantic representation via a handcrafted pretext task over unlabeled data and then use the learned representation for downstream prediction tasks. \citet{lee2020predicting} prove that pretext-based self-supervised learning can effectively reduce the sample complexity of downstream tasks under Conditional Independence (CI) between the components of the pretext task conditional on the downstream label. However, the CI condition rarely holds in practice, and the downstream sample complexity will get much worse if the CI condition does not hold. In this paper, we explore the idea of applying a learnable function to the input to make the CI condition hold. In particular, we first rigorously formulate the criteria that the function needs to satisfy. We then design an ingenious loss function for learning such a function and prove that the function minimizing the proposed loss satisfies the above criteria. We theoretically study the number of labeled data required, and give a model-free lower bound showing that taking limited downstream data will hurt the performance of self-supervised learning. Furthermore, we take the model structure into account and give a model-dependent lower bound, which gets higher when the model capacity gets larger. Moreover, we conduct several numerical experiments to verify our theoretical results.
翻訳日:2021-03-08 15:07:01 公開日:2021-03-05
# 生成型adversarial networkにおけるコントラスト・ディスタングル

Contrastive Disentanglement in Generative Adversarial Networks ( http://arxiv.org/abs/2103.03636v1 )

ライセンス: Link先を確認
Lili Pan, Peijun Tang, Zhiyong Chen, Zenglin Xu(参考訳) ディスタングルメントは、データのバリエーションの区別された情報的要素を分離できる、表現の学習の問題として定義される。 このような表現論を学ぶことは、人工知性において説明可能で人間制御可能なDeep Generative Model(DGM)を開発するために重要である。 しかし, 潜伏変数の標本可能性や後方推論が欠如しているため, GANの絡み合いは三次的課題ではない。 コントラスト学習 (CL) に触発された本論文は, 新たな視点から, コントラスト的非絡み合い(CD-GAN) を提案する。 同じ係数が同じクラスで画像を生成するため、画像特徴と対照的な視覚データスルーのクラス間変動の要因を解消することを目的としている。 より重要なことは,クラス間の非絡合性能を高めるために,限られたスーパービジョンを最大限に活用するための新しい手法を探索することである。 広範な実験結果多くのよく知られたデータセットは、クラス間の変動を解くためのCD-GANの有効性を示す。

Disentanglement is defined as the problem of learninga representation that can separate the distinct, informativefactors of variations of data. Learning such a representa-tion may be critical for developing explainable and human-controllable Deep Generative Models (DGMs) in artificialintelligen ce. However, disentanglement in GANs is not a triv-ial task, as the absence of sample likelihood and posteriorinference for latent variables seems to prohibit the forwardstep. Inspired by contrastive learning (CL), this paper, froma new perspective, proposes contrastive disentanglement ingenerative adversarial networks (CD-GAN). It aims at dis-entangling the factors of inter-class variation of visual datathrough contrasting image features, since the same factorvalues produce images in the same class. More importantly,we probe a novel way to make use of limited amount ofsupervision to the largest extent, to promote inter-class dis-entanglement performance. Extensive experimental resultson many well-known datasets demonstrate the efficacy ofCD-GAN for disentangling inter-class variation.
翻訳日:2021-03-08 15:06:40 公開日:2021-03-05
# 補助ラベルからの幾何学的制約を利用したワンショット学習のための埋め込み関数の改善

Harnessing Geometric Constraints from Auxiliary Labels to Improve Embedding Functions for One-Shot Learning ( http://arxiv.org/abs/2103.03862v1 )

ライセンス: Link先を確認
Anand Ramakrishnan, Minh Pham, and Jacob Whitehill(参考訳) ワンショット学習(例:顔認証)のための埋め込みモデルを訓練する際に、補助ラベル(例:顔表現)を利用して幾何学的構造を付与する有用性を検討する。 本稿では,手動で注釈付きまたは自動検出された補助ラベルを用いて深層モデルで学習した埋め込み空間に新しい幾何学的制約を導入する。 私たちは4つの異なる顔データセット(CK+、VGGFace-2、Tufts Face、PubFig)でパフォーマンス(AUC)を比較します。 埋め込み空間にエンコードされた追加の構造により、我々の手法はより高い検証精度(99.7, 86.2, 99.4, 79.3%、提案されたTL+PDP+FBV損失に対して97.5, 72.6, 93.1, 70.5%)を提供する。 本手法は純粋に損失関数を用いて実装する。 組み込み関数のバックボーンを変更する必要はない。

We explore the utility of harnessing auxiliary labels (e.g., facial expression) to impose geometric structure when training embedding models for one-shot learning (e.g., for face verification). We introduce novel geometric constraints on the embedding space learned by a deep model using either manually annotated or automatically detected auxiliary labels. We contrast their performances (AUC) on four different face datasets(CK+, VGGFace-2, Tufts Face, and PubFig). Due to the additional structure encoded in the embedding space, our methods provide a higher verification accuracy (99.7, 86.2, 99.4, and 79.3% with our proposed TL+PDP+FBV loss, versus 97.5, 72.6, 93.1, and 70.5% using a standard Triplet Loss on the four datasets, respectively). Our method is implemented purely in terms of the loss function. It does not require any changes to the backbone of the embedding functions.
翻訳日:2021-03-08 15:06:21 公開日:2021-03-05
# ジョイントチャンス制約満足度を用いた安全な強化学習のための自動探索プロセス調整

Automatic Exploration Process Adjustment for Safe Reinforcement Learning with Joint Chance Constraint Satisfaction ( http://arxiv.org/abs/2103.03656v1 )

ライセンス: Link先を確認
Yoshihiro Okawa, Tomotake Sasaki and Hidenao Iwane(参考訳) 強化学習(RL)アルゴリズムでは、学習中に探索的制御入力を使用して意思決定と制御の知識を獲得する一方、制御対象の真のダイナミクスは不明である。 しかし、この探索特性は、制御対象の状態に関する制約に違反して、望ましくない状況を引き起こすことがある。 本稿では,制御対象の線形公称モデルを用いた連続状態および動作空間における安全なRLの自動探索プロセス調整法を提案する。 具体的には,探索のためのガウス政策において用いられる分散共分散行列を調整し,その状態と予測値に応じて探索入力が使用されるか否かを自動的に選択する。 また, 探索プロセスの調整手法は, 予め特定された確率, すなわち, 毎回共同確率制約の満足度と制約の満足度を理論的に保証することを示した。 最後に, 数値シミュレーションによる手法の有効性と有効性について述べる。

In reinforcement learning (RL) algorithms, exploratory control inputs are used during learning to acquire knowledge for decision making and control, while the true dynamics of a controlled object is unknown. However, this exploring property sometimes causes undesired situations by violating constraints regarding the state of the controlled object. In this paper, we propose an automatic exploration process adjustment method for safe RL in continuous state and action spaces utilizing a linear nominal model of the controlled object. Specifically, our proposed method automatically selects whether the exploratory input is used or not at each time depending on the state and its predicted value as well as adjusts the variance-covariance matrix used in the Gaussian policy for exploration. We also show that our exploration process adjustment method theoretically guarantees the satisfaction of the constraints with the pre-specified probability, that is, the satisfaction of a joint chance constraint at every time. Finally, we illustrate the validity and the effectiveness of our method through numerical simulation.
翻訳日:2021-03-08 15:05:58 公開日:2021-03-05
# 視覚言語ナビゲーションのための構造化シーンメモリ

Structured Scene Memory for Vision-Language Navigation ( http://arxiv.org/abs/2103.03454v1 )

ライセンス: Link先を確認
Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, Jianbing Shen(参考訳) 近年,視覚言語ナビゲーション(VLN)問題,すなわちエージェントが言語指示に従って3D環境をナビゲートする問題に対処するために,多数のアルゴリズムが開発されている。 しかしながら、現在のVLNエージェントは、単に過去の経験/観測をリカレントネットワークの遅延状態として保存し、環境レイアウトをキャプチャできず、長期計画を行う。 これらの制限に対処するため、SSM(Structured Scene Memory)と呼ばれる重要なアーキテクチャを提案します。 ナビゲーション中に知覚を正確に記憶できるほど区画化されている。 また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。 SSMは、現在の意思決定をサポートするための情報を適応的に収集し、長距離推論のための反復アルゴリズムを模倣する収集読み取りコントローラを備えている。 SSMは完全な行動空間、すなわち地図上のすべてのナビゲーション可能な場所を提供するため、効率的かつグローバルな計画を可能にするフロンティア探索に基づくナビゲーション意思決定戦略が導入されます。 2つのVLNデータセット(R2RとR4R)に対する実験結果から,本手法がいくつかの測定値において最先端の性能を達成することを示す。

Recently, numerous algorithms have been developed to tackle the problem of vision-language navigation (VLN), i.e., entailing an agent to navigate 3D environments through following linguistic instructions. However, current VLN agents simply store their past experiences/observat ions as latent states in recurrent networks, failing to capture environment layouts and make long-term planning. To address these limitations, we propose a crucial architecture, called Structured Scene Memory (SSM). It is compartmentalized enough to accurately memorize the percepts during navigation. It also serves as a structured scene representation, which captures and disentangles visual and geometric cues in the environment. SSM has a collect-read controller that adaptively collects information for supporting current decision making and mimics iterative algorithms for long-range reasoning. As SSM provides a complete action space, i.e., all the navigable places on the map, a frontier-exploration based navigation decision making strategy is introduced to enable efficient and global planning. Experiment results on two VLN datasets (i.e., R2R and R4R) show that our method achieves state-of-the-art performance on several metrics.
翻訳日:2021-03-08 15:05:44 公開日:2021-03-05
# ロバストフィットのための教師なし学習:強化学習アプローチ

Unsupervised Learning for Robust Fitting:A Reinforcement Learning Approach ( http://arxiv.org/abs/2103.03501v1 )

ライセンス: Link先を確認
Giang Truong, Huu Le, David Suter, Erchuan Zhang, Syed Zulqarnain Gilani(参考訳) ロバストモデルフィッティングは、多数のコンピュータビジョンアプリケーションの中核となるアルゴリズムである。 しかし、この問題をoutlierで高度に汚染されたデータセットで効率的に解くことは、基礎となる計算の複雑さのために依然として困難である。 最近の文献は学習に基づくアルゴリズムに焦点を当てている。 しかし、ほとんどのアプローチは大量のラベル付きトレーニングデータを必要とする教師付きである。 本稿では,ロバストなモデル適合性を直接解くことを学ぶための教師なし学習フレームワークを提案する。 他の方法とは異なり、我々の研究は基礎となる入力特徴とは無関係であり、準凸残差を持つ多種多様なLP型問題に容易に一般化できる。 提案手法は既存の教師なし学習手法よりも優れており,コンピュータビジョン問題における従来の手法と比較して,競争力のある結果が得られることを実証的に示す。

Robust model fitting is a core algorithm in a large number of computer vision applications. Solving this problem efficiently for datasets highly contaminated with outliers is, however, still challenging due to the underlying computational complexity. Recent literature has focused on learning-based algorithms. However, most approaches are supervised which require a large amount of labelled training data. In this paper, we introduce a novel unsupervised learning framework that learns to directly solve robust model fitting. Unlike other methods, our work is agnostic to the underlying input features, and can be easily generalized to a wide variety of LP-type problems with quasi-convex residuals. We empirically show that our method outperforms existing unsupervised learning approaches, and achieves competitive results compared to traditional methods on several important computer vision problems.
翻訳日:2021-03-08 15:05:24 公開日:2021-03-05
# NemaNet:ブラジルにおける線虫大豆の識別のための畳み込みニューラルネットワークモデル

NemaNet: A convolutional neural network model for identification of nematodes soybean crop in brazil ( http://arxiv.org/abs/2103.03717v1 )

ライセンス: Link先を確認
Andre da Silva Abade, Lucas Faria Porto, Paulo Afonso Ferreira, Flavio de Barros Vidal(参考訳) 植物寄生線虫(または植物性線虫)は作物に深刻な損傷をもたらし、世界中で大規模な経済的損失を引き起こしています。 大豆作物の年間損失は世界生産の10.6%と推計されている。 さらに、分類学の知識を持つ専門家による微視的分析によってこれらの種を特定することは、しばしば手間がかかり、時間がかかり、失敗しやすい。 この観点からは、種分類の正確な診断を提供し、すべての制御・予防措置の取組みを補助することのできる、ロバストかつ自動的アプローチが必要である。 本研究は,5種の線虫から得られた3,063枚の顕微鏡画像を含むnemadatasetと呼ばれる新しい公共データセットを提案する。 さらに、NemaNetとして定義された新しい畳み込みニューラルネットワーク(CNN)モデルと、CNNの13の人気モデルとの比較評価を提案し、それらのすべてが芸術の分類と認識の状態を表しています。 各モデルで計算された平均値は、ゼロスクラッチトレーニングで、NemaNetモデルは96.99%、最良の評価は98.03%に達した。 トランスファーラーニングのトレーニングでは、平均精度は98.88\%に達した。 最高の評価折り畳みは99.34%に達し、他の人気モデルと比較して6.83%と4.1%の全体的な精度向上を達成した。

Phytoparasitic nematodes (or phytonematodes) are causing severe damage to crops and generating large-scale economic losses worldwide. In soybean crops, annual losses are estimated at 10.6% of world production. Besides, identifying these species through microscopic analysis by an expert with taxonomy knowledge is often laborious, time-consuming, and susceptible to failure. In this perspective, robust and automatic approaches are necessary for identifying phytonematodes capable of providing correct diagnoses for the classification of species and subsidizing the taking of all control and prevention measures. This work presents a new public data set called NemaDataset containing 3,063 microscopic images from five nematode species with the most significant damage relevance for the soybean crop. Additionally, we propose a new Convolutional Neural Network (CNN) model defined as NemaNet and a comparative assessment with thirteen popular models of CNNs, all of them representing the state of the art classification and recognition. The general average calculated for each model, on a from-scratch training, the NemaNet model reached 96.99% accuracy, while the best evaluation fold reached 98.03%. In training with transfer learning, the average accuracy reached 98.88\%. The best evaluation fold reached 99.34% and achieve an overall accuracy improvement over 6.83% and 4.1%, for from-scratch and transfer learning training, respectively, when compared to other popular models.
翻訳日:2021-03-08 15:05:12 公開日:2021-03-05
# オペラ : 手術相認識のための注意正規化トランスフォーマー

OperA: Attention-Regularize d Transformers for Surgical Phase Recognition ( http://arxiv.org/abs/2103.03873v1 )

ライセンス: Link先を確認
Tobias Czempiel, Magdalini Paschali, Daniel Ostler, Seong Tae Kim, Benjamin Busam, Nassir Navab(参考訳) 本稿では,長い映像列から外科的位相を正確に予測する変圧器モデル opera を提案する。 新たな注意の正規化損失は、トレーニング中に高品質なフレームにフォーカスするようモデルに促す。 また,注意重みを用いて各手術段階ごとに特徴的な高注意フレームを識別し,さらに手術要約に用いることができる。 operaは腹腔鏡下胆嚢摘出ビデオの2つのデータセットで徹底的に評価されており,術中時間的改善のアプローチを上回っている。

In this paper we introduce OperA, a transformer-based model that accurately predicts surgical phases from long video sequences. A novel attention regularization loss encourages the model to focus on high-quality frames during training. Moreover, the attention weights are utilized to identify characteristic high attention frames for each surgical phase, which could further be used for surgery summarization. OperA is thoroughly evaluated on two datasets of laparoscopic cholecystectomy videos, outperforming various state-of-the-art temporal refinement approaches.
翻訳日:2021-03-08 15:04:40 公開日:2021-03-05
# 知識グラフにおける誘導リンク予測関係のトポロジーと認識相関

Topology-Aware Correlations Between Relations for Inductive Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2103.03642v1 )

ライセンス: Link先を確認
Jiajun Chen, Huarui He, Feng Wu, Jie Wang(参考訳) インダクティブリンク予測 -- トレーニング中のエンティティと推論段階が異なる場合 -- は、継続的に進化する知識グラフの完成に有望であることが示されている。 帰納的推論の既存のモデルは、論理規則の学習による欠落リンクの予測に主眼を置いている。 しかし、既存の多くのアプローチは、実世界の知識グラフでよく見られる関係間の意味的相関を考慮に入れていない。 この課題に対処すべく,新たな帰納的推論手法であるtactを提案し,エンティティに依存しない関係のトポロジー・アウェア相関を効果的に活用する。 TACTは、2つの関係間の意味的相関が知識グラフのトポロジカル構造と非常に相関しているという観測に触発される。 具体的には,すべての関係対を複数の位相的パターンに分類し,帰納的リンク予測における異なるパターンの重要性を学ぶための関係相関ネットワーク(rcn)を提案する。 実験は、TACTが関係間の意味的相関を効果的にモデル化し、誘導リンク予測タスクのベンチマークデータセット上の既存の最先端の方法を大幅に上回ることを実証します。

Inductive link prediction -- where entities during training and inference stages can be different -- has been shown to be promising for completing continuously evolving knowledge graphs. Existing models of inductive reasoning mainly focus on predicting missing links by learning logical rules. However, many existing approaches do not take into account semantic correlations between relations, which are commonly seen in real-world knowledge graphs. To address this challenge, we propose a novel inductive reasoning approach, namely TACT, which can effectively exploit Topology-Aware CorrelaTions between relations in an entity-independent manner. TACT is inspired by the observation that the semantic correlation between two relations is highly correlated to their topological structure in knowledge graphs. Specifically, we categorize all relation pairs into several topological patterns, and then propose a Relational Correlation Network (RCN) to learn the importance of the different patterns for inductive link prediction. Experiments demonstrate that TACT can effectively model semantic correlations between relations, and significantly outperforms existing state-of-the-art methods on benchmark datasets for the inductive link prediction task.
翻訳日:2021-03-08 15:04:30 公開日:2021-03-05
# グラデーションに署名するのを忘れないでください!

Don't Forget to Sign the Gradients! ( http://arxiv.org/abs/2103.03701v1 )

ライセンス: Link先を確認
Omid Aramoon, Pin-Yu Chen, Gang Qu(参考訳) エンジニアリング トップノートのディープラーニングモデルは、データ収集、機械学習の専門知識を持つ人材の雇用、高い計算リソースの提供を含む、高価な手順である。 そのため、ディープラーニングモデルは、モデルベンダーにとって価値のある知的特性(IP)と見なされる。 ディープラーニングモデルの信頼性の高い商用化を確保するためには,モデルベンダをip侵害から保護する手法の開発が不可欠である。 最近大きな約束を示したそのような技術の1つは、デジタル透かしです。 しかし、現在の透かしアプローチは、非常に限られた量の情報を埋め込むことができ、透かし除去攻撃に対して脆弱です。 本稿では,深部ニューラルネットワーク(DNN)のための新しい透かしフレームワークであるGradSignsについて述べる。 GradSignsは、モデルへの入力に関して、所有者の署名をクロスエントロピーコスト関数の勾配に埋め込む。 われわれのアプローチは保護されたモデルの性能に無視できない影響を与え、モデルベンダーは予測APIを通じてリモートで透かしを検証できる。 CIFAR-10,SVHN,YTFデータセットを用いて,異なる画像分類タスクのために訓練されたDNN上のGradSignsを評価する。 実験の結果、GradSignsは既知のすべての反ウォーターマーク攻撃に対して堅牢であり、大量の情報をDNNに埋め込むことができます。

Engineering a top-notch deep learning model is an expensive procedure that involves collecting data, hiring human resources with expertise in machine learning, and providing high computational resources. For that reason, deep learning models are considered as valuable Intellectual Properties (IPs) of the model vendors. To ensure reliable commercialization of deep learning models, it is crucial to develop techniques to protect model vendors against IP infringements. One of such techniques that recently has shown great promise is digital watermarking. However, current watermarking approaches can embed very limited amount of information and are vulnerable against watermark removal attacks. In this paper, we present GradSigns, a novel watermarking framework for deep neural networks (DNNs). GradSigns embeds the owner's signature into the gradient of the cross-entropy cost function with respect to inputs to the model. Our approach has a negligible impact on the performance of the protected model and it allows model vendors to remotely verify the watermark through prediction APIs. We evaluate GradSigns on DNNs trained for different image classification tasks using CIFAR-10, SVHN, and YTF datasets. Experimental results show that GradSigns is robust against all known counter-watermark attacks and can embed a large amount of information into DNNs.
翻訳日:2021-03-08 15:03:52 公開日:2021-03-05
# 移動学習に基づくウルドゥー語話者の音声認識

Transfer Learning based Speech Affect Recognition in Urdu ( http://arxiv.org/abs/2103.03580v1 )

ライセンス: Link先を確認
Sara Durrani, Muhammad Umair Arshad(参考訳) 低リソース言語に対する音声効果認識は難しい課題であると確立されています。 本稿では,高資源言語モデルの事前学習と,深層残差ネットワークを用いた低資源言語パラメータの微調整を行う,トランスファー学習に基づく音声認識手法を提案する。 ここでは、標準の4つのデータセットを用いて、トランスファー学習が、影響認識タスクにおけるデータ不足の問題を解決できることを実証する。 RAVDESSで74.7%のUARをソースとして、Urduデータセットをターゲットとして達成することで、私たちのアプローチが効率的であることを実証します。 アブレーション研究により,事前学習したモデルが特徴情報の大部分を付加し,その結果を改善し,少ないデータ問題を解決することが確認された。 また,SAVEE と EMO-DB データセットについても実験を行い,Urdu をターゲット言語とし,400 個のデータしか利用できないようにした。 このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。

It has been established that Speech Affect Recognition for low resource languages is a difficult task. Here we present a Transfer learning based Speech Affect Recognition approach in which: we pre-train a model for high resource language affect recognition task and fine tune the parameters for low resource language using Deep Residual Network. Here we use standard four data sets to demonstrate that transfer learning can solve the problem of data scarcity for Affect Recognition task. We demonstrate that our approach is efficient by achieving 74.7 percent UAR on RAVDESS as source and Urdu data set as a target. Through an ablation study, we have identified that pre-trained model adds most of the features information, improvement in results and solves less data issues. Using this knowledge, we have also experimented on SAVEE and EMO-DB data set by setting Urdu as target language where only 400 utterances of data is available. This approach achieves high Unweighted Average Recall (UAR) when compared with existing algorithms.
翻訳日:2021-03-08 15:03:33 公開日:2021-03-05
# WordBias: 単語埋め込みにエンコードされた節間バイアスを発見するインタラクティブなビジュアルツール

WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings ( http://arxiv.org/abs/2103.03598v1 )

ライセンス: Link先を確認
Bhavya Ghai, Md Naimul Hoque, Klaus Mueller(参考訳) 交叉バイアス(intersectional bias)は、性別、性、人種、障害、宗教など、複数の社会的要因の重複によって引き起こされるバイアスである。 最近の研究では、単語埋め込みモデルは、アフリカ系アメリカ人女性などのような交差グループに対するバイアスで覆うことができることが示されています。 そのような交差バイアスに取り組むための最初のステップは、それらを特定することです。 しかし、異なる交叉群に対するバイアスを発見することは難しい課題である。 本研究では,静的な単語埋め込みに符号化された交叉群に対するバイアスを探索するインタラクティブなビジュアルツールであるWordBiasを紹介する。 事前訓練された静的単語の埋め込みが与えられた場合、WordBiasは、人種、年齢などに基づいて、各単語の関連性を計算する。 新たなインタラクティブインターフェースを使って可視化します ケーススタディを使用して、WordBiasが黒人ムスリム男性、貧乏女性などの交差グループに対するバイアスの発見にどのように役立つかを実証します。 単語を埋め込んだコードです また,専門家インタビューからの質的なフィードバックを用いてツールの評価を行った。 このツールのソースコードはgithub.com/bhavyagha i/WordBiasで再現可能である。

Intersectional bias is a bias caused by an overlap of multiple social factors like gender, sexuality, race, disability, religion, etc. A recent study has shown that word embedding models can be laden with biases against intersectional groups like African American females, etc. The first step towards tackling such intersectional biases is to identify them. However, discovering biases against different intersectional groups remains a challenging task. In this work, we present WordBias, an interactive visual tool designed to explore biases against intersectional groups encoded in static word embeddings. Given a pretrained static word embedding, WordBias computes the association of each word along different groups based on race, age, etc. and then visualizes them using a novel interactive interface. Using a case study, we demonstrate how WordBias can help uncover biases against intersectional groups like Black Muslim Males, Poor Females, etc. encoded in word embedding. In addition, we also evaluate our tool using qualitative feedback from expert interviews. The source code for this tool can be publicly accessed for reproducibility at github.com/bhavyagha i/WordBias.
翻訳日:2021-03-08 15:03:16 公開日:2021-03-05
# Vicinal と categorical Domain の適応

Vicinal and categorical domain adaptation ( http://arxiv.org/abs/2103.03460v1 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) 教師なしドメイン適応は、ラベル付きソースドメインを利用することで、ラベルなしターゲットドメインでうまく機能するタスク分類子を学習することを目的としています。 刺激的な結果は、ドメイン-敵のトレーニングを通じて、ドメイン-不変の深い特徴を学ぶことによって得られる。 しかし、タスクとドメインの分類器の並列設計は、より細かいカテゴリレベルのドメインアライメントを達成する能力を制限する。 共同カテゴリ領域分類器に基づくカテゴリ領域適応(CatDA)を促進するために, ドメインレベルとカテゴリレベルでの敵対的トレーニングの新たな損失を提案する。 統合型分類器は2つのドメインに対してそれぞれ個別のタスク分類器の結合と見なすことができるので、2つのタスク分類器間のカテゴリ予測の一貫性を強制する設計原理である。 さらに,2つのドメインからそれぞれ対のインスタンスの凸結合によってインスタンスが生成されるビジナルドメインの概念を提案する。 直感的には、無限個のヴィジナル領域のアライメントは元の領域のアライメントを高める。 CatDAに基づくVicinal Domain Adaptation (VicDA) に対する新たな逆転的損失を提案し,Vicinal and Categorical Domain Adaptation (ViCatDA) につながる。 また,敵対的特徴アライメントによって損傷された本質的目標識別を回復するために,TDSR(Target Discriminative Structure Recovery)を提案する。 また、共同分布を整合させるキーデザインの能力の基礎となる原則を分析します。 いくつかのベンチマークデータセットに関する広範な実験は、我々は技術の新しい状態を達成することを実証します。

Unsupervised domain adaptation aims to learn a task classifier that performs well on the unlabeled target domain, by utilizing the labeled source domain. Inspiring results have been acquired by learning domain-invariant deep features via domain-adversarial training. However, its parallel design of task and domain classifiers limits the ability to achieve a finer category-level domain alignment. To promote categorical domain adaptation (CatDA), based on a joint category-domain classifier, we propose novel losses of adversarial training at both domain and category levels. Since the joint classifier can be regarded as a concatenation of individual task classifiers respectively for the two domains, our design principle is to enforce consistency of category predictions between the two task classifiers. Moreover, we propose a concept of vicinal domains whose instances are produced by a convex combination of pairs of instances respectively from the two domains. Intuitively, alignment of the possibly infinite number of vicinal domains enhances that of original domains. We propose novel adversarial losses for vicinal domain adaptation (VicDA) based on CatDA, leading to Vicinal and Categorical Domain Adaptation (ViCatDA). We also propose Target Discriminative Structure Recovery (TDSR) to recover the intrinsic target discrimination damaged by adversarial feature alignment. We also analyze the principles underlying the ability of our key designs to align the joint distributions. Extensive experiments on several benchmark datasets demonstrate that we achieve the new state of the art.
翻訳日:2021-03-08 15:02:57 公開日:2021-03-05
# スパース表現による画像生成

Generating Images with Sparse Representations ( http://arxiv.org/abs/2103.03841v1 )

ライセンス: Link先を確認
Charlie Nash, Jacob Menick, Sander Dieleman, Peter W. Battaglia(参考訳) 画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。 VQ-VAEのような従来のアプローチでは、深層オートエンコーダを使用してコンパクトな表現を得るが、これは確率ベースモデルの入力としてより実用的なものである。 本稿では、JPEGのような一般的な画像圧縮手法に触発され、画像をDCTチャネル、空間位置、DCT係数トリプルのシーケンスとして疎に表現された量子化された離散コサイン変換(DCT)ブロックに変換します。 本稿では,次の要素の条件分布を逐次的に予測し,高分解能画像に効果的にスケールするトランスフォーマベースの自己回帰型アーキテクチャを提案する。 さまざまな画像データセットにおいて、私たちのアプローチは、最先端の方法と競合するサンプルメトリックスコアで、高品質で多様な画像を生成することができることを実証します。 さらに,本手法の簡易な修正により,画像のカラー化と超解像モデルが得られることを示す。

The high dimensionality of images presents architecture and sampling-efficiency challenges for likelihood-based generative models. Previous approaches such as VQ-VAE use deep autoencoders to obtain compact representations, which are more practical as inputs for likelihood-based models. We present an alternative approach, inspired by common image compression methods like JPEG, and convert images to quantized discrete cosine transform (DCT) blocks, which are represented sparsely as a sequence of DCT channel, spatial location, and DCT coefficient triples. We propose a Transformer-based autoregressive architecture, which is trained to sequentially predict the conditional distribution of the next element in such sequences, and which scales effectively to high resolution images. On a range of image datasets, we demonstrate that our approach can generate high quality, diverse images, with sample metric scores competitive with state of the art methods. We additionally show that simple modifications to our method yield effective image colorization and super-resolution models.
翻訳日:2021-03-08 15:02:31 公開日:2021-03-05
# Gemini: 自律実験と分子シミュレーションのための動的バイアス補正

Gemini: Dynamic Bias Correction for Autonomous Experimentation and Molecular Simulation ( http://arxiv.org/abs/2103.03391v1 )

ライセンス: Link先を確認
Riley J. Hickman, Florian H\"ase, Lo\"ic M. Roch, Al\'an Aspuru-Guzik(参考訳) ベイズ最適化は、自律実験によって科学的発見を加速する強力な戦略として登場した。 しかし, 材料特性を正確に推定するには高価な測定が必要であり, 物質発見キャンペーンの妨げになる可能性がある。 本稿では,不動産評価手法間の系統的バイアスを補正することにより,安価な測定値を高価な測定指標のプロキシとして使用できるデータ駆動モデルであるgeminiを紹介する。 我々は,目標評価に費用がかかるという予測を,より有益な獲得関数の構築に利用し,最適化者が目標値を達成するために必要なコスト評価を削減できる自律ワークフロー設定において,データ不足の回帰タスクにgeminiを使用することを推奨する。 本稿では, 有機-無機ペロブスカイト系ハイブリッド材料のDFT計算バンドギャップの正確な予測を行う手法について述べる。 我々はさらに,ベイズ最適化のPhoenicsを拡張して,複数の測定ソースを活用するスケーラブルな最適化フレームワークを実現することで,自律ワークフローにGeminiがもたらすメリットを実証する。 最後に、酸素進化反応のための電気触媒の活性を最適化する自律的材料発見プラットフォームをシミュレートする。 Geminiによる自律的なワークフローの実現により,低金属のプロキシ合成システムから測定を行う場合,目標超越を実現するのに必要な高価な金属と希少金属からなる組成空間の計測回数が大幅に減少することを示した。

Bayesian optimization has emerged as a powerful strategy to accelerate scientific discovery by means of autonomous experimentation. However, expensive measurements are required to accurately estimate materials properties, and can quickly become a hindrance to exhaustive materials discovery campaigns. Here, we introduce Gemini: a data-driven model capable of using inexpensive measurements as proxies for expensive measurements by correcting systematic biases between property evaluation methods. We recommend using Gemini for regression tasks with sparse data and in an autonomous workflow setting where its predictions of expensive to evaluate objectives can be used to construct a more informative acquisition function, thus reducing the number of expensive evaluations an optimizer needs to achieve desired target values. In a regression setting, we showcase the ability of our method to make accurate predictions of DFT calculated bandgaps of hybrid organic-inorganic perovskite materials. We further demonstrate the benefits that Gemini provides to autonomous workflows by augmenting the Bayesian optimizer Phoenics to yeild a scalable optimization framework leveraging multiple sources of measurement. Finally, we simulate an autonomous materials discovery platform for optimizing the activity of electrocatalysts for the oxygen evolution reaction. Realizing autonomous workflows with Gemini, we show that the number of measurements of a composition space comprising expensive and rare metals needed to achieve a target overpotential is significantly reduced when measurements from a proxy composition system with less expensive metals are available.
翻訳日:2021-03-08 15:01:23 公開日:2021-03-05
# 表象事項:訓練データにおけるサブグループ配置の重要性の評価

Representation Matters: Assessing the Importance of Subgroup Allocations in Training Data ( http://arxiv.org/abs/2103.03399v1 )

ライセンス: Link先を確認
Esther Rolf, Theodora Worledge, Benjamin Recht, and Michael I. Jordan(参考訳) より多様で代表的なトレーニングデータの収集は、サブポピュレーションをまたがる機械学習予測器の異なるパフォーマンスの治療薬としてしばしば取り上げられる。 しかし、多様性のようなデータセットの特性が学習結果にどのように影響するかを理解するための正確なフレームワークはほとんど欠けている。 学習プロセスの一部としてデータ収集をキャストすることで,訓練データにおける多様な表現が,サブグループのパフォーマンス向上だけでなく,集団レベルの目標達成にも重要であることを実証する。 分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。

Collecting more diverse and representative training data is often touted as a remedy for the disparate performance of machine learning predictors across subpopulations. However, a precise framework for understanding how dataset properties like diversity affect learning outcomes is largely lacking. By casting data collection as part of the learning process, we demonstrate that diverse representation in training data is key not only to increasing subgroup performances, but also to achieving population level objectives. Our analysis and experiments describe how dataset compositions influence performance and provide constructive results for using trends in existing data, alongside domain knowledge, to help guide intentional, objective-aware dataset design.
翻訳日:2021-03-08 15:00:58 公開日:2021-03-05
# 出力スケール変化を伴うニューラルネットワーク学習における適応学習率に対する意図しない効果

Unintended Effects on Adaptive Learning Rate for Training Neural Network with Output Scale Change ( http://arxiv.org/abs/2103.03466v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama(参考訳) 乗法定数スケーリング係数は、ニューラルネットワークパラメータのダイナミクスを調整するためにモデル出力にしばしば適用される。 これは怠け者および活動的な行為の実証的な研究の重要な介入の1つとして使用されました。 しかし,このようなスケーリングと適応学習率最適化器の組み合わせは,ニューラルネットワークの学習行動に強く影響を及ぼすことを示す。 これは、ニューラルネットワークの \emph{unintended behavior}を引き起こす可能性があるため問題であり、実験結果の誤解を招く。 具体的には、いくつかのスケーリング設定では、適応学習率の効果が失われるか、あるいはスケーリング係数の影響を強く受けている。 意図しない効果を避けるため,最適化アルゴリズムの修正を行い,適応学習速度の最適化と簡単な勾配降下,特に小さな (<1.0$) スケーリング係数の差を示す。

A multiplicative constant scaling factor is often applied to the model output to adjust the dynamics of neural network parameters. This has been used as one of the key interventions in an empirical study of lazy and active behavior. However, we show that the combination of such scaling and a commonly used adaptive learning rate optimizer strongly affects the training behavior of the neural network. This is problematic as it can cause \emph{unintended behavior} of neural networks, resulting in the misinterpretation of experimental results. Specifically, for some scaling settings, the effect of the adaptive learning rate disappears or is strongly influenced by the scaling factor. To avoid the unintended effect, we present a modification of an optimization algorithm and demonstrate remarkable differences between adaptive learning rate optimization and simple gradient descent, especially with a small ($<1.0$) scaling factor.
翻訳日:2021-03-08 15:00:45 公開日:2021-03-05
# 非無視欠陥に対するディープジェネレーティブパターンセット混合モデル

Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness ( http://arxiv.org/abs/2103.03532v1 )

ライセンス: Link先を確認
Sahra Ghalebikesabi, Rob Cornish, Luke J. Kelly and Chris Holmes(参考訳) パターンセット混合を用いた非無視データと非無視データの両方をモデル化するための変分オートエンコーダアーキテクチャを提案する(1993年)。 モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。 提案手法の根底にあるのは, 観測されたデータ分布のサンプルによって, 確率的にデータ分布が半教師されるという仮定である。 当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。 提案手法は,異なるタイプの欠落を有する幅広いデータセットを用いて評価し,最先端の計算性能を実現する。 我々のモデルは、特に欠落するデータの量が高く、欠落するメカニズムが無視できない場合に、多くの一般的な計算アルゴリズムより優れている。

We propose a variational autoencoder architecture to model both ignorable and nonignorable missing data using pattern-set mixtures as proposed by Little (1993). Our model explicitly learns to cluster the missing data into missingness pattern sets based on the observed data and missingness masks. Underpinning our approach is the assumption that the data distribution under missingness is probabilistically semi-supervised by samples from the observed data distribution. Our setup trades off the characteristics of ignorable and nonignorable missingness and can thus be applied to data of both types. We evaluate our method on a wide range of data sets with different types of missingness and achieve state-of-the-art imputation performance. Our model outperforms many common imputation algorithms, especially when the amount of missing data is high and the missingness mechanism is nonignorable.
翻訳日:2021-03-08 15:00:32 公開日:2021-03-05
# 損失推定器によるモデル一般化の改善

Loss Estimators Improve Model Generalization ( http://arxiv.org/abs/2103.03788v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Jayaraman J. Thiagarajan, Deepta Rajan, Andreas Spanias(参考訳) 臨床診断のためのAI手法の採用への関心が高まる中、そのようなツールの安全な展開への重要なステップは、モデルが正確な予測を生成するだけでなく、トレーニングデータが有意義な証拠を提供しないデータシステムにも一般化しないようにすることです。 モデル予測の分布を真の分布と同一視するための既存のアプローチは、本質的に校正が難しい明示的な不確実性推定子に依存する。 本論文では, 予測モデルに沿った損失推定器の訓練について, 対照的訓練目標を用いて直接予測不確実性を推定することを提案する。 興味深いことに、よく校正された不確実性を生成することに加えて、このアプローチは予測器の一般化挙動を改善する。 dermatologyのユースケースを用いて,損失推定器がモデルの一般化に与える影響を,分布データに対する忠実性と,分布サンプルから検出する能力,あるいはトレーニング中の新しいクラスの両方の観点から示す。

With increased interest in adopting AI methods for clinical diagnosis, a vital step towards safe deployment of such tools is to ensure that the models not only produce accurate predictions but also do not generalize to data regimes where the training data provide no meaningful evidence. Existing approaches for ensuring the distribution of model predictions to be similar to that of the true distribution rely on explicit uncertainty estimators that are inherently hard to calibrate. In this paper, we propose to train a loss estimator alongside the predictive model, using a contrastive training objective, to directly estimate the prediction uncertainties. Interestingly, we find that, in addition to producing well-calibrated uncertainties, this approach improves the generalization behavior of the predictor. Using a dermatology use-case, we show the impact of loss estimators on model generalization, in terms of both its fidelity on in-distribution data and its ability to detect out of distribution samples or new classes unseen during training.
翻訳日:2021-03-08 15:00:18 公開日:2021-03-05
# NPT-Loss:顔認識のための暗黙のマイニングによるメトリクス損失

NPT-Loss: A Metric Loss with Implicit Mining for Face Recognition ( http://arxiv.org/abs/2103.03503v1 )

ライセンス: Link先を確認
Syed Safwan Khalid, Muhammad Awais, Chi-Ho Chan, Zhenhua Feng, Ammarah Farooq, Ali Akbari and Josef Kittler(参考訳) ディープ畳み込みニューラルネットワーク(DCNN)を用いた顔認識(FR)は近年顕著な成功を収めている。 DCNNベースのFRの重要な要素の1つは、さまざまなアイデンティティ間の識別を保証する損失関数の適切な設計です。 最先端の(SOTA)ソリューションは、添加および/または乗算マージンで正規化されたSoftmax損失を利用します。 人気があるにもかかわらず、これらのSoftmax+marginベースの損失は理論的には動機づけられず、マージンの有効性は直感的にのみ正当化される。 本研究では,様々なアイデンティティの特徴を識別するための,より直接的なメカニズムを提供する代替フレームワークを利用する。 本稿では,プロキシによる三重項損失に相当する新しい損失と,ハード負のマイニングの暗黙のメカニズムを提案する。 提案した損失を最小化する理論的正当性は、すべてのアイデンティティ間の最小の分離性を保証する。 提案した損失は実装が簡単で、SOTAソリューションのように重いハイパーパラメータチューニングを必要としない。 我々は,その単純さにもかかわらず,提案した損失は,高分解能および低分解能のFRタスクに対して,様々なベンチマークにおいて一貫してSOTA性能を達成するという実証的証拠を与える。

Face recognition (FR) using deep convolutional neural networks (DCNNs) has seen remarkable success in recent years. One key ingredient of DCNN-based FR is the appropriate design of a loss function that ensures discrimination between various identities. The state-of-the-art (SOTA) solutions utilise normalised Softmax loss with additive and/or multiplicative margins. Despite being popular, these Softmax+margin based losses are not theoretically motivated and the effectiveness of a margin is justified only intuitively. In this work, we utilise an alternative framework that offers a more direct mechanism of achieving discrimination among the features of various identities. We propose a novel loss that is equivalent to a triplet loss with proxies and an implicit mechanism of hard-negative mining. We give theoretical justification that minimising the proposed loss ensures a minimum separability between all identities. The proposed loss is simple to implement and does not require heavy hyper-parameter tuning as in the SOTA solutions. We give empirical evidence that despite its simplicity, the proposed loss consistently achieves SOTA performance in various benchmarks for both high-resolution and low-resolution FR tasks.
翻訳日:2021-03-08 14:59:44 公開日:2021-03-05
# 多言語のByte2Speech Text-To-Speechモデル

Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken Language Learners ( http://arxiv.org/abs/2103.03541v1 )

ライセンス: Link先を確認
Mutian He, Jingzhou Yang, Lei He(参考訳) 本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。 40以上の言語での強力な結果に加えて、このフレームワークは、レキシコン、余分なコーパス、補助モデル、あるいは特定の言語的専門知識を必要とせずに、極端に低リソースでほんの40秒の録音で、様々な新しい言語に適応できる能力を示し、リッチリソースモデルに適合する十分な知性と自然性を維持している。 低リソースアプリケーションのためのフレームワークの可能性と適応に寄与するさまざまな要因の影響を明らかにするために、排他比較研究が行われます。 さらに,多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する手法を提案する。

We present a multilingual end-to-end Text-To-Speech framework that maps byte inputs to spectrograms, thus allowing arbitrary input scripts. Besides strong results on 40+ languages, the framework demonstrates capabilities to adapt to various new languages under extreme low-resource and even few-shot scenarios of merely 40s transcribed recording without the need of lexicon, extra corpus, auxiliary models, or particular linguistic expertise, while retains satisfactory intelligibility and naturalness matching rich-resource models. Exhaustive comparative studies are performed to reveal the potential of the framework for low-resource application and the impact of various factors contributory to adaptation. Furthermore, we propose a novel method to extract language-specific sub-networks for a better understanding of the mechanism of multilingual models.
翻訳日:2021-03-08 14:59:05 公開日:2021-03-05
# 決定木集合の効率的な暗号化推論

Efficient Encrypted Inference on Ensembles of Decision Trees ( http://arxiv.org/abs/2103.03411v1 )

ライセンス: Link先を確認
Kanthi Sarpatwar and Karthik Nandakumar and Nalini Ratha and James Rayfield and Karthikeyan Shanmugam and Sharath Pankanti and Roman Vaculin(参考訳) データプライバシーに関する懸念は、しばしば機密個人データのクラウドベースの機械学習サービスの使用を妨げます。 ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にすることで潜在的な解決策を提供するが、その課題は、レベル付きHEスキームの乗算深度制約の中で機能する正確な機械学習モデルを得ることである。 既存の暗号化推論のアプローチでは、事前訓練されたモデル(例えば、決定ツリーのハード比較をソフトコンパレータに置き換える)を精度の犠牲でアドホックに単純化するか、あるいはオリジナルのトレーニングセットを使って新しい深度制約モデルを直接訓練する。 本研究では, 複雑な決定木アンサンブルから抽出した知識を, 暗号化推論に強く寄与する浅層ニューラルネットワーク(DTNet)に伝達する枠組みを提案する。 提案手法は,与えられた深度制約内で動作する最高のDTNetアーキテクチャを探索し,トレーニングデータ分布からサンプリングした合成データのみを用いてDTNetをトレーニングすることにより,精度の低下を最小限に抑える。 実世界のデータセットに対する大規模な実験は、これらの特性がDTNetの精度が元のツリーアンサンブルに近づくことを確実にするために重要であることを示した。 当社のシステムは高度にスケーラブルで,バッチ暗号化された(134ビットのセキュリティ)データに対して,ミリ秒のアモートタイムで効率的な推論を行うことができる。 これは、アンサンブルツリーの内部ノードでソフト比較を適用する標準的なアプローチよりも約3桁高速である。

Data privacy concerns often prevent the use of cloud-based machine learning services for sensitive personal data. While homomorphic encryption (HE) offers a potential solution by enabling computations on encrypted data, the challenge is to obtain accurate machine learning models that work within the multiplicative depth constraints of a leveled HE scheme. Existing approaches for encrypted inference either make ad-hoc simplifications to a pre-trained model (e.g., replace hard comparisons in a decision tree with soft comparators) at the cost of accuracy or directly train a new depth-constrained model using the original training set. In this work, we propose a framework to transfer knowledge extracted by complex decision tree ensembles to shallow neural networks (referred to as DTNets) that are highly conducive to encrypted inference. Our approach minimizes the accuracy loss by searching for the best DTNet architecture that operates within the given depth constraints and training this DTNet using only synthetic data sampled from the training data distribution. Extensive experiments on real-world datasets demonstrate that these characteristics are critical in ensuring that DTNet accuracy approaches that of the original tree ensemble. Our system is highly scalable and can perform efficient inference on batched encrypted (134 bits of security) data with amortized time in milliseconds. This is approximately three orders of magnitude faster than the standard approach of applying soft comparison at the internal nodes of the ensemble trees.
翻訳日:2021-03-08 14:58:30 公開日:2021-03-05
# ソーシャルディスタンシングと緊急避難の統合ツールとしてのルーティングアルゴリズム

Routing algorithms as tools for integrating social distancing with emergency evacuation ( http://arxiv.org/abs/2103.03413v1 )

ライセンス: Link先を確認
Yi-Lin Tsai (1), Chetanya Rastogi (2), Peter K. Kitanidis (1, 3, and 4), Christopher B. Field (3, 5, and 6) ((1) Department of Civil and Environmental Engineering, Stanford University, Stanford, CA, USA, (2) Department of Computer Science, Stanford University, Stanford, CA, USA, (3) Woods Institute for the Environment, Stanford University, Stanford, CA, USA, (4) Institute for Computational and Mathematical Engineering, Stanford University, Stanford, CA, USA, (5) Department of Biology, Stanford University, Stanford, CA, USA, (6) Department of Earth System Science, Stanford University, Stanford, CA, USA)(参考訳) 本研究では,新型コロナウイルス(covid-19)パンデミックでハリケーンが大都市に接近したとき,緊急避難にソーシャルディスタンシングを統合することの意義について検討する。 具体的には、救助車両における社会的距離を許容しつつ、避難時間を最小限に抑える避難戦略を生成するDNN(Deep Neural Network)と非DNN法を比較した。 中心的な疑問は、時間制約付き避難操作において、DNNベースの手法が社会的距離に対応するのに十分な余分な効率を提供するかどうかである。 この問題をキャパシタ付き車両ルーティング問題として記述し、1つの非DNNソリューション(Sweep Algorithm)と1つのDNNベースのソリューション(Deep Reinforcement Learning)を使用して解決します。 DNNベースのソリューションは、非DNNソリューションよりも効率的なルーティングを提供することができる。 DNNベースのソリューションは、避難経路のかなりの時間を節約できますが、社会的分散に必要な余分な時間の補償に近づくことはなく、車両容量が世帯あたりの人数に近づくにつれてその利点は消えます。

In this study, we explore the implications of integrating social distancing with emergency evacuation when a hurricane approaches a major city during the COVID-19 pandemic. Specifically, we compare DNN (Deep Neural Network)-based and non-DNN methods for generating evacuation strategies that minimize evacuation time while allowing for social distancing in rescue vehicles. A central question is whether a DNN-based method provides sufficient extra efficiency to accommodate social distancing, in a time-constrained evacuation operation. We describe the problem as a Capacitated Vehicle Routing Problem and solve it using one non-DNN solution (Sweep Algorithm) and one DNN-based solution (Deep Reinforcement Learning). DNN-based solution can provide decision-makers with more efficient routing than non-DNN solution. Although DNN-based solution can save considerable time in evacuation routing, it does not come close to compensating for the extra time required for social distancing and its advantage disappears as the vehicle capacity approaches the number of people per household.
翻訳日:2021-03-08 14:58:07 公開日:2021-03-05
# コンピュータゲームにおけるリアルタイム感情認識のための適応ガウスファジィ分類器

Adaptive Gaussian Fuzzy Classifier for Real-Time Emotion Recognition in Computer Games ( http://arxiv.org/abs/2103.03488v1 )

ライセンス: Link先を確認
Daniel Leite, Volnei Frigeri Jr., Rodrigo Medeiros(参考訳) 人間の感情認識は、よりリアルでインタラクティブなマシンとコンピュータシステムの必要性となっています。 最大の課題は、生理学的データストリームの個々の差異や非定常を効果的に管理する高性能アルゴリズム、すなわち、被験者固有のキャリブレーションデータなしでユーザに自己カスタマイズするアルゴリズムが利用可能であることだ。 本稿では,脳波データストリームから感情パターンを認識するオンライン半教師付き学習アルゴリズムによって支援されたガウスファジィ分類器(eGFC)について述べる。 我々は、脳波データのフーリエスペクトルから特徴を抽出します。 データは、公開データセットである「train sim world」「unravel」「slender the arrival」「goat simulator」をプレイする28人の個人によって提供される。 異なる感情は、すなわち、退屈、落ち着き、恐怖と喜びが優勢です。 ユーザ非依存eGFCの精度に及ぼす各電極,時間窓長さ,周波数帯域の影響を解析した。 両脳半球は、特に前頭葉(Af3-Af4)、後頭葉(O1-O2)、側頭葉(T7-T8)の電極の分類を補助する可能性がある。 いずれの周波数帯でもパターンが見つかる可能性があるが、Alpha (8-13Hz)、Delta (1-4Hz)、Theta (4-8Hz)は感情のクラスと最も相関している。 eGFCは脳波データのリアルタイム学習に有効であることが示されている。 可変ルールベース、10秒ウィンドウ、1.8ms/sample処理時間を用いて、高度に確率的な4クラス分類問題において72.2%の精度に達する。

Human emotion recognition has become a need for more realistic and interactive machines and computer systems. The greatest challenge is the availability of high-performance algorithms to effectively manage individual differences and nonstationarities in physiological data streams, i.e., algorithms that self-customize to a user with no subject-specific calibration data. We describe an evolving Gaussian Fuzzy Classifier (eGFC), which is supported by an online semi-supervised learning algorithm to recognize emotion patterns from electroencephalogram (EEG) data streams. We extract features from the Fourier spectrum of EEG data. The data are provided by 28 individuals playing the games 'Train Sim World', 'Unravel', 'Slender The Arrival', and 'Goat Simulator' - a public dataset. Different emotions prevail, namely, boredom, calmness, horror and joy. We analyze the effect of individual electrodes, time window lengths, and frequency bands on the accuracy of user-independent eGFCs. We conclude that both brain hemispheres may assist classification, especially electrodes on the frontal (Af3-Af4), occipital (O1-O2), and temporal (T7-T8) areas. We observe that patterns may be eventually found in any frequency band; however, the Alpha (8-13Hz), Delta (1-4Hz), and Theta (4-8Hz) bands, in this order, are the highest correlated with emotion classes. eGFC has shown to be effective for real-time learning of EEG data. It reaches a 72.2% accuracy using a variable rule base, 10-second windows, and 1.8ms/sample processing time in a highly-stochastic time-varying 4-class classification problem.
翻訳日:2021-03-08 14:57:46 公開日:2021-03-05
# インテリジェントネットワーク車両のためのフェデレーション学習による分散動的マップ融合

Distributed Dynamic Map Fusion via Federated Learning for Intelligent Networked Vehicles ( http://arxiv.org/abs/2103.03786v1 )

ライセンス: Link先を確認
Zijian Zhang, Shuai Wang, Yuncong Hong, Liangkai Zhou, and Qi Hao(参考訳) ネットワーク化された車両間のダイナミックマップ融合技術は、感知範囲を拡大し、個々の車両の感知精度を向上させるために開発された。 本稿では、視野(FoV)における未知のオブジェクト数、様々なセンシングおよびモデルの不確実性、オンライン学習のためのデータラベルの欠如に拘わらず、高いマップ品質を実現するための、FLベースの動的マップ融合フレームワークを提案する。 本研究の新規性は,(1)オブジェクトの数を効果的に予測し,複数の局所マップを忠実度スコアで融合する3段階融合方式を開発すること,(2)特徴モデル(特徴抽出のための表現学習ネットワーク)をモデルパラメータの集約によって分散的に表現するFLアルゴリズムを開発すること,(3)データラベルが利用できないときにFLトレーニングラベルを生成する知識蒸留法を開発すること,の3つである。 提案されたフレームワークはcarla(carla)シミュレーションプラットフォームに実装されている。 開発したマップフュージョンとFLスキームの優れた性能とロバスト性を検証するため, 広範囲な実験結果が得られた。

The technology of dynamic map fusion among networked vehicles has been developed to enlarge sensing ranges and improve sensing accuracies for individual vehicles. This paper proposes a federated learning (FL) based dynamic map fusion framework to achieve high map quality despite unknown numbers of objects in fields of view (FoVs), various sensing and model uncertainties, and missing data labels for online learning. The novelty of this work is threefold: (1) developing a three-stage fusion scheme to predict the number of objects effectively and to fuse multiple local maps with fidelity scores; (2) developing an FL algorithm which fine-tunes feature models (i.e., representation learning networks for feature extraction) distributively by aggregating model parameters; (3) developing a knowledge distillation method to generate FL training labels when data labels are unavailable. The proposed framework is implemented in the Car Learning to Act (CARLA) simulation platform. Extensive experimental results are provided to verify the superior performance and robustness of the developed map fusion and FL schemes.
翻訳日:2021-03-08 14:57:16 公開日:2021-03-05
# 乱流自然対流のサーロゲートモデリングのための物理認識ディープニューラルネットワーク

Physics-aware deep neural networks for surrogate modeling of turbulent natural convection ( http://arxiv.org/abs/2103.03565v1 )

ライセンス: Link先を確認
Didier Lucor (LISN), Atul Agrawal (TUM, LISN), Anne Sergent (LISN, UFR 919)(参考訳) 近年の研究では、RANSおよびLES技術のデータ駆動乱流閉鎖としての機械学習の可能性を検討している。 これらの進歩の他に、物理インフォームドニューラルネットワーク(PINN)の高表現性と俊敏性により、フルフローPDEモデリングの候補候補が期待できる。 重要な疑問は、この新しいパラダイムが、フロースケールの解像度と非常に密接に結びついている従来の演算子の離散化の概念を除外し、マルチスケールの特徴によって特徴づけられる高レベルの乱流を維持できるかどうかである。 流体バルクからのDNS温度データを主として, 乱流Rayleigh-B{\'e}nard(RB)対流流に対するPINNのサーロゲートモデルの利用を検討した。 我々は, 流れの隠れた量を正確に復元できる計算条件を慎重に定量化する。 次に,PDE残差を最小限に抑えた分散座標をラベル付きデータ取得領域周辺に分散する新しいパディング手法を提案する。 標準PINNの精度が低いゾーンであるトレーニングバウンダリに近い正規化としてどのように機能するかを示し、 iso-budgetで顕著なグローバル精度の向上をもたらします。 最後に,非圧縮性条件を緩和する手法として,最適化探索を劇的に改善し,複合損失関数の収束性を大幅に向上させる手法を提案する。 高レイリー数Ra = 2 $\bullet$ 10 9で得られたRBの結果は特に印象的です。半億のDNS座標全体にわたるサーロゲートの予測精度は、相対的なL2ノルムで[0.3% -- 4%]の範囲のすべてのフロー変数のエラーを引き起こし、トレーニングはDNSデータポイントの1.6%のみに依存します。

Recent works have explored the potential of machine learning as data-driven turbulence closures for RANS and LES techniques. Beyond these advances, the high expressivity and agility of physics-informed neural networks (PINNs) make them promising candidates for full fluid flow PDE modeling. An important question is whether this new paradigm, exempt from the traditional notion of discretization of the underlying operators very much connected to the flow scales resolution, is capable of sustaining high levels of turbulence characterized by multi-scale features? We investigate the use of PINNs surrogate modeling for turbulent Rayleigh-B{\'e}nard (RB) convection flows in rough and smooth rectangular cavities, mainly relying on DNS temperature data from the fluid bulk. We carefully quantify the computational requirements under which the formulation is capable of accurately recovering the flow hidden quantities. We then propose a new padding technique to distribute some of the scattered coordinates-at which PDE residuals are minimized-around the region of labeled data acquisition. We show how it comes to play as a regularization close to the training boundaries which are zones of poor accuracy for standard PINNs and results in a noticeable global accuracy improvement at iso-budget. Finally, we propose for the first time to relax the incompressibility condition in such a way that it drastically benefits the optimization search and results in a much improved convergence of the composite loss function. The RB results obtained at high Rayleigh number Ra = 2 $\bullet$ 10 9 are particularly impressive: the predictive accuracy of the surrogate over the entire half a billion DNS coordinates yields errors for all flow variables ranging between [0.3% -- 4%] in the relative L 2 norm, with a training relying only on 1.6% of the DNS data points.
翻訳日:2021-03-08 14:56:30 公開日:2021-03-05
# 人口ベースのSHMの基礎(第4報)--構造空間とその特徴空間の幾何学

Foundations of Population-Based SHM, Part IV: The Geometry of Spaces of Structures and their Feature Spaces ( http://arxiv.org/abs/2103.03655v1 )

ライセンス: Link先を確認
George Tsialiamanis, Charilaos Mylonas, Eleni Chatzi, Nikolaos Dervilis, David J. Wagg, Keith Worden(参考訳) このシーケンスの以前の論文で提案された構造健康モニタリング(SHM)に対する人口ベースアプローチの要件の1つは、構造が抽象空間の点によって表されることである。 さらに、これらの空間はゆるい意味での計量空間でなければならない。 点の対に適用可能な距離の測度があるはずであり、同様の構造はメートル法に近くなければならない。 しかし、この幾何学的構成は、特徴空間の概念を未定義のまま残すため、データベースのSHMにおける問題のフレーミングには不十分である。 構造ごとに特徴値を構造空間上のフィールドの一種として解釈すると、現代の理論物理学からアイデアを借りて、構造空間上のベクトルバンドルのセクションとして特徴代入を定義することは理にかなっている。 この考え方は、現代のゲージ場理論のように、環境と操作のバリエーションの影響をゲージの自由度として解釈することができる。 本稿では,SHMにおける特徴空間の抽象的理論に必要な様々な幾何学的構造について論じるとともに,これらの構造が現代物理学におけるその力をいかに示しているかを例証する。 論文の第2部では、特徴バンドルの正常状態断面を決定する問題に対処する。 このソリューションは、ベクトル空間からの入力と出力に限定されない汎用的な非ユークリッド機械学習アルゴリズムであるGraph Neural Networks(GNN)の適用によって提供される。 特に、このアルゴリズムは、提案されたPBSHMフレームワークの重要な部分であるある種のグラフ構造に直接動作するのに適しています。 通常のセクション問題の解は、関心のある特徴が最初の自然頻度であるトラス構造の異種集団のために示されています。

One of the requirements of the population-based approach to Structural Health Monitoring (SHM) proposed in the earlier papers in this sequence, is that structures be represented by points in an abstract space. Furthermore, these spaces should be metric spaces in a loose sense; i.e. there should be some measure of distance applicable to pairs of points; similar structures should then be close in the metric. However, this geometrical construction is not enough for the framing of problems in data-based SHM, as it leaves undefined the notion of feature spaces. Interpreting the feature values on a structure-by-structu re basis as a type of field over the space of structures, it seems sensible to borrow an idea from modern theoretical physics, and define feature assignments as sections in a vector bundle over the structure space. With this idea in place, one can interpret the effect of environmental and operational variations as gauge degrees of freedom, as in modern gauge field theories. This paper will discuss the various geometrical structures required for an abstract theory of feature spaces in SHM, and will draw analogies with how these structures have shown their power in modern physics. In the second part of the paper, the problem of determining the normal condition cross section of a feature bundle is addressed. The solution is provided by the application of Graph Neural Networks (GNN), a versatile non-Euclidean machine learning algorithm which is not restricted to inputs and outputs from vector spaces. In particular, the algorithm is well suited to operating directly on the sort of graph structures which are an important part of the proposed framework for PBSHM. The solution of the normal section problem is demonstrated for a heterogeneous population of truss structures for which the feature of interest is the first natural frequency.
翻訳日:2021-03-08 14:55:55 公開日:2021-03-05
# FloMo: 正規化フローによるトラクタブルモーション予測

FloMo: Tractable Motion Prediction with Normalizing Flows ( http://arxiv.org/abs/2103.03614v1 )

ライセンス: Link先を確認
Christoph Sch\"oller, Alois Knoll(参考訳) 交通参加者の将来の動きは本質的に不確かである。 したがって、安全に計画するには、自律エージェントは複数の可能な結果を考慮し、優先順位を付ける必要があります。 近年、この問題は生成ニューラルネットワークで解決されている。 しかし、ほとんどの生成モデルは真の軌道分布を確実に学ばないか、あるいは予測に関連付けられる可能性を許さない。 本研究では,ノイズサンプルと将来の動き分布の正規化フローを用いた密度推定問題として,動き予測を直接モデル化する。 我々のモデルはFloMoと呼ばれ、単一のネットワークパスで確率を計算でき、最大推定で直接訓練することができる。 さらに,軌道データセット上でのトレーニングフローを安定化する手法と,モデルの性能と一般化を改善する新しいデータ拡張変換を提案する。 提案手法は,3つの一般的な予測データセットにおいて最先端のパフォーマンスを実現する。

The future motion of traffic participants is inherently uncertain. To plan safely, therefore, an autonomous agent must take into account multiple possible outcomes and prioritize them. Recently, this problem has been addressed with generative neural networks. However, most generative models either do not learn the true underlying trajectory distribution reliably, or do not allow likelihoods to be associated with predictions. In our work, we model motion prediction directly as a density estimation problem with a normalizing flow between a noise sample and the future motion distribution. Our model, named FloMo, allows likelihoods to be computed in a single network pass and can be trained directly with maximum likelihood estimation. Furthermore, we propose a method to stabilize training flows on trajectory datasets and a new data augmentation transformation that improves the performance and generalization of our model. Our method achieves state-of-the-art performance on three popular prediction datasets, with a significant gap to most competing models.
翻訳日:2021-03-08 14:55:26 公開日:2021-03-05
# ASC-Net : 教師なし異常セグメンテーションのためのアドバイザリベース選択ネットワーク

ASC-Net : Adversarial-based Selective Network for Unsupervised Anomaly Segmentation ( http://arxiv.org/abs/2103.03664v1 )

ライセンス: Link先を確認
Raunak Dey and Yi Hong(参考訳) 本稿では,画像の分割を2つのカットに分割し,一方のカットをユーザが提供した参照分布に落とし込む,ニューラルネットワークフレームワークを提案する。 この概念は教師なし異常セグメンテーション(unsupervised anomaly segmentation)の課題に対処し、近年はラベルなしデータを持つタスクに広く応用されているため、注目を集めている。 この適応型選択カットネットワーク(ASC-Net)は、クラスタベースのディープラーニング手法と、対向型異常・異常検出アルゴリズムの2つの領域を橋渡しする。 本研究では,BraTS脳腫瘍分節,LiTS肝病変分節,MS-SEG2015分節の非監視学習モデルを評価した。 AnoGANファミリーのような既存の手法と比較して、教師なしの異常セグメンテーションタスクにおいて、我々のモデルは大きなパフォーマンス向上を示す。 教師付き学習アルゴリズムと比較してさらにパフォーマンスを向上させる余地はあるが、有望な実験結果は、ユーザ定義の知識を用いた教師なし学習アルゴリズムの構築に光を当てた。

We introduce a neural network framework, utilizing adversarial learning to partition an image into two cuts, with one cut falling into a reference distribution provided by the user. This concept tackles the task of unsupervised anomaly segmentation, which has attracted increasing attention in recent years due to their broad applications in tasks with unlabelled data. This Adversarial-based Selective Cutting network (ASC-Net) bridges the two domains of cluster-based deep learning methods and adversarial-based anomaly/novelty detection algorithms. We evaluate this unsupervised learning model on BraTS brain tumor segmentation, LiTS liver lesion segmentation, and MS-SEG2015 segmentation tasks. Compared to existing methods like the AnoGAN family, our model demonstrates tremendous performance gains in unsupervised anomaly segmentation tasks. Although there is still room to further improve performance compared to supervised learning algorithms, the promising experimental results shed light on building an unsupervised learning algorithm using user-defined knowledge.
翻訳日:2021-03-08 14:55:11 公開日:2021-03-05
# FedDis: 教師なし脳病理区分のための離散型フェデレーション学習

FedDis: Disentangled Federated Learning for Unsupervised Brain Pathology Segmentation ( http://arxiv.org/abs/2103.03705v1 )

ライセンス: Link先を確認
Cosmin I. Bercea, Benedikt Wiestler, Daniel Rueckert and Shadi Albarqouni(参考訳) 近年、データ駆動機械学習(ML)手法は、未解決の(医学的な)画像分析問題に対する新しい効率的なソリューションを提供することで、コンピュータビジョンコミュニティに革命をもたらしました。 しかし、多くの異なるサイトにおけるプライバシーの懸念とデータの断片化が増加しているため、既存の医療データは十分に利用されず、MLの可能性を制限する。 フェデレーションラーニング(FL)により、複数のパーティがローカルデータを交換することなく、MLモデルを共同でトレーニングできます。 しかし、分散クライアント間のデータ不均一性(非IID)はまだ課題です。 そこで我々は,フェデレーション・ディエンタングルメント(Federated Disentanglement, Federated Disentanglement, FedDis)という新しいフェデレーション手法を提案し,パラメータ空間を形状と外観に切り離し,シェイプ・パラメータをクライアントと共有する。 FedDisは、脳MRI画像の解剖学的構造が複数の機関で類似しているという仮定に基づいており、形状知識を共有することは異常検出に有用である。 本稿では,実データ(oasis, adni)を持つ複数のサイトから得られた623名の健常者の脳スキャンを用いて,正常解剖モデルの学習を行い,異常構造のセグメント化を可能にする。 MSISBIとMSとGlioblastoma(MSIとGBI)の社内データベースの2つの公開MS Lesions(MSLUB、MSSISBI)を含む実際の病理学的データベース上でのFedDisの優れたパフォーマンスを実証します。 FedDisは0.38の平均ダイス性能を達成し、最先端の(SOTA)オートエンコーダを42%、SOTAフェデレーション方式を11%上回った。 さらに,feeddisは,外観と直交し,異なる強度拡張下で一貫性のある形状埋め込みを学習することを示す。

In recent years, data-driven machine learning (ML) methods have revolutionized the computer vision community by providing novel efficient solutions to many unsolved (medical) image analysis problems. However, due to the increasing privacy concerns and data fragmentation on many different sites, existing medical data are not fully utilized, thus limiting the potential of ML. Federated learning (FL) enables multiple parties to collaboratively train a ML model without exchanging local data. However, data heterogeneity (non-IID) among the distributed clients is yet a challenge. To this end, we propose a novel federated method, denoted Federated Disentanglement (FedDis), to disentangle the parameter space into shape and appearance, and only share the shape parameter with the clients. FedDis is based on the assumption that the anatomical structure in brain MRI images is similar across multiple institutions, and sharing the shape knowledge would be beneficial in anomaly detection. In this paper, we leverage healthy brain scans of 623 subjects from multiple sites with real data (OASIS, ADNI) in a privacy-preserving fashion to learn a model of normal anatomy, that allows to segment abnormal structures. We demonstrate a superior performance of FedDis on real pathological databases containing 109 subjects; two publicly available MS Lesions (MSLUB, MSISBI), and an in-house database with MS and Glioblastoma (MSI and GBI). FedDis achieved an average dice performance of 0.38, outperforming the state-of-the-art (SOTA) auto-encoder by 42% and the SOTA federated method by 11%. Further, we illustrate that FedDis learns a shape embedding that is orthogonal to the appearance and consistent under different intensity augmentations.
翻訳日:2021-03-08 14:54:52 公開日:2021-03-05
# プログレッシブ自己監督型注意学習によるアスペクトベース感情分析モデルの強化

Enhanced Aspect-Based Sentiment Analysis Models with Progressive Self-supervised Attention Learning ( http://arxiv.org/abs/2103.03446v1 )

ライセンス: Link先を確認
Jinsong Su, Jialong Tang, Hui Jiang, Ziyao Lu, Yubin Ge, Linfeng Song, Deyi Xiong, Le Sun, Jiebo Luo(参考訳) アスペクトベース感情分析(absa)では、多くのニューラルモデルに感情予測に対する各文脈単語の寄与を定量化するための注意機構が備わっている。 しかし、このようなメカニズムは1つの欠点に悩まされる: 感情の極性を持つ単語は、モデルによって無視されるが、最終的な感情決定のために考慮される傾向にある。 そこで本研究では,注目ABSAモデルに対する自己監督型注意学習手法を提案する。 このアプローチでは,すべてのトレーニングインスタンスで反復的に感情予測を行い,その間,有用な注意監督情報を継続的に学習する。 トレーニング中、各反復において、注意重みや勾配に基づいて識別された感情予測に最も影響を与える文脈単語を、各インスタンスの正誤予測にアクティブ/誤認の影響のある単語として抽出する。 このように抽出された単語は、その後のイテレーションでマスキングされる。 抽出した単語をABSAモデルの精錬に利用するために,従来の訓練目標を正規化用語で強化し,ABSAモデルが抽出したアクティブな文脈語を最大限に活用するだけでなく,誤解を招く単語の重みを減少させるように促す。 提案手法を3つの最先端の神経ABSAモデルに統合する。 実験結果と深部分析の結果から,本手法はより注意度を高め,3モデルすべての性能を著しく向上させることが示された。 ソースコードとトレーニングされたモデルをhttps://github.com/d eeplearnxmu/pssatten tionでリリースします。

In aspect-based sentiment analysis (ABSA), many neural models are equipped with an attention mechanism to quantify the contribution of each context word to sentiment prediction. However, such a mechanism suffers from one drawback: only a few frequent words with sentiment polarities are tended to be taken into consideration for final sentiment decision while abundant infrequent sentiment words are ignored by models. To deal with this issue, we propose a progressive self-supervised attention learning approach for attentional ABSA models. In this approach, we iteratively perform sentiment prediction on all training instances, and continually learn useful attention supervision information in the meantime. During training, at each iteration, context words with the highest impact on sentiment prediction, identified based on their attention weights or gradients, are extracted as words with active/misleading influence on the correct/incorrect prediction for each instance. Words extracted in this way are masked for subsequent iterations. To exploit these extracted words for refining ABSA models, we augment the conventional training objective with a regularization term that encourages ABSA models to not only take full advantage of the extracted active context words but also decrease the weights of those misleading words. We integrate the proposed approach into three state-of-the-art neural ABSA models. Experiment results and in-depth analyses show that our approach yields better attention results and significantly enhances the performance of all three models. We release the source code and trained models at https://github.com/D eepLearnXMU/PSSAtten tion.
翻訳日:2021-03-08 14:54:16 公開日:2021-03-05
# オープン情報抽出のための構文とセマンティック駆動学習

Syntactic and Semantic-driven Learning for Open Information Extraction ( http://arxiv.org/abs/2103.03448v1 )

ライセンス: Link先を確認
Jialong Tang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Xinyan Xiao, Hua Wu(参考訳) 正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。 オープンドメインコーポラの多様性と自然言語表現の多様性は、この問題をさらに悪化させます。 本論文では,構文とセマンティックの知識を,よりノイズの多い高レベルな監督として活用することで,人間に反するデータを持たないオープンなIEモデルを学習できるシンタクティクスとセマンティック駆動の学習手法を提案する。 具体的には,まずデータラベリング関数として構文パターンを用い,生成されたラベルを用いてベースモデルを事前学習する。 そこで本研究では,ベースモデルを高い精度でオープン状況に効果的に一般化できる構文的・意味的強化学習アルゴリズムを提案する。 実験結果から,我々のアプローチは,監視対象のアプローチを大幅に上回り,監視対象の最新モデル(SoA)に対する競争力さえ達成できることが示された。

One of the biggest bottlenecks in building accurate, high coverage neural open IE systems is the need for large labelled corpora. The diversity of open domain corpora and the variety of natural language expressions further exacerbate this problem. In this paper, we propose a syntactic and semantic-driven learning approach, which can learn neural open IE models without any human-labelled data by leveraging syntactic and semantic knowledge as noisier, higher-level supervisions. Specifically, we first employ syntactic patterns as data labelling functions and pretrain a base model using the generated labels. Then we propose a syntactic and semantic-driven reinforcement learning algorithm, which can effectively generalize the base model to open situations with high accuracy. Experimental results show that our approach significantly outperforms the supervised counterparts, and can even achieve competitive performance to supervised state-of-the-art (SoA) model
翻訳日:2021-03-08 14:53:48 公開日:2021-03-05
# ニューラル・シンボリック・アフェクト・ターゲット・アソシエーションにおける再帰的処理の活用

Leveraging Recursive Processing for Neural-Symbolic Affect-Target Associations ( http://arxiv.org/abs/2103.03755v1 )

ライセンス: Link先を確認
A. Sutherland, S. Magg, S. Wermter(参考訳) 情緒に基づく深層学習決定の結果を説明することは困難であるが,ソーシャル・コンパニオン・ロボットがユーザと感情レベルで対話することを期待する場合は必要である。 本稿では,対話型ハイブリッドニューラルシンボリックシステムを用いて,抽出されたターゲット,表現された感情に関連づけられた名詞チャンク,および自然言語表現からの感情ラベルを関連付けるコモンセンスアプローチを提案する。 我々は、木とサブツリー処理に順応した事前学習ニューラルネットワーク、Dependency Tree-LSTMを活用し、自然言語でシンボル規則によって決定される動的ターゲットのラベルを学習する。 また,再帰的ネットワークのユニークな特性を利用すると,アスペクトベースの感情分析タスクにおいて,他の非構造的,シーケンシャルな手法と比較して高い精度と解釈性が得られることがわかった。

Explaining the outcome of deep learning decisions based on affect is challenging but necessary if we expect social companion robots to interact with users on an emotional level. In this paper, we present a commonsense approach that utilizes an interpretable hybrid neural-symbolic system to associate extracted targets, noun chunks determined to be associated with the expressed emotion, with affective labels from a natural language expression. We leverage a pre-trained neural network that is well adapted to tree and sub-tree processing, the Dependency Tree-LSTM, to learn the affect labels of dynamic targets, determined through symbolic rules, in natural language. We find that making use of the unique properties of the recursive network provides higher accuracy and interpretability when compared to other unstructured and sequential methods for determining target-affect associations in an aspect-based sentiment analysis task.
翻訳日:2021-03-08 14:53:32 公開日:2021-03-05
# 合成データによる第一次定理証明の訓練

Training a First-Order Theorem Prover from Synthetic Data ( http://arxiv.org/abs/2103.03798v1 )

ライセンス: Link先を確認
Vlad Firoiu, Eser Aygun, Ankit Anand, Zafarali Ahmed, Xavier Glorot, Laurent Orseau, Lei Zhang, Doina Precup, Shibl Mourad(参考訳) 機械学習を自動定理証明に適用する上での大きな課題は、ディープラーニングモデルを成功させる上で重要な要素であるトレーニングデータの不足である。 この問題に取り組むために,我々は,人間のデータを公理以外に使わずに,純粋に合成生成定理をトレーニングする手法を提案する。 これらの定理を使用して、神経誘導飽和ベースの証明者を訓練する。 私たちのニューラルネットワークは、この合成データにおける最先端のE-proverを時間と検索の両方のステップで上回っており、TPTPライブラリから見えない人間の記述定理に有意な移行を示しており、一階問題の72\%を平等に解決します。

A major challenge in applying machine learning to automated theorem proving is the scarcity of training data, which is a key ingredient in training successful deep learning models. To tackle this problem, we propose an approach that relies on training purely with synthetically generated theorems, without any human data aside from axioms. We use these theorems to train a neurally-guided saturation-based prover. Our neural prover outperforms the state-of-the-art E-prover on this synthetic data in both time and search steps, and shows significant transfer to the unseen human-written theorems from the TPTP library, where it solves 72\% of first-order problems without equality.
翻訳日:2021-03-08 14:53:14 公開日:2021-03-05
# 医用画像の非監視異常検出と局在化のための制約型コントラスト分布学習

Constrained Contrastive Distribution Learning for Unsupervised Anomaly Detection and Localisation in Medical Images ( http://arxiv.org/abs/2103.03423v1 )

ライセンス: Link先を確認
Yu Tian and Guansong Pang and Fengbei Liu and Yuanhong chen and Seon Ho Shin and Johan W. Verjans and Rajvinder Singh and Gustavo Carneiro(参考訳) 教師なし異常検出(UAD)は、正常な(健康な)画像のみを含む一級分類器を学習し、予想される正常なパターンに適合しない異常な(不健康な)サンプルを検出する。 UADは、完全に監督された相手に対して2つの大きな利点がある。 まず、通常の画像サンプルを含む健康スクリーニングプログラムから利用可能な大規模なデータセットを直接活用することができ、異常サンプルの高価な手動ラベリングと、非常にクラス不均衡なデータによるトレーニングに関連する後続の問題を回避することができます。 さらに、UADアプローチは、正常なパターンから逸脱するあらゆる種類の病変を検出および局在させることができる。 UAD法が直面する重要な課題の1つは、一般的に小さな病変からなる微妙な異常を検出し、局在させる効果的な低次元画像表現を学ぶ方法である。 そこで本研究では,拡張データと画像コンテキストの分布を前文制約を用いて同時に予測することにより,微細な特徴表現を学習するCCD(Constrained Contrastive Distribution Learning for Anomaly Detection)と呼ばれる,自己監督型表現学習手法を提案する。 学習された表現は、より異常に敏感な検出モデルを訓練するために活用できる。 広範な実験により, 3つの異なる大腸内視鏡および眼底検診データセットにおいて, 術中uadアプローチを上回った。 私たちのコードはhttps://github.com/t ianyu0207/CCDで利用可能です。

Unsupervised anomaly detection (UAD) learns one-class classifiers exclusively with normal (i.e., healthy) images to detect any abnormal (i.e., unhealthy) samples that do not conform to the expected normal patterns. UAD has two main advantages over its fully supervised counterpart. Firstly, it is able to directly leverage large datasets available from health screening programs that contain mostly normal image samples, avoiding the costly manual labelling of abnormal samples and the subsequent issues involved in training with extremely class-imbalanced data. Further, UAD approaches can potentially detect and localise any type of lesions that deviate from the normal patterns. One significant challenge faced by UAD methods is how to learn effective low-dimensional image representations to detect and localise subtle abnormalities, generally consisting of small lesions. To address this challenge, we propose a novel self-supervised representation learning method, called Constrained Contrastive Distribution learning for anomaly detection (CCD), which learns fine-grained feature representations by simultaneously predicting the distribution of augmented data and image contexts using contrastive learning with pretext constraints. The learned representations can be leveraged to train more anomaly-sensitive detection models. Extensive experiment results show that our method outperforms current state-of-the-art UAD approaches on three different colonoscopy and fundus screening datasets. Our code is available at https://github.com/t ianyu0207/CCD.
翻訳日:2021-03-08 14:52:26 公開日:2021-03-05
# ゼロショット学習のための目標指向ガゼ推定

Goal-Oriented Gaze Estimation for Zero-Shot Learning ( http://arxiv.org/abs/2103.03433v1 )

ライセンス: Link先を確認
Yang Liu, Lei Zhou, Xiao Bai, Yifei Huang, Lin Gu, Jun Zhou, Tatsuya Harada(参考訳) Zero-shot Learning(ZSL)は、目に見えないクラスにセマンティックな知識を転送することによって、新しいクラスを認識することを目的とする。 意味的知識は異なるクラス間で共有される属性に基づいて構築されているため、オブジェクト属性のローカライズの前に強いことは視覚的セマンティック埋め込みにとって有益である。 興味深いことに、目に見えない画像を認識すると、人間は特定の意味の手がかりで自動的に地域を見つめる。 そこで本稿では,ZSL のクラスレベル属性に基づく識別属性の局所化を改善するために,新しい目標指向視線推定モジュール (GEM) を提案する。 属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。 具体的には、目標指向gemでタスク依存の注意を学習し、局所属性特徴の回帰と同時にグローバルイメージ特徴を最適化する。 CUB, SUN, AWA2の3つのZSLベンチマーク実験により, 提案手法の最先端ZSL法に対する優位性や競争性を示した。 また,実視データcub-vwswのアブレーション解析により,視線推定モジュールの利点と精度を検証した。 この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。 コードはhttps://github.com/o sierboy/GEM-ZSLで入手できる。

Zero-shot learning (ZSL) aims to recognize novel classes by transferring semantic knowledge from seen classes to unseen classes. Since semantic knowledge is built on attributes shared between different classes, which are highly local, strong prior for localization of object attribute is beneficial for visual-semantic embedding. Interestingly, when recognizing unseen images, human would also automatically gaze at regions with certain semantic clue. Therefore, we introduce a novel goal-oriented gaze estimation module (GEM) to improve the discriminative attribute localization based on the class-level attributes for ZSL. We aim to predict the actual human gaze location to get the visual attention regions for recognizing a novel object guided by attribute description. Specifically, the task-dependent attention is learned with the goal-oriented GEM, and the global image features are simultaneously optimized with the regression of local attribute features. Experiments on three ZSL benchmarks, i.e., CUB, SUN and AWA2, show the superiority or competitiveness of our proposed method against the state-of-the-art ZSL methods. The ablation analysis on real gaze data CUB-VWSW also validates the benefits and accuracy of our gaze estimation module. This work implies the promising benefits of collecting human gaze dataset and automatic gaze estimation algorithms on high-level computer vision tasks. The code is available at https://github.com/o sierboy/GEM-ZSL.
翻訳日:2021-03-08 14:52:02 公開日:2021-03-05
# 行動認識のための非監視動作表現強化ネットワーク

Unsupervised Motion Representation Enhanced Network for Action Recognition ( http://arxiv.org/abs/2103.03465v1 )

ライセンス: Link先を確認
Xiaohang Yang, Lingtong Kong, Jie Yang(参考訳) 光学フローなどの連続したフレーム間の信頼性の高い動き表現を学ぶことは、ビデオ理解に大きな促進をもたらしています。 しかし, 効率的な光フロー解決器であるTV-L1法は, 抽出した光フローをキャッシュするために, 時間と費用がかかる。 このギャップを埋めるために, UF-TSN を提案する。この UF-TSN は, 軽量な非監視光フロー推定器を組み込んだ, エンドツーエンドのアクション認識手法である。 UF-TSNは、隣接するフレームからの運動キューを粗密に推定し、特徴のピラミッドを抽出し、最後のレベルの推定フローに従って互いに反動することにより、各レベルの小さな変位に焦点を合わせます。 アクションデータセットのラベル付き動作がないため、マルチスケールのフォトメトリック一貫性とエッジアウェアスムースさでフロー予測を制限します。 最先端の非教師あり動作表現学習法と比較すると,我々のモデルは効率を保ちながら精度が向上し,教師ありあるいはより複雑なアプローチと競合する。

Learning reliable motion representation between consecutive frames, such as optical flow, has proven to have great promotion to video understanding. However, the TV-L1 method, an effective optical flow solver, is time-consuming and expensive in storage for caching the extracted optical flow. To fill the gap, we propose UF-TSN, a novel end-to-end action recognition approach enhanced with an embedded lightweight unsupervised optical flow estimator. UF-TSN estimates motion cues from adjacent frames in a coarse-to-fine manner and focuses on small displacement for each level by extracting pyramid of feature and warping one to the other according to the estimated flow of the last level. Due to the lack of labeled motion for action datasets, we constrain the flow prediction with multi-scale photometric consistency and edge-aware smoothness. Compared with state-of-the-art unsupervised motion representation learning methods, our model achieves better accuracy while maintaining efficiency, which is competitive with some supervised or more complicated approaches.
翻訳日:2021-03-08 14:51:40 公開日:2021-03-05
# IAFA: 単一画像からの3Dオブジェクト検出のためのインスタンス認識機能集約

IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a Single Image ( http://arxiv.org/abs/2103.03480v1 )

ライセンス: Link先を確認
Dingfu Zhou, Xibin Song, Yuchao Dai, Junbo Yin, Feixiang Lu, Jin Fang, Miao Liao and Liangjun Zhang(参考訳) 単一画像からの3次元物体検出は、様々なアプローチが提案されている自律運転(AD)において重要な課題である。 しかし、単一の画像深度推定は、すでに不適切な問題であるため、タスクは本質的に曖昧で挑戦的です。 本稿では,3次元物体検出の精度を向上させるために有用な情報を集約するインスタンス認識手法を提案する。 まず、インスタンス認識機能集約(IAFA)モジュールを提案し、3Dバウンディングボックス回帰のためのローカルおよびグローバル機能を収集します。 第2に,粗いインスタンスアノテーションを監督信号として取り入れることで,空間的注意モジュールを十分に学習できることを実証的に確認する。 提案するモジュールは3次元検出と2次元バードアイによる車両検出の両方におけるベースライン法の性能を大幅に向上させた。 第3に,提案手法は,単一のイメージベースアプローチ(これらの手法でさえ,補助入力として深さで訓練された)を上回り,kittiベンチマークで最先端の3d検出性能を実現する。

3D object detection from a single image is an important task in Autonomous Driving (AD), where various approaches have been proposed. However, the task is intrinsically ambiguous and challenging as single image depth estimation is already an ill-posed problem. In this paper, we propose an instance-aware approach to aggregate useful information for improving the accuracy of 3D object detection with the following contributions. First, an instance-aware feature aggregation (IAFA) module is proposed to collect local and global features for 3D bounding boxes regression. Second, we empirically find that the spatial attention module can be well learned by taking coarse-level instance annotations as a supervision signal. The proposed module has significantly boosted the performance of the baseline method on both 3D detection and 2D bird-eye's view of vehicle detection among all three categories. Third, our proposed method outperforms all single image-based approaches (even these methods trained with depth as auxiliary inputs) and achieves state-of-the-art 3D detection performance on the KITTI benchmark.
翻訳日:2021-03-08 14:51:22 公開日:2021-03-05
# Deep Visual Representation Learningのための可変構造的注意ネットワーク

Variational Structured Attention Networks for Deep Visual Representation Learning ( http://arxiv.org/abs/2103.03510v1 )

ライセンス: Link先を確認
Guanglei Yang, Paolo Rota, Xavier Alameda-Pineda, Dan Xu, Mingli Ding, Elisa Ricci(参考訳) 畳み込みニューラルネットワークは、セマンティックセグメンテーション、深さ推定、表面正常予測など、ピクセルレベルの予測タスクへの対処において、その強力な視覚表現学習能力の恩恵を受ける大きな進歩を実現している。 通常、最先端のモデルは、深い特徴表現を改善するための注意メカニズムを統合します。 近年,深部特徴の洗練に空間的・チャネル的に注意を向け,学習することの重要性が実証されている。 本稿では,従来のアプローチを効果的に強化することを目的として,空間的注意マップとチャネル的注意ベクトルの両方を原則的に学習し,得られた注意テンソルとこれら2種類の注意の間のモデル相互作用を構築するための統合された深層フレームワークを提案する。 具体的には、確率的表現学習フレームワーク内での注目の推定と相互作用を統合し、Variational Structured Attention Network (VISTA-Net) につながります。 ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。 密集した視覚予測のための6つの大規模データセットを広範囲に評価した結果、vista-netは連続的および離散的予測タスクにおいて最先端を上回り、深層表現学習のための統合的空間チャネル注意推定における提案手法の利点を実証した。 コードはhttps://github.com/y gjwd12345/VISTA-Netで入手できる。

Convolutional neural networks have enabled major progress in addressing pixel-level prediction tasks such as semantic segmentation, depth estimation, surface normal prediction, and so on, benefiting from their powerful capabilities in visual representation learning. Typically, state-of-the-art models integrates attention mechanisms for improved deep feature representations. Recently, some works have demonstrated the significance of learning and combining both spatial- and channel-wise attentions for deep feature refinement. In this paper, we aim at effectively boosting previous approaches and propose a unified deep framework to jointly learn both spatial attention maps and channel attention vectors in a principled manner so as to structure the resulting attention tensors and model interactions between these two types of attentions. Specifically, we integrate the estimation and the interaction of the attentions within a probabilistic representation learning framework, leading to Variational STructured Attention networks (VISTA-Net). We implement the inference rules within the neural network, thus allowing for end-to-end learning of the probabilistic and the CNN front-end parameters. As demonstrated by our extensive empirical evaluation on six large-scale datasets for dense visual prediction, VISTA-Net outperforms the state-of-the-art in multiple continuous and discrete prediction tasks, thus confirming the benefit of the proposed approach in joint structured spatial-channel attention estimation for deep representation learning. The code is available at https://github.com/y gjwd12345/VISTA-Net.
翻訳日:2021-03-08 14:51:02 公開日:2021-03-05
# 顔面画像操作検出における画像圧縮の影響:顔面レタッチングを事例として

Effects of Image Compression on Face Image Manipulation Detection: A Case Study on Facial Retouching ( http://arxiv.org/abs/2103.03654v1 )

ライセンス: Link先を確認
Christian Rathgeb, Kevin Bernardo, Nathania E. Haryanto, Christoph Busch(参考訳) 近年,デジタル顔画像操作を確実に検出する手法が数多く導入されている。 近年,画像後処理に関して,これらのスキームの一般化性が特に疑問視されている。 画像圧縮は、さまざまなバイオメトリックアプリケーションシナリオで頻繁に適用される後処理を表します。 重篤な圧縮は、顔画像操作のデジタルトレースを消去し、その信頼性を損なう可能性がある。 本研究では,顔画像操作検出における画像圧縮の影響を解析する。 特に,画像圧縮の影響下での顔面リタッチ検出に関する事例研究を行った。 この目的のために、2つの公開顔データベースのICAO準拠サブセットを使用して、9000以上の修正済み参照画像と制約のないプローブ画像を含むデータベースを自動生成する。 その後、電子旅行文書の顔画像記憶に推奨される圧縮レベルでJPEGとJPEG 2000を適用して参照画像が圧縮される。 テクスチャ記述子とディープフェイス表現を用いた新しい検出アルゴリズムを提案し, 単一画像と差分シナリオで評価した。 Results obtained from challenging cross-database experiments in which the analyzed retouching technique is unknown during training yield interesting findings: (1) most competitive detection performance is achieved for differential scenarios employing deep face representations; (2) image compression severely impacts the performance of face image manipulation detection schemes based on texture descriptors while methods utilizing deep face representations are found to be highly robust; (3) in some cases, the application of image compression might as well improve detection performance.

In the past years, numerous methods have been introduced to reliably detect digital face image manipulations. Lately, the generalizability of these schemes has been questioned in particular with respect to image post-processing. Image compression represents a post-processing which is frequently applied in diverse biometric application scenarios. Severe compression might erase digital traces of face image manipulation and hence hamper a reliable detection thereof. In this work, the effects of image compression on face image manipulation detection are analyzed. In particular, a case study on facial retouching detection under the influence of image compression is presented. To this end, ICAO-compliant subsets of two public face databases are used to automatically create a database containing more than 9,000 retouched reference images together with unconstrained probe images. Subsequently, reference images are compressed applying JPEG and JPEG 2000 at compression levels recommended for face image storage in electronic travel documents. Novel detection algorithms utilizing texture descriptors and deep face representations are proposed and evaluated in a single image and differential scenario. Results obtained from challenging cross-database experiments in which the analyzed retouching technique is unknown during training yield interesting findings: (1) most competitive detection performance is achieved for differential scenarios employing deep face representations; (2) image compression severely impacts the performance of face image manipulation detection schemes based on texture descriptors while methods utilizing deep face representations are found to be highly robust; (3) in some cases, the application of image compression might as well improve detection performance.
翻訳日:2021-03-08 14:50:37 公開日:2021-03-05
# 実時間rgbdベース拡張体姿勢推定

Real-time RGBD-based Extended Body Pose Estimation ( http://arxiv.org/abs/2103.03663v1 )

ライセンス: Link先を確認
Renat Bashirov, Anastasia Ianina, Karim Iskakov, Yevgeniy Kononenko, Valeriya Strizhkova, Victor Lempitsky, Alexander Vakhitov(参考訳) 3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。 本研究では,Kinect Azure RGB-Dカメラを用いたパラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を用いて,身体ポーズ,手ポーズ,表情のパラメータのリアルタイム推定に焦点をあてる。 身体のポーズと表情パラメータの推定子を訓練する。 どちらの推定器も、事前に公開されたランドマーク抽出器をインプットおよびカスタムアノテーション付きデータセットとして使用し、ハンドポーズは、以前に公開された方法で直接推定する。 我々はこれらの推定器の予測を時間的に滑らかな人間のポーズと組み合わせる。 我々は、顔表情パラメータを付加した大きな話し顔データセット上で、表情抽出器を訓練する。 ボディポーズでは、5台のKinect Azure RGB-Dカメラから撮影した56人のデータセットを収集し、アノテートし、大きなモーションキャプチャAMASSデータセットと一緒に使用します。 当社のRGB-Dボディポーズモデルは、最先端のRGBのみの方法よりも優れており、遅いRGB-D最適化ベースのソリューションと同じレベルの精度で動作します。 組み合わせたシステムは、1つのgpuでサーバー上で30fpsで動作します。 コードはhttps://saic-violet. github.io/rgbd-kinec t-poseで入手できる。

We present a system for real-time RGBD-based estimation of 3D human pose. We use parametric 3D deformable human mesh model (SMPL-X) as a representation and focus on the real-time estimation of parameters for the body pose, hands pose and facial expression from Kinect Azure RGB-D camera. We train estimators of body pose and facial expression parameters. Both estimators use previously published landmark extractors as input and custom annotated datasets for supervision, while hand pose is estimated directly by a previously published method. We combine the predictions of those estimators into a temporally-smooth human pose. We train the facial expression extractor on a large talking face dataset, which we annotate with facial expression parameters. For the body pose we collect and annotate a dataset of 56 people captured from a rig of 5 Kinect Azure RGB-D cameras and use it together with a large motion capture AMASS dataset. Our RGB-D body pose model outperforms the state-of-the-art RGB-only methods and works on the same level of accuracy compared to a slower RGB-D optimization-based solution. The combined system runs at 30 FPS on a server with a single GPU. The code will be available at https://saic-violet. github.io/rgbd-kinec t-pose
翻訳日:2021-03-08 14:50:17 公開日:2021-03-05
# 顔バイオメトリックデータのインデックス化と検索のための信号レベル融合

Signal-level Fusion for Indexing and Retrieval of Facial Biometric Data ( http://arxiv.org/abs/2103.03692v1 )

ライセンス: Link先を確認
Pawel Drozdowski, Fabian Stockhardt, Christian Rathgeb, Christoph Busch(参考訳) 世界中のバイオメトリック展開の規模、規模、数の増加は、効率的で信頼性の高いバイオメトリック識別クエリを促進する技術の研究の必要性を強調しています。 本稿では,多段階のデータ構造と検索プロトコルを作成するために,顔画像の信号レベルの融合(モーフィング)に依存する生体データベースの索引付け手法を提案する。 提案手法は,潜在的な候補の一覧を連続的に事前フィルタリングすることにより,生体認証トランザクションを完了させるために必要なバイオメトリックテンプレート比較数を削減できる。 提案手法は,オープンソースおよび商用オフザシェルフ認識システムを用いて,公開データベース上で広範囲に評価される。 その結果,提案手法を用いることで,クローズド・セットとオープン・セットの識別シナリオにおいて,ベースライン網羅検索のバイオメトリック性能が完全に維持される一方で,計算負荷を約30%削減できることがわかった。

The growing scope, scale, and number of biometric deployments around the world emphasise the need for research into technologies facilitating efficient and reliable biometric identification queries. This work presents a method of indexing biometric databases, which relies on signal-level fusion of facial images (morphing) to create a multi-stage data-structure and retrieval protocol. By successively pre-filtering the list of potential candidate identities, the proposed method makes it possible to reduce the necessary number of biometric template comparisons to complete a biometric identification transaction. The proposed method is extensively evaluated on publicly available databases using open-source and commercial off-the-shelf recognition systems. The results show that using the proposed method, the computational workload can be reduced down to around 30%, while the biometric performance of a baseline exhaustive search-based retrieval is fully maintained, both in closed-set and open-set identification scenarios.
翻訳日:2021-03-08 14:49:55 公開日:2021-03-05
# 皮膚病変分類のためのピアラーニング

Peer Learning for Skin Lesion Classification ( http://arxiv.org/abs/2103.03703v1 )

ライセンス: Link先を確認
Tariq Bdair, Nassir Navab and Shadi Albarqouni(参考訳) 皮膚がんは世界で最も致命的ながんの1つである。 しかし、早期検出によって減少する可能性がある。 近年の深層学習法は皮膚がんの分類において皮膚科医レベルの性能を示した。 しかし、この成功には大量の集中型データが必要です。 フェデレーションラーニングは最近導入され、特に医療分野では高価で利用できないアノテーション付きデータをクライアントに要求する、プライバシー保護された分散方式で機械学習モデルをトレーニングする。 そこで本研究では,社会科学からのピアラーニングと,委員会機械からの平均的なアンサンブルを活用した半教師付きフェデレーション学習手法であるfederlを提案する。 また、FedPerlのコアコンポーネントとしてピア匿名化(PA)手法を提案する。 PAはプライバシーを保ち、追加の複雑さなしにパフォーマンスを維持しながら通信コストを削減します。 4つの公開データセットから採取した38,000枚の皮膚病変画像について検討を行った。 FedPerlはベースラインと最先端のSSFLよりも15.8%向上し、それぞれ1.8%向上した。 さらに、FedPerlは騒々しいクライアントに対する感度が低い。

Skin cancer is one of the most deadly cancers worldwide. Yet, it can be reduced by early detection. Recent deep-learning methods have shown a dermatologist-level performance in skin cancer classification. Yet, this success demands a large amount of centralized data, which is oftentimes not available. Federated learning has been recently introduced to train machine learning models in a privacy-preserved distributed fashion demanding annotated data at the clients, which is usually expensive and not available, especially in the medical field. To this end, we propose FedPerl, a semi-supervised federated learning method that utilizes peer learning from social sciences and ensemble averaging from committee machines to build communities and encourage its members to learn from each other such that they produce more accurate pseudo labels. We also propose the peer anonymization (PA) technique as a core component of FedPerl. PA preserves privacy and reduces the communication cost while maintaining the performance without additional complexity. We validated our method on 38,000 skin lesion images collected from 4 publicly available datasets. FedPerl achieves superior performance over the baselines and state-of-the-art SSFL by 15.8%, and 1.8% respectively. Further, FedPerl shows less sensitivity to noisy clients.
翻訳日:2021-03-08 14:49:41 公開日:2021-03-05
# VIPriors 1:データ効率の高いディープラーニングチャレンジのためのビジュアルインダクタティブプライオリティ

VIPriors 1: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2103.03768v1 )

ライセンス: Link先を確認
Robert-Jan Bruintjes, Attila Lengyel, Marcos Baptista Rios, Osman Semih Kayhan, Jan van Gemert(参考訳) 我々は"VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning"の初版を提示する。 私たちは、モデルをスクラッチからトレーニングする4つのデータ障害課題を提供し、トレーニングサンプルの数を全セットのごく一部に削減します。 さらに,データ効率を向上するために,事前学習したモデルやその他の伝達学習技術の使用を禁止した。 上位ランキングのソリューションの大半は、提供されたベースラインに比べて大幅なパフォーマンス向上を達成するために、データ拡張、モデルエンハンブル、および新規で効率的なネットワークアーキテクチャを多用している。

We present the first edition of "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" challenges. We offer four data-impaired challenges, where models are trained from scratch, and we reduce the number of training samples to a fraction of the full set. Furthermore, to encourage data efficient solutions, we prohibited the use of pre-trained models and other transfer learning techniques. The majority of top ranking solutions make heavy use of data augmentation, model ensembling, and novel and efficient network architectures to achieve significant performance increases compared to the provided baselines.
翻訳日:2021-03-08 14:49:25 公開日:2021-03-05
# グラフニューラルネットワークによる高速インタラクティブビデオオブジェクトのセグメンテーション

Fast Interactive Video Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2103.03821v1 )

ライセンス: Link先を確認
Viktor Varga, Andr\'as L\H{o}rincz(参考訳) 画像シーケンスのピクセルワイズアノテーションは、人間にとって非常に面倒です。 インタラクティブなビデオオブジェクトセグメンテーションは、プロセスの高速化とアノテータの作業量削減に自動手法を活用することを目的としている。 現代のほとんどのアプローチは、ビデオを通して人間のアノテーションから情報を収集し処理するために深い畳み込みネットワークに依存している。 しかし、このようなネットワークには数百万のパラメータが含まれており、オーバーフィットを避けるために大量のラベル付きトレーニングデータが必要である。 それ以上に、ラベルの伝搬は通常、並列化が困難で時間を要する一連のフレームバイフレーム推論ステップとして実行されます。 本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワーク手法を提案する。 我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。 我々のネットワークは数千のパラメータしか持たず、最先端のパフォーマンスを達成できる一方で、推論は高速であり、非常に少ないデータで迅速に訓練できることを示す。

Pixelwise annotation of image sequences can be very tedious for humans. Interactive video object segmentation aims to utilize automatic methods to speed up the process and reduce the workload of the annotators. Most contemporary approaches rely on deep convolutional networks to collect and process information from human annotations throughout the video. However, such networks contain millions of parameters and need huge amounts of labeled training data to avoid overfitting. Beyond that, label propagation is usually executed as a series of frame-by-frame inference steps, which is difficult to be parallelized and is thus time consuming. In this paper we present a graph neural network based approach for tackling the problem of interactive video object segmentation. Our network operates on superpixel-graphs which allow us to reduce the dimensionality of the problem by several magnitudes. We show, that our network possessing only a few thousand parameters is able to achieve state-of-the-art performance, while inference remains fast and can be trained quickly with very little data.
翻訳日:2021-03-08 14:49:15 公開日:2021-03-05
# 自己監督型縦横型埋め込み

Self-Supervised Longitudinal Neighbourhood Embedding ( http://arxiv.org/abs/2103.03840v1 )

ライセンス: Link先を確認
Jiahong Ouyang and Qingyu Zhao and Ehsan Adeli and Edith V Sullivan and Adolf Pfefferbaum and Greg Zaharchuk and Kilian M Pohl(参考訳) 経時的MRIは、老化や神経疾患によって引き起こされる脳構造と機能の段階的な劣化を捉えるためにしばしば用いられる。 このデータを機械学習で分析するには、多くの場合、大量の基幹ラベルを必要とする。 ラベルの必要性を低減し,LNE(Longitudinal Neighborhood Embedding)と呼ばれる表現学習のための自己監督型戦略を提案する。 コントラスト学習の概念に動機づけられたLNEは、異なる対象の軌道ベクトル間の類似性を明示的にモデル化する。 我々は、各トレーニング反復において、被写体の進行方向が隣人の方向に従うように、潜在空間内の近傍を定義するグラフを構築する。 これにより、局所的な連続性を維持しながら、脳のグローバルな形態変化を捉えるスムーズな軌道場が得られる。 健常者274名からなるデータセットとアルツハイマー病神経画像イニシアチブ(ADNI,$N=632$)の2種類の縦断的T1wMRIにLNEを適用した。 滑らかな軌道ベクトル場の可視化と下流課題における優れた性能は, 正常な加齢に伴う情報抽出と神経変性障害の影響を明らかにする上で, 既存の自己教師あり手法よりも, 提案手法の強みを示す。 コードは \url{https://github.com/o uyangjiahong/longitu dinal-neighbourhood- embedding.git}で入手できる。

Longitudinal MRIs are often used to capture the gradual deterioration of brain structure and function caused by aging or neurological diseases. Analyzing this data via machine learning generally requires a large number of ground-truth labels, which are often missing or expensive to obtain. Reducing the need for labels, we propose a self-supervised strategy for representation learning named Longitudinal Neighborhood Embedding (LNE). Motivated by concepts in contrastive learning, LNE explicitly models the similarity between trajectory vectors across different subjects. We do so by building a graph in each training iteration defining neighborhoods in the latent space so that the progression direction of a subject follows the direction of its neighbors. This results in a smooth trajectory field that captures the global morphological change of the brain while maintaining the local continuity. We apply LNE to longitudinal T1w MRIs of two neuroimaging studies: a dataset composed of 274 healthy subjects, and Alzheimer's Disease Neuroimaging Initiative (ADNI, $N=632$). The visualization of the smooth trajectory vector field and superior performance on downstream tasks demonstrate the strength of the proposed method over existing self-supervised methods in extracting information associated with normal aging and in revealing the impact of neurodegenerative disorders. The code is available at \url{https://github.com/o uyangjiahong/longitu dinal-neighbourhood- embedding.git}.
翻訳日:2021-03-08 14:48:59 公開日:2021-03-05
# MD-MTL:疾患スコア予測とマルチレベルリスクファクター分析のためのエンサンブルメディマルチタスク学習パッケージ

MD-MTL: An Ensemble Med-Multi-Task Learning Package for DiseaseScores Prediction and Multi-Level Risk Factor Analysis ( http://arxiv.org/abs/2103.03436v1 )

ライセンス: Link先を確認
Lu Wang, Haoyan Jiang and Mark Chignell(参考訳) 多くの機械学習手法が医療データに対する医療予測やリスクファクター分析に使われてきたが、これまではSTL(Single-task learning)手法が研究されていた。 しかし、医療研究はしばしば複数の関連タスクを伴う。 例えば、複数の患者のサブグループにおける疾患スコア予測とリスクファクタ分析を同時に実施し、マルチレベルでのリスクファクタ分析を同期的に行う。 本論文では,Med-Multi-Task Learning (MD-MTL)パッケージと呼ばれるマルチタスク学習(MTL)に基づく新しいアンサンブルマシンラーニングPythonパッケージを開発し,患者の疾患スコアの予測と,複数のサブグループにおけるリスクファクタ分析を同時に行うことに適用した。 2つのデータセットにおける実験結果は,md-mtlパッケージの有用性を示し,mtl (vs. stl) の利点を示す。 ).

While many machine learning methods have been used for medical prediction and risk factor analysis on healthcare data, most prior research has involved single-task learning (STL) methods. However, healthcare research often involves multiple related tasks. For instance, implementation of disease scores prediction and risk factor analysis in multiple subgroups of patients simultaneously and risk factor analysis at multi-levels synchronously. In this paper, we developed a new ensemble machine learning Python package based on multi-task learning (MTL), referred to as the Med-Multi-Task Learning (MD-MTL) package and applied it in predicting disease scores of patients, and in carrying out risk factor analysis on multiple subgroups of patients simultaneously. Our experimental results on two datasets demonstrate the utility of the MD-MTL package, and show the advantage of MTL (vs. STL), when analyzing data that is organized into different categories (tasks, which can be various age groups, different levels of disease severity, etc.).
翻訳日:2021-03-08 14:47:52 公開日:2021-03-05
# 高度マルチラベルデータのためのストラテファイドサンプリング

Stratified Sampling for Extreme Multi-Label Data ( http://arxiv.org/abs/2103.03494v1 )

ライセンス: Link先を確認
Maximillian Merrillees and Lan Du(参考訳) 極端なマルチラベル分類(XML)は、ビッグデータの時代においてますます関連性を増しています。 しかし、XMLデータセットの階層化されたパーティションを効果的に生成する方法はありません。 その代わり、研究者は通常、(1)データセット全体を代表するものではなく、2)ラベルの多くを欠いているテストトレイン分割に頼っている。 これはバイナリおよびマルチクラス設定で確立されたように、一般化能力の低下と信頼性の低いパフォーマンス推定につながる可能性がある。 そこで本論文では,何百万ものユニークなラベルを持つXMLデータセットの階層分割を効率的に生成するアルゴリズムを提案する。 また,既存のベンチマーク分割のラベル分布を調べ,モデル開発に不定型部分集合を用いた場合の問題点について検討する。 その結果、XMLデータの階層化の難しさが強調され、階層化パーティションをトレーニングと評価に使うことの重要性が示されました。

Extreme multi-label classification (XML) is becoming increasingly relevant in the era of big data. Yet, there is no method for effectively generating stratified partitions of XML datasets. Instead, researchers typically rely on provided test-train splits that, 1) aren't always representative of the entire dataset, and 2) are missing many of the labels. This can lead to poor generalization ability and unreliable performance estimates, as has been established in the binary and multi-class settings. As such, this paper presents a new and simple algorithm that can efficiently generate stratified partitions of XML datasets with millions of unique labels. We also examine the label distributions of prevailing benchmark splits, and investigate the issues that arise from using unrepresentative subsets of data for model development. The results highlight the difficulty of stratifying XML data, and demonstrate the importance of using stratified partitions for training and evaluation.
翻訳日:2021-03-08 14:47:31 公開日:2021-03-05
# 秘密鍵を用いた伝達学習に基づくモデル保護

Transfer Learning-Based Model Protection With Secret Key ( http://arxiv.org/abs/2103.03525v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本論文では,正しい鍵のない不正使用者が正しい推論が得られないように,訓練済みモデルをシークレットキーで保護する新しい方法を提案する。 提案手法は,転送学習を活用することで,トレーニングデータセットの小さなサブセットを用いて,ImageNetで訓練されたモデルのような大規模保護モデルのトレーニングを可能にする。 学習可能な暗号化ステップと秘密鍵を利用し、学習可能な変換画像を生成する。 事前訓練された重みを持つモデルは、そのような変換画像を用いて微調整される。 ImageNetデータセットを用いた実験では、正しいキーが与えられたとき、保護されたモデルの性能が非保護されたモデルに近いことが示され、不正確なキーが使われたとき、精度が大幅に低下した。 保護されたモデルは、キー推定攻撃に対して堅牢であることも実証された。

We propose a novel method for protecting trained models with a secret key so that unauthorized users without the correct key cannot get the correct inference. By taking advantage of transfer learning, the proposed method enables us to train a large protected model like a model trained with ImageNet by using a small subset of a training dataset. It utilizes a learnable encryption step with a secret key to generate learnable transformed images. Models with pre-trained weights are fine-tuned by using such transformed images. In experiments with the ImageNet dataset, it is shown that the performance of a protected model was close to that of a non-protected model when the correct key was given, while the accuracy tremendously dropped when an incorrect key was used. The protected model was also demonstrated to be robust against key estimation attacks.
翻訳日:2021-03-08 14:47:18 公開日:2021-03-05
# 低差分配列で生成された人工ニューラルネットワーク

Artificial Neural Networks generated by Low Discrepancy Sequences ( http://arxiv.org/abs/2103.03543v1 )

ライセンス: Link先を確認
Alexander Keller and Matthijs Van keirsbilck(参考訳) 人工ニューラルネットワークはパスで表現することができる。 濃密なネットワークグラフ上のランダムなウォーキングとして生成されると、結果として生じるスパースネットワークは決定論的初期化や固定符号の重み付けが可能となる。 このようなネットワークは、スクラッチからスパースし、密集したネットワークを訓練し、その後圧縮する高価な手順を避けることができる。 少ないが、重みは連続したメモリブロックとしてアクセスされる。 さらに、ソボの配列のような決定論的低差分配列を用いて経路を列挙すると、プログレッシブな置換によって神経ユニットの層を繋ぐことになり、並列コンピュータハードウェアにおけるバンクの衝突を自然に回避する。 我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。

Artificial neural networks can be represented by paths. Generated as random walks on a dense network graph, we find that the resulting sparse networks allow for deterministic initialization and even weights with fixed sign. Such networks can be trained sparse from scratch, avoiding the expensive procedure of training a dense network and compressing it afterwards. Although sparse, weights are accessed as contiguous blocks of memory. In addition, enumerating the paths using deterministic low discrepancy sequences, for example the Sobol' sequence, amounts to connecting the layers of neural units by progressive permutations, which naturally avoids bank conflicts in parallel computer hardware. We demonstrate that the artificial neural networks generated by low discrepancy sequences can achieve an accuracy within reach of their dense counterparts at a much lower computational complexity.
翻訳日:2021-03-08 14:47:07 公開日:2021-03-05
# 感情認識におけるデータセット構成の影響分析

Analyzing the Influence of Dataset Composition for Emotion Recognition ( http://arxiv.org/abs/2103.03700v1 )

ライセンス: Link先を確認
A. Sutherland, S. Magg, C. Weber, S. Wermter(参考訳) マルチモーダルアーキテクチャにおけるテキストからの感情認識は,特定の状況下での映像やオーディオのモダリティを超越して,有望な結果をもたらしている。 しかし,マルチモーダルデータを収集する手法は,言語における感情的特徴を認識する上で重要である。 本稿では,iemocapデータセットとomg-emotion行動データセットの2つのマルチモーダル感情認識データセットに対するデータ収集手法の影響について,テキストデータと感情認識精度を分析した。 完全なIEMOCAPデータセットを用いた実験は、構成がOMG-Emotion Behaviorデータセットと比較して一般化性能に悪影響を及ぼすことを示している。 我々は、これがHRI実験に与える影響について論じる。

Recognizing emotions from text in multimodal architectures has yielded promising results, surpassing video and audio modalities under certain circumstances. However, the method by which multimodal data is collected can be significant for recognizing emotional features in language. In this paper, we address the influence data collection methodology has on two multimodal emotion recognition datasets, the IEMOCAP dataset and the OMG-Emotion Behavior dataset, by analyzing textual dataset compositions and emotion recognition accuracy. Experiments with the full IEMOCAP dataset indicate that the composition negatively influences generalization performance when compared to the OMG-Emotion Behavior dataset. We conclude by discussing the impact this may have on HRI experiments.
翻訳日:2021-03-08 14:46:53 公開日:2021-03-05
# 畳み込みとリカレントニューラルネットワークのバックプロパゲーションの予測符号化

Predictive Coding Can Do Exact Backpropagation on Convolutional and Recurrent Neural Networks ( http://arxiv.org/abs/2103.03725v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Thomas Lukasiewicz, Rafal Bogacz, Zhenghua Xu(参考訳) 予測符号化ネットワーク(PCN)は、脳内の情報処理に影響を及ぼすモデルである。 彼らは理論的な解釈をアピールし、脳の多様な知覚現象を説明する単一のメカニズムを提供する。 一方、バックプロパゲーション(BP)は現代の機械学習において最も成功した学習方法と考えられている。 したがって、最近の研究がPCNを近似BPに訓練する推論学習(IL)を定式化していることはエキサイティングである。 i) il は非現実的かつ非自明な要求を持つ bp の近似であり、(ii) il は単段の重み付け更新で bp に近似する、(ii) 重み付け更新がより多くのステップで実行された後に bp と同じ点になるかどうかは不明であり、(iii) il は bp よりも計算的にはるかにコストがかかる。 これらの問題を解決するため、完全連結ネットワークにおけるBPと厳密に等価なILの変種が提案されている。 本研究では,より複雑なアーキテクチャ,すなわち畳み込みニューラルネットワークと(ほぼ1対1の)リカレントニューラルネットワークも持つことを示すことにより,この結果に基づいて構築する。 私たちの知る限りでは、生物学的に実行可能なアルゴリズムが、このような複雑なアーキテクチャ上のBPの精度を正確に再現し、ILとBPの間の既存のギャップを橋渡しし、PCNに前例のないパフォーマンスを設定できることを初めて示しました。

Predictive coding networks (PCNs) are an influential model for information processing in the brain. They have appealing theoretical interpretations and offer a single mechanism that accounts for diverse perceptual phenomena of the brain. On the other hand, backpropagation (BP) is commonly regarded to be the most successful learning method in modern machine learning. Thus, it is exciting that recent work formulates inference learning (IL) that trains PCNs to approximate BP. However, there are several remaining critical issues: (i) IL is an approximation to BP with unrealistic/non-triv ial requirements, (ii) IL approximates BP in single-step weight updates; whether it leads to the same point as BP after the weight updates are conducted for more steps is unknown, and (iii) IL is computationally significantly more costly than BP. To solve these issues, a variant of IL that is strictly equivalent to BP in fully connected networks has been proposed. In this work, we build on this result by showing that it also holds for more complex architectures, namely, convolutional neural networks and (many-to-one) recurrent neural networks. To our knowledge, we are the first to show that a biologically plausible algorithm is able to exactly replicate the accuracy of BP on such complex architectures, bridging the existing gap between IL and BP, and setting an unprecedented performance for PCNs, which can now be considered as efficient alternatives to BP.
翻訳日:2021-03-08 14:46:41 公開日:2021-03-05
# ドメイン適応のための離散型アクティブラーニング

Discrepancy-Based Active Learning for Domain Adaptation ( http://arxiv.org/abs/2103.03757v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Mathilde Mougeot, Nicolas Vayatis(参考訳) この論文の目的は、Lipschitzラベリング機能の場合、ドメインシフトの仮定の下でドメイン適応につながるアクティブな学習戦略を設計することである。 mansourらによる以前の作品の制作。 (2009) 仮説クラス上の最大化を制限するために, ソースとターゲット分布の差分距離の概念を, ソース領域上で正確なラベル付けを行う関数の局所化クラスに適応する。 正規性条件を満たす一般損失関数に対するラデマッハ平均と局所偏差の観点から,そのようなアクティブラーニング戦略の一般化誤差境界を導出する。 実用的アルゴリズムは理論的な境界から推定され、1つは勾配最適化に基づいており、もう1つはK-メドロイドアルゴリズムである。 また,大規模データセットのケースに対処するアルゴリズムの改良版も提供する。 これらのアルゴリズムは、我々の数値実験で示されているように、ドメイン適応の文脈における他の最先端のアクティブな学習技術、特に約10万の画像の大規模なデータセットと競合する。

The goal of the paper is to design active learning strategies which lead to domain adaptation under an assumption of domain shift in the case of Lipschitz labeling function. Building on previous work by Mansour et al. (2009) we adapt the concept of discrepancy distance between source and target distributions to restrict the maximization over the hypothesis class to a localized class of functions which are performing accurate labeling on the source domain. We derive generalization error bounds for such active learning strategies in terms of Rademacher average and localized discrepancy for general loss functions which satisfy a regularity condition. Practical algorithms are inferred from the theoretical bounds, one is based on greedy optimization and the other is a K-medoids algorithm. We also provide improved versions of the algorithms to address the case of large data sets. These algorithms are competitive against other state-of-the-art active learning techniques in the context of domain adaptation as shown in our numerical experiments, in particular on large data sets of around one hundred thousand images.
翻訳日:2021-03-08 14:46:12 公開日:2021-03-05
# 安全・安全高自動化自動車の課題

Challenges of engineering safe and secure highly automated vehicles ( http://arxiv.org/abs/2103.03544v1 )

ライセンス: Link先を確認
Nadja Marko, Eike M\"ohlmann, Dejan Ni\v{c}kovi\'c, J\"urgen Niehaus, Peter Priller, Martijn Rooker(参考訳) 自動運転車に10年以上も注力してきた私たちは、完全自動運転というビジョンが現実になるための大きな課題に直面している。 同様の「幻滅」は、自律型サイバーフィジカルシステム(cps)が社会的な課題を克服し、社会や個人にとって非常に有益である他の多くの領域でも当てはまる。 自動車分野、すなわち。 例えば、高度自動化車(HAV)は、安全で安全で信頼性が高く、信頼性の高い高度自動化リスプを達成する上で、依然として克服すべき大きな課題をまとめたものです。 自律型CPS。 私たちは技術的な課題に固執し、(法的な)規制、認定、標準化、倫理、社会的受容の重要性を認めています。 havを実現する上での4つの課題は、継続的デプロイ後のシステム改善の実現、不確実性と不完全な情報の処理、機械学習コンポーネントによるhavの検証、予測である。 これらの課題のそれぞれは、サブチャレンジを含む詳細に説明され、適切な場合、それらを克服するための可能なアプローチです。 業界とアカデミーの共通の努力で協力し、これらの課題に焦点を当てることで、著者はHAVを実現するための「幻滅」の克服に貢献したいと考えています。

After more than a decade of intense focus on automated vehicles, we are still facing huge challenges for the vision of fully autonomous driving to become a reality. The same "disillusionment" ; is true in many other domains, in which autonomous Cyber-Physical Systems (CPS) could considerably help to overcome societal challenges and be highly beneficial to society and individuals. Taking the automotive domain, i.e. highly automated vehicles (HAV), as an example, this paper sets out to summarize the major challenges that are still to overcome for achieving safe, secure, reliable and trustworthy highly automated resp. autonomous CPS. We constrain ourselves to technical challenges, acknowledging the importance of (legal) regulations, certification, standardization, ethics, and societal acceptance, to name but a few, without delving deeper into them as this is beyond the scope of this paper. Four challenges have been identified as being the main obstacles to realizing HAV: Realization of continuous, post-deployment systems improvement, handling of uncertainties and incomplete information, verification of HAV with machine learning components, and prediction. Each of these challenges is described in detail, including sub-challenges and, where appropriate, possible approaches to overcome them. By working together in a common effort between industry and academy and focusing on these challenges, the authors hope to contribute to overcome the "disillusionment" ; for realizing HAV.
翻訳日:2021-03-08 14:45:57 公開日:2021-03-05
# URLLCのリアルタイムCQI予測のためのSDRベーステストベッド

SDR-based Testbed for Real-time CQI Prediction for URLLC ( http://arxiv.org/abs/2103.03572v1 )

ライセンス: Link先を確認
Kirill Glinskiy, Evgeny Khorov, Alexey Kureev(参考訳) 超信頼性低遅延通信(URLLC)は、5Gシステムの重要な特徴です。 URLLCによって課されるサービス(QoS)の条件の質は10msの遅れおよびより少しより少しより10^{-5}$のパケット損失率(PLR)です。 このような厳しい要件を最小のチャネルリソース消費で満たすには、デバイスはチャネル品質を正確に予測し、適切な方法でURLLCの変調および符号化スキーム(MCS)を選択する必要があります。 本稿では,ニューラルネットワークを用いたソフトウェア定義無線に基づくリアルタイムチャネル予測システムを提案する。 また,今後のurllc研究において,様々な移動シナリオにおける様々なチャネル予測手法を比較するために使用できるオープンチャネル計測データセットについて記述し,共有する。

Ultra-reliable Low-Latency Communication (URLLC) is a key feature of 5G systems. The quality of service (QoS) requirements imposed by URLLC are less than 10ms delay and less than $10^{-5}$ packet loss rate (PLR). To satisfy such strict requirements with minimal channel resource consumption, the devices need to accurately predict the channel quality and select Modulation and Coding Scheme (MCS) for URLLC in a proper way. This paper presents a novel real-time channel prediction system based on Software-Defined Radio that uses a neural network. The paper also describes and shares an open channel measurement dataset that can be used to compare various channel prediction approaches in different mobility scenarios in future research on URLLC
翻訳日:2021-03-08 14:45:33 公開日:2021-03-05
# リコメンダシステムのためのグラフ畳み込み埋め込み

Graph Convolutional Embeddings for Recommender Systems ( http://arxiv.org/abs/2103.03587v1 )

ライセンス: Link先を確認
Paula G\'omez Duran, Alexandros Karatzoglou, Jordi Vitri\`a, Xin Xin, Ioannis Arapakis(参考訳) 現代のレコメンダーシステム(RS)は、大量のユーザーとアイテムの相互作用データから推測できる多くの信号を処理することによって機能します。 分析する主な信号は、相互作用を表す生の行列に由来する。 しかし,インタラクションのコンテキスト,例えばインタラクションの日時,ユーザ位置,ユーザとシステムとの歴史的なインタラクションに対応するシーケンシャルなデータなど,他の種類の信号を考慮することで,RSの性能を向上させることができる。 これらの複雑なコンテキストベースの相互作用信号は、多部グラフで表現できるリッチリレーショナル構造によって特徴づけられる。 グラフ畳み込みネットワーク(GCN)は、単純なユーザー項目の相互作用データとの協調フィルタリングに成功した。 本研究では,N 個のコンテキスト次元を考慮した N 個のグラフに対する GCN の利用を一般化し,現代のディープラーニング RS アーキテクチャにおけるそれらのシームレスな統合方法を提案する。 より具体的には、ユーザ間相互作用を処理するn成分グラフのグラフ畳み込み層を定義し、それらの関係構造を利用してノード埋め込みを構成する。 レコメンダーシステムから薬物再購入までのいくつかのデータセットに関する実験は、異なるコンテキスト強化タスクのパフォーマンスを測定することによって導入されたGCN埋め込みレイヤの利点を示しています。

Modern recommender systems (RS) work by processing a number of signals that can be inferred from large sets of user-item interaction data. The main signal to analyze stems from the raw matrix that represents interactions. However, we can increase the performance of RS by considering other kinds of signals like the context of interactions, which could be, for example, the time or date of the interaction, the user location, or sequential data corresponding to the historical interactions of the user with the system. These complex, context-based interaction signals are characterized by a rich relational structure that can be represented by a multi-partite graph. Graph Convolutional Networks (GCNs) have been used successfully in collaborative filtering with simple user-item interaction data. In this work, we generalize the use of GCNs for N-partite graphs by considering N multiple context dimensions and propose a simple way for their seamless integration in modern deep learning RS architectures. More specifically, we define a graph convolutional embedding layer for N-partite graphs that processes user-item-context interactions, and constructs node embeddings by leveraging their relational structure. Experiments on several datasets from recommender systems to drug re-purposing show the benefits of the introduced GCN embedding layer by measuring the performance of different context-enriched tasks.
翻訳日:2021-03-08 14:45:21 公開日:2021-03-05
# ロボットプラットフォーム間のFew-Shot Policy Adaptationのためのベイズメタラーニング

Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic Platforms ( http://arxiv.org/abs/2103.03697v1 )

ライセンス: Link先を確認
Ali Ghadirzadeh, Xi Chen, Petra Poklukar, Chelsea Finn, M{\aa}rten Bj\"orkman and Danica Kragic(参考訳) 強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。 高価なデータで訓練されたポリシーは、ロボットハードウェアに小さな変更を加えても役に立たない。 本稿では,ロボットの動作軌跡を対象ロボットにわずかに示すだけで,タスクを実行するために訓練されたポリシーを,新しいロボットハードウェアプラットフォームに適応させるという課題に対処する。 データ効率のよい適応を可能にするために、さまざまなロボットプラットフォームで共有される共通の構造を捉えるメタモデルを見つけることが目的です。 低次元潜伏変数を用いた数ショット設定から生じる不確かさをモデル化する確率的勾配に基づくメタラーニングアルゴリズムによる学習フレームワークを導入することにより、そのような適応を実現する。 既存のロボットプラットフォームの物理パラメータを変化させた400台のシミュレートロボットを用いて,シミュレーションリーチと実ロボットピッキングタスクの枠組みを実験的に評価した。 提案手法は,新しい物理パラメータとメタラーニングアルゴリズムの優越性を持つ異なるロボットプラットフォームに対して,導入されるマイナショット・ポリシー適応問題に対する最先端手法と比較して,訓練されたポリシーをうまく適用できることを示す。

Reinforcement learning methods can achieve significant performance but require a large amount of training data collected on the same robotic platform. A policy trained with expensive data is rendered useless after making even a minor change to the robot hardware. In this paper, we address the challenging problem of adapting a policy, trained to perform a task, to a novel robotic hardware platform given only few demonstrations of robot motion trajectories on the target robot. We formulate it as a few-shot meta-learning problem where the goal is to find a meta-model that captures the common structure shared across different robotic platforms such that data-efficient adaptation can be performed. We achieve such adaptation by introducing a learning framework consisting of a probabilistic gradient-based meta-learning algorithm that models the uncertainty arising from the few-shot setting with a low-dimensional latent variable. We experimentally evaluate our framework on a simulated reaching and a real-robot picking task using 400 simulated robots generated by varying the physical parameters of an existing set of robotic platforms. Our results show that the proposed method can successfully adapt a trained policy to different robotic platforms with novel physical parameters and the superiority of our meta-learning algorithm compared to state-of-the-art methods for the introduced few-shot policy adaptation problem.
翻訳日:2021-03-08 14:45:00 公開日:2021-03-05
# コンスタントサークルによる自動市場メーカーの実装

Implementing Automated Market Makers with Constant Circle ( http://arxiv.org/abs/2103.03699v1 )

ライセンス: Link先を確認
Yongge Wang(参考訳) 本稿では,一定楕円型自動市場メーカ(CoinSwap)の実装の詳細について述べる。 CoinSwapのプロトタイプはhttp://coinswapapp.i o/で実装されており、ソースコードはhttps://github.com/c oinswapapp/で入手できる。

This paper describe the implementation details of constant ellipse based automated market makers (CoinSwap). A CoinSwap prototype has been implemented at http://coinswapapp.i o/ and the source codes are available at https://github.com/c oinswapapp/
翻訳日:2021-03-08 14:44:39 公開日:2021-03-05
# 代替安全行動に基づく無衝突・トルク制限ロボット軌道の学習

Learning Collision-free and Torque-limited Robot Trajectories based on Alternative Safe Behaviors ( http://arxiv.org/abs/2103.03793v1 )

ライセンス: Link先を確認
Jonas C. Kiemel and Torsten Kr\"oger(参考訳) 本稿では,産業用ロボットの衝突のないトルク制限トラジェクタのオンライン生成を学習する手法を提案する。 強化学習によって訓練されるニューラルネットワークは、将来の動きを予測するために定期的に呼び出される。 各ロボット関節に対して、ネットワークは、現在の時間間隔の終わりに望まれる運動状態を出力する。 アクションスペースの設計により、キネマティックジョイント限界の遵守が確保されます。 現在の運動状態とネットワーク予測を考慮すれば、現在の時間間隔の軌跡を計算することができる。 本論文の主な考え方は、軌道を継続する衝突のないトルク制限方式が知られている場合に限り、予測動作を実行することである。 実際には、予測運動はブレーキ軌道によって拡張され、物理エンジンを用いてシミュレートされる。 シミュレーションされた軌道がすべての安全制約に合致すると、予測動作が実行される。 さもなければ、前の決定ステップで計算されたブレーキ軌跡は代替の安全行動として機能する。 評価のために、最大3台のシミュレーションロボットが、できるだけ多くのランダムに配置された目標点に到達するように訓練される。 本研究では,ロボット間の静的障害物や衝突を確実に防止すると同時に,トルク限界と運動性関節限界の両方を尊重する動作を生成する。 実ロボットによる実験は、安全な軌道をリアルタイムで生成できることを示しています。

This paper presents an approach to learn online generation of collision-free and torque-limited trajectories for industrial robots. A neural network, which is trained via reinforcement learning, is periodically invoked to predict future motions. For each robot joint, the network outputs the kinematic state that is desired at the end of the current time interval. Compliance with kinematic joint limits is ensured by the design of the action space. Given the current kinematic state and the network prediction, a trajectory for the current time interval can be computed. The main idea of our paper is to execute the predicted motion only if a collision-free and torque-limited way to continue the trajectory is known. In practice, the predicted motion is expanded by a braking trajectory and simulated using a physics engine. If the simulated trajectory complies with all safety constraints, the predicted motion is carried out. Otherwise, the braking trajectory calculated in the previous decision step serves as an alternative safe behavior. For evaluation, up to three simulated robots are trained to reach as many randomly placed target points as possible. We show that our method reliably prevents collisions with static obstacles and collisions between the robots, while generating motions that respect both torque limits and kinematic joint limits. Experiments with a real robot demonstrate that safe trajectories can be generated in real-time.
翻訳日:2021-03-08 14:44:32 公開日:2021-03-05
# SpecTr:Hyperspectral Pathology Image Segmentationのためのスペクトル変換器

SpecTr: Spectral Transformer for Hyperspectral Pathology Image Segmentation ( http://arxiv.org/abs/2103.03604v1 )

ライセンス: Link先を確認
Boxiang Yun, Yan Wang, Jieneng Chen, Huiyu Wang, Wei Shen, Qingli Li(参考訳) ハイパースペクトルイメージング(HSI)は、計算病理学や精密医学などの高精度病理画像分割に依存する幅広いアプリケーションに巨大な可能性を解き放ちます。 ハイパースペクトル病理画像は、可視スペクトルを超えても豊富で詳細なスペクトル情報から恩恵を受けるため、高精度なハイパースペクトル病理画像分割を実現する鍵は、高次元スペクトルバンドに沿ってコンテキストを暗黙的にモデル化することです。 トランスの強力なコンテキストモデリング能力に触発され、トランスのシーケンスからシーケンスへの予測手順として、ハイパースペクトル病理画像分割のためのスペクトル帯域をまたいだコンテキスト機能学習を初めて定式化しました。 スペクトルの文脈学習を支援するために,(1)余剰帯域からの乱れを解消するために,疎結合方式が学習コンテキスト関係を疎結合にすること,(2)スペクトル正規化,(2)スペクトル帯域毎の集団正規化,そして、帯域の不均一な基底分布によるニュアンスを軽減すること,の2つの重要な戦略を導入する。 我々は,(1)スペクトル帯域間の長距離依存性をモデル化する能力を持ち,(2)hsiの空間スペクトル特性を共同研究する,という2つの利点を享受するspectrum transformer (spectr) と呼ぶ。 実験により、spectrは事前トレーニングを必要とせず、ハイパースペクトル病理画像分割ベンチマークで他の競合する手法よりも優れていることが示されている。 コードはhttps://github.com/h fut-xc-yun/SpecTrで入手できる。

Hyperspectral imaging (HSI) unlocks the huge potential to a wide variety of applications relied on high-precision pathology image segmentation, such as computational pathology and precision medicine. Since hyperspectral pathology images benefit from the rich and detailed spectral information even beyond the visible spectrum, the key to achieve high-precision hyperspectral pathology image segmentation is to felicitously model the context along high-dimensional spectral bands. Inspired by the strong context modeling ability of transformers, we hereby, for the first time, formulate the contextual feature learning across spectral bands for hyperspectral pathology image segmentation as a sequence-to-sequence prediction procedure by transformers. To assist spectral context learning procedure, we introduce two important strategies: (1) a sparsity scheme enforces the learned contextual relationship to be sparse, so as to eliminates the distraction from the redundant bands; (2) a spectral normalization, a separate group normalization for each spectral band, mitigates the nuisance caused by heterogeneous underlying distributions of bands. We name our method Spectral Transformer (SpecTr), which enjoys two benefits: (1) it has a strong ability to model long-range dependency among spectral bands, and (2) it jointly explores the spatial-spectral features of HSI. Experiments show that SpecTr outperforms other competing methods in a hyperspectral pathology image segmentation benchmark without the need of pre-training. Code is available at https://github.com/h fut-xc-yun/SpecTr.
翻訳日:2021-03-08 14:43:26 公開日:2021-03-05
# コントラスト学習によるきめ細かいオフロード意味セグメンテーションとマッピング

Fine-Grained Off-Road Semantic Segmentation and Mapping via Contrastive Learning ( http://arxiv.org/abs/2103.03651v1 )

ライセンス: Link先を確認
Biao Gao, Shaochi Hu, Xijun Zhao, Huijing Zhao(参考訳) 道路検出やトラバーサビリティ解析は、移動ロボットが複雑なオフロードシーンを横断するための重要な技術である。 この問題は、主に初期の研究でバイナリ分類として定式化されている。 ピクセルと道路や道路のラベルを関連付ける。 オフロードロボットには細かなラベルでシーンを理解する必要があるが、シーンは非常に多様であり、オフロードロボットの様々な機械的な性能によって、安全な領域の定義が異なる可能性がある。 きめ細かいラベルを定義して注釈を付けて、ロボットがオフロードを横断する意味のあるシーン理解を達成するには、まだ疑問の余地がある。 本研究では,対比学習に基づく手法を提案する。 人間の注釈付きアンカーパッチのセットでは、異なるトラバーサビリティを持つ領域を識別するために特徴表現を学び、細かい粒度のセマンティックセグメンテーションとマッピングの方法がその後オフロードシーンの理解のために開発されます。 実験は、非常に多様なオフロードシーンを表す3つの駆動セグメントのデータセットで行われます。 アンカー精度89.8%は、クロスシーンバリデーションにおける人間の注釈付き画像パッチとのマッチングを評価することによって達成される。 関連した3次元ライダーデータにより,視覚画像の細粒度セグメントは,その意味的意味性を表す強靭性と地形上昇のレベルが異なることが示されている。 結果として得られる地図はきめ細かいラベルと信頼値の両方を含んでおり、複雑なオフロードシーンを横断するロボットをサポートするための豊富な情報を提供する。

Road detection or traversability analysis has been a key technique for a mobile robot to traverse complex off-road scenes. The problem has been mainly formulated in early works as a binary classification one, e.g. associating pixels with road or non-road labels. Whereas understanding scenes with fine-grained labels are needed for off-road robots, as scenes are very diverse, and the various mechanical performance of off-road robots may lead to different definitions of safe regions to traverse. How to define and annotate fine-grained labels to achieve meaningful scene understanding for a robot to traverse off-road is still an open question. This research proposes a contrastive learning based method. With a set of human-annotated anchor patches, a feature representation is learned to discriminate regions with different traversability, a method of fine-grained semantic segmentation and mapping is subsequently developed for off-road scene understanding. Experiments are conducted on a dataset of three driving segments that represent very diverse off-road scenes. An anchor accuracy of 89.8% is achieved by evaluating the matching with human-annotated image patches in cross-scene validation. Examined by associated 3D LiDAR data, the fine-grained segments of visual images are demonstrated to have different levels of toughness and terrain elevation, which represents their semantical meaningfulness. The resultant maps contain both fine-grained labels and confidence values, providing rich information to support a robot traversing complex off-road scenes.
翻訳日:2021-03-08 14:42:57 公開日:2021-03-05
# 高自動運転における認識のためのコーナーケースの応用駆動概念化

An Application-Driven Conceptualization of Corner Cases for Perception in Highly Automated Driving ( http://arxiv.org/abs/2103.03678v1 )

ライセンス: Link先を確認
Florian Heidecker, Jasmin Breitenstein, Kevin R\"osch, Jonas L\"ohdefink, Maarten Bieshaar, Christoph Stiller, Tim Fingscheidt, Bernhard Sick(参考訳) 機械学習(ML)に依存するシステムと機能は、高度に自動化された運転の基礎です。 このようなMLモデルの基本課題は、異常、新しい、潜在的に危険な状況を確実に検出し、解釈することである。 私たちがコーナーケースと呼ぶこれらの状況の検出は、複数のセンサーモダリティが使用される将来の車両における自動車認識機能の開発、適用、および検証に非常に関連しています。 コーナーケース検出器の開発の複雑さは、特に様々な自動車センサーを考慮すると、一貫した定義、用語、コーナーケース記述の欠如である。 本研究では,高自動化運転におけるコーナーケースのアプリケーション駆動ビューを提供する。 この目的を達成するために、まず、一般的な外れ値、ノベル性、異常値、および分布外検出からの既存の定義を考慮し、コーナーケースとの関係と差異を示す。 さらに,RAAR (Radio detection and range) とLiDAR (light detection and range) センサを付加することで,既存のカメラによるコーナーケースの体系化を拡大する。 そこで本研究では,データ取得と処理のツールチェーンを例示し,コーナーケース検出のインターフェースを強調した。 我々はまた、方法論やデータ分布に固有の不確実性のために現れる新しいレベルのコーナーケース、メソッドレイヤーコーナーケースを定義します。

Systems and functions that rely on machine learning (ML) are the basis of highly automated driving. An essential task of such ML models is to reliably detect and interpret unusual, new, and potentially dangerous situations. The detection of those situations, which we refer to as corner cases, is highly relevant for successfully developing, applying, and validating automotive perception functions in future vehicles where multiple sensor modalities will be used. A complication for the development of corner case detectors is the lack of consistent definitions, terms, and corner case descriptions, especially when taking into account various automotive sensors. In this work, we provide an application-driven view of corner cases in highly automated driving. To achieve this goal, we first consider existing definitions from the general outlier, novelty, anomaly, and out-of-distribution detection to show relations and differences to corner cases. Moreover, we extend an existing camera-focused systematization of corner cases by adding RADAR (radio detection and ranging) and LiDAR (light detection and ranging) sensors. For this, we describe an exemplary toolchain for data acquisition and processing, highlighting the interfaces of the corner case detection. We also define a novel level of corner cases, the method layer corner cases, which appear due to uncertainty inherent in the methodology or the data distribution.
翻訳日:2021-03-08 14:42:31 公開日:2021-03-05
# クロスモーダル領域適応のための自己注意型空間適応正規化

Self-Attentive Spatial Adaptive Normalization for Cross-Modality Domain Adaptation ( http://arxiv.org/abs/2103.03781v1 )

ライセンス: Link先を確認
Devavrat Tomar, Manana Lortkipanidze, Guillaume Vray, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 多くの困難なビジョンタスクにおけるディープニューラルネットワークの成功にもかかわらず、トレーニングデータと同一に分散されていない新しいテストドメインへの一般化に失敗することが多い。 ドメイン適応は、注目すべきドメインシフトを持つクロスモダリティ医療データにとってより困難になる。 特定の注釈付きイメージングモダリティがアクセス可能でも完全でもありません。 提案手法は医用画像のクロスモダリティ合成に基づき,放射線科医のアノテーション負担を軽減し,放射線画像の領域ギャップを埋める。 本稿では,教師なしまたは教師なし(非ペア画像データ)の設定が可能な医用画像における画像から画像への変換手法を提案する。 本稿では,敵対的学習に基づいて,深層畳み込み生成ネットワークの中間活性化の学習可能な空間正規化を提案する。 従来の注意に基づく画像から画像への変換手法とは異なり,画像翻訳において幾何学的変化を処理し解剖学的構造を保存するために,補助的な意味情報の重要性を明らかにする。 我々は, マルチモーダル脳腫瘍MRI(T1/T2)データセットを, 最先端法と比較し, 欠損型MRIとCTデータ間の相互モダリティセグメンテーションにおいて, 優れた結果を得た。 また,脳データセット上でのMRI画像とCT画像の相互モダリティ変換の促進効果も観察した。 さらに,クロスモダリティ画像変換の詳細な解析を行い,提案手法の有効性を徹底的に検証した。

Despite the successes of deep neural networks on many challenging vision tasks, they often fail to generalize to new test domains that are not distributed identically to the training data. The domain adaptation becomes more challenging for cross-modality medical data with a notable domain shift. Given that specific annotated imaging modalities may not be accessible nor complete. Our proposed solution is based on the cross-modality synthesis of medical images to reduce the costly annotation burden by radiologists and bridge the domain gap in radiological images. We present a novel approach for image-to-image translation in medical images, capable of supervised or unsupervised (unpaired image data) setups. Built upon adversarial training, we propose a learnable self-attentive spatial normalization of the deep convolutional generator network's intermediate activations. Unlike previous attention-based image-to-image translation approaches, which are either domain-specific or require distortion of the source domain's structures, we unearth the importance of the auxiliary semantic information to handle the geometric changes and preserve anatomical structures during image translation. We achieve superior results for cross-modality segmentation between unpaired MRI and CT data for multi-modality whole heart and multi-modal brain tumor MRI (T1/T2) datasets compared to the state-of-the-art methods. We also observe encouraging results in cross-modality conversion for paired MRI and CT images on a brain dataset. Furthermore, a detailed analysis of the cross-modality image translation, thorough ablation studies confirm our proposed method's efficacy.
翻訳日:2021-03-08 14:42:09 公開日:2021-03-05
# 室内環境における照明不変化のためのマルチセッション視覚SLAM

Multi-Session Visual SLAM for Illumination Invariant Localization in Indoor Environments ( http://arxiv.org/abs/2103.03827v1 )

ライセンス: Link先を確認
Mathieu Labb\'e and Fran\c{c}ois Michaud(参考訳) カメラのみを使用して移動するロボットの場合、屋内環境の照明変化は、自律ナビゲーション中にローカリゼーションの失敗を引き起こす可能性があります。 本稿では,異なる照明条件下で同じ位置の複数のバリエーションからなるマップを作成するために,マルチセッション視覚SLAM手法を提案する。 マルチセッションマップは、その日の任意の時間に、ローカライゼーション機能を改善するために使用できる。 RTAB-Mapライブラリを使用して作成されたマルチセッションマップとSURF, SIFT, BRIEF, FREAK, BRISK, KAZE, DAISY, SuperPointのビジュアル機能間のローカリゼーションパフォーマンスを比較することで、このアプローチが実証されている。 この手法は6つのマッピングと6つのローカライゼーションセッションで、実際のアパートでGoogle Tangoの電話を使って日没時に30分間隔で記録されている。

For robots navigating using only a camera, illumination changes in indoor environments can cause localization failures during autonomous navigation. In this paper, we present a multi-session visual SLAM approach to create a map made of multiple variations of the same locations in different illumination conditions. The multi-session map can then be used at any hour of the day for improved localization capability. The approach presented is independent of the visual features used, and this is demonstrated by comparing localization performance between multi-session maps created using the RTAB-Map library with SURF, SIFT, BRIEF, FREAK, BRISK, KAZE, DAISY and SuperPoint visual features. The approach is tested on six mapping and six localization sessions recorded at 30 minutes intervals during sunset using a Google Tango phone in a real apartment.
翻訳日:2021-03-08 14:41:43 公開日:2021-03-05
# リスクイシュネスとピノッキオの自律的実体の包括的分類学の探索

Riskyishness and Pinocchio's Search for a Comprehensive Taxonomy of Autonomous Entities ( http://arxiv.org/abs/2103.03482v1 )

ライセンス: Link先を確認
William P. Wagner IV, Anna \'Zakowska, Clement Aladi, Joseph Santhosh(参考訳) 本稿では,自律エンティティという用語を定義するための探索的パイロット研究と,自律エンティティの識別・分類に必要な特徴について述べる。 私たちのソリューションは、哲学的および科学的分類法に関する以前の研究に基づいていますが、新しいデザイン科学研究方法論(dsrm)とモデルに注目して、あらゆる自律的な実体を他のものと類似または異なるものにする特徴を特定するのに役立ちます。 レンズを定義するための既存の用語が存在しないという問題を、新しい組み合わせ用語「Riskyishness」を作成することで解決しました。 本稿では,初期調査のためのdsrmと機器,および実世界におけるそれらの使用の観察的・統計的記述について,ドメインの専門知識と統計的証拠を提示する。 さらに,2つ目のアーティファクト – リスクネスに基づく既存および将来の技術を評価するツール – を作成することで,方法論の特定の応用を実証する。 最初のアーティファクトは、さまざまな既存技術を混乱させる技術や、将来の追加やパラダイムシフトを捉えるツールに次元を追加する技術も提供しています。

This paper documents an exploratory pilot study to define the term Autonomous Entity, and any characteristics that are required to identify or classify an Autonomous Entity. Our solution builds on previous work with regard to philosophical and scientific classification methods but focuses on a novel Design Science Research Methodology (DSRM) and model to help identify those characteristics which make any autonomous entity similar or different from others. We have solved the problem of not having an existing term to define our lens by creating a new combinatorial term: "Riskyishness". We present a DSRM and instrument for initial investigation, as well as observational and statistical descriptions of their use in the real world to solicit domain expertise and statistical evidence. Further, we demonstrate a specific application of the methodology by creating a second artifact - a tool to score existing and future technologies based on Riskyishness. The first artifact also provides a technique to disentangle miscellaneous existing technologies or add dimensions to the tools to capture future additions and paradigm shifts.
翻訳日:2021-03-08 14:41:27 公開日:2021-03-05
# MAMBPO:学習世界モデルを用いたサンプル効率多ボット強化学習

MAMBPO: Sample-efficient multi-robot reinforcement learning using learned world models ( http://arxiv.org/abs/2103.03662v1 )

ライセンス: Link先を確認
Dani\"el Willemsen, Mario Coppola and Guido C.H.E. de Croon(参考訳) マルチロボットシステムは、サンプル効率として知られる少数の試験で行動を学習する強化学習(RL)アルゴリズムの恩恵を受けることができます。 そこで本研究では,学習世界モデルを用いたサンプル効率の向上について検討する。 本稿では,分散実行(clde)フレームワークのための集中型学習を利用するマルチエージェントモデルベースrlアルゴリズム,マルチエージェントモデルベースポリシー最適化(mambpo)を提案する。 CLDEアルゴリズムにより、エージェントのグループは訓練後に完全に分散された方法で行動することができる。 これは複数のロボットからなる多くのシステムにとって望ましい特性である。 MAMBPOは、学習された世界モデルを使用して、モデルフリーのマルチエージェントソフトアクタークリティカル(MASAC)と比較してサンプル効率を向上させます。 MAMBPOはMAASACと同じような性能を達成しているが、それを行うにはサンプルがはるかに少ない2つのシミュレーションされたマルチロボットタスクでこれを実証する。 これにより、マルチロボットシステムの実生活学習を実現するための重要な一歩を踏み出します。

Multi-robot systems can benefit from reinforcement learning (RL) algorithms that learn behaviours in a small number of trials, a property known as sample efficiency. This research thus investigates the use of learned world models to improve sample efficiency. We present a novel multi-agent model-based RL algorithm: Multi-Agent Model-Based Policy Optimization (MAMBPO), utilizing the Centralized Learning for Decentralized Execution (CLDE) framework. CLDE algorithms allow a group of agents to act in a fully decentralized manner after training. This is a desirable property for many systems comprising of multiple robots. MAMBPO uses a learned world model to improve sample efficiency compared to model-free Multi-Agent Soft Actor-Critic (MASAC). We demonstrate this on two simulated multi-robot tasks, where MAMBPO achieves a similar performance to MASAC, but requires far fewer samples to do so. Through this, we take an important step towards making real-life learning for multi-robot systems possible.
翻訳日:2021-03-08 14:41:07 公開日:2021-03-05
# VLC/RFシステムにおけるフェデレーション学習におけるユーザ選択と帯域配置の最適化

Optimization of User Selection and Bandwidth Allocation for Federated Learning in VLC/RF Systems ( http://arxiv.org/abs/2103.03444v1 )

ライセンス: Link先を確認
Chuanhong Liu, Caili Guo, Yang Yang, Mingzhe Chen, H. Vincent Poor, and Shuguang Cui(参考訳) 限られた無線周波数(RF)リソースは、FL収束速度とパフォーマンスに影響を与えるように、フェデレーションラーニング(FL)に参加できるユーザー数を制限します。 本稿では、まずFLにおけるRFの補足として可視光通信(VLC)を導入し、各室内ユーザがVLCとRFの両方を使用してFLモデルパラメータを送信できるハイブリッドVLC/RF通信システムを構築する。 そこで, FL性能最適化を目的としたハイブリッドVLC/RFシステム上で実装したFLについて, ユーザ選択と帯域割当の問題を検討した。 問題はまず2つの部分問題に分かれる。 最初のサブプロブレムは、トラバーサルアルゴリズムによって解決される所定の帯域幅割り当てを持つユーザー選択問題である。 第2のサブプロブレムは、与えられたユーザ選択による帯域幅割り当て問題であり、数値法によって解決される。 最終的なユーザ選択と帯域割り当ては、これら2つのサブ問題を反復的に解いて得られる。 シミュレーションの結果,FLモデル伝送に VLC と RF を効率よく利用するFLアルゴリズムは,従来の RF を用いた FL システムと比較して,予測精度を最大10%向上できることがわかった。

Limited radio frequency (RF) resources restrict the number of users that can participate in federated learning (FL) thus affecting FL convergence speed and performance. In this paper, we first introduce visible light communication (VLC) as a supplement to RF in FL and build a hybrid VLC/RF communication system, in which each indoor user can use both VLC and RF to transmit its FL model parameters. Then, the problem of user selection and bandwidth allocation is studied for FL implemented over a hybrid VLC/RF system aiming to optimize the FL performance. The problem is first separated into two subproblems. The first subproblem is a user selection problem with a given bandwidth allocation, which is solved by a traversal algorithm. The second subproblem is a bandwidth allocation problem with a given user selection, which is solved by a numerical method. The final user selection and bandwidth allocation are obtained by iteratively solving these two subproblems. Simulation results show that the proposed FL algorithm that efficiently uses VLC and RF for FL model transmission can improve the prediction accuracy by up to 10% compared with a conventional FL system using only RF.
翻訳日:2021-03-08 14:40:07 公開日:2021-03-05
# DeepFreight: モデルなしのディープ強化学習に基づくマルチトランスファーウェイトデリバリアルゴリズム

DeepFreight: A Model-free Deep-reinforcement-l earning-based Algorithm for Multi-transfer Freight Delivery ( http://arxiv.org/abs/2103.03450v1 )

ライセンス: Link先を確認
Jiayu Chen, Abhishek K. Umrawal, Tian Lan, and Vaneet Aggarwal(参考訳) 貨物輸送需要と輸送コストの急激な増加により、効率よくコストを意識したソリューションを実現するための艦隊のインテリジェントな制御が重要な問題となっている。 本稿では,トラックディスパッチとパッケージマッチングという2つの密接なコラボレーションコンポーネントを含む,マルチトランスファー貨物配送のためのモデルフリーなディープラーニングアルゴリズムであるdeepfreightを提案する。 具体的には、QMIXと呼ばれる深層マルチエージェント強化学習フレームワークを利用してディスパッチポリシーを学習し、配信要求に関する複数段階の共同ディスパッチ決定を得ることができる。 その後、効率的なマルチトランスファーマッチングアルゴリズムを実行して、配送要求をトラックに割り当てます。 また、DeepFreightはさらなる最適化のためにMixed-Integer Linear Programming Optimizationrと統合されている。 評価の結果,提案システムは非常にスケーラブルであり,低納期と燃料消費を維持しつつ,100%の納入成功を保証できることがわかった。

With the freight delivery demands and shipping costs increasing rapidly, intelligent control of fleets to enable efficient and cost-conscious solutions becomes an important problem. In this paper, we propose DeepFreight, a model-free deep-reinforcement-l earning-based algorithm for multi-transfer freight delivery, which includes two closely-collaborativ e components: truck-dispatch and package-matching. Specifically, a deep multi-agent reinforcement learning framework called QMIX is leveraged to learn a dispatch policy, with which we can obtain the multi-step joint dispatch decisions for the fleet with respect to the delivery requests. Then an efficient multi-transfer matching algorithm is executed to assign the delivery requests to the trucks. Also, DeepFreight is integrated with a Mixed-Integer Linear Programming optimizer for further optimization. The evaluation results show that the proposed system is highly scalable and ensures a 100% delivery success while maintaining low delivery time and fuel consumption.
翻訳日:2021-03-08 14:39:48 公開日:2021-03-05
# クロスプロジェクト欠陥予測から異種欠陥予測への移行:部分レプリケーションによる検討

Moving from Cross-Project Defect Prediction to Heterogeneous Defect Prediction: A Partial Replication Study ( http://arxiv.org/abs/2103.03490v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar(参考訳) ソフトウェア欠陥予測は、ソフトウェアプロジェクトから集められたメトリクスに大きく依存します。 以前の研究では、しばしば機械学習技術を使用して、プロジェクト内または異なるプロジェクト間で収集されたメトリクスのセットを使用して、バグ予測モデルを構築し、検証し、改善した。 しかしながら、これらのモデルが適用した手法と結論は、これらの指標がどの程度同一であるかによって制限される。 これらのモデルから得られる知識は、ソースプロジェクトで十分な重複メトリクスが収集されていない場合、ターゲットプロジェクトに拡張できない。 共通ラベル付きメトリクスを使わずにプロジェクト間で知識を伝達できる可能性を探るため,得られた成果を再現し検証することにより,異種欠陥予測(HDP)を体系的に統合した。 我々の主な目標は、先行研究を拡張し、HDPの実現可能性を探究し、最終的にその性能を前任のクロスプロジェクト欠陥予測と比べることです。 公開データセットの異なるHDPモデルを構築しています。 さらに,複数の利用可能なデータセットの予測能力を活用するために,HDPコンテキストにおける新しいアンサンブル投票手法を提案する。 私たちの実験の結果は、元の研究のそれと匹敵します。 しかし,実例ではHDPの実現可能性についても検討した。 その結果,hdpアルゴリズムはパラメータ選択に対する感度が高いため,多くのケースで実現不可能であることが判明した。 一般的に、私たちの分析は、あるドメインから別のドメインへの転送学習を行う理由と方法について深い洞察を与え、特に、研究者や実践者が欠陥予測ドメインに知識を広めるのに役立つ一連のガイドラインを提供します。

Software defect prediction heavily relies on the metrics collected from software projects. Earlier studies often used machine learning techniques to build, validate, and improve bug prediction models using either a set of metrics collected within a project or across different projects. However, techniques applied and conclusions derived by those models are restricted by how identical those metrics are. Knowledge coming from those models will not be extensible to a target project if no sufficient overlapping metrics have been collected in the source projects. To explore the feasibility of transferring knowledge across projects without common labeled metrics, we systematically integrated Heterogeneous Defect Prediction (HDP) by replicating and validating the obtained results. Our main goal is to extend prior research and explore the feasibility of HDP and finally to compare its performance with that of its predecessor, Cross-Project Defect Prediction. We construct an HDP model on different publicly available datasets. Moreover, we propose a new ensemble voting approach in the HDP context to utilize the predictive power of multiple available datasets. The result of our experiment is comparable to that of the original study. However, we also explored the feasibility of HDP in real cases. Our results shed light on the infeasibility of many cases for the HDP algorithm due to its sensitivity to the parameter selection. In general, our analysis gives a deep insight into why and how to perform transfer learning from one domain to another, and in particular, provides a set of guidelines to help researchers and practitioners to disseminate knowledge to the defect prediction domain.
翻訳日:2021-03-08 14:39:33 公開日:2021-03-05
# JIT欠陥予測に時系列は重要ですか? 部分的複製研究

Does chronology matter in JIT defect prediction? A Partial Replication Study ( http://arxiv.org/abs/2103.03506v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Dhanya Jothimani, Ay\c{s}e Ba\c{s}ar, Mucahit Cevik(参考訳) Just-In-Time(JIT)モデルは、修正誘発変更(または欠陥誘発変更)を検出する。 これらのモデルは、過去のコード変更プロパティが将来のものと似ているという仮定に基づいて設計されている。 しかし、システムが進化するにつれて、開発者の専門知識やシステムの複雑さも変化する。 本研究では,JITモデルに対するコード変更プロパティの影響を経時的に調査する。 また、最新のデータと利用可能なすべてのデータがJITモデルの性能に与える影響についても検討する。 さらに、重み付きサンプリングがJITモデルの修正誘導特性の性能に及ぼす影響を分析します。 この目的で、eclipse jdt、mozilla、eclipse platform、postgresqlのデータセットを使用しました。 サイズ、拡散、履歴、経験、目的といった5種類の変更コードプロパティを使用しました。 我々はRandom Forestを用いてJITモデルのトレーニングとテストを行い、Brier ScoreとROC曲線下の領域を性能測定に使用した。 本論文ではJITモデルの予測能力が経時的に変化しないことを示唆する。 さらに,jit欠陥予測モデルにおけるデータの時系列を,利用可能なすべてのデータを考慮して破棄できることを確認した。 一方、コード変更プロパティのファミリーの重要性スコアは、時間の経過とともに振動することがわかっています。 コード変更特性の進化の影響を軽減するため、現在の時間に近い変化にもっと重点を置く重み付けサンプリングアプローチを使用することが推奨されている。 また、"Expertise of the Developer"や"Size"などのプロパティは時間とともに進化するため、古いデータから得られたモデルは、新しいデータセットを使用するものと異なる特性を示す可能性があります。 したがって、実践者は新鮮なデータを含むようにJITモデルを常に再訓練する必要がある。

Just-In-Time (JIT) models detect the fix-inducing changes (or defect-inducing changes). These models are designed based on the assumption that past code change properties are similar to future ones. However, as the system evolves, the expertise of developers and/or the complexity of the system also changes. In this work, we aim to investigate the effect of code change properties on JIT models over time. We also study the impact of using recent data as well as all available data on the performance of JIT models. Further, we analyze the effect of weighted sampling on the performance of fix-inducing properties of JIT models. For this purpose, we used datasets from Eclipse JDT, Mozilla, Eclipse Platform, and PostgreSQL. We used five families of change-code properties such as size, diffusion, history, experience, and purpose. We used Random Forest to train and test the JIT model and Brier Score and the area under the ROC curve for performance measurement. Our paper suggests that the predictive power of JIT models does not change over time. Furthermore, we observed that the chronology of data in JIT defect prediction models can be discarded by considering all the available data. On the other hand, the importance score of families of code change properties is found to oscillate over time. To mitigate the impact of the evolution of code change properties, it is recommended to use a weighted sampling approach in which more emphasis is placed upon the changes occurring closer to the current time. Moreover, since properties such as "Expertise of the Developer" and "Size" evolve with time, the models obtained from old data may exhibit different characteristics compared to those employing the newer dataset. Hence, practitioners should constantly retrain JIT models to include fresh data.
翻訳日:2021-03-08 14:39:09 公開日:2021-03-05
# 隠れ特徴のベイズ近似によるディープニューラルネットワークの抽象化とシンボリック実行

Abstraction and Symbolic Execution of Deep Neural Networks with Bayesian Approximation of Hidden Features ( http://arxiv.org/abs/2103.03704v1 )

ライセンス: Link先を確認
Nicolas Berthier, Amany Alshareef, James Sharp, Sven Schewe, Xiaowei Huang(参考訳) 深層ニューラルネットワーク(DNN)の検証と検証に関する集中的な研究が行われており、DNNが安全クリティカルなアプリケーションに適用できるかどうか、そしてどのように適用できるかを理解しています。 しかし、既存の検証と検証技術は、DNNのサイズとデータセットのサイズの両方でスケーラビリティによって制限されている。 本稿では,DNNとデータセットをベイズネットワーク(BN)に抽象化する新しい抽象化手法を提案する。 本研究では,DNNの隠蔽層で学習した隠れ特徴を識別するために次元削減技術を使用し,各隠蔽特徴をBNのノードに関連付ける。 このBNでは、DNN処理データの挙動を理解するために確率推論を行うことができる。 さらに重要なことは、運用時のレアインプットの検出と入力データの共変シフトのためのランタイム監視アプローチを導出できることです。 また、既存の構造カバレッジガイドによるテスト技術(すなわち、ニューロンなどのDNNの低レベル要素に基づく)を適応させ、隠れた機能をよりよく行使するテストケースを生成することもできる。 DeepConcolicツールを使用してBN抽象化技術を実装し、評価します。

Intensive research has been conducted on the verification and validation of deep neural networks (DNNs), aiming to understand if, and how, DNNs can be applied to safety critical applications. However, existing verification and validation techniques are limited by their scalability, over both the size of the DNN and the size of the dataset. In this paper, we propose a novel abstraction method which abstracts a DNN and a dataset into a Bayesian network (BN). We make use of dimensionality reduction techniques to identify hidden features that have been learned by hidden layers of the DNN, and associate each hidden feature with a node of the BN. On this BN, we can conduct probabilistic inference to understand the behaviours of the DNN processing data. More importantly, we can derive a runtime monitoring approach to detect in operational time rare inputs and covariate shift of the input data. We can also adapt existing structural coverage-guided testing techniques (i.e., based on low-level elements of the DNN such as neurons), in order to generate test cases that better exercise hidden features. We implement and evaluate the BN abstraction technique using our DeepConcolic tool available at https://github.com/T rustAI/DeepConcolic.
翻訳日:2021-03-08 14:38:44 公開日:2021-03-05
# ニューラルネットワークを修理できますか? 弾性無線信号分類のためのリアルタイム適応波形合成

Can You Fix My Neural Network? Real-Time Adaptive Waveform Synthesis for Resilient Wireless Signal Classification ( http://arxiv.org/abs/2103.03745v1 )

ライセンス: Link先を確認
Salvatore D'Oro, Francesco Restuccia and Tommaso Melodia(参考訳) 明示的なモデリングなしに複雑な現象を分類する能力により、深層学習(DL)が無線信号分類(WSC)の鍵となることが示されている。 DLは特定の条件下で非常に高い精度を達成できますが、最近の研究では、トレーニング中にDLモデルによって得られた特徴を無線チャネルが破壊できることを明らかにしました。 再訓練された分類器は展開後、扱いにくいため、既存の作業では、送信機側で適用された場合、チャネルアクション、すなわち波形合成によって失われた特徴を復元できる、注意深く調整された有限インパルス応答(FIR)フィルタの使用を活用している。 しかし、これらのアプローチはオフライン最適化戦略を使用してFIRを計算し、高ダイナミックチャネル設定の有効性を制限します。 本稿では,チャネル耐性適応波形合成のためのDeep Reinforcement Learning (DRL) ベースのフレームワークであるCharesを提案することにより,その現状を改善する。 チャレスは新しいチャネル条件に適応し、firs の drl をリアルタイムで最適に計算する。 charesはdrlエージェントであり、アーキテクチャは2つの遅延決定論的ポリシー勾配(td3)に基づいており、受信者からの最小限のフィードバックを必要とし、連続的なアクション空間を探索する。 Charesは2つの有名なデータセットで広く評価されています。 また、フィールドプログラマブルゲートアレイ(FPGA)の実装により、Charesのリアルタイムレイテンシも評価しました。 その結果,Charesは波形合成を行わない場合の精度を4.1倍に向上させ,41us以内の新しい動作を計算できることが示された。

Thanks to its capability of classifying complex phenomena without explicit modeling, deep learning (DL) has been demonstrated to be a key enabler of Wireless Signal Classification (WSC). Although DL can achieve a very high accuracy under certain conditions, recent research has unveiled that the wireless channel can disrupt the features learned by the DL model during training, thus drastically reducing the classification performance in real-world live settings. Since retraining classifiers is cumbersome after deployment, existing work has leveraged the usage of carefully-tailored Finite Impulse Response (FIR) filters that, when applied at the transmitter's side, can restore the features that are lost because of the the channel actions, i.e., waveform synthesis. However, these approaches compute FIRs using offline optimization strategies, which limits their efficacy in highly-dynamic channel settings. In this paper, we improve the state of the art by proposing Chares, a Deep Reinforcement Learning (DRL)-based framework for channel-resilient adaptive waveform synthesis. Chares adapts to new and unseen channel conditions by optimally computing through DRL the FIRs in real-time. Chares is a DRL agent whose architecture is-based upon the Twin Delayed Deep Deterministic Policy Gradients (TD3), which requires minimal feedback from the receiver and explores a continuous action space. Chares has been extensively evaluated on two well-known datasets. We have also evaluated the real-time latency of Chares with an implementation on field-programmable gate array (FPGA). Results show that Chares increases the accuracy up to 4.1x when no waveform synthesis is performed, by 1.9x with respect to existing work, and can compute new actions within 41us.
翻訳日:2021-03-08 14:38:22 公開日:2021-03-05
# Smoothness Priorsによるオンライングラフ学習

Online Graph Learning under Smoothness Priors ( http://arxiv.org/abs/2103.03762v1 )

ライセンス: Link先を確認
Seyed Saman Saboksayr, Gonzalo Mateos, Mujdat Cetin(参考訳) グラフ信号処理(GSP)のアプローチの成功は、ネットワークデータが一定の規則性を認めるグラフの事前識別に大きく依存している。 しかし、よりダイナミックな環境への適応とストリーミングデータのリアルタイム処理の要求は、この目的に大きな課題をもたらす。 この文脈では,探索グラフ上でスムーズなストリーミング観測を仮定して,オンラインネットワークトポロジ推論のための新しいアルゴリズムを開発する。 既存のバッチアルゴリズムとは異なり、私たちの目標は、グラフ信号を順次処理することで、メモリと計算コストを維持しながら(おそらく)時間変動ネットワークトポロジを追跡することです。 オンライン方式でグラフを復元するために、近位勾配法(PG法)を用いて、偏平滑化・時変最適化問題を解く。 穏やかな技術条件下では、オンライングラフ学習アルゴリズムが最適な時間分散バッチソリューションの近傍(すなわち、追跡)に収束することを確立します。 人工および現実の金融市場データを用いたコンピュータシミュレーションは、ストリーミング信号に適応してゆっくりと変化するネットワーク接続を追跡する際に提案されたアルゴリズムの有効性を示す。

The growing success of graph signal processing (GSP) approaches relies heavily on prior identification of a graph over which network data admit certain regularity. However, adaptation to increasingly dynamic environments as well as demands for real-time processing of streaming data pose major challenges to this end. In this context, we develop novel algorithms for online network topology inference given streaming observations assumed to be smooth on the sought graph. Unlike existing batch algorithms, our goal is to track the (possibly) time-varying network topology while maintaining the memory and computational costs in check by processing graph signals sequentially-in-time . To recover the graph in an online fashion, we leverage proximal gradient (PG) methods to solve a judicious smoothness-regulariz ed, time-varying optimization problem. Under mild technical conditions, we establish that the online graph learning algorithm converges to within a neighborhood of (i.e., it tracks) the optimal time-varying batch solution. Computer simulations using both synthetic and real financial market data illustrate the effectiveness of the proposed algorithm in adapting to streaming signals to track slowly-varying network connectivity.
翻訳日:2021-03-08 14:37:51 公開日:2021-03-05
# 構造モチーフを用いた分子スキャッホールドの拡張学習

Learning to Extend Molecular Scaffolds with Structural Motifs ( http://arxiv.org/abs/2103.03864v1 )

ライセンス: Link先を確認
Krzysztof Maziarz, Henry Jackson-Flux, Pashmina Cameron, Finton Sirockin, Nadine Schneider, Nikolaus Stiefl, Marc Brockschmidt(参考訳) 分子の深層学習に基づくモデリングの最近の進歩は、シリコ創薬の加速を約束する。 原子/原子/結合、フラグメント/フラグメントのいずれかの分子を構築する生成モデルが多数存在する。 多くの薬物発見プロジェクトは、生成した分子に固定された足場が必要であり、その制約を組み込むことも最近研究されている。 本研究では、個々の原子とフラグメントを柔軟に選択することで、所定の部分分子を拡張することを学ぶ新しいグラフベースモデルを提案する。 足場の拡張は、最初の部分グラフとして使用することで実現されます。これは、私たちのモデルが生成履歴に依存していないためです。 足場を延ばす際には,ランダム化生成順序を用いたトレーニングが良好なパフォーマンスのために必要であり,フラグメント語彙サイズを増やすことでさらに改善されることを示した。 我々のモデルは、グラフベースの分子生成の最先端を推し進める一方で、既存のアプローチよりも訓練とサンプリングがはるかに高速である。

Recent advancements in deep learning-based modeling of molecules promise to accelerate in silico drug discovery. There is a plethora of generative models available, which build molecules either atom-by-atom and bond-by-bond or fragment-by-fragment . Many drug discovery projects also require a fixed scaffold to be present in the generated molecule, and incorporating that constraint has been recently explored. In this work, we propose a new graph-based model that learns to extend a given partial molecule by flexibly choosing between adding individual atoms and entire fragments. Extending a scaffold is implemented by using it as the initial partial graph, which is possible because our model does not depend on generation history. We show that training using a randomized generation order is necessary for good performance when extending scaffolds, and that the results are further improved by increasing fragment vocabulary size. Our model pushes the state-of-the-art of graph-based molecule generation, while being an order of magnitude faster to train and sample from than existing approaches.
翻訳日:2021-03-08 14:37:36 公開日:2021-03-05
# 最大流れによる分解可能部分モジュラー関数最小化

Decomposable Submodular Function Minimization via Maximum Flow ( http://arxiv.org/abs/2103.03868v1 )

ライセンス: Link先を確認
Kyriakos Axiotis, Adam Karczmarz, Anish Mukherjee, Piotr Sankowski, Adrian Vladu(参考訳) 本稿では,分解可能部分モジュラ関数最小化のための離散的かつ連続的な最適化手法を,標準およびパラメトリック設定の両方で橋渡しする。 我々は、最大フローオラクルへの多数の呼び出しに還元することで、この問題に対する実行時間を改善する。 分解の各関数が、$V$ の $O(1)$ 要素上で作用し、多項式有界であるとき、私達の実行時間は、$O(\vert V \vert)$ 頂点と多項式積分容量を持つスパースグラフにおける最大フローを解くことと同等の多項数係数である。 本手法は,部分モジュラーベースポリトープ上で定義される凸関数を高精度に最適化する,簡単な反復法を提供することにより実現し,構築するグラフのカット関数に対応する基本ポリトープ上で効率よく最小化することができる。 我々はこの最小化問題をパラメトリックカット問題の解を持ち上げて解くことで解決する。 この減少は独立した利益であり、複数の設定におけるパラメトリック最小$s,t$-cut問題に対する未知の境界を示唆している。

This paper bridges discrete and continuous optimization approaches for decomposable submodular function minimization, in both the standard and parametric settings. We provide improved running times for this problem by reducing it to a number of calls to a maximum flow oracle. When each function in the decomposition acts on $O(1)$ elements of the ground set $V$ and is polynomially bounded, our running time is up to polylogarithmic factors equal to that of solving maximum flow in a sparse graph with $O(\vert V \vert)$ vertices and polynomial integral capacities. We achieve this by providing a simple iterative method which can optimize to high precision any convex function defined on the submodular base polytope, provided we can efficiently minimize it on the base polytope corresponding to the cut function of a certain graph that we construct. We solve this minimization problem by lifting the solutions of a parametric cut problem, which we obtain via a new efficient combinatorial reduction to maximum flow. This reduction is of independent interest and implies some previously unknown bounds for the parametric minimum $s,t$-cut problem in multiple settings.
翻訳日:2021-03-08 14:37:15 公開日:2021-03-05
# 構造融合正規化による合同ネットワークトポロジー推論

Joint Network Topology Inference via Structured Fusion Regularization ( http://arxiv.org/abs/2103.03471v1 )

ライセンス: Link先を確認
Yanli Yuan, De Wen Soh, Xiao Yang, Kun Guo, Tony Q. S. Quek(参考訳) 結合ネットワークトポロジ推論は、異種グラフ信号から複数グラフラプラシア行列を共同学習する標準的な問題である。 そのような問題において、広く用いられる仮定は、複数のネットワーク間で共有される単純な共通成分である。 しかし実際には、スパース、均質、異質な成分を同時に含むより複雑なトポロジカルパターンが複数のネットワークに現れる。 本論文では,このような複雑な位相パターンを持つ複数のグラフラプラシアン行列を共同学習し,高い計算効率と厳密な理論的保証を兼ね備えた,新規な構造化融合正規化に基づく一般グラフ推定器を提案する。 さらに,提案した正規化項において,ネットワーク間のトポロジ的パターンは,グラム行列の異なる選択によって異なるタイプのトポロジ的パターンを柔軟にモデル化できるグラフ推定器によって特徴づけられる。 計算的に,パラメータを結合する正規化項は定式化された最適化問題を抽出可能とし,乗算器の交互方向法(ADMM)に基づく計算可能アルゴリズムを開発し,効率よく解く。 理論的には、提案したグラフ推定器の理論解析を行い、高次元設定下で推定誤差の非漸近境界を確立し、アルゴリズムの収束率に対するいくつかの重要な因子の影響を反映する。 最後に、提案手法の優れた性能は、シミュレーションおよび実データ例を通じて示される。

Joint network topology inference represents a canonical problem of jointly learning multiple graph Laplacian matrices from heterogeneous graph signals. In such a problem, a widely employed assumption is that of a simple common component shared among multiple networks. However, in practice, a more intricate topological pattern, comprising simultaneously of sparse, homogeneity and heterogeneity components, would exhibit in multiple networks. In this paper, we propose a general graph estimator based on a novel structured fusion regularization that enables us to jointly learn multiple graph Laplacian matrices with such complex topological patterns, and enjoys both high computational efficiency and rigorous theoretical guarantee. Moreover, in the proposed regularization term, the topological pattern among networks is characterized by a Gram matrix, endowing our graph estimator with the ability of flexible modelling different types of topological patterns by different choices of the Gram matrix. Computationally, the regularization term, coupling the parameters together, makes the formulated optimization problem intractable and thus, we develop a computationally-scal able algorithm based on the alternating direction method of multipliers (ADMM) to solve it efficiently. Theoretically, we provide a theoretical analysis of the proposed graph estimator, which establishes a non-asymptotic bound of the estimation error under the high-dimensional setting and reflects the effect of several key factors on the convergence rate of our algorithm. Finally, the superior performance of the proposed method is illustrated through simulated and real data examples.
翻訳日:2021-03-08 14:36:53 公開日:2021-03-05
# 点雲に基づく階層的深度オドメトリー推定

Point Cloud based Hierarchical Deep Odometry Estimation ( http://arxiv.org/abs/2103.03394v1 )

ライセンス: Link先を確認
Farzan Erlik Nowruzi, Dhanvin Kolhatkar, Prince Kapoor, Robert Laganiere(参考訳) 深層ニューラルネットワークを用いたポイントクラウドの処理はまだ難しい作業です。 既存のモデルのほとんどは、ポイントクラウドを用いたディープニューラルネットワークによるオブジェクト検出と登録に焦点を当てている。 本稿では,ポイントクラウドデータを用いた運転シナリオにおけるオドメトリ推定を学習する深層モデルを提案する。 提案モデルでは,階層型モデルによるフレーム間オドメトリ推定を行うために,生の点雲を消費する。 また、LSTM層を用いたこのモデルの局所バンドル調整変異も実装されている。 これら2つのアプローチは総合的に評価され、最先端技術と比較される。

Processing point clouds using deep neural networks is still a challenging task. Most existing models focus on object detection and registration with deep neural networks using point clouds. In this paper, we propose a deep model that learns to estimate odometry in driving scenarios using point cloud data. The proposed model consumes raw point clouds in order to extract frame-to-frame odometry estimation through a hierarchical model architecture. Also, a local bundle adjustment variation of this model using LSTM layers is implemented. These two approaches are comprehensively evaluated and are compared against the state-of-the-art.
翻訳日:2021-03-08 14:36:28 公開日:2021-03-05
# Slow-Fast Auditory Streams for Audio Recognition

Slow-Fast Auditory Streams For Audio Recognition ( http://arxiv.org/abs/2103.03516v1 )

ライセンス: Link先を確認
Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, Dima Damen(参考訳) 本稿では,時間周波数のスペクトログラム入力で動作する2ストリーム畳み込みネットワークを提案する。 視覚認識における同様の成功の後、我々は分離可能な畳み込みと多レベルの側方接続を持つ低速聴覚ストリームを学習する。 Slow経路はチャンネル容量が高く、Fast経路は細かい時間分解能で動作します。 本稿では,VGG-Sound と EPIC-KITCHENS-100 の2つの異なるデータセットに対する2ストリーム提案の重要性を述べる。

We propose a two-stream convolutional network for audio recognition, that operates on time-frequency spectrogram inputs. Following similar success in visual recognition, we learn Slow-Fast auditory streams with separable convolutions and multi-level lateral connections. The Slow pathway has high channel capacity while the Fast pathway operates at a fine-grained temporal resolution. We showcase the importance of our two-stream proposal on two diverse datasets: VGG-Sound and EPIC-KITCHENS-100, and achieve state-of-the-art results on both.
翻訳日:2021-03-08 14:36:19 公開日:2021-03-05
# GraphMineSuite:set Algebraによる高性能でプログラマブルなグラフマイニングアルゴリズムの実現

GraphMineSuite: Enabling High-Performance and Programmable Graph Mining Algorithms with Set Algebra ( http://arxiv.org/abs/2103.03653v1 )

ライセンス: Link先を確認
Maciej Besta, Zur Vonarburg-Shmaria, Yannick Schaffner, Leonardo Schwarz, Grzegorz Kwasniewski, Lukas Gianinazzi, Jakub Beranek, Kacper Janda, Tobias Holenstein, Sebastian Leisinger, Peter Tatkowski, Esref Ozdemir, Adrian Balla, Marcin Copik, Philipp Lindenberger, Pavel Kalvoda, Marek Konieczny, Onur Mutlu, Torsten Hoefler(参考訳) 高性能グラフマイニングアルゴリズムの評価と構築を容易にするグラフマイニングのための最初のベンチマークスイートであるGraphMineSuite(GMS)を提案します。 まず、GMSは広範な文献レビューに基づくベンチマーク仕様を持ち、代表的な問題、アルゴリズム、データセットを規定している。 第二に、GMSはグラフ表現やアルゴリズムサブルーチンなどのグラフマイニングアルゴリズムのさまざまな細かい要素をシームレスにテストするための慎重に設計されたソフトウェアプラットフォームを提供します。 このプラットフォームは40以上のベースラインの並列実装を含み、複雑で高速なマイニングアルゴリズムの開発を容易にする。 集合交差や差分などの集合代数演算を活用することで、複雑なグラフマイニングアルゴリズムを別々に実験可能な単純なビルディングブロックに分解することができる。 GMSは、パフォーマンスインサイトにおけるポータビリティに関する幅広い並行性解析と、グラフマイニングアルゴリズムのスループットを評価するための新しいパフォーマンス指標を備えており、より洞察力のある評価を可能にしている。 ユースケースとして、gmsを利用して、コアグラフマイニング問題の最先端のベースラインを迅速に再設計し、加速する: 退化再順序付け(最大2倍)、最大クライクリスト(最大9倍)、k-クライクリスト(最大1.1倍)、サブグラフ同型(最大2.5倍)。

We propose GraphMineSuite (GMS): the first benchmarking suite for graph mining that facilitates evaluating and constructing high-performance graph mining algorithms. First, GMS comes with a benchmark specification based on extensive literature review, prescribing representative problems, algorithms, and datasets. Second, GMS offers a carefully designed software platform for seamless testing of different fine-grained elements of graph mining algorithms, such as graph representations or algorithm subroutines. The platform includes parallel implementations of more than 40 considered baselines, and it facilitates developing complex and fast mining algorithms. High modularity is possible by harnessing set algebra operations such as set intersection and difference, which enables breaking complex graph mining algorithms into simple building blocks that can be separately experimented with. GMS is supported with a broad concurrency analysis for portability in performance insights, and a novel performance metric to assess the throughput of graph mining algorithms, enabling more insightful evaluation. As use cases, we harness GMS to rapidly redesign and accelerate state-of-the-art baselines of core graph mining problems: degeneracy reordering (by up to >2x), maximal clique listing (by up to >9x), k-clique listing (by 1.1x), and subgraph isomorphism (by up to 2.5x), also obtaining better theoretical performance bounds.
翻訳日:2021-03-08 14:36:05 公開日:2021-03-05
# マトリックスゲームにおける学習は任意に複雑になる

Learning in Matrix Games can be Arbitrarily Complex ( http://arxiv.org/abs/2103.03405v1 )

ライセンス: Link先を確認
Gabriel P. Andrade, Rafael Frongillo, Georgios Piliouras(参考訳) Generative Adversarial Networksのような機械学習アーキテクチャの増加は、Nash平衡を通じて所望の機能を実装するゲームの設計に依存している。 実際、これらのゲームは暗黙の複雑さを持っている(例)。 基盤となるデータセットと使用するディープネットワークから) 直接計算するナッシュ均衡は非現実的あるいは不可能である。 このため,nash平衡への反復収束を目標として,多数の学習アルゴリズムが開発されてきた。 残念ながら、学習プロセスによって生成されるダイナミクスは非常に複雑であり、トレーニング失敗の例は解釈が難しい。 本稿では,この動的複雑性がゲームに固有のことを,強い意味で示す。 具体的には、有限行列ゲームとして知られる非常に制限されたゲームのクラスに適用しても、多重相対重み更新の連続時間アナログである複製子ダイナミクスが任意の力学系を近似できるほど豊富であることを示す。 私たちの結果は、現在の機械学習プラクティスのほぼ境界のない動的モデリング能力を示すという意味では肯定的ですが、これらの能力が解釈可能性の犠牲になる可能性があることを暗示する否定的です。 具体例として、レプリケーターダイナミクスが、よく知られたロンレンツ力学の奇妙な誘引子(「バタフライ効果」)を効果的に再現できることを示す。

A growing number of machine learning architectures, such as Generative Adversarial Networks, rely on the design of games which implement a desired functionality via a Nash equilibrium. In practice these games have an implicit complexity (e.g. from underlying datasets and the deep networks used) that makes directly computing a Nash equilibrium impractical or impossible. For this reason, numerous learning algorithms have been developed with the goal of iteratively converging to a Nash equilibrium. Unfortunately, the dynamics generated by the learning process can be very intricate and instances of training failure hard to interpret. In this paper we show that, in a strong sense, this dynamic complexity is inherent to games. Specifically, we prove that replicator dynamics, the continuous-time analogue of Multiplicative Weights Update, even when applied in a very restricted class of games -- known as finite matrix games -- is rich enough to be able to approximate arbitrary dynamical systems. Our results are positive in the sense that they show the nearly boundless dynamic modelling capabilities of current machine learning practices, but also negative in implying that these capabilities may come at the cost of interpretability. As a concrete example, we show how replicator dynamics can effectively reproduce the well-known strange attractor of Lonrenz dynamics (the "butterfly effect") while achieving no regret.
翻訳日:2021-03-08 14:35:17 公開日:2021-03-05
# 空間時間グラフ畳み込みネットワークに基づくデータ駆動短期電圧安定性評価

Data-Driven Short-Term Voltage Stability Assessment Based on Spatial-Temporal Graph Convolutional Network ( http://arxiv.org/abs/2103.03729v1 )

ライセンス: Link先を確認
Yonghong Luo, Chao Lu, Lipeng Zhu, Jie Song(参考訳) 短期電圧安定性(SVS)のポストフォールト力学は時空間特性を示すが,既存のオンラインSVS評価のためのデータ駆動方式では,これらの特性をモデルに効果的に組み込むことができない。 本稿では,このジレンマに先行して,空間時間グラフ畳み込みネットワーク(STGCN)を開発し,この問題に対処する。 提案したSTGCNはグラフ畳み込みを利用して,ネットワークトポロジ情報を学習モデルに統合し,空間情報を活用する。 そして、時間情報を利用するために1次元の畳み込みを採用する。 このようにして、完全な畳み込み構造を持つSVSの時空間特性をモデル化する。 その後、SVS評価のためのSTGCNにおいて、ノード層とシステム層を戦略的に設計する。 提案したSTGCNはSVSの特性をデータ駆動型分類モデルに組み込む。 それは従来の方法より高い評価の正確さ、よりよい堅牢性および適応性に起因できます。 さらに、システムレイヤのパラメータは、個々のバスがSVSに与える影響に関する貴重な情報を提供することができる。 南中国における実世界の広東電力網の試験結果から,提案ネットワークの有効性が検証された。

Post-fault dynamics of short-term voltage stability (SVS) present spatial-temporal characteristics, but the existing data-driven methods for online SVS assessment fail to incorporate such characteristics into their models effectively. Confronted with this dilemma, this paper develops a novel spatial-temporal graph convolutional network (STGCN) to address this problem. The proposed STGCN utilizes graph convolution to integrate network topology information into the learning model to exploit spatial information. Then, it adopts one-dimensional convolution to exploit temporal information. In this way, it models the spatial-temporal characteristics of SVS with complete convolutional structures. After that, a node layer and a system layer are strategically designed in the STGCN for SVS assessment. The proposed STGCN incorporates the characteristics of SVS into the data-driven classification model. It can result in higher assessment accuracy, better robustness and adaptability than conventional methods. Besides, parameters in the system layer can provide valuable information about the influences of individual buses on SVS. Test results on the real-world Guangdong Power Grid in South China verify the effectiveness of the proposed network.
翻訳日:2021-03-08 14:34:56 公開日:2021-03-05
# 周波数・時間特徴を用いた脳波認知のための視覚刺激認知タスクに関するパイロット研究

A Pilot Study on Visually-Stimulated Cognitive Tasks for EEG-Based Dementia Recognition Using Frequency and Time Features ( http://arxiv.org/abs/2103.03854v1 )

ライセンス: Link先を確認
Supavit Kongwudhikunakorn, Suktipol Kiatthaveephong, Kamonwan Thanontip, Pitshaporn Leelaarporn, Maytus Piriyajitakonkij, Thananya Charoenpattarawut, Phairot Autthasan, Rattanaphon Chaisaen, Pathitta Dujada, Thapanun Sudhawiyangkul, Cuntai Guan, Vorapun Senanarong and Theerawit Wilaiprasitporn(参考訳) 認知症は認知機能低下の主な原因の1つです。 認知症患者の大半は治癒できないため、症状の発症前にそれらを診断できることは、認知障害の急速な進行を防ぐことができます。 本研究の目的は,健常者(NC),軽度認知障害者(MCI),認知症(DEM)の3群における脳波信号の差について検討することである。 脳波信号からアルツハイマー病(ad)の診断に焦点を当てた以前の研究とは異なり、認知症の検出を研究し、分類モデルを他のタイプの認知症に一般化する。 本研究では,4つの視覚刺激課題(固定,精神イメージ,シンボル認識,視覚誘発関連電位)からの脳波信号を用いて,脳波信号を用いた認知症診断を行うための機械学習に基づく認知症診断のパイロット研究を行った。 脳波信号から周波数領域と時間領域の両方の特徴を抽出し,各領域にサポートベクターマシン(svm)を適用し,それらの特徴を用いて患者を分類した。 さらに,周波数領域から特徴を抽出し,認知症を検出するためにフィルタバンク共通空間パターン(FBCSP)アルゴリズムの有効性を検討した。 モデルの評価は、作業メモリをテストするタスクが時間および周波数領域分析の両方で脳波信号を使用して認知症を検出するのに最も適していることを示しています。 しかし、両領域の最良の結果は、すべての4つの認知タスクの特徴を組み合わせることで得られる。

Dementia is one of the main causes of cognitive decline. Since the majority of dementia patients cannot be cured, being able to diagnose them before the onset of the symptoms can prevent the rapid progression of the cognitive impairment. This study aims to investigate the difference in the Electroencephalograp h (EEG) signals of three groups of subjects: Normal Control (NC), Mild Cognitive Impairment (MCI), and Dementia (DEM). Unlike previous works that focus on the diagnosis of Alzheimer's disease (AD) from EEG signals, we study the detection of dementia to generalize the classification models to other types of dementia. We have developed a pilot study on machine learning-based dementia diagnosis using EEG signals from four visual stimulation tasks (Fixation, Mental Imagery, Symbol Recognition, and Visually Evoked Related Potential) to identify the most suitable task and method to detect dementia using EEG signals. We extracted both frequency and time domain features from the EEG signals and applied a Support Vector Machine (SVM) for each domain to classify the patients using those extracted features. Additionally, we study the feasibility of the Filter Bank Common Spatial Pattern (FBCSP) algorithm to extract features from the frequency domain to detect dementia. The evaluation of the model shows that the tasks that test the working memory are the most appropriate to detect dementia using EEG signals in both time and frequency domain analysis. However, the best results in both domains are obtained by combining features of all four cognitive tasks.
翻訳日:2021-03-08 14:34:39 公開日:2021-03-05
# osデコーダの複雑性・信頼性トレードオフへの学習に基づくアプローチ

A Learning-Based Approach to Address Complexity-Reliabili ty Tradeoff in OS Decoders ( http://arxiv.org/abs/2103.03860v1 )

ライセンス: Link先を確認
Baptiste Cavarec, Hasan Basri Celebi, Mats Bengtsson, Mikael Skoglund(参考訳) 本稿では,大規模線形ブロック符号の復号化における複雑性と信頼性のトレードオフについて検討する。 本稿では,人工ニューラルネットワークを用いて順序統計に基づくデコーダの必要な順序を予測することで,平均的複雑性やデコーダの遅延を低減できることを示した。 モンテカルロシミュレーションによるアプローチの数値検証を行った。

In this paper, we study the tradeoffs between complexity and reliability for decoding large linear block codes. We show that using artificial neural networks to predict the required order of an ordered statistics based decoder helps in reducing the average complexity and hence the latency of the decoder. We numerically validate the approach through Monte Carlo simulations.
翻訳日:2021-03-08 14:34:11 公開日:2021-03-05
# (参考訳) 胸部X線分類のための自己制御深部畳み込みニューラルネットワーク [全文訳有]

Self-supervised deep convolutional neural network for chest X-ray classification ( http://arxiv.org/abs/2103.03055v2 )

ライセンス: CC BY 4.0
Matej Gazda, Jakub Gazda, Jan Plavka, Peter Drotar(参考訳) 胸部X線撮影は、診断決定を行うための重要な情報を伝える比較的安価で広く利用可能な医療手順です。 胸部x線は肺炎や最近のcovid-19などの呼吸器疾患の診断によく用いられる。 本論文では,ラベルのない胸部X線データセット上に予め訓練された自己監視型ディープニューラルネットワークを提案する。 学習された表現は、呼吸器疾患の分類である下流タスクに転送される。 4つの公開データセットで得られた結果は、私たちのアプローチが大量のラベル付きトレーニングデータを必要とせずに競争結果をもたらすことを示しています。

Chest radiography is a relatively cheap, widely available medical procedure that conveys key information for making diagnostic decisions. Chest X-rays are almost always used in the diagnosis of respiratory diseases such as pneumonia or the recent COVID-19. In this paper, we propose a self-supervised deep neural network that is pretrained on an unlabeled chest X-ray dataset. The learned representations are transferred to downstream task - the classification of respiratory diseases. The results obtained on four public datasets show that our approach yields competitive results without requiring large amounts of labeled training data.
翻訳日:2021-03-08 12:57:57 公開日:2021-03-05
# (参考訳) 多発性硬化症のMR画像の構造的因果モデル [全文訳有]

A Structural Causal Model for MR Images of Multiple Sclerosis ( http://arxiv.org/abs/2103.03158v2 )

ライセンス: CC BY 4.0
Jacob C. Reinhold, Aaron Carass, Jerry L. Prince(参考訳) 精密医学は、「この患者は治療Aまたは治療Bに対してよりよく反応するだろうか? これらのタイプの質問は本質的に因果関係であり、因果推論のツール、例えば構造因果モデル(SCM)で答える必要がある。 本研究では,多発性硬化症(ms)患者の脳の人口統計情報,疾患共変量,磁気共鳴(mr)画像の相互作用をモデル化するscmを開発した。 SCMの推論は、人口動態や疾患の共変量を変更すると、脳のMR画像がどのように見えるかを示す反事実画像を生成する。 これらの画像は病気の進行をモデル化したり、共同設立者のための制御が必要な下流の画像処理タスクに使用できる。

Precision medicine involves answering counterfactual questions such as "Would this patient respond better to treatment A or treatment B?" These types of questions are causal in nature and require the tools of causal inference to be answered, e.g., with a structural causal model (SCM). In this work, we develop an SCM that models the interaction between demographic information, disease covariates, and magnetic resonance (MR) images of the brain for people with multiple sclerosis (MS). Inference in the SCM generates counterfactual images that show what an MR image of the brain would look like when demographic or disease covariates are changed. These images can be used for modeling disease progression or used for downstream image processing tasks where controlling for confounders is necessary.
翻訳日:2021-03-08 12:36:50 公開日:2021-03-05
# (参考訳) 時間的行動定位のためのマルチラベル行動依存のモデル化 [全文訳有]

Modeling Multi-Label Action Dependencies for Temporal Action Localization ( http://arxiv.org/abs/2103.03027v2 )

ライセンス: CC BY 4.0
Praveen Tirupattur, Kevin Duarte, Yogesh Rawat, Mubarak Shah(参考訳) 実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。 本研究では,映像の時間的行動ローカライゼーションの課題に対して,これらの行動関係をモデル化するアテンションベースアーキテクチャを提案する。 アクションのビデオレベルの共起を利用する以前の作品とは対照的に、我々は同時に発生するアクションと異なるタイムステップで発生するアクションの関係を区別する(すなわち)。 互いに先行する、または従うもの) これらの異なる関係をアクション依存と定義します。 本稿では,これらのアクション依存性を,新しいアテンションベースマルチラベルアクション依存性(MLAD)層でモデル化することで,アクションローカライズ性能を向上させることを提案する。 MLADレイヤは、共起アクション依存関係をモデル化するための共起アクション依存関係ブランチと、時間的アクション依存関係の2つのブランチで構成されている。 我々は,マルチラベル分類に使用される既存のメトリクスは,アクション依存のモデル化の精度を明示的に測定しないので,アクションクラス間の共起と時間依存の両方を考慮した新しいメトリクスを提案する。 実験的な評価と広範囲な分析により,f-mAPと提案した指標を用いて,マルチラベル動作ローカライゼーションベンチマーク(MultiTHUMOSとCharades)の最先端手法よりも優れた性能を示す。

Real-world videos contain many complex actions with inherent relationships between action classes. In this work, we propose an attention-based architecture that models these action relationships for the task of temporal action localization in untrimmed videos. As opposed to previous works that leverage video-level co-occurrence of actions, we distinguish the relationships between actions that occur at the same time-step and actions that occur at different time-steps (i.e. those which precede or follow each other). We define these distinct relationships as action dependencies. We propose to improve action localization performance by modeling these action dependencies in a novel attention-based Multi-Label Action Dependency (MLAD)layer. The MLAD layer consists of two branches: a Co-occurrence Dependency Branch and a Temporal Dependency Branch to model co-occurrence action dependencies and temporal action dependencies, respectively. We observe that existing metrics used for multi-label classification do not explicitly measure how well action dependencies are modeled, therefore, we propose novel metrics that consider both co-occurrence and temporal dependencies between action classes. Through empirical evaluation and extensive analysis, we show improved performance over state-of-the-art methods on multi-label action localization benchmarks(MultiTHUM OS and Charades) in terms of f-mAP and our proposed metric.
翻訳日:2021-03-08 12:18:44 公開日:2021-03-05
# (参考訳) フェデレーション学習を用いた深層学習に基づく磁気共鳴画像再構成のための多施設連携 [全文訳有]

Multi-institutional Collaborations for Improving Deep Learning-based Magnetic Resonance Image Reconstruction Using Federated Learning ( http://arxiv.org/abs/2103.02148v2 )

ライセンス: CC BY 4.0
Pengfei Guo, Puyang Wang, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel(参考訳) アンダーサンプルデータからのMR画像の高速かつ正確な再構成は,多くの臨床応用において重要である。 近年、深層学習法はMR画像の再構築に優れた性能を発揮することが示されています。 しかし,これらの手法では,高コストの取得や医療データプライバシ規制のため,収集や共有が困難である大量のデータを必要とする。 この課題を克服するために,我々は,異なる施設で利用可能なmrデータを活用しながら患者のプライバシーを保ちながら,連合学習(fl)ベースのソリューションを提案する。 しかし、FL設定でトレーニングされたモデルの一般化性は、異なるセンサー、疾患タイプ、取得プロトコルなどを持つ複数の機関で収集されたデータから得られる、ドメインシフトによって、いまだにサブ最適である。 そこで本研究では,mr画像再構成のためのクロスサイトモデリング手法を提案する。 MR画像再構成のためのFLに関する様々な知見を提供するため,広範囲な実験を行った。 提案手法は,mr画像再構成における患者のプライバシを損なうことなく多施設データを活用するための有望な方向性であることを示す。 私たちのコードはhttps://github.com/g uopengf/FLMRCMで入手できます。

Fast and accurate reconstruction of magnetic resonance (MR) images from under-sampled data is important in many clinical applications. In recent years, deep learning-based methods have been shown to produce superior performance on MR image reconstruction. However, these methods require large amounts of data which is difficult to collect and share due to the high cost of acquisition and medical data privacy regulations. In order to overcome this challenge, we propose a federated learning (FL) based solution in which we take advantage of the MR data available at different institutions while preserving patients' privacy. However, the generalizability of models trained with the FL setting can still be suboptimal due to domain shift, which results from the data collected at multiple institutions with different sensors, disease types, and acquisition protocols, etc. With the motivation of circumventing this challenge, we propose a cross-site modeling for MR image reconstruction in which the learned intermediate latent features among different source sites are aligned with the distribution of the latent features at the target site. Extensive experiments are conducted to provide various insights about FL for MR image reconstruction. Experimental results demonstrate that the proposed framework is a promising direction to utilize multi-institutional data without compromising patients' privacy for achieving improved MR image reconstruction. Our code will be available at https://github.com/g uopengf/FLMRCM.
翻訳日:2021-03-08 11:56:11 公開日:2021-03-05
# NaturalConv: マルチターントピック駆動会話に向けた中国の対話データセット

NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation ( http://arxiv.org/abs/2103.02548v2 )

ライセンス: Link先を確認
Xiaoyang Wang, Chen Li, Jianqiao Zhao, Dong Yu(参考訳) 本稿では,トピックの要素が言及され,トピックシフトがスムーズである限り,参加者が望むものを何でもチャットできる,中国のマルチターンのトピック駆動型会話データセットであるnaturalconvを提案する。 コーパスには6つのドメインから19.9kの会話があり、平均ターン数20.1の400kの発話がある。 これらの会話には、関連するトピックに関する詳細な議論、または複数のトピック間の広く自然な移行が含まれます。 どちらの方法も人間の会話には普通だと信じています。 このコーパスの研究を容易にするために、いくつかのベンチマークモデルの結果を提供する。 比較の結果,本データセットでは,背景知識やトピックを導入することで,現在のモデルでは大幅な改善が得られていないことがわかった。 したがって,提案するデータセットは,マルチターン会話システムの妥当性と自然性を評価するためのさらなる研究に適したベンチマークであるべきである。 データセットはhttps://ai.tencent.c om/ailab/nlp/dialogu e/#datasetsで入手できます。

In this paper, we propose a Chinese multi-turn topic-driven conversation dataset, NaturalConv, which allows the participants to chat anything they want as long as any element from the topic is mentioned and the topic shift is smooth. Our corpus contains 19.9K conversations from six domains, and 400K utterances with an average turn number of 20.1. These conversations contain in-depth discussions on related topics or widely natural transition between multiple topics. We believe either way is normal for human conversation. To facilitate the research on this corpus, we provide results of several benchmark models. Comparative results show that for this dataset, our current models are not able to provide significant improvement by introducing background knowledge/topic. Therefore, the proposed dataset should be a good benchmark for further research to evaluate the validity and naturalness of multi-turn conversation systems. Our dataset is available at https://ai.tencent.c om/ailab/nlp/dialogu e/#datasets.
翻訳日:2021-03-08 11:35:45 公開日:2021-03-05
# マルチアテンショナルディープフェイク検出

Multi-attentional Deepfake Detection ( http://arxiv.org/abs/2103.02406v2 )

ライセンス: Link先を確認
Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Tianyi Wei, Weiming Zhang, Nenghai Yu(参考訳) ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。 近年,このような偽コンテンツの検出方法がホットな研究テーマとなり,多くのディープフェイク検出手法が提案されている。 その多くは、ディープフェイク検出をバニラバイナリ分類問題としてモデル化している。すなわち、まずバックボーンネットワークを使用してグローバル特徴を抽出し、次にバイナリ分類器(real/fake)に送信する。 しかし、このタスクにおける実画像と偽画像の違いは、しばしば微妙で局所的であるため、このバニラソリューションは最適ではないと主張する。 本論文では, ディープフェイク検出を細かい分類問題として定式化し, 新しいマルチアテンショナルディープフェイク検出ネットワークを提案する。 具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。 さらに,このネットワークの学習の難しさに対処するために,新たな地域独立の喪失と注意喚起型データ強化戦略を導入する。 異なるデータセットに関する広範囲な実験を通じて,バニラバイナリ分類器よりも優れた手法を示し,最先端の性能を実現する。

Face forgery by deepfake is widely spread over the internet and has raised severe societal concerns. Recently, how to detect such forgery contents has become a hot research topic and many deepfake detection methods have been proposed. Most of them model deepfake detection as a vanilla binary classification problem, i.e, first use a backbone network to extract a global feature and then feed it into a binary classifier (real/fake). But since the difference between the real and fake images in this task is often subtle and local, we argue this vanilla solution is not optimal. In this paper, we instead formulate deepfake detection as a fine-grained classification problem and propose a new multi-attentional deepfake detection network. Specifically, it consists of three key components: 1) multiple spatial attention heads to make the network attend to different local parts; 2) textural feature enhancement block to zoom in the subtle artifacts in shallow features; 3) aggregate the low-level textural feature and high-level semantic features guided by the attention maps. Moreover, to address the learning difficulty of this network, we further introduce a new regional independence loss and an attention guided data augmentation strategy. Through extensive experiments on different datasets, we demonstrate the superiority of our method over the vanilla binary classifier counterparts, and achieve state-of-the-art performance.
翻訳日:2021-03-08 11:35:30 公開日:2021-03-05
# ポイントクラウド登録に関する総合調査

A comprehensive survey on point cloud registration ( http://arxiv.org/abs/2103.02690v2 )

ライセンス: Link先を確認
Xiaoshui Huang, Guofeng Mei, Jian Zhang, Rana Abbas(参考訳) 登録は2点クラウド間の変換推定問題であり、多くのコンピュータビジョンアプリケーションにおいてユニークかつ重要な役割を担っている。 最適化に基づく手法と深層学習手法の開発により、登録の堅牢性と効率が向上した。 近年,最適化法と深層学習法の組み合わせにより,性能が向上している。 しかし,最適化手法と深層学習手法の関連性はまだ不明である。 さらに,最近の3次元センサと3次元再構成技術の発展により,新たな研究方向が出現し,点間雲の整列が図られた。 本調査では,同ソースとクロスソースの両方の登録方法を含む総合的な調査を行い,最適化手法と深層学習手法の関連性を要約し,さらなる研究知見を提供する。 この調査はまた、クロスソースの課題を解決するための最先端の登録アルゴリズムを評価するための新しいベンチマークを構築している。 さらに、この調査はベンチマークデータセットを要約し、さまざまなドメインにまたがるポイントクラウド登録アプリケーションについても論じている。 最後に,この急成長分野における研究の方向性について考察する。

Registration is a transformation estimation problem between two point clouds, which has a unique and critical role in numerous computer vision applications. The developments of optimization-based methods and deep learning methods have improved registration robustness and efficiency. Recently, the combinations of optimization-based and deep learning methods have further improved performance. However, the connections between optimization-based and deep learning methods are still unclear. Moreover, with the recent development of 3D sensors and 3D reconstruction techniques, a new research direction emerges to align cross-source point clouds. This survey conducts a comprehensive survey, including both same-source and cross-source registration methods, and summarize the connections between optimization-based and deep learning methods, to provide further research insight. This survey also builds a new benchmark to evaluate the state-of-the-art registration algorithms in solving cross-source challenges. Besides, this survey summarizes the benchmark data sets and discusses point cloud registration applications across various domains. Finally, this survey proposes potential research directions in this rapidly growing field.
翻訳日:2021-03-08 11:35:04 公開日:2021-03-05
# 決定木(prindt)における予測と解釈を組み合わせた言語例

Combining Prediction and Interpretation in Decision Trees (PrInDT) -- a Linguistic Example ( http://arxiv.org/abs/2103.02336v2 )

ライセンス: Link先を確認
Claus Weihs and Sarah Buschfeld(参考訳) 本稿では,条件付き推論木とアンサンブルが言語変動のモデル化に適していることを示す。 しかし、初期の言語応用に対して、予測と解釈を組み合わせると、それらの適合性が強く向上すると主張する。 そこで本論文では,PrInDT (Prediction and Interpretation with Decision Trees) の統計的手法について紹介し,議論する。

In this paper, we show that conditional inference trees and ensembles are suitable methods for modeling linguistic variation. As against earlier linguistic applications, however, we claim that their suitability is strongly increased if we combine prediction and interpretation. To that end, we have developed a statistical method, PrInDT (Prediction and Interpretation with Decision Trees), which we introduce and discuss in the present paper.
翻訳日:2021-03-08 11:34:49 公開日:2021-03-05
# 対比ロスとグラデーションマスクによるマルチステージ生ビデオのノイズ除去

Multi-Stage Raw Video Denoising with Adversarial Loss and Gradient Mask ( http://arxiv.org/abs/2103.02861v2 )

ライセンス: Link先を確認
Avinash Paliwal, Libing Zeng and Nima Khademi Kalantari(参考訳) 本論文では,低照度下で撮影された生の映像を消音する学習手法を提案する。 まず、畳み込みニューラルネットワーク(cnn)を用いて、隣接するフレームを現在のフレームに明示的に調整することを提案する。 次に、登録されたフレームを別のCNNを使って融合し、最終識別フレームを得る。 時間的に離れたフレームを直接アライメントしないように、複数の段階でアライメントと融合の2つのプロセスを実行します。 具体的には、各段階で3つの連続入力フレームで消音処理を行い、中間消音フレームを生成し、次のステージに入力として渡します。 複数の段階で処理を行うことで、時間的に離れたフレームを直接調整することなく、隣接するフレームの情報を有効に活用することができる。 我々は,条件付き判別器を用いた対向損失を用いた多段階システムの訓練を行う。 具体的には,スムーズな領域に高周波アーティファクトを導入するのを防ぐために,ソフトグラデーションマスクに識別器を装着する。 本システムでは,時間的にコヒーレントな映像をリアルに生成できることを示す。 さらに,本手法が最先端の映像や映像を数値的および視覚的に表現する手法よりも優れていることを示す実験を行った。

In this paper, we propose a learning-based approach for denoising raw videos captured under low lighting conditions. We propose to do this by first explicitly aligning the neighboring frames to the current frame using a convolutional neural network (CNN). We then fuse the registered frames using another CNN to obtain the final denoised frame. To avoid directly aligning the temporally distant frames, we perform the two processes of alignment and fusion in multiple stages. Specifically, at each stage, we perform the denoising process on three consecutive input frames to generate the intermediate denoised frames which are then passed as the input to the next stage. By performing the process in multiple stages, we can effectively utilize the information of neighboring frames without directly aligning the temporally distant frames. We train our multi-stage system using an adversarial loss with a conditional discriminator. Specifically, we condition the discriminator on a soft gradient mask to prevent introducing high-frequency artifacts in smooth regions. We show that our system is able to produce temporally coherent videos with realistic details. Furthermore, we demonstrate through extensive experiments that our approach outperforms state-of-the-art image and video denoising methods both numerically and visually.
翻訳日:2021-03-08 11:34:40 公開日:2021-03-05
# 大規模ビデオ圧縮センシングのためのメモリ効率ネットワーク

Memory-Efficient Network for Large-scale Video Compressive Sensing ( http://arxiv.org/abs/2103.03089v2 )

ライセンス: Link先を確認
Ziheng Cheng, Bo Chen, Guanliang Liu, Hao Zhang, Ruiying Lu, Zhengjue Wang, Xin Yuan(参考訳) video snapshot compressive imaging (sci) は、2d検出器を使って1つのショットで一連のビデオフレームをキャプチャする。 基本原理は、1つの露光時間の間に異なるマスクを高速シーンに課して圧縮測定を行うというものである。 マスクの知識により、このスナップショット測定から所望の高速映像フレームを再構成するために最適化アルゴリズムやディープラーニング手法が用いられる。 残念ながら、これらの手法は良好な結果が得られるが、最適化アルゴリズムの長い実行時間やディープネットワークの巨大なトレーニングメモリ占有は、実用上のアプリケーションではそれらを妨げている。 本稿では,マルチグループ可逆3次元畳み込みニューラルネットワークに基づく大規模映像SCIのためのメモリ効率の良いネットワークを開発する。 グレースケールSCIシステムの基本モデルに加えて、我々はバイエル測定からカラービデオを直接回復するために、復号化とSCI再構築を組み合わせるためにさらに一歩進んでいます。 SCIカメラが捉えたシミュレーションと実データの両方の大規模な結果から,提案したモデルは,メモリの少ない従来モデルよりも優れており,大規模な問題に利用できることを示す。 コードはhttps://github.com/B oChenGroup/RevSCI-ne tにある。

Video snapshot compressive imaging (SCI) captures a sequence of video frames in a single shot using a 2D detector. The underlying principle is that during one exposure time, different masks are imposed on the high-speed scene to form a compressed measurement. With the knowledge of masks, optimization algorithms or deep learning methods are employed to reconstruct the desired high-speed video frames from this snapshot measurement. Unfortunately, though these methods can achieve decent results, the long running time of optimization algorithms or huge training memory occupation of deep networks still preclude them in practical applications. In this paper, we develop a memory-efficient network for large-scale video SCI based on multi-group reversible 3D convolutional neural networks. In addition to the basic model for the grayscale SCI system, we take one step further to combine demosaicing and SCI reconstruction to directly recover color video from Bayer measurements. Extensive results on both simulation and real data captured by SCI cameras demonstrate that our proposed model outperforms previous state-of-the-art with less memory and thus can be used in large-scale problems. The code is at https://github.com/B oChenGroup/RevSCI-ne t.
翻訳日:2021-03-08 11:34:21 公開日:2021-03-05