このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210424となっている論文です。

PDF登録状況(公開日: 20210424)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) データマイニングと機械学習を用いた大規模メモリ障害予測 [全文訳有]

Large-scale memory failure prediction using mcelog-based Data Mining and Machine Learning ( http://arxiv.org/abs/2105.04547v1 )

ライセンス: CC BY-SA 4.0
Chengdong Yao(参考訳) データセンタでは、メモリ障害による予期せぬダウンタイムは、サーバの安定性と、ビジネスに害を与える情報技術基盤全体の低下につながる可能性がある。 したがって、メモリ障害を事前に正確に予測できるかどうかが、データセンターで研究すべき最も重要な課題の1つとなっている。 しかし、生産システムにおけるメモリ障害予測には、巨大なデータノイズや正と負のサンプル間の極端な不均衡といった技術的問題を解く必要があり、同時にアルゴリズムの長期的な安定性を確保する必要がある。 本稿では、一般的に使用されるスキルとそれらがもたらす改善を比較要約する。 私たちが提案した1つのモデルは、第25回太平洋アジア知識発見およびデータマイニング会議に属する第2回Alibaba Cloud AIOpsコンペティションでトップ15を獲得した。

In the data center, unexpected downtime caused by memory failures can lead to a decline in the stability of the server and even the entire information technology infrastructure, which harms the business. Therefore, whether the memory failure can be accurately predicted in advance has become one of the most important issues to be studied in the data center. However, for the memory failure prediction in the production system, it is necessary to solve technical problems such as huge data noise and extreme imbalance between positive and negative samples, and at the same time ensure the long-term stability of the algorithm. This paper compares and summarizes some commonly used skills and the improvement they can bring. The single model we proposed won the top 15th in the 2nd Alibaba Cloud AIOps Competition belonging to the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining.
翻訳日:2021-05-14 06:47:56 公開日:2021-04-24
# 回答選択のための注意機構を有するマルチサイズニューラルネットワーク

A Multi-Size Neural Network with Attention Mechanism for Answer Selection ( http://arxiv.org/abs/2105.03278v1 )

ライセンス: Link先を確認
Jie Huang(参考訳) セマンティックマッチングは、ある質問に対する正しい回答を候補回答プールから選択することを目的とした回答選択タスクにおいて重要なものである。 有用な方法は、ニューラルネットワークを用いて、一対の文からの情報が相互に表現の計算に影響を与えるように文表現を生成することである。 本研究では,アテンション機構を備えたマルチサイズニューラルネットワーク(AM-MSNN)を解答選択タスクに導入する。 このアーキテクチャは、単一層cnnや多層cnnと比較してフィルタのサイズが異なるため、言語粒度を並列に捉えることができる。 一方、注意機構によって文表現を拡張し、様々な種類の質問についてより多くの情報を含んでいる。 回答選択の3つのベンチマークタスクに関する実証研究は、すべてのベンチマークにおける提案モデルの有効性と、その競合に対する優位性を示している。 実験の結果,(1)多層ニューラルネットワーク(MSNN)は単層/多層CNNよりも粒度の異なる抽象的特徴を捉えるのに有用な手法であり,(2)注目機構(AM)はより情報的表現を導き出すためのより良い戦略であり,(3)AM-MSNNは今のところの回答選択タスクの優れたアーキテクチャであることがわかった。

Semantic matching is of central significance to the answer selection task which aims to select correct answers for a given question from a candidate answer pool. A useful method is to employ neural networks with attention to generate sentences representations in a way that information from pair sentences can mutually influence the computation of representations. In this work, an effective architecture,multi-s ize neural network with attention mechanism (AM-MSNN),is introduced into the answer selection task. This architecture captures more levels of language granularities in parallel, because of the various sizes of filters comparing with single-layer CNN and multi-layer CNNs. Meanwhile it extends the sentence representations by attention mechanism, thus containing more information for different types of questions. The empirical study on three various benchmark tasks of answer selection demonstrates the efficacy of the proposed model in all the benchmarks and its superiority over competitors. The experimental results show that (1) multi-size neural network (MSNN) is a more useful method to capture abstract features on different levels of granularities than single/multi-layer CNNs; (2) the attention mechanism (AM) is a better strategy to derive more informative representations; (3) AM-MSNN is a better architecture for the answer selection task for the moment.
翻訳日:2021-05-11 08:35:07 公開日:2021-04-24
# (参考訳) 6Gネットワークのためのワイヤレスフェデレーションラーニング(WFL) -その1:研究課題と今後の展望 [全文訳有]

Wireless Federated Learning (WFL) for 6G Networks -- Part I: Research Challenges and Future Trends ( http://arxiv.org/abs/2105.00842v1 )

ライセンス: CC BY 4.0
Pavlos S. Bouzinis, Panagiotis D. Diamantoulakis, George K. Karagiannidis(参考訳) 従来の機械学習技術は集中的に行われる。 近年、発生した無線データの量、プライバシの懸念、ワイヤレス端末のコンピューティング能力の増大により、ワイヤレスフェデレートラーニング(Wireless Federated Learning, WFL)と呼ばれる有望な分散ソリューションが出現している。 本稿では,第1報において,第6世代無線ネットワーク (6g) におけるwflの適用について述べる。 WFLの重要概念を分析した後、無線(またはモバイル通信)環境によって課されるWFLの中核的課題について論じる。 最後に,将来的な無線ネットワークへのFLの構成的統合を目指して,WFLの今後の方向性に光を当てた。

Conventional machine learning techniques are conducted in a centralized manner. Recently, the massive volume of generated wireless data, the privacy concerns and the increasing computing capabilities of wireless end-devices have led to the emergence of a promising decentralized solution, termed as Wireless Federated Learning (WFL). In this first of the two parts paper, we present the application of WFL in the sixth generation of wireless networks (6G), which is envisioned to be an integrated communication and computing platform. After analyzing the key concepts of WFL, we discuss the core challenges of WFL imposed by the wireless (or mobile communication) environment. Finally, we shed light to the future directions of WFL, aiming to compose a constructive integration of FL into the future wireless networks.
翻訳日:2021-05-06 07:03:09 公開日:2021-04-24
# 貯留層コンピュータによるハミルトン力学の学習

Learning Hamiltonian dynamics by reservoir computer ( http://arxiv.org/abs/2104.14474v1 )

ライセンス: Link先を確認
Han Zhang, Huawei Fan, Liang Wang, and Xingang Wang(参考訳) 限られた数のパラメータの時系列からハミルトニアン系のカム動力学図を再構成することは、非線形科学において、特に系の力学を支配するハミルトニアンが未知の場合には、顕著な問題である。 本稿では,この課題に対して,貯水池コンピュータ (rc) を意識した機械学習アプローチによって解決できることを実証する。 具体的には、ハミルトンの運動方程式に関する事前の知識がなければ、訓練されたrcはシステムの状態の短期的発展を予測できるだけでなく、システムのダイナミクスの長期的エルゴード特性を再現できることを示した。 さらに,パラメータ対応rcのアーキテクチャにより,一握りのパラメータで取得した時系列で訓練されたrcは,制御パラメータを外部にチューニングすることで,kamダイナミクスダイアグラム全体を高精度に再構成できることを示した。 学習技術の有効性と効率性は、2つの古典的非線形ハミルトン系、すなわち二重振り子振動子と標準写像で実証される。 我々の研究は、複雑な力学系として、RCはハミルトニアンのデータから学習できることを示している。

Reconstructing the KAM dynamics diagram of Hamiltonian system from the time series of a limited number of parameters is an outstanding question in nonlinear science, especially when the Hamiltonian governing the system dynamics are unknown. Here, we demonstrate that this question can be addressed by the machine learning approach knowing as reservoir computer (RC). Specifically, we show that without prior knowledge about the Hamilton's equations of motion, the trained RC is able to not only predict the short-term evolution of the system state, but also replicate the long-term ergodic properties of the system dynamics. Furthermore, by the architecture of parameter-aware RC, we also show that the RC trained by the time series acquired at a handful parameters is able to reconstruct the entire KAM dynamics diagram with a high precision by tuning a control parameter externally. The feasibility and efficiency of the learning techniques are demonstrated in two classical nonlinear Hamiltonian systems, namely the double-pendulum oscillator and the standard map. Our study indicates that, as a complex dynamical system, RC is able to learn from data the Hamiltonian.
翻訳日:2021-05-03 19:48:54 公開日:2021-04-24
# (参考訳) グラフニューラルネットワークを用いたスマートグリッドにおけるステルス偽データインジェクション攻撃の検出と局在化 [全文訳有]

Joint Detection and Localization of Stealth False Data Injection Attacks in Smart Grids using Graph Neural Networks ( http://arxiv.org/abs/2104.11846v1 )

ライセンス: CC BY 4.0
Osman Boyaci, Mohammad Rasoul Narimani, Katherine Davis, Muhammad Ismail, Thomas J Overbye, and Erchin Serpedin(参考訳) 電力システムではそのような攻撃が頻繁に発生するため、偽データ注入攻撃(fdia)は研究の活発な道筋になっている。 これらの攻撃の検出とは対照的に、グリッドの攻撃部隊を特定することには注意が払われていない。 この目的のために、現代の電力網におけるステルスFDIAの検出とローカライズを共同研究する。 本稿では,電力系統の固有グラフトポロジと,スマートメータのデータ空間相関を探索し,グラフニューラルネットワーク(GNN)に基づくFDIAの存在と位置の同定手法を提案する。 提案手法は自己回帰移動平均 (arma) 型グラフ畳み込みフィルタを活用し,chebyshev のような多項式型グラフ畳み込みフィルタと比較して,ノイズロバスト性と周波数応答の柔軟性を向上させる。 我々の知る限りでは、電力系統におけるFDIAを自動的に検出し、ローカライズするGNNに基づく最初の作品である。 広範なシミュレーションと可視化により,提案手法は異なるieeeテストシステムにおいて,検出と局所化の両方において利用可能な手法よりも優れていることが示された。 これにより、パワーグリッド内の目標領域を識別でき、攻撃がグリッドに衝突する前に予防措置を講じることができる。

False data injection attacks (FDIA) are becoming an active avenue of research as such attacks are more frequently encountered in power systems. Contrary to the detection of these attacks, less attention has been paid to identifying the attacked units of the grid. To this end, this work jointly studies detecting and localizing the stealth FDIA in modern power grids. Exploiting the inherent graph topology of power systems as well as the spatial correlations of smart meters' data, this paper proposes an approach based on the graph neural network (GNN) to identify the presence and location of the FDIA. The proposed approach leverages the auto-regressive moving average (ARMA) type graph convolutional filters which offer better noise robustness and frequency response flexibility compared to the polynomial type graph convolutional filters such as Chebyshev. To the best of our knowledge, this is the first work based on GNN that automatically detects and localizes FDIA in power systems. Extensive simulations and visualizations show that the proposed approach outperforms the available methods in both detection and localization FDIA for different IEEE test systems. Thus, the targeted areas in power grids can be identified and preventive actions can be taken before the attack impacts the grid.
翻訳日:2021-04-29 04:52:24 公開日:2021-04-24
# (参考訳) すべてのモバイルネットは貧弱か? マルチスケール分布動力学の視点を通した奥行き分離可能な畳み込みネットワークに対する量子化の影響に関する考察 [全文訳有]

Do All MobileNets Quantize Poorly? Gaining Insights into the Effect of Quantization on Depthwise Separable Convolutional Networks Through the Eyes of Multi-scale Distributional Dynamics ( http://arxiv.org/abs/2104.11849v1 )

ライセンス: CC BY 4.0
Stone Yun and Alexander Wong(参考訳) モバイルAI”革命が拡大を続けるにつれ、エッジデプロイされたディープニューラルネットワークの振る舞いを理解する必要も出てくる。 特にmobilenetsは、モバイル向けのディープ畳み込みニューラルネットワーク(cnn)のgo-toファミリーである。 しかし、訓練後の量子化では精度が著しく低下することが多い。 研究はこの課題に対処するための量子化対応トレーニングやその他の手法を導入しているが、MobileNets(およびDWSCNN)が他のCNNアーキテクチャと比べて量子化に乏しい理由については限定的な理解がある。 この現象についてより深い知見を得るため、我々は異なる戦略を採り、より小さなDWSCNNと通常のCNNの集合であるMobileNet-V1のマルチスケール分布ダイナミクスについて研究する。 具体的には、情報伝達層から層へと伝播する重みと活性化分布ダイナミクスに対する量子化の影響と、ネットワークレベルでの分布力学の全体的な変化について検討する。 この微粒化分析により,DWSCNNのチャネルワイド分布と層ワイド分布の「分布ミスマッチ」が明らかとなり,情報伝達における量子化劣化と分布シフトが増大した。 さらに, アクティベーション量子化誤差の解析により, 通常のCNNと比較して, DWSCNNの量子化誤差の蓄積が大きいことが示された。 このような洞察が、分散ダイナミクスの変化を低減し、モバイルのトレーニング後の量子化を改善するための革新的な戦略に繋がることを期待している。

As the "Mobile AI" revolution continues to grow, so does the need to understand the behaviour of edge-deployed deep neural networks. In particular, MobileNets are the go-to family of deep convolutional neural networks (CNN) for mobile. However, they often have significant accuracy degradation under post-training quantization. While studies have introduced quantization-aware training and other methods to tackle this challenge, there is limited understanding into why MobileNets (and potentially depthwise-separable CNNs (DWSCNN) in general) quantize so poorly compared to other CNN architectures. Motivated to gain deeper insights into this phenomenon, we take a different strategy and study the multi-scale distributional dynamics of MobileNet-V1, a set of smaller DWSCNNs, and regular CNNs. Specifically, we investigate the impact of quantization on the weight and activation distributional dynamics as information propagates from layer to layer, as well as overall changes in distributional dynamics at the network level. This fine-grained analysis revealed significant dynamic range fluctuations and a "distributional mismatch" between channelwise and layerwise distributions in DWSCNNs that lead to increasing quantized degradation and distributional shift during information propagation. Furthermore, analysis of the activation quantization errors show that there is greater quantization error accumulation in DWSCNN compared to regular CNNs. The hope is that such insights can lead to innovative strategies for reducing such distributional dynamics changes and improve post-training quantization for mobile.
翻訳日:2021-04-29 04:33:42 公開日:2021-04-24
# (参考訳) Music Embedding: 音楽理論を計算音楽アプリケーションに組み込むツール [全文訳有]

Music Embedding: A Tool for Incorporating Music Theory into Computational Music Applications ( http://arxiv.org/abs/2104.11880v1 )

ライセンス: CC BY 4.0
SeyyedPooya HekmatiAthar and Mohd Anwar(参考訳) デジタル技術の進歩により、研究者は様々な計算音楽アプリケーションの開発が可能になった。 このようなアプリケーションは、音楽に関するデータをキャプチャ、処理、生成するために必要です。 したがって、音楽理論と簡潔な方法で音楽をデジタル的に表現することが重要である。 既存の音楽表現法は音楽理論の活用という点では効果がない。 本稿では,音楽理論に基づくオープンソース表現ツールを開発することにより,音楽理論と計算音楽の融合を解消する。 幅広い使用事例を通して,発達した音楽の埋め込みの有用性を示すため,古典音楽の楽曲の分析を行う。

Advancements in the digital technologies have enabled researchers to develop a variety of Computational Music applications. Such applications are required to capture, process, and generate data related to music. Therefore, it is important to digitally represent music in a music theoretic and concise manner. Existing approaches for representing music are ineffective in terms of utilizing music theory. In this paper, we address the disjoint of music theory and computational music by developing an opensource representation tool based on music theory. Through the wide range of use cases, we run an analysis on the classical music pieces to show the usefulness of the developed music embedding.
翻訳日:2021-04-29 04:16:38 公開日:2021-04-24
# (参考訳) 白い箱でcnnチャンネルの刈り込みを実行する [全文訳有]

Carrying out CNN Channel Pruning in a White Box ( http://arxiv.org/abs/2104.11883v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Mingbao Lin, Chia-Wen Lin, Jie Chen, Feiyue Huang, Yongjian Wu, Yonghong Tian, Rongrong Ji(参考訳) Channel Pruningは、CNNの圧縮に長い間採用されており、全体的な計算を大幅に削減している。 先行研究では、説明不能な方法でチャネルプルーニングを実装しており、各チャネルの内部的な影響を考慮せず、最終分類エラーを減少させる傾向がある。 本稿では,ホワイトボックスでチャネルの刈り込みを行う。 異なるチャネルによって活性化される特徴写像の深い可視化を通して、異なるチャネルが画像分類における異なるカテゴリに様々な寄与があることを観察する。 これにより、ほとんどのカテゴリに寄与するチャネルを保存できるようになりました。 具体的には,異なるカテゴリーに対する各チャネルの貢献をモデル化するために,動的学習方法w.r.tで実装された各チャネルのクラスワイズマスクを開発する。 入力画像のカテゴリ。 学習したクラスワイズマスクに基づき, カテゴリー識別の少ないチャンネルを削除するためのグローバル投票機構を実施。 最後に,プルーニングモデルの性能を回復するための微調整処理を行う。 我々の知る限り、CNNの解釈可能性理論がチャネルプルーニングを導くのはこれが初めてである。 広範な実験によって、我々のホワイトボックスが最先端技術よりも優れていることが示されました。 例えば、CIFAR-10では65.23%のFLOPを削減し、ResNet-110の精度は0.62%向上した。 ILSVRC-2012では、White-Boxは45.6%のFLOPを削減し、ResNet-50のトップ1の精度は0.83%しか失われなかった。 コード、トレーニングログ、prunedモデルは匿名でhttps://github.com/z yxxmu/white-boxにある。

Channel Pruning has been long adopted for compressing CNNs, which significantly reduces the overall computation. Prior works implement channel pruning in an unexplainable manner, which tends to reduce the final classification errors while failing to consider the internal influence of each channel. In this paper, we conduct channel pruning in a white box. Through deep visualization of feature maps activated by different channels, we observe that different channels have a varying contribution to different categories in image classification. Inspired by this, we choose to preserve channels contributing to most categories. Specifically, to model the contribution of each channel to differentiating categories, we develop a class-wise mask for each channel, implemented in a dynamic training manner w.r.t. the input image's category. On the basis of the learned class-wise mask, we perform a global voting mechanism to remove channels with less category discrimination. Lastly, a fine-tuning process is conducted to recover the performance of the pruned model. To our best knowledge, it is the first time that CNN interpretability theory is considered to guide channel pruning. Extensive experiments demonstrate the superiority of our White-Box over many state-of-the-arts. For instance, on CIFAR-10, it reduces 65.23% FLOPs with even 0.62% accuracy improvement for ResNet-110. On ILSVRC-2012, White-Box achieves a 45.6% FLOPs reduction with only a small loss of 0.83% in the top-1 accuracy for ResNet-50. Code, training logs and pruned models are anonymously at https://github.com/z yxxmu/White-Box.
翻訳日:2021-04-29 04:09:57 公開日:2021-04-24
# (参考訳) 現代的深層学習に基づく物体検出モデルの検討 [全文訳有]

A Survey of Modern Deep Learning based Object Detection Models ( http://arxiv.org/abs/2104.11892v1 )

ライセンス: CC BY 4.0
Syed Sahil Abbas Zaidi, Mohammad Samar Ansari, Asra Aslam, Nadia Kanwal, Mamoona Asghar, and Brian Lee(参考訳) オブジェクト検出は、画像やビデオ内のオブジェクトの分類とローカライゼーションのタスクである。 近年は広く普及しているため、広く普及している。 本稿では,ディープラーニングに基づく物体検出装置の最近の進歩について概説する。 検出に使用されるベンチマークデータセットと評価指標の簡潔な概要と、認識タスクで使用される著名なバックボーンアーキテクチャも提供される。 また、エッジデバイスで使用される現代的な軽量分類モデルもカバーしている。 最後に、これらのアーキテクチャのパフォーマンスを複数のメトリクスで比較する。

Object Detection is the task of classification and localization of objects in an image or video. It has gained prominence in recent years due to its widespread applications. This article surveys recent developments in deep learning based object detectors. Concise overview of benchmark datasets and evaluation metrics used in detection is also provided along with some of the prominent backbone architectures used in recognition tasks. It also covers contemporary lightweight classification models used on edge devices. Lastly, we compare the performances of these architectures on multiple metrics.
翻訳日:2021-04-29 03:54:42 公開日:2021-04-24
# (参考訳) 軽度過パラメータニューラルネットワークにおける小さなテスト誤差の達成

Achieving Small Test Error in Mildly Overparameterized Neural Networks ( http://arxiv.org/abs/2104.11895v1 )

ライセンス: CC BY 4.0
Shiyu Liang, Ruoyu Sun and R. Srikant(参考訳) 過パラメータニューラルネットに関する最近の理論研究は、最適化と一般化の2つの側面に焦点を当てている。 最適化と一般化を一緒に研究する多くの既存の研究は、ニューラルネットワークカーネルに基づいており、非常に大きな幅を必要とする。 本研究では,2層過度パラメータ化ReLUネットワークを用いた二層分類問題に対して,多項式時間におけるテスト誤差の小さい点を見つけることができるか? まず、明示的な正規化を伴う損失関数のランドスケープには以下の性質があることを示した。 次に、畳み込みニューラルネットに対して、これらの点の1つを多項式時間(入力次元とデータ点数)で見つけるアルゴリズムが存在することを証明した。 さらに、完全に接続されたニューラルネットワークに対して、データ分布を仮定して多項式時間アルゴリズムが存在することを証明した。

Recent theoretical works on over-parameterized neural nets have focused on two aspects: optimization and generalization. Many existing works that study optimization and generalization together are based on neural tangent kernel and require a very large width. In this work, we are interested in the following question: for a binary classification problem with two-layer mildly over-parameterized ReLU network, can we find a point with small test error in polynomial time? We first show that the landscape of loss functions with explicit regularization has the following property: all local minima and certain other points which are only stationary in certain directions achieve small test error. We then prove that for convolutional neural nets, there is an algorithm which finds one of these points in polynomial time (in the input dimension and the number of data points). In addition, we prove that for a fully connected neural net, with an additional assumption on the data distribution, there is a polynomial time algorithm.
翻訳日:2021-04-29 03:23:40 公開日:2021-04-24
# (参考訳) ask & explore: 好奇心駆動探索のための根拠付き質問応答 [全文訳有]

Ask & Explore: Grounded Question Answering for Curiosity-Driven Exploration ( http://arxiv.org/abs/2104.11902v1 )

ライセンス: CC BY 4.0
Jivat Neet Kaur, Yiding Jiang, Paul Pu Liang(参考訳) エージェントに対する外在的な報酬が極めて希薄な現実のシナリオでは、エージェントが環境を探索し、その目標を達成するために情報を得ることのできる本質的な報酬を提供する有用な概念として好奇心が出現している。 多くの疎外的なタスクで強いパフォーマンスを誇っているにもかかわらず、既存の好奇心のアプローチは状態遷移の過度な全体論的見解に依存しており、環境の特定の側面の構造化された理解を許していない。 本稿では,環境に関する質問をエージェントに促し,これらの質問に対する回答がいつ変わるのかを問うことで,根拠付き質問応答に基づく好奇心を定式化する。 自然言語の質問は,物体の物理的特性や他の物体との空間的関係などの環境に関する特定の知識を明らかにすることを促進し,スパース・リワードの課題をより効率的に解決するための貴重な好奇心の報酬となることを示す。

In many real-world scenarios where extrinsic rewards to the agent are extremely sparse, curiosity has emerged as a useful concept providing intrinsic rewards that enable the agent to explore its environment and acquire information to achieve its goals. Despite their strong performance on many sparse-reward tasks, existing curiosity approaches rely on an overly holistic view of state transitions, and do not allow for a structured understanding of specific aspects of the environment. In this paper, we formulate curiosity based on grounded question answering by encouraging the agent to ask questions about the environment and be curious when the answers to these questions change. We show that natural language questions encourage the agent to uncover specific knowledge about their environment such as the physical properties of objects as well as their spatial relationships with other objects, which serve as valuable curiosity rewards to solve sparse-reward tasks more efficiently.
翻訳日:2021-04-29 03:22:35 公開日:2021-04-24
# (参考訳) 制約誘導強化学習:エージェント環境相互作用の強化 [全文訳有]

Constraint-Guided Reinforcement Learning: Augmenting the Agent-Environment-In teraction ( http://arxiv.org/abs/2104.11918v1 )

ライセンス: CC BY 4.0
Helge Spieker(参考訳) 強化学習(rl)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。 それでもエージェントのトレーニングはデータ集約的であり、学習された振る舞いが安全であり、現実のシナリオにおける実際のデプロイに制限がある環境のルールに違反していないという保証はない。 本稿では,RLエージェントを安全な動作に導くために,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントの工学について論じる。 制約セット内では、RLエージェントは、与えられた問題を解決する効果が妨げられないように適応および探索が自由である。 しかし、RLエージェントが制約によって定義された空間を離れると、外部モデルは確実に動作するためのガイダンスを提供することができる。 我々は,rlプロセス内の制約誘導のための統合ポイントについて検討し,厳密な制約付きカードゲームと追加のコンビネート・サブゴールを持つグリッド・ワールド環境という2つのケーススタディで実験を行う。 以上の結果から,制約ガイダンスは信頼性の向上と安全性の向上,およびトレーニングの高速化をもたらすことが示唆された。

Reinforcement Learning (RL) agents have great successes in solving tasks with large observation and action spaces from limited feedback. Still, training the agents is data-intensive and there are no guarantees that the learned behavior is safe and does not violate rules of the environment, which has limitations for the practical deployment in real-world scenarios. This paper discusses the engineering of reliable agents via the integration of deep RL with constraint-based augmentation models to guide the RL agent towards safe behavior. Within the constraints set, the RL agent is free to adapt and explore, such that its effectiveness to solve the given problem is not hindered. However, once the RL agent leaves the space defined by the constraints, the outside models can provide guidance to still work reliably. We discuss integration points for constraint guidance within the RL process and perform experiments on two case studies: a strictly constrained card game and a grid world environment with additional combinatorial subgoals. Our results show that constraint-guidance does both provide reliability improvements and safer behavior, as well as accelerated training.
翻訳日:2021-04-29 03:14:29 公開日:2021-04-24
# (参考訳) 幅移動:(in)幅最適化のばらつきについて [全文訳有]

Width Transfer: On the (In)variance of Width Optimization ( http://arxiv.org/abs/2104.13255v1 )

ライセンス: CC BY 4.0
Ting-Wu Chin, Diana Marculescu, Ari S. Morcos(参考訳) CNNの異なるレイヤのチャネルカウントを最適化することは、テスト時のCNNの効率を改善する上で非常に有望である。 しかし、これらの手法はしばしば大きな計算オーバーヘッドをもたらす(例えば、標準訓練の2倍のFLOP)。 このオーバーヘッドを最小限にすれば、トレーニングを大幅にスピードアップできる。 本研究では,最適化された幅(あるいはチャネル数)がサイズや深さにわたって規則的であるという仮定を利用するワイド転送を提案する。 幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。 具体的には、imagenetのtop-1精度を損なうことなく、最大320倍の幅最適化オーバーヘッドを削減でき、初期トレーニングに対して幅最適化の追加コストを無視できる。 この結果から,ネットワークアーキテクチャやトレーニングデータの様々な側面に対して,より高精度な幅最適化を実現するための効率的な手法が提案されている。

Optimizing the channel counts for different layers of a CNN has shown great promise in improving the efficiency of CNNs at test-time. However, these methods often introduce large computational overhead (e.g., an additional 2x FLOPs of standard training). Minimizing this overhead could therefore significantly speed up training. In this work, we propose width transfer, a technique that harnesses the assumptions that the optimized widths (or channel counts) are regular across sizes and depths. We show that width transfer works well across various width optimization algorithms and networks. Specifically, we can achieve up to 320x reduction in width optimization overhead without compromising the top-1 accuracy on ImageNet, making the additional cost of width optimization negligible relative to initial training. Our findings not only suggest an efficient way to conduct width optimization but also highlight that the widths that lead to better accuracy are invariant to various aspects of network architectures and training data.
翻訳日:2021-04-29 03:00:50 公開日:2021-04-24
# オンライン学習におけるデータ中毒攻撃に対する影響に基づく防御

Influence Based Defense Against Data Poisoning Attacks in Online Learning ( http://arxiv.org/abs/2104.13230v1 )

ライセンス: Link先を確認
Sanjay Seetharaman, Shubham Malaviya, Rosni KV, Manish Shukla, Sachin Lodha(参考訳) データ中毒は、攻撃者が少数のデータを操作して機械学習モデルの性能を低下させる訓練データに対する敵対攻撃の一種である。 したがって、トレーニングデータの外部データソースに依存するアプリケーションは、リスクが著しく高くなる。 このような攻撃による脅威を軽減するための防御機構がいくつか知られている。 例えば、データの衛生化は、学習者がトレーニングインスタンスのセットから十分な距離にあるこれらのデータポイントを拒否する一般的な防御メカニズムである。 データ中毒防御に関する以前の作業は、主にオフライン設定に重点を置いており、分析のためにすべてのデータが利用できると仮定されている。 データポイントが順次到着するオンライン学習の防御策は、同様の関心を集めていない。 本研究では,オンライン環境における学習者のモデル上での有毒トレーニングデータによる劣化を最小限に抑える防衛機構を提案する。 提案手法は,ロバスト統計学における古典的手法である影響関数を利用する。 さらに,有毒なデータポイントのいくつかをフィルタリングする既存のデータ衛生手法を補足する。 オンライン学習者に対する複数のデータセットおよび複数の攻撃戦略に対する防衛機構の有効性を検討した。

Data poisoning is a type of adversarial attack on training data where an attacker manipulates a fraction of data to degrade the performance of machine learning model. Therefore, applications that rely on external data-sources for training data are at a significantly higher risk. There are several known defensive mechanisms that can help in mitigating the threat from such attacks. For example, data sanitization is a popular defensive mechanism wherein the learner rejects those data points that are sufficiently far from the set of training instances. Prior work on data poisoning defense primarily focused on offline setting, wherein all the data is assumed to be available for analysis. Defensive measures for online learning, where data points arrive sequentially, have not garnered similar interest. In this work, we propose a defense mechanism to minimize the degradation caused by the poisoned training data on a learner's model in an online setup. Our proposed method utilizes an influence function which is a classic technique in robust statistics. Further, we supplement it with the existing data sanitization methods for filtering out some of the poisoned data points. We study the effectiveness of our defense mechanism on multiple datasets and across multiple attack strategies against an online learner.
翻訳日:2021-04-28 13:35:34 公開日:2021-04-24
# 隠れた共通原因の存在下での量子因果推論:-エントロピー的アプローチ

Quantum Causal Inference in the Presence of Hidden Common Causes: an Entropic Approach ( http://arxiv.org/abs/2104.13227v1 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Vaneet Aggarwal, Zubin Jacob(参考訳) 量子因果性(quantum causality)は、量子系の理解を大幅に前進させる可能性を持つ新しい研究分野である。 量子因果関係における最も重要な問題の1つは、相関関係が因果関係を意味するものではないというこの顕著なアフォリズムに関連している。 既存の因果推論技術の量子領域への直接的一般化は、重ね合わせと絡み合いのため不可能である。 エントロピック原理を利用して量子情報科学と因果推論を融合する新たな理論的枠組みを提案した。 この目的のために,条件密度行列の概念を活用し,量子システムにおける潜在共起者(共通の原因)の存在下で因果関係を推測するスケーラブルなアルゴリズム手法を開発した。 本稿では,提案手法を量子ノイズリンク上でメッセージ送信者を特定する実験的なシナリオに適用し,ノイズ前の入力が雑音出力の原因であることを検証した。 また,共役確率分布ではなく密度行列を用いて変数間の量子依存を利用して,変数が古典的であっても古典的因果推論の結果より優れていることを示す。 したがって、提案手法は古典的および量子因果推論を原則的に統一する。 この合成量子データセットでの推論の成功は、将来のマルチノード量子ネットワークにおける悪意ある活動の起因者を特定する基礎となる。

Quantum causality is an emerging field of study which has the potential to greatly advance our understanding of quantum systems. One of the most important problems in quantum causality is linked to this prominent aphorism that states correlation does not mean causation. A direct generalization of the existing causal inference techniques to the quantum domain is not possible due to superposition and entanglement. We put forth a new theoretical framework for merging quantum information science and causal inference by exploiting entropic principles. For this purpose, we leverage the concept of conditional density matrices to develop a scalable algorithmic approach for inferring causality in the presence of latent confounders (common causes) in quantum systems. We apply our proposed framework to an experimentally relevant scenario of identifying message senders on quantum noisy links, where it is validated that the input before noise as a latent confounder is the cause of the noisy outputs. We also demonstrate that the proposed approach outperforms the results of classical causal inference even when the variables are classical by exploiting quantum dependence between variables through density matrices rather than joint probability distributions. Thus, the proposed approach unifies classical and quantum causal inference in a principled way. This successful inference on a synthetic quantum dataset can lay the foundations of identifying originators of malicious activity on future multi-node quantum networks.
翻訳日:2021-04-28 13:19:09 公開日:2021-04-24
# ソーシャルメディア上での平和なトラクタ追跡 --2021年赤砦暴動のXAI対応分析

Tracking Peaceful Tractors on Social Media -- XAI-enabled analysis of Red Fort Riots 2021 ( http://arxiv.org/abs/2104.13352v1 )

ライセンス: Link先を確認
Ajay Agarwal(参考訳) 2021年1月26日、インドは人口統計上の予想外の農民からの恥辱を目撃した。 農夫の擬似愛国的な暴徒が首都デリーを襲い、国民の誇りであるレッドフォートを破壊した。 事件の後に行われた調査は、そのような事件に繋がるソーシャルメディア・トレイルの存在を明らかにした。 その結果、このパスをソーシャルメディア分析のためにアーカイブすることが不可欠となり、また、このイベントにおける誤報やフェイクニュースが果たす役割を可視化するためにも必要となった。 本稿では,このイベント前後に投稿された約0.05万ツイートを含むトラクタ2twitterデータセットを提案する。 また、データセットを説明可能なAI MLモデルでベンチマークし、それぞれのツイートを、偽情報、偽情報、意見の3つのカテゴリに分類する。

On 26 January 2021, India witnessed a national embarrassment from the demographic least expected from - farmers. People across the nation watched in horror as a pseudo-patriotic mob of farmers stormed capital Delhi and vandalized the national pride- Red Fort. Investigations that followed the event revealed the existence of a social media trail that led to the likes of such an event. Consequently, it became essential and necessary to archive this trail for social media analysis - not only to understand the bread-crumbs that are dispersed across the trail but also to visualize the role played by misinformation and fake news in this event. In this paper, we propose the tractor2twitter dataset which contains around 0.05 million tweets that were posted before, during, and after this event. Also, we benchmark our dataset with an Explainable AI ML model for classification of each tweet into either of the three categories - disinformation, misinformation, and opinion.
翻訳日:2021-04-28 13:18:07 公開日:2021-04-24
# (参考訳) 分岐結合型MDDソルバのフィルタリング改善(拡張) [全文訳有]

Improving the filtering of Branch-And-Bound MDD solver (extended) ( http://arxiv.org/abs/2104.11951v1 )

ライセンス: CC BY 4.0
Xavier Gillard, Vianney Copp\'e, Pierre Schaus, Andr\'e Augusto Cire(参考訳) 本稿では,マルチ値決定ダイアグラム(mdd)に基づく制約最適化ソルバの効率を高めるための2つのプルーニング手法を提案し,評価する。 Bergmanらによって提案されたブランチ・アンド・バウンド・フレームワークを採用している。 2016年、動的プログラムを最適に解く。 特に,本論文では,局所的バウンド (LocB) と粗大な上行プルーニング (RUB) の有効性について述べる。 LocBは、興味深いノードの探索を避けるために、近似MDD構造を利用する新しい効果的なルールである。 rubは、有界幅mddの開発中に探索空間を減らすための規則である。 最大独立セット問題(MISP)、最大カット問題(MCP)、最大2サスティフィビリティ問題(MAX2SAT)、旅行セールスマン問題(TSPTW)について行った実験は、粗アップパーバウンドおよび局所リバウンドプルーニングがMDDとの分岐とバウンドに基づく最適化問題に大きな影響を与えることを示す証拠である。 特に、rubは優れた結果をもたらすが、モデルを定義するのに多少の労力を要することを示している。 また、locbはユーザから提供された情報を必要とせずに、自動的に大幅な改善を提供する。 最後に,ラフアップパーバウンドとローカルバウンドプルーニングは相互排他的ではないことも示し,それらの組み合わせによる利益は,各手法の使用による個別の利益を上回っている。

This paper presents and evaluates two pruning techniques to reinforce the efficiency of constraint optimization solvers based on multi-valued decision-diagrams (MDD). It adopts the branch-and-bound framework proposed by Bergman et al. in 2016 to solve dynamic programs to optimality. In particular, our paper presents and evaluates the effectiveness of the local-bound (LocB) and rough upper-bound pruning (RUB). LocB is a new and effective rule that leverages the approximate MDD structure to avoid the exploration of non-interesting nodes. RUB is a rule to reduce the search space during the development of bounded-width-MDDs. The experimental study we conducted on the Maximum Independent Set Problem (MISP), Maximum Cut Problem (MCP), Maximum 2 Satisfiability (MAX2SAT) and the Traveling Salesman Problem with Time Windows (TSPTW) shows evidence indicating that rough-upper-bound and local-bound pruning have a high impact on optimization solvers based on branch-and-bound with MDDs. In particular, it shows that RUB delivers excellent results but requires some effort when defining the model. Also, it shows that LocB provides a significant improvement automatically; without necessitating any user-supplied information. Finally, it also shows that rough-upper-bound and local-bound pruning are not mutually exclusive, and their combined benefit supersedes the individual benefit of using each technique.
翻訳日:2021-04-28 13:05:26 公開日:2021-04-24
# (参考訳) 局所外周係数アルゴリズムを用いた自動車運動の新規性の測定 [全文訳有]

Measuring Novelty in Autonomous Vehicles Motion Using Local Outlier Factor Algorithm ( http://arxiv.org/abs/2104.11970v1 )

ライセンス: CC BY 4.0
Hassan Alsawadi and Muhammad Bilal(参考訳) 予期せぬ状況やシナリオの下では、自動運転車(av)は、その時点でのルールや経験が限られているため、計画外の異常な行動に追随する傾向が強い。 AVをリアルタイムで動作が新規である程度を測定することで、潜在的な負の結果が減少する可能性がある。 本稿では,この新奇性尺度を定量化するために,Local Outlier Factor (LOF)アルゴリズムに基づく手法を提案する。 我々は、慣性測定ユニット(IMU)センサーの読み出しから特徴を抽出し、車両の動きを捉えた。 我々は,通常のデータのみを用いてモデルを取り付ける新たな検出手法に従った。 実世界の車両ミッションから得られたデータセットを用いて,提案する指標がある程度の新規性の定量化が可能であることを実証する。 最後に,本モデルの性能評価により,新規性指標が実用可能であることを確認した。

Under unexpected conditions or scenarios, autonomous vehicles (AV) are more likely to follow abnormal unplanned actions, due to the limited set of rules or amount of experience they possess at that time. Enabling AV to measure the degree at which their movements are novel in real-time may help to decrease any possible negative consequences. We propose a method based on the Local Outlier Factor (LOF) algorithm to quantify this novelty measure. We extracted features from the inertial measurement unit (IMU) sensor's readings, which captures the vehicle's motion. We followed a novelty detection approach in which the model is fitted only using the normal data. Using datasets obtained from real-world vehicle missions, we demonstrate that the suggested metric can quantify to some extent the degree of novelty. Finally, a performance evaluation of the model confirms that our novelty metric can be practical.
翻訳日:2021-04-28 12:41:32 公開日:2021-04-24
# (参考訳) 6gネットワークのための無線フェデレーション学習(wfl) --その2:計算・変換ノマパラダイム [全文訳有]

Wireless Federated Learning (WFL) for 6G Networks -- Part II: The Compute-then-Transmi t NOMA Paradigm ( http://arxiv.org/abs/2104.12005v1 )

ライセンス: CC BY 4.0
Pavlos S. Bouzinis, Panagiotis D. Diamantoulakis, George K. Karagiannidis(参考訳) 本研究の前半で論じられているように、先進的な多重アクセスプロトコルの利用と通信資源と計算機資源の協調最適化は、第6世代無線ネットワーク(6G)におけるWFLの効率的な統合において最重要となる無線連合学習(WFL)の遅延の低減を促進することができる。 この目的のために,第2部では,非直交多重アクセス(noma)に基づくwflネットワークのための新しい通信プロトコルを導入し,最適化する。 より具体的には、CT-NOMA(Compute-then -Transmit NOMA)プロトコルが導入され、ユーザーはローカルモデルトレーニングを同時に終了し、トレーニングされたパラメータを中央サーバに同時に送信する。 さらに、NOMAにおけるユーザ間干渉の緩和のための2つの異なる検出手法を検討、評価し、連続した干渉キャンセル過程における固定および可変復号順序に対応する。 さらに,WFL通信ラウンドにおける全体の遅延を最小化することを目的として,両方式の計算と通信資源を協調的に最適化する。 最後に,ct-nomaの有効性を時間分割多重アクセスに基づくベンチマークと比較し,遅延低減の観点から検証した。

As it has been discussed in the first part of this work, the utilization of advanced multiple access protocols and the joint optimization of the communication and computing resources can facilitate the reduction of delay for wireless federated learning (WFL), which is of paramount importance for the efficient integration of WFL in the sixth generation of wireless networks (6G). To this end, in this second part we introduce and optimize a novel communication protocol for WFL networks, that is based on non-orthogonal multiple access (NOMA). More specifically, the Compute-then-Transmi t NOMA (CT-NOMA) protocol is introduced, where users terminate concurrently the local model training and then simultaneously transmit the trained parameters to the central server. Moreover, two different detection schemes for the mitigation of inter-user interference in NOMA are considered and evaluated, which correspond to fixed and variable decoding order during the successive interference cancellation process. Furthermore, the computation and communication resources are jointly optimized for both considered schemes, with the aim to minimize the total delay during a WFL communication round. Finally, the simulation results verify the effectiveness of CT-NOMA in terms of delay reduction, compared to the considered benchmark that is based on time-division multiple access.
翻訳日:2021-04-28 12:37:46 公開日:2021-04-24
# (参考訳) 意味的相互情報を用いたLiDARとカメラの校正 [全文訳有]

Calibrating LiDAR and Camera using Semantic Mutual information ( http://arxiv.org/abs/2104.12023v1 )

ライセンス: CC BY 4.0
Peng Jiang, Philip Osteen, Srikanth Saripalli(参考訳) 意味情報を用いたlidarおよびカメラシステムの自動的・非目標的・極端的キャリブレーションアルゴリズムを提案する。 センサ間のセマンティック情報の相互情報(MI)を最大化し、ニューラルネットワークを利用してセマンティックな相互情報を推定し、行列指数で校正計算を行う。 lidar投影点に基づくカメラ計測からのサンプルデータにカーネルベースサンプリングを用いることで,グラデーションに基づく最適化手法をサポートする新しい微分可能な客観的関数として問題を定式化する。 また、2次元MI画像登録を用いた初期校正手法を提案する。 最後に,本手法のロバスト性を示し,合成データセットの精度を定量的に解析し,kitti360およびrellis-3dベンチマークデータセットを定性的に評価した。

We propose an algorithm for automatic, targetless, extrinsic calibration of a LiDAR and camera system using semantic information. We achieve this goal by maximizing mutual information (MI) of semantic information between sensors, leveraging a neural network to estimate semantic mutual information, and matrix exponential for calibration computation. Using kernel-based sampling to sample data from camera measurement based on LiDAR projected points, we formulate the problem as a novel differentiable objective function which supports the use of gradient-based optimization methods. We also introduce an initial calibration method using 2D MI-based image registration. Finally, we demonstrate the robustness of our method and quantitatively analyze the accuracy on a synthetic dataset and also evaluate our algorithm qualitatively on KITTI360 and RELLIS-3D benchmark datasets, showing improvement over recent comparable approaches.
翻訳日:2021-04-28 12:27:05 公開日:2021-04-24
# (参考訳) 経験的測度の収束のための次元自由測度の一クラス

A class of dimensionality-free metrics for the convergence of empirical measures ( http://arxiv.org/abs/2104.12036v1 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 本稿では,高次元における経験的測度の収束について述べる。 我々は,新しい尺度のクラスを提案し,そのような尺度の下では,収束が次元性の呪い(CoD)を伴わないことを示す。 このような特徴は高次元解析において重要であり、古典的メトリクスとは対照的である(例)。 は、ワッサーシュタイン距離(Wasserstein distance)。 提案手法は,テスト関数空間を選択するための特定の基準を提案して,CoDを含まない性質を保証することで,平均誤差の最大値から導かれる。 したがって、このメトリクスのクラスを一般化された最大平均差(gmmd)と呼ぶ。 選択されたテスト関数空間の例としては、再生核ヒルベルト空間、バロン空間、フロー誘起関数空間がある。 提案したメトリクスの3つの応用例を示す。 確率変数の場合の経験的測度の収束; 2。 n$粒子系のmckean-vlasov確率微分方程式解への収束; 3。 平均場極限による同質な$n$-playerゲームに対する$\varepsilon$-Nash平衡の構成。 副産物として、gmmdで測定された目標分布に近い分布と目標分布の特定の表現が与えられたとき、ワッサースタイン距離と相対エントロピーの観点で目標分布に近い分布を生成できることを証明する。 全体として,提案するメトリクスクラスは,codを使わずに高次元での経験的測度の収束を分析する強力なツールであることを示す。

This paper concerns the convergence of empirical measures in high dimensions. We propose a new class of metrics and show that under such metrics, the convergence is free of the curse of dimensionality (CoD). Such a feature is critical for high-dimensional analysis and stands in contrast to classical metrics ({\it e.g.}, the Wasserstein distance). The proposed metrics originate from the maximum mean discrepancy, which we generalize by proposing specific criteria for selecting test function spaces to guarantee the property of being free of CoD. Therefore, we call this class of metrics the generalized maximum mean discrepancy (GMMD). Examples of the selected test function spaces include the reproducing kernel Hilbert space, Barron space, and flow-induced function spaces. Three applications of the proposed metrics are presented: 1. The convergence of empirical measure in the case of random variables; 2. The convergence of $n$-particle system to the solution to McKean-Vlasov stochastic differential equation; 3. The construction of an $\varepsilon$-Nash equilibrium for a homogeneous $n$-player game by its mean-field limit. As a byproduct, we prove that, given a distribution close to the target distribution measured by GMMD and a certain representation of the target distribution, we can generate a distribution close to the target one in terms of the Wasserstein distance and relative entropy. Overall, we show that the proposed class of metrics is a powerful tool to analyze the convergence of empirical measures in high dimensions without CoD.
翻訳日:2021-04-28 12:09:20 公開日:2021-04-24
# (参考訳) Precarity: 個別の不安定性に対する複合決定の長期的影響のモデル化 [全文訳有]

Precarity: Modeling the Long Term Effects of Compounded Decisions on Individual Instability ( http://arxiv.org/abs/2104.12037v1 )

ライセンス: CC BY 4.0
Pegah Nokhiz, Aravinda Kanchana Ruwanpathirana, Neal Patwari, Suresh Venkatasubramanian(参考訳) 意思決定の影響を研究することに関して、この研究は主に意思決定の公平性、意思決定パイプラインの長期的な影響、意思決定者と個人の両方を考慮したユーティリティベースの視点の検証に焦点が当てられている。 しかし、人の生活の不安定さをカプセル化するプリカルティ(precarity)という用語にはほとんど焦点が当てられていない。 つまり、ネガティブな結果は他の意思決定や幸福の尺度に過大評価される。 先発性の研究は、意思決定者の視点から意思決定対象の視点への焦点のシフトを必要とする。 この課題の中心は、意思決定の長期的な影響を調べるため、総合的な措置と別れることの重要性を解き放つ重要な方向である。 この問題に対処するため,本稿では,複合意思決定の時間経過に対する影響をシミュレートするモデリングフレームワークを提案する。 シミュレーションにより,基礎人口の異なる所得クラスに対する負の判断による不均一な後遺症と,政策介入がどのような影響を軽減できるかを示すことができた。

When it comes to studying the impacts of decision making, the research has been largely focused on examining the fairness of the decisions, the long-term effects of the decision pipelines, and utility-based perspectives considering both the decision-maker and the individuals. However, there has hardly been any focus on precarity which is the term that encapsulates the instability in people's lives. That is, a negative outcome can overspread to other decisions and measures of well-being. Studying precarity necessitates a shift in focus - from the point of view of the decision-maker to the perspective of the decision subject. This centering of the subject is an important direction that unlocks the importance of parting with aggregate measures to examine the long-term effects of decision making. To address this issue, in this paper, we propose a modeling framework that simulates the effects of compounded decision-making on precarity over time. Through our simulations, we are able to show the heterogeneity of precarity by the non-uniform ruinous aftereffects of negative decisions on different income classes of the underlying population and how policy interventions can help mitigate such effects.
翻訳日:2021-04-28 12:08:05 公開日:2021-04-24
# 知識グラフと深層学習表現を融合させる説明可能なニューラル・シンボリック・ラーニング(X-NeSyL)手法:モヌマイ文化遺産利用事例

EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case ( http://arxiv.org/abs/2104.11914v1 )

ライセンス: Link先を確認
Natalia D\'iaz-Rodr\'iguez, Alberto Lamas, Jules Sanchez, Gianni Franchi, Ivan Donadello, Siham Tabik, David Filliat, Policarpo Cruz, Rosana Montes, Francisco Herrera(参考訳) 検出と分類のための最新のディープラーニング(DL)モデルは、古典的な機械学習アルゴリズムよりも前例のないパフォーマンスを達成した。 しかし、DLモデルはデバッグ、解釈、認証が難しいブラックボックスメソッドである。 DLだけでは、技術的でない聴衆が検証できる説明は提供できない。 対照的に、知識グラフのような概念をルールやシンボルに変換するシンボリックAIシステムは、説明が容易です。 しかし、それらはより低い一般化とスケーリング能力を示す。 非常に重要な課題は、DL表現を専門家の知識と融合させることである。 この課題に対処する1つの方法は、パフォーマンス-説明可能性のトレードオフと同様に、ドメインエキスパートの知識を損なうことなく両方のストリームを最大限活用することである。 我々は、その記号的知識をドメインエキスパートの知識グラフとして表現することで、この問題に取り組む。 本稿では,記号表現と深部表現の両方を学習するために設計されたeXplainable Neural-symbolic Learning(X-NeSyL)方法論と,機械と人間の専門的説明のアライメントレベルを評価するための説明可能性指標を提案する。 究極的な目的は、学習過程のエキスパートドメイン知識とDL表現を融合させ、説明可能性の健全な基盤として機能させることである。 x-nesylの方法論は、推論とトレーニング時の説明の2つの概念をそれぞれ具体化したものである: 1)explanet: expert-aligned explainedable part-based classifier network architecture, a compositional cnn that make use of symbolic representations, 2) shap-backprop, the explanationable ai-informed training procedure that the dl process to align with such symbolic representations in form of knowledge graphs。 記念碑ファサード画像分類のためのMonuMAIデータセットを用いたX-NeSyL手法を紹介し,提案手法が説明可能性と性能を向上させることを示す。

The latest Deep Learning (DL) models for detection and classification have achieved an unprecedented performance over classical machine learning algorithms. However, DL models are black-box methods hard to debug, interpret, and certify. DL alone cannot provide explanations that can be validated by a non technical audience. In contrast, symbolic AI systems that convert concepts into rules or symbols -- such as knowledge graphs -- are easier to explain. However, they present lower generalisation and scaling capabilities. A very important challenge is to fuse DL representations with expert knowledge. One way to address this challenge, as well as the performance-explaina bility trade-off is by leveraging the best of both streams without obviating domain expert knowledge. We tackle such problem by considering the symbolic knowledge is expressed in form of a domain expert knowledge graph. We present the eXplainable Neural-symbolic learning (X-NeSyL) methodology, designed to learn both symbolic and deep representations, together with an explainability metric to assess the level of alignment of machine and human expert explanations. The ultimate objective is to fuse DL representations with expert domain knowledge during the learning process to serve as a sound basis for explainability. X-NeSyL methodology involves the concrete use of two notions of explanation at inference and training time respectively: 1) EXPLANet: Expert-aligned eXplainable Part-based cLAssifier NETwork Architecture, a compositional CNN that makes use of symbolic representations, and 2) SHAP-Backprop, an explainable AI-informed training procedure that guides the DL process to align with such symbolic representations in form of knowledge graphs. We showcase X-NeSyL methodology using MonuMAI dataset for monument facade image classification, and demonstrate that our approach improves explainability and performance.
翻訳日:2021-04-27 15:02:49 公開日:2021-04-24
# $\beta$-VAE を用いた溶接部の異常検出

Anomaly Detection for Solder Joints Using $\beta$-VAE ( http://arxiv.org/abs/2104.11927v1 )

ライセンス: Link先を確認
Furkan Ulger, Seniha Esen Yuksel, Atila Yilmaz(参考訳) プリント回路基板(pcb)の組立工程において、誤差の大部分は表面実装装置(smd)のはんだ接合によるものである。 文献では,従来の特徴抽出法では手作りの特徴を設計,階層型rgb照明を用いてはんだジョイントエラーを検知するが,教師付き畳み込みニューラルネットワーク(cnn)に基づく手法では高精度にラベル付き異常サンプル(欠陥はんだジョイント)を多数必要としている。 特殊な照明がなく,かつ,エラーのない参照ボードが存在しない環境下での光検査問題を解決するために,ICと非ICの両方で動作可能な異常検出のための新しいベータ可変オートエンコーダ(ベータVAE)アーキテクチャを提案する。 提案手法はデータの不連続表現を学習し,より独立な特徴と潜在空間表現の改善をもたらすことを示す。 異常を特徴付けるために用いられるアクティベーションと勾配に基づく表現を比較し、異なるベータパラメータがβ-VAEにおける特徴表現の精度と解答に与える影響を観察する。 最後に, ハンダ接合部の異常を, ハードウェアや特徴工学の指定なしに, 直接正規サンプルで訓練したモデルを用いて高精度に検出できることを示す。

In the assembly process of printed circuit boards (PCB), most of the errors are caused by solder joints in Surface Mount Devices (SMD). In the literature, traditional feature extraction based methods require designing hand-crafted features and rely on the tiered RGB illumination to detect solder joint errors, whereas the supervised Convolutional Neural Network (CNN) based approaches require a lot of labelled abnormal samples (defective solder joints) to achieve high accuracy. To solve the optical inspection problem in unrestricted environments with no special lighting and without the existence of error-free reference boards, we propose a new beta-Variational Autoencoders (beta-VAE) architecture for anomaly detection that can work on both IC and non-IC components. We show that the proposed model learns disentangled representation of data, leading to more independent features and improved latent space representations. We compare the activation and gradient-based representations that are used to characterize anomalies; and observe the effect of different beta parameters on accuracy and on untwining the feature representations in beta-VAE. Finally, we show that anomalies on solder joints can be detected with high accuracy via a model trained on directly normal samples without designated hardware or feature engineering.
翻訳日:2021-04-27 15:01:19 公開日:2021-04-24
# RelTransformer: ローカルコンテキスト,シーン,メモリからの視覚的関係検出のバランシング

RelTransformer: Balancing the Visual Relationship Detection from Local Context, Scene and Memory ( http://arxiv.org/abs/2104.11934v1 )

ライセンス: Link先を確認
Jun Chen, Aniket Agarwal, Sherif Abdelkarim, Deyao Zhu, Mohamed Elhoseiny(参考訳) 視覚的関係認識(VRR)はシーン理解の基本課題である。 VRRが提供する構造は、画像キャプションや視覚的質問応答といった下流タスクにおけるAI解釈可能性を改善するために不可欠である。 近年の研究では、vrrのロングテール問題は、構成の複雑さと構造のため、物体認識においてさらに重要であることが示されている。 この制限を克服するために、複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 より豊富なテキスト特徴は、十分なトレーニングデータが欠如している場合に有用である、より正確で差別的な関係を生み出すことができると仮定する。 我々のモデルの主な特徴は、3つの異なるレベルの特徴(ローカルコンテキスト、シーン、データセットレベル)を集約して視覚的関係を合成する能力である。 我々は、視覚ゲノムモデルと、GQA-LTとVG8k-LTの2つの「ロングテール」VRRデータセットの評価を行った。 さらに,本モデルでは,尾部関係予測に基づく最良基準値に対して,GQA-LTの精度を27.4%向上させる。 私たちのコードはhttps://github.com/V ision-CAIR/RelTransf ormerで利用可能です。

Visual relationship recognition (VRR) is a fundamental scene understanding task. The structure that VRR provides is essential to improve the AI interpretability in downstream tasks such as image captioning and visual question answering. Several recent studies showed that the long-tail problem in VRR is even more critical than that in object recognition due to the compositional complexity and structure. To overcome this limitation, we propose a novel transformer-based framework, dubbed as RelTransformer, which performs relationship prediction using rich semantic features from multiple image levels. We assume that more abundantcon textual features can generate more accurate and discriminative relationships, which can be useful when sufficient training data are lacking. The key feature of our model is its ability to aggregate three different-level features (local context, scene, and dataset-level) to compositionally predict the visual relationship. We evaluate our model on the visual genome and two "long-tail" VRR datasets, GQA-LT and VG8k-LT. Extensive experiments demonstrate that our RelTransformer could improve over the state-of-the-art baselines on all the datasets. In addition, our model significantly improves the accuracy of GQA-LT by 27.4% upon the best baselines on tail-relationship prediction. Our code is available in https://github.com/V ision-CAIR/RelTransf ormer.
翻訳日:2021-04-27 15:00:56 公開日:2021-04-24
# 概念ドリフト下の継続学習のためのクラスインクリメンタル体験リプレイ

Class-Incremental Experience Replay for Continual Learning under Concept Drift ( http://arxiv.org/abs/2104.11861v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki, Bartosz Krawczyk(参考訳) 現代の機械学習システムは、データの頻繁な到着と変更に対応できる必要がある。 このようなシナリオを扱う2つの研究分野は、継続的学習とデータストリームマイニングである。 継続的学習は、知識を蓄積し、学習した情報を保存すべきと仮定して、忘れることを避けることに焦点を当てている。 データストリームマイニングは、最新のデータだけが関連すると仮定して、概念ドリフトへの適応と古い情報の破棄に焦点を当てている。 これら2つの領域は主に分離して開発されているが、動的データから学習する問題の相補的な見解を提供する。 新たな情報を学習し、保存し、また、以前見た概念の変更を見直し、適応できるアーキテクチャを提供することで、それらを統一する必要性がある。 両タスクを処理可能な新しい連続学習手法を提案する。 experience replayメソッドは、インクリメンタルに到着するクラスの多様なインスタンスを格納するcentroid駆動のメモリによって実現されます。 これはリアクティブサブスペースバッファによって強化され、前述のクラスでの概念ドリフトの発生を追跡し、それに応じてクラスタに適応する。 提案したアーキテクチャは、有効性と古い情報を忘れることの両方を記憶することができ、概念ドリフト下での連続学習のための総合的なフレームワークを提供する。

Modern machine learning systems need to be able to cope with constantly arriving and changing data. Two main areas of research dealing with such scenarios are continual learning and data stream mining. Continual learning focuses on accumulating knowledge and avoiding forgetting, assuming information once learned should be stored. Data stream mining focuses on adaptation to concept drift and discarding outdated information, assuming that only the most recent data is relevant. While these two areas are mainly being developed in separation, they offer complementary views on the problem of learning from dynamic data. There is a need for unifying them, by offering architectures capable of both learning and storing new information, as well as revisiting and adapting to changes in previously seen concepts. We propose a novel continual learning approach that can handle both tasks. Our experience replay method is fueled by a centroid-driven memory storing diverse instances of incrementally arriving classes. This is enhanced with a reactive subspace buffer that tracks concept drift occurrences in previously seen classes and adapts clusters accordingly. The proposed architecture is thus capable of both remembering valid and forgetting outdated information, offering a holistic framework for continual learning under concept drift.
翻訳日:2021-04-27 14:56:39 公開日:2021-04-24
# MusCaps:音楽オーディオのキャプション生成

MusCaps: Generating Captions for Music Audio ( http://arxiv.org/abs/2104.11984v1 )

ライセンス: Link先を確認
Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gyorgy Fazekas(参考訳) コンテンツに基づく音楽情報検索は,ディープラーニングの導入によって急速に進歩している。 ハイレベル音楽記述への現在のアプローチは、オートタグやジャンル、ムード分類などの分類モデルを利用するのが一般的である。 本研究では,人間的な方法で音声コンテンツの自然言語記述を生成するタスクとして定義された音声キャプションによる音楽記述に対処することを提案する。 そこで本研究では,テンポラルアテンションを持つエンコーダデコーダからなる最初の音楽オーディオキャプションモデルMusCapsを提案する。 提案手法は畳み込みと繰り返しのニューラルネットワークアーキテクチャを組み合わせることで,マルチモーダルエンコーダを通じて音声テキスト入力を共同処理し,音声データの事前学習を利用して,入力中の音楽的特徴を効果的に捉え,要約する表現を得る。 自動計測によるキャプションの評価は,非音楽音声キャプションのためのベースラインよりも優れていることを示す。 アブレーション研究を通じて、この性能向上は、主にオーディオエンコーダの事前学習によるものであり、他の設計選択モダリティ融合、復号化戦略、注意力の利用は、わずかに寄与する。 我々のモデルは、分類に基づく音楽記述から脱却し、音楽情報検索における意味的ギャップを埋めるために、聴覚と言語の両方の理解を必要とするタスクを組み合わせる。

Content-based music information retrieval has seen rapid progress with the adoption of deep learning. Current approaches to high-level music description typically make use of classification models, such as in auto-tagging or genre and mood classification. In this work, we propose to address music description via audio captioning, defined as the task of generating a natural language description of music audio content in a human-like manner. To this end, we present the first music audio captioning model, MusCaps, consisting of an encoder-decoder with temporal attention. Our method combines convolutional and recurrent neural network architectures to jointly process audio-text inputs through a multimodal encoder and leverages pre-training on audio data to obtain representations that effectively capture and summarise musical features in the input. Evaluation of the generated captions through automatic metrics shows that our method outperforms a baseline designed for non-music audio captioning. Through an ablation study, we unveil that this performance boost can be mainly attributed to pre-training of the audio encoder, while other design choices - modality fusion, decoding strategy and the use of attention - contribute only marginally. Our model represents a shift away from classification-based music description and combines tasks requiring both auditory and linguistic understanding to bridge the semantic gap in music information retrieval.
翻訳日:2021-04-27 14:54:22 公開日:2021-04-24
# 食事配送問題に対する深層強化学習アプローチ

A Deep Reinforcement Learning Approach for the Meal Delivery Problem ( http://arxiv.org/abs/2104.12000v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Aysun Bozanta, Mucahit Cevik, Eray Mert Kavuk, Ay\c{s}e Tosun, Sibel B. Sonuc, Bilgin Kosucu, Ay\c{s}e Ba\c{s}ar(参考訳) 一日に一組の宅配業者に与えられた動的顧客要求を満たす食事配達サービスについて検討する。 宅配業者の義務は、レストランから注文を受け取り、顧客に届けることである。 私たちはこのサービスをマルコフ決定プロセスとしてモデル化し、ソリューションアプローチとして深層強化学習を使用します。 合成および実世界のデータセットに対する結果のポリシーを実験し、ベースラインポリシーと比較する。 また,異なる数のクーリエの利用状況についても検討した。 本分析では,食事提供問題における限られた資源の影響に着目した。 さらに,インテリジェントな注文拒否と配送業者の再配置の効果について検討した。 数値実験により,飲食店,顧客,デポの地理的位置を組み込むことにより,期待される総報酬と配送時間によって特徴付けられる総合的なサービス品質が大幅に向上することを示した。 本研究は,ある日に異なる順序周波数のクーリエの割り当てプロセスと最適なクーリエ数の両方について有意な知見を与える。 提案モデルはまた,実世界の実装における様々なシナリオ下での堅牢な性能を示す。

We consider a meal delivery service fulfilling dynamic customer requests given a set of couriers over the course of a day. A courier's duty is to pick-up an order from a restaurant and deliver it to a customer. We model this service as a Markov decision process and use deep reinforcement learning as the solution approach. We experiment with the resulting policies on synthetic and real-world datasets and compare those with the baseline policies. We also examine the courier utilization for different numbers of couriers. In our analysis, we specifically focus on the impact of the limited available resources in the meal delivery problem. Furthermore, we investigate the effect of intelligent order rejection and re-positioning of the couriers. Our numerical experiments show that, by incorporating the geographical locations of the restaurants, customers, and the depot, our model significantly improves the overall service quality as characterized by the expected total reward and the delivery times. Our results present valuable insights on both the courier assignment process and the optimal number of couriers for different order frequencies on a given day. The proposed model also shows a robust performance under a variety of scenarios for real-world implementation.
翻訳日:2021-04-27 14:53:05 公開日:2021-04-24
# 説明可能な人工知能が乳癌患者の予後改善と腫瘍微小環境条件の新たな知見を公表

Explainable Artificial Intelligence Reveals Novel Insight into Tumor Microenvironment Conditions Linked with Better Prognosis in Patients with Breast Cancer ( http://arxiv.org/abs/2104.12021v1 )

ライセンス: Link先を確認
Debaditya Chakraborty, Cristina Ivan, Paola Amero, Maliha Khan, Cristian Rodriguez-Aguayo, Hakan Ba\c{s}a\u{g}ao\u{g}lu, and Gabriel Lopez-Berestein(参考訳) 腫瘍微小環境 (TME) の特徴と3重陰性乳癌 (TNBC) と非TNBC (NTNBC) 患者の生存年数との関係について, Explainable Artificial Intelligence (XAI) モデルを用いて検討した。 The Cancer Genome Atlasの浸潤乳癌患者とCbioPortalとPanCanAtlasプロジェクトとGDAC Firehose研究の2つの研究から臨床情報を得た。 そこで本研究では,UCSC Xenaデータセットから1015名の乳癌患者から得られた正常化RNAシークエンシングデータを用いて,EPIC法と統合的デコンボリューションを行い,RNAシークエンシングデータから7種類の免疫および間質細胞の比率を推定した。 XAIモデルから得られた新たな知見は,CD4+T細胞およびB細胞が,TNBCおよびNTNBC患者の予後を高めるために他のTME特徴よりも重要であることを示している。 XAIモデルではCD4+T細胞と5年生存率を向上したB細胞に臨界反射点(しきい値)が認められた。 以上の結果より, TNBCおよびNTNBC患者は, 摂動点から推定した条件条件下で5年間生存可能と判断された。 特にXAIモデルでは,TMEのB細胞分画は0.018以上であり,NTNBC患者の生存率は100%であった。 この研究から得られた知見は、より正確な臨床予測と免疫療法の強化、乳がん患者のTMEをプログラムする革新的な戦略の設計につながる可能性がある。

We investigated the data-driven relationship between features in the tumor microenvironment (TME) and the overall and 5-year survival in triple-negative breast cancer (TNBC) and non-TNBC (NTNBC) patients by using Explainable Artificial Intelligence (XAI) models. We used clinical information from patients with invasive breast carcinoma from The Cancer Genome Atlas and from two studies from the cbioPortal, the PanCanAtlas project and the GDAC Firehose study. In this study, we used a normalized RNA sequencing data-driven cohort from 1,015 breast cancer patients, alive or deceased, from the UCSC Xena data set and performed integrated deconvolution with the EPIC method to estimate the percentage of seven different immune and stromal cells from RNA sequencing data. Novel insights derived from our XAI model showed that CD4+ T cells and B cells are more critical than other TME features for enhanced prognosis for both TNBC and NTNBC patients. Our XAI model revealed the critical inflection points (i.e., threshold fractions) of CD4+ T cells and B cells above or below which 5-year survival rates improve. Subsequently, we ascertained the conditional probabilities of $\geq$ 5-year survival in both TNBC and NTNBC patients under specific conditions inferred from the inflection points. In particular, the XAI models revealed that a B-cell fraction exceeding 0.018 in the TME could ensure 100% 5-year survival for NTNBC patients. The findings from this research could lead to more accurate clinical predictions and enhanced immunotherapies and to the design of innovative strategies to reprogram the TME of breast cancer patients.
翻訳日:2021-04-27 14:52:50 公開日:2021-04-24
# CycleGANとTransfer Learningを用いたCT画像からのCOVID-19自動診断

Automatic Diagnosis of COVID-19 from CT Images using CycleGAN and Transfer Learning ( http://arxiv.org/abs/2104.11949v1 )

ライセンス: Link先を確認
Navid Ghassemi, Afshin Shoeibi, Marjane Khodatars, Jonathan Heras, Alireza Rahimi, Assef Zare, Ram Bilas Pachori, J. Manuel Gorriz(参考訳) コロナウイルス(COVID-19)の流行は、地球上のほとんどの人々の生活に変化をもたらした。 この疾患の感染率が高いことから、患者を隔離するための正確な診断は、このパンデミックと闘う上で最も重要である。 診断に使用される様々なモダリティの中で、医用画像、特にCT(Computed tomography)画像は、その正確さと可用性から、多くの研究の焦点となっている。 さらに、診断方法の自動化は、医師にとって非常に役立ちます。 本稿では,事前学習した深層ニューラルネットワークに基づく手法を提案する。この手法は,データ拡張のための循環生成逆ネットワーク(cyclegan)モデルを利用して,手前のタスク,すなわち99.60%の精度で最先端の性能を達成している。 また、この方法を評価するために、医師が189人の患者から3163枚の画像を含むデータセットを収集し、ラベル付けした。 従来のデータセットとは異なり、通常のデータは他の疾患のデータではなく、新型コロナウイルスの疑いのある人々から収集されており、このデータベースは一般に公開されている。

The outbreak of the corona virus disease (COVID-19) has changed the lives of most people on Earth. Given the high prevalence of this disease, its correct diagnosis in order to quarantine patients is of the utmost importance in steps of fighting this pandemic. Among the various modalities used for diagnosis, medical imaging, especially computed tomography (CT) imaging, has been the focus of many previous studies due to its accuracy and availability. In addition, automation of diagnostic methods can be of great help to physicians. In this paper, a method based on pre-trained deep neural networks is presented, which, by taking advantage of a cyclic generative adversarial net (CycleGAN) model for data augmentation, has reached state-of-the-art performance for the task at hand, i.e., 99.60% accuracy. Also, in order to evaluate the method, a dataset containing 3163 images from 189 patients has been collected and labeled by physicians. Unlike prior datasets, normal data have been collected from people suspected of having COVID-19 disease and not from data from other diseases, and this database is made available publicly.
翻訳日:2021-04-27 14:50:44 公開日:2021-04-24
# 不規則またはランダムな変形下における深部畳み込みニューラルネットワークの安定性について

On the stability of deep convolutional neural networks under irregular or random deformations ( http://arxiv.org/abs/2104.11977v1 )

ライセンス: Link先を確認
Fabio Nicola and S. Ivan Trapasso(参考訳) 深部畳み込みニューラルネットワーク(DCNN)における位置変形によるロバスト性の問題は非常に理論的かつ実用的なものである。 この問題は、特に散乱型アーキテクチャにおいて、変形ベクトル場 $\tau(x)$ と少なくとも $c^1$ に対する先駆的研究で研究されている。 ここでは、任意のフィールド$\tau\in l^\infty(\mathbb{r}^d;\mathbb{r}^d)$に対して、追加の正規性仮定なしにこの問題に対処する。 マルチレゾリューション近似空間の信号に対して、ネットワークがリプシッツ連続である(そのアーキテクチャによらず)とき、$l^2$の安定性は$\|\tau\|_{l^\infty}/s\ll 1$であり、本質的に不確実性原理の結果である。 ウェーブレット散乱ネットワークのような構造が整ったdcnnであっても、$\|\tau\|_{l^\infty}/s\gg 1$不安定になる場合、漸近的成長速度の鋭い上限を与える。 安定性結果は、与えられた多重解像度近似に合わせてベソフ空間$B^{d/2}_{2,1}$の信号に拡張される。 さらに,より一般的な時間-周波数変形についても考察する。 最後に、上記の結果の確率的なバージョン、すなわち、$\tau(x)$が同じ分散変数 $|\tau(x)|$, $x\in\mathbb{R}^d$ を持つランダム場(一般には有界ではない)としてモデル化されたときの平均安定性の問題を考察する。

The problem of robustness under location deformations for deep convolutional neural networks (DCNNs) is of great theoretical and practical interest. This issue has been studied in pioneering works, especially for scattering-type architectures, for deformation vector fields $\tau(x)$ with some regularity - at least $C^1$. Here we address this issue for any field $\tau\in L^\infty(\mathbb{R}^d;\mathbb{R}^d)$, without any additional regularity assumption, hence including the case of wild irregular deformations such as a noise on the pixel location of an image. We prove that for signals in multiresolution approximation spaces $U_s$ at scale $s$, whenever the network is Lipschitz continuous (regardless of its architecture), stability in $L^2$ holds in the regime $\|\tau\|_{L^\infty}/s\ll 1$, essentially as a consequence of the uncertainty principle. When $\|\tau\|_{L^\infty}/s\gg 1$ instability can occur even for well-structured DCNNs such as the wavelet scattering networks, and we provide a sharp upper bound for the asymptotic growth rate. The stability results are then extended to signals in the Besov space $B^{d/2}_{2,1}$ tailored to the given multiresolution approximation. We also consider the case of more general time-frequency deformations. Finally, we provide stochastic versions of the aforementioned results, namely we study the issue of stability in mean when $\tau(x)$ is modeled as a random field (not bounded, in general) with with identically distributed variables $|\tau(x)|$, $x\in\mathbb{R}^d$.
翻訳日:2021-04-27 14:50:29 公開日:2021-04-24
# Riemannian Gauss-Newtonによる低ランクテンソル推定:統計的最適性と2次収束

Low-rank Tensor Estimation via Riemannian Gauss-Newton: Statistical Optimality and Second-Order Convergence ( http://arxiv.org/abs/2104.12031v1 )

ライセンス: Link先を確認
Yuetian Luo, Anru R. Zhang(参考訳) 本稿では, タッカー級のテンソルを, ノイズの少ない線形測定値から推定する。 一般的な問題は、テンソル回帰、テンソル完備化、テンソルPCA/SVDなど、応用から生じる多くの具体例をカバーする。 低タッカー階テンソル推定のための高速実装を備えたリーマンガウスニュートン法(RGN)を提案する。 文献におけるRGNの一般(超)線形収束保証とは違い、軽度条件下での低ランクテンソル推定に対するRGNの最初の二次収束保証を証明する。 rgnの統計的最適性を示す決定論的推定誤差が上限値に一致する。 RGNの利点は、テンソル回帰とテンソルSVDという2つの機械学習アプリケーションを通して説明される。 最後に,理論的な知見を裏付けるシミュレーション結果を提供する。

In this paper, we consider the estimation of a low Tucker rank tensor from a number of noisy linear measurements. The general problem covers many specific examples arising from applications, including tensor regression, tensor completion, and tensor PCA/SVD. We propose a Riemannian Gauss-Newton (RGN) method with fast implementations for low Tucker rank tensor estimation. Different from the generic (super)linear convergence guarantee of RGN in the literature, we prove the first quadratic convergence guarantee of RGN for low-rank tensor estimation under some mild conditions. A deterministic estimation error lower bound, which matches the upper bound, is provided that demonstrates the statistical optimality of RGN. The merit of RGN is illustrated through two machine learning applications: tensor regression and tensor SVD. Finally, we provide the simulation results to corroborate our theoretical findings.
翻訳日:2021-04-27 14:47:11 公開日:2021-04-24
# マルチラウンド新クラスによるインクリメンタル・マイナショットテキスト分類:定式化、データセット、およびシステム

Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and System ( http://arxiv.org/abs/2104.11882v1 )

ライセンス: Link先を確認
Congying Xia, Wenpeng Yin, Yihao Feng, Philip Yu(参考訳) テキスト分類は通常、予め定義された集合から関連するカテゴリの自然言語テキストをラベル付けすることで研究される。 現実の世界では、新しいクラスはラベル付きデータで既存のシステムに挑戦し続けるかもしれない。 システムは、いくつかの例で新しいクラスを認識できるほどインテリジェントであるべきです。 本研究では,NLP領域における新たなタスク,インクリメンタルな数ショットのテキスト分類を定義し,複数の新しいクラスを段階的に処理する。 各ラウンドには、クラスごとにいくつかのラベル付き例を持つ新しいクラスのバッチがある。 新しいタスクには2つの大きな課題が存在する: (i) 学習プロセスでは、システムは、前のクラスの例を再トレーニングすることなく、段階的に新しいクラスを段階的に学習する必要があります。 新しいタスクの定式化に加えて,インテント分類と関係分類という,インクリメンタルなマイナショット設定の2つのベンチマークデータセットもリリースしています。 さらに,この問題を解決するための提案手法として,ENTAILMENTとHYBRIDの2つを提案する。

Text classification is usually studied by labeling natural language texts with relevant categories from a predefined set. In the real world, new classes might keep challenging the existing system with limited labeled data. The system should be intelligent enough to recognize upcoming new classes with a few examples. In this work, we define a new task in the NLP domain, incremental few-shot text classification, where the system incrementally handles multiple rounds of new classes. For each round, there is a batch of new classes with a few labeled examples per class. Two major challenges exist in this new task: (i) For the learning process, the system should incrementally learn new classes round by round without re-training on the examples of preceding classes; (ii) For the performance, the system should perform well on new classes without much loss on preceding classes. In addition to formulating the new task, we also release two benchmark datasets in the incremental few-shot setting: intent classification and relation classification. Moreover, we propose two entailment approaches, ENTAILMENT and HYBRID, which show promise for solving this novel problem.
翻訳日:2021-04-27 14:46:10 公開日:2021-04-24
# 非自己回帰型ニューラルマシン翻訳のモデル化カバレッジ

Modeling Coverage for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2104.11897v1 )

ライセンス: Link先を確認
Yong Shan, Yang Feng, Chenze Shao(参考訳) non-autoregressive neural machine translation(nat)は、すべてのトークンを同時に生成することで、大幅な推論速度向上を達成した。 高い効率にもかかわらず、NATは通常2種類の翻訳エラーに悩まされる。 繰り返しトークン)とアンダー翻訳(例) 翻訳を欠く) 最終的に翻訳の質を制限します 本稿では,これらのNATの問題は,自己回帰復号化に有用であることが証明されたカバレッジ・モデリングによって解決可能であることを論じる。 本稿では,トークンレベルの反復的カバレッジ改善機構と文レベルのカバレッジ合意によって,そのカバレッジ情報を直接モデル化する新しいカバレッジNATを提案し,ソーストークンが翻訳されたかどうかをモデルに思い出させ,翻訳とソース間のセマンティクスの整合性を改善する。 WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。

Non-Autoregressive Neural Machine Translation (NAT) has achieved significant inference speedup by generating all tokens simultaneously. Despite its high efficiency, NAT usually suffers from two kinds of translation errors: over-translation (e.g. repeated tokens) and under-translation (e.g. missing translations), which eventually limits the translation quality. In this paper, we argue that these issues of NAT can be addressed through coverage modeling, which has been proved to be useful in autoregressive decoding. We propose a novel Coverage-NAT to model the coverage information directly by a token-level coverage iterative refinement mechanism and a sentence-level coverage agreement, which can remind the model if a source token has been translated or not and improve the semantics consistency between the translation and the source, respectively. Experimental results on WMT14 En-De and WMT16 En-Ro translation tasks show that our method can alleviate those errors and achieve strong improvements over the baseline system.
翻訳日:2021-04-27 14:45:53 公開日:2021-04-24
# 抽出と蒸留:効率的なタスク非依存BERT蒸留

Extract then Distill: Efficient and Effective Task-Agnostic BERT Distillation ( http://arxiv.org/abs/2104.11928v1 )

ライセンス: Link先を確認
Cheng Chen, Yichun Yin, Lifeng Shang, Zhi Wang, Xin Jiang, Xiao Chen, Qun Liu(参考訳) タスク依存型知識蒸留は, BERT圧縮に有効であることが証明されている。 NLPタスクで有望な結果を達成するには、膨大な計算資源が必要である。 本稿では,教師のパラメータを有効かつ効果的なタスク非依存蒸留に利用するための汎用的かつ柔軟な戦略であるextract then distill (etd)を提案する。 具体的には,教師のパラメータをランダムに抽出するETD,ETD-Rand,ETD-Imp tの2つの変種を紹介する。 このようにして、学生は蒸留プロセスの開始時に既にいくつかの知識を取得しており、蒸留プロセスはより早く収束する。 GLUEベンチマークとSQuADにおけるETDの有効性を示す。 実験の結果,(1)ETD戦略のないベースラインと比較して,ETDは計算コストの70%を節約できることがわかった。 さらに、同じ計算リソースを使用する場合、ベースラインよりも優れた結果が得られる。 2)ETDは汎用的であり,様々な蒸留法(TinyBERTやMiniLMなど)と異なるサイズの学生に有効であることが証明されている。 ソースコードは公開時には公開される予定だ。

Task-agnostic knowledge distillation, a teacher-student framework, has been proved effective for BERT compression. Although achieving promising results on NLP tasks, it requires enormous computational resources. In this paper, we propose Extract Then Distill (ETD), a generic and flexible strategy to reuse the teacher's parameters for efficient and effective task-agnostic distillation, which can be applied to students of any size. Specifically, we introduce two variants of ETD, ETD-Rand and ETD-Impt, which extract the teacher's parameters in a random manner and by following an importance metric respectively. In this way, the student has already acquired some knowledge at the beginning of the distillation process, which makes the distillation process converge faster. We demonstrate the effectiveness of ETD on the GLUE benchmark and SQuAD. The experimental results show that: (1) compared with the baseline without an ETD strategy, ETD can save 70\% of computation cost. Moreover, it achieves better results than the baseline when using the same computing resource. (2) ETD is generic and has been proven effective for different distillation methods (e.g., TinyBERT and MiniLM) and students of different sizes. The source code will be publicly available upon publication.
翻訳日:2021-04-27 14:45:37 公開日:2021-04-24
# Eコマースサイトにおけるベトナムのオープンドメイン問題検出

Vietnamese Open-domain Complaint Detection in E-Commerce Websites ( http://arxiv.org/abs/2104.11969v1 )

ライセンス: Link先を確認
Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 顧客製品レビューは、組織やブランドの製品やサービスの品質向上に重要な役割を果たします。 苦情とは、顧客の期待を満たさないイベントや製品に対する不満を表す態度である。 本稿では,eコマースサイトにおける製品レビューに関する4つのカテゴリについて,5,485人の人間によるレビューを含むベトナムのデータセット(UIT-ViOCD)を構築した。 データ収集フェーズの後、アノテーションタスクに進み、fleiss' kappaによってam = 87%を達成する。 そこで本研究では,F1スコアで92.16%を達成し,苦情の特定を行う。 結果は、将来的にはeコマースウェブサイトでオープンドメイン苦情検出システムを構築したいと考えています。

Customer product reviews play a role in improving the quality of products and services for organizations or brands. Complaining is an attitude that expresses dissatisfaction with an event or a product not meeting customer expectations. In this paper, we build a Vietnamese dataset (UIT-ViOCD), including 5,485 human-annotated reviews on four categories about product reviews on e-commerce sites. After the data collection phase, we proceed to the annotation task and achieve Am = 87% by Fleiss' Kappa. Then, we present an extensive methodology for the research purposes and achieve 92.16% by F1-score for identifying complaints. With the results, in the future, we want to build a system for open-domain complaint detection in E-commerce websites.
翻訳日:2021-04-27 14:45:19 公開日:2021-04-24
# 小型・自由回転物体のための配向バウンディングボックス

Oriented Bounding Boxes for Small and Freely Rotated Objects ( http://arxiv.org/abs/2104.11854v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, and Michael Greenspan(参考訳) 2\times 2$ピクセルの小さなオブジェクトを含む任意のサイズのオブジェクトを自由に回転させる新しいオブジェクト検出方法が提案されている。 このような小さな物体はリモートセンシング画像に頻繁に現れ、最近の物体検出アルゴリズムに挑戦する。 さらに重要なことは、現在のオブジェクト検出法はもともと軸方向のバウンディングボックス検出を許容するように設計されており、従って、回転するオブジェクトを最もよく記述する向きのボックスを正確にローカライズすることができない。 これとは対照的に,提案手法では,アンカーボックスなどの外部リソースを必要とせず,複数スケールの画素情報を用いて,グリッドセル位置における対象オブジェクトの特徴の正確な位置と向きを符号化する。 境界ボックスの位置と次元を回帰する既存の方法とは異なり、提案手法は、余分な計算をせずに、指向的境界ボックス検出を可能にするという利点を付加した、分類による全ての必要な情報を学習する。 これにより、予測されたクラスラベルの集合ごとに最小の周囲ボックスを見つけることで、推論時にのみ境界ボックスを推論する。 さらに、各スケールに回転不変の特徴表現を適用し、トレーニングサンプルの360度回転範囲をカバーするように正規化制約を課し、同様の特徴を共有する。 xView と DOTA データセットの評価は,提案手法が既存の最先端手法よりも一様に性能を向上させることを示す。

A novel object detection method is presented that handles freely rotated objects of arbitrary sizes, including tiny objects as small as $2\times 2$ pixels. Such tiny objects appear frequently in remotely sensed images, and present a challenge to recent object detection algorithms. More importantly, current object detection methods have been designed originally to accommodate axis-aligned bounding box detection, and therefore fail to accurately localize oriented boxes that best describe freely rotated objects. In contrast, the proposed CNN-based approach uses potential pixel information at multiple scale levels without the need for any external resources, such as anchor boxes.The method encodes the precise location and orientation of features of the target objects at grid cell locations. Unlike existing methods which regress the bounding box location and dimension,the proposed method learns all the required information by classification, which has the added benefit of enabling oriented bounding box detection without any extra computation. It thus infers the bounding boxes only at inference time by finding the minimum surrounding box for every set of the same predicted class labels. Moreover, a rotation-invariant feature representation is applied to each scale, which imposes a regularization constraint to enforce covering the 360 degree range of in-plane rotation of the training samples to share similar features. Evaluations on the xView and DOTA datasets show that the proposed method uniformly improves performance over existing state-of-the-art methods.
翻訳日:2021-04-27 14:41:42 公開日:2021-04-24
# M3DeTR: トランスフォーマーを用いたマルチ表現・マルチスケール・相互関連3次元物体検出

M3DeTR: Multi-representation , Multi-scale, Mutual-relation 3D Object Detection with Transformers ( http://arxiv.org/abs/2104.11896v1 )

ライセンス: Link先を確認
Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha(参考訳) 本稿では,様々な点クラウド表現(raw,voxels,bird-eye view)と,マルチスケール特徴ピラミッドに基づく異なる特徴スケールを組み合わせた,新たな3dオブジェクト検出アーキテクチャであるm3detrを提案する。 M3DeTRは、マルチポイントクラウド表現、特徴スケールを統一する最初のアプローチであり、トランスフォーマーを使用してポイントクラウド間の相互関係をモデル化する。 我々は、表現とスケールの融合の利点を強調し、関係をモデル化する広範囲なアブレーション実験を行う。 提案手法は,KITTI 3Dオブジェクト検出データセットとWaymo Open Dataset上での最先端性能を実現する。 その結果,Waymo Open Datasetの全クラスに対して,M3DeTRは1.48%のmAPでベースラインを大幅に改善した。 特に,車と自転車の両クラスでよく知られたkitti 3d検出ベンチマークで1位,単一フレームポイントクラウド入力によるwaymo open datasetでは1位にランクインした。

We present a novel architecture for 3D object detection, M3DeTR, which combines different point cloud representations (raw, voxels, bird-eye view) with different feature scales based on multi-scale feature pyramids. M3DeTR is the first approach that unifies multiple point cloud representations, feature scales, as well as models mutual relationships between point clouds simultaneously using transformers. We perform extensive ablation experiments that highlight the benefits of fusing representation and scale, and modeling the relationships. Our method achieves state-of-the-art performance on the KITTI 3D object detection dataset and Waymo Open Dataset. Results show that M3DeTR improves the baseline significantly by 1.48% mAP for all classes on Waymo Open Dataset. In particular, our approach ranks 1st on the well-known KITTI 3D Detection Benchmark for both car and cyclist classes, and ranks 1st on Waymo Open Dataset with single frame point cloud input.
翻訳日:2021-04-27 14:41:17 公開日:2021-04-24
# ハイパースペクトル画像のためのアンカーグラフを用いた空間スペクトルクラスタリング

Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image ( http://arxiv.org/abs/2104.11904v1 )

ライセンス: Link先を確認
Qi Wang, Yanling Miao, Mulin Chen, Xuelong Li(参考訳) hyperspectral image (hsi)クラスタリングは、ハイパースペクトラルピクセルをクラスタに分割することを目的としており、実用的な応用において大きな注目を集めている。 近年,データ関係をモデル化するために隣接グラフを構築するグラフベースのクラスタリング手法が多数提案されている。 しかし、hsiデータの高次元化はペアワイズ隣接グラフの構築を困難にしている。 さらに、多くの空間構造はクラスタリングの過程で見過ごされることが多い。 本稿では,高次元問題に対処し,空間構造を保存するために,HSIデータクラスタリングのためのアンカーグラフ(SSCAG)を用いた空間スペクトルクラスタリングという,新しい非教師なし手法を提案する。 The SSCAG has the following contributions: 1) the anchor graph-based strategy is used to construct a tractable large graph for HSI data, which effectively exploits all data points and reduces the computational complexity; 2) a new similarity metric is presented to embed the spatial-spectral information into the combined adjacent graph, which can mine the intrinsic property structure of HSI data; 3) an effective neighbors assignment strategy is adopted in the optimization, which performs the singular value decomposition (SVD) on the adjacent graph to get solutions efficiently. 3つの公開HSIデータセットに対する大規模な実験は、提案されたSSCAGが最先端のアプローチと競合していることを示している。

Hyperspectral image (HSI) clustering, which aims at dividing hyperspectral pixels into clusters, has drawn significant attention in practical applications. Recently, many graph-based clustering methods, which construct an adjacent graph to model the data relationship, have shown dominant performance. However, the high dimensionality of HSI data makes it hard to construct the pairwise adjacent graph. Besides, abundant spatial structures are often overlooked during the clustering procedure. In order to better handle the high dimensionality problem and preserve the spatial structures, this paper proposes a novel unsupervised approach called spatial-spectral clustering with anchor graph (SSCAG) for HSI data clustering. The SSCAG has the following contributions: 1) the anchor graph-based strategy is used to construct a tractable large graph for HSI data, which effectively exploits all data points and reduces the computational complexity; 2) a new similarity metric is presented to embed the spatial-spectral information into the combined adjacent graph, which can mine the intrinsic property structure of HSI data; 3) an effective neighbors assignment strategy is adopted in the optimization, which performs the singular value decomposition (SVD) on the adjacent graph to get solutions efficiently. Extensive experiments on three public HSI datasets show that the proposed SSCAG is competitive against the state-of-the-art approaches.
翻訳日:2021-04-27 14:41:00 公開日:2021-04-24
# 適応外観レンダリング

Adaptive Appearance Rendering ( http://arxiv.org/abs/2104.11931v1 )

ライセンス: Link先を確認
Mengyao Zhai, Ruizhi Deng, Jiacheng Chen, Lei Chen, Zhiwei Deng, Greg Mori(参考訳) そこで本稿では,望ましい外観とポーズを与えられた人々の画像を生成するアプローチを提案する。 生成画像の複合変動を扱うには,ポーズと外観の絡み合った表現が必要となる。 そこで本研究では,ポーズと外観の中間表現に基づくアプローチを開発し,まず,エンコーダ・デコーダニューラルネットワークを用いて対象者のポーズを符号化する。 そして、完全畳み込みネットワークを用いて適応的外観フィルタを学習することにより、ターゲットの外観を符号化する。 最後に、これらのフィルタをエンコーダデコーダニューラルネットワークに配置してレンダリングを完了させる。 本モデルでは,最先端の手法よりも優れた画像や映像を生成でき,画像と映像の両方においてポーズ案内映像のレンダリングを処理できることを実証する。

We propose an approach to generate images of people given a desired appearance and pose. Disentangled representations of pose and appearance are necessary to handle the compound variability in the resulting generated images. Hence, we develop an approach based on intermediate representations of poses and appearance: our pose-guided appearance rendering network firstly encodes the targets' poses using an encoder-decoder neural network. Then the targets' appearances are encoded by learning adaptive appearance filters using a fully convolutional network. Finally, these filters are placed in the encoder-decoder neural networks to complete the rendering. We demonstrate that our model can generate images and videos that are superior to state-of-the-art methods, and can handle pose guided appearance rendering in both image and video generation.
翻訳日:2021-04-27 14:40:41 公開日:2021-04-24
# Piggyback GAN:イメージコンディショニングのための効率的な生涯学習

Piggyback GAN: Efficient Lifelong Learning for Image Conditioned Generation ( http://arxiv.org/abs/2104.11939v1 )

ライセンス: Link先を確認
Mengyao Zhai, Lei Chen, Jiawei He, Megha Nawhal, Frederick Tung, Greg Mori(参考訳) 人間は生涯を通じて知識を蓄積する。 一方、現代のディープニューラルネットワークは破滅的な忘れがちで、新しいタスクの実行に適応すると、前もって学習したタスクのパフォーマンスを維持できないことが多い。 タスクのシーケンスが与えられた場合、破滅的な忘れに対処する単純なアプローチは、各タスクに対して独立したスタンドアロンモデルをトレーニングすることである。 対照的に,従来のタスクでトレーニングされたモデルのフィルタに因果化される畳み込みフィルタとデコンボリューションフィルタのセットを構築することにより,現在のタスクを学習するパラメータ効率の高いフレームワーク piggyback gan を提案する。 現在のタスクでは,本モデルでは,パラメータ数が低いスタンドアロンモデルと同等の高次品質を実現している。 従来のタスクでは,従来のタスクのフィルタが変更されないため,生成品質も維持できる。 そこで我々はPiggyback GANを様々な領域にわたる画像条件付き生成タスクで検証し,定性的かつ定量的な結果を得るとともに,提案手法が破滅的忘れを効果的かつ効率的に解決できることを示す。

Humans accumulate knowledge in a lifelong fashion. Modern deep neural networks, on the other hand, are susceptible to catastrophic forgetting: when adapted to perform new tasks, they often fail to preserve their performance on previously learned tasks. Given a sequence of tasks, a naive approach addressing catastrophic forgetting is to train a separate standalone model for each task, which scales the total number of parameters drastically without efficiently utilizing previous models. In contrast, we propose a parameter efficient framework, Piggyback GAN, which learns the current task by building a set of convolutional and deconvolutional filters that are factorized into filters of the models trained on previous tasks. For the current task, our model achieves high generation quality on par with a standalone model at a lower number of parameters. For previous tasks, our model can also preserve generation quality since the filters for previous tasks are not altered. We validate Piggyback GAN on various image-conditioned generation tasks across different domains, and provide qualitative and quantitative results to show that the proposed approach can address catastrophic forgetting effectively and efficiently.
翻訳日:2021-04-27 14:40:28 公開日:2021-04-24
# 自己認識型プールと1次元畳み込みを用いた音声からの言語ID予測

Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions ( http://arxiv.org/abs/2104.11985v1 )

ライセンス: Link先を確認
Roman Bedyakin, Nikolay Mikhaylovskiy(参考訳) 本報告では,SIGTYP 2021におけるNTR-TSUによる音声からの言語ID予測タスクについて述べる。 音声言語識別(LID)は多言語自動音声認識(ASR)システムパイプラインにおいて重要なステップである。 多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。 本報告では,自己拘束的プーリング層を有する畳み込みニューラルネットワークが,言語識別タスクに有望な結果を示すことを示す。

This memo describes NTR-TSU submission for SIGTYP 2021 Shared Task on predicting language IDs from speech. Spoken Language Identification (LID) is an important step in a multilingual Automated Speech Recognition (ASR) system pipeline. For many low-resource and endangered languages, only single-speaker recordings may be available, demanding a need for domain and speaker-invariant language ID systems. In this memo, we show that a convolutional neural network with a Self-Attentive Pooling layer shows promising results for the language identification task.
翻訳日:2021-04-27 14:30:28 公開日:2021-04-24
# LGD-GCN: ローカルおよびグローバルな分散グラフ畳み込みネットワーク

LGD-GCN: Local and Global Disentangled Graph Convolutional Networks ( http://arxiv.org/abs/2104.11893v1 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang(参考訳) disentangled graph convolutional network(disengcn)は、実世界のグラフで発生する潜在要因を解消するためのフレームワークである。 しかし、ローカルな範囲(すなわちノードとその1ホップの隣人)からの情報の密接化に依存しており、多くの場合、ローカルな情報は不均一で不完全であり、DisenGCNの補間力やモデル性能を妨げている。 本稿では,ローカル・グローバル・ディスタングル型グラフ畳み込みネットワーク(LGD-GCN)について紹介する。 LGD-GCNは、因子対応の潜在連続空間を導出する統計混合モデルを実行し、異なる構造 w.r.t を構築する。 明らかにされた空間と異なる要因です このようにして、グローバルファクタ固有の情報は、これらの構築された構造に沿って渡されるメッセージを通じて効率的かつ選択的にエンコードされ、ファクタ内一貫性が強化される。 また, 潜在空間モデルを用いて, 因子間多様性を促進するための新しい多様性促進手法を提案する。 合成および実世界のデータセットに対するLGD-GCNの評価は、既存の競合モデルよりも優れた解釈可能性とノード分類の性能の向上を示している。

Disentangled Graph Convolutional Network (DisenGCN) is an encouraging framework to disentangle the latent factors arising in a real-world graph. However, it relies on disentangling information heavily from a local range (i.e., a node and its 1-hop neighbors), while the local information in many cases can be uneven and incomplete, hindering the interpretabiliy power and model performance of DisenGCN. In this paper, we introduce a novel Local and Global Disentangled Graph Convolutional Network (LGD-GCN) to capture both local and global information for graph disentanglement. LGD-GCN performs a statistical mixture modeling to derive a factor-aware latent continuous space, and then constructs different structures w.r.t. different factors from the revealed space. In this way, the global factor-specific information can be efficiently and selectively encoded via a message passing along these built structures, strengthening the intra-factor consistency. We also propose a novel diversity promoting regularizer employed with the latent space modeling, to encourage inter-factor diversity. Evaluations of the proposed LGD-GCN on the synthetic and real-world datasets show a better interpretability and improved performance in node classification over the existing competitive models.
翻訳日:2021-04-27 14:30:19 公開日:2021-04-24
# 条件付き生成型adversarial networkとアンサンブルアクティブラーニングによる教師付き異常検出

Supervised Anomaly Detection via Conditional Generative Adversarial Network and Ensemble Active Learning ( http://arxiv.org/abs/2104.11952v1 )

ライセンス: Link先を確認
Zhi Chen, Jiang Duan, Li Kang and Guoping Qiu(参考訳) 異常検出はマシンインテリジェンスに広く応用されているが、未解決の問題である。 主な課題はラベル付き異常の希少性であり、非常に不均衡な問題である。 従来の教師なし異常検出器は最適であるが、教師なしモデルは通常のデータに偏りのある予測をすることができる。 本稿では,EAL-GAN(Ensemble Active Learning Generative Adversarial Network)を導入し,新しい教師付き異常検出手法を提案する。 EAL-GANは、識別器の補助分類器によって異常検出を行う複数の識別器アーキテクチャに対して、ユニークな1つのジェネレータを持つ条件付きGANである。 条件付きGANを用いてクラスバランス付補足訓練データを生成することに加え、各識別器が他者の欠陥を補うことを保証した革新的なアンサンブル学習損失関数を設計し、実世界のデータのラベル付けコストを大幅に削減するアクティブ学習アルゴリズムを導入する。 我々は,新しい異常検出器が様々なSOTA法を有意なマージンで一貫した性能を発揮することを示すため,広範囲な実験結果を示した。 コードはgithubから入手できる。

Anomaly detection has wide applications in machine intelligence but is still a difficult unsolved problem. Major challenges include the rarity of labeled anomalies and it is a class highly imbalanced problem. Traditional unsupervised anomaly detectors are suboptimal while supervised models can easily make biased predictions towards normal data. In this paper, we present a new supervised anomaly detector through introducing the novel Ensemble Active Learning Generative Adversarial Network (EAL-GAN). EAL-GAN is a conditional GAN having a unique one generator vs. multiple discriminators architecture where anomaly detection is implemented by an auxiliary classifier of the discriminator. In addition to using the conditional GAN to generate class balanced supplementary training data, an innovative ensemble learning loss function ensuring each discriminator makes up for the deficiencies of the others is designed to overcome the class imbalanced problem, and an active learning algorithm is introduced to significantly reduce the cost of labeling real-world data. We present extensive experimental results to demonstrate that the new anomaly detector consistently outperforms a variety of SOTA methods by significant margins. The codes are available on Github.
翻訳日:2021-04-27 14:29:55 公開日:2021-04-24
# 非剛性画像登録のための深層畳み込みニューラルネットワーク

Deep Convolutional Neural Network for Non-rigid Image Registration ( http://arxiv.org/abs/2104.12034v1 )

ライセンス: Link先を確認
Eduard F. Durech(参考訳) 異なる時間や位置で撮影された画像は、回転、スケーリング、歪むなどの変換を受ける。 変換された異なる画像を整列するプロセスは、登録によって行うことができる。 登録は、疾患の追跡、平均化、または鑑別診断のための時系列データを分析する際に望ましい。 剛性変換(線形変換やアフィン変換を含む)には効率的な登録方法が存在するが、非剛性変換(非アフィン変換とも呼ばれる)では、現在の手法は計算に高価で時間を要する。 本稿では、深層ニューラルネットワーク(dnn)と、より具体的には、深層畳み込みニューラルネットワーク(cnn)の非剛性画像登録を効率的に行う能力について検討する。 実験の結果、CNNは非剛体画像の効率的な登録に利用でき、従来のDiffomorphic Demons や Pyramiding に比べて計算時間もかなり少ないことがわかった。

Images taken at different times or positions undergo transformations such as rotation, scaling, skewing, and more. The process of aligning different images which have undergone transformations can be done via registration. Registration is desirable when analyzing time-series data for tracking, averaging, or differential diagnoses of diseases. Efficient registration methods exist for rigid (including linear or affine) transformations; however, for non-rigid (also known as non-affine) transformations, current methods are computationally expensive and time-consuming. In this report, I will explore the ability of a deep neural network (DNN) and, more specifically, a deep convolutional neural network (CNN) to efficiently perform non-rigid image registration. The experimental results show that a CNN can be used for efficient non-rigid image registration and in significantly less computational time than a conventional Diffeomorphic Demons or Pyramiding approach.
翻訳日:2021-04-27 14:25:52 公開日:2021-04-24
# サブセット埋め込みによる多次元データの探索

Exploring Multi-dimensional Data via Subset Embedding ( http://arxiv.org/abs/2104.11867v1 )

ライセンス: Link先を確認
Peng Xie, Wenyuan Tao, Jie Li, Wentao Huang, Siming Chen(参考訳) 多次元データ探索は可視化における古典的な研究テーマである。 既存のアプローチのほとんどは、次元空間や部分空間のレコードパターンを特定するように設計されている。 本稿では,サブセットパターンを探索する視覚分析手法を提案する。 アプローチの中核はサブセット埋め込みネットワーク(SEN)であり、サブセットの群を一様に変形した埋め込みとして表現する。 損失関数を分離した複数のサブネットとしてSENを実装した。 この設計により、任意のサブセットを処理し、単一の機能上のサブセットの類似性をキャプチャできるため、正確なパターン探索が可能になる。 さらに、各サブネットは1つの隠れレイヤを持つ完全に接続されたニューラルネットワークである。 単純な構造は高い訓練効率をもたらす。 SENを3段階のワークフローを実現する可視化システムに統合する。 具体的には、アナリストは(1)データセットをサブセットに分割し、(2)senを使って生成された投影された潜在空間内の部分を選択し、(3)選択されたサブセット内のパターンの存在を決定する。 一般に, 可視化, 対話, 自動手法, 定量的手法を組み合わせることで, 探索の柔軟性と操作効率をバランスさせ, 同定されたパターンの解釈性と忠実性を向上させる。 複数のオープンデータセットに関するケーススタディと定量的実験は、我々のアプローチの汎用性と有効性を示している。

Multi-dimensional data exploration is a classic research topic in visualization. Most existing approaches are designed for identifying record patterns in dimensional space or subspace. In this paper, we propose a visual analytics approach to exploring subset patterns. The core of the approach is a subset embedding network (SEN) that represents a group of subsets as uniformly-formatted embeddings. We implement the SEN as multiple subnets with separate loss functions. The design enables to handle arbitrary subsets and capture the similarity of subsets on single features, thus achieving accurate pattern exploration, which in most cases is searching for subsets having similar values on few features. Moreover, each subnet is a fully-connected neural network with one hidden layer. The simple structure brings high training efficiency. We integrate the SEN into a visualization system that achieves a 3-step workflow. Specifically, analysts (1) partition the given dataset into subsets, (2) select portions in a projected latent space created using the SEN, and (3) determine the existence of patterns within selected subsets. Generally, the system combines visualizations, interactions, automatic methods, and quantitative measures to balance the exploration flexibility and operation efficiency, and improve the interpretability and faithfulness of the identified patterns. Case studies and quantitative experiments on multiple open datasets demonstrate the general applicability and effectiveness of our approach.
翻訳日:2021-04-27 14:22:57 公開日:2021-04-24
# Baller2vec++: 協調エージェントをモデル化するためのルックアヘッドマルチエンティティトランスフォーマー

baller2vec++: A Look-Ahead Multi-Entity Transformer For Modeling Coordinated Agents ( http://arxiv.org/abs/2104.11980v1 )

ライセンス: Link先を確認
Michael A. Alcorn, Anh Nguyen(参考訳) 多くのマルチエージェントの時空間システムでは、エージェントは共有変数(例えば、チームがバスケットボールの試合で実行しているプレー)の影響を受けている。 結果として、エージェントの軌道はしばしば任意の時間ステップで統計的に依存するが、概して、マルチエージェントモデルはエージェントの軌道は各時間ステップで統計的に独立であると暗黙的に仮定する。 本稿では,コーディネートエージェントを効果的にモデル化できるマルチエンティティトランスフォーマであるballer2vec++を紹介する。 特に、Baller2vec++は、統計的に依存するエージェント軌跡の分布を学習するために、ロケーションと"ルックアヘッド"トラジェクトリシーケンスの混合に特別に設計されたセルフアテンションマスクを適用している。 baller2vec(baller2ve c++の前身)とは異なり、baller2vec++は完全な調整されたエージェントの振る舞いをシミュレートされたトイデータセットでエミュレートすることを学ぶことができる。 さらに、プロバスケットボール選手の軌道をモデル化するとき、baller2vec++はballer2vecをはるかに上回っている。

In many multi-agent spatiotemporal systems, the agents are under the influence of shared, unobserved variables (e.g., the play a team is executing in a game of basketball). As a result, the trajectories of the agents are often statistically dependent at any given time step; however, almost universally, multi-agent models implicitly assume the agents' trajectories are statistically independent at each time step. In this paper, we introduce baller2vec++, a multi-entity Transformer that can effectively model coordinated agents. Specifically, baller2vec++ applies a specially designed self-attention mask to a mixture of location and "look-ahead" trajectory sequences to learn the distributions of statistically dependent agent trajectories. We show that, unlike baller2vec (baller2vec++'s predecessor), baller2vec++ can learn to emulate the behavior of perfectly coordinated agents in a simulated toy dataset. Additionally, when modeling the trajectories of professional basketball players, baller2vec++ outperforms baller2vec by a wide margin.
翻訳日:2021-04-27 14:22:39 公開日:2021-04-24
# ソフトウェアリポジトリの報告されるバグの数を予測する

Predicting the Number of Reported Bugs in a Software Repository ( http://arxiv.org/abs/2104.12001v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar(参考訳) バグ成長パターンの予測は複雑で未解決のタスクであり、かなりの注意が必要である。 ソフトウェアシステムで見つかる可能性のあるバグの数に関する高度な知識は、ソフトウェア開発者が十分なリソースを便利なタイミングで指定するのに役立ちます。 開発者はそのような情報を使ってシステムの品質を高め、顧客満足度を高めるために必要なアクションを取ることもできる。 本研究では,Long Short Term Memory Neural Networks (LSTM), Auto-Regressive Integrated moving average (ARIMA), Random Forest Regressorの8種類の時系列予測モデルについて検討した。 さらに,ソフトウェアリリース日などの外因性変数の影響を予測モデルに組み込むことで評価する。 我々は,各モデルの長期予測の質を,異なる性能指標に基づいて分析する。 この評価は、大規模なオープンソースソフトウェアアプリケーションであるMozillaで行われている。 データセットはもともとBugzillaから採掘されたもので、2010年1月から2019年12月までのプロジェクトのバグ数を含んでいる。 我々の数値解析は、バグリポジトリのトレンドを評価する洞察を提供する。 LSTMは長期予測において有効であるのに対し,外来変数に富んだランダムフォレスト回帰器は短期的なバグ数予測に優れていた。

The bug growth pattern prediction is a complicated, unrelieved task, which needs considerable attention. Advance knowledge of the likely number of bugs discovered in the software system helps software developers in designating sufficient resources at a convenient time. The developers may also use such information to take necessary actions to increase the quality of the system and in turn customer satisfaction. In this study, we examine eight different time series forecasting models, including Long Short Term Memory Neural Networks (LSTM), auto-regressive integrated moving average (ARIMA), and Random Forest Regressor. Further, we assess the impact of exogenous variables such as software release dates by incorporating those into the prediction models. We analyze the quality of long-term prediction for each model based on different performance metrics. The assessment is conducted on Mozilla, which is a large open-source software application. The dataset is originally mined from Bugzilla and contains the number of bugs for the project between Jan 2010 and Dec 2019. Our numerical analysis provides insights on evaluating the trends in a bug repository. We observe that LSTM is effective when considering long-run predictions whereas Random Forest Regressor enriched by exogenous variables performs better for predicting the number of bugs in the short term.
翻訳日:2021-04-27 14:22:18 公開日:2021-04-24
# 良性コントラスト予測符号化

Aligned Contrastive Predictive Coding ( http://arxiv.org/abs/2104.11946v1 )

ライセンス: Link先を確認
Jan Chorowski, Grzegorz Ciesielski, Jaros{\l}aw Dzikowski, Adrian {\L}ancucki, Ricard Marxer, Mateusz Opala, Piotr Pusz, Pawe{\l} Rychlikowski, Micha{\l} Stypu{\l}kowski(参考訳) コントラスト予測損失を用いて学習した自己教師付きモデルを用いて,ゆるやかに変化する潜在表現を抽出する可能性について検討する。 将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。 このようにして、予測ネットワークは、次のシンボルを予測するよりも、その正確なタイミングではなく、より簡単なタスクを解決し、一方、符号化ネットワークは、断片的に一定の潜在コードを生成するように訓練される。 そこで本研究では,音声符号化タスクにおけるモデルの評価を行い,提案手法を用いたコントラスト予測符号化(acpc)により,線形電話の予測精度が向上し,abx誤り率が低下することを示す。

We investigate the possibility of forcing a self-supervised model trained using a contrastive predictive loss to extract slowly varying latent representations. Rather than producing individual predictions for each of the future representations, the model emits a sequence of predictions shorter than that of the upcoming representations to which they will be aligned. In this way, the prediction network solves a simpler task of predicting the next symbols, but not their exact timing, while the encoding network is trained to produce piece-wise constant latent codes. We evaluate the model on a speech coding task and demonstrate that the proposed Aligned Contrastive Predictive Coding (ACPC) leads to higher linear phone prediction accuracy and lower ABX error rates, while being slightly faster to train due to the reduced number of prediction heads.
翻訳日:2021-04-27 14:19:59 公開日:2021-04-24
# DecentLaM:大規模深層学習のための分散モーメントSGD

DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training ( http://arxiv.org/abs/2104.11981v1 )

ライセンス: Link先を確認
Kun Yuan, Yiming Chen, Xinmeng Huang, Yingya Zhang, Pan Pan, Yinghui Xu, Wotao Yin(参考訳) ディープラーニングのスケールでは、効率的な分散トレーニングアルゴリズムが求められている。 分散運動量 SGD (DmSGD) は、各ノードが隣り合うだけで平均となるが、全ての計算ノードで世界平均を発生させるバニラ並列運動量 SGD よりも通信効率が高い。 一方、大規模バッチトレーニングは実行時のスピードアップを達成するために重要であることが証明されている。 これはDmSGDが大規模バッチシナリオでどのように機能するかを調査する動機となります。 この研究において、運動量項はDmSGDの不整合バイアスを増幅することができる。 このようなバイアスは、バッチサイズが大きくなり、結果としてパフォーマンスが著しく低下するにつれてより明確になる。 次に,新しい分散型大バッチ運動量SGDであるDecentLaMを提案する。 非凸シナリオと強凸シナリオの収束速度が確立される。 我々の理論的結果は,特に大規模バッチシナリオにおけるDmSGDに対するDecentLaMの優位性を正当化するものである。 様々なコンピュータビジョンタスクとモデルの実験結果は、DecentLaMが効率的かつ高品質なトレーニングを約束していることを示している。

The scale of deep learning nowadays calls for efficient distributed training algorithms. Decentralized momentum SGD (DmSGD), in which each node averages only with its neighbors, is more communication efficient than vanilla Parallel momentum SGD that incurs global average across all computing nodes. On the other hand, the large-batch training has been demonstrated critical to achieve runtime speedup. This motivates us to investigate how DmSGD performs in the large-batch scenario. In this work, we find the momentum term can amplify the inconsistency bias in DmSGD. Such bias becomes more evident as batch-size grows large and hence results in severe performance degradation. We next propose DecentLaM, a novel decentralized large-batch momentum SGD to remove the momentum-incurred bias. The convergence rate for both non-convex and strongly-convex scenarios is established. Our theoretical results justify the superiority of DecentLaM to DmSGD especially in the large-batch scenario. Experimental results on a variety of computer vision tasks and models demonstrate that DecentLaM promises both efficient and high-quality training.
翻訳日:2021-04-27 14:19:44 公開日:2021-04-24