このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210131となっている論文です。

PDF登録状況(公開日: 20210131)

TitleAuthorsAbstract論文公表日・翻訳日
# LABNet: 車両再同定のためのクラスバランス損失を有する局所グラフ集約ネットワーク

LABNet: Local Graph Aggregation Network with Class Balanced Loss for Vehicle Re-Identification ( http://arxiv.org/abs/2011.14417v2 )

ライセンス: Link先を確認
Abu Md Niamul Taufique and Andreas Savakis(参考訳) 車両再識別は、様々な視点で見られる車両群の中で特定の車両を特定することを目的としている重要なコンピュータビジョンタスクである。 深層学習に基づく最近の手法は,背骨特徴抽出器の後にグローバル平均プール層を利用するが,この機能は特徴写像上の空間的推論を無視する。 本稿では,バックボーンの特徴マップ上の局所グラフ集約を提案し,局所情報の関連性を学習し,特徴学習を改善するとともに,部分閉塞や背景乱れの影響を低減する。 我々の局所グラフ集約ネットワークは特徴マップの空間領域をノードとみなし、グローバル平均プール層の前に局所特徴集計を行う局所近傍グラフを構築した。 さらに,バッチ正規化層を利用してシステム効率を向上させる。 さらに、最も広く使われている車両再識別データセットに見られるサンプル分布の不均衡を補うために、クラスバランス損失を導入する。 最後に,本手法を3つのベンチマークで評価し,本手法が最先端手法よりも優れていることを示す。

Vehicle re-identification is an important computer vision task where the objective is to identify a specific vehicle among a set of vehicles seen at various viewpoints. Recent methods based on deep learning utilize a global average pooling layer after the backbone feature extractor, however, this ignores any spatial reasoning on the feature map. In this paper, we propose local graph aggregation on the backbone feature map, to learn associations of local information and hence improve feature learning as well as reduce the effects of partial occlusion and background clutter. Our local graph aggregation network considers spatial regions of the feature map as nodes and builds a local neighborhood graph that performs local feature aggregation before the global average pooling layer. We further utilize a batch normalization layer to improve the system effectiveness. Additionally, we introduce a class balanced loss to compensate for the imbalance in the sample distributions found in the most widely used vehicle re-identification datasets. Finally, we evaluate our method in three popular benchmarks and show that our approach outperforms many state-of-the-art methods.
翻訳日:2021-06-07 09:01:49 公開日:2021-01-31
# 非パラメトリック回帰曲線の群を決定する自動手順

An automatic procedure to determine groups of nonparametric regression curves ( http://arxiv.org/abs/2012.15278v2 )

ライセンス: Link先を確認
Nora M. Villanueva and Marta Sestelo and Celestino Ord\'o\~nez and Javier Roca-Pardi\~nas(参考訳) 多くの場合、非パラメトリック回帰曲線が、特にかなりの数の曲線と向き合う場合にグループ化できるかどうかを確認することは興味深い。 提案するテスト手順は、その数の自動選択によってグループを決定することができる。 提案手法の有限サンプル特性を, 既存手法と比較して検討するために, シミュレーション実験を行った。 最後に,断面の集合を解析してトンネルの形状を研究する手法の適用性を示す。 その結果、トンネル幾何学における異質性の存在が確認された。

In many situations it could be interesting to ascertain whether nonparametric regression curves can be grouped, especially when confronted with a considerable number of curves. The proposed testing procedure allows to determine groups with an automatic selection of their number. A simulation study is presented in order to investigate the finite sample properties of the proposed methods when compared to existing alternative procedures. Finally, the applicability of the procedure to study the geometry of a tunnel by analysing a set of cross-sections is demonstrated. The results obtained show the existence of some heterogeneity in the tunnel geometry.
翻訳日:2021-04-18 05:57:30 公開日:2021-01-31
# 音声認識のための事前学習型深層強化学習のための新しいポリシー

A novel policy for pre-trained Deep Reinforcement Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2101.00738v2 )

ライセンス: Link先を確認
Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Bj\"orn W. Schuller, Jiajun Liu(参考訳) 強化学習(Reinforcement Learning, RL)は、エージェントが環境と対話して学習する半教師付き学習パラダイムである。 RLと組み合わせたディープラーニングは、Deep Reinforcement Learning (Deep RL)と呼ばれる、環境とのインタラクション方法を学ぶための効率的な方法を提供する。 deep rlはalphagoのようなゲームで大きな成功を収めているが、音声感情認識(ser)のような困難なタスクでその可能性を探求することは滅多にない。 SERで使用されているディープRLは、顧客クエリに対する感情認識応答を動的に学習することで、自動コールセンタエージェントのパフォーマンスを向上させることができる。 RLエージェントが採用するポリシーは、アクション選択において重要な役割を果たすが、SERに適した現在のRLポリシーはない。 さらに、学習期間の延長は、SERの学習速度に影響を与えるディープRLの一般的な課題である。 そこで本稿では,SERに適した新しい政策であるゼタポリシーを導入し,より高速な学習率を実現するために深部RLでの事前学習を適用した。 クロスデータセットによる事前トレーニングも研究され、実際の環境データが利用できないシナリオにおいて、同様のデータセットでRLエージェントを事前トレーニングする可能性を発見した。 IEMOCAPとSAVEEデータセットは、提供された発話において4つの感情を幸せ、悲しみ、怒り、中立と認識するために使用される。 実験の結果,提案した「ゼタ政策」は既存政策よりも優れた性能を示した。 その結果、ウォームアップ期間を短縮してトレーニング時間を短縮し、クロスコーポックシナリオに堅牢なトレーニングが可能になる。

Reinforcement Learning (RL) is a semi-supervised learning paradigm which an agent learns by interacting with an environment. Deep learning in combination with RL provides an efficient method to learn how to interact with the environment is called Deep Reinforcement Learning (deep RL). Deep RL has gained tremendous success in gaming - such as AlphaGo, but its potential have rarely being explored for challenging tasks like Speech Emotion Recognition (SER). The deep RL being used for SER can potentially improve the performance of an automated call centre agent by dynamically learning emotional-aware response to customer queries. While the policy employed by the RL agent plays a major role in action selection, there is no current RL policy tailored for SER. In addition, extended learning period is a general challenge for deep RL which can impact the speed of learning for SER. Therefore, in this paper, we introduce a novel policy - "Zeta policy" which is tailored for SER and apply Pre-training in deep RL to achieve faster learning rate. Pre-training with cross dataset was also studied to discover the feasibility of pre-training the RL Agent with a similar dataset in a scenario of where no real environmental data is not available. IEMOCAP and SAVEE datasets were used for the evaluation with the problem being to recognize four emotions happy, sad, angry and neutral in the utterances provided. Experimental results show that the proposed "Zeta policy" performs better than existing policies. The results also support that pre-training can reduce the training time upon reducing the warm-up period and is robust to cross-corpus scenario.
翻訳日:2021-04-11 22:48:45 公開日:2021-01-31
# 複雑な重みを持つニューラルネットワークは、すっきりした局所最小値を持たない

Neural Networks with Complex-Valued Weights Have No Spurious Local Minima ( http://arxiv.org/abs/2103.07287v1 )

ライセンス: Link先を確認
Xingtu Liu(参考訳) ニューラルネットワークにおける複素値重みの利点について検討する。 二次活性化を持つ浅層複雑なニューラルネットワークは局所的ミニマムを持たないことが証明される。 対照的に、2次活性化を持つ浅い実ニューラルネットワークは、同じ条件下で無限に多くの刺激的な局所ミニマを持つ。 さらに,複素値重みが局所的な極小点を鞍点に変換することを示す具体例を示す。 また、複素数値ニューラルネットワークにおける解析活性化の優位性を示すために、アクティベーション関数CReLUについても論じる。

We study the benefits of complex-valued weights for neural networks. We prove that shallow complex neural networks with quadratic activations have no spurious local minima. In contrast, shallow real neural networks with quadratic activations have infinitely many spurious local minima under the same conditions. In addition, we provide specific examples to demonstrate that complex-valued weights turn poor local minima into saddle points. The activation function CReLU is also discussed to illustrate the superiority of analytic activations in complex-valued neural networks.
翻訳日:2021-04-05 00:29:19 公開日:2021-01-31
# TDQMF:二次元量子質量関数

TDQMF: Two-dimensional quantum mass function ( http://arxiv.org/abs/2102.07652v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 量子質量関数は、古典的なデンプスター・シェーファー(D-S)エビデンス理論の拡張と見なされる量子の形で不確実性を管理する効率と妥当性のため、多くの分野で応用されている。 しかし、量子の形での不確実性を扱う方法はまだ未解決の問題である。 本稿では,2次元量子質量関数(TDQMF)と呼ばれる不確実な量子情報を分解する新しい手法を提案する。 TDQMF は TQ = (Q Origin, Qindicative) という2つの要素から構成され、どちらも量子質量関数であり、Qindicative は Q Origin 上の信頼性の指標である。 主量子質量関数と比較して,提案手法により量子場の不確実性を扱う際の柔軟性と有効性を提供する。 また、いくつかの数値例が提示され、その正確性と妥当性を検証するための実用的な応用がなされている。

Quantum mass function has been applied in lots of fields because of its efficiency and validity of managing uncertainties in the form of quantum which can be regarded as an extension of classical Dempster-Shafer (D-S) evidence theory. However, how to handle uncertainties in the form of quantum is still an open issue. In this paper, a new method is proposed to dispose uncertain quantum information, which is called two-dimensional quantum mass function (TDQMF). A TDQMF is consist of two elements, TQ = (Qoriginal, Qindicative), both of the Qs are quantum mass functions, in which the Qindicative is an indicator of the reliability on Qoriginal. More flexibility and effectiveness are offered in handling uncertainty in the field of quantum by the proposed method compared with primary quantum mass function. Besides, some numerical examples are provided and some practical applications are given to verify its correctness and validity
翻訳日:2021-04-05 00:29:11 公開日:2021-01-31
# グラフ畳み込みネットワークを用いた乳幼児のクライ分類

Infant Cry Classification with Graph Convolutional Networks ( http://arxiv.org/abs/2102.02909v1 )

ライセンス: Link先を確認
Chunyan Ji, Ming Chen, Bin Li, Yi Pan(参考訳) 本稿では,頑健な幼児の泣き声分類のためのグラフ畳み込みネットワークを提案する。 畳み込みニューラルネットワークを用いた教師付きノードと半教師付きノードの2つのノード間の類似性に基づいて,非完全連結グラフを構築し,内クラスおよびクラス間メッセージに関連する乳幼児のcry信号の短期的および長期的効果を検討する。 このアプローチは乳幼児の泣き声、特に限られたトレーニングサンプルにおける変化の多様性を捉えている。 このアプローチの有効性は,Baby Chillanto DatabaseとBaby2020 Databaseで評価される。 ラベル付きトレーニングデータの20%に制限があるため、80%のラベル付きトレーニングデータでCNNモデルよりも優れ、ラベル付きトレーニングサンプルの増加とともに精度が安定的に向上する。 最良の結果は7.36%と3.59%の改善を示し、それぞれbaby chillantoデータベースのcnnモデルとbaby2020データベースの結果と比較した。

We propose an approach of graph convolutional networks for robust infant cry classification. We construct non-fully connected graphs based on the similarities among the relevant nodes in both supervised and semi-supervised node classification with convolutional neural networks to consider the short-term and long-term effects of infant cry signals related to inner-class and inter-class messages. The approach captures the diversity of variations within infant cries, especially for limited training samples. The effectiveness of this approach is evaluated on Baby Chillanto Database and Baby2020 database. With as limited as 20% of labeled training data, our model outperforms that of CNN model with 80% labeled training data and the accuracy stably improves as the number of labeled training samples increases. The best results give significant improvements of 7.36% and 3.59% compared with the results of the CNN models on Baby Chillanto database and Baby2020 database respectively.
翻訳日:2021-04-05 00:19:44 公開日:2021-01-31
# 衛星データの機械学習による地震予報の進展に向けて

Towards advancing the earthquake forecasting by machine learning of satellite data ( http://arxiv.org/abs/2102.04334v1 )

ライセンス: Link先を確認
Pan Xiong, Lei Tong, Kun Zhang, Xuhui Shen, Roberto Battiston, Dimitar Ouzounov, Roberto Iuppa, Danny Crookes, Cheng Long, Huiyu Zhou(参考訳) 地震研究に利用可能な技術のうち、リモートセンシングは高速イメージングや広い画像取得範囲などの特徴から一般的に使用されている。 それにもかかわらず、地震前およびリモートセンシング異常に関する初期の研究は、主に1つの物理パラメータの異常同定と解析に向けられている。 多くの分析は特異事象に基づいており、これはこの複雑な自然現象の理解の欠如をもたらす。 このような分析の普遍性はまだ世界規模で実証されていない。 本稿では,地震動データの物理的・動的変化を調査し,その環境への影響から1,371マグニチュード6以上の地震の衛星データに基づく短期予測を行うための新しい機械学習手法,inverse boosting pruning trees (ibpt) を開発した。 提案手法を,2006年から2013年の間に収集した10種類の赤外・ハイパースペクトル測定値を用いて解析し,比較した。 提案手法は, 選択した6つのベースラインすべてより優れており, 異なる地震データベース間での地震予知の可能性が向上することを示す。

Amongst the available technologies for earthquake research, remote sensing has been commonly used due to its unique features such as fast imaging and wide image-acquisition range. Nevertheless, early studies on pre-earthquake and remote-sensing anomalies are mostly oriented towards anomaly identification and analysis of a single physical parameter. Many analyses are based on singular events, which provide a lack of understanding of this complex natural phenomenon because usually, the earthquake signals are hidden in the environmental noise. The universality of such analysis still is not being demonstrated on a worldwide scale. In this paper, we investigate physical and dynamic changes of seismic data and thereby develop a novel machine learning method, namely Inverse Boosting Pruning Trees (IBPT), to issue short-term forecast based on the satellite data of 1,371 earthquakes of magnitude six or above due to their impact on the environment. We have analyzed and compared our proposed framework against several states of the art machine learning methods using ten different infrared and hyperspectral measurements collected between 2006 and 2013. Our proposed method outperforms all the six selected baselines and shows a strong capability in improving the likelihood of earthquake forecasting across different earthquake databases.
翻訳日:2021-04-05 00:19:17 公開日:2021-01-31
# 分散ニューラルバリア証明書を用いた安全マルチエージェント制御の学習

Learning Safe Multi-Agent Control with Decentralized Neural Barrier Certificates ( http://arxiv.org/abs/2101.05436v3 )

ライセンス: Link先を確認
Zengyi Qin, Kaiqing Zhang, Yuxiao Chen, Jingkai Chen, Chuchu Fan(参考訳) 本研究では,エージェントが静的障害への衝突を避け,目標を達成しながら衝突を回避すべきマルチエージェントセーフコントロール問題について検討する。 当社の中核となる考え方は,マルチエージェント制御ポリシと,コントロールバリア機能を安全証明書として学習することにあります。 本稿では,関数クラスを一般化した分散化方式で実装可能な,新しい共同学習フレームワークを提案する。 このような分散化フレームワークは任意の数のエージェントに適応することができる。 このフレームワークを基盤として,隣接エージェントの量と置換に不変なニューラルネットワークアーキテクチャを組み込むことにより,スケーラビリティをさらに向上させる。 また,テスト中の認証条件をさらに強化するために,新たな自然政策改善手法を提案する。 提案手法は,安全性の確保と作業の完了の観点から,他の主要なマルチエージェント制御手法よりも優れていることを示す。 提案手法では,複雑なマルチエージェント環境や動的環境において,最大1024エージェントの他のシナリオで使用しながら,制御ポリシを1つのシナリオで8エージェントでトレーニングすることが可能である。

We study the multi-agent safe control problem where agents should avoid collisions to static obstacles and collisions with each other while reaching their goals. Our core idea is to learn the multi-agent control policy jointly with learning the control barrier functions as safety certificates. We propose a novel joint-learning framework that can be implemented in a decentralized fashion, with generalization guarantees for certain function classes. Such a decentralized framework can adapt to an arbitrarily large number of agents. Building upon this framework, we further improve the scalability by incorporating neural network architectures that are invariant to the quantity and permutation of neighboring agents. In addition, we propose a new spontaneous policy refinement method to further enforce the certificate condition during testing. We provide extensive experiments to demonstrate that our method significantly outperforms other leading multi-agent control approaches in terms of maintaining safety and completing original tasks. Our approach also shows exceptional generalization capability in that the control policy can be trained with 8 agents in one scenario, while being used on other scenarios with up to 1024 agents in complex multi-agent environments and dynamics.
翻訳日:2021-03-29 00:47:28 公開日:2021-01-31
# ミスバウンドオンライン学習における盗聴フィードバックの価格に関する一考察

A note on the price of bandit feedback for mistake-bounded online learning ( http://arxiv.org/abs/2101.06891v2 )

ライセンス: Link先を確認
Jesse Geneson(参考訳) 標準モデルとバンディットモデルは、ミスバウンドモデルからオンラインマルチクラス分類への2つの一般化である。 どちらのモデルでも、学習者は各ラウンドの分類を推測するが、標準モデルでは、学習者は各推測の後に正しい分類を関連付けるが、バンディットモデルでは、学習者は各ラウンドの推測が正しいかどうかのみを指示される。 マルチクラス分類器の任意のセット$F$に対して、$opt_{std}(F)$と$opt_{bandit}(F)$をそれぞれ標準モデルとバンディットモデルにおける予測ミスの最適ケース数として定義する。 Long (Theoretical Computer Science, 2020) は、すべての$M > 2$と無限に多くの $k$ に対して、$opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1o(1))(|Y|\ln{|Y|})opt_{std}(F)$ であるような集合 $X$ から a set $Y$ までの関数の集合 $F$ が存在すると主張した。 この結果の証明は次の補題(例えば偽)に依存する。 すべての素数$p \ge 5$, $s = \mathbf{1}$ (すべての$$ベクトル)、$t = \mathbf{2}$ (すべての$2$ベクトル)、およびすべての$z$に対して。 Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be uniformly at random from $\left\{0, \dots, p-1\right\}^n$。 任意の$s, t \in \left\{1, \dots, p-1\right\}^n$ with $s \neq t$ and any $z \in \left\{0, \dots, p-1\right\}$ に対して、$\pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u = z \mod p) = \frac{1}{p}$ となる。 この補題は、$s$ と $t$ が互いに mod $p$ であるときに正しく偽であることを示している。 そして、新しい補題を使って、Longの証明を修正する。

The standard model and the bandit model are two generalizations of the mistake-bound model to online multiclass classification. In both models the learner guesses a classification in each round, but in the standard model the learner recieves the correct classification after each guess, while in the bandit model the learner is only told whether or not their guess is correct in each round. For any set $F$ of multiclass classifiers, define $opt_{std}(F)$ and $opt_{bandit}(F)$ to be the optimal worst-case number of prediction mistakes in the standard and bandit models respectively. Long (Theoretical Computer Science, 2020) claimed that for all $M > 2$ and infinitely many $k$, there exists a set $F$ of functions from a set $X$ to a set $Y$ of size $k$ such that $opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1 - o(1))(|Y|\ln{|Y|})opt_{std}(F)$. The proof of this result depended on the following lemma, which is false e.g. for all prime $p \ge 5$, $s = \mathbf{1}$ (the all $1$ vector), $t = \mathbf{2}$ (the all $2$ vector), and all $z$. Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be chosen uniformly at random from $\left\{0, \dots, p-1\right\}^n$. For any $s, t \in \left\{1, \dots, p-1\right\}^n$ with $s \neq t$ and for any $z \in \left\{0, \dots, p-1\right\}$, we have $\Pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u = z \mod p) = \frac{1}{p}$. We show that this lemma is false precisely when $s$ and $t$ are multiples of each other mod $p$. Then using a new lemma, we fix Long's proof.
翻訳日:2021-03-27 05:48:58 公開日:2021-01-31
# (参考訳) BERTベクトル表現に基づくテキストの基本感情の分析 [全文訳有]

Analysis of Basic Emotions in Texts Based on BERT Vector Representation ( http://arxiv.org/abs/2101.11433v2 )

ライセンス: CC BY 4.0
A. Artemov, A. Veselovskiy, I. Khasenevich, I. Bolokhov(参考訳) 下記の論文では、テキストにおける感情認識の課題のための、GAN型モデルとその開発の最も重要な段階について述べる。 特に,手作業でラベルづけされた不完全なデータに基づいて,すべての感情の組み合わせの合成データセットを生成する手法を提案する。

In the following paper the authors present a GAN-type model and the most important stages of its development for the task of emotion recognition in text. In particular, we propose an approach for generating a synthetic dataset of all possible emotions combinations based on manually labelled incomplete data.
翻訳日:2021-03-21 18:38:38 公開日:2021-01-31
# ハイブリッド回転平均化:高速かつロバストな回転平均化アプローチ

Hybrid Rotation Averaging: A Fast and Robust Rotation Averaging Approach ( http://arxiv.org/abs/2101.09116v2 )

ライセンス: Link先を確認
Yu Chen and Ji Zhao and Laurent Kneip(参考訳) 回転平均化(RA)と実世界の3D再構成への応用について述べる。 局所最適化に基づくアプローチはデファクトの選択であるが、局所最適化のみを保証する。 グローバルオプティマイザは低騒音条件下でのグローバルな最適性を保証するが、非効率であり、外れ値や高騒音の影響を受けやすい。 我々は,大域的RA法と局所的RA法の利点を利用して,回転平均化のエンベロープを推し進める。 高速なビューグラフフィルタリングを前処理として組み合わせることで、提案したハイブリッドアプローチは外れ値に対して堅牢である。 提案手法のハイブリッド回転平均化手法を, 正規化器として大域回転を付加することにより, 運動からのインクリメンタル構造(SfM)に適用する。 全体として,悪質なカメラポーズを効果的に補正し,ドリフトを低減し,提案手法の実用性が高いことを示す。

We address rotation averaging (RA) and its application to real-world 3D reconstruction. Local optimisation based approaches are the defacto choice, though they only guarantee a local optimum. Global optimizers ensure global optimality in low noise conditions, but they are inefficient and may easily deviate under the influence of outliers or elevated noise levels. We push the envelope of rotation averaging by leveraging the advantages of global RA method and local RA method. Combined with a fast view graph filtering as preprocessing, the proposed hybrid approach is robust to outliers. We apply the proposed hybrid rotation averaging approach to incremental Structure from Motion (SfM) by adding the resulting global rotations as regularizers to bundle adjustment. Overall, we demonstrate high practicality of the proposed method as bad camera poses are effectively corrected and drift is reduced.
翻訳日:2021-03-20 17:24:26 公開日:2021-01-31
# (参考訳) 大発生時の社会的ダイナミクスの自動モニタリング : バングラデシュにおけるCOVID-19の事例

Automatic Monitoring Social Dynamics During Big Incidences: A Case Study of COVID-19 in Bangladesh ( http://arxiv.org/abs/2101.09667v2 )

ライセンス: CC BY 4.0
Fahim Shahriar, Md Abul Bashar(参考訳) 新聞は信頼できるメディアであり、他の情報源と比べて信頼できる信頼できる情報が得られる。 一方、ソーシャルメディアは、トラフィックと注目を集めるために、噂や誤解を招くニュースを広めることが多い。 新聞データの綿密な特徴付け、評価、解釈は、興味深く情熱的な社会問題に対する洞察を与え、大きな社会の発生率を監視する。 本研究は、新型コロナウイルスのパンデミックに関連する時空間バングラデシュの新聞データを大量に分析した。 この手法には、ボリューム分析、トピック分析、自動分類、ニュース記事の感情分析が含まれており、バングラデシュのさまざまなセクターや地域における新型コロナウイルスのパンデミックに関する洞察を一定期間にわたって得ることができる。 この分析は、政府や他の組織が、このパンデミックによって社会に生じた課題、即時かつ後パンデミック期において、政府やその同盟国が将来の危機にどう対処し、これらの問題を念頭に置いていくかを理解するのに役立ちます。

Newspapers are trustworthy media where people get the most reliable and credible information compared with other sources. On the other hand, social media often spread rumors and misleading news to get more traffic and attention. Careful characterization, evaluation, and interpretation of newspaper data can provide insight into intrigue and passionate social issues to monitor any big social incidence. This study analyzed a large set of spatio-temporal Bangladeshi newspaper data related to the COVID-19 pandemic. The methodology included volume analysis, topic analysis, automated classification, and sentiment analysis of news articles to get insight into the COVID-19 pandemic in different sectors and regions in Bangladesh over a period of time. This analysis will help the government and other organizations to figure out the challenges that have arisen in society due to this pandemic, what steps should be taken immediately and in the post-pandemic period, how the government and its allies can come together to address the crisis in the future, keeping these problems in mind.
翻訳日:2021-03-19 07:54:42 公開日:2021-01-31
# MultiFace: 顔認識性能向上のためのジェネリックトレーニングメカニズム

MultiFace: A Generic Training Mechanism for Boosting Face Recognition Performance ( http://arxiv.org/abs/2101.09899v2 )

ライセンス: Link先を確認
Jing Xu, Tszhang Guo, Zenglin Xu, Kun Bai(参考訳) 深層畳み込みニューラルネットワーク(DCNN)とその変種は近年,大規模顔認識(FR)で広く利用されている。 既存のメソッドは多くのFRベンチマークで優れたパフォーマンスを達成している。 しかし、そのほとんどが2つの大きな問題を抱えている。 まず、これらの手法は高次元でスパースなガウス球面における損失関数を最適化するため、非常にゆっくりと収束する。 第二に、強力な記述能力にもかかわらず、特徴の高次元性は最適化に困難をもたらし、これは準最適局所最適化につながる可能性がある。 そこで本研究では, 低次元特徴のアンサンブルにより, 本来の高次元特徴を近似する, 簡便かつ効率的な訓練機構MultiFaceを提案する。 提案機構は汎用的であり、多くの高度なFRモデルにも容易に適用できる。 さらに、クラスタリング効果を介してFRモデルに優れた解釈性の利点をもたらします。 詳しくは、これらの低次元特徴のアンサンブルは相補的かつ判別的な情報を捉えることができ、クラス内コンパクト性とクラス間分離性を高めることができる。 実験結果から,本機構はソフトマックス損失で2~3倍,アークフェイスやコスフェイスで1.2~1.5倍の高速化が可能であり,ベンチマークデータセットでは最先端の性能が得られることがわかった。 特に、大規模データセット(IJBやMageFaceなど)の大幅な改善は、新しいトレーニングメカニズムの柔軟性を示しています。

Deep Convolutional Neural Networks (DCNNs) and their variants have been widely used in large scale face recognition(FR) recently. Existing methods have achieved good performance on many FR benchmarks. However, most of them suffer from two major problems. First, these methods converge quite slowly since they optimize the loss functions in a high-dimensional and sparse Gaussian Sphere. Second, the high dimensionality of features, despite the powerful descriptive ability, brings difficulty to the optimization, which may lead to a sub-optimal local optimum. To address these problems, we propose a simple yet efficient training mechanism called MultiFace, where we approximate the original high-dimensional features by the ensemble of low-dimensional features. The proposed mechanism is also generic and can be easily applied to many advanced FR models. Moreover, it brings the benefits of good interpretability to FR models via the clustering effect. In detail, the ensemble of these low-dimensional features can capture complementary yet discriminative information, which can increase the intra-class compactness and inter-class separability. Experimental results show that the proposed mechanism can accelerate 2-3 times with the softmax loss and 1.2-1.5 times with Arcface or Cosface, while achieving state-of-the-art performances in several benchmark datasets. Especially, the significant improvements on large-scale datasets(e.g., IJB and MageFace) demonstrate the flexibility of our new training mechanism.
翻訳日:2021-03-14 19:06:55 公開日:2021-01-31
# 制限決定型一般化ブチオートマタを用いたソフト制約による強化学習に基づく時間論理制御

Reinforcement Learning Based Temporal Logic Control with Soft Constraints Using Limit-deterministic Generalized Buchi Automata ( http://arxiv.org/abs/2101.10284v2 )

ライセンス: Link先を確認
Mingyu Cai, Shaoping Xiao, and Zhen Kan(参考訳) 本稿では,不確実性を考慮した運動計画の制御合成について検討する。 不確実性はロボットの動作および環境特性において考慮され、確率的マルコフ決定プロセス(MDP)を引き起こす。 線形時相論理(ltl)で表される高レベルタスクを満たす有限メモリ制御ポリシを生成するために,モデルフリー強化学習(rl)を開発した。 LTLを有限決定論的一般化B\"uchi Automaticon (LDGBA) に翻訳し、計算複雑性を増大させることなく学習性能を向上させるために、追跡最前線機能を組み込んだ組み込みLDGBA (E-LDGBA) を開発する。 潜在的に相反するタスクのため、エージェントが所望の ltl 制約に厳密に従わずに動作計画を変更することができるように緩和された製品 mdp が開発されている。 違反報酬と受諾報酬からなる予想リターンが開発されます。 デザインされた違反機能は、修正された動き計画と望ましい動き計画の違いを定量化し、受け入れ報酬はリラックスした製品MDPの受け入れ条件の満足を強制するように設計されています。 厳密な分析により、期待したリターンを最適化するRLアルゴリズムは、1)緩和された製品MDPの受け入れ条件を満たすことができ、2)長期的行動に対する違反コストを低減できるポリシーを見つけることが保証された。 また,シミュレーションと実験結果を用いて制御合成手法を検証する。

This paper studies the control synthesis of motion planning subject to uncertainties. The uncertainties are considered in robot motion and environment properties, giving rise to the probabilistic labeled Markov decision process (MDP). A model-free reinforcement learning (RL) is developed to generate a finite-memory control policy to satisfy high-level tasks expressed in linear temporal logic (LTL) formulas. One of the novelties is to translate LTL into a limit deterministic generalized B\"uchi automaton (LDGBA) and develop a corresponding embedded LDGBA (E-LDGBA) by incorporating a tracking-frontier function to overcome the issue of sparse accepting rewards, resulting in improved learning performance without increasing computational complexity. Due to potentially conflicting tasks, a relaxed product MDP is developed to allow the agent to revise its motion plan without strictly following the desired LTL constraints if the desired tasks can only be partially fulfilled. An expected return composed of violation rewards and accepting rewards is developed. The designed violation function quantifies the differences between the revised and the desired motion planning, while the accepting rewards are designed to enforce the satisfaction of the acceptance condition of the relaxed product MDP. Rigorous analysis shows that any RL algorithm that optimizes the expected return is guaranteed to find policies that, in decreasing order, can 1) satisfy acceptance condition of relaxed product MDP and 2) reduce the violation cost over long-term behaviors. Also, we validate the control synthesis approach via simulation and experimental results.
翻訳日:2021-03-14 18:58:53 公開日:2021-01-31
# (参考訳) カスケードカメラライダー3次元物体検出モデルの普遍的物理攻撃に向けて [全文訳有]

Towards Universal Physical Attacks On Cascaded Camera-Lidar 3D Object Detection Models ( http://arxiv.org/abs/2101.10747v2 )

ライセンス: CC BY 4.0
Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, Rabab Ward(参考訳) 自動運転車の文脈において,マルチモーダル深層学習ネットワーク(dnn)の普遍的かつ物理的に実現可能な敵攻撃を提案する。 DNNは3Dオブジェクト検出で高性能を達成しましたが、敵対的な攻撃に対して脆弱であることが知られています。 これらの攻撃は、RGBイメージ領域および最近はポイントクラウド領域で重く調査されているが、同時に両方のドメインではまれに、この論文で埋められるギャップである。 単一の3Dメッシュと差別化可能なレンダリングを使用して、メッシュのジオメトリとテクスチャの摂動によって、DNNの堅牢性が逆の攻撃にどのように低下するかを調べます。 我々は、Frustum-Pointnetモデルである顕著なカスケードマルチモーダルDNNを攻撃する。 人気のあるkittiベンチマークを用いて,提案手法であるユニバーサルマルチモーダル攻撃が,車検出能力の73%近く削減に成功していることを示した。 この作業は、カスケードされたRGBポイントクラウドDNNが何を学び、その敵対攻撃に対する脆弱性を理解するのに役立ちます。

We propose a universal and physically realizable adversarial attack on a cascaded multi-modal deep learning network (DNN), in the context of self-driving cars. DNNs have achieved high performance in 3D object detection, but they are known to be vulnerable to adversarial attacks. These attacks have been heavily investigated in the RGB image domain and more recently in the point cloud domain, but rarely in both domains simultaneously - a gap to be filled in this paper. We use a single 3D mesh and differentiable rendering to explore how perturbing the mesh's geometry and texture can reduce the robustness of DNNs to adversarial attacks. We attack a prominent cascaded multi-modal DNN, the Frustum-Pointnet model. Using the popular KITTI benchmark, we showed that the proposed universal multi-modal attack was successful in reducing the model's ability to detect a car by nearly 73%. This work can aid in the understanding of what the cascaded RGB-point cloud DNN learns and its vulnerability to adversarial attacks.
翻訳日:2021-03-14 09:28:12 公開日:2021-01-31
# (参考訳) CODE-AE : 細胞株転写因子から患者特異的な薬物応答を予測するコヒーレントデコンファウンディングオートエンコーダ [全文訳有]

CODE-AE: A Coherent De-confounding Autoencoder for Predicting Patient-Specific Drug Response From Cell Line Transcriptomics ( http://arxiv.org/abs/2102.00538v1 )

ライセンス: CC BY 4.0
Di He, Lei Xie(参考訳) 薬物治療に対する患者の反応の正確かつ堅牢な予測は、精密医療の発展に不可欠である。 しかし、一般化機械学習モデルを訓練するために、患者から直接十分な量のコヒーレント薬物応答データを得ることはしばしば困難である。 リッチな細胞ラインデータの利用は代替ソリューションを提供するが,様々な要因により,細胞ラインから得られた知識を患者に伝達することは困難である。 既存のトランスファーラーニング手法では、細胞系と患者データに結合する因子から共通の内在的な生物学的信号を確実に分離できるものはほとんどない。 本稿では,非コヒーレント標本で共有される共通生物学的信号と,各データセットに固有のプライベート表現,細胞線データから学習した知識を組織データに伝達し,それらの結合因子を分離するコヒーレント分離オートエンコーダ(code-ae)を開発した。 複数のデータセットに関する大規模な研究により、CODE-AEは患者の薬物反応の予測と生物学的シグナルの分解において最先端の手法よりも精度と堅牢性を大幅に向上することが示された。 したがって、CODE-AEは、一般化患者の予測モデルを開発するためのin vitroオミクスデータを利用するための有用なフレームワークを提供する。 ソースコードはhttps://github.com/X ieResearchGroup/CODE -AEで入手できる。

Accurate and robust prediction of patient's response to drug treatments is critical for developing precision medicine. However, it is often difficult to obtain a sufficient amount of coherent drug response data from patients directly for training a generalized machine learning model. Although the utilization of rich cell line data provides an alternative solution, it is challenging to transfer the knowledge obtained from cell lines to patients due to various confounding factors. Few existing transfer learning methods can reliably disentangle common intrinsic biological signals from confounding factors in the cell line and patient data. In this paper, we develop a Coherent Deconfounding Autoencoder (CODE-AE) that can extract both common biological signals shared by incoherent samples and private representations unique to each data set, transfer knowledge learned from cell line data to tissue data, and separate confounding factors from them. Extensive studies on multiple data sets demonstrate that CODE-AE significantly improves the accuracy and robustness over state-of-the-art methods in both predicting patient drug response and de-confounding biological signals. Thus, CODE-AE provides a useful framework to take advantage of in vitro omics data for developing generalized patient predictive models. The source code is available at https://github.com/X ieResearchGroup/CODE -AE.
翻訳日:2021-02-05 08:32:37 公開日:2021-01-31
# (参考訳) 進行拡散畳み込みニューラルネットワークを用いた構造認識型音声-スコアアライメント [全文訳有]

Structure-Aware Audio-to-Score Alignment using Progressively Dilated Convolutional Neural Networks ( http://arxiv.org/abs/2102.00382v1 )

ライセンス: CC BY 4.0
Ruchit Agrawal, Daniel Wolff, Simon Dixon(参考訳) 音楽演奏とスコアの構造的差異の同定は、音楽情報検索の重要なサブタスクであるオーディオとスコアのアライメントの挑戦的かつ不可欠なステップです。 本研究では,畳み込みニューラルネットワークを用いて,ある曲のスコアと演奏の差を検出する新しい手法を提案する。 本手法は, 異なる層に異なる拡散速度を組み込んで, 短期的および長期的コンテキストを捉え, 限定的な注釈付きデータの存在下で有効に用いることができる。 スコアと構造的に異なる実演の録音実験を行い,本モデルが構造認識オーディオとスコアアライメントの標準手法を上回っていることを示す。

The identification of structural differences between a music performance and the score is a challenging yet integral step of audio-to-score alignment, an important subtask of music information retrieval. We present a novel method to detect such differences between the score and performance for a given piece of music using progressively dilated convolutional neural networks. Our method incorporates varying dilation rates at different layers to capture both short-term and long-term context, and can be employed successfully in the presence of limited annotated data. We conduct experiments on audio recordings of real performances that differ structurally from the score, and our results demonstrate that our models outperform standard methods for structure-aware audio-to-score alignment.
翻訳日:2021-02-05 05:36:53 公開日:2021-01-31
# (参考訳) 離散ウェーブレット変換を用いた特徴抽出のためのシンガー識別の予測精度向上 [全文訳有]

Boosting the Predictive Accurary of Singer Identification Using Discrete Wavelet Transform For Feature Extraction ( http://arxiv.org/abs/2102.00550v1 )

ライセンス: CC BY 4.0
Victoire Djimna Noyum, Younous Perieukeu Mofenjou, Cyrille Feudjio, Alkan G\"oktug and Ernest Fokou\'e(参考訳) 最近の音楽分野の多様性と成長に直面すると、正確な楽曲の検索はますます複雑になる。 歌手のアイデンティティは、この検索を促進します。 本稿では,特徴抽出のための異なる手法を用いて,歌手を識別する問題に焦点をあてる。 特に,この目的のために離散ウェーブレット変換(DWT)を導入する。 私達の知識のベストに、DWTは歌手の同一証明の文脈で前にこの方法で使用されませんでした。 この過程は3つの重要な部分からなる。 まず、ロバスト主成分分析(RPCA)を使用して、ボーカル信号をバックグラウンド音楽から分離します。 次に、得られた音声信号から特徴を抽出する。 ここでの目標は、オーディオ信号で最も一般的な技術であるMel frequency Cepstral Coefficient(MFCC)と比較して、離散ウェーブレット変換(DWT)のパフォーマンスを研究することです。 最後に、2つの方法が実験された歌手の識別を進めます:サポートベクトルマシン(SVM)とガウス混合モデル(GMM)。 本研究で紹介したDWT(db4)の特徴抽出と,平均精度83.96%の線形サポートベクターマシンを組み合わせることで,歌手4人,歌200人を対象に,最適な識別システムが構築されていると結論づけた。

Facing the diversity and growth of the musical field nowadays, the search for precise songs becomes more and more complex. The identity of the singer facilitates this search. In this project, we focus on the problem of identifying the singer by using different methods for feature extraction. Particularly, we introduce the Discrete Wavelet Transform (DWT) for this purpose. To the best of our knowledge, DWT has never been used this way before in the context of singer identification. This process consists of three crucial parts. First, the vocal signal is separated from the background music by using the Robust Principal Component Analysis (RPCA). Second, features from the obtained vocal signal are extracted. Here, the goal is to study the performance of the Discrete Wavelet Transform (DWT) in comparison to the Mel Frequency Cepstral Coefficient (MFCC) which is the most used technique in audio signals. Finally, we proceed with the identification of the singer where two methods have experimented: the Support Vector Machine (SVM), and the Gaussian Mixture Model (GMM). We conclude that, for a dataset of 4 singers and 200 songs, the best identification system consists of the DWT (db4) feature extraction introduced in this work combined with a linear support vector machine for identification resulting in a mean accuracy of 83.96%.
翻訳日:2021-02-04 16:12:15 公開日:2021-01-31
# (参考訳) 非国家武装グループ(NAG)のグローバルサポートネットワークの定量化 [全文訳有]

Quantifying the Global Support Network for Non-State Armed Groups (NAGs) ( http://arxiv.org/abs/2102.00564v1 )

ライセンス: CC BY 4.0
Weiran Cai, Belgin San-Akca, Jordan Snyder, Grayson Gordon, Zeev Maoz, Raissa M. D'Souza(参考訳) 人類の歴史は武力衝突によって形作られた。 大規模な州間戦争ではなく、戦後には低強度の攻撃が盛んになった。 これらの攻撃は、しばしばホスト国(hss)が支援する非国家武装集団(nags)によって行われる。 我々は,NAG-HS支援のグローバルな二部ネットワークとその進化を1945-2010年の間に分析した。 私たちは、相互主義的および寄生的な支援形態、およびネストされたモジュラーネットワークアーキテクチャなどの生態学的ネットワークに顕著な平行を見つけます。 ネストネスは優先的な行動から生じる: 高度に接続されたプレイヤーは、コネクションを獲得し、失う傾向が強い。 長期にわたる主要なモジュールが同定され、移行モジュールとは対照的に、地域的利益と地域的利益の両方を反映している。 このアーキテクチャの展開により、アクターの役割の特定が可能になり、効果的な介入戦略の洞察を提供する。

Human history has been shaped by armed conflicts. Rather than large-scale interstate wars, low-intensity attacks have been more prevalent in the post-World War era. These attacks are often carried out by non-state armed groups (NAGs), which are supported by host states (HSs). We analyze the global bipartite network of NAG-HS support and its evolution over the period of 1945-2010. We find striking parallels to ecological networks such as mutualistic and parasitic forms of support, and a nested and modular network architecture. The nestedness emerges from preferential behaviors: highly connected players are more likely to both gain and lose connections. Long-persisting major modules are identified, reflecting both regional and trans-regional interests, which show significant turnover in their membership, contrary to the transitory ones. Revealing this architecture further enables the identification of actor's roles and provide insights for effective intervention strategies.
翻訳日:2021-02-04 15:58:38 公開日:2021-01-31
# (参考訳) 脳波データによるてんかん発作の予測における離散ウェーブレット変換の新たな利用 [全文訳有]

A Novel Use of Discrete Wavelet Transform Features in the Prediction of Epileptic Seizures from EEG Data ( http://arxiv.org/abs/2102.01647v1 )

ライセンス: CC BY 4.0
Cyrille Feudjio, Victoire Djimna Noyum, Younous Perieukeu Mofendjou, Rockefeller, Ernest Fokou\'e(参考訳) 本稿では,脳波データからのてんかん発作の診断における特徴抽出法に比べて,離散ウェーブレット変換(DWT)の予測上の優位性を示す。 分類精度、特異性、感度は評価指標として用いられる。 具体的には,2つの組み合わせ (dwt-db4 と svm と dwt-db2 の組み合わせと rf の組み合わせ) が,バランスの取れたデータセットと不均衡なデータセットのいずれにおいてもてんかん発作の診断に関して,他と比較して大きな可能性を示す。 結果は、MFCCがこの研究で使用されるすべてのDWTよりも少なく、平均差はそれぞれ不均衡とバランスの取れたデータセットで統計的に重要であることも強調しています。 最後に、バランスのとれたデータセット、不均衡なデータセット、特徴抽出技術、モデル、それらの相互作用が分類精度に統計的に有意な影響を及ぼす。

This paper demonstrates the predictive superiority of discrete wavelet transform (DWT) over previously used methods of feature extraction in the diagnosis of epileptic seizures from EEG data. Classification accuracy, specificity, and sensitivity are used as evaluation metrics. We specifically show the immense potential of 2 combinations (DWT-db4 combined with SVM and DWT-db2 combined with RF) as compared to others when it comes to diagnosing epileptic seizures either in the balanced or the imbalanced dataset. The results also highlight that MFCC performs less than all the DWT used in this study and that, The mean-differences are statistically significant respectively in the imbalanced and balanced dataset. Finally, either in the balanced or the imbalanced dataset, the feature extraction techniques, the models, and the interaction between them have a statistically significant effect on the classification accuracy.
翻訳日:2021-02-04 11:16:11 公開日:2021-01-31
# (参考訳) Agnostic Active LearningにおけるAbstentionによる指数的節約 [全文訳有]

Exponential Savings in Agnostic Active Learning through Abstention ( http://arxiv.org/abs/2102.00451v1 )

ライセンス: CC BY 4.0
Nikita Puchkin and Nikita Zhivotovskiy(参考訳) プールをベースとしたアクティブな分類において,学習者が平均損失1/2$のランダムな推測よりも価格を極端に小さくすることで,いくつかの予測から退避する権限を与えられた場合,対応する実現可能な問題において,ラベル要求数に対する指数的貯蓄が可能となることを示す。 我々はこの結果を拡張し,プール型アクティブ分類において,モデル誤分類下での指数的節約に必要な十分条件を提供する。

We show that in pool-based active classification without assumptions on the underlying distribution, if the learner is given the power to abstain from some predictions by paying the price marginally smaller than the average loss $1/2$ of a random guess, exponential savings in the number of label requests are possible whenever they are possible in the corresponding realizable problem. We extend this result to provide a necessary and sufficient condition for exponential savings in pool-based active classification under the model misspecification.
翻訳日:2021-02-04 10:54:08 公開日:2021-01-31
# GraphEBM:エネルギーモデルを用いた分子グラフ生成

GraphEBM: Molecular Graph Generation with Energy-Based Models ( http://arxiv.org/abs/2102.00546v1 )

ライセンス: Link先を確認
Meng Liu, Keqiang Yan, Bora Oztekin, Shuiwang Ji(参考訳) 分子グラフ生成は、多くのアプリケーションを持つ研究の新興分野です。 分子グラフがノード順序に不変な離散的、不規則、および置換であるため、この問題は依然として困難である。 特に、既存のアプローチの多くは置換不変性の固有性を保証することができず、生成モデルに予期せぬバイアスをもたらす。 本研究では,エネルギーモデルを用いた分子グラフ生成のためのGraphEBMを提案する。 特に、置換不変な方法でエネルギー関数をパラメータ化することにより、GraphEBMの置換不変性を実現する。 エネルギー関数の学習にランジュバンダイナミクスを応用し,確率を最大化し,低エネルギーのサンプルを生成する。 さらに、特定の望ましい性質を持つ分子を生成するために、対応する分子の特性に応じて柔軟な程度でエネルギーを押し下げるシンプルで効果的な戦略を提案します。 最後に、複数の目的を持つ分子を組成的に生成するためのGraphEBMの使用を検討する。 ランダム, 目標指向, 構成生成タスクに関する包括的な実験結果から, 提案手法の有効性を実証した。

Molecular graph generation is an emerging area of research with numerous applications. This problem remains challenging as molecular graphs are discrete, irregular, and permutation invariant to node order. Notably, most existing approaches fail to guarantee the intrinsic property of permutation invariance, resulting in unexpected bias in generative models. In this work, we propose GraphEBM to generate molecular graphs using energy-based models. In particular, we parameterize the energy function in a permutation invariant manner, thus making GraphEBM permutation invariant. We apply Langevin dynamics to train the energy function by approximately maximizing likelihood and generate samples with low energies. Furthermore, to generate molecules with a specific desirable property, we propose a simple yet effective strategy, which pushes down energies with flexible degrees according to the properties of corresponding molecules. Finally, we explore the use of GraphEBM for generating molecules with multiple objectives in a compositional manner. Comprehensive experimental results on random, goal-directed, and compositional generation tasks demonstrate the effectiveness of our proposed method.
翻訳日:2021-02-04 10:19:02 公開日:2021-01-31
# 質問プールウェブサイトにおける学生エンゲージメント・ムードのドロップアウト予測

Characterizing Student Engagement Moods for Dropout Prediction in Question Pool Websites ( http://arxiv.org/abs/2102.00423v1 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Xiaojuan Ma, Pan Hui(参考訳) 問題ベース学習(英語: problem-based learning, pbl)は、問題解決によるハンズオントレーニングを支援する、一般的な指導手法である。 LeetCode、Code Chef、Math Playgroundといった質問プールのウェブサイト(QP)は、学生に本物で多様な、文脈に応じた質問を提供することでPBLを支援する。 いずれにせよ、QPに登録されている学生の40%から80%は2ヶ月以内に退学している。 本研究は,学生の参加感情を活用し,qpsからの学生の退学を理解・予測する最初の試みである。 データ駆動型アプローチを採用することで、QP学生にとって5つの異なるエンゲージメント・ムード、すなわちチャレンジ・シーカー、主題シーカー、興味シーカー、喜びシーカー、非シーカーを識別する。 学生は、各エンゲージメントのムードで質問に答える集団的な選好を持ち、その選好からの逸脱は、退学する確率を著しく高めている。 最後に、この論文はQPの学生のドロップアウトを予測するための新しいハイブリッド機械学習モデル(我々はDropout-Plusと呼ぶ)を導入することで貢献します。 テストの結果、中国で人気のqpで1万人近い学生がおり、dropout-plusは、精度、f1-measure、aucの点でライバルアルゴリズムのドロップアウト予測性能を上回っている。 学生のドロップアウトを減らすために、QPマネージャーやオンライン学習の専門家にデザイン提案を行うことで、作業をまとめています。

Problem-Based Learning (PBL) is a popular approach to instruction that supports students to get hands-on training by solving problems. Question Pool websites (QPs) such as LeetCode, Code Chef, and Math Playground help PBL by supplying authentic, diverse, and contextualized questions to students. Nonetheless, empirical findings suggest that 40% to 80% of students registered in QPs drop out in less than two months. This research is the first attempt to understand and predict student dropouts from QPs via exploiting students' engagement moods. Adopting a data-driven approach, we identify five different engagement moods for QP students, which are namely challenge-seeker, subject-seeker, interest-seeker, joy-seeker, and non-seeker. We find that students have collective preferences for answering questions in each engagement mood, and deviation from those preferences increases their probability of dropping out significantly. Last but not least, this paper contributes by introducing a new hybrid machine learning model (we call Dropout-Plus) for predicting student dropouts in QPs. The test results on a popular QP in China, with nearly 10K students, show that Dropout-Plus can exceed the rival algorithms' dropout prediction performance in terms of accuracy, F1-measure, and AUC. We wrap up our work by giving some design suggestions to QP managers and online learning professionals to reduce their student dropouts.
翻訳日:2021-02-04 10:12:29 公開日:2021-01-31
# ディープニューラルネットワークトレーニングのための計算性能予測:実行時アプローチ

Computational Performance Predictions for Deep Neural Network Training: A Runtime-Based Approach ( http://arxiv.org/abs/2102.00527v1 )

ライセンス: Link先を確認
Geoffrey X. Yu, Yubo Gao, Pavel Golikov, Gennady Pekhimenko(参考訳) ディープラーニングの研究者や実践者は、通常、GPUを利用してディープニューラルネットワーク(DNN)を高速にトレーニングします。 しかし、(i)選択肢が多く、(ii)ユーザは、計算性能の最大化とコストの最小化という競合する懸念に悩まされているため、どのGPUを使うかを選択することは難しい。 本研究では,ユーザがすでに持っているGPUを用いて,情報に基づいた費用対効果の高いGPU選択を行うための,新たな実用的手法を提案する。 dnnのトレーニングは反復的な計算ステップで構成されているため、単一のイテレーションの実行時間の予測はトレーニングプロセス全体のパフォーマンスを特徴付けるのに十分である。 i)波のスケーリング、GPUの実行モデルに基づく技術、または(ii)事前に訓練された多層パーセプトロンを使用して、トレーニングイテレーション内の各操作の実行時間を1つのGPUから別のGPUにスケーリングすることによって予測を行います。 私たちはこの手法をSurferというPythonライブラリに実装し、ResNet-50、Inception v3、Transformer、GNMT、DCGANの6つの異なるGPUアーキテクチャ上で正確なイテレーション実行時間予測を行う。 Surferは現在PyTorchをサポートしており、使いやすく、数行のコードしか必要としない。

Deep learning researchers and practitioners usually leverage GPUs to help train their deep neural networks (DNNs) faster. However, choosing which GPU to use is challenging both because (i) there are many options, and (ii) users grapple with competing concerns: maximizing compute performance while minimizing costs. In this work, we present a new practical technique to help users make informed and cost-efficient GPU selections: make performance predictions using the help of a GPU that the user already has. Our technique exploits the observation that, because DNN training consists of repetitive compute steps, predicting the execution time of a single iteration is usually enough to characterize the performance of an entire training process. We make predictions by scaling the execution time of each operation in a training iteration from one GPU to another using either (i) wave scaling, a technique based on a GPU's execution model, or (ii) pre-trained multilayer perceptrons. We implement our technique into a Python library called Surfer and find that it makes accurate iteration execution time predictions on ResNet-50, Inception v3, the Transformer, GNMT, and DCGAN across six different GPU architectures. Surfer currently supports PyTorch, is easy to use, and requires only a few lines of code.
翻訳日:2021-02-04 10:11:40 公開日:2021-01-31
# テキスト分類のためのシンプルかつ簡潔かつ効率的なアクティブ学習プラットフォーム

A Simple yet Brisk and Efficient Active Learning Platform for Text Classification ( http://arxiv.org/abs/2102.00426v1 )

ライセンス: Link先を確認
Teja Kanchinadam, Qian You, Keith Westpfahl, James Kim, Siva Gunda, Sebastian Seith, Glenn Fung(参考訳) 本研究では,非構造化データからモデルを直接構築するためにアクティブラーニングを利用する,フルマネージドな機械学習サービスの利用を提案する。 このツールを使えば、ビジネスユーザーは素早く簡単に機械学習モデルを構築でき、データサイエンティストの関与なしに本番環境にそれらを直接デプロイすることができる。 弊社のアプローチでは,OpenAIのGPT2のような最先端のテキスト表現と,線形モデルを用いたインクリメンタルラーニングの簡単な構築に依存したアクティブラーニングワークフローの高速実装を活用して,ユーザに対して活発で効率的なラベリング体験を提供する。 公開および実生活の保険データセットに関する実験は、我々の単純かつ高速な分類アルゴリズムの選択が、現在進行中のタスクに理想的な理由を実証的に示している。

In this work, we propose the use of a fully managed machine learning service, which utilizes active learning to directly build models from unstructured data. With this tool, business users can quickly and easily build machine learning models and then directly deploy them into a production ready hosted environment without much involvement from data scientists. Our approach leverages state-of-the-art text representation like OpenAI's GPT2 and a fast implementation of the active learning workflow that relies on a simple construction of incremental learning using linear models, thus providing a brisk and efficient labeling experience for the users. Experiments on both publicly available and real-life insurance datasets empirically show why our choices of simple and fast classification algorithms are ideal for the task at hand.
翻訳日:2021-02-04 09:58:25 公開日:2021-01-31
# 高忠実度音声再生と音声強調への応用

High Fidelity Speech Regeneration with Application to Speech Enhancement ( http://arxiv.org/abs/2102.00429v1 )

ライセンス: Link先を確認
Adam Polyak, Lior Wolf, Yossi Adi, Ori Kabeli, Yaniv Taigman(参考訳) 近年の音声強調は, 主に聴覚障害, 話者分離, および発声音声に対する環境影響に対処する除音法への貢献を通じて, 顕著に改善されている。 元の信号の限界を超えてスピーチを高めるために、我々は、半認識音声、韻律の特徴、アイデンティティを含む、その本質からスピーチを再現する再生アプローチを取ります。 本研究では,24khzの音声をリアルタイムに生成し,asrとアイデンティティ特徴からなるコンパクトな音声表現を活用し,高いレベルの理解性を実現する音声生成モデルを提案する。 音声変換法に触発されて,補助idネットワークを用いて音源の識別性を維持しながら音声特性を増強する訓練を行った。 知覚音響測定と主観的テストにより,近年のベースラインよりも重要な改善が得られた。

Speech enhancement has seen great improvement in recent years mainly through contributions in denoising, speaker separation, and dereverberation methods that mostly deal with environmental effects on vocal audio. To enhance speech beyond the limitations of the original signal, we take a regeneration approach, in which we recreate the speech from its essence, including the semi-recognized speech, prosody features, and identity. We propose a wav-to-wav generative model for speech that can generate 24khz speech in a real-time manner and which utilizes a compact speech representation, composed of ASR and identity features, to achieve a higher level of intelligibility. Inspired by voice conversion methods, we train to augment the speech characteristics while preserving the identity of the source using an auxiliary identity network. Perceptual acoustic metrics and subjective tests show that the method obtains valuable improvements over recent baselines.
翻訳日:2021-02-04 09:57:49 公開日:2021-01-31
# ランダム化線形代数による楕円偏微分方程式の学習

Learning elliptic partial differential equations with randomized linear algebra ( http://arxiv.org/abs/2102.00491v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Alex Townsend(参考訳) 3次元の楕円偏微分方程式(PDE)の入出力対が与えられたとき、関連するグリーン関数を学習するための理論的に厳密なスキームを導出する。 G$ の階層的低ランク構造を利用することで、$G$ の近似をほぼ確実に収束させ、最大 $\mathcal{O}(\epsilon^{-6}\log^4(1/\epsilon)/\Gamma _\epsilon)$ 入出力トレーニングペアで $0<\epsilon<1$ で $\epsilon$ の相対誤差を達成できることを示す。 0<\gamma_\epsilon\leq 1$ はトレーニングデータセットの品質を特徴付ける。 その過程で、行列を学習するためのランダム化特異値分解アルゴリズムをヒルベルト-シュミット作用素に拡張し、PDE学習のための共分散カーネルの品質を特徴付ける。

Given input-output pairs of an elliptic partial differential equation (PDE) in three dimensions, we derive the first theoretically-rigoro us scheme for learning the associated Green's function $G$. By exploiting the hierarchical low-rank structure of $G$, we show that one can construct an approximant to $G$ that converges almost surely and achieves an expected relative error of $\epsilon$ using at most $\mathcal{O}(\epsilon^{-6}\log^4(1/\epsilon)/\Gamma _\epsilon)$ input-output training pairs, for any $0<\epsilon<1$. The quantity $0<\Gamma_\epsilon\leq 1$ characterizes the quality of the training dataset. Along the way, we extend the randomized singular value decomposition algorithm for learning matrices to Hilbert--Schmidt operators and characterize the quality of covariance kernels for PDE learning.
翻訳日:2021-02-04 09:57:15 公開日:2021-01-31
# 行列型エントロピー関数を用いた深部決定論的情報ボトルネック

Deep Deterministic Information Bottleneck with Matrix-based Entropy Functional ( http://arxiv.org/abs/2102.00533v1 )

ライセンス: Link先を確認
Xi Yu, Shujian Yu, Jose C. Principe(参考訳) 行列ベースのRenyiの$\alpha$-order entropy関数を導入し、Tishbyらをパラメータ化する。 ニューラルネットワークによる情報ボトルネック(IB)の原則。 本稿では,変分推論や分布推定を避けるため,本手法をDIB(Deep Deterministic Information Bottleneck)と呼ぶ。 我々は、DIBで訓練されたディープニューラルネットワークが、一般化のパフォーマンスと敵対攻撃に対する堅牢性の観点から、変分客観的なものと他の形式の正規化で訓練されたものよりも優れていることを示しています。

We introduce the matrix-based Renyi's $\alpha$-order entropy functional to parameterize Tishby et al. information bottleneck (IB) principle with a neural network. We term our methodology Deep Deterministic Information Bottleneck (DIB), as it avoids variational inference and distribution assumption. We show that deep neural networks trained with DIB outperform the variational objective counterpart and those that are trained with other forms of regularization, in terms of generalization performance and robustness to adversarial attack.Code available at https://github.com/y uxi120407/DIB
翻訳日:2021-02-04 09:56:31 公開日:2021-01-31
# MalNet: 悪意あるソフトウェアの大規模サイバーセキュリティイメージデータベース

MalNet: A Large-Scale Cybersecurity Image Database of Malicious Software ( http://arxiv.org/abs/2102.01072v1 )

ライセンス: Link先を確認
Scott Freitas, Rahul Duggal, Duen Horng Chau(参考訳) コンピュータビジョンは、画像ベースのバイナリ表現の台頭に伴う自動マルウェア検出においてますます重要な役割を果たしています。 これらのバイナリイメージは、生成が速く、機能エンジニアリングが不要で、一般的な難読化メソッドに耐性がある。 この分野で重要な研究が行われてきたが、少数の産業研究所や研究チームがアクセスできる小規模またはプライベートなデータセットに限られている。 この可用性の欠如は、既存の仕事の検証、新しい研究の発展、アイデアの拡散を妨げる。 公開可能な最大のサイバーセキュリティイメージデータベースであるMalNetを導入し、他の公開バイナリイメージデータベースよりも133倍のイメージと27倍のクラスを提供します。 MalNet は 47 タイプと 696 ファミリーの階層にまたがる 1,200 万枚以上の画像を含んでいます。 MalNetの幅広い分析を提供し、その特性と証明について議論します。 malnetの規模と多様性は、コンピュータビジョンコミュニティにとって新しくてエキサイティングなサイバーセキュリティの機会を解き放ちます。 データベースはwww.mal-net.orgで公開されている。

Computer vision is playing an increasingly important role in automated malware detection with to the rise of the image-based binary representation. These binary images are fast to generate, require no feature engineering, and are resilient to popular obfuscation methods. Significant research has been conducted in this area, however, it has been restricted to small-scale or private datasets that only a few industry labs and research teams have access to. This lack of availability hinders examination of existing work, development of new research, and dissemination of ideas. We introduce MalNet, the largest publicly available cybersecurity image database, offering 133x more images and 27x more classes than the only other public binary-image database. MalNet contains over 1.2 million images across a hierarchy of 47 types and 696 families. We provide extensive analysis of MalNet, discussing its properties and provenance. The scale and diversity of MalNet unlocks new and exciting cybersecurity opportunities to the computer vision community--enabling discoveries and research directions that were previously not possible. The database is publicly available at www.mal-net.org.
翻訳日:2021-02-03 16:57:51 公開日:2021-01-31
# 行列に基づくピタゴラスファジィ集合の新たな距離測定とその医療診断への応用

A new distance measure of Pythagorean fuzzy sets based on matrix and and its application in medical diagnosis ( http://arxiv.org/abs/2102.01538v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 直観主義的ファジィセットに基づいて開発されたピタゴラスファジィセット(PFS)は、不確定な状況における不確実性を解明し、処分するのにより効率的である。 2つのピタゴラスファジィセット間の距離を測定する方法は、まだオープンな問題です。 mnay 種類の手法が提案されているが、これは以前の再帰的問題である。 しかし、既存の全ての方法がピタゴラスファジィ集合間の差異を正確に表し、類似性の性質を満たすことはできない。 また、ピタゴラスファジィ集合の3つの変数間の関係を無視する他の方法もある。 プロプレムを付加するために、距離測定の公理の要件を満たし、PPSの区別の程度をうまく示すことができる距離を測定する新しい方法が提案される。 次に、距離を測定する方法がカウンターの状況を避けることができるかどうかを検証するために、いくつかの数値例が提供されている。 直感的で不合理な結果は作り出され、他の同じような方法より有効、適度および高度です。 さらに,PFS間の距離を計測する手法を医学的診断である実環境に適用し,その優位性と効率性を示す他の方法と比較した。 また,実際に不確実性を扱うための提案手法の実現可能性も同時に証明した。

The pythagorean fuzzy set (PFS) which is developed based on intuitionistic fuzzy set, is more efficient in elaborating and disposing uncertainties in indeterminate situations, which is a very reason of that PFS is applied in various kinds of fields. How to measure the distance between two pythagorean fuzzy sets is still an open issue. Mnay kinds of methods have been proposed to present the of the question in former reaserches. However, not all of existing methods can accurately manifest differences among pythagorean fuzzy sets and satisfy the property of similarity. And some other kinds of methods neglect the relationship among three variables of pythagorean fuzzy set. To addrees the proplem, a new method of measuring distance is proposed which meets the requirements of axiom of distance measurement and is able to indicate the degree of distinction of PFSs well. Then some numerical examples are offered to to verify that the method of measuring distances can avoid the situation that some counter? intuitive and irrational results are produced and is more effective, reasonable and advanced than other similar methods. Besides, the proposed method of measuring distances between PFSs is applied in a real environment of application which is the medical diagnosis and is compared with other previous methods to demonstrate its superiority and efficiency. And the feasibility of the proposed method in handling uncertainties in practice is also proved at the same time.
翻訳日:2021-02-03 16:52:19 公開日:2021-01-31
# 小型訓練データセットを用いたACGANを用いた超音波画像分類

Ultrasound Image Classification using ACGAN with Small Training Dataset ( http://arxiv.org/abs/2102.01539v1 )

ライセンス: Link先を確認
Sudipan Saha and Nasrullah Sheikh(参考訳) Bモード超音波画像は一般的な医用画像技術である。 他の画像処理タスクと同様に、深層学習は、過去数年間にBモード超音波画像の分析に使用されています。 しかし、ディープラーニングモデルのトレーニングには大きなラベル付きデータセットが必要であり、超音波画像では利用できないことが多い。 大きなラベル付きデータの欠如は、超音波画像分析におけるディープラーニングの使用のためのボトルネックです。 この課題を克服するために,本研究では,同じ枠組みでデータ拡張と転送学習の利点を組み合わせた補助的分類器生成逆ネットワーク (acgan) を利用する。 乳房超音波画像のデータセットを用いて,提案手法の有効性を示す実験を行った。

B-mode ultrasound imaging is a popular medical imaging technique. Like other image processing tasks, deep learning has been used for analysis of B-mode ultrasound images in the last few years. However, training deep learning models requires large labeled datasets, which is often unavailable for ultrasound images. The lack of large labeled data is a bottleneck for the use of deep learning in ultrasound image analysis. To overcome this challenge, in this work we exploit Auxiliary Classifier Generative Adversarial Network (ACGAN) that combines the benefits of data augmentation and transfer learning in the same framework. We conduct experiment on a dataset of breast ultrasound images that shows the effectiveness of the proposed approach.
翻訳日:2021-02-03 16:20:18 公開日:2021-01-31
# (参考訳) 多言語メールゾーニング [全文訳有]

Multilingual Email Zoning ( http://arxiv.org/abs/2102.00461v1 )

ライセンス: CC0 1.0
Bruno Jardim and Ricardo Rei and Mariana S. C. Almeida(参考訳) メールを機能ゾーンに分割する(Eメール分割とも呼ばれる)ことは、メールを扱うほとんどのNLPタスクにおいて、関連する前処理ステップである。 しかし、電子メールの多言語的特徴とその応用にもかかわらず、メールゾーニングコーパスとシステムに関する以前の文献は基本的に英語のために開発された。 本稿では,既存のメール分割コーパスを分析し,ポルトガル語,スペイン語,フランス語の635個のメールからなる多言語ベンチマークを提案する。 さらに,言語に依存しない文エンコーダに基づく最初の多言語メールセグメンテーションモデルであるOKAPIを導入する。 未知の言語を一般化するのに加えて、我々のモデルは現在の英語のベンチマークと競合し、英語のドメイン適応タスクのための新しい最先端のパフォーマンスに到達した。

The segmentation of emails into functional zones (also dubbed email zoning) is a relevant preprocessing step for most NLP tasks that deal with emails. However, and despite the multilingual character of emails and their applications, previous literature regarding email zoning corpora and systems was developed essentially for English. In this paper, we analyse the existing email zoning corpora and propose a new multilingual benchmark composed of 635 emails in Portuguese, Spanish and French. Moreover, we introduce OKAPI, the first multilingual email segmentation model based on a language-agnostic sentence encoder. Besides generalizing well for unseen languages, our model is competitive with current English benchmarks, and reached new state-of-the-art performances for domain adaptation tasks in English.
翻訳日:2021-02-03 07:29:08 公開日:2021-01-31
# (参考訳) マルチホリゾン確率予測のための異種時系列の相乗的学習 [全文訳有]

Synergetic Learning of Heterogeneous Temporal Sequences for Multi-Horizon Probabilistic Forecasting ( http://arxiv.org/abs/2102.00431v1 )

ライセンス: CC BY 4.0
Longyuan Li, Jihai Zhang, Junchi Yan, Yaohui Jin, Yunhao Zhang, Yanjie Duan, and Guangjian Tian(参考訳) タイムシリーズは、交通、金融、医療などのアプリケーションにまたがっている。 時系列はしばしば外部要因、特に非同期イベントの形で影響を受け、予測が困難になる。 しかし、既存のモデルは、主に同期時系列または非同期イベントシーケンスに指定されており、それらの関係を捉えるための合成方法を提供できない。 本稿では,新しい条件生成モデルである変分相乗型マルチホライゾンネットワーク(VSMHN)を提案する。 不均質なシーケンス間の複雑な相関を学習するために、調整されたエンコーダは、深点プロセスモデルと変動リカレントニューラルネットワークの進歩を結合するように考案される。 さらに、非整合シーケンスにおけるバッチトレーニングのために、整列時間符号化と補助遷移スキームを慎重に設計する。 本モデルは確率的変分推論を用いて効果的に訓練でき,モンテカルロシミュレーションにより確率的予測を生成できる。 さらに、我々のモデルは正確で鋭く、より現実的な確率予測を生成する。 また,マルチホリゾン時系列予測には非同期イベントシーケンスのモデル化が不可欠であることを示す。

Time-series is ubiquitous across applications, such as transportation, finance and healthcare. Time-series is often influenced by external factors, especially in the form of asynchronous events, making forecasting difficult. However, existing models are mainly designated for either synchronous time-series or asynchronous event sequence, and can hardly provide a synthetic way to capture the relation between them. We propose Variational Synergetic Multi-Horizon Network (VSMHN), a novel deep conditional generative model. To learn complex correlations across heterogeneous sequences, a tailored encoder is devised to combine the advances in deep point processes models and variational recurrent neural networks. In addition, an aligned time coding and an auxiliary transition scheme are carefully devised for batched training on unaligned sequences. Our model can be trained effectively using stochastic variational inference and generates probabilistic predictions with Monte-Carlo simulation. Furthermore, our model produces accurate, sharp and more realistic probabilistic forecasts. We also show that modeling asynchronous event sequences is crucial for multi-horizon time-series forecasting.
翻訳日:2021-02-03 07:19:25 公開日:2021-01-31
# (参考訳) 拡散学習のためのマルチスケール環境

A Multiscale Environment for Learning by Diffusion ( http://arxiv.org/abs/2102.00500v1 )

ライセンス: CC BY 4.0
James M. Murphy and Sam L. Polk(参考訳) クラスタリングアルゴリズムはデータセットを類似点のグループに分割する。 クラスタリングの問題は極めて一般的な問題であり、同じデータセットの異なるパーティションを正しく、有用とみなすことができる。 このようなデータを完全に理解するには、粗いものから細かいものまで、さまざまなスケールで考慮する必要がある。 本稿では,データセット上の非線形拡散によってパラメータ化されるクラスタリングのファミリであるMultiscale Environment for Learning by Diffusion (MELD)データモデルを紹介する。 MELDデータモデルがデータの潜在マルチスケール構造を正確にキャプチャし、分析を容易にすることを示した。 多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,時間スケールの拡散過程から導出される非教師なし非線形拡散(M-LUND)クラスタリングアルゴリズムを導入する。 我々は,アルゴリズムの性能を理論的に保証し,その計算効率を確立する。 最後に、M-LUNDクラスタリングアルゴリズムが、合成および実データの範囲内の潜伏構造を検出することを示す。

Clustering algorithms partition a dataset into groups of similar points. The clustering problem is very general, and different partitions of the same dataset could be considered correct and useful. To fully understand such data, it must be considered at a variety of scales, ranging from coarse to fine. We introduce the Multiscale Environment for Learning by Diffusion (MELD) data model, which is a family of clusterings parameterized by nonlinear diffusion on the dataset. We show that the MELD data model precisely captures latent multiscale structure in data and facilitates its analysis. To efficiently learn the multiscale structure observed in many real datasets, we introduce the Multiscale Learning by Unsupervised Nonlinear Diffusion (M-LUND) clustering algorithm, which is derived from a diffusion process at a range of temporal scales. We provide theoretical guarantees for the algorithm's performance and establish its computational efficiency. Finally, we show that the M-LUND clustering algorithm detects the latent structure in a range of synthetic and real datasets.
翻訳日:2021-02-03 07:03:24 公開日:2021-01-31
# (参考訳) BNLP:ベンガル語のための自然言語処理ツールキット [全文訳有]

BNLP: Natural language processing toolkit for Bengali language ( http://arxiv.org/abs/2102.00405v1 )

ライセンス: CC BY 4.0
Sagor Sarker(参考訳) BNLPは、トークン化、単語埋め込み、POSタグ付け、NERタグ付け機能を備えたBengali言語のためのオープンソースの言語処理ツールキットです。 BNLPは、モデルベースのトークン化、埋め込み、POSタグ付け、Bengali言語のNERタグ付けタスクを行うための高精度な事前トレーニングモデルを提供します。 BNLPプリトレーニングモデルは、Bengaliテキストトークン化、単語埋め込み、POSタグ付け、NERタグ付けタスクで重要な結果をもたらします。 BNLPは16Kダウンロード、119スター、31フォークのベンガル研究コミュニティで広く使用されています。 BNLPはhttps://github.com/s agorbrur/bnlp.comで入手できる。

BNLP is an open source language processing toolkit for Bengali language consisting with tokenization, word embedding, POS tagging, NER tagging facilities. BNLP provides pre-trained model with high accuracy to do model based tokenization, embedding, POS tagging, NER tagging task for Bengali language. BNLP pre-trained model achieves significant results in Bengali text tokenization, word embedding, POS tagging and NER tagging task. BNLP is using widely in the Bengali research communities with 16K downloads, 119 stars and 31 forks. BNLP is available at https://github.com/s agorbrur/bnlp.
翻訳日:2021-02-03 05:49:37 公開日:2021-01-31
# (参考訳) TF-IDFタグセットマッチングによる拡張ニューラルキーワード抽出 [全文訳有]

Extending Neural Keyword Extraction with TF-IDF tagset matching ( http://arxiv.org/abs/2102.00472v1 )

ライセンス: CC BY 4.0
Boshko Koloski and Senja Pollak and Bla\v{z} \v{S}krlj and Matej Martinc(参考訳) キーワード抽出は、与えられた文書を最もよく記述し、同様のトピックの記事をリンクするためにニュースポータルで役立つ単語(または複数の単語表現)を識別するタスクです。 本研究では,欧州のニュースメディア産業(クロアチア語,エストニア語,ラトビア語,ロシア語)において,表現力の低い形態素豊かな4つの新しいデータセットを開発・評価した。 まず,2つの教師付きニューラルトランスベースの手法(TNT-KIDとBERT+BiLSTM CRF)の評価を行い,これらをベースラインTF-IDFベースの非監視アプローチと比較する。 次に、ニューラルトランスフォーマーベースの手法によって検索されたキーワードと、教師なしTF-IDFベースの手法を併用することにより、システムリコールを大幅に改善し、メディアハウス環境におけるレコメンデーションシステムとしての使用が適切であることを示す。

Keyword extraction is the task of identifying words (or multi-word expressions) that best describe a given document and serve in news portals to link articles of similar topics. In this work we develop and evaluate our methods on four novel data sets covering less represented, morphologically-rich languages in European news media industry (Croatian, Estonian, Latvian and Russian). First, we perform evaluation of two supervised neural transformer-based methods (TNT-KID and BERT+BiLSTM CRF) and compare them to a baseline TF-IDF based unsupervised approach. Next, we show that by combining the keywords retrieved by both neural transformer based methods and extending the final set of keywords with an unsupervised TF-IDF based technique, we can drastically improve the recall of the system, making it appropriate to be used as a recommendation system in the media house environment.
翻訳日:2021-02-03 05:45:49 公開日:2021-01-31
# (参考訳) 変換器による短文クラスタリング [全文訳有]

Short Text Clustering with Transformers ( http://arxiv.org/abs/2102.00541v1 )

ライセンス: CC BY 4.0
Leonid Pugachev, Mikhail Burtsev(参考訳) 最近の短いテキストクラスタリングのタスクのテクニックは、転置学習コンポーネントとして単語埋め込みに依存することが多い。 本稿では,トランスフォーマーからの文ベクトル表現と異なるクラスタリング手法を併用して,タスクに対処できることを示す。 さらに、反復分類によるクラスタリングの強化アルゴリズムは、事前訓練されたトランスフォーマー言語モデルを含む異なる分類器による初期クラスタリング性能をさらに向上させることができることを示した。

Recent techniques for the task of short text clustering often rely on word embeddings as a transfer learning component. This paper shows that sentence vector representations from Transformers in conjunction with different clustering methods can be successfully applied to address the task. Furthermore, we demonstrate that the algorithm of enhancement of clustering via iterative classification can further improve initial clustering performance with different classifiers, including those based on pre-trained Transformer language models.
翻訳日:2021-02-03 05:35:53 公開日:2021-01-31
# (参考訳) ニューラルネットワークの重みの間の距離は意味があります [全文訳有]

The distance between the weights of the neural network is meaningful ( http://arxiv.org/abs/2102.00396v1 )

ライセンス: CC BY 4.0
Liqun Yang, Yijun Yang, Yao Wang, Zhenyu Yang, Wei Zeng(参考訳) ニューラルネットワークの適用においては、問題複雑性とデータセットスケールに基づいて適切なモデルを選択する必要がある。 ネットワークの容量を分析するには,ネットワークで学習した情報を定量化する必要がある。 本稿では,異なるトレーニング段階におけるニューラルネットワーク重み間の距離を用いて,トレーニング過程において,ネットワークが蓄積した情報を直接推定できることを示す。 実験結果は、この方法の有用性を検証します。 ラベルの破損に関連するこの方法の適用は、最後に示されています。

In the application of neural networks, we need to select a suitable model based on the problem complexity and the dataset scale. To analyze the network's capacity, quantifying the information learned by the network is necessary. This paper proves that the distance between the neural network weights in different training stages can be used to estimate the information accumulated by the network in the training process directly. The experiment results verify the utility of this method. An application of this method related to the label corruption is shown at the end.
翻訳日:2021-02-03 04:22:55 公開日:2021-01-31
# (参考訳) プライオリティに基づく個人とグループフェアネスのためのポストプロシースバイアス軽減 [全文訳有]

Priority-based Post-Processing Bias Mitigation for Individual and Group Fairness ( http://arxiv.org/abs/2102.00417v1 )

ライセンス: CC BY 4.0
Pranay Lohia(参考訳) グループと個人の公平性に関する処理後バイアス軽減アルゴリズムは、マルチクラスの数値ラベルを持つ回帰モデルやデータセットでは機能しません。 本稿では,社会経済的要因や不公平性に拘わらず,類似する個人が同様の結果を得るべきだという考えから,グループと個人の公平性に対する優先順位に基づく後処理バイアス緩和を提案する。 この提案は,スマートグリッドにおける関税配分に関するケーススタディによって確立される。 提案手法は,ユーザのセグメンテーションアルゴリズムを用いて,消費戦略をよりよく把握する。 このプロセスは、最大不正に直面しているグループと個人に対する優先順位に基づく公正価格を保証する。 関税計算の実施プロセスを変更することなく、住民全体に対する公正な関税配分という概念を支持している。 また,本手法の有効性を検証し,実世界データセットに対する従来よりも優れた性能を示す。

Previous post-processing bias mitigation algorithms on both group and individual fairness don't work on regression models and datasets with multi-class numerical labels. We propose a priority-based post-processing bias mitigation on both group and individual fairness with the notion that similar individuals should get similar outcomes irrespective of socio-economic factors and more the unfairness, more the injustice. We establish this proposition by a case study on tariff allotment in a smart grid. Our novel framework establishes it by using a user segmentation algorithm to capture the consumption strategy better. This process ensures priority-based fair pricing for group and individual facing the maximum injustice. It upholds the notion of fair tariff allotment to the entire population taken into consideration without modifying the in-built process for tariff calculation. We also validate our method and show superior performance to previous work on a real-world dataset in criminal sentencing.
翻訳日:2021-02-03 04:09:34 公開日:2021-01-31
# (参考訳) 階層計画のための効率的な戦略発見による人的意思決定の改善

Improving Human Decision-Making by Discovering Efficient Strategies for Hierarchical Planning ( http://arxiv.org/abs/2102.00521v1 )

ライセンス: CC BY 4.0
Saksham Consul, Lovis Heindrich, Jugoslav Stojcheski, Falk Lieder(参考訳) 現実世界で良い意思決定を行うには、計算資源が限られているため、効率的な計画戦略が必要です。 さまざまな状況の人々に最も適した計画戦略を知ることは、人間の意思決定を理解し、改善するのに非常に役立ちます。 しかし、これらの戦略を計算する能力は、以前は非常に小さく、非常に単純な計画タスクに限られていました。 この計算ボトルネックを克服するために,人間の行動の階層構造を活用することにより,この制限を克服できる認知型強化学習手法を導入する。 基本的な考え方は、逐次的な決定問題を2つのサブ問題に分割することだ。 この階層的な分解によって、以前よりも大きく複雑なタスクで、人間の計画に最適な戦略を見つけることができます。 発見された戦略は、既存の計画アルゴリズムを上回り、超人的な計算効率を達成する。 これらの戦略を使用するように教えることで、最大8ステップの計画を必要とする意思決定タスクにおけるパフォーマンスが大幅に向上することを示す。 対照的に、以前のアプローチでは、これらの問題に対する人間のパフォーマンスを改善することはできなかった。 これらの結果から, 複雑な逐次的意思決定において, 強化学習を活用し, 人間の意思決定を改善することができることが示唆された。 今後,この手法を活用し,実世界での意思決定を改善する意思決定支援システムの開発が期待できる。

To make good decisions in the real world people need efficient planning strategies because their computational resources are limited. Knowing which planning strategies would work best for people in different situations would be very useful for understanding and improving human decision-making. But our ability to compute those strategies used to be limited to very small and very simple planning tasks. To overcome this computational bottleneck, we introduce a cognitively-inspired reinforcement learning method that can overcome this limitation by exploiting the hierarchical structure of human behavior. The basic idea is to decompose sequential decision problems into two sub-problems: setting a goal and planning how to achieve it. This hierarchical decomposition enables us to discover optimal strategies for human planning in larger and more complex tasks than was previously possible. The discovered strategies outperform existing planning algorithms and achieve a super-human level of computational efficiency. We demonstrate that teaching people to use those strategies significantly improves their performance in sequential decision-making tasks that require planning up to eight steps ahead. By contrast, none of the previous approaches was able to improve human performance on these problems. These findings suggest that our cognitively-informed approach makes it possible to leverage reinforcement learning to improve human decision-making in complex sequential decision-problems. Future work can leverage our method to develop decision support systems that improve human decision making in the real world.
翻訳日:2021-02-03 04:00:49 公開日:2021-01-31
# (参考訳) 多地域多粒特徴の同時学習による細粒度視覚分類 [全文訳有]

Fine-Grained Visual Classification via Simultaneously Learning of Multi-regional Multi-grained Features ( http://arxiv.org/abs/2102.00367v1 )

ライセンス: CC BY 4.0
Dongliang Chang, Yixiao Zheng, Zhanyu Ma, Ruoyi Du, Kongming Liang(参考訳) きめ細かい視覚分類は、同じメタクラスに属するサブクラスを認識する難しいタスクである。 クラス間の大きな類似性とクラス内分散がこのタスクの主な課題である。 ほとんどの出口法は、より微細で差別的な領域を探索するために複雑なモデル構造を設計することでこの問題を解決しようとする。 本稿では,マルチリージョンの多粒度特徴のマイニングが,まさにこの課題の鍵であると主張する。 具体的には,マルチステージチャネル制約モジュールとトップダウンスペースアテンションモジュールを含む,top-down spatial attention loss(tdsa-loss)と呼ばれる新しいロス関数を導入する。 マルチステージチャネル制約モジュールは、異なるステージのフィーチャーチャネルをカテゴリ整列させることを目指しています。 一方、トップダウンスペースアテンションモジュールは、ハイレベルアライメント機能チャネルによって生成されたアテンションマップを使用して、中間レベルアライメント機能チャネルを特定の領域に集中させる。 最後に、高レベル特徴チャネル上の複数の識別領域を取得し、中レベル特徴チャネル上のこれらの識別領域内の複数の分領域を得ることができる。 まとめると、我々は多領域多粒性特徴を得る。 4つの画像分類データセットを用いた実験結果から,提案手法の有効性が示された。 Ablative study further showed the superiority of two module in the proposed method。 コードはhttps://github.com/d ongliangchang/Top-Do wn-Spatial-Attention -Lossで入手できます。

Fine-grained visual classification is a challenging task that recognizes the sub-classes belonging to the same meta-class. Large inter-class similarity and intra-class variance is the main challenge of this task. Most exiting methods try to solve this problem by designing complex model structures to explore more minute and discriminative regions. In this paper, we argue that mining multi-regional multi-grained features is precisely the key to this task. Specifically, we introduce a new loss function, termed top-down spatial attention loss (TDSA-Loss), which contains a multi-stage channel constrained module and a top-down spatial attention module. The multi-stage channel constrained module aims to make the feature channels in different stages category-aligned. Meanwhile, the top-down spatial attention module uses the attention map generated by high-level aligned feature channels to make middle-level aligned feature channels to focus on particular regions. Finally, we can obtain multiple discriminative regions on high-level feature channels and obtain multiple more minute regions within these discriminative regions on middle-level feature channels. In summary, we obtain multi-regional multi-grained features. Experimental results over four widely used fine-grained image classification datasets demonstrate the effectiveness of the proposed method. Ablative studies further show the superiority of two modules in the proposed method. Codes are available at: https://github.com/d ongliangchang/Top-Do wn-Spatial-Attention -Loss.
翻訳日:2021-02-03 02:41:14 公開日:2021-01-31
# (参考訳) 肺結節分類の改善のためのメタオーディナル重み付け網 [全文訳有]

Meta ordinal weighting net for improving lung nodule classification ( http://arxiv.org/abs/2102.00456v1 )

ライセンス: CC BY 4.0
Yiming Lei, Hongming Shan, Junping Zhang(参考訳) 肺癌の進行は、良性から不確実性までの異なる段階における肺結節の内在性順序関係を意味する。 この問題は、その順序ラベルによる分類と回帰の間の順序回帰法によって解決することができる。 しかし、既存の畳み込みニューラルネットワーク(CNN)ベースの順序回帰法は、ランダムにサンプリングされたデータのミニバッチに基づいて分類ヘッドを変更することのみに焦点を当て、データ自体に存在する順序関係を無視している。 本稿では、各トレーニングサンプルを、すべてのクラスからいくつかのサンプルを含むメタ順序集合(mos)に明示的に整合させるメタ順序重み付けネットワーク(mow-net)を提案する。 トレーニングプロセス中、MOW-NetはMOSのサンプルから対応するクラス固有のウェイトへのマッピングを学びます。 さらに,メタ学習方式でネットワークを最適化するために,メタクロスエントロピー(MCE)損失を提案する。 実験の結果,MOW-Netは,特に不確実クラスにおいて,最先端の順序回帰法よりも精度が高いことがわかった。

The progression of lung cancer implies the intrinsic ordinal relationship of lung nodules at different stages-from benign to unsure then to malignant. This problem can be solved by ordinal regression methods, which is between classification and regression due to its ordinal label. However, existing convolutional neural network (CNN)-based ordinal regression methods only focus on modifying classification head based on a randomly sampled mini-batch of data, ignoring the ordinal relationship resided in the data itself. In this paper, we propose a Meta Ordinal Weighting Network (MOW-Net) to explicitly align each training sample with a meta ordinal set (MOS) containing a few samples from all classes. During the training process, the MOW-Net learns a mapping from samples in MOS to the corresponding class-specific weight. In addition, we further propose a meta cross-entropy (MCE) loss to optimize the network in a meta-learning scheme. The experimental results demonstrate that the MOW-Net achieves better accuracy than the state-of-the-art ordinal regression methods, especially for the unsure class.
翻訳日:2021-02-03 02:23:59 公開日:2021-01-31
# (参考訳) TruthBot: インテントラーニング、キュレートされた情報提示、フェイクニュースアラーティングのための自動会話ツール [全文訳有]

TruthBot: An Automated Conversational Tool for Intent Learning, Curated Information Presenting, and Fake News Alerting ( http://arxiv.org/abs/2102.00509v1 )

ライセンス: CC BY-SA 4.0
Ankur Gupta, Yash Varun, Prarthana Das, Nithya Muttineni, Parth Srivastava, Hamim Zafar, Tanmoy Chakraborty, Swaprava Nath(参考訳) TruthBotは、特定のトピックに関する真実(信頼できる、検証された情報)を求めるために設計されたオールインワンの多言語会話チャットボットです。 ユーザーは特定のトピックに関する情報、ファクトチェック情報、最新のニュースを入手することができる。 チャットボットは、前のインテントのデータからディープニューラルネットワークをトレーニングしてクエリのインテントを学習し、上記のクラスの1つにインテントを分類した場合に適切に応答する。 各クラスは独立したモジュールとして実装され、独自の知識ベースを使用するか、Webを検索して正しい情報を取得する。 チャットボットのトピックは現在、COVID-19に設定されています。 しかし、ボットはどんなトピック固有の応答にも簡単にカスタマイズできる。 実験の結果,各モジュールは,複数の言語でのユーザベースサーベイと定量的に検証された,最も近い競合モジュールよりもはるかに優れた性能を示した。 TruthBotは2020年6月にデプロイされ、現在実行中です。

We present TruthBot, an all-in-one multilingual conversational chatbot designed for seeking truth (trustworthy and verified information) on specific topics. It helps users to obtain information specific to certain topics, fact-check information, and get recent news. The chatbot learns the intent of a query by training a deep neural network from the data of the previous intents and responds appropriately when it classifies the intent in one of the classes above. Each class is implemented as a separate module that uses either its own curated knowledge-base or searches the web to obtain the correct information. The topic of the chatbot is currently set to COVID-19. However, the bot can be easily customized to any topic-specific responses. Our experimental results show that each module performs significantly better than its closest competitor, which is verified both quantitatively and through several user-based surveys in multiple languages. TruthBot has been deployed in June 2020 and is currently running.
翻訳日:2021-02-03 01:12:40 公開日:2021-01-31
# (参考訳) Lambdaによる重ね合わせ

Superposition with Lambdas ( http://arxiv.org/abs/2102.00453v1 )

ライセンス: CC BY 4.0
Alexander Bentkamp, Jasmin Blanchette, Sophie Tourret, Petar Vukmirovi\'c, Uwe Waldmann(参考訳) 我々は,無名関数を含むがブール関数を含まない拡張型多形高階論理の包括的断片に対する重ね合わせ計算を考案した。 推論規則は$\lambda$項の$\beta\eta$-同値クラスに作用し、反論完全性を達成するために高階統一に依存する。 我々は Zipperposition 証明器に計算を実装し,TPTP と Isabelle のベンチマークで評価した。 その結果,重ね合わせは高階推論に適した基礎であることが示唆された。

We designed a superposition calculus for a clausal fragment of extensional polymorphic higher-order logic that includes anonymous functions but excludes Booleans. The inference rules work on $\beta\eta$-equivale nce classes of $\lambda$-terms and rely on higher-order unification to achieve refutational completeness. We implemented the calculus in the Zipperposition prover and evaluated it on TPTP and Isabelle benchmarks. The results suggest that superposition is a suitable basis for higher-order reasoning.
翻訳日:2021-02-03 00:04:44 公開日:2021-01-31
# (参考訳) 確率時系列予測のための学習解釈可能な深部状態空間モデル [全文訳有]

Learning Interpretable Deep State Space Model for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2102.00397v1 )

ライセンス: CC BY 4.0
Longyuan Li, Junchi Yan, Xiaokang Yang, and Yaohui Jin(参考訳) 確率的時系列予測は、下流意思決定におけるリスク管理に不可欠な、その歴史に基づく未来分布の推定を伴う。 非線形放出モデルと遷移モデルがネットワークによってパラメータ化され、依存性が繰り返しニューラルネットによってモデル化される確率時系列予測のための深部状態空間モデルを提案する。 我々は,自動関係決定(ARD)の視点を取り入れ,時系列に加えて外因性変数を利用するネットワークを考案する。 特に,我々のARDネットワークは,外因性変数の不確実性を組み込んで,有用な外因性変数の同定と予測に無関係な変数の抑制に役立てることができる。 マルチステップ予測の分布はモンテカルロシミュレーションによって近似される。 実験では,モデルが正確かつ鋭い確率予測を生成することを示す。 予測の不確実性の推定は、時間とともに、自然に、現実的に増加する。

Probabilistic time series forecasting involves estimating the distribution of future based on its history, which is essential for risk management in downstream decision-making. We propose a deep state space model for probabilistic time series forecasting whereby the non-linear emission model and transition model are parameterized by networks and the dependency is modeled by recurrent neural nets. We take the automatic relevance determination (ARD) view and devise a network to exploit the exogenous variables in addition to time series. In particular, our ARD network can incorporate the uncertainty of the exogenous variables and eventually helps identify useful exogenous variables and suppress those irrelevant for forecasting. The distribution of multi-step ahead forecasts are approximated by Monte Carlo simulation. We show in experiments that our model produces accurate and sharp probabilistic forecasts. The estimated uncertainty of our forecasting also realistically increases over time, in a spontaneous manner.
翻訳日:2021-02-02 23:09:14 公開日:2021-01-31
# (参考訳) MultiRocket: 時系列分類における畳み込み出力の効率的な要約統計 [全文訳有]

MultiRocket: Effective summary statistics for convolutional outputs in time series classification ( http://arxiv.org/abs/2102.00457v1 )

ライセンス: CC BY 4.0
Chang Wei Tan and Angus Dempster and Christoph Bergmeir and Geoffrey I. Webb(参考訳) RocketとMiniRocketは、時系列分類において最速の2つの手法であるが、どちらも現在の最も正確な方法(HIVE-COTEとその変種)よりも若干精度が低い。 本研究では,MiniRocket(およびRocket)の精度を大幅に向上させ,さらに計算コストを掛けて,変換によって生成された機能のセットを拡大することで,マルチロケット(MiniRocket with Multiple Features)をUCRアーカイブのデータセット上で最も正確なメソッドとして,全体として実現することが可能であることを示した。

Rocket and MiniRocket, while two of the fastest methods for time series classification, are both somewhat less accurate than the current most accurate methods (namely, HIVE-COTE and its variants). We show that it is possible to significantly improve the accuracy of MiniRocket (and Rocket), with some additional computational expense, by expanding the set of features produced by the transform, making MultiRocket (for MiniRocket with Multiple Features) overall the single most accurate method on the datasets in the UCR archive, while still being orders of magnitude faster than any algorithm of comparable accuracy other than its precursors
翻訳日:2021-02-02 22:56:19 公開日:2021-01-31
# (参考訳) 責任あるaiを例外ではなく規範にする [全文訳有]

Making Responsible AI the Norm rather than the Exception ( http://arxiv.org/abs/2101.11832v2 )

ライセンス: CC BY 4.0
Abhishek Gupta (Montreal AI Ethics Institute and Microsoft)(参考訳) モントリオールAI倫理研究所が作成したこのレポートは、人工知能に関する国家安全保障委員会(National Security Commission on Artificial Intelligence (NSCAI) Key considerations for Responsible Development and Fielding of Artificial Intelligence documentに応答して推奨している。 報告書は、責任あるAIは例外ではなくノルムを作るべきだという考えを中心にしている。 それは、(1)既存のワークフローの摩擦を軽減する、(2)利害関係者に購入を許可する、(3)抽象的な標準を実行可能なエンジニアリングプラクティスに効果的な変換を行う、というガイド原則を活用することによって実現される。 NSCAIからドキュメントに関する包括的なコメントを提供した後、レポートは、NSCAIから文書に提示されたアイデアを運用するのに役立つ、実行可能なフレームワークの主な貢献について掘り下げる。 フレームワークは,(1)学習,知識,情報交換(LKIE),(2)責任AIの3つの方法,(3)経験的に駆動されるリスク優先化行列,(4)適切な複雑性レベルを達成することから構成される。 すべてのコンポーネントは相互に強化され、Responsible AIを例外ではなく規範とする上での原則から実践へと移行する。

This report prepared by the Montreal AI Ethics Institute provides recommendations in response to the National Security Commission on Artificial Intelligence (NSCAI) Key Considerations for Responsible Development and Fielding of Artificial Intelligence document. The report centres on the idea that Responsible AI should be made the Norm rather than an Exception. It does so by utilizing the guiding principles of: (1) alleviating friction in existing workflows, (2) empowering stakeholders to get buy-in, and (3) conducting an effective translation of abstract standards into actionable engineering practices. After providing some overarching comments on the document from the NSCAI, the report dives into the primary contribution of an actionable framework to help operationalize the ideas presented in the document from the NSCAI. The framework consists of: (1) a learning, knowledge, and information exchange (LKIE), (2) the Three Ways of Responsible AI, (3) an empirically-driven risk-prioritization matrix, and (4) achieving the right level of complexity. All components reinforce each other to move from principles to practice in service of making Responsible AI the norm rather than the exception.
翻訳日:2021-02-02 22:29:10 公開日:2021-01-31
# (参考訳) 非線形進化PDEによる光学流の微細化

Nonlinear Evolutionary PDE-Based Refinement of Optical Flow ( http://arxiv.org/abs/2102.00487v1 )

ライセンス: CC BY 4.0
Hirak Doshi, N. Uday Kiran(参考訳) 本稿では, 変分法による非二次正則化を伴う光流れの精密化のための数学的枠組みを提案する。 このモデルが剛体と流体の運動推定にどのように適合するかを実証する。 進化的PDE手法を用いて,その問題を抽象IVPとして研究する。 制約の特定の選択については、拡張ラグランジアン手法を用いた非量子正規化による連続性モデルに近似することを示す。 その後、異なるデータセット上でアルゴリズムの結果を示す。

The goal of this paper is propose a mathematical framework for optical flow refinement with non-quadratic regularization using variational techniques. We demonstrate how the model can be suitably adapted for both rigid and fluid motion estimation. We study the problem as an abstract IVP using an evolutionary PDE approach. We show that for a particular choice of constraint our model approximates the continuity model with non-quadratic regularization using augmented Lagrangian techniques. We subsequently show the results of our algorithm on different datasets.
翻訳日:2021-02-02 20:38:34 公開日:2021-01-31
# (参考訳) 知覚的特徴的忠実性喪失を伴う非知覚的クエリ限定逆攻撃に向けて [全文訳有]

Towards Imperceptible Query-limited Adversarial Attacks with Perceptual Feature Fidelity Loss ( http://arxiv.org/abs/2102.00449v1 )

ライセンス: CC BY 4.0
Pengrui Quan, Ruiming Guo, Mani Srivastava(参考訳) 近年,特に画像の深層学習に基づく分類器を,視覚的に視覚的に類似した逆入力によって騙す取り組みが盛んに行われている。 しかしながら、研究者は通常Lp-ノルムの最小化を非受容性のプロキシとして使用し、現実世界の画像の多様性と豊かさと人間の視覚知覚を過度に単純化する。 本研究では,低レベルの画像特徴の忠実度と人間の視覚感度との密接な関係を利用して,知覚的特徴の忠実度を損なう新しい知覚指標を提案する。 本手法は,様々な条件下で検証された画像の可視性をロバストに反映し,記述できることを示す。 さらに,この測定基準は高い柔軟性を有しており,ノイズ分布を導くため,既存の様々な最適化フレームワークに便利に統合できることを示す。 この指標は、非自明な摂動力のために知覚不能が達成し難い、限られたクエリを伴う難解なブラックボックス攻撃において特に有用である。

Recently, there has been a large amount of work towards fooling deep-learning-based classifiers, particularly for images, via adversarial inputs that are visually similar to the benign examples. However, researchers usually use Lp-norm minimization as a proxy for imperceptibility, which oversimplifies the diversity and richness of real-world images and human visual perception. In this work, we propose a novel perceptual metric utilizing the well-established connection between the low-level image feature fidelity and human visual sensitivity, where we call it Perceptual Feature Fidelity Loss. We show that our metric can robustly reflect and describe the imperceptibility of the generated adversarial images validated in various conditions. Moreover, we demonstrate that this metric is highly flexible, which can be conveniently integrated into different existing optimization frameworks to guide the noise distribution for better imperceptibility. The metric is particularly useful in the challenging black-box attack with limited queries, where the imperceptibility is hard to achieve due to the non-trivial perturbation power.
翻訳日:2021-02-02 18:27:25 公開日:2021-01-31
# (参考訳) 畳み込みニューラルネットワークに基づく深層学習モデルを用いたアンサンブル・トランスファー学習による骨折・正常肩骨X線画像の分類 [全文訳有]

Classification of Fracture and Normal Shoulder Bone X-Ray Images Using Ensemble and Transfer Learning With Deep Learning Models Based on Convolutional Neural Networks ( http://arxiv.org/abs/2102.00515v1 )

ライセンス: CC BY 4.0
Fatih Uysal, F{\i}rat Hardala\c{c}, Ozan Peker, Tolga Tolunay and Nil Tokg\"oz(参考訳) 様々な理由で肩骨折が起こり、身体の他の関節よりも広く、より多様な動きの領域が生じる。 まず、X線(Xradiation)、磁気共鳴イメージング(MRI)、CT(Computerd Tomography)デバイスを介して肩にデジタルイメージングと医療(DICOM)形式のコミュニケーションの画像を生成し、そのような骨折を診断および治療します。 肩関節X線画像は, 畳み込みニューラルネットワーク(CNN)に基づく深層学習モデルを用いて, 転帰学習とアンサンブル学習を用いて, 医師が肩関節骨折の診断と治療を行えるように分類し, 比較した。 列車用データセットには、8379, 4211 正常(負、非骨折)、4168 異常(正、骨折) 3 チャンネル肩骨x線画像と、563, 285 正常、および 278 異常 3 チャンネル肩骨x線画像と png 形式の異常 3 チャンネル肩骨x線画像があり、最大の公共放射線画像データセットである musculoskeletal radiographs (mura) の全ての肩画像を用いて、分類と試験を行う。 CNNベースのディープラーニングモデルには、ResNet、ResNeXt、DenseNet、VGG、Inception、MobileNetがある。 また,全モデルの脊髄完全連結(spinal fc)適応による分類も行った。 これらすべての分類手順に転送学習が適用された。 ここで得られた分類結果に基づいて,2つの異なるアンサンブル学習(EL)モデルが確立された。 EL2モデルではコーエンス・カッパ最高点0.6942、分類精度84.72%、EL1ではAUC最高点0.8862を達成した。

Various reasons cause shoulder fractures to occur, an area with wider and more varied range of movement than other joints in body. Firstly, images in digital imaging and communications in medicine (DICOM) format are generated for shoulder via Xradiation (Xray), magnetic resonance imaging (MRI) or computed tomography (CT) devices to diagnose and treat such fractures. Shoulder bone Xray images were classified and compared via deep learning models based on convolutional neural network (CNN) using transfer learning and ensemble learning in this study to help physicians diagnose and apply required treatment for shoulder fractures. There are a total of 8379, 4211 normal (negative, nonfracture) and 4168 abnormal (positive, fracture) 3 channel shoulder bone Xray images with png format for train data set, and a total of 563, 285 normal and 278 abnormal 3 channel shoulder bone Xray images with png format for validation and test data in classification conducted using all shoulder images in musculoskeletal radiographs (MURA) dataset, one of the largest public radiographic image datasets. CNN based built deep learning models herein are; ResNet, ResNeXt, DenseNet, VGG, Inception and MobileNet. Moreover, a classification was also performed by Spinal fully connected (Spinal FC) adaptations of all models. Transfer learning was applied for all these classification procedures. Two different ensemble learning (EL) models were established based on performance of classification results obtained herein. The highest Cohens Kappa score of 0.6942 and highest classification test accuracy of 84.72% were achieved in EL2 model, and the highest AUC score of 0.8862 in EL1.
翻訳日:2021-02-02 18:14:02 公開日:2021-01-31
# 教師なし言語非依存エンティティ曖昧化法とその英語・ペルシア語に対する評価

An Unsupervised Language-Independent Entity Disambiguation Method and its Evaluation on the English and Persian Languages ( http://arxiv.org/abs/2102.00395v1 )

ライセンス: Link先を確認
Majid Asgari-Bidhendi, Behrooz Janfada, Amir Havangi, Sayyed Ali Hossayni, Behrouz Minaei-Bidgoli(参考訳) エンティティリンクは、情報抽出と自然言語理解の重要なタスクの1つです。 エンティティリンクは主に、名前付きエンティティの認識と曖昧さの2つのタスクから構成される。 ほとんどの研究は、これらの2つのタスクを別々に扱うか、どちらか一方に集中する。 さらに、最先端エンティティリンクアルゴリズムのほとんどは教師付きであり、アノテーション付きコーパスや言語に依存しない性能は低いが、多言語アプリケーションには適さない。 本稿では、名前付きエンティティの曖昧化とリンクのための新しいアプローチである、Unsupervised Language-Independent Entity Disambiguation (ULIED)を紹介する。 データセットをリンクする異なる英語のエンティティ上でのULIEDの評価と利用可能な唯一のペルシャデータセットは、ほとんどの場合、ULIEDが最先端の教師なし多言語アプローチを上回っていることを示しています。

Entity Linking is one of the essential tasks of information extraction and natural language understanding. Entity linking mainly consists of two tasks: recognition and disambiguation of named entities. Most studies address these two tasks separately or focus only on one of them. Moreover, most of the state-of-the -art entity linking algorithms are either supervised, which have poor performance in the absence of annotated corpora or language-dependent, which are not appropriate for multi-lingual applications. In this paper, we introduce an Unsupervised Language-Independent Entity Disambiguation (ULIED), which utilizes a novel approach to disambiguate and link named entities. Evaluation of ULIED on different English entity linking datasets as well as the only available Persian dataset illustrates that ULIED in most of the cases outperforms the state-of-the-art unsupervised multi-lingual approaches.
翻訳日:2021-02-02 17:03:20 公開日:2021-01-31
# プロテイン配列に対する逆対比前訓練

Adversarial Contrastive Pre-training for Protein Sequences ( http://arxiv.org/abs/2102.00466v1 )

ライセンス: Link先を確認
Matthew B. A. McDermott, Brendan Yap, Harry Hsu, Di Jin, Peter Szolovits(参考訳) 自然言語処理(NLP)の最近の進歩は、大規模で自己管理型事前学習が下流タスクに極めて有益であることを示している。 これらのアイデアはタンパク質のアミノ酸配列の解析を含む他の領域に適応している。 しかし、現在までタンパク質配列に関するほとんどの試みは、直接マスクされた言語モデルスタイルの事前トレーニングに依存している。 本研究は,NLPの類似した進歩を拡張・特化して,新しいタンパク質の対向的事前学習法を設計する。 従来のMLMプリトレーニングと比較して魅力的な結果を示していますが、大幅な計算コストの価値を確保するためにさらなる開発が必要です。

Recent developments in Natural Language Processing (NLP) demonstrate that large-scale, self-supervised pre-training can be extremely beneficial for downstream tasks. These ideas have been adapted to other domains, including the analysis of the amino acid sequences of proteins. However, to date most attempts on protein sequences rely on direct masked language model style pre-training. In this work, we design a new, adversarial pre-training method for proteins, extending and specializing similar advances in NLP. We show compelling results in comparison to traditional MLM pre-training, though further development is needed to ensure the gains are worth the significant computational cost.
翻訳日:2021-02-02 17:02:47 公開日:2021-01-31
# マルチモーダル変圧器におけるデータ・注意・損失の役割の分離

Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers ( http://arxiv.org/abs/2102.00529v1 )

ライセンス: Link先を確認
Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, Aida Nematzadeh(参考訳) 最近のマルチモーダルトランスフォーマーモデルは、言語と視覚タスクのパフォーマンスが、リッチな視覚言語表現を学ぶことを示唆しているため、人気を集めている。 ゼロショット画像検索タスクに着目し,事前学習データ,注意機構,損失関数といった学習表現の質に影響を与える3つの重要な要因について検討した。 6つのデータセットでモデルを事前トレーニングすることで、データ集合のノイズとダウンストリームタスクとの言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。 アーキテクチャ解析により,マルチモーダル・アテンション機構を持つモデルが,モダリティ特有のアテンション機構を持つ深いモデルよりも優れていることを知る。 最後に, 自己指導型学習文献におけるコントラスト損失は, マルチモーダルトランスにおいて同様の性能向上をもたらさないことを示した。

Recently multimodal transformer models have gained popularity because their performance on language and vision tasks suggest they learn rich visual-linguistic representations. Focusing on zero-shot image retrieval tasks, we study three important factors which can impact the quality of learned representations: pretraining data, the attention mechanism, and loss functions. By pretraining models on six datasets, we observe that dataset noise and language similarity to our downstream task are important indicators of model performance. Through architectural analysis, we learn that models with a multimodal attention mechanism can outperform deeper models with modality specific attention mechanisms. Finally, we show that successful contrastive losses used in the self-supervised learning literature do not yield similar performance gains when used in multimodal transformers
翻訳日:2021-02-02 16:59:37 公開日:2021-01-31
# M2FN:マルチステップモダリティ融合による画像評価

M2FN: Multi-step Modality Fusion for Advertisement Image Assessment ( http://arxiv.org/abs/2102.00441v1 )

ライセンス: Link先を確認
Kyung-Wha Park (1), Jung-Woo Ha (2), JungHoon Lee (3), Sunyoung Kwon (4), Kyung-Min Kim (2), Byoung-Tak Zhang (1 and 5 and 6) ((1) Interdisciplinary Program in Neuroscience, Seoul National University., (2) NAVER AI LAB, NAVER CLOVA., (3) Statistics and Actuarial Science, Soongsil University., (4) School of Biomedical Convergence Engineering, Pusan National University., (5) Department of Computer Science and Engineering, Seoul National University., (6) Surromind Robotics.)(参考訳) 特にユーザーの嗜好と広告品質に基づいて広告を評価することは、マーケティング業界にとって重要です。 近年の研究では、ディープニューラルネットワークの利用を試みているが、これらの研究では画像関連補助属性(ad画像に頻繁に見られる埋め込みテキストを含む)は使用されていない。 そこで,これらの属性が広告イメージの嗜好に与える影響を検討した。 まず, 大規模実世界の広告ログデータを分析し, 本研究に基づいて, ユーザの好みにアピールしそうな広告画像を決定する新しいマルチステップモダリティ融合ネットワーク (m2fn) を提案する。 本手法は,条件付きバッチ正規化に基づく低レベル融合と注意に基づく高レベル融合を含む,ネットワーク内の複数のステップを通じて補助属性を利用する。 M2FNは、美的画像評価に広く使用されているAVAデータセット上で検証し、豊富な補助属性を持つ実世界の広告データセットを用いて、嗜好予測における最先端のパフォーマンスを達成できることを実証しました。

Assessing advertisements, specifically on the basis of user preferences and ad quality, is crucial to the marketing industry. Although recent studies have attempted to use deep neural networks for this purpose, these studies have not utilized image-related auxiliary attributes, which include embedded text frequently found in ad images. We, therefore, investigated the influence of these attributes on ad image preferences. First, we analyzed large-scale real-world ad log data and, based on our findings, proposed a novel multi-step modality fusion network (M2FN) that determines advertising images likely to appeal to user preferences. Our method utilizes auxiliary attributes through multiple steps in the network, which include conditional batch normalization-based low-level fusion and attention-based high-level fusion. We verified M2FN on the AVA dataset, which is widely used for aesthetic image assessment, and then demonstrated that M2FN can achieve state-of-the-art performance in preference prediction using a real-world ad dataset with rich auxiliary attributes.
翻訳日:2021-02-02 16:59:03 公開日:2021-01-31
# サイクリングネット:深層学習による複雑な都市シーンにおける映像ストリームからの近距離サイクリング検出

CyclingNet: Detecting cycling near misses from video streams in complex urban scenes with deep learning ( http://arxiv.org/abs/2102.00565v1 )

ライセンス: Link先を確認
Mohamed R. Ibrahim, James Haworth, Nicola Christie and Tao Cheng(参考訳) サイクリングは、都市での通勤やレジャーにとって有望な持続可能なモードであるが、衝突や転倒の恐れは、通勤モードとして幅広い拡大を減少させる。 本論文では,自転車に搭載されたフロントカメラが生成する映像ストリームから,カメラの位置,構築状況,視覚的条件,走行動作の制限などに関係なく,走行距離付近のサイクリングを検出する新しい手法であるCyclingNetについて紹介する。 CyclingNet(サイクリングネット)は、シーンの連続的な画像とその光学的流れの両方から近接ミスを理解することを目的とした自己注目の双方向長期メモリ(LSTM)ブロックが埋め込まれた畳み込み構造に基づく深層コンピュータビジョンモデルです。 モデルは安全な乗り物と近いミスの両方のシーンで訓練されています。 単一のGPU上で42時間のトレーニングを行った後、モデルはトレーニング、テスト、検証セットで高い精度を示します。 このモデルは、都市計画者や政策立案者がインフラの設計や政策策定の際の安全対策の必要性をよりよく理解できるように、都市などのサイクリング行動に関する重要な結論を導き出す情報を生成するために使用される。 将来の作業では、モデルは、道路利用者、構築された環境および自然環境の相互作用に関連する要因に基づいて、近接ミスの因果関係を理解するために、他の最先端の分類器およびオブジェクト検出器と同時にパイプライン化することができる。

Cycling is a promising sustainable mode for commuting and leisure in cities, however, the fear of getting hit or fall reduces its wide expansion as a commuting mode. In this paper, we introduce a novel method called CyclingNet for detecting cycling near misses from video streams generated by a mounted frontal camera on a bike regardless of the camera position, the conditions of the built, the visual conditions and without any restrictions on the riding behaviour. CyclingNet is a deep computer vision model based on convolutional structure embedded with self-attention bidirectional long-short term memory (LSTM) blocks that aim to understand near misses from both sequential images of scenes and their optical flows. The model is trained on scenes of both safe rides and near misses. After 42 hours of training on a single GPU, the model shows high accuracy on the training, testing and validation sets. The model is intended to be used for generating information that can draw significant conclusions regarding cycling behaviour in cities and elsewhere, which could help planners and policy-makers to better understand the requirement of safety measures when designing infrastructure or drawing policies. As for future work, the model can be pipelined with other state-of-the-art classifiers and object detectors simultaneously to understand the causality of near misses based on factors related to interactions of road-users, the built and the natural environments.
翻訳日:2021-02-02 16:58:24 公開日:2021-01-31
# 視覚投射ゲームで学習した神経表現の一般化力に関する実証的研究

An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games ( http://arxiv.org/abs/2102.00424v1 )

ライセンス: Link先を確認
Alessandro Suglia, Yonatan Bisk, Ioannis Konstas, Antonio Vergari, Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon(参考訳) 推論ゲームは「相互作用による学習」パラダイムの原型的例である。 本研究では,視覚的質問応答 (VQA) のような新しい NLP 下流タスクの実行を後から求めた場合,人工エージェントが推測ゲームを行うことのメリットについて検討する。 1) エージェントが成功した推測ゲームを模倣することを学ぶ教師付き学習シナリオと2) エージェントが単独でプレイする新しい方法、すなわち反復体験学習(SPIEL)という2つの方法を提案する。 ドメイン内の評価は、評価スイートCompGuessWhatの競合他社と比較して、精度の向上(+7.79)を示しています。 転送評価は、SPIELで学習したよりきめ細かいオブジェクト表現のおかげで、TDIUCデータセット上のVQAの性能を高調波平均精度(+5.31)で向上させる。

Guessing games are a prototypical instance of the "learning by interacting" paradigm. This work investigates how well an artificial agent can benefit from playing guessing games when later asked to perform on novel NLP downstream tasks such as Visual Question Answering (VQA). We propose two ways to exploit playing guessing games: 1) a supervised learning scenario in which the agent learns to mimic successful guessing games and 2) a novel way for an agent to play by itself, called Self-play via Iterated Experience Learning (SPIEL). We evaluate the ability of both procedures to generalize: an in-domain evaluation shows an increased accuracy (+7.79) compared with competitors on the evaluation suite CompGuessWhat?!; a transfer evaluation shows improved performance for VQA on the TDIUC dataset in terms of harmonic average accuracy (+5.31) thanks to more fine-grained object representations learned via SPIEL.
翻訳日:2021-02-02 16:56:58 公開日:2021-01-31
# オフライン強化学習における後悔の速さ

Fast Rates for the Regret of Offline Reinforcement Learning ( http://arxiv.org/abs/2102.00479v1 )

ライセンス: Link先を確認
Yichun Hu, Nathan Kallus, Masatoshi Uehara(参考訳) 無限水平割引マルコフ決定プロセス(MDP)における固定行動政策によって生成されたオフラインデータからの強化学習の後悔について研究する。 適合した$Q$-イテレーション(FQI)のような一般的なアプローチの既存の分析は、後悔のために$O(1/\sqrt{n})$収束を示唆するが、経験的行動ははるかに速い収束を示す。 本稿では,後悔の収束速度を速くすることで,この現象を正確に特徴づける,より細かい後悔の分析を行う。 まず、最適品質関数 $Q^*$ の任意の推定値を考えると、それが定義するポリシーの後悔は、$Q^*$-推定値の点収束率の指数付けによって与えられた速度で収束し、それによってそれを高速化する。 指数のレベルは、推定問題ではなく、意思決定問題における雑音のレベルに依存する。 線形および表式MDPのノイズレベルを例に挙げます。 第二に、FQIとベルマン残差最小化の新しい分析を行い、正しい点収束保証を確立する。 具体例では, 線形症例では$O(1/n)=後悔率, 表例では$\exp(-\Omega(n))$後悔率は$O(1/n)。

We study the regret of reinforcement learning from offline data generated by a fixed behavior policy in an infinite-horizon discounted Markov decision process (MDP). While existing analyses of common approaches, such as fitted $Q$-iteration (FQI), suggest a $O(1/\sqrt{n})$ convergence for regret, empirical behavior exhibits much faster convergence. In this paper, we present a finer regret analysis that exactly characterizes this phenomenon by providing fast rates for the regret convergence. First, we show that given any estimate for the optimal quality function $Q^*$, the regret of the policy it defines converges at a rate given by the exponentiation of the $Q^*$-estimate's pointwise convergence rate, thus speeding it up. The level of exponentiation depends on the level of noise in the decision-making problem, rather than the estimation problem. We establish such noise levels for linear and tabular MDPs as examples. Second, we provide new analyses of FQI and Bellman residual minimization to establish the correct pointwise convergence guarantees. As specific cases, our results imply $O(1/n)$ regret rates in linear cases and $\exp(-\Omega(n))$ regret rates in tabular cases.
翻訳日:2021-02-02 16:55:43 公開日:2021-01-31
# 時間的ドロップアウトによる微調整手書き認識システム

Fine-tuning Handwriting Recognition systems with Temporal Dropout ( http://arxiv.org/abs/2102.00511v1 )

ライセンス: Link先を確認
Edgard Chammas, Chafic Mokbel(参考訳) 本論文では,Recurrent Neural Networks(RNN)に基づく手書き認識システムの微調整手法を提案する。 LSTM(Long Short-Term Memory)ネットワークは長いシーケンスのモデリングに長けているが、時間とともに過度に適合する傾向がある。 シーケンスをモデル化するシステムの能力を向上させるために,シーケンス内のランダムな位置の情報をドロップする手法を提案する。 われわれのアプローチをTD(Temporal Dropout)と呼ぶ。 内部ネットワーク表現にも画像レベルでTDを適用します。 TDは2つの異なるデータセットで結果を改善する。 提案手法は,従来のロドリゴデータセットよりも優れていた。

This paper introduces a novel method to fine-tune handwriting recognition systems based on Recurrent Neural Networks (RNN). Long Short-Term Memory (LSTM) networks are good at modeling long sequences but they tend to overfit over time. To improve the system's ability to model sequences, we propose to drop information at random positions in the sequence. We call our approach Temporal Dropout (TD). We apply TD at the image level as well to internal network representation. We show that TD improves the results on two different datasets. Our method outperforms previous state-of-the-art on Rodrigo dataset.
翻訳日:2021-02-02 16:54:16 公開日:2021-01-31
# 生成型および識別型Deep Belief Network Classifiers: Approximate Computing Framework による比較

Generative and Discriminative Deep Belief Network Classifiers: Comparisons Under an Approximate Computing Framework ( http://arxiv.org/abs/2102.00534v1 )

ライセンス: Link先を確認
Siqiao Ruan, Ian Colbert, Ken Kreutz-Delgado, and Srinjoy Das(参考訳) 組み込みアプリケーションにおけるDeep Learningハードウェアアルゴリズムの使用は、デバイス電力消費の制約、ラベル付きデータの可用性、クラウドサーバー上で頻繁なトレーニングを行うためのインターネット帯域幅の制限といった課題によって特徴づけられる。 低消費電力実装を実現するため,組込みデバイス分類タスクの識別的ディープ信念ネットワーク(DDBN)と呼ばれるディープラーニングアルゴリズムのクラスに対して,効率的なビット幅削減とプルーニングを検討する。 DDBNを近似計算フレームワークで生成的および識別的目的の両方で訓練し、教師付きおよび半教師付きアプリケーションのパワー・アット・パフォーマンスを解析する。 また,推論データが同一のクラス構造を持つが,動的リアルタイム動作環境によるトレーニングデータと統計的に異なる場合,DDBNの分布外性能についても検討する。 筆者らは,本分析に基づいて,組込みハードウェアプラットフォーム上での最小消費電力でDDBN推論を行うためのラベル付きデータの量に対して,トレーニング対象,ビット幅値,精度感受性の選択に関する新たな知見と勧告を提供する。

The use of Deep Learning hardware algorithms for embedded applications is characterized by challenges such as constraints on device power consumption, availability of labeled data, and limited internet bandwidth for frequent training on cloud servers. To enable low power implementations, we consider efficient bitwidth reduction and pruning for the class of Deep Learning algorithms known as Discriminative Deep Belief Networks (DDBNs) for embedded-device classification tasks. We train DDBNs with both generative and discriminative objectives under an approximate computing framework and analyze their power-at-performance for supervised and semi-supervised applications. We also investigate the out-of-distribution performance of DDBNs when the inference data has the same class structure yet is statistically different from the training data owing to dynamic real-time operating environments. Based on our analysis, we provide novel insights and recommendations for choice of training objectives, bitwidth values, and accuracy sensitivity with respect to the amount of labeled data for implementing DDBN inference with minimum power consumption on embedded hardware platforms subject to accuracy tolerances.
翻訳日:2021-02-02 16:53:48 公開日:2021-01-31
# ディープラーニングにおけるスパーシティ:ニューラルネットワークの効率的な推論とトレーニングのための刈り込みと成長

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks ( http://arxiv.org/abs/2102.00554v1 )

ライセンス: Link先を確認
Torsten Hoefler, Dan Alistarh, Tal Ben-Nun, Nikoli Dryden, Alexandra Peste(参考訳) ディープラーニングのエネルギとパフォーマンスのコストの増大は、選択的にコンポーネントを刈り取ることによって、ニューラルネットワークのサイズを削減した。 生物学的なネットワークと同様に、スパースネットワークはオリジナルの高密度ネットワークと同等に一般化する。 sparsityは、モバイルデバイスに適合する通常のネットワークのメモリフットプリントを削減し、成長を続けるネットワークのトレーニング時間を短縮できる。 本稿では,ディープラーニングにおけるスパーシリティに関する先行研究を調査し,推論とトレーニングの両方においてスパーシフィケーションの広範なチュートリアルを提供する。 ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。 われわれの研究は300以上の研究論文からアイデアを抽出し、現在空き地を利用したい実践者や、フロンティアを前進させることを目標とする研究者にガイダンスを提供する。 本稿では,スパーシフィケーションにおける数学的手法の背景,早期構造適応,疎度とトレーニングプロセスの複雑な関係などの現象を記述し,実際のハードウェア上で加速を達成するための技術を示す。 また、異なるスパースネットワークの比較のベースラインとして機能するprunedパラメータ効率のメトリックを定義します。 sparsityが将来のワークロードをどのように改善できるかを推測し、この分野の主要なオープン問題を概説することで締めくくった。

The growing energy and performance costs of deep learning have driven the community to reduce the size of neural networks by selectively pruning components. Similarly to their biological counterparts, sparse networks generalize just as well, if not better than, the original dense networks. Sparsity can reduce the memory footprint of regular networks to fit mobile devices, as well as shorten training time for ever growing networks. In this paper, we survey prior work on sparsity in deep learning and provide an extensive tutorial of sparsification for both inference and training. We describe approaches to remove and add elements of neural networks, different training strategies to achieve model sparsity, and mechanisms to exploit sparsity in practice. Our work distills ideas from more than 300 research papers and provides guidance to practitioners who wish to utilize sparsity today, as well as to researchers whose goal is to push the frontier forward. We include the necessary background on mathematical methods in sparsification, describe phenomena such as early structure adaptation, the intricate relations between sparsity and the training process, and show techniques for achieving acceleration on real hardware. We also define a metric of pruned parameter efficiency that could serve as a baseline for comparison of different sparse networks. We close by speculating on how sparsity can improve future workloads and outline major open problems in the field.
翻訳日:2021-02-02 16:51:05 公開日:2021-01-31
# テキスト要約のためのコンテキスト付き書き換え

Contextualized Rewriting for Text Summarization ( http://arxiv.org/abs/2102.00385v1 )

ライセンス: Link先を確認
Guangsheng Bao and Yue Zhang(参考訳) 抽出的要約は、非関連性、冗長性、および非整合性に苦しむ。 既存の研究によると、抽出要約のための抽象的な書き換えは簡潔さと可読性を向上させることができる。 これらの書き直しシステムは、抽出された要約を、比較的焦点を絞ったが重要な背景知識を失う唯一の入力とみなしている。 本稿では,原文書全体を包含する文脈的書き換えについて検討する。 グループアライメントによる seq2seq 問題として文脈的書き換えを形式化し、グループタグをアライメントをモデル化するソリューションとして導入し、コンテンツベースのアドレッシングによって抽出された要約を特定します。 その結果,本手法は強化学習を必要とせず,非文脈的書き直しシステムを大きく上回り,複数抽出要約によるルージュスコアの大幅な改善を実現した。

Extractive summarization suffers from irrelevance, redundancy and incoherence. Existing work shows that abstractive rewriting for extractive summaries can improve the conciseness and readability. These rewriting systems consider extracted summaries as the only input, which is relatively focused but can lose important background knowledge. In this paper, we investigate contextualized rewriting, which ingests the entire original document. We formalize contextualized rewriting as a seq2seq problem with group alignments, introducing group tag as a solution to model the alignments, identifying extracted summaries through content-based addressing. Results show that our approach significantly outperforms non-contextualized rewriting systems without requiring reinforcement learning, achieving strong improvements on ROUGE scores upon multiple extractive summarizers.
翻訳日:2021-02-02 16:50:21 公開日:2021-01-31
# 特許データから抽出した技術ラベルに基づく新しい単語埋め込み手法の導入

Introduction of a novel word embedding approach based on technology labels extracted from patent data ( http://arxiv.org/abs/2102.00425v1 )

ライセンス: Link先を確認
Mark Standke, Abdullah Kiwan, Annalena Lange, Dr. Silvan Berg(参考訳) 特許言語の多様性が高まり、特許検索を行うための同義語を見つけることはますます困難になっている。 それに加えて、多様な特許言語を扱うためのほとんどのアプローチは、手動検索と人間の直感に基づいている。 本稿では,人間のラベル付きデータの統計的解析を用いて,技術用語に対して正確かつ言語に依存しない単語ベクトルを生成する単語埋め込み手法を提案する。 本稿では,統計解析の背後にある概念の説明に注目し,最初の定性的結果を示す。 このアルゴリズムは以前のEQMania UG(eqmania.com)の開発であり、2021年4月までeqalice.comでテストできる。

Diversity in patent language is growing and makes finding synonyms for conducting patent searches more and more challenging. In addition to that, most approaches for dealing with diverse patent language are based on manual search and human intuition. In this paper, a word embedding approach using statistical analysis of human labeled data to produce accurate and language independent word vectors for technical terms is introduced. This paper focuses on the explanation of the idea behind the statistical analysis and shows first qualitative results. The resulting algorithm is a development of the former EQMania UG (eqmania.com) and can be tested under eqalice.com until April 2021.
翻訳日:2021-02-02 16:49:47 公開日:2021-01-31
# OAS-Net: Occlusion Aware Sampling Network for Accurate Optical Flow

OAS-Net: Occlusion Aware Sampling Network for Accurate Optical Flow ( http://arxiv.org/abs/2102.00364v1 )

ライセンス: Link先を確認
Lingtong Kong, Xiaohang Yang, Jie Yang(参考訳) 光フロー推定は多くの現実世界のコンピュータビジョンタスクにとって必須のステップである。 既存の深層ネットワークは、主にピラミッドの粗い粒度パラダイムを用いて、従来の流れ予測に基づいて歪んだターゲット特徴を採用することが重要なプロセスであり、3Dマッチングコストボリュームを構築するためのソース特徴と相関する。 しかし、ワーピング操作は、曖昧さをもたらす厄介なゴースト問題を引き起こす可能性がある。 さらに, 閉塞領域は既存のほとんどの作品において非閉塞領域と等しく扱われ, 性能劣化を引き起こす可能性がある。 これらの課題に対処するため,我々はOAS-Net (occlusion aware sample network) という軽量で効率的な光フローネットワークを提案する。 まず,新しいサンプリングベース相関層を用い,ノイズを発生させることなく処理を行う。 第2に、新規な閉塞認識モジュールにより、閉塞領域に対する原価ボリュームを意識させる。 第3に、構造コンパクト性には共有フローとオクルージョン認識デコーダを採用する。 SintelおよびKITTIデータセットに関する実験は、提案されたアプローチの有効性を示す。

Optical flow estimation is an essential step for many real-world computer vision tasks. Existing deep networks have achieved satisfactory results by mostly employing a pyramidal coarse-to-fine paradigm, where a key process is to adopt warped target feature based on previous flow prediction to correlate with source feature for building 3D matching cost volume. However, the warping operation can lead to troublesome ghosting problem that results in ambiguity. Moreover, occluded areas are treated equally with non occluded regions in most existing works, which may cause performance degradation. To deal with these challenges, we propose a lightweight yet efficient optical flow network, named OAS-Net (occlusion aware sampling network) for accurate optical flow. First, a new sampling based correlation layer is employed without noisy warping operation. Second, a novel occlusion aware module is presented to make raw cost volume conscious of occluded regions. Third, a shared flow and occlusion awareness decoder is adopted for structure compactness. Experiments on Sintel and KITTI datasets demonstrate the effectiveness of proposed approaches.
翻訳日:2021-02-02 16:34:59 公開日:2021-01-31
# MLMA-Net:繊維欠陥画像におけるマルチラベル物体検出のためのマルチレベルマルチアテンショナル学習

MLMA-Net: multi-level multi-attentional learning for multi-label object detection in textile defect images ( http://arxiv.org/abs/2102.00376v1 )

ライセンス: Link先を確認
Bing Wei (Student Member, IEEE), Kuangrong Hao (Member, IEEE), Lei Gao (Member, IEEE)(参考訳) 繊維欠陥の認識・分類のために, 深層学習法が提案され, シングルラベル織物画像において顕著な成功を収めている。 しかし、複数の欠陥と小さな欠陥が共存しているため、織物画像における多重ラベル欠陥の検出は依然として困難である。 これらの課題を解決するために、マルチレベルのマルチアテンテーショナルディープラーニングネットワーク(MLMA-Net)が提案され、1)小型欠陥を検出する機能表現能力の向上、2)複数の欠陥に対する高分解能機能マップを活用する欠陥状態への出席能力を最大化する識別表現を生成する。 さらに,繊維欠陥画像における多ラベル物体検出データセット(DHU-ML1000)を構築し,提案モデルの性能を検証する。 その結果、ネットワークはより特徴的な特徴を抽出し、実世界の産業データセットに対する最先端のアプローチよりも優れたパフォーマンスを示す。

For the sake of recognizing and classifying textile defects, deep learning-based methods have been proposed and achieved remarkable success in single-label textile images. However, detecting multi-label defects in a textile image remains challenging due to the coexistence of multiple defects and small-size defects. To address these challenges, a multi-level, multi-attentional deep learning network (MLMA-Net) is proposed and built to 1) increase the feature representation ability to detect small-size defects; 2) generate a discriminative representation that maximizes the capability of attending the defect status, which leverages higher-resolution feature maps for multiple defects. Moreover, a multi-label object detection dataset (DHU-ML1000) in textile defect images is built to verify the performance of the proposed model. The results demonstrate that the network extracts more distinctive features and has better performance than the state-of-the-art approaches on the real-world industrial dataset.
翻訳日:2021-02-02 16:34:20 公開日:2021-01-31
# AACP:高精度・自動チャンネルプルーニングによるモデル圧縮

AACP: Model Compression by Accurate and Automatic Channel Pruning ( http://arxiv.org/abs/2102.00390v1 )

ライセンス: Link先を確認
Lanbo Lin, Yujiu Yang, Zhenhua Guo(参考訳) チャネル切断は最近、神経アーキテクチャ探索(NAS)問題として定式化されている。 しかし、既存のNASベースの手法は、膨大な計算コストとアプリケーションの柔軟性に悩まされている。 複数のスパーシティの制約を同時に処理し、NASベースのチャネル切断をスピードアップする方法はまだオープンな課題です。 本稿では,これらの問題に対処するために,AACP(Accurate and Automatic Channel Pruning)方式を提案する。 第一に、AACPはモデルの構造を構造ベクトルとして表現し、各層の圧縮粒度を制御するpruning step vectorを導入する。 第二に、AACPはPruned Structure Accuracy Estimator (PSAE) を用いて性能推定プロセスを高速化する。 第3に、AACPは最適な構造ベクトルを効率的に探索するための改良微分進化(IDE)アルゴリズムを提案する。 IDEにより、AACPはFLOPの制約とモデルサイズ制約を同時に効率的に扱うことができる。 本手法は,様々なタスクに容易に適用でき,技術性能の達成も可能である。 CIFAR10 では,ResNet110 の 65 %$ FLOP を削減し,0.26 %$ top-1 精度を向上した。 ImageNet では、ResNet50 の $2\%$ FLOP を $0.18\%$ top-1 の小さな損失で削減し、MobileNetV2 の $30\%$ FLOP を $0.7\%$ top-1 の小さな損失で削減します。 ソースコードは公開後に公開されます。

Channel pruning is formulated as a neural architecture search (NAS) problem recently. However, existing NAS-based methods are challenged by huge computational cost and inflexibility of applications. How to deal with multiple sparsity constraints simultaneously and speed up NAS-based channel pruning are still open challenges. In this paper, we propose a novel Accurate and Automatic Channel Pruning (AACP) method to address these problems. Firstly, AACP represents the structure of a model as a structure vector and introduces a pruning step vector to control the compressing granularity of each layer. Secondly, AACP utilizes Pruned Structure Accuracy Estimator (PSAE) to speed up the performance estimation process. Thirdly, AACP proposes Improved Differential Evolution (IDE) algorithm to search the optimal structure vector effectively. Because of IDE, AACP can deal with FLOPs constraint and model size constraint simultaneously and efficiently. Our method can be easily applied to various tasks and achieve state of the art performance. On CIFAR10, our method reduces $65\%$ FLOPs of ResNet110 with an improvement of $0.26\%$ top-1 accuracy. On ImageNet, we reduce $42\%$ FLOPs of ResNet50 with a small loss of $0.18\%$ top-1 accuracy and reduce $30\%$ FLOPs of MobileNetV2 with a small loss of $0.7\%$ top-1 accuracy. The source code will be released after publication.
翻訳日:2021-02-02 16:33:44 公開日:2021-01-31
# 良質な対応を見つけるための誘導損失とハイブリッド注意を用いたカスケードネットワーク

Cascade Network with Guided Loss and Hybrid Attention for Finding Good Correspondences ( http://arxiv.org/abs/2102.00411v1 )

ライセンス: Link先を確認
Zhi Chen, Fan Yang, Wenbing Tao(参考訳) 優れた対応を見つけることは、多くの機能ベースのタスクにおいて重要な前提条件です。 画像対の対応集合が与えられたとき、二分クラス分類器による正しい対応を見つけ、分類された対応によって相対的なポーズを推定するニューラルネットワークを提案する。 まず、正しい対応の数と間違った対応の数の不均衡のために、損失関数は分類結果に大きな影響を及ぼすことを分析します。 そこで本研究では,評価基準 (fn-measure) を直接使用し,訓練中の目標関数を動的に調整できる新しい誘導損失を提案する。 我々は、ガイド損失とFn測定の間の完璧な負の相関を理論的に証明し、ネットワークはそれを最大化するためにFn測定を増やす方向に向かって常に訓練されている。 次に,ベイズ注意コンテキスト正規化(BACN)とチャネルワイドアテンション(CA)を統合した特徴抽出のためのハイブリットアテンションブロックを提案する。 bacnは事前情報をマイニングして、グローバルコンテキストをより活用し、caは複雑なチャネルコンテキストをキャプチャして、ネットワークのチャネル意識を高めることができる。 最後に、ガイドされた損失とハイブリッドの注意ブロックに基づいて、カスケードネットワークは、より優れたパフォーマンスのために結果を徐々に最適化するように設計されています。 実験により,我々のネットワークは,ベンチマークデータセットの最先端性能を達成することが示された。 私たちのコードはhttps://github.com/w enbingtao/glhaで利用可能です。

Finding good correspondences is a critical prerequisite in many feature based tasks. Given a putative correspondence set of an image pair, we propose a neural network which finds correct correspondences by a binary-class classifier and estimates relative pose through classified correspondences. First, we analyze that due to the imbalance in the number of correct and wrong correspondences, the loss function has a great impact on the classification results. Thus, we propose a new Guided Loss that can directly use evaluation criterion (Fn-measure) as guidance to dynamically adjust the objective function during training. We theoretically prove that the perfect negative correlation between the Guided Loss and Fn-measure, so that the network is always trained towards the direction of increasing Fn-measure to maximize it. We then propose a hybrid attention block to extract feature, which integrates the Bayesian attentive context normalization (BACN) and channel-wise attention (CA). BACN can mine the prior information to better exploit global context and CA can capture complex channel context to enhance the channel awareness of the network. Finally, based on our Guided Loss and hybrid attention block, a cascade network is designed to gradually optimize the result for more superior performance. Experiments have shown that our network achieves the state-of-the-art performance on benchmark datasets. Our code will be available in https://github.com/w enbingtao/GLHA.
翻訳日:2021-02-02 16:33:00 公開日:2021-01-31
# PV-RCNN++: 3次元物体検出のための局所ベクトル表現による点-Voxel特徴集合の抽象化

PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection ( http://arxiv.org/abs/2102.00463v1 )

ライセンス: Link先を確認
Shaoshuai Shi, Li Jiang, Jiajun Deng, Zhe Wang, Chaoxu Guo, Jianping Shi, Xiaogang Wang, Hongsheng Li(参考訳) 3dオブジェクト検出は、さまざまな分野の幅広い応用により、業界とアカデミアの両方から注目を集めている。 本稿では,点雲から正確な3次元検出を行うために,ポイント・ボクセル領域に基づく畳み込みニューラルネットワーク(PV-RCNN)を提案する。 まず,Voxel-to-keypoint シーンエンコーディングとkeypoint-to-grid RoI 機能抽象化を用いた新しい3Dオブジェクト検出器 PV-RCNN-v1 を提案する。 この2つのステップは、3D voxel CNNとPointNetベースのセット抽象化を深く取り入れ、識別ポイントクラウド機能を学びます。 第2に,より効率的かつ正確な3D検出のための,より高度なフレームワークであるPV-RCNN-v2を提案する。 ひとつは,より代表的かつ一様に分散したキーポイントを効率的に生成するための,セクタライズドプロポーザル中心の戦略,もうひとつは,リソース消費量をはるかに少なくしたローカルポイントクラウド機能の集約性を向上するために,セット抽象化を置き換えるためのvectorpoolアグリゲーションである。 この2つの大きな変更により、当社のPV-RCNN-v2はv1バージョンの2倍以上の速度で動作し、150m×150mの大規模なWaymo Open Datasetでも性能が向上しています。 提案したPV-RCNNは、Waymo Open Datasetと高競争性KITTIベンチマークの両方において、従来の最先端3D検出方法よりも大幅に優れていた。

3D object detection is receiving increasing attention from both industry and academia thanks to its wide applications in various fields. In this paper, we propose the Point-Voxel Region based Convolution Neural Networks (PV-RCNNs) for accurate 3D detection from point clouds. First, we propose a novel 3D object detector, PV-RCNN-v1, which employs the voxel-to-keypoint scene encoding and keypoint-to-grid RoI feature abstraction two novel steps. These two steps deeply incorporate both 3D voxel CNN and PointNet-based set abstraction for learning discriminative point-cloud features. Second, we propose a more advanced framework, PV-RCNN-v2, for more efficient and accurate 3D detection. It consists of two major improvements, where the first one is the sectorized proposal-centric strategy for efficiently producing more representative and uniformly distributed keypoints, and the second one is the VectorPool aggregation to replace set abstraction for better aggregating local point-cloud features with much less resource consumption. With these two major modifications, our PV-RCNN-v2 runs more than twice as fast as the v1 version while still achieving better performance on the large-scale Waymo Open Dataset with 150m * 150m detection range. Extensive experiments demonstrate that our proposed PV-RCNNs significantly outperform previous state-of-the-art 3D detection methods on both the Waymo Open Dataset and the highly-competitive KITTI benchmark.
翻訳日:2021-02-02 16:32:18 公開日:2021-01-31
# 企業コールセンターとのインタラクションによる顧客満足度予測のためのグラフニューラルネットワーク

Graph Neural Networks to Predict Customer Satisfaction Following Interactions with a Corporate Call Center ( http://arxiv.org/abs/2102.00420v1 )

ライセンス: Link先を確認
Teja Kanchinadam, Zihang Meng, Joseph Bockhorst, Vikas Singh Kim, Glenn Fung(参考訳) 顧客満足は顧客との長期関係を作成し、維持する重要な要因です。 電話の後、不満足な顧客をほぼリアルタイムで特定することで、組織は有意義な介入を行い、継続的な顧客満足と忠誠心を育むことができる。 本研究は,米国大企業で開発した,着信後の顧客満足度を予測するシステムについて述べる。 このシステムは、電話の音声からテキストへの書き起こしを入力とし、電話後調査(スケール1から10)で顧客に報告された着信満足度を予測する。 その順序的、主観的、そしてしばしば非常に歪んだ性質のために、調査スコアの予測は自明なタスクではなく、いくつかのモデリングの課題を提示します。 本稿では,学習中のコールのペアのみではなく,バッチ間の相対スコアを考慮し,問題の相対的性質を考慮したグラフニューラルネットワーク(gnn)手法を提案する。 このアプローチは、調査スコアとコールデータを直接適合する標準回帰や分類モデルなど、以前のアプローチよりも正確な予測を生成する。 提案手法は他の顧客満足度予測問題に容易に一般化できる。

Customer satisfaction is an important factor in creating and maintaining long-term relationships with customers. Near real-time identification of potentially dissatisfied customers following phone calls can provide organizations the opportunity to take meaningful interventions and to foster ongoing customer satisfaction and loyalty. This work describes a fully operational system we have developed at a large US company for predicting customer satisfaction following incoming phone calls. The system takes as an input speech-to-text transcriptions of calls and predicts call satisfaction reported by customers on post-call surveys (scale from 1 to 10). Because of its ordinal, subjective, and often highly-skewed nature, predicting survey scores is not a trivial task and presents several modeling challenges. We introduce a graph neural network (GNN) approach that takes into account the comparative nature of the problem by considering the relative scores among batches, instead of only pairs of calls when training. This approach produces more accurate predictions than previous approaches including standard regression and classification models that directly fit the survey scores with call data. Our proposed approach can be easily generalized to other customer satisfaction prediction problems.
翻訳日:2021-02-02 16:22:53 公開日:2021-01-31
# 複数ドメインテキスト分類のための混合正規化逆数ネットワーク

Mixup Regularized Adversarial Networks for Multi-Domain Text Classification ( http://arxiv.org/abs/2102.00467v1 )

ライセンス: Link先を確認
Yuan Wu, Diana Inkpen, Ahmed El-Roby(参考訳) マルチドメインテキスト分類(MDTC)モデルの性能は,共有プライベートパラダイムと敵対的トレーニングによって大幅に向上した。 しかし、既存の方法には2つの問題がある。 まず、複数のドメインからのインスタンスはドメイン不変の特徴抽出には不十分である。 第二に、限界分布の整合は致命的なミスマッチにつながる可能性がある。 本稿では,これら2つの問題に対処するために,MRAN(Mixup regularized adversarial network)を提案する。 より具体的には、ドメインとカテゴリのミックスアップの正規化を導入し、共有潜在空間の本質的な特徴を豊かにし、学習された特徴をよりドメイン不変で識別可能なようにトレーニングインスタンス間の一貫性のある予測を強制する。 Amazon ReviewデータセットとFDU-MTLデータセットの2つのベンチマークで実験を行った。 この2つのデータセットのアプローチは、それぞれ87.64\%と89.0\%の平均精度をもたらし、関連するすべてのベースラインを上回っている。

Using the shared-private paradigm and adversarial training has significantly improved the performances of multi-domain text classification (MDTC) models. However, there are two issues for the existing methods. First, instances from the multiple domains are not sufficient for domain-invariant feature extraction. Second, aligning on the marginal distributions may lead to fatal mismatching. In this paper, we propose a mixup regularized adversarial network (MRAN) to address these two issues. More specifically, the domain and category mixup regularizations are introduced to enrich the intrinsic features in the shared latent space and enforce consistent predictions in-between training instances such that the learned features can be more domain-invariant and discriminative. We conduct experiments on two benchmarks: The Amazon review dataset and the FDU-MTL dataset. Our approach on these two datasets yields average accuracies of 87.64\% and 89.0\% respectively, outperforming all relevant baselines.
翻訳日:2021-02-02 16:22:15 公開日:2021-01-31
# ベイズネットワーク構造学習における知識とデータ間の情報融合

Information fusion between knowledge and data in Bayesian network structure learning ( http://arxiv.org/abs/2102.00473v1 )

ライセンス: Link先を確認
Anthony C. Constantinou, Zhigao Guo, Neville K. Kitson(参考訳) ベイズネットワーク(BN)は、特に介入の効果をシミュレートできる因果的仮定を必要とする分野において、不確実性の下で推論するための強力な技術となっている。 これらのモデルのグラフィカルな構造は、因果的知識、データから学ぶこと、あるいは両方の組み合わせによって決定できる。 因果グラフ構築における最良のアプローチは、知識と機械学習を組み合わせることであると思えるが、実際にはこのアプローチは過小評価されている。 本稿では,オープンソースの bayesys 構造学習システムで実装された情報融合手法について述べるとともに評価する。 この手法により、異種情報源から得られる既存の知識やルールに基づく情報を指定することができ、構造学習の制約や指導を行うことができる。 各メソッドは、グラフィカルな正確性、モデル適合性、複雑さ、ランタイムなど、構造学習の影響の観点から評価される。 ベイジーズで利用可能な3つのbn構造学習アルゴリズムに適用し、グラフィカル測度から得られる結果がモデルフィッティング測度から得られる結果と矛盾することが多い場合、その有効性に関する興味深い不一致を明らかにする。 総合的な結果から,学習精度の向上による情報融合手法のビッグデータ利用効率の低下が示唆されるが,情報融合手法によってはビッグデータの利用性が向上する。 最後に、主な結論として、知識制約から得られる検索空間の減少は、制約がデータが示すものと制約が強制しようとしているものとの間に緊張を設定した場合に起こり得る、計算の複雑さを減らすことを意味するものではないという観測がある。

Bayesian Networks (BNs) have become a powerful technology for reasoning under uncertainty, particularly in areas that require causal assumptions that enable us to simulate the effect of intervention. The graphical structure of these models can be determined by causal knowledge, learnt from data, or a combination of both. While it seems plausible that the best approach in constructing a causal graph involves combining knowledge with machine learning, this approach remains underused in practice. This paper describes and evaluates a set of information fusion methods that have been implemented in the open-source Bayesys structure learning system. The methods enable users to specify pre-existing knowledge and rule-based information that can be obtained from heterogeneous sources, to constrain or guide structure learning. Each method is assessed in terms of structure learning impact, including graphical accuracy, model fitting, complexity and runtime. The results are illustrated both with limited and big data, with application to three BN structure learning algorithms available in Bayesys, and reveal interesting inconsistencies about their effectiveness where the results obtained from graphical measures often contradict those obtained from model fitting measures. While the overall results show that information fusion methods become less effective with big data due to higher learning accuracy rendering knowledge less important, some information fusion methods do perform better with big data. Lastly, amongst the main conclusions is the observation that reduced search space obtained from knowledge constraints does not imply reduced computational complexity, which can happen when the constraints set up a tension between what the data indicate and what the constraints are trying to enforce.
翻訳日:2021-02-02 16:18:26 公開日:2021-01-31
# 部分順序付きシーケンスの分類モデル

Classification Models for Partially Ordered Sequences ( http://arxiv.org/abs/2102.00380v1 )

ライセンス: Link先を確認
Stephanie Ger, Diego Klabjan and Jean Utke(参考訳) シーケンス内のイベントが順序づけられると仮定して時系列データを分類するために、Long Short Term Memory (LSTM)、Gated Recurrent Units (GRU)、Transformerなどの多くのモデルが開発されている。 一方、順序が重要でないセットベースの入力のために、より少ないモデルが開発されている。 タイムスタンプの粒度や不確実性のため、データが部分的に順序付けされたシーケンスとして与えられるユースケースはいくつかある。 このような予測タスクのための新しいトランスフォーマーモデルと既存の順序不変モデルの拡張に対するベンチマークを紹介する。 また、シーケンス内のイベント間の遷移確率を用いてモデルの性能を向上させる方法について論じる。 トランスベースの等時間モデルが3つのデータセット上の既存の集合モデルの拡張を上回っていることを示した。

Many models such as Long Short Term Memory (LSTMs), Gated Recurrent Units (GRUs) and transformers have been developed to classify time series data with the assumption that events in a sequence are ordered. On the other hand, fewer models have been developed for set based inputs, where order does not matter. There are several use cases where data is given as partially-ordered sequences because of the granularity or uncertainty of time stamps. We introduce a novel transformer based model for such prediction tasks, and benchmark against extensions of existing order invariant models. We also discuss how transition probabilities between events in a sequence can be used to improve model performance. We show that the transformer-based equal-time model outperforms extensions of existing set models on three data sets.
翻訳日:2021-02-02 16:09:46 公開日:2021-01-31
# ANNのロスランドスケープにおける高次元軌道の可視化

Visualizing High-Dimensional Trajectories on the Loss-Landscape of ANNs ( http://arxiv.org/abs/2102.00485v1 )

ライセンス: Link先を確認
Stefan Horoi, Jessie Huang, Guy Wolf, Smita Krishnaswamy(参考訳) 人工ニューラルネットワークの訓練は、非凸損失関数の最適化を必要とする。 長年にわたって、科学コミュニティは、この最適化タスクを抽出可能なツールとアーキテクチャの広範なセットを開発し、モデルが目に見えないデータにうまく一般化するミニマに到達するのに役立つハイパーパラメータを選択するための一般的な直観が開発されてきた。 しかし、ほとんどの場合、アーキテクチャやタスク間のトレーニング容易性の違い、さらにはネットワークの一般化能力のギャップさえも、まだ説明がつかないままである。 可視化ツールは、ANNの損失ランドスケープの重要な幾何学的特徴と、それがトレーニング容易性と一般化能力に与える影響を明らかにする上で重要な役割を担っている。 しかし, これまでに提案されている可視化手法の多くは, 線形な性質を持ち, 限られた次元でしか特徴を捉えないため, 比較的限定的であった。 高次元データのグローバル構造とローカル構造の両方をキャプチャするという点で、SOTAを表す現代の次元還元法PHATEの使用を提案します。 この手法を用いて,トレーニング中の損失状況の可視化を行う。 今回の可視化では,最適化法,初期化法,アーキテクチャ,データセットの比較において,訓練軌跡と一般化能力の違いが明らかになった。 この成功を考えると、ニューラルネットワークのこれらの側面についての情報に基づいた選択にこの方法を使用することが予想される。

Training artificial neural networks requires the optimization of highly non-convex loss functions. Throughout the years, the scientific community has developed an extensive set of tools and architectures that render this optimization task tractable and a general intuition has been developed for choosing hyper parameters that help the models reach minima that generalize well to unseen data. However, for the most part, the difference in trainability in between architectures, tasks and even the gap in network generalization abilities still remain unexplained. Visualization tools have played a key role in uncovering key geometric characteristics of the loss-landscape of ANNs and how they impact trainability and generalization capabilities. However, most visualizations methods proposed so far have been relatively limited in their capabilities since they are of linear nature and only capture features in a limited number of dimensions. We propose the use of the modern dimensionality reduction method PHATE which represents the SOTA in terms of capturing both global and local structures of high-dimensional data. We apply this method to visualize the loss landscape during and after training. Our visualizations reveal differences in training trajectories and generalization capabilities when used to make comparisons between optimization methods, initializations, architectures, and datasets. Given this success we anticipate this method to be used in making informed choices about these aspects of neural networks.
翻訳日:2021-02-02 16:09:13 公開日:2021-01-31
# Aggregate Bandit Feedbackを用いたオンラインマルコフ決定プロセス

Online Markov Decision Processes with Aggregate Bandit Feedback ( http://arxiv.org/abs/2102.00490v1 )

ライセンス: Link先を確認
Alon Cohen, Haim Kaplan, Tomer Koren, Yishay Mansour(参考訳) 可逆的に変化する損失関数と当初未知のダイナミクスを持つオンライン有限ホリゾンマルコフ決定過程の新しい変種を研究する。 各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌跡に沿って蓄積された損失を経験し、総括的盗聴フィードバックを観察する:この軌跡は、軌跡に沿って遭遇する個人的損失よりも、累積的損失とともに明らかにされる。 我々の主な結果は計算効率のよいアルゴリズムで、$O(\sqrt{K})$ regret for this set, where $K$ is the number of episodes。 この結果は,学習者が選択した動作がコミット前に逆向きに歪むような帯域線形最適化の変種であるDistted Linear Bandits (DLB) と呼ばれる新しい帯域線形学習環境に効率よく還元することで実現される。 次に、 DLB の計算効率の高いオンラインアルゴリズムを開発し、$O(\sqrt{T})$ 後悔境界を証明し、$T$ は時間ステップの数です。 我々のアルゴリズムは,新たな学習率のスケジュールを取り入れた自己一致障壁正規化によるオンラインミラー降下に基づく。

We study a novel variant of online finite-horizon Markov Decision Processes with adversarially changing loss functions and initially unknown dynamics. In each episode, the learner suffers the loss accumulated along the trajectory realized by the policy chosen for the episode, and observes aggregate bandit feedback: the trajectory is revealed along with the cumulative loss suffered, rather than the individual losses encountered along the trajectory. Our main result is a computationally efficient algorithm with $O(\sqrt{K})$ regret for this setting, where $K$ is the number of episodes. We establish this result via an efficient reduction to a novel bandit learning setting we call Distorted Linear Bandits (DLB), which is a variant of bandit linear optimization where actions chosen by the learner are adversarially distorted before they are committed. We then develop a computationally-effi cient online algorithm for DLB for which we prove an $O(\sqrt{T})$ regret bound, where $T$ is the number of time steps. Our algorithm is based on online mirror descent with a self-concordant barrier regularization that employs a novel increasing learning rate schedule.
翻訳日:2021-02-02 16:08:31 公開日:2021-01-31
# Oracle Queries を用いた有限メートル空間におけるクラスタの厳密な回復

Exact Recovery of Clusters in Finite Metric Spaces Using Oracle Queries ( http://arxiv.org/abs/2102.00504v1 )

ライセンス: Link先を確認
Marco Bressan, Nicol\`o Cesa-Bianchi, Silvio Lattanzi, Andrea Paudice(参考訳) oracleクエリを用いて正確なクラスタリカバリの問題を調査する。 以前の結果は、円周で凸かつ分離されたユークリッド空間のクラスタは、$o(\log n)$の同クラスタクエリのみを使用して正確に再構築できることを示している。 本研究では,より困難な非凸環境においてこの問題を研究する。 我々は、計量(あるいは三角不等式を必要としないような半計量)を備えた任意の有限個の点の集合に適用可能な、$(\beta,\gamma)$-凸性と呼ばれるクラスターの構造的特徴付けを導入する。 $(\beta,\gamma)$-凸性を用いることで、(例えば、$R^d$で強く非凸なクラスタを含む)クラスタの自然な密度特性を凸性のグラフ理論の概念に変換することができる。 この凸性の概念を利用して、$O(k^2 \log n + k^2 (\frac{6}{\beta\gamma})^{dens(X)})$ same-cluster query(k$はクラスタ数、$dens(X)$はセミメトリックの密度次元)を用いて、$(\beta,\gamma)$-con vexクラスタを復元する決定論的アルゴリズムを設計する。 密度次元への指数関数的依存が必要であることを示し、また、もし「クラスター分離」オラクルに$o(k^2 + k \log n)$の追加クエリを許可すれば、各クラスタのスケールが未知であっても、異なるスケールと任意のスケールのクラスタを復元できることを示した。

We investigate the problem of exact cluster recovery using oracle queries. Previous results show that clusters in Euclidean spaces that are convex and separated with a margin can be reconstructed exactly using only $O(\log n)$ same-cluster queries, where $n$ is the number of input points. In this work, we study this problem in the more challenging non-convex setting. We introduce a structural characterization of clusters, called $(\beta,\gamma)$-con vexity, that can be applied to any finite set of points equipped with a metric (or even a semimetric, as the triangle inequality is not needed). Using $(\beta,\gamma)$-con vexity, we can translate natural density properties of clusters (which include, for instance, clusters that are strongly non-convex in $R^d$) into a graph-theoretic notion of convexity. By exploiting this convexity notion, we design a deterministic algorithm that recovers $(\beta,\gamma)$-con vex clusters using $O(k^2 \log n + k^2 (\frac{6}{\beta\gamma})^{dens(X)})$ same-cluster queries, where $k$ is the number of clusters and $dens(X)$ is the density dimension of the semimetric. We show that an exponential dependence on the density dimension is necessary, and we also show that, if we are allowed to make $O(k^2 + k \log n)$ additional queries to a "cluster separation" oracle, then we can recover clusters that have different and arbitrary scales, even when the scale of each cluster is unknown.
翻訳日:2021-02-02 16:07:51 公開日:2021-01-31
# 深い再構成されたラプラシアントーンマッピング

Deep Reformulated Laplacian Tone Mapping ( http://arxiv.org/abs/2102.00348v1 )

ライセンス: Link先を確認
Jie Yang, Ziyi Liu, Mengchen Lin, Svetlana Yanushkevich, Orly Yadid-Pecht(参考訳) 広ダイナミックレンジ(wdr)画像は、一般的な画像と比較してシーンの詳細とコントラストを多く含む。 しかし、適切に表示するためにピクセル値を処理するにはトーンマッピングが必要となる。 wdr画像の詳細はトーンマッピングの過程で減少する可能性がある。 本研究では,新しい改良ラプラシアピラミッドと深層学習を組み合わせることで,この問題に対処した。 再構成されたラプラシアピラミッドは、常にWDRイメージを2つの周波数帯に分解し、低周波バンドはグローバル特徴指向であり、高周波バンドはローカル特徴指向である。 この改革は、ローカルな特徴を元の解像度で保存し、グローバルな特徴を低解像度の画像に凝縮します。 生成された周波数帯域を再構築して微調整し、最小のディテールとコントラスト損失で画面に表示できる最終的なトーンマッピング画像を出力します。 実験の結果,提案手法は最先端のWDR画像のトーンマッピング法よりも優れていた。 コードはhttps://github.com/l inmc86/Deep-Reformul ated-Laplacian-Tone- Mappingで公開されている。

Wide dynamic range (WDR) images contain more scene details and contrast when compared to common images. However, it requires tone mapping to process the pixel values in order to display properly. The details of WDR images can diminish during the tone mapping process. In this work, we address the problem by combining a novel reformulated Laplacian pyramid and deep learning. The reformulated Laplacian pyramid always decompose a WDR image into two frequency bands where the low-frequency band is global feature-oriented, and the high-frequency band is local feature-oriented. The reformulation preserves the local features in its original resolution and condenses the global features into a low-resolution image. The generated frequency bands are reconstructed and fine-tuned to output the final tone mapped image that can display on the screen with minimum detail and contrast loss. The experimental results demonstrate that the proposed method outperforms state-of-the-art WDR image tone mapping methods. The code is made publicly available at https://github.com/l inmc86/Deep-Reformul ated-Laplacian-Tone- Mapping.
翻訳日:2021-02-02 15:55:13 公開日:2021-01-31
# スペクトルロールオフ点:低周波データ表現に基づく有用情報の推定

Spectral Roll-off Points: Estimating Useful Information Under the Basis of Low-frequency Data Representations ( http://arxiv.org/abs/2102.00369v1 )

ライセンス: Link先を確認
Yunkai Yu, Zhihong Yang, Yuyang You, Guozheng Liu, Peiyao Li, Zhicheng Yang, Wenjing Shan(参考訳) 有用な情報はモデル決定の基礎である。 特徴マップにおける有用な情報の推定は、ニューラルネットワークのメカニズムの理解を促進する。 ダウンスケーリング操作により通信帯域幅が削減されるため、低周波はデータ表現における有用な情報の前提条件です。 本研究では,スペクトルロールオフポイント(SROP)を用いて低周波状態を統合し,有用な情報を推定することを提案する。 SROPの計算は、画像分類タスクにおいて必要となる回転不変性により、1次元信号から2次元画像に拡張される。 特徴マップ間のSROP統計は,階層的に有用な情報推定のために実装される。 正当性チェックは、モデル入力間のレイヤワイドSROP分布のばらつきが、モデル決定をサポートする有用なコンポーネントを認識するのに有効であることを示す。 さらに、モデルの有用な情報の基礎となるSROPと精度の変動は、様々なモデル構造において十分な訓練を行う際に同期する。 したがって、SROPは有用情報の正確かつ便利な推定法である。 周波数領域の知識に関する人工知能の説明性を促進する。

Useful information is the basis for model decisions. Estimating useful information in feature maps promotes the understanding of the mechanisms of neural networks. Low frequency is a prerequisite for useful information in data representations, because downscaling operations reduce the communication bandwidth. This study proposes the use of spectral roll-off points (SROPs) to integrate the low-frequency condition when estimating useful information. The computation of an SROP is extended from a 1-D signal to a 2-D image by the required rotation invariance in image classification tasks. SROP statistics across feature maps are implemented for layer-wise useful information estimation. Sanity checks demonstrate that the variation of layer-wise SROP distributions among model input can be used to recognize useful components that support model decisions. Moreover, the variations of SROPs and accuracy, the ground truth of useful information of models, are synchronous when adopting sufficient training in various model structures. Therefore, SROP is an accurate and convenient estimation of useful information. It promotes the explainability of artificial intelligence with respect to frequency-domain knowledge.
翻訳日:2021-02-02 15:54:35 公開日:2021-01-31
# 貨物列車画像のリアルタイム故障検出のための統一光フレームワーク

A Unified Light Framework for Real-time Fault Detection of Freight Train Images ( http://arxiv.org/abs/2102.00381v1 )

ライセンス: Link先を確認
Yang Zhang, Moyun Liu, Yang Yang, Yanwen Guo, Huiming Zhang(参考訳) 貨物列車のリアルタイム故障検出は、厳しい資源要件下での鉄道輸送の安全性と最適運用を保証する上で重要な役割を果たしています。 深層学習に基づくアプローチの有望な結果にもかかわらず、貨物列車画像上のこれらの断層検出器の性能は精度と効率の両立には程遠い。 本稿では,リソース要求の少ないリアルタイム動作をサポートしながら,検出精度を向上させるための統一光フレームワークを提案する。 まず,新しい軽量バックボーン(RFDNet)を設計し,精度の向上と計算コストの低減を図る。 そこで,RFDNetから生成されたマルチスケール機能マップを用いたマルチリージョン提案ネットワークを提案し,検出性能を改善する。 最後に,多レベル位置センシティブスコアマップと関心領域のプーリングを行い,冗長な計算量が少なく精度をさらに向上させる。 公開ベンチマークデータセットの広範囲な実験結果から,rfdnetは精度と効率を向上し,ベースラインネットワークの性能を大幅に向上できることが示唆された。 6つの故障データセットを用いた実験により,本手法は毎秒38フレーム以上でリアルタイム検出が可能であり,最先端検出器よりも高い精度と低い計算性能を達成できることを示した。

Real-time fault detection for freight trains plays a vital role in guaranteeing the security and optimal operation of railway transportation under stringent resource requirements. Despite the promising results for deep learning based approaches, the performance of these fault detectors on freight train images, are far from satisfactory in both accuracy and efficiency. This paper proposes a unified light framework to improve detection accuracy while supporting a real-time operation with a low resource requirement. We firstly design a novel lightweight backbone (RFDNet) to improve the accuracy and reduce computational cost. Then, we propose a multi region proposal network using multi-scale feature maps generated from RFDNet to improve the detection performance. Finally, we present multi level position-sensitive score maps and region of interest pooling to further improve accuracy with few redundant computations. Extensive experimental results on public benchmark datasets suggest that our RFDNet can significantly improve the performance of baseline network with higher accuracy and efficiency. Experiments on six fault datasets show that our method is capable of real-time detection at over 38 frames per second and achieves competitive accuracy and lower computation than the state-of-the-art detectors.
翻訳日:2021-02-02 15:54:01 公開日:2021-01-31
# マルチスケールヒストグラム合成に基づくトーンマッピング

Tone Mapping Based on Multi-scale Histogram Synthesis ( http://arxiv.org/abs/2102.00408v1 )

ライセンス: Link先を確認
Jie Yang, Ziyi Liu, Ulian Shahnovich, Orly Yadid-Pecht(参考訳) 本稿では、低ダイナミックレンジ(LDR)デバイス上で広ダイナミックレンジ(WDR)画像を表示するために使用できる新しいトーンマッピングアルゴリズムを提案する。 提案アルゴリズムは主に,人間の視覚系(hvs)の対数応答と局所適応特性に動機づけられている。 HVSは、異なる適応レベルの下で異なる輝度を知覚するので、我々のアルゴリズムは異なるスケールで構築された関数を使って異なる値にピクセルをマッピングする。 画像の輝度の整合性を維持するために大規模な関数が使用され、局所的な詳細とコントラストを維持するために小さなスケールの関数が使用される。 異なるスケールの値を融合し、アーティファクトを除去するために、局所分散を用いた効率的な方法が提案されている。 このアルゴリズムは積分画像と積分ヒストグラムを利用して計算複雑性と処理時間を短縮する。 実験結果から,提案アルゴリズムは,多くの最先端トーンマッピングアルゴリズムの性能を超越した,高輝度,良コントラスト,魅力的な画像を生成することができることがわかった。 このプロジェクトはhttps://github.com/j ieyang1987/ToneMappi ng-Based-on-Multi-sc ale-Histogram-Synthe sisで入手できる。

In this paper, we present a novel tone mapping algorithm that can be used for displaying wide dynamic range (WDR) images on low dynamic range (LDR) devices. The proposed algorithm is mainly motivated by the logarithmic response and local adaptation features of the human visual system (HVS). HVS perceives luminance differently when under different adaptation levels, and therefore our algorithm uses functions built upon different scales to tone map pixels to different values. Functions of large scales are used to maintain image brightness consistency and functions of small scales are used to preserve local detail and contrast. An efficient method using local variance has been proposed to fuse the values of different scales and to remove artifacts. The algorithm utilizes integral images and integral histograms to reduce computation complexity and processing time. Experimental results show that the proposed algorithm can generate high brightness, good contrast, and appealing images that surpass the performance of many state-of-the-art tone mapping algorithms. This project is available at https://github.com/j ieyang1987/ToneMappi ng-Based-on-Multi-sc ale-Histogram-Synthe sis.
翻訳日:2021-02-02 15:53:22 公開日:2021-01-31
# PyTorch-Hebbian: ディープラーニングフレームワークによるローカル学習の促進

PyTorch-Hebbian: facilitating local learning in a deep learning framework ( http://arxiv.org/abs/2102.00428v1 )

ライセンス: Link先を確認
Jules Talloen, Joni Dambre, Alexander Vandesompele(参考訳) 近年では、シナプス効果の変化はシナプス前ニューロンとシナプス後ニューロンのみの活性に依存するというヘッブの考えに基づく教師なしの局所学習が、バックプロパゲーションの代替の訓練メカニズムとしての可能性を示している。 残念ながら、hebbian learningはまだ実験段階であり、標準的なディープラーニングフレームワークに入ることは滅多にない。 本研究では,標準的なディープラーニングワークフローの文脈におけるヘビアン学習の可能性を検討する。 そこで本研究では,既存の深層学習パイプラインにおける局所学習ルールを徹底的かつ体系的に評価する枠組みを提案する。 この枠組みを用いて,画像分類のためのヘビー学習特徴抽出器の可能性を示す。 特に、このフレームワークは、エンドツーエンドのバックプロパゲーションよりも精度を犠牲にすることなく、krotov-hopfield学習ルールを標準畳み込みニューラルネットワークに拡張するために使用される。 ソースコードはhttps://github.com/j oxis/pytorch-hebbian で入手できる。

Recently, unsupervised local learning, based on Hebb's idea that change in synaptic efficacy depends on the activity of the pre- and postsynaptic neuron only, has shown potential as an alternative training mechanism to backpropagation. Unfortunately, Hebbian learning remains experimental and rarely makes it way into standard deep learning frameworks. In this work, we investigate the potential of Hebbian learning in the context of standard deep learning workflows. To this end, a framework for thorough and systematic evaluation of local learning rules in existing deep learning pipelines is proposed. Using this framework, the potential of Hebbian learned feature extractors for image classification is illustrated. In particular, the framework is used to expand the Krotov-Hopfield learning rule to standard convolutional neural networks without sacrificing accuracy compared to end-to-end backpropagation. The source code is available at https://github.com/J oxis/pytorch-hebbian .
翻訳日:2021-02-02 15:52:44 公開日:2021-01-31
# Admix: 敵攻撃の転送可能性を高める

Admix: Enhancing the Transferability of Adversarial Attacks ( http://arxiv.org/abs/2102.00436v1 )

ライセンス: Link先を確認
Xiaosen Wang, Xuanran He, Jingdong Wang, Kun He(参考訳) 敵の攻撃はホワイトボックス設定下では驚くべき攻撃成功率を達成したが、既存の敵の多くはブラックボックス設定下では移動性が弱い。 この問題に対処するため、攻撃伝達性を高めるために様々な入力変換が提案されている。 本研究では、既存のすべての変換が単一の画像に適用されることを観察し、これは製造された敵の移動性を制限する可能性がある。 そこで本研究では,他のカテゴリからランダムに選択した画像と原画像の両方を考慮し,admix attack method (aam) と呼ばれる新たな入力変換ベース攻撃を提案する。 元の入力の勾配を直接計算する代わりに、AAMは2つの画像で補間された混合画像の勾配を計算し、高い移動確率で敵を作らせる。 標準のImageNetデータセットの実証的評価は、AAMが既存の入力変換方法よりもはるかに高い転送性を達成できることを示しています。 他の入力変換を組み込むことで、9つの先進的防御モデルを攻撃する際、入力変換の最先端の組み合わせを平均3.4%の明確なマージンでさらに改善し、性能を上回ることができる。

Although adversarial attacks have achieved incredible attack success rates under the white-box setting, most existing adversaries often exhibit weak transferability under the black-box setting. To address this issue, various input transformations have been proposed to enhance the attack transferability. In this work, We observe that all the existing transformations are applied on a single image, which might limit the transferability of the crafted adversaries. Hence, we propose a new input transformation based attack called Admix Attack Method (AAM) that considers both the original image and an image randomly picked from other categories. Instead of directly calculating the gradient on the original input, AAM calculates the gradient on the admixed image interpolated by the two images in order to craft adversaries with higher transferablility. Empirical evaluations on the standard ImageNet dataset demonstrate that AAM could achieve much higher transferability than the existing input transformation methods. By incorporating with other input transformations, our method could further improve the transferability and outperform the state-of-the-art combination of input transformations by a clear margin of 3.4% on average when attacking nine advanced defense models.
翻訳日:2021-02-02 15:52:09 公開日:2021-01-31
# SkinScan:皮膚科診断とドキュメンテーションのための低コスト3Dスキャン

SkinScan: Low-Cost 3D-Scanning for Dermatologic Diagnosis and Documentation ( http://arxiv.org/abs/2102.00508v1 )

ライセンス: Link先を確認
Merlin A. Nau, Florian Schiffers, Yunhao Li, Bingjie Xu, Andreas Maier, Jack Tumblin, Marc Walton, Aggelos K. Katsaggelos, Florian Willomitzer, Oliver Cossairt(参考訳) 医療分野では,計算写真の利用がますます不可欠になりつつある。 現在、皮膚科のイメージング技術は、モバイルデバイスによる2次元(2D)カラー画像から、さらに詳細な3次元(3D)データを測定するプロの臨床画像システムまで幅広い。 後者は一般的に高価であり、幅広い観客にはアクセスできません。 本研究では, 低コスト(かつ移動可能な)のコモディティ機器にのみ依存し, 3D-gradient-illumina tion法を用いて皮膚の詳細な3D情報を測定する新しいシステムとソフトウェア・フレームワークを提案する。 当システムは,皮膚疾患の早期診断とモニタリング,特に人口密集地域や未発達地域において大きな可能性を秘めている。

The utilization of computational photography becomes increasingly essential in the medical field. Today, imaging techniques for dermatology range from two-dimensional (2D) color imagery with a mobile device to professional clinical imaging systems measuring additional detailed three-dimensional (3D) data. The latter are commonly expensive and not accessible to a broad audience. In this work, we propose a novel system and software framework that relies only on low-cost (and even mobile) commodity devices present in every household to measure detailed 3D information of the human skin with a 3D-gradient-illumina tion-based method. We believe that our system has great potential for early-stage diagnosis and monitoring of skin diseases, especially in vastly populated or underdeveloped areas.
翻訳日:2021-02-02 15:51:29 公開日:2021-01-31
# Co-Seg:ラベル破壊に対するイメージセグメンテーションフレームワーク

Co-Seg: An Image Segmentation Framework Against Label Corruption ( http://arxiv.org/abs/2102.00523v1 )

ライセンス: Link先を確認
Ziyi Huang, Haofeng Zhang, Andrew Laine, Elsa Angelini, Christine Hendon, Yu Gan(参考訳) 教師付きディープラーニングのパフォーマンスは、トレーニング用の高品質のラベルの可用性に大きく関連しています。 ニューラルネットワークは、ノイズの多いデータセットで直接トレーニングした場合、破損したラベルを徐々にオーバーフィットさせ、テスト時に深刻なパフォーマンス低下をもたらす。 本稿では,低品質のノイズラベルを含むデータセット上で,セグメンテーションネットワークを協調的に学習する新しいディープラーニングフレームワーク,co-segを提案する。 提案手法では,まず2つのネットワークを同時に訓練し,すべてのサンプルをふるいにかけ,信頼できるラベルのサブセットを得る。 そして、信頼性の高い部分集合を豊かにするために、効率的かつ容易に実装されたラベル補正戦略を適用する。 最後に、更新データセットを使用して、セグメンテーションネットワークをトレーニングしてパラメータを確定する。 2つのノイズラベルシナリオにおける実験により,提案手法は,ノイズフリーラベルに基づいて学習した教師あり学習と同等の結果が得られることを示した。 さらに,どのセグメンテーションアルゴリズムにも容易に実装でき,ノイズの多いラベルへのロバスト性を高めることができる。

Supervised deep learning performance is heavily tied to the availability of high-quality labels for training. Neural networks can gradually overfit corrupted labels if directly trained on noisy datasets, leading to severe performance degradation at test time. In this paper, we propose a novel deep learning framework, namely Co-Seg, to collaboratively train segmentation networks on datasets which include low-quality noisy labels. Our approach first trains two networks simultaneously to sift through all samples and obtain a subset with reliable labels. Then, an efficient yet easily-implemented label correction strategy is applied to enrich the reliable subset. Finally, using the updated dataset, we retrain the segmentation network to finalize its parameters. Experiments in two noisy labels scenarios demonstrate that our proposed model can achieve results comparable to those obtained from supervised learning trained on the noise-free labels. In addition, our framework can be easily implemented in any segmentation algorithm to increase its robustness to noisy labels.
翻訳日:2021-02-02 15:50:56 公開日:2021-01-31
# ニューラルネットワークにおける近似,深さ分離,学習可能性の関係

The Connection Between Approximation, Depth Separation and Learnability in Neural Networks ( http://arxiv.org/abs/2102.00434v1 )

ライセンス: Link先を確認
Eran Malach, Gilad Yehudai, Shai Shalev-Shwartz, Ohad Shamir(参考訳) いくつかの最近の研究では、ディープニューラルネットワークと、浅いネットワークやカーネルクラスのような近似能力の劣る仮説クラスとの分離結果が示されている。 一方、ディープネットワークがターゲット関数を効率的に表現できるという事実は、このターゲット関数をディープニューラルネットワークで効率的に学習できるという意味ではない。 本研究では,学習能力と近似能力の関係について検討する。 対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。 具体的には、深層ニューラルネットワークの勾配降下によって学習可能な関数に必要な条件は、少なくとも弱い意味では、浅いニューラルネットワークで関数を近似できることを示す。 また,関数のクラスが,あるカーネルクラスによって弱意味に近似できる場合に限り,効率的な統計クエリアルゴリズムによって学習できることを示した。 深さ分離を示す関数のいくつかの例を示し、それらを効率的に近似できる仮説クラスによっても効率的に学習できないと結論づける。

Several recent works have shown separation results between deep neural networks, and hypothesis classes with inferior approximation capacity such as shallow networks or kernel classes. On the other hand, the fact that deep networks can efficiently express a target function does not mean this target function can be learned efficiently by deep neural networks. In this work we study the intricate connection between learnability and approximation capacity. We show that learnability with deep networks of a target function depends on the ability of simpler classes to approximate the target. Specifically, we show that a necessary condition for a function to be learnable by gradient descent on deep neural networks is to be able to approximate the function, at least in a weak sense, with shallow neural networks. We also show that a class of functions can be learned by an efficient statistical query algorithm if and only if it can be approximated in a weak sense by some kernel class. We give several examples of functions which demonstrate depth separation, and conclude that they cannot be efficiently learned, even by a hypothesis class that can efficiently approximate them.
翻訳日:2021-02-02 15:40:48 公開日:2021-01-31
# 完全畳み込みシームス連結ネットワークによる都市変化検出と注意

Urban Change Detection by Fully Convolutional Siamese Concatenate Network with Attention ( http://arxiv.org/abs/2102.00501v1 )

ライセンス: Link先を確認
Farnoosh Heidary, Mehran Yazdi, Maryam Dehghani, and Peyman Setoodeh(参考訳) リモートセンシングにおいて,特に都市管理における災害時の変化検出(cd)は重要な問題である。 既存の変更検出手法のほとんどは、ピクセルやオブジェクトに基づいて分類される。 オブジェクトベースのモデルは、非常に高解像度のリモートセンシング(VHR RS)画像を扱うピクセルベースの手法に好まれる。 このような手法は、ディープラーニングに関する継続的な研究の恩恵を受けることができる。 本稿では, フルコンボリューション型Siamese Concatenateネットワーク(FC-Siam-Conc)を展開したVHR RS画像に対する全自動変化検出アルゴリズムを提案する。 提案手法は前処理と注意ゲート層を用いて精度を向上させる。 ソフトな視覚的注意機構としてのガウス的注意(GA)は前処理に用いられる。 GAはネットワークが生物学的視覚システムのような特徴マップを扱うのに役立つ。 GAパラメータはネットワークトレーニング中に調整できないため、他のネットワークパラメータ間で調整可能なパラメータでGAの役割を演じるためにアテンションゲート層が導入された。 Onera Satellite Change Detection (OSCD)およびRIVER-CDデータセットで得られた実験結果は、提案されたアーキテクチャが最先端のアルゴリズムよりも優れていることを確認します。

Change detection (CD) is an important problem in remote sensing, especially in disaster time for urban management. Most existing traditional methods for change detection are categorized based on pixel or objects. Object-based models are preferred to pixel-based methods for handling very high-resolution remote sensing (VHR RS) images. Such methods can benefit from the ongoing research on deep learning. In this paper, a fully automatic change-detection algorithm on VHR RS images is proposed that deploys Fully Convolutional Siamese Concatenate networks (FC-Siam-Conc). The proposed method uses preprocessing and an attention gate layer to improve accuracy. Gaussian attention (GA) as a soft visual attention mechanism is used for preprocessing. GA helps the network to handle feature maps like biological visual systems. Since the GA parameters cannot be adjusted during network training, an attention gate layer is introduced to play the role of GA with parameters that can be tuned among other network parameters. Experimental results obtained on Onera Satellite Change Detection (OSCD) and RIVER-CD datasets confirm the superiority of the proposed architecture over the state-of-the-art algorithms.
翻訳日:2021-02-02 15:35:20 公開日:2021-01-31
# 記号を越えて:Sign Seriesによる非パラメトリックテンソル補完

Beyond the Signs: Nonparametric Tensor Completion via Sign Series ( http://arxiv.org/abs/2102.00384v1 )

ライセンス: Link先を確認
Chanwoo Lee, Miaoyan Wang(参考訳) ノイズ観測によるテンソル推定の問題点について考察する。 テンソル完全化に対する非パラメトリックなアプローチは、記号表現可能なテンソルとして表される新しいモデルに基づいている。 このモデルは一連の構造化符号テンソルを用いて興味のある信号テンソルを表す。 以前の方法とは異なり、符号列表現は、CPモデル、タッカーモデル、単一インデックスモデル、複数のハイパーグラフモデルなど、多くの既存のテンソルモデルを含む、低階信号と高階信号の両方を効果的に扱う。 符号テンソル級数は理論的に特徴的であり、注意深く特定された重みを持つ分類タスクによって計算上推定可能であることを示す。 過剰なリスクバウンド、推定誤差率、サンプル複雑度が確立される。 提案手法は,人間の脳接続ネットワークとトピックデータマイニングの2つのデータセットにおいて,従来の手法よりも性能が劣ることを示す。

We consider the problem of tensor estimation from noisy observations with possibly missing entries. A nonparametric approach to tensor completion is developed based on a new model which we coin as sign representable tensors. The model represents the signal tensor of interest using a series of structured sign tensors. Unlike earlier methods, the sign series representation effectively addresses both low- and high-rank signals, while encompassing many existing tensor models -- including CP models, Tucker models, single index models, several hypergraphon models -- as special cases. We show that the sign tensor series is theoretically characterized, and computationally estimable, via classification tasks with carefully-specified weights. Excess risk bounds, estimation error rates, and sample complexities are established. We demonstrate the outperformance of our approach over previous methods on two datasets, one on human brain connectivity networks and the other on topic data mining.
翻訳日:2021-02-02 15:32:37 公開日:2021-01-31