このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210120となっている論文です。

PDF登録状況(公開日: 20210120)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 最小ノルム補間器のロバスト性について [全文訳有]

On the robustness of minimum-norm interpolators ( http://arxiv.org/abs/2012.00807v2 )

ライセンス: CC BY 4.0
Geoffrey Chinot, Matthias L\"offler and Sara van de Geer(参考訳) 本稿では,線形モデルにおける最小ノルム補間推定器の加法的,潜在的に対角的,誤差の存在下での一般理論を開発する。 特に、エラーに関する条件は課されていない。 予測誤差に対する定量的境界が与えられ、コ変量体のラデマシェ複雑性、誤差の最小ノルム補間器のノルム、真のパラメータの周りの部分微分の形状に関係している。 一般理論は、最小の $\ell_1$-norm または group lasso penalty interpolation を持つスパース線形モデル、核ノルム最小化を伴う低ランクトレース回帰モデル、線形モデルにおける最小ユークリッドノルム補間など、いくつかの例で示される。 疎度または低ランク誘導ノルムの場合、最小ノルム補間は、オーバーパラメータ化が少なくともサンプル数よりも大きい対数係数であることを仮定して、平均ノイズレベルの順序の予測誤差をもたらす。 結果の最適に近い値を示す下限は解析を補完する。

This article develops a general theory for minimum-norm interpolated estimators in linear models in the presence of additive, potentially adversarial, errors. In particular, no conditions on the errors are imposed. A quantitative bound for the prediction error is given, relating it to the Rademacher complexity of the covariates, the norm of the minimum norm interpolator of the errors and the shape of the subdifferential around the true parameter. The general theory is illustrated with several examples: the sparse linear model with minimum $\ell_1$-norm or group Lasso penalty interpolation, the low rank trace regression model with nuclear norm minimization, and minimum Euclidean norm interpolation in the linear model. In case of sparsity or low-rank inducing norms, minimum norm interpolation yields a prediction error of the order of the average noise level, provided that the overparameterization is at least a logarithmic factor larger than the number of samples. Lower bounds that show near optimality of the results complement the analysis.
翻訳日:2021-05-31 00:10:57 公開日:2021-01-20
# (参考訳) 微粒なセマンティッククラスタリングによる映画ジャンル分類の再考 [全文訳有]

Rethinking movie genre classification with fine-grained semantic clustering ( http://arxiv.org/abs/2012.02639v3 )

ライセンス: CC BY-SA 4.0
Edward Fish, Jon Weinbren, Andrew Gilbert(参考訳) 映画ジャンル分類は機械学習の活発な研究分野である。 しかし、利用可能な限定ラベルのため、単一のジャンルの定義の中で映画間の意味的なバリエーションは大きい。 映画のマルチモーダルコンテンツ内の「きめ細かい」意味情報を識別することで、これらの「粗い」ジャンルラベルを拡張する。 事前学習した「エキスパート」ネットワークを利用することで、マルチラベルジャンル分類におけるモードの組み合わせの影響を学習する。 対照的な損失を用いて、この「クール」ジャンル分類ネットワークを微調整し、全ジャンルレーベルの映画間の高レベルなテキスト間類似性を特定する。 これにより、ジャンル情報を保持しながら、セマンティックな類似性に基づいた、より詳細な"きめ細かい"クラスタ化が可能になる。 提案手法は,新たに導入されたマルチモーダル37,866,450フレーム,8,800本のトレーラーデータセット,mmx-trailer-20を用いて実演する。

Movie genre classification is an active research area in machine learning. However, due to the limited labels available, there can be large semantic variations between movies within a single genre definition. We expand these 'coarse' genre labels by identifying 'fine-grained' semantic information within the multi-modal content of movies. By leveraging pre-trained 'expert' networks, we learn the influence of different combinations of modes for multi-label genre classification. Using a contrastive loss, we continue to fine-tune this 'coarse' genre classification network to identify high-level intertextual similarities between the movies across all genre labels. This leads to a more 'fine-grained' and detailed clustering, based on semantic similarities while still retaining some genre information. Our approach is demonstrated on a newly introduced multi-modal 37,866,450 frame, 8,800 movie trailer dataset, MMX-Trailer-20, which includes pre-computed audio, location, motion, and image embeddings.
翻訳日:2021-05-23 03:42:44 公開日:2021-01-20
# (参考訳) 運転者の視線分類 : 領域と対象の一般化に向けて [全文訳有]

Driver Glance Classification In-the-wild: Towards Generalization Across Domains and Subjects ( http://arxiv.org/abs/2012.02906v2 )

ライセンス: CC BY 4.0
Sandipan Banerjee, Ajjen Joshi, Jay Turcot, Bryan Reimer and Taniya Mishra(参考訳) 故障したドライバーは危険なドライバーです。 高度な運転支援システム(ADAS)と運転者の注意散らしを検出する能力は、事故の防止と運転者の安全向上に役立つ。 運転者の気晴らしを検出するために、ADASは視覚的注意を監視できなければならない。 運転者の顔のパッチを眼領域の作物と共に入力し、視線を車両内の6つの粗い関心領域(ROI)に分類するモデルを提案する。 再構成損失を付加してトレーニングした時間ガラスネットワークにより,従来のエンコーダのみの分類モジュールよりも強い文脈特徴表現を学習できることを示す。 外観・行動の主観的変化に頑健なシステムを実現するために,運転者の基本視動作を表す補助入力で調整されたパーソナライズされた時間ガラスモデルを設計する。 最後に,無ラベルサンプルを利用して,異なるドメイン(カメラタイプ,角度)からの表現を共同で学習し,アノテーションコストを低減できる,弱い教師付き多領域学習レジームを提案する。

Distracted drivers are dangerous drivers. Equipping advanced driver assistance systems (ADAS) with the ability to detect driver distraction can help prevent accidents and improve driver safety. In order to detect driver distraction, an ADAS must be able to monitor their visual attention. We propose a model that takes as input a patch of the driver's face along with a crop of the eye-region and classifies their glance into 6 coarse regions-of-interest (ROIs) in the vehicle. We demonstrate that an hourglass network, trained with an additional reconstruction loss, allows the model to learn stronger contextual feature representations than a traditional encoder-only classification module. To make the system robust to subject-specific variations in appearance and behavior, we design a personalized hourglass model tuned with an auxiliary input representing the driver's baseline glance behavior. Finally, we present a weakly supervised multi-domain training regimen that enables the hourglass to jointly learn representations from different domains (varying in camera type, angle), utilizing unlabeled samples and thereby reducing annotation cost.
翻訳日:2021-05-22 18:39:32 公開日:2021-01-20
# (参考訳) FedeRank:Federated Recommenderシステムによるユーザコントロールされたフィードバック [全文訳有]

FedeRank: User Controlled Feedback with Federated Recommender Systems ( http://arxiv.org/abs/2012.11328v3 )

ライセンス: CC BY 4.0
Vito Walter Anelli, Yashar Deldjoo, Tommaso Di Noia, Antonio Ferrara, Fedelucio Narducci(参考訳) レコメンダシステムは、データの可用性が日々のデジタル生活をいかに楽にするかを示すものとして成功している。 しかし、データプライバシはデジタル時代の最も顕著な懸念の1つだ。 いくつかのデータ漏洩とプライバシースキャンダルの後、ユーザーは自分のデータを共有することを心配している。 過去10年間、連合学習は新しいプライバシー保護型分散機械学習パラダイムとして登場してきた。 中央リポジトリにデータを集めることなく、ユーザデバイス上でデータを処理します。 We present FedeRank (https://split.to/fe derank), a federated recommendation algorithm。 システムは、各デバイスに個人的要因モデルを学習する。 モデルのトレーニングは、中央サーバとフェデレーションされたクライアント間の同期プロセスである。 FedeRankは、分散的な方法でコンピューティングレコメンデーションを処理し、ユーザが共有したいデータの一部をコントロールできるようにする。 最先端アルゴリズムとの比較により,共有ユーザデータのごく一部であっても,federrankの有効性を推薦精度の観点から検証した。 推薦リストの多様性と新規性のさらなる分析は、実際の生産環境におけるアルゴリズムの適合性を保証する。

Recommender systems have shown to be a successful representative of how data availability can ease our everyday digital life. However, data privacy is one of the most prominent concerns in the digital era. After several data breaches and privacy scandals, the users are now worried about sharing their data. In the last decade, Federated Learning has emerged as a new privacy-preserving distributed machine learning paradigm. It works by processing data on the user device without collecting data in a central repository. We present FedeRank (https://split.to/fe derank), a federated recommendation algorithm. The system learns a personal factorization model onto every device. The training of the model is a synchronous process between the central server and the federated clients. FedeRank takes care of computing recommendations in a distributed fashion and allows users to control the portion of data they want to share. By comparing with state-of-the-art algorithms, extensive experiments show the effectiveness of FedeRank in terms of recommendation accuracy, even with a small portion of shared user data. Further analysis of the recommendation lists' diversity and novelty guarantees the suitability of the algorithm in real production environments.
翻訳日:2021-05-07 07:27:16 公開日:2021-01-20
# (参考訳) 機械学習モデルの性能に影響を及ぼすデータドリフトおよび異常値の検出 [全文訳有]

Detection of data drift and outliers affecting machine learning model performance over time ( http://arxiv.org/abs/2012.09258v2 )

ライセンス: CC BY 4.0
Samuel Ackerman, Eitan Farchi, Orna Raz, Marcel Zalmanovici, Parijat Dube(参考訳) トレーニングされたMLモデルは、ターゲットの特徴値(ラベル)が不明な別の‘test’データセットにデプロイされる。 ドリフトはトレーニングとデプロイメントデータ間の分散変更であり、モデルのパフォーマンスが変更されるかどうかに関するものだ。 例えば、キャット/ドッグ画像分類器では、展開中のドリフトはウサギ画像(新しいクラス)や、特性が変化したキャット/ドッグ画像(分布の変化)である。 これらの変更を検出したいのですが、デプロイメントデータラベルなしでは正確さを計測できません。 その代わりに、モデル予測信頼度分布を非パラメトリックに検証することで、間接的にドリフトを検出する。 これはメソッドを一般化し、ドメイン固有の特徴表現をサイドステップします。 本稿では,CPM(Change Point Models)を用いた逐次テストにおける重要な統計問題,特にType-1エラー制御について述べる。 また,モデル診断には非パラメトリック・アウトリアー法を用いて不審な観察を行い,その前後の信頼度分布が著しく重なることを示した。 堅牢性を示す実験では、MNIST桁クラスのサブセットでトレーニングを行い、様々な設定(ドリフト比の漸進的/密着的な変化)の配置データにドリフト(例えば、未確認桁クラス)を挿入する。 ドリフトクラスの汚染レベルが異なるドリフト検出器の性能(検出遅延,タイプ1および2エラー)を比較するために,新しい損失関数を導入した。

A trained ML model is deployed on another `test' dataset where target feature values (labels) are unknown. Drift is distribution change between the training and deployment data, which is concerning if model performance changes. For a cat/dog image classifier, for instance, drift during deployment could be rabbit images (new class) or cat/dog images with changed characteristics (change in distribution). We wish to detect these changes but can't measure accuracy without deployment data labels. We instead detect drift indirectly by nonparametrically testing the distribution of model prediction confidence for changes. This generalizes our method and sidesteps domain-specific feature representation. We address important statistical issues, particularly Type-1 error control in sequential testing, using Change Point Models (CPMs; see Adams and Ross 2012). We also use nonparametric outlier methods to show the user suspicious observations for model diagnosis, since the before/after change confidence distributions overlap significantly. In experiments to demonstrate robustness, we train on a subset of MNIST digit classes, then insert drift (e.g., unseen digit class) in deployment data in various settings (gradual/sudden changes in the drift proportion). A novel loss function is introduced to compare the performance (detection delay, Type-1 and 2 errors) of a drift detector under different levels of drift class contamination.
翻訳日:2021-05-03 06:41:19 公開日:2021-01-20
# (参考訳) 逆雑音をもつハーフスペースのラベル最適学習のための局所パーセプトロンのパワーについて [全文訳有]

On the Power of Localized Perceptron for Label-Optimal Learning of Halfspaces with Adversarial Noise ( http://arxiv.org/abs/2012.10793v2 )

ライセンス: CC BY 4.0
Jie Shen(参考訳) 我々は、雑音ラベルの全体確率が最大$\nu$となるような逆ノイズを持つ$\mathbb{R}^d$における同次半空間のアクティブな学習について研究する。 私たちの主な貢献は、多項式時間で実行されるパーセプトロンのようなオンライン能動学習アルゴリズムであり、その限界分布が等方的対数凹であり、$\nu = \Omega(\epsilon)$, where $\epsilon \in (0, 1)$, our algorithm PAC learns the underlying halfspace of $\tilde{O}\big(d \cdot polylog(\frac{1}{\epsilon})\big)$ and sample complexity of $\tilde{O}\big(\frac{d}{\epsilon} \big)$である。 この研究に先立ち、対向雑音を許容するように設計された既存のオンラインアルゴリズムは、$\frac{1}{\epsilon}$のラベル複雑性多項式、もしくは準最適雑音耐性、もしくは制限的境界分布のいずれかの条件が課される。 基礎となる半空間が$s$-sparseであるという事前知識により、$\tilde{o}\big( s \cdot polylog(d, \frac{1}{\epsilon}) \big)$の属性効率の高いラベル複雑性と$\tilde{o}\big(\frac{s}{\epsilon} \cdot polylog(d) \big)$のサンプル複雑性が得られる。 即ち、ノイズレート$\nu$を仮定しない非依存モデルでは、我々のアクティブ学習者は、同じランニングタイムとラベルとサンプルの複雑さでエラーレート$O(OPT) + \epsilon$を達成し、$OPT$は任意の均質なハーフスペースによって達成可能な最良のエラーレートであることを示す。

We study {\em online} active learning of homogeneous halfspaces in $\mathbb{R}^d$ with adversarial noise where the overall probability of a noisy label is constrained to be at most $\nu$. Our main contribution is a Perceptron-like online active learning algorithm that runs in polynomial time, and under the conditions that the marginal distribution is isotropic log-concave and $\nu = \Omega(\epsilon)$, where $\epsilon \in (0, 1)$ is the target error rate, our algorithm PAC learns the underlying halfspace with near-optimal label complexity of $\tilde{O}\big(d \cdot polylog(\frac{1}{\epsilon})\big)$ and sample complexity of $\tilde{O}\big(\frac{d}{\epsilon} \big)$. Prior to this work, existing online algorithms designed for tolerating the adversarial noise are subject to either label complexity polynomial in $\frac{1}{\epsilon}$, or suboptimal noise tolerance, or restrictive marginal distributions. With the additional prior knowledge that the underlying halfspace is $s$-sparse, we obtain attribute-efficient label complexity of $\tilde{O}\big( s \cdot polylog(d, \frac{1}{\epsilon}) \big)$ and sample complexity of $\tilde{O}\big(\frac{s}{\epsilon} \cdot polylog(d) \big)$. As an immediate corollary, we show that under the agnostic model where no assumption is made on the noise rate $\nu$, our active learner achieves an error rate of $O(OPT) + \epsilon$ with the same running time and label and sample complexity, where $OPT$ is the best possible error rate achievable by any homogeneous halfspace.
翻訳日:2021-05-01 12:37:33 公開日:2021-01-20
# (参考訳) vis-nirsと機械学習を用いたサトウキビ土壌化学特性の診断 [全文訳有]

Using vis-NIRS and Machine Learning methods to diagnose sugarcane soil chemical properties ( http://arxiv.org/abs/2012.12995v2 )

ライセンス: CC BY 4.0
Diego A. Delgadillo-Duran, Cesar A. Vargas-Garc\'ia, Viviana M. Var\'on-Ram\'irez, Francisco Calder\'on, Andrea C. Montenegro, Paula H. Reyes-Herrera(参考訳) 化学土壌の性質を知ることは、作物管理と総収量生産において決定的に重要である。 伝統的な資産推定手法は時間を要するため、複雑な実験室の設置が必要であり、農家が作物の最適な慣行を迅速に進めるのを妨げている。 スペクトル信号(vis-NIRS)の特性推定は、低コストで非侵襲的で非破壊的な代替手段として登場した。 現在のアプローチでは、機械学習フレームワークを避けて、数学的および統計的なテクニックを使用する。 そこで本研究では, 一般的な土壌特性(pH, 土壌有機物, Ca, Na, K, Mg)の予測と推定における性能評価を行うため, 機械学習技術を用いた回帰と分類の両方を提案する。 サトウキビの土壌では,土壌の特性と分類を推定し,スペクトルバンド間の直接関係を報告し,その特性の直接測定を行う。 いずれの場合も,文献で報告された同様の設定で同様の結果を得た。

Knowing chemical soil properties might be determinant in crop management and total yield production. Traditional property estimation approaches are time-consuming and require complex lab setups, refraining farmers from taking steps towards optimal practices in their crops promptly. Property estimation from spectral signals(vis-NIRS), emerged as a low-cost, non-invasive, and non-destructive alternative. Current approaches use mathematical and statistical techniques, avoiding machine learning framework. Here we propose both regression and classification with machine learning techniques to assess performance in the prediction and infer categories of common soil properties (pH, soil organic matter, Ca, Na, K, and Mg), evaluated by the most common metrics. In sugarcane soils, we use regression to estimate properties and classification to assess soil's property status and report the direct relation between spectra bands and direct measure of certain properties. In both cases, we achieved similar performance on similar setups reported in the literature.
翻訳日:2021-04-25 19:48:25 公開日:2021-01-20
# (参考訳) 一貫性規則化によるニューラルネットワークのロバスト性向上

Improving the Certified Robustness of Neural Networks via Consistency Regularization ( http://arxiv.org/abs/2012.13103v2 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Zhongnian Li, Daoqiang Zhang(参考訳) 敵の例としては、ニューラルネットワークのロバスト性を改善するために、さまざまな防御方法が提案されており、攻撃者に対して証明可能なロバストなニューラルネットワークの訓練に有効であることが示されている。 しかし、これらの証明可能な防御手法のほとんどは、正しく分類された(自然な)例と誤分類された例の間の認定された堅牢性の矛盾した制約を無視して、トレーニングプロセス中にすべての例を平等に扱う。 本稿では, 誤分類例によるこの矛盾を考察し, 誤分類例をよりよく活用するために, 新たな整合性正規化項を追加する。 具体的には,誤分類例と正しく分類された例に対する認定ロバスト性の制約が一致すれば,ネットワークの認証ロバスト性が著しく向上することを確認した。 この発見に動機づけられた新しい防御正規化用語として、誤分類された例の認定された領域におけるすべての例の出力確率分布を制約する誤分類認識敵正規化(maar)を設計した。 実験の結果,提案手法は CIFAR-10 と MNIST のデータセットに対して,いくつかの最先端手法と比較して高い信頼性と精度が得られることがわかった。

A range of defense methods have been proposed to improve the robustness of neural networks on adversarial examples, among which provable defense methods have been demonstrated to be effective to train neural networks that are certifiably robust to the attacker. However, most of these provable defense methods treat all examples equally during training process, which ignore the inconsistent constraint of certified robustness between correctly classified (natural) and misclassified examples. In this paper, we explore this inconsistency caused by misclassified examples and add a novel consistency regularization term to make better use of the misclassified examples. Specifically, we identified that the certified robustness of network can be significantly improved if the constraint of certified robustness on misclassified examples and correctly classified examples is consistent. Motivated by this discovery, we design a new defense regularization term called Misclassification Aware Adversarial Regularization (MAAR), which constrains the output probability distributions of all examples in the certified region of the misclassified example. Experimental results show that our proposed MAAR achieves the best certified robustness and comparable accuracy on CIFAR-10 and MNIST datasets in comparison with several state-of-the-art methods.
翻訳日:2021-04-25 16:10:05 公開日:2021-01-20
# (参考訳) 分散トラヒック信号制御のための変分的・本質的強化学習 [全文訳有]

Variationally and Intrinsically motivated reinforcement learning for decentralized traffic signal control ( http://arxiv.org/abs/2101.00746v4 )

ライセンス: CC BY 4.0
Liwen Zhu, Peixi Peng, Zongqing Lu, Xiangqian Wang, Yonghong Tian(参考訳) マルチエージェント強化学習の最大の課題の1つはコーディネーションであり、典型的な応用シナリオはトラフィック信号制御である。 近年,多くの研究者を惹きつけ,実際的な意義を持つ熱い研究分野となっている。 本稿では,交通信号調整制御のためのMetaVRS~(Meta Variational Reward Shaping)という新しい手法を提案する。 環境報酬に本質的な報酬をヒューリスティックに適用することにより、MetaVRSはエージェント対エージェントの相互作用を賢明に捉えることができる。 さらに、VAEが生成した潜伏変数は、探索とエクスプロイトの間で自動的にトレードオフを行い、ポリシーを最適化する。 さらに、メタ学習はデコーダで高速な適応と近似のために使われた。 実証的に、MetaVRSは既存の手法よりも大幅に優れ、適応性も優れており、マルチエージェントの信号調整制御において予測できるほど重要となる。

One of the biggest challenges in multi-agent reinforcement learning is coordination, a typical application scenario of this is traffic signal control. Recently, it has attracted a rising number of researchers and has become a hot research field with great practical significance. In this paper, we propose a novel method called MetaVRS~(Meta Variational RewardShaping) for traffic signal coordination control. By heuristically applying the intrinsic reward to the environmental reward, MetaVRS can wisely capture the agent-to-agent interplay. Besides, latent variables generated by VAE are brought into policy for automatically tradeoff between exploration and exploitation to optimize the policy. In addition, meta learning was used in decoder for faster adaptation and better approximation. Empirically, we demonstate that MetaVRS substantially outperforms existing methods and shows superior adaptability, which predictably has a far-reaching significance to the multi-agent traffic signal coordination control.
翻訳日:2021-04-12 08:17:21 公開日:2021-01-20
# (参考訳) 電車用ホイールセットの残存寿命と故障型に関する共同予測:マルチタスク学習によるアプローチ

Joint Prediction of Remaining Useful Life and Failure Type of Train Wheelsets: A Multi-task Learning Approach ( http://arxiv.org/abs/2101.03497v2 )

ライセンス: CC0 1.0
Weixin Wang(参考訳) 列車の車輪の故障は、列車の運行の混乱や、多くの列車脱線の原因となっている。 ホイールセットの有用な寿命(RUL)は、次の障害がいつ到着するかを計測し、障害タイプは障害がどれほど深刻かを明らかにする。 RUL予測は回帰タスクであり、障害タイプは分類タスクである。 本稿では,共通入力空間を用いてより望ましい結果を得るために,これら2つのタスクを共同で達成するためのマルチタスク学習手法を提案する。 我々は,最小二乗損失とロジスティック回帰の負の最大可能性の両方を統合する凸最適化式を開発し,モデルパラメータのL2/L1ノルムとして結合空間をモデル化し,タスク間の特徴選択を結合する。 実験の結果,提案手法は1タスク学習法よりも予測精度が3%高いことがわかった。

The failures of train wheels account for disruptions of train operations and even a large portion of train derailments. Remaining useful life (RUL) of a wheelset measures the how soon the next failure will arrive, and the failure type reveals how severe the failure will be. RUL prediction is a regression task, whereas failure type is a classification task. In this paper, we propose a multi-task learning approach to jointly accomplish these two tasks by using a common input space to achieve more desirable results. We develop a convex optimization formulation to integrate both least square loss and the negative maximum likelihood of logistic regression, and model the joint sparsity as the L2/L1 norm of the model parameters to couple feature selection across tasks. The experiment results show that our method outperforms the single task learning method by 3% in prediction accuracy.
翻訳日:2021-04-09 05:58:39 公開日:2021-01-20
# テキスト分類のためのオンデバイスパーソナライズによる逆ロバスト・説明可能なモデル圧縮

Adversarially Robust and Explainable Model Compression with On-Device Personalization for Text Classification ( http://arxiv.org/abs/2101.05624v3 )

ライセンス: Link先を確認
Yao Qiang, Supriya Tumkur Suresh Kumar, Marco Brocanelli and Dongxiao Zhu(参考訳) モバイルデバイスのコンピューティング能力の増大とコンピュータビジョン(CV)、自然言語処理(NLP)、モノのインターネット(IoT)のアプリケーション数の増加により、オンデバイスディープニューラルネットワーク(DNN)が最近注目を集めている。 残念なことに、CVタスク用に設計された既存の効率的な畳み込みニューラルネットワーク(CNN)アーキテクチャは、NLPタスクに直接適用されず、小さなリカレントニューラルネットワーク(RNN)アーキテクチャは、主にIoTアプリケーション向けに設計されている。 nlpアプリケーションでは、モデル圧縮はデバイス上のテキスト分類で初期成功をおさめているが、少なくとも3つの大きな課題、敵意の堅牢性、説明可能性、パーソナライゼーションが解決されていない。 本稿では,説明可能な特徴マッピング目標,知識蒸留目的,敵対的ロバスト性目標の最適化を含む,モデル圧縮と敵対的ロバストネスの新しいトレーニングスキームを設計することにより,これらの課題に取り組む。 得られた圧縮モデルは、微調整によるデバイス上のプライベートトレーニングデータを用いてパーソナライズされる。 我々は、我々のアプローチを、コンパクトなRNN(例えば、FastGRNN)と圧縮されたRNN(例えば、PRADO)アーキテクチャの両方と比較するために、自然および敵対的なNLPテスト設定の両方で、広範な実験を行う。

On-device Deep Neural Networks (DNNs) have recently gained more attention due to the increasing computing power of the mobile devices and the number of applications in Computer Vision (CV), Natural Language Processing (NLP), and Internet of Things (IoTs). Unfortunately, the existing efficient convolutional neural network (CNN) architectures designed for CV tasks are not directly applicable to NLP tasks and the tiny Recurrent Neural Network (RNN) architectures have been designed primarily for IoT applications. In NLP applications, although model compression has seen initial success in on-device text classification, there are at least three major challenges yet to be addressed: adversarial robustness, explainability, and personalization. Here we attempt to tackle these challenges by designing a new training scheme for model compression and adversarial robustness, including the optimization of an explainable feature mapping objective, a knowledge distillation objective, and an adversarially robustness objective. The resulting compressed model is personalized using on-device private training data via fine-tuning. We perform extensive experiments to compare our approach with both compact RNN (e.g., FastGRNN) and compressed RNN (e.g., PRADO) architectures in both natural and adversarial NLP test settings.
翻訳日:2021-04-08 08:22:17 公開日:2021-01-20
# (参考訳) U-Noise:解釈可能な画像分割のための学習可能なノイズマスク [全文訳有]

U-Noise: Learnable Noise Masks for Interpretable Image Segmentation ( http://arxiv.org/abs/2101.05791v2 )

ライセンス: CC BY 4.0
Teddy Koker, Fatemehsadat Mireshghallah, Tom Titcombe, Georgios Kaissis(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、医療から社会的、司法まで、さまざまな重要な応用における意思決定に広く利用されている。 これらの決定の重要性を考えると、これらのモデルを解釈できることは重要です。 下流モデルの性能を損なうことなく,ノイズが適用可能な画像の領域を学習することにより,画像分割モデルを解釈する新しい手法を提案する。 本手法はCTスキャンにおける膵の分画に応用し,Grad-CAMやオクルージョン感度などの既存の説明可能性技術と比較した。 さらに,他の手法と異なり,不明瞭な画像に対する下流性能に基づいて,解釈可能性モデルを定量的に評価できることを示す。

Deep Neural Networks (DNNs) are widely used for decision making in a myriad of critical applications, ranging from medical to societal and even judicial. Given the importance of these decisions, it is crucial for us to be able to interpret these models. We introduce a new method for interpreting image segmentation models by learning regions of images in which noise can be applied without hindering downstream model performance. We apply this method to segmentation of the pancreas in CT scans, and qualitatively compare the quality of the method to existing explainability techniques, such as Grad-CAM and occlusion sensitivity. Additionally we show that, unlike other methods, our interpretability model can be quantitatively evaluated based on the downstream performance over obscured images.
翻訳日:2021-03-29 03:46:08 公開日:2021-01-20
# (参考訳) tc-dtw: 三角不等式と点クラスタリングによる多変量動的時間ゆがみの促進 [全文訳有]

TC-DTW: Accelerating Multivariate Dynamic Time Warping Through Triangle Inequality and Point Clustering ( http://arxiv.org/abs/2101.07731v2 )

ライセンス: CC BY 4.0
Daniel Shen, Min Chi(参考訳) dynamic time warping (dtw) は時系列分析において重要な役割を果たす。 単変量DTWの高速化に関する大規模な研究にもかかわらず、多変量DTWの方法は過去20年間あまり改善されていない。 今日最もよく使われているアルゴリズムは17年前に開発されたアルゴリズムである。 本稿では,我々が知る限りでは,データセットサイズ,時系列長,データサイズ,時間窓サイズ,マシン間で,従来の多変量dtwアルゴリズムを一貫して上回る解を提案する。 TC-DTWという名前の新しいソリューションは、多変量DTWの低境界計算におけるアルゴリズム設計に三角不等式とポイントクラスタリングを導入している。 DTWをベースとした近接探索実験では、新しい解は最大98%(平均60%)のDTW距離計算を回避し、最大25倍(平均7.5倍)のスピードアップをもたらす。

Dynamic time warping (DTW) plays an important role in analytics on time series. Despite the large body of research on speeding up univariate DTW, the method for multivariate DTW has not been improved much in the last two decades. The most popular algorithm used today is still the one developed seventeen years ago. This paper presents a solution that, as far as we know, for the first time consistently outperforms the classic multivariate DTW algorithm across dataset sizes, series lengths, data dimensions, temporal window sizes, and machines. The new solution, named TC-DTW, introduces Triangle Inequality and Point Clustering into the algorithm design on lower bound calculations for multivariate DTW. In experiments on DTW-based nearest neighbor finding, the new solution avoids as much as 98% (60% average) DTW distance calculations and yields as much as 25X (7.5X average) speedups.
翻訳日:2021-03-28 14:56:10 公開日:2021-01-20
# ガウス連続過程の離散時間と連続時間の記述の関連

The Connection between Discrete- and Continuous-Time Descriptions of Gaussian Continuous Processes ( http://arxiv.org/abs/2101.06482v2 )

ライセンス: Link先を確認
Federica Ferretti, Victor Chard\`es, Thierry Mora, Aleksandra M Walczak, Irene Giardina(参考訳) 離散観測から運動の連続方程式を学ぶことは物理学のあらゆる分野において共通の課題である。 しかし、ガウス連続時間確率過程の離散化はパラメトリック推論では適用できない。 我々は、一貫した推定値を得る離散化が、粗粒度の下での不変性を持ち、自己回帰移動平均(ARMA)モデル(線形過程)の空間上の正規化群マップの固定点に対応することを示す。 この結果から, 2次あるいはそれ以上の確率微分方程式の時系列解析では, 微分再構成法と局所インタイム推論法では, 積分スキームが数値シミュレーションに好適であっても, 差分スキームを組み合わせることがうまくいかないことを説明できる。

Learning the continuous equations of motion from discrete observations is a common task in all areas of physics. However, not any discretization of a Gaussian continuous-time stochastic process can be adopted in parametric inference. We show that discretizations yielding consistent estimators have the property of `invariance under coarse-graining' ;, and correspond to fixed points of a renormalization group map on the space of autoregressive moving average (ARMA) models (for linear processes). This result explains why combining differencing schemes for derivatives reconstruction and local-in-time inference approaches does not work for time series analysis of second or higher order stochastic differential equations, even if the corresponding integration schemes may be acceptably good for numerical simulations.
翻訳日:2021-03-28 04:33:36 公開日:2021-01-20
# T代数を用いた一般化画像再構成

Generalized Image Reconstruction over T-Algebra ( http://arxiv.org/abs/2101.06650v2 )

ライセンス: Link先を確認
Liang Liao, Xuechun Zhang, Xinqiang Wang, Sen Lin, Xin Liu(参考訳) 主成分分析(PCA)はその次元削減とデータ圧縮の能力でよく知られている。 しかし、画像の圧縮/再構成にPCAを使用する場合、イメージをベクトルに再キャストする必要がある。 画像のベクトル化は、隣接する画素と空間情報の相関制約を生じさせる。 そこで我々は,PCAが採用するベクトル化の欠点に対処するため,各画素の小さな近傍を用いて複合画素を形成し,TPCA(Tensorial principal Component Analysis)と呼ばれるPCAのテンソルバージョンを用いて複合画素の合成画像の圧縮と再構成を行った。 公開データを用いた実験の結果, TPCAは画像の圧縮と再構成においてPCAと良好に比較できることがわかった。 また, 複合画素の順序が大きくなるとTPCAの性能が向上することを示した。

Principal Component Analysis (PCA) is well known for its capability of dimension reduction and data compression. However, when using PCA for compressing/reconstr ucting images, images need to be recast to vectors. The vectorization of images makes some correlation constraints of neighboring pixels and spatial information lost. To deal with the drawbacks of the vectorizations adopted by PCA, we used small neighborhoods of each pixel to form compounded pixels and use a tensorial version of PCA, called TPCA (Tensorial Principal Component Analysis), to compress and reconstruct a compounded image of compounded pixels. Our experiments on public data show that TPCA compares favorably with PCA in compressing and reconstructing images. We also show in our experiments that the performance of TPCA increases when the order of compounded pixels increases.
翻訳日:2021-03-27 20:19:48 公開日:2021-01-20
# バイオメディカルデータのための最近のグラフ埋め込み技術に関する文献レビュー

A Literature Review of Recent Graph Embedding Techniques for Biomedical Data ( http://arxiv.org/abs/2101.06569v2 )

ライセンス: Link先を確認
Yankai Chen and Yaozu Wu and Shicheng Ma and Irwin King(参考訳) バイオメディカルソフトウェアとハードウェアの急速な発展に伴い、遺伝子、タンパク質、化学成分、薬物、疾患、症状を相互に結合する大量の関連データが現代のバイオメディカル研究のために収集されている。 多くのグラフベースの学習手法がそのようなデータを分析するために提案されており、バイオメディカルデータの背後にあるトポロジと知識について深い洞察を与えている。 しかし、主な困難は、バイオメディカルグラフの高次元性と空間性を扱う方法である。 近年,グラフ埋め込み手法は上記の問題に効果的かつ効率的な対処方法を提供している。 グラフに基づくデータを、グラフ構造特性と知識情報がよく保存されている低次元ベクトル空間に変換する。 本研究では,最近の生物医学データへのグラフ埋め込み手法の適用動向について文献レビューを行う。 また, バイオメディカル領域および関連する公的バイオメディカルデータセットにおいて, 重要な応用と課題を紹介する。

With the rapid development of biomedical software and hardware, a large amount of relational data interlinking genes, proteins, chemical components, drugs, diseases, and symptoms has been collected for modern biomedical research. Many graph-based learning methods have been proposed to analyze such type of data, giving a deeper insight into the topology and knowledge behind the biomedical data, which greatly benefit to both academic research and industrial application for human healthcare. However, the main difficulty is how to handle high dimensionality and sparsity of the biomedical graphs. Recently, graph embedding methods provide an effective and efficient way to address the above issues. It converts graph-based data into a low dimensional vector space where the graph structural properties and knowledge information are well preserved. In this survey, we conduct a literature review of recent developments and trends in applying graph embedding methods for biomedical data. We also introduce important applications and tasks in the biomedical domain as well as associated public biomedical datasets.
翻訳日:2021-03-27 20:18:45 公開日:2021-01-20
# 鉄道における実時間目標レス動的変位計測のための深層学習に基づく仮想点追跡

Deep Learning based Virtual Point Tracking for Real-Time Target-less Dynamic Displacement Measurement in Railway Applications ( http://arxiv.org/abs/2101.06702v2 )

ライセンス: Link先を確認
Dachuan Shi, Eldar Sabanovic, Luca Rizzetto, Viktor Skrickij, Roberto Oliverio, Nadia Kaviani, Yunguang Ye, Gintautas Bureika, Stefano Ricci, Markus Hecht(参考訳) コンピュータビジョンに基づく変位測定の応用では、通常、参照を証明するために光学的目標が必要となる。 光ターゲットが測定対象に装着できない場合、エッジ検出、特徴マッチング、テンプレートマッチングがターゲットレスフォトグラムの最も一般的なアプローチである。 しかし、その性能はパラメータの設定に大きく依存する。 これは複雑な背景テクスチャが存在し、時間とともに変化する動的シーンでは問題となる。 この問題に対処するために,ディープラーニング技術とドメイン知識を取り入れたリアルタイムターゲットレス動的変位計測のための仮想点追跡を提案する。 提案手法は,1)関心領域検出のための自動校正,2)深部畳み込みニューラルネットワークを用いた各ビデオフレームの仮想点検出,3)隣接フレームにおける点追跡のためのドメイン知識ベースルールエンジンの3段階からなる。 提案手法はエッジコンピュータ上でリアルタイムに実行できる(例: エッジコンピュータ)。 毎秒30フレーム以上)。 そこで本研究では, 運転中にレールの車輪の水平変位を計測した鉄道への適用例を示す。 また,比較基準としてテンプレートマッチングと線検出を用いたアルゴリズムを実装した。 本研究は, 騒音, 背景の異なる厳しい鉄道環境下でのアプローチの性能と遅延を評価するため, 数値実験を行った。

In the application of computer-vision based displacement measurement, an optical target is usually required to prove the reference. In the case that the optical target cannot be attached to the measuring objective, edge detection, feature matching and template matching are the most common approaches in target-less photogrammetry. However, their performance significantly relies on parameter settings. This becomes problematic in dynamic scenes where complicated background texture exists and varies over time. To tackle this issue, we propose virtual point tracking for real-time target-less dynamic displacement measurement, incorporating deep learning techniques and domain knowledge. Our approach consists of three steps: 1) automatic calibration for detection of region of interest; 2) virtual point detection for each video frame using deep convolutional neural network; 3) domain-knowledge based rule engine for point tracking in adjacent frames. The proposed approach can be executed on an edge computer in a real-time manner (i.e. over 30 frames per second). We demonstrate our approach for a railway application, where the lateral displacement of the wheel on the rail is measured during operation. We also implement an algorithm using template matching and line detection as the baseline for comparison. The numerical experiments have been performed to evaluate the performance and the latency of our approach in the harsh railway environment with noisy and varying backgrounds.
翻訳日:2021-03-27 20:16:42 公開日:2021-01-20
# (参考訳) HarDNet-MSEG: 0.9平均深度と86FPSを達成した簡易エンコーダデコーダポリプセグメンテーションニューラルネットワーク [全文訳有]

HarDNet-MSEG: A Simple Encoder-Decoder Polyp Segmentation Neural Network that Achieves over 0.9 Mean Dice and 86 FPS ( http://arxiv.org/abs/2101.07172v2 )

ライセンス: CC BY-SA 4.0
Chien-Hsiang Huang, Hung-Yu Wu, and Youn-Long Lin(参考訳) 本稿では,ポリプセグメンテーションのための新しい畳み込みニューラルネットワークHarDNet-MSEGを提案する。 一般的な5つのデータセットの精度と推論速度の両方でSOTAを実現する。 Kvasir-SEGでは、HarDNet-MSEGが0.904で、GeForce RTX 2080 Ti GPU上で86.7 FPSで動作する。 バックボーンとデコーダで構成される。 バックボーンは、HarDNet68と呼ばれる低メモリトラフィックCNNで、画像分類、オブジェクト検出、マルチオブジェクト追跡、セマンティックセグメンテーションなど、さまざまなCVタスクにうまく適用されている。 デコーダ部はカスケード部分デコーダにインスパイアされ、高速かつ正確な正当性検出で知られている。 この5つの一般的なデータセットを用いてHarDNet-MSEGを評価した。 コードと実験の詳細はgithubで公開されている。 https://github.com/j ames128333/HarDNet-M SEG

We propose a new convolution neural network called HarDNet-MSEG for polyp segmentation. It achieves SOTA in both accuracy and inference speed on five popular datasets. For Kvasir-SEG, HarDNet-MSEG delivers 0.904 mean Dice running at 86.7 FPS on a GeForce RTX 2080 Ti GPU. It consists of a backbone and a decoder. The backbone is a low memory traffic CNN called HarDNet68, which has been successfully applied to various CV tasks including image classification, object detection, multi-object tracking and semantic segmentation, etc. The decoder part is inspired by the Cascaded Partial Decoder, known for fast and accurate salient object detection. We have evaluated HarDNet-MSEG using those five popular datasets. The code and all experiment details are available at Github. https://github.com/j ames128333/HarDNet-M SEG
翻訳日:2021-03-27 10:07:56 公開日:2021-01-20
# (参考訳) monah: 会話を分析するためのマルチモーダルな物語 [全文訳有]

MONAH: Multi-Modal Narratives for Humans to analyze conversations ( http://arxiv.org/abs/2101.07339v2 )

ライセンス: CC BY 4.0
Joshua Y. Kim, Greyson Y. Kim, Chunfeng Liu, Rafael A. Calvo, Silas C.R. Taylor, Kalina Yacef(参考訳) 会話分析では、人間が手動でマルチモーダル情報をテキストに織り込む。 本稿では,マルチモーダルデータストリームを用いて,ビデオ録画会話の口頭転写を自動拡張するシステムを提案する。 本システムは,複数モーダルアノテーションを動詞の転写文に織り込み,解釈可能性を高めるために,事前処理ルールのセットを使用する。 ひとつは、rapport-buildingの検出に関連するマルチモーダルな機能の範囲を特定し、もうひとつは、マルチモーダルアノテーションの範囲を拡大し、拡張によってrapport-buildingの検出が統計的に著しく改善されたことを示しています。

In conversational analyses, humans manually weave multimodal information into the transcripts, which is significantly time-consuming. We introduce a system that automatically expands the verbatim transcripts of video-recorded conversations using multimodal data streams. This system uses a set of preprocessing rules to weave multimodal annotations into the verbatim transcripts and promote interpretability. Our feature engineering contributions are two-fold: firstly, we identify the range of multimodal features relevant to detect rapport-building; secondly, we expand the range of multimodal annotations and show that the expansion leads to statistically significant improvements in detecting rapport-building.
翻訳日:2021-03-27 07:15:21 公開日:2021-01-20
# (参考訳) マルチモードおよび2重み付きテンソル核ノルム最小化によるハイパースペクトル画像復元 [全文訳有]

Hyperspectral Image Restoration via Multi-mode and Double-weighted Tensor Nuclear Norm Minimization ( http://arxiv.org/abs/2101.07681v2 )

ライセンス: CC BY 4.0
Sheng Liu, Xiaozhen Xie and Wenfeng Kong(参考訳) テンソル特異値分解によって引き起こされるテンソル核ノルム(TNN)は、ハイパースペクトル画像(HSI)復元タスクにおいて重要な役割を果たす。 本稿ではまず,TNNにおける3つの重要な現象について考察する。 HSIのフーリエ変換領域では、異なる周波数成分は異なる情報を含み、各周波数成分の異なる特異値も異なる情報を表す。 2つの物理現象はスペクトル次元だけでなく、空間次元にも存在している。 そして,HSI修復におけるTNNの能力と柔軟性を向上させるために,上記の3つの重要な現象に基づいた多モード・二重重み付きTNNを提案する。 HSIの全てのモードにおいて、周波数成分と特異値の物理的意味に応じて適応的に縮小することができる。 乗算器の交互方向法(alternating direction method of multipliers)の枠組みにおいて,提案手法を最適化する効果的な交互方向反復戦略を考案する。 合成HSIデータセットと実HSIデータセットの復元実験は、関連する手法よりも優れていることを示した。

Tensor nuclear norm (TNN) induced by tensor singular value decomposition plays an important role in hyperspectral image (HSI) restoration tasks. In this letter, we first consider three inconspicuous but crucial phenomenons in TNN. In the Fourier transform domain of HSIs, different frequency components contain different information; different singular values of each frequency component also represent different information. The two physical phenomenons lie not only in the spectral dimension but also in the spatial dimensions. Then, to improve the capability and flexibility of TNN for HSI restoration, we propose a multi-mode and double-weighted TNN based on the above three crucial phenomenons. It can adaptively shrink the frequency components and singular values according to their physical meanings in all modes of HSIs. In the framework of the alternating direction method of multipliers, we design an effective alternating iterative strategy to optimize our proposed model. Restoration experiments on both synthetic and real HSI datasets demonstrate their superiority against related methods.
翻訳日:2021-03-23 00:41:14 公開日:2021-01-20
# 予め訓練されたタスクネットワークを組み込んだマルチスライス型MR画像からの教師なし領域適応

Unsupervised Domain Adaptation from Axial to Short-Axis Multi-Slice Cardiac MR Images by Incorporating Pretrained Task Networks ( http://arxiv.org/abs/2101.07653v2 )

ライセンス: Link先を確認
Sven Koehler, Tarique Hussain, Zach Blair, Tyler Huffaker, Florian Ritzmann, Animesh Tandon, Thomas Pickardt, Samir Sarikouch, Heiner Latus, Gerald Greil, Ivo Wolf, Sandy Engelhardt(参考訳) 異方性多重スライス心磁気共鳴(CMR)画像は従来,患者特異的短軸方向(SAX)で取得されていた。 右室形態(rv)に影響を及ぼす特定の心血管疾患では、治療計画においてrv容積測定が優れている可能性があるため、標準軸方向(ax)の獲得が好ましい。 残念ながら、これらの病気のまれな発生のため、この領域のデータは少ない。 近年,SAX CMR画像に焦点をあてた深層学習手法の研究が盛んに行われている。 本研究では, AX 画像と SAX 画像の間に領域シフトがかなりあり, 既存のモデルを直接適用することで, AX サンプルに対して準最適結果が得られることを示す。 本稿では,注意機構にタスク関連確率を用いる,教師なしドメイン適応手法を提案する。 さらに、AX画像をSAX配向に自動的に再サンプリングする際の安定性を向上させるために、学習した患者と個別の3D剛体変換にサイクル一貫性が課される。 ネットワークは122個の登録された3d ax-sax cmrボリュームペアで訓練された。 平均3Dディスは左心室では0.86\pm{0.06}$、心筋では0.65\pm{0.08}$、右心室では0.77\pm{0.10}$である。 これは、アキシャルスライスへの直接適用と比較して、RV向けのDiceの25\%$の改善である。 結論として、トレーニング済みのタスクモジュールは、対象ドメインからのCMRイメージやラベルは見ていないが、ドメインギャップが減った後にセグメント化することが可能である。 コード:https://github.com/ Cardio-AI/3d-mri- domain-adaptation

Anisotropic multi-slice Cardiac Magnetic Resonance (CMR) Images are conventionally acquired in patient-specific short-axis (SAX) orientation. In specific cardiovascular diseases that affect right ventricular (RV) morphology, acquisitions in standard axial (AX) orientation are preferred by some investigators, due to potential superiority in RV volume measurement for treatment planning. Unfortunately, due to the rare occurrence of these diseases, data in this domain is scarce. Recent research in deep learning-based methods mainly focused on SAX CMR images and they had proven to be very successful. In this work, we show that there is a considerable domain shift between AX and SAX images, and therefore, direct application of existing models yield sub-optimal results on AX samples. We propose a novel unsupervised domain adaptation approach, which uses task-related probabilities in an attention mechanism. Beyond that, cycle consistency is imposed on the learned patient-individual 3D rigid transformation to improve stability when automatically re-sampling the AX images to SAX orientations. The network was trained on 122 registered 3D AX-SAX CMR volume pairs from a multi-centric patient cohort. A mean 3D Dice of $0.86\pm{0.06}$ for the left ventricle, $0.65\pm{0.08}$ for the myocardium, and $0.77\pm{0.10}$ for the right ventricle could be achieved. This is an improvement of $25\%$ in Dice for RV in comparison to direct application on axial slices. To conclude, our pre-trained task module has neither seen CMR images nor labels from the target domain, but is able to segment them after the domain gap is reduced. Code: https://github.com/C ardio-AI/3d-mri-doma in-adaptation
翻訳日:2021-03-22 11:25:16 公開日:2021-01-20
# (参考訳) autocart -- 環境・空間モデリングのための空間認識回帰木 [全文訳有]

Autocart -- spatially-aware regression trees for ecological and spatial modeling ( http://arxiv.org/abs/2101.08258v1 )

ライセンス: CC BY 4.0
Ethan Ancell, Brennan Bean(参考訳) 多くの生態学的および空間的過程は本質的に複雑であり、線形モデルによって正確にモデル化されていない。 回帰木は、生態的および空間的なデータセットに存在する高次相互作用を扱うが、下層の景観を物理的にリアルに特徴づけることができない。 autocart (autocorrelated regression tree) rパッケージは、空間的に認識された分割関数と新しい適応的逆距離重み付け法を通じて、以前提案していた空間回帰木法の機能を拡張したものである。 ランダム森林のオートカート拡張を含むこれらのオートカートモデルの有効性を複数のデータセットで示す。 これは、空間変数間の複雑な相互作用をモデル化し、ランドスケープを物理的にリアルに表現する能力を強調している。

Many ecological and spatial processes are complex in nature and are not accurately modeled by linear models. Regression trees promise to handle the high-order interactions that are present in ecological and spatial datasets, but fail to produce physically realistic characterizations of the underlying landscape. The "autocart" (autocorrelated regression trees) R package extends the functionality of previously proposed spatial regression tree methods through a spatially aware splitting function and novel adaptive inverse distance weighting method in each terminal node. The efficacy of these autocart models, including an autocart extension of random forest, is demonstrated on multiple datasets. This highlights the ability of autocart to model complex interactions between spatial variables while still providing physically realistic representations of the landscape.
翻訳日:2021-03-22 09:44:47 公開日:2021-01-20
# (参考訳) 中国における学術論文のフルテキストコンテンツを用いた情報科学の方法論分類

Using Full-text Content of Academic Articles to Build a Methodology Taxonomy of Information Science in China ( http://arxiv.org/abs/2101.07924v1 )

ライセンス: CC BY 4.0
Heng Zhang, Chengzhi Zhang(参考訳) 従来の情報科学方法論の分類に関する研究は、主に手作業で行われている。 限られたコーパスから、研究者はいくつかの研究方法論エンティティをいくつかの抽象レベル(一般的には3段階)にまとめようとしたが、より粒度の細かい階層を提供することはできなかった。 さらに、方法論の分類の更新は伝統的に遅いプロセスである。 本研究では,情報科学に関する全文学術論文を収集した。 まず, 手動アノテーションにより3段階の基本的な分類法を構築した。 次に,全文データを用いて,研究方法論エンティティの単語ベクトルを訓練した。 そこで, 研究方法論の実体をクラスタリングし, 基礎方法論の分類法をクラスタリング結果を用いて拡張し, よりレベルの高い方法論の分類法を得た。 本研究は情報科学の方法論分類法を構築するための新しい概念を提供する。 提案手法は半自動的であり, 従来の手法よりも詳細であり, 分類の更新速度が向上している。

Research on the construction of traditional information science methodology taxonomy is mostly conducted manually. From the limited corpus, researchers have attempted to summarize some of the research methodology entities into several abstract levels (generally three levels); however, they have been unable to provide a more granular hierarchy. Moreover, updating the methodology taxonomy is traditionally a slow process. In this study, we collected full-text academic papers related to information science. First, we constructed a basic methodology taxonomy with three levels by manual annotation. Then, the word vectors of the research methodology entities were trained using the full-text data. Accordingly, the research methodology entities were clustered and the basic methodology taxonomy was expanded using the clustering results to obtain a methodology taxonomy with more levels. This study provides new concepts for constructing a methodology taxonomy of information science. The proposed methodology taxonomy is semi-automated; it is more detailed than conventional schemes and the speed of taxonomy renewal has been enhanced.
翻訳日:2021-03-22 09:26:41 公開日:2021-01-20
# (参考訳) 雑音学習に基づくDenoising Autoencoder [全文訳有]

Noise Learning Based Denoising Autoencoder ( http://arxiv.org/abs/2101.07937v1 )

ライセンス: CC BY 4.0
Woong-Hee Lee, Mustafa Ozger, Ursula Challita, and Ki Won Sung(参考訳) 本稿では,ノイズ学習に基づくDAE(nlDAE)という,DAE(Denoising Autoencoder)の構造を改良した新しいデノイザを紹介する。 提案したnlDAEは、元のデータではなくノイズを学習する。 そして、ノイズ入力から再生ノイズを減算して減音を行う。 したがって、nlDAEは、ノイズが元のデータよりも簡単に再生できる場合、DAEよりも効果的である。 nlDAEの性能を検証するために,シンボルの復調と正確な位置推定の2つのケーススタディを提案する。 数値的な結果から,nlDAE は DAE と比較して遅延空間次元が小さく,トレーニングデータセットが小さいことが示唆された。

This letter introduces a new denoiser that modifies the structure of denoising autoencoder (DAE), namely noise learning based DAE (nlDAE). The proposed nlDAE learns the noise instead of the original data. Then, the denoising is performed by subtracting the regenerated noise from the noisy input. Hence, nlDAE is more effective than DAE when the noise is simpler to regenerate than the original data. To validate the performance of nlDAE, we provide two case studies: symbol demodulation and precise localization. Numerical results suggest that nlDAE requires smaller latent space dimension and less training dataset compared to DAE.
翻訳日:2021-03-22 09:25:44 公開日:2021-01-20
# (参考訳) HIVE-4-MAT:材料科学のオントロジー基盤の整備 [全文訳有]

HIVE-4-MAT: Advancing the Ontology Infrastructure for Materials Science ( http://arxiv.org/abs/2101.07960v1 )

ライセンス: CC BY 4.0
Jane Greenberg, Xintong Zhao, Joseph Adair, Joan Boone and Xiaohua Tony Hu(参考訳) hive-4-mat - 自動リンクデータオントロジーアプリケーションである材料科学における学際的語彙工学を支援する。 材料科学の文脈的背景、共有オントロジーのインフラをカバーし、知識抽出と索引付けのプロセスをレビューする。 HIVE-4-MATの語彙ブラウジング、用語検索と選択、知識抽出と索引付けをレビューし、名前付きエンティティ認識を統合する計画である。 結論 より良いオントロジーをサポートするための関係抽出を伴う次のステップを強調する。

Introduces HIVE-4-MAT - Helping Interdisciplinary Vocabulary Engineering for Materials Science, an automatic linked data ontology application. Covers contextual background for materials science, shared ontology infrastructures, and reviews the knowledge extraction and indexing process. HIVE-4-MAT's vocabulary browsing, term search and selection, and knowledge extraction and indexing are reviewed, and plans to integrate named entity recognition. Conclusion highlights next steps with relation extraction to support better ontologies.
翻訳日:2021-03-22 09:01:58 公開日:2021-01-20
# (参考訳) VOTE400 (Voide of the elderly 400 hourss):高齢者用音声インタフェース研究のための音声データセット [全文訳有]

VOTE400(Voide Of The Elderly 400 Hours): A Speech Dataset to Study Voice Interface for Elderly-Care ( http://arxiv.org/abs/2101.11469v1 )

ライセンス: CC BY 4.0
Minsu Jang, Sangwon Seo, Dohyung Kim, Jaeyeon Lee, Jaehong Kim, Jun-Hwan Ahn(参考訳) 本稿では,高齢者の声の分析と認識に使用できる,VOTE400という大規模韓国語音声データセットを提案する。 データセットには、65歳以上の高齢者によって記録された、約300時間の連続対話音声と100時間の読み上げ音声が含まれている。 予備実験により,VOTE400で訓練した音声認識システムは,高齢者の声の音声認識において従来のシステムよりも優れることが示された。 本研究は, 介護ロボットの音声認識性能向上を目的として, ETRI と MINDs Lab が主導する多組織的取り組みである。

This paper introduces a large-scale Korean speech dataset, called VOTE400, that can be used for analyzing and recognizing voices of the elderly people. The dataset includes about 300 hours of continuous dialog speech and 100 hours of read speech, both recorded by the elderly people aged 65 years or over. A preliminary experiment showed that speech recognition system trained with VOTE400 can outperform conventional systems in speech recognition of elderly people's voice. This work is a multi-organizational effort led by ETRI and MINDs Lab Inc. for the purpose of advancing the speech recognition performance of the elderly-care robots.
翻訳日:2021-03-22 08:55:01 公開日:2021-01-20
# (参考訳) 半教師付きキーポイントローカライゼーション [全文訳有]

Semi-supervised Keypoint Localization ( http://arxiv.org/abs/2101.07988v1 )

ライセンス: CC BY 4.0
Olga Moskvyak, Frederic Maire, Feras Dayoub, Mahsa Baktashmotlagh(参考訳) 画像中の物体のキーポイントの位置に関する知識は、特に野生動物のような視覚的な外観に大きな影響を与えるポーズに大きなバリエーションを示す物体の場合において、きめ細かい分類と識別作業を支援することができる。 しかし、キーポイント検出ネットワークの教師付きトレーニングでは、動物種ごとに大きな画像データセットをアノテートする必要がある。 ラベル付きデータの必要性を低減するため,ラベル付き画像の小さなセットとラベル付き画像のより大きなセットを用いて,キーポイントのヒートマップと不変キーポイント表現を半教師付きで同時に学習することを提案する。 キーポイント表現は、キーポイント検出ネットワークがデータセット全体で同じキーポイントについて同様の機能を学ぶことを強制する、セマンティックなキーポイント一貫性制約で学習される。 ポーズ不変性は、画像とその拡張コピーのキーポイント表現を特徴空間に近づけることで達成される。 半教師付きアプローチは,人間および動物の身体のランドマークの定位に関するいくつかのベンチマークにおいて,これまでの手法を大きく上回っている。

Knowledge about the locations of keypoints of an object in an image can assist in fine-grained classification and identification tasks, particularly for the case of objects that exhibit large variations in poses that greatly influence their visual appearance, such as wild animals. However, supervised training of a keypoint detection network requires annotating a large image dataset for each animal species, which is a labor-intensive task. To reduce the need for labeled data, we propose to learn simultaneously keypoint heatmaps and pose invariant keypoint representations in a semi-supervised manner using a small set of labeled images along with a larger set of unlabeled images. Keypoint representations are learnt with a semantic keypoint consistency constraint that forces the keypoint detection network to learn similar features for the same keypoint across the dataset. Pose invariance is achieved by making keypoint representations for the image and its augmented copies closer together in feature space. Our semi-supervised approach significantly outperforms previous methods on several benchmarks for human and animal body landmark localization.
翻訳日:2021-03-22 08:07:24 公開日:2021-01-20
# (参考訳) 2次元リアルタイムSLAMと正確な位置推定のための符号付き距離関数の改良 [全文訳有]

Improved Signed Distance Function for 2D Real-time SLAM and Accurate Localization ( http://arxiv.org/abs/2101.08018v1 )

ライセンス: CC BY 4.0
Xingyin Fu, Zheng Fang, Xizhen Xiao, Yijia He, Xiao Liu(参考訳) 正確なマッピングとローカライゼーションは多くの産業ロボティクスアプリケーションにとって非常に重要である。 本稿では,2次元スラムと純粋局所化の両方に対する符号付き距離関数(sdf)の改良を提案し,マッピングと局所化の精度を向上させる。 この目標を達成するため、まず、更新範囲を拡張し、自由空間を構築することで、より正確なSDFマップを構築するためにバックエンドマッピングを改善しました。 次に,レーザスキャナの無作為なアウトレイラを除去し,SDFサブマップに電流スキャンをアライメントする,新たな反復的登録手法を提案する。 第3に、SDFサブマップを全てマージして、高度に正確な純粋ローカライゼーションのための統合SDFマップを作成しました。 実験の結果, 統合sdfマップにより, 地図内で数ミリ (5mm) の局所化精度がグローバルに達成できることがわかった。 本手法は,高位置化精度のシナリオで作業する移動ロボットにとって重要であると考えている。

Accurate mapping and localization are very important for many industrial robotics applications. In this paper, we propose an improved Signed Distance Function (SDF) for both 2D SLAM and pure localization to improve the accuracy of mapping and localization. To achieve this goal, firstly we improved the back-end mapping to build a more accurate SDF map by extending the update range and building free space, etc. Secondly, to get more accurate pose estimation for the front-end, we proposed a new iterative registration method to align the current scan to the SDF submap by removing random outliers of laser scanners. Thirdly, we merged all the SDF submaps to produce an integrated SDF map for highly accurate pure localization. Experimental results show that based on the merged SDF map, a localization accuracy of a few millimeters (5mm) can be achieved globally within the map. We believe that this method is important for mobile robots working in scenarios where high localization accuracy matters.
翻訳日:2021-03-22 07:54:03 公開日:2021-01-20
# (参考訳) タブラルデータに対する逆攻撃:フラッド検出と不均衡データへの応用 [全文訳有]

Adversarial Attacks for Tabular Data: Application to Fraud Detection and Imbalanced Data ( http://arxiv.org/abs/2101.08030v1 )

ライセンス: CC BY 4.0
Francesco Cartella, Orlando Anunciacao, Yuki Funabiki, Daisuke Yamaguchi, Toru Akishita, Olivier Elshocht(参考訳) 取引システムのセキュリティを確保することは、企業をサイバー攻撃や不正な試みから守るために、取引を処理するすべての機関にとって重要な優先事項である。 逆襲(adversarial attack)は、愚かな画像分類モデルに効果があると証明される以外の新しい手法であり、表データにも適用できる。 敵の攻撃は、人工知能(ai)システムが攻撃者にとって有利な不正確な出力を返すように誘導する、わずかに修正された入力を生成することを目的としている。 本稿では,不正検出の文脈において,最先端のアルゴリズムを不均衡な表データに適応させる新しい手法について述べる。 実験結果から,提案手法は攻撃成功率に優れており,人間による解析では認識できない敵の例が得られた。 さらに, 実世界の生産システムに適用する場合, 提案手法は, 高度なaiに基づく不正検出手法の堅牢性に重大な脅威を与える可能性を示す。

Guaranteeing the security of transactional systems is a crucial priority of all institutions that process transactions, in order to protect their businesses against cyberattacks and fraudulent attempts. Adversarial attacks are novel techniques that, other than being proven to be effective to fool image classification models, can also be applied to tabular data. Adversarial attacks aim at producing adversarial examples, in other words, slightly modified inputs that induce the Artificial Intelligence (AI) system to return incorrect outputs that are advantageous for the attacker. In this paper we illustrate a novel approach to modify and adapt state-of-the-art algorithms to imbalanced tabular data, in the context of fraud detection. Experimental results show that the proposed modifications lead to a perfect attack success rate, obtaining adversarial examples that are also less perceptible when analyzed by humans. Moreover, when applied to a real-world production system, the proposed techniques shows the possibility of posing a serious threat to the robustness of advanced AI-based fraud detection procedures.
翻訳日:2021-03-22 07:42:50 公開日:2021-01-20
# (参考訳) 固体酸化物燃料電池の電気化学的インピーダンススペクトルの不確かさの評価 [全文訳有]

Evaluating uncertainties in electrochemical impedance spectra of solid oxide fuel cells ( http://arxiv.org/abs/2101.08049v1 )

ライセンス: CC BY 4.0
Luka \v{Z}nidari\v{c}, Gjorgji Nusev, Bertrand Morel, Julie Mougin, {\DJ}ani Juri\v{c}i\'c and Pavle Bo\v{s}koski(参考訳) 電気化学インピーダンススペクトルは、燃料電池や電気化学変換システムの特性評価に広く用いられている。 フィールド内応用におけるオンラインモニタリングに応用した場合、外乱、ドリフト、センサノイズは評価スペクトル、特に低周波部分において深刻な歪みを引き起こす可能性がある。 ランダムな効果を考慮できないことは、スペクトルの解釈と誤解を招く診断推論の難しさを意味する。 文献では、この事実はほとんど無視されている。 本稿では,等価回路モデル(ecm)パラメータの不確かさを変分ベイズ(vb)法を用いて定量化することにより,スペクトル不確かさを定量化する計算効率の高い手法を提案する。 VB後部推定値の品質を評価するために,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムを用いて得られた値と比較した。 すなわち、MCMCアルゴリズムは正確な後続分布を返すことが期待され、VBアプローチは近似分布を提供する。 シミュレーションと実データを使用することで、vbアプローチが近似を生成することが分かる。 オンラインモニタリングにおけるVB法の大きな利点は計算負荷が低く、MCMCよりも数桁軽くなることである。 VBアルゴリズムの性能は6セル固体酸化物燃料電池スタックにおけるECMパラメータ推定のケースで実証される。 結果を再現するための完全な数値的な実装は、https://repo.ijs.si/ lznidaric/variationa l-bayes-supplementar y- Materialsにある。

Electrochemical impedance spectra is a widely used tool for characterization of fuel cells and electrochemical conversion systems in general. When applied to the on-line monitoring in context of in-field applications, the disturbances, drifts and sensor noise may cause severe distortions in the evaluated spectra, especially in the low-frequency part. Failure to account for the random effects can implicate difficulties in interpreting the spectra and misleading diagnostic reasoning. In the literature, this fact has been largely ignored. In this paper, we propose a computationally efficient approach to the quantification of the spectral uncertainty by quantifying the uncertainty of the equivalent circuit model (ECM) parameters by means of the Variational Bayes (VB) approach. To assess the quality of the VB posterior estimates, we compare the results of VB approach with those obtained with the Markov Chain Monte Carlo (MCMC) algorithm. Namely, MCMC algorithm is expected to return accurate posterior distributions, while VB approach provides the approximative distributions. By using simulated and real data we show that VB approach generates approximations, which although slightly over-optimistic, are still pretty close to the more realistic MCMC estimates. A great advantage of the VB method for online monitoring is low computational load, which is several orders of magnitude lighter than that of MCMC. The performance of VB algorithm is demonstrated on a case of ECM parameters estimation in a 6 cell solid-oxide fuel cell stack. The complete numerical implementation for recreating the results can be found at https://repo.ijs.si/ lznidaric/variationa l-bayes-supplementar y-material.
翻訳日:2021-03-22 07:05:32 公開日:2021-01-20
# (参考訳) 飛行MRAにおける構造的類似性損失を有する変分オートエンコーダ [全文訳有]

Variational Autoencoders with a Structural Similarity Loss in Time of Flight MRAs ( http://arxiv.org/abs/2101.08052v1 )

ライセンス: CC BY 4.0
Kimberley M. Timmins, Irene C. van der Schaaf, Ynte M. Ruigrok, Birgitta K. Velthuis, Hugo J. Kuijf(参考訳) 飛行時磁気共鳴血管造影(TOF-MRA)は脳動脈の可視化と解析を可能にする。 この分析は脳血管系や動脈瘤などの血管異常の正常な変化を示す可能性がある。 モデルは正常な脳血管構造と健康な集団の変動を表現し、異常と区別するのに有用である。 自動符号化畳み込みニューラルネットワークを用いた現在の異常検出は通常、最適化にvoxelwise平均エラーを使用する。 toF-MRA再構成のための構造類似性損失(SSIM)を用いた変分オートコーダ(VAE)の最適化を提案する。 パッチをトレーニングした2D完全畳み込み型VAEをTOF-MRA再建に最適化した。 この方法は、IXIデータセットとADAMチャレンジのサブセットの2つのデータセットでトレーニングされ、テストされた。 両方のトレーニングされたネットワークは、動脈瘤患者を含むデータセット上でテストされた。 VAE最適化をL2-lossとSSIM-lossと比較した。 平均二乗誤差, 平均SSIM, ピーク信号-雑音比, ダイス類似度指数 (DSI) を用いて, 元のMRAと再建したMRAの性能評価を行った。 L2最適化されたVAEはSSIMよりも優れており、再構築メトリクスと両方のデータセットのDSIが改善されている。 SSIMを用いた最適化は, 画像品質に最適であったが, 定量的再構成と血管分節の相違が認められた。 より大きく、より多様なIXIデータセットは、全体的なパフォーマンスが向上した。 SSIMを含む再建指標は,大動脈瘤を含むMRAでは低値であった。 SSIMを最適化したVAEは、TOF-MRA再構成の視覚知覚画質を改善した。 血管セグメンテーションが重要であるTOF-MRA再建には,L2最適化VAEが有効であった。 SSIMは、MRAの異常検出の潜在的な指標である。

Time-of-Flight Magnetic Resonance Angiographs (TOF-MRAs) enable visualization and analysis of cerebral arteries. This analysis may indicate normal variation of the configuration of the cerebrovascular system or vessel abnormalities, such as aneurysms. A model would be useful to represent normal cerebrovascular structure and variabilities in a healthy population and to differentiate from abnormalities. Current anomaly detection using autoencoding convolutional neural networks usually use a voxelwise mean-error for optimization. We propose optimizing a variational-autoenco der (VAE) with structural similarity loss (SSIM) for TOF-MRA reconstruction. A patch-trained 2D fully-convolutional VAE was optimized for TOF-MRA reconstruction by comparing vessel segmentations of original and reconstructed MRAs. The method was trained and tested on two datasets: the IXI dataset, and a subset from the ADAM challenge. Both trained networks were tested on a dataset including subjects with aneurysms. We compared VAE optimization with L2-loss and SSIM-loss. Performance was evaluated between original and reconstructed MRAs using mean square error, mean-SSIM, peak-signal-to-noise -ratio and dice similarity index (DSI) of segmented vessels. The L2-optimized VAE outperforms SSIM, with improved reconstruction metrics and DSIs for both datasets. Optimization using SSIM performed best for visual image quality, but with discrepancy in quantitative reconstruction and vascular segmentation. The larger, more diverse IXI dataset had overall better performance. Reconstruction metrics, including SSIM, were lower for MRAs including aneurysms. A SSIM-optimized VAE improved the visual perceptive image quality of TOF-MRA reconstructions. A L2-optimized VAE performed best for TOF-MRA reconstruction, where the vascular segmentation is important. SSIM is a potential metric for anomaly detection of MRAs.
翻訳日:2021-03-22 06:47:18 公開日:2021-01-20
# (参考訳) 深部強化学習による固定翼UAVの動的スクワッドとの衝突回避 [全文訳有]

Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using Deep Reinforcement Learning ( http://arxiv.org/abs/2101.08074v1 )

ライセンス: CC BY 4.0
Chao Yan, Xiaojia Xiang, Chang Wang, Zhen Lan(参考訳) 固定翼uavの動的スクワッドに対する衝突のない群集挙動の開発は、運動の複雑さと環境の不確実性のために依然として課題である。 本稿では、深層強化学習(DRL)を通して、分散化リーダ・フォロワー・フラッキング制御問題に対処する。 具体的には、衝突回避機構をフロッキングコントローラに統合する、各追従者の視点から、分散DRLに基づく意思決定フレームワークを定式化する。 そこで我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。 さらに、畳み込みニューラルネットワークとアテンション機構に基づくプラグインn-play埋め込みモジュールを設計する。 その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。 最後に, 数値シミュレーションの結果から提案手法の有効性が示され, パラメータの微調整なしに, 学習方針を直接半物理シミュレーションに転送することができる。

Developing the collision-free flocking behavior for a dynamic squad of fixed-wing UAVs is still a challenge due to kinematic complexity and environmental uncertainty. In this paper, we deal with the decentralized leader-follower flocking control problem through deep reinforcement learning (DRL). Specifically, we formulate a decentralized DRL-based decision making framework from the perspective of every follower, where a collision avoidance mechanism is integrated into the flocking controller. Then, we propose a novel reinforcement learning algorithm CACER-II for training a shared control policy for all the followers. Besides, we design a plug-n-play embedding module based on convolutional neural networks and the attention mechanism. As a result, the variable-length system state can be encoded into a fixed-length embedding vector, which makes the learned DRL policies independent with the number or the order of followers. Finally, numerical simulation results demonstrate the effectiveness of the proposed method, and the learned policies can be directly transferred to semiphysical simulation without any parameter finetuning.
翻訳日:2021-03-22 06:40:00 公開日:2021-01-20
# (参考訳) 効果とハンドラーによる自動微分:Frankによる実装 [全文訳有]

Automatic Differentiation via Effects and Handlers: An Implementation in Frank ( http://arxiv.org/abs/2101.08095v1 )

ライセンス: CC BY 4.0
Jesse Sigal(参考訳) 自動微分(AD)は微分に基づく最適化を実現するアルゴリズムの重要なファミリーである。 我々は、Frank言語で実施することで、ADをエフェクトとハンドラで簡単に実装できることを示します。 実装がFrankのオペレーションセマンティクスでどのように振る舞うかを考慮し、評価中にプログラムを動的に生成する方法を示します。

Automatic differentiation (AD) is an important family of algorithms which enables derivative based optimization. We show that AD can be simply implemented with effects and handlers by doing so in the Frank language. By considering how our implementation behaves in Frank's operational semantics, we show how our code performs the dynamic creation of programs during evaluation.
翻訳日:2021-03-22 06:18:01 公開日:2021-01-20
# (参考訳) 格子場理論のための正規化フロー入門

Introduction to Normalizing Flows for Lattice Field Theory ( http://arxiv.org/abs/2101.08176v1 )

ライセンス: CC BY 4.0
Michael S. Albergo, Denis Boyda, Daniel C. Hackett, Gurtej Kanwar, Kyle Cranmer, S\'ebastien Racani\`ere, Danilo Jimenez Rezende, Phiala E. Shanahan(参考訳) 本チュートリアルでは,正規化フローとして知られる機械学習モデルのクラスを用いて,格子場理論のボルツマン分布をサンプリングする方法を示す。 arXiv:1904.12072, arXiv:2002.02428, arXiv:2003.06413で提案された考え方とアプローチを概観し, 具体的な実装について述べる。 この枠組みを格子スカラー場理論およびU(1)ゲージ理論に適用し、後者へのフローベースアプローチにおいてゲージ対称性を明示的に符号化する。 このプレゼンテーションはインタラクティブで、付属のjupyterノートブックで作業することが推奨されている。

This notebook tutorial demonstrates a method for sampling Boltzmann distributions of lattice field theories using a class of machine learning models known as normalizing flows. The ideas and approaches proposed in arXiv:1904.12072, arXiv:2002.02428, and arXiv:2003.06413 are reviewed and a concrete implementation of the framework is presented. We apply this framework to a lattice scalar field theory and to U(1) gauge theory, explicitly encoding gauge symmetries in the flow-based approach to the latter. This presentation is intended to be interactive and working with the attached Jupyter notebook is recommended.
翻訳日:2021-03-22 05:20:26 公開日:2021-01-20
# (参考訳) secureTF: セキュアなTensorFlowフレームワーク [全文訳有]

secureTF: A Secure TensorFlow Framework ( http://arxiv.org/abs/2101.08204v1 )

ライセンス: CC BY 4.0
Do Le Quoc, Franz Gregor, Sergei Arnautov, Roland Kunkel, Pramod Bhatotia, Christof Fetzer(参考訳) 現代のオンラインサービスにおけるデータ駆動型インテリジェントアプリケーションは、ユビキタスになりつつある。 これらのアプリケーションは、通常、信頼できないクラウドコンピューティングインフラストラクチャにホストされる。 これらのアプリケーションは、プライベートでセンシティブな情報を含む可能性のある大規模データセットに機械学習アルゴリズムを適用することに依存しているため、大きなセキュリティリスクをもたらす。 この課題に対処するため、信頼できないクラウドインフラストラクチャ向けにTensorflowをベースとした分散セキュア機械学習フレームワークであるSecureTFを設計しました。 secureTFは、未修正のTensorFlowアプリケーションをサポートする汎用プラットフォームであり、入力データ、MLモデル、アプリケーションコードのエンドツーエンドセキュリティを提供する。 securetfはtrusted execution environment(tees)が提供するセキュリティプロパティに基づいて構築されている。 しかし、単一のノードTEEによって提供される揮発性メモリ領域(あるいはセキュアなエンクレーブ)の信頼性を拡張して、クラウド上で動作する無修正のステートフル機械学習アプリケーションをサポートするために必要な分散インフラストラクチャを確保する。 本稿では,システム設計の選択と本番環境でのシステム配置に関する経験について報告する。 最後に,当社の商用プラットフォームの限界から学んだ教訓をまとめ,今後の課題としてオープンリサーチの課題について論じる。

Data-driven intelligent applications in modern online services have become ubiquitous. These applications are usually hosted in the untrusted cloud computing infrastructure. This poses significant security risks since these applications rely on applying machine learning algorithms on large datasets which may contain private and sensitive information. To tackle this challenge, we designed secureTF, a distributed secure machine learning framework based on Tensorflow for the untrusted cloud infrastructure. secureTF is a generic platform to support unmodified TensorFlow applications, while providing end-to-end security for the input data, ML model, and application code. secureTF is built from ground-up based on the security properties provided by Trusted Execution Environments (TEEs). However, it extends the trust of a volatile memory region (or secure enclave) provided by the single node TEE to secure a distributed infrastructure required for supporting unmodified stateful machine learning applications running in the cloud. The paper reports on our experiences about the system design choices and the system deployment in production use-cases. We conclude with the lessons learned based on the limitations of our commercially available platform, and discuss open research problems for the future work.
翻訳日:2021-03-22 05:19:07 公開日:2021-01-20
# (参考訳) 確率的太陽エネルギー予測:長期短期記憶ネットワークとより単純なアプローチ [全文訳有]

Probabilistic Solar Power Forecasting: Long Short-Term Memory Network vs Simpler Approaches ( http://arxiv.org/abs/2101.08236v1 )

ライセンス: CC BY 4.0
Vinayak Sharma, Jorge Angel Gonzalez Ordiano, Ralf Mikut, Umit Cali(参考訳) 太陽電池などの揮発性再生可能エネルギー源の高度浸透は、それらにかかわる不確実性に対処するための方法である。 確率予測はこれらの手法の例であり、将来の発電の不確実性に関する情報を提供することでエネルギープランナーを意思決定プロセスで支援する。 現在、深層学習確率予測手法の利用に向けた傾向がある。 しかし、より複雑なディープラーニング手法がより単純なアプローチよりも好まれるべき点はまだ明らかではない。 そこで、本論文では、長期記憶ニューラルネットワークと他のより単純なアプローチとの簡易な比較を行う。 比較は、太陽光発電システムの1日当たりの確率予測を提供する訓練モデルと比較モデルから成り立っている。 さらに,本論文では,Global Energy Forecasting Competition of 2014 (GEFCom14)で提供されるオープンソースデータセットを活用している。

The high penetration of volatile renewable energy sources such as solar make methods for coping with the uncertainty associated with them of paramount importance. Probabilistic forecasts are an example of these methods, as they assist energy planners in their decision-making process by providing them with information about the uncertainty of future power generation. Currently, there is a trend towards the use of deep learning probabilistic forecasting methods. However, the point at which the more complex deep learning methods should be preferred over more simple approaches is not yet clear. Therefore, the current article presents a simple comparison between a long short-term memory neural network and other more simple approaches. The comparison consists of training and comparing models able to provide one-day-ahead probabilistic forecasts for a solar power system. Moreover, the current paper makes use of an open-source dataset provided during the Global Energy Forecasting Competition of 2014 (GEFCom14).
翻訳日:2021-03-22 04:29:12 公開日:2021-01-20
# (参考訳) radar: リアルタイムの対向的重み攻撃検出と精度回復 [全文訳有]

RADAR: Run-time Adversarial Weight Attack Detection and Accuracy Recovery ( http://arxiv.org/abs/2101.08254v1 )

ライセンス: CC BY 4.0
Jingtao Li, Adnan Siraj Rakin, Zhezhi He, Deliang Fan, Chaitali Chakrabarti(参考訳) プログレッシブビットフリップ攻撃(PBFA)のようなニューラルネットワークの重みに対する敵対的攻撃は、非常に少数のビットを反転させることで、精度が壊滅的に低下する。 さらに、PBFAは、DRAMメインメモリに格納された重みに基づいて実行時に行うことができる。 本研究では,PBFAに対するDNN重み保護のためのリアルタイム対向重み検出・精度回復手法であるRADARを提案する。 重みを層に挟む重みをグループに整理し,重みのチェックサムに基づくアルゴリズムを用いて各グループの2ビットシグネチャを導出する。 実行時に、2ビットのシグネチャを計算し、セキュアに保存されたゴールデンシグネチャと比較して、グループ内のビットフリップ攻撃を検出する。 検出に成功した後、悪意のあるビットフリップによる精度低下を軽減するために、グループ内のすべての重みをゼロにする。 提案手法は推論計算段階に組み込まれている。 resnet-18イメージネットモデルでは、平均10ビット中9.6ビットフリップを検出できる。 このモデルでは、10ビットのフリップによる精度を1%以下から69%以上まで回復することができる。 提案手法は, 時間とストレージのオーバーヘッドが極めて低い。 gem5のシステムレベルでのシミュレーションでは、RADARは推論時間に1%しか追加せず、このスキームは実行時の攻撃検出と緩和に非常に適している。

Adversarial attacks on Neural Network weights, such as the progressive bit-flip attack (PBFA), can cause a catastrophic degradation in accuracy by flipping a very small number of bits. Furthermore, PBFA can be conducted at run time on the weights stored in DRAM main memory. In this work, we propose RADAR, a Run-time adversarial weight Attack Detection and Accuracy Recovery scheme to protect DNN weights against PBFA. We organize weights that are interspersed in a layer into groups and employ a checksum-based algorithm on weights to derive a 2-bit signature for each group. At run time, the 2-bit signature is computed and compared with the securely stored golden signature to detect the bit-flip attacks in a group. After successful detection, we zero out all the weights in a group to mitigate the accuracy drop caused by malicious bit-flips. The proposed scheme is embedded in the inference computation stage. For the ResNet-18 ImageNet model, our method can detect 9.6 bit-flips out of 10 on average. For this model, the proposed accuracy recovery scheme can restore the accuracy from below 1% caused by 10 bit flips to above 69%. The proposed method has extremely low time and storage overhead. System-level simulation on gem5 shows that RADAR only adds <1% to the inference time, making this scheme highly suitable for run-time attack detection and mitigation.
翻訳日:2021-03-22 04:22:48 公開日:2021-01-20
# (参考訳) パズルを認識・配置するraspberry piベースのインテリジェントロボット [全文訳有]

Raspberry Pi Based Intelligent Robot that Recognizes and Places Puzzle Objects ( http://arxiv.org/abs/2101.12584v1 )

ライセンス: CC BY 4.0
Yakup Kutlu, Z\"ulf\"u Alanoglu, Ahmet G\"ok\c{c}en, Mustafa Yeniad(参考訳) 本研究では,心不全(chf)患者を診断するために,256hzのサンプル周波数から得られた非線形2次差分プロット(sodp)と,心電図記録の時間が異なるウィンドウ記録を用いた。 すべてのデータ行は、よりリアルに分類するために、その持ち物にラベル付けされます。 sodpは四分域の異なる半径に分割され、四分域の点の数は特徴ベクトルを抽出するために計算される。 フィッシャーの線形判別器、ナイーブベイ、ニューラルネットワークは分類器として用いられる。 結果は, 一般kfoldクロスバリデーションと患者ベースクロスバリデーションの2つのステップ検証法で検討された。 その結果,SODPから得られる特徴を持つニューラルネットワーク分類器を用いて,正常患者とCHF患者を100%精度で識別できることが示唆された。

In this study; in order to diagnose congestive heart failure (CHF) patients, non-linear secondorder difference plot (SODP) obtained from raw 256 Hz sampled frequency and windowed record with different time of ECG records are used. All of the data rows are labelled with their belongings to classify much more realistically. SODPs are divided into different radius of quadrant regions and numbers of the points fall in the quadrants are computed in order to extract feature vectors. Fisher's linear discriminant, Naive Bayes, and artificial neural network are used as classifier. The results are considered in two step validation methods as general kfold cross-validation and patient based cross-validation. As a result, it is shown that using neural network classifier with features obtained from SODP, the constructed system could distinguish normal and CHF patients with 100% accuracy rate.
翻訳日:2021-03-22 04:08:46 公開日:2021-01-20
# (参考訳) hilbert-huang変換を用いた気管支喘息の診断と肺音の深層学習 [全文訳有]

The Diagnosis of Asthma using Hilbert-Huang Transform and Deep Learning on Lung Sounds ( http://arxiv.org/abs/2101.08288v1 )

ライセンス: CC BY 4.0
G\"okhan Altan, Yakup Kutlu, Adnan \"Ozhan Pekmezci, Serkan Nural(参考訳) 肺吸入時の気道からの音と聴診器による呼気を用いて様々な呼吸障害を診断するための最も効果的かつ必要不可欠な方法である。 本研究では,Hilbert Huang Transformを胸部および背部の12種類の聴診領域から肺音に適用することにより抽出した内在モード関数から統計的特徴を算出した。 喘息および健常者からの肺音の分類はDeep Belief Networks (DBN)を用いて行う。 2つの隠蔽層を持つDBN分類器モデルを5倍のクロスバリデーション法を用いて検証した。 提案したDBNは, 総精度, 感度, 選択性について, 高分類率84.61%, 85.83%, 77.11%の喘息患者と健常者とをそれぞれ周波数時間分析により分離した。

Lung auscultation is the most effective and indispensable method for diagnosing various respiratory disorders by using the sounds from the airways during inspirium and exhalation using a stethoscope. In this study, the statistical features are calculated from intrinsic mode functions that are extracted by applying the HilbertHuang Transform to the lung sounds from 12 different auscultation regions on the chest and back. The classification of the lung sounds from asthma and healthy subjects is performed using Deep Belief Networks (DBN). The DBN classifier model with two hidden layers has been tested using 5-fold cross validation method. The proposed DBN separated lung sounds from asthmatic and healthy subjects with high classification performance rates of 84.61%, 85.83%, and 77.11% for overall accuracy, sensitivity, and selectivity, respectively using frequencytime analysis.
翻訳日:2021-03-22 03:50:45 公開日:2021-01-20
# (参考訳) IPカメラを用いたAndroid制御移動ロボットの設計 [全文訳有]

Android Controlled Mobile Robot Design with IP Camera ( http://arxiv.org/abs/2102.01511v1 )

ライセンス: CC BY 4.0
Emre Demir, Ahmet Gokcen, Yakup Kutlu(参考訳) 本研究では,Arduinoカードを用いた移動ロボットの設計を実現する。 セキュリティロボット、補助ロボット、または制御ロボットとして機能することができる。 ロボットには2つの操作モードがある。 最初の操作モードは自律モードである。 このモードでは、ロボットは超音波センサーの助けを借りて周囲を検知し、エンコーダを使って通過する場所を追跡する。 任意の場所にぶつかって通り抜けることなくナビゲートでき、その上に設置された他のシステムによって患者の脈拍と温度条件をユーザーに送信する。 また、ipカメラが画面上のシーンを送信する。 患者の隣に置かれる緊急ボタンは、緊急時に利用者に情報を送信する。 温度とパルスで再び異常が検出されると、ユーザーはメッセージを送る。 記録済みの薬物使用時間が来たら、システムは患者に警告する。 第2モードは手動モードである。 このモードでは、ユーザはAndroidオペレーティングシステムでロボットの所望の方向を移動することができる。 さらに、自律モードで受信されたすべてのデータは、ユーザに送信することができる。 これにより、ユーザは、ロボットの近傍になくても、カメラ画像で移動ロボットを制御することができる。

In this study Arduino card based mobile robot design was realized. This robot can serve as a security robot, an auxiliary robot or a control robot. The designed robot has two operation modes. The first operating mode is autonomous mode. In this mode, the robot detects the surroundings with the help of ultrasonic sensors placed around it, and keeps track of the places it passes by using the encoder. It is able to navigate without hitting any place and passing from where it passes, and it transmits the patient's pulse and temperature condition to the user by other systems installed on it. Also the IP camera sends the scene on the screen. The emergency button to be placed next to the patient sends information to the user in emergency situations. If the abnormality is detected in the temperature and pulse again, the user gives a message. When the pre-recorded drug use times come, the system can alert the patient. The second mode is manual mode. In this mode, the user can move the desired direction of the robot with the Android operating system. In addition, all data received in autonomous mode can be sent to the user. Thus, the user can control the mobile robot with the camera image even if it is not in the vicinity of the robot.
翻訳日:2021-03-22 03:13:41 公開日:2021-01-20
# (参考訳) 完全畳み込みネットワークを用いた手書き文書画像のテキスト行分割 [全文訳有]

Text Line Segmentation for Challenging Handwritten Document Images Using Fully Convolutional Network ( http://arxiv.org/abs/2101.08299v1 )

ライセンス: CC BY 4.0
Berat Barakat, Ahmad Droby, Majeed Kassis and Jihad El-Sana(参考訳) 本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。 これらの原稿画像は、触覚成分、母音記号の相互接続、フォントタイプとサイズが一致しない狭いインターライン空間を含んでいる。 さらに、複雑なページレイアウト内に、カーブ、マルチスキュー、複数方向のサイドノート行を含む。 したがって、バウンディングポリゴンラベリングは非常に困難で時間がかかります。 代わりに、同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。 そして、これらラインマスクを完全畳み込みネットワーク(fcn)を用いて予測する。 文献では、FCNは通常の手書き文書画像のテキスト行のセグメンテーションに成功している。 本論文は,FCNが原稿画像の難読化にも有用であることを示す。 セグメンテーションやセグメンテーションに敏感な新しい評価指標を使用することで、公開に挑戦的な手書きデータセットのテスト結果は、同じデータセットに関する以前の作業の結果と同等になる。

This paper presents a method for text line segmentation of challenging historical manuscript images. These manuscript images contain narrow interline spaces with touching components, interpenetrating vowel signs and inconsistent font types and sizes. In addition, they contain curved, multi-skewed and multi-directed side note lines within a complex page layout. Therefore, bounding polygon labeling would be very difficult and time consuming. Instead we rely on line masks that connect the components on the same text line. Then these line masks are predicted using a Fully Convolutional Network (FCN). In the literature, FCN has been successfully used for text line segmentation of regular handwritten document images. The present paper shows that FCN is useful with challenging manuscript images as well. Using a new evaluation metric that is sensitive to over segmentation as well as under segmentation, testing results on a publicly available challenging handwritten dataset are comparable with the results of a previous work on the same dataset.
翻訳日:2021-03-22 03:00:04 公開日:2021-01-20
# (参考訳) 美学・パーソナライズ・レコメンデーション:ファッションにおける深層学習に関する調査

Aesthetics, Personalization and Recommendation: A survey on Deep Learning in Fashion ( http://arxiv.org/abs/2101.08301v1 )

ライセンス: CC0 1.0
Wei Gong, Laila Khalid(参考訳) 機械学習はファッション業界のトレンドを完全に変えつつある。 大企業から小規模企業まで、あらゆるブランドが機械学習技術を使って収益を上げ、顧客を増やし、トレンドを先取りしている。 人々はファッションに没頭し、何がベストか、どのようにスタイルを改善し、個性を向上できるかを知りたがっています。 ディープラーニング技術を使用し、コンピュータビジョン技術を使ってそれを活用することで、脳にインスパイアされたディープネットワークを利用し、神経美学に関わり、ganと協力し、トレーニングを行い、非構造化データで遊んだり、トランスフォーマーアーキテクチャーを悪用することは、ファッションドメインで触れられるようなハイライトにすぎない。 それは、ますます増加する需要に対応して、ファッションの側面に関する情報を教えてくれるシステムの設計に関するものだ。 パーソナライゼーション(パーソナライゼーション)は、顧客の消費選択に影響を与える大きな要因であり、この調査は、視覚データを解釈し、異なるモデルやアプローチに活用する方法を深く掘り下げることで、その課題を包含する顕著なアプローチも示している。 美学は衣服の推奨において重要な役割を担っており、利用者の判断は衣服が美学と一致しているかどうかに大きく依存するが、従来のイメージは直接これを描写することはできない。 この調査はまた、美学をアパレル推奨の重要な要素として認識する必要性を満たすために、テンソルファクタライゼーションモデルや条件付きランダムフィールドモデルなど、注目すべきモデルも強調している。これらのaiにインスパイアされた深層モデルは、顧客と最も共鳴する特定のスタイルを正確に特定することができ、新しいデザインがコミュニティとどのように結びつくかを理解することができる。 AIと機械学習によって、企業はファッショントレンドに先んじることができる。

Machine learning is completely changing the trends in the fashion industry. From big to small every brand is using machine learning techniques in order to improve their revenue, increase customers and stay ahead of the trend. People are into fashion and they want to know what looks best and how they can improve their style and elevate their personality. Using Deep learning technology and infusing it with Computer Vision techniques one can do so by utilizing Brain-inspired Deep Networks, and engaging into Neuroaesthetics, working with GANs and Training them, playing around with Unstructured Data,and infusing the transformer architecture are just some highlights which can be touched with the Fashion domain. Its all about designing a system that can tell us information regarding the fashion aspect that can come in handy with the ever growing demand. Personalization is a big factor that impacts the spending choices of customers.The survey also shows remarkable approaches that encroach the subject of achieving that by divulging deep into how visual data can be interpreted and leveraged into different models and approaches. Aesthetics play a vital role in clothing recommendation as users' decision depends largely on whether the clothing is in line with their aesthetics, however the conventional image features cannot portray this directly. For that the survey also highlights remarkable models like tensor factorization model, conditional random field model among others to cater the need to acknowledge aesthetics as an important factor in Apparel recommendation.These AI inspired deep models can pinpoint exactly which certain style resonates best with their customers and they can have an understanding of how the new designs will set in with the community. With AI and machine learning your businesses can stay ahead of the fashion trends.
翻訳日:2021-03-22 02:50:37 公開日:2021-01-20
# (参考訳) 最小トレーニングセットに基づく胸部x線肺と心臓分画 [全文訳有]

Chest X-ray lung and heart segmentation based on minimal training sets ( http://arxiv.org/abs/2101.08309v1 )

ライセンス: CC BY 4.0
Bal\'azs Maga(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中の医師の過剰な労働負荷を増大させ、医療画像解析におけるコンピュータ支援手法の需要はさらに増加した。 このようなツールは、より堅牢な診断パイプラインをもたらす可能性がある。 本稿では,Attention BCDU-Netと呼ぶディープニューラルネットワークを提案し,胸部X線(CXR)画像から肺と心臓のセグメンテーションのタスクに適用する。 また,日本放射線工学会(jsrt)のデータセットでは,この微調整モデルが先行研究結果の98.1\pm 0.1\%$ diceスコアと95.2\pm 0.1\%$ iouスコアを上回った。 さらに、Diceスコアでは9.7.0\pm 0.8\%$と9.3\pm 0.5$、IoUスコアでは9.2\pm 1.2\%$と9.3\pm 0.4\%$である。 これらのスコアを達成するために、ミキサアップ強化技術を利用して、サイズ10のセットアップで4\%以上のIoUスコアを得る。

As the COVID-19 pandemic aggravated the excessive workload of doctors globally, the demand for computer aided methods in medical imaging analysis increased even further. Such tools can result in more robust diagnostic pipelines which are less prone to human errors. In our paper, we present a deep neural network to which we refer to as Attention BCDU-Net, and apply it to the task of lung and heart segmentation from chest X-ray (CXR) images, a basic but ardous step in the diagnostic pipeline, for instance for the detection of cardiomegaly. We show that the fine-tuned model exceeds previous state-of-the-art results, reaching $98.1\pm 0.1\%$ Dice score and $95.2\pm 0.1\%$ IoU score on the dataset of Japanese Society of Radiological Technology (JSRT). Besides that, we demonstrate the relative simplicity of the task by attaining surprisingly strong results with training sets of size 10 and 20: in terms of Dice score, $97.0\pm 0.8\%$ and $97.3\pm 0.5$, respectively, while in terms of IoU score, $92.2\pm 1.2\%$ and $93.3\pm 0.4\%$, respectively. To achieve these scores, we capitalize on the mixup augmentation technique, which yields a remarkable gain above $4\%$ IoU score in the size 10 setup.
翻訳日:2021-03-22 02:49:21 公開日:2021-01-20
# (参考訳) 画像分割のための非パラメトリッククラスタリング [全文訳有]

Nonparametric clustering for image segmentation ( http://arxiv.org/abs/2101.08345v1 )

ライセンス: CC BY 4.0
Giovanna Menardi(参考訳) 画像セグメント化は、画像内の関心領域を特定することを目的として、その特性に応じてピクセルをグループ化する。 このタスクはクラスタリングの統計的手法に似ているが、多くの標準的なクラスタリング手法は画像分割の基本的な要件を満たしていない。 非パラメトリッククラスタリングは原則としてこれらの制限から解放されており、画像セグメンテーションのタスクに特に適していることがわかった。 これはまた、トポロジカルなデータ分析や空間的テッセレーションを両方のフレームワークで活用するなど、いくつかの運用上の類似点によっても見られる。 画像分割への非パラメトリッククラスタリングの適用について検討し,このタスクに特有のアルゴリズムを提供する。 画素の類似性を色表現の密度の観点から評価し、画素の隣接構造を用いて画像セグメントを断続高密度領域として識別する簡易かつ効果的な方法を導入する。 提案手法は,画像のセグメント化と境界検出の両方に有効であり,しきい値の分類のカラー画像の一般化と見なすことができる。

Image segmentation aims at identifying regions of interest within an image, by grouping pixels according to their properties. This task resembles the statistical one of clustering, yet many standard clustering methods fail to meet the basic requirements of image segmentation: segment shapes are often biased toward predetermined shapes and their number is rarely determined automatically. Nonparametric clustering is, in principle, free from these limitations and turns out to be particularly suitable for the task of image segmentation. This is also witnessed by several operational analogies, as, for instance, the resort to topological data analysis and spatial tessellation in both the frameworks. We discuss the application of nonparametric clustering to image segmentation and provide an algorithm specific for this task. Pixel similarity is evaluated in terms of density of the color representation and the adjacency structure of the pixels is exploited to introduce a simple, yet effective method to identify image segments as disconnected high-density regions. The proposed method works both to segment an image and to detect its boundaries and can be seen as a generalization to color images of the class of thresholding methods.
翻訳日:2021-03-22 02:39:59 公開日:2021-01-20
# (参考訳) 深く行く必要があるのか? ビッグデータを用いた知識追跡 [全文訳有]

Do we need to go Deep? Knowledge Tracing with Big Data ( http://arxiv.org/abs/2101.08349v1 )

ライセンス: CC BY 4.0
Varun Mandalapu, Jiaqi Gong and Lujie Chen(参考訳) インタラクティブ教育システム(IES)により、研究者は異なるスキルの学生の知識を追跡でき、より良い学習パスを推奨できる。 学生の知識を推定し,さらにパフォーマンスを予測するために,iesが取得した学生インタラクションデータを活用した学習者パフォーマンスモデルの開発に関心が急速に高まっている。 さらに、コンピュータシステムの進歩に伴い、これらのiesシステムが取得するデータ量も増加し、ディープラーニングモデルが従来のロジスティックモデルやマルコフプロセスと競合するようになっている。 しかし、これらの深層モデルが、何百万もの学生の相互作用を持つデータセットの現在のスケールで従来のモデルを上回るかどうかは、まだ実証的に明らかではない。 本研究では,教育領域で公開されている最大規模の学生インタラクションデータセットであるednetを採用し,深層モデルと伝統的モデルの両方が将来の学生パフォーマンスをいかに正確に予測できるかを理解する。 我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。 この分析は,局所的に解釈可能なモデルに依存しない説明法(LIME)に基づく解釈研究を用いて,様々な特徴が最高のモデル予測に与える影響を理解する。

Interactive Educational Systems (IES) enabled researchers to trace student knowledge in different skills and provide recommendations for a better learning path. To estimate the student knowledge and further predict their future performance, the interest in utilizing the student interaction data captured by IES to develop learner performance models is increasing rapidly. Moreover, with the advances in computing systems, the amount of data captured by these IES systems is also increasing that enables deep learning models to compete with traditional logistic models and Markov processes. However, it is still not empirically evident if these deep models outperform traditional models on the current scale of datasets with millions of student interactions. In this work, we adopt EdNet, the largest student interaction dataset publicly available in the education domain, to understand how accurately both deep and traditional models predict future student performances. Our work observes that logistic regression models with carefully engineered features outperformed deep models from extensive experimentation. We follow this analysis with interpretation studies based on Locally Interpretable Model-agnostic Explanation (LIME) to understand the impact of various features on best performing model pre-dictions.
翻訳日:2021-03-22 01:58:40 公開日:2021-01-20
# (参考訳) 探索的アラビア語攻撃言語データセット解析

Exploratory Arabic Offensive Language Dataset Analysis ( http://arxiv.org/abs/2101.11434v1 )

ライセンス: CC BY 4.0
Fatemah Husain and Ozlem Uzuner(参考訳) 本稿では、アラビア語攻撃言語研究で使用されるリソースとデータセットについて、さらに洞察を加える。 本研究の目的は, アラビア語攻撃的言語の研究者が, その内容に基づいて適切なデータセットを選択し, 利用可能なデータセットをサポートし補完するための新しいアラビア語攻撃的言語リソースを作成することにある。

This paper adding more insights towards resources and datasets used in Arabic offensive language research. The main goal of this paper is to guide researchers in Arabic offensive language in selecting appropriate datasets based on their content, and in creating new Arabic offensive language resources to support and complement the available ones.
翻訳日:2021-03-22 01:46:26 公開日:2021-01-20
# 制約ベイズ最適化のための知識勾配に基づく新しい手法

A New Knowledge Gradient-based Method for Constrained Bayesian Optimization ( http://arxiv.org/abs/2101.08743v1 )

ライセンス: Link先を確認
Wenjie Chen, Shengcai Liu, and Ke Tang(参考訳) ブラックボックス問題は、構造設計、薬物実験、機械学習のような実生活で一般的である。 ブラックボックスシステムを最適化する場合、意思決定者は常に複数のパフォーマンスを検討し、包括的な評価によって最終決定を行う。 このような実用的なニーズに動機づけられ、目的と制約が既知の特別な構造を欠いている制約付きブラックボックス問題に焦点をあて、評価は高価であり、ノイズもある。 我々は知識勾配法(c-\rm{kg}$)に基づく新しい制約ベイズ最適化手法を開発した。 最適性と実現可能性を考慮したサンプルの次のバッチを決定するために,新たな取得関数を提案する。 新しい取得関数の勾配のバイアスのない推定器は、$c-\rm{KG}$アプローチを実装するために導かれる。

Black-box problems are common in real life like structural design, drug experiments, and machine learning. When optimizing black-box systems, decision-makers always consider multiple performances and give the final decision by comprehensive evaluations. Motivated by such practical needs, we focus on constrained black-box problems where the objective and constraints lack known special structure, and evaluations are expensive and even with noise. We develop a novel constrained Bayesian optimization approach based on the knowledge gradient method ($c-\rm{KG}$). A new acquisition function is proposed to determine the next batch of samples considering optimality and feasibility. An unbiased estimator of the gradient of the new acquisition function is derived to implement the $c-\rm{KG}$ approach.
翻訳日:2021-03-22 01:37:11 公開日:2021-01-20
# IntentNet: 生センサデータから意図を予測する学習

IntentNet: Learning to Predict Intention from Raw Sensor Data ( http://arxiv.org/abs/2101.07907v1 )

ライセンス: Link先を確認
Sergio Casas, Wenjie Luo, Raquel Urtasun(参考訳) 安全な操縦を計画するために、自動運転車は他の交通参加者の意図を理解する必要がある。 我々は、意図を、将来の動きを記述する連続的な軌跡と同様に、離散的なハイレベルな行動の組み合わせとして定義する。 本論文では,lidarセンサが生成する3次元点雲と,環境の動的地図の両方を利用する1段階の検出器と予測器を開発した。 マルチタスクモデルでは,各モジュールの計算時間を節約しながら,各モジュールの精度が向上する。

In order to plan a safe maneuver, self-driving vehicles need to understand the intent of other traffic participants. We define intent as a combination of discrete high-level behaviors as well as continuous trajectories describing future motion. In this paper, we develop a one-stage detector and forecaster that exploits both 3D point clouds produced by a LiDAR sensor as well as dynamic maps of the environment. Our multi-task model achieves better accuracy than the respective separate modules while saving computation, which is critical to reducing reaction time in self-driving applications.
翻訳日:2021-03-22 01:36:59 公開日:2021-01-20
# DSTC9対話評価トラックのためのWeChat AIのサブミッション

WeChat AI's Submission for DSTC9 Interactive Dialogue Evaluation Track ( http://arxiv.org/abs/2101.07947v1 )

ライセンス: Link先を確認
Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng and Jie Zhou(参考訳) 我々はdstc9インタラクティブ対話評価トラック(gunasekara et al.)に参加する。 英語) sub-task 1 (Knowledge Grounded Dialogue) と sub-task 2 (Interactive Dialogue)。 サブタスク1では,事前学習した言語モデルを用いてトピック関連応答を生成し,応答選択のための応答アンサンブル手法を提案する。 サブタスク2では,人間との対話における会話フローを捉えた対話計画モデル(dpm)を提案する。 また,前処理,対話モデル,スコアリングモデル,ポストプロセスを含む統合オープンドメイン対話システムの設計を行った。 サブタスク1では、人間格付けで1位、最高のMeteorとBert-scoreを、サブタスク2では対話的人間評価で3位にランク付けします。

We participate in the DSTC9 Interactive Dialogue Evaluation Track (Gunasekara et al. 2020) sub-task 1 (Knowledge Grounded Dialogue) and sub-task 2 (Interactive Dialogue). In sub-task 1, we employ a pre-trained language model to generate topic-related responses and propose a response ensemble method for response selection. In sub-task2, we propose a novel Dialogue Planning Model (DPM) to capture conversation flow in the interaction with humans. We also design an integrated open-domain dialogue system containing pre-process, dialogue model, scoring model, and post-process, which can generate fluent, coherent, consistent, and humanlike responses. We tie 1st on human ratings and also get the highest Meteor, and Bert-score in sub-task 1, and rank 3rd on interactive human evaluation in sub-task 2.
翻訳日:2021-03-22 01:36:50 公開日:2021-01-20
# SuGAR:強化ポーリングと自己監督型相互情報機構を備えたサブグラフニューラルネットワーク

SUGAR: Subgraph Neural Network with Reinforcement Pooling and Self-Supervised Mutual Information Mechanism ( http://arxiv.org/abs/2101.08170v1 )

ライセンス: Link先を確認
Qingyun Sun, Hao Peng, Jianxin Li, Jia Wu, Yuanxing Ning, Phillip S. Yu, Lifang He(参考訳) グラフ表現学習は研究の注目を集めている。 しかし、既存のほとんどの研究は全ての構造的特徴とノード属性を融合させ、グラフの全体的ビューを提供し、より微細な部分構造のセマンティクスを無視し、解釈の謎に苦しむ。 本稿では、より識別的な部分グラフ表現を学習し、説明的な方法で応答するために、グラフ分類のための新しい階層的なサブグラフレベル選択と埋め込みベースのグラフニューラルネットワーク、すなわちSUGARを提案する。 SUGARは、スケッチされたグラフを原グラフの代表部分として抽出して再構成し、サブグラフレベルのパターンを明らかにする。 先行知識のない打撃部分グラフを適応的に選択するために,モデルの一般化能力を向上させる強化プーリング機構を開発した。 グラフ間の部分グラフ表現を区別するために,その相互情報を最大化することにより,グラフ埋め込みを大域的グラフ構造特性に留意させる自己教師付き相互情報機構を提案する。 6つの典型的なバイオインフォマティクスデータセットに対する大規模な実験は、競争性能と解釈可能性を備えたモデル品質の顕著で一貫した改善を示している。

Graph representation learning has attracted increasing research attention. However, most existing studies fuse all structural features and node attributes to provide an overarching view of graphs, neglecting finer substructures' semantics, and suffering from interpretation enigmas. This paper presents a novel hierarchical subgraph-level selection and embedding based graph neural network for graph classification, namely SUGAR, to learn more discriminative subgraph representations and respond in an explanatory way. SUGAR reconstructs a sketched graph by extracting striking subgraphs as the representative part of the original graph to reveal subgraph-level patterns. To adaptively select striking subgraphs without prior knowledge, we develop a reinforcement pooling mechanism, which improves the generalization ability of the model. To differentiate subgraph representations among graphs, we present a self-supervised mutual information mechanism to encourage subgraph embedding to be mindful of the global graph structural properties by maximizing their mutual information. Extensive experiments on six typical bioinformatics datasets demonstrate a significant and consistent improvement in model quality with competitive performance and interpretability.
翻訳日:2021-03-22 01:35:31 公開日:2021-01-20
# リジッド舗装の性能に及ぼすベース層の感度改善

Improved Sensitivity of Base Layer on the Performance of Rigid Pavement ( http://arxiv.org/abs/2101.09167v1 )

ライセンス: Link先を確認
Sajib Saha, Fan Gu, Xue Luo, and Robert L. Lytton(参考訳) 硬質舗装の性能は, ベース/サブベース, サブグレード層の性質に大きく影響される。 しかし,AASHTOWare Pavement ME設計により予測された性能は,ベース層とサブグレード層の特性に対する感度が低かった。 感度の向上と非結合層の影響をよりよく反映するために,新しい改良されたモデルセット,すなわち弾性率(mr)と準次反応係数(k値)が本研究で採用されている。 有限要素(fe)解析に基づいて修正k値を予測するための人工ニューラルネットワーク(ann)モデルを開発した。 annモデルのトレーニングと検証データセットは,舗装層厚,層弾性率,スラブベース界面接着比の異なる27000のシミュレーションケースからなる。 舗装応答に対するMRおよびk値の変化の感度を調べるため,長期舗装性能(LTPP)データベースから8つの舗装区間データを収集し,FEソフトウェアISLAB2000を用いてモデル化した。 その結果, 舗装me設計モデルを用いた結果と比較して, 固定舗装の臨界応力および偏向応答に対する基層の水分に対する感度が改良されたmr値よりも高いことがわかった。 また、ANNモデルを用いたk-値には、部分結合条件で臨界舗装応答を予測する能力があるのに対し、Pavement ME設計モデルは2つの極端な結合条件(すなわち、完全結合と非結合)でしか計算できない。

The performance of rigid pavement is greatly affected by the properties of base/subbase as well as subgrade layer. However, the performance predicted by the AASHTOWare Pavement ME design shows low sensitivity to the properties of base and subgrade layers. To improve the sensitivity and better reflect the influence of unbound layers a new set of improved models i.e., resilient modulus (MR) and modulus of subgrade reaction (k-value) are adopted in this study. An Artificial Neural Network (ANN) model is developed to predict the modified k-value based on finite element (FE) analysis. The training and validation datasets in the ANN model consist of 27000 simulation cases with different combinations of pavement layer thickness, layer modulus and slab-base interface bond ratio. To examine the sensitivity of modified MR and k-values on pavement response, eight pavement sections data are collected from the Long-Term Pavement performance (LTPP) database and modeled by using the FE software ISLAB2000. The computational results indicate that the modified MR values have higher sensitivity to water content in base layer on critical stress and deflection response of rigid pavements compared to the results using the Pavement ME design model. It is also observed that the k-values using ANN model has the capability of predicting critical pavement response at any partially bonded conditions whereas the Pavement ME design model can only calculate at two extreme bonding conditions (i.e., fully bonding and no bonding).
翻訳日:2021-03-22 01:35:13 公開日:2021-01-20
# black-box knowledge distillationによる深部疫学モデル:新型コロナの正確な深部学習モデル

Deep Epidemiological Modeling by Black-box Knowledge Distillation: An Accurate Deep Learning Model for COVID-19 ( http://arxiv.org/abs/2101.10280v1 )

ライセンス: Link先を確認
Dongdong Wang, Shunpu Zhang, and Liqiang Wang(参考訳) 正確かつ効率的な予測システムは、公衆衛生における新型コロナウイルスなどの新興感染症の予防に不可欠である。 このシステムは、正確な過渡モデリング、計算コストの低減、観測データの減少を必要とする。 これら3つの課題に対処するために,ブラックボックスの知識蒸留を用いた新しい深層学習手法を提案する。 まず,混合モデルを用いて,精度,包括的,かつ実用的でないシミュレーションシステムを構築する。 次に、シミュレーションされた観測シーケンスを用いてシミュレーションシステムに問い合わせ、シミュレーションされた投影シーケンスを知識として検索する。 そして,得られたクエリデータを用いて,クエリ効率の向上,知識の多様性の向上,蒸留モデルの精度の向上を図る。 最後に,学習者の深層ニューラルネットワークに対して,実使用のために,検索および混合観測投影シーケンスを訓練する。 新型コロナウイルスのケーススタディは、我々のアプローチが観測データに制限がある場合、より少ない計算コストで感染を正確に予測することを正当化する。

An accurate and efficient forecasting system is imperative to the prevention of emerging infectious diseases such as COVID-19 in public health. This system requires accurate transient modeling, lower computation cost, and fewer observation data. To tackle these three challenges, we propose a novel deep learning approach using black-box knowledge distillation for both accurate and efficient transmission dynamics prediction in a practical manner. First, we leverage mixture models to develop an accurate, comprehensive, yet impractical simulation system. Next, we use simulated observation sequences to query the simulation system to retrieve simulated projection sequences as knowledge. Then, with the obtained query data, sequence mixup is proposed to improve query efficiency, increase knowledge diversity, and boost distillation model accuracy. Finally, we train a student deep neural network with the retrieved and mixed observation-projecti on sequences for practical use. The case study on COVID-19 justifies that our approach accurately projects infections with much lower computation cost when observation data are limited.
翻訳日:2021-03-22 01:34:49 公開日:2021-01-20
# BERTによる科学出版の分類 -自己認識は特徴選択法か?

Classifying Scientific Publications with BERT -- Is Self-Attention a Feature Selection Method? ( http://arxiv.org/abs/2101.08114v1 )

ライセンス: Link先を確認
Andres Garcia-Silva and Jose Manuel Gomez-Perez(参考訳) 本研究では,研究分野の分類学における理科論文の分類のための微調整シナリオにおいて,BERTの自己注意機構について検討する。 記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。 特に、語彙の小さな部分集合は、ほとんどの注目を集める傾向にある。 本研究は, テキスト分類に通常用いられる特徴選択手法と, 最多単語のサブセットを比較し, 評価し, 特徴選択アプローチとして自己認識を特徴付ける。 また,conceptnet を基礎的真実として用いることで,論文の研究分野に参加者の言葉がより関連していることが分かる。 しかし、従来の特徴選択法は、スクラッチから分類器を学習するよりは良い選択肢である。 この結果は、自己注意がドメイン関連用語を認識する一方で、BERTの識別情報は文脈化された出力と分類層に符号化されていることを示唆している。 また、セルフアテンション機構に特徴選択メソッドを注入することでトランスフォーマーを用いた単一シーケンス分類をさらに最適化できるかどうかという疑問を提起する。

We investigate the self-attention mechanism of BERT in a fine-tuning scenario for the classification of scientific articles over a taxonomy of research disciplines. We observe how self-attention focuses on words that are highly related to the domain of the article. Particularly, a small subset of vocabulary words tends to receive most of the attention. We compare and evaluate the subset of the most attended words with feature selection methods normally used for text classification in order to characterize self-attention as a possible feature selection approach. Using ConceptNet as ground truth, we also find that attended words are more related to the research fields of the articles. However, conventional feature selection methods are still a better option to learn classifiers from scratch. This result suggests that, while self-attention identifies domain-relevant terms, the discriminatory information in BERT is encoded in the contextualized outputs and the classification layer. It also raises the question whether injecting feature selection methods in the self-attention mechanism could further optimize single sequence classification using transformers.
翻訳日:2021-03-22 01:34:34 公開日:2021-01-20
# ガウス過程予測分布の類似性尺度

A Similarity Measure of Gaussian Process Predictive Distributions ( http://arxiv.org/abs/2101.08061v1 )

ライセンス: Link先を確認
Lucia Asencio-Mart\'in, Eduardo C. Garrido-Merch\'an(参考訳) いくつかのシナリオは、以前の観測で条件付けられた目的関数に基づいて評価された新しい値の予測分布の計算を必要とする。 私たちは、予測しようとしている値を客観的関数に有効に仮定するモデルを使うことに興味があります。 これらの仮定のいくつかは滑らかさまたは定常性である。 ガウス過程 (GP) は確率的モデルであり、関数上の柔軟な分布と解釈できる。 彼らは共分散関数を通じて仮定を符号化し、古い観測に適合して予測分布を通じて新しいデータについての仮説を立てる。 複数のgpsを使用して異なる目的関数をモデル化するケースに直面することができる。 GPは非パラメトリックモデルであり、その複雑性は観測数の3乗である。 1つのgp予測分布が他とどの程度似ているかを表す尺度は、同じ入力空間のモデリング関数である場合、1つのgpを使用するのを止めるのに有用である。 2つの目的関数が相関していると本当に推測しているため、1つのgpは、逆相関の場合の他の関数の予測の変換を行うことで、両者をモデル化するのに十分である。 我々は,gpsの予測分布を比較し,その一方が同一入力空間で2つの相関関数を予測するのに十分であることを示す,一連の合成およびベンチマーク実験において実証的な証拠を示す。 この類似度計量は、ベイズ多目的最適化の目的を捨てるのに非常に有用である。

Some scenarios require the computation of a predictive distribution of a new value evaluated on an objective function conditioned on previous observations. We are interested on using a model that makes valid assumptions on the objective function whose values we are trying to predict. Some of these assumptions may be smoothness or stationarity. Gaussian process (GPs) are probabilistic models that can be interpreted as flexible distributions over functions. They encode the assumptions through covariance functions, making hypotheses about new data through a predictive distribution by being fitted to old observations. We can face the case where several GPs are used to model different objective functions. GPs are non-parametric models whose complexity is cubic on the number of observations. A measure that represents how similar is one GP predictive distribution with respect to another would be useful to stop using one GP when they are modelling functions of the same input space. We are really inferring that two objective functions are correlated, so one GP is enough to model both of them by performing a transformation of the prediction of the other function in case of inverse correlation. We show empirical evidence in a set of synthetic and benchmark experiments that GPs predictive distributions can be compared and that one of them is enough to predict two correlated functions in the same input space. This similarity metric could be extremely useful used to discard objectives in Bayesian many-objective optimization.
翻訳日:2021-03-22 01:33:43 公開日:2021-01-20
# 局所擬似乱数生成器から学習困難まで

From Local Pseudorandom Generators to Hardness of Learning ( http://arxiv.org/abs/2101.08303v1 )

ライセンス: Link先を確認
Amit Daniely and Gal Vardi(参考訳) 本研究では,ローカル擬似乱数生成器の存在を前提として,学習の難しさを実証する。 我々が示すように、この仮定は、現在の芸術の状態を超越し、様々な基本的な問題の困難さを証明し、今日までハードネスの結果は得られない。 Our results include: hardness of learning shallow ReLU neural networks under the Gaussian distribution and other distributions; hardness of learning intersections of $\omega(1)$ halfspaces, DNF formulas with $\omega(1)$ terms, and ReLU networks with $\omega(1)$ hidden neurons; hardness of weakly learning deterministic finite automata under the uniform distribution; hardness of weakly learning depth-$3$ Boolean circuits under the uniform distribution, as well as distribution-specifi c hardness results for learning DNF formulas and intersections of halfspaces. また、一定の数のハーフスペースの学習交叉と、一定の数の隠れニューロンを持つReLUネットワークの複雑さの低い境界を確立する。 さらに,本研究の結果は,これまで他の仮定では困難であった,事実上不適切なPAC学習問題(分布自由と分布特化の両方)の難しさを示唆している。

We prove hardness-of-learning results under a well-studied assumption on the existence of local pseudorandom generators. As we show, this assumption allows us to surpass the current state of the art, and prove hardness of various basic problems, with no hardness results to date. Our results include: hardness of learning shallow ReLU neural networks under the Gaussian distribution and other distributions; hardness of learning intersections of $\omega(1)$ halfspaces, DNF formulas with $\omega(1)$ terms, and ReLU networks with $\omega(1)$ hidden neurons; hardness of weakly learning deterministic finite automata under the uniform distribution; hardness of weakly learning depth-$3$ Boolean circuits under the uniform distribution, as well as distribution-specifi c hardness results for learning DNF formulas and intersections of halfspaces. We also establish lower bounds on the complexity of learning intersections of a constant number of halfspaces, and ReLU networks with a constant number of hidden neurons. Moreover, our results imply the hardness of virtually all improper PAC-learning problems (both distribution-free and distribution-specifi c) that were previously shown hard under other assumptions.
翻訳日:2021-03-22 01:33:23 公開日:2021-01-20
# 生成型adversarial networkにおける影響推定

Influence Estimation for Generative Adversarial Networks ( http://arxiv.org/abs/2101.08367v1 )

ライセンス: Link先を確認
Naoyuki Terashita, Hiroki Ohashi, Yuichi Nonaka, Takashi Kanemaru(参考訳) トレーニングデータセットに存在しない有害なインスタンスを特定することは、よりよい機械学習モデルを構築する上で重要である。 従来の研究では、教師付き設定下で有害なインスタンスを推定することに成功したが、GAN(Generative Adversarial Network)に自明に拡張することはできない。 これは,(1) トレーニングインスタンスの欠如が損失値に直接影響を及ぼすこと,(2) 損失の変化がモデルの実行に対するインスタンスの有害性を直接測定すること,という従来のアプローチが求められているためである。 しかし、GANトレーニングでは、どちらの要件も満たされていない。 これは、(1)ジェネレータの損失は、ジェネレータのトレーニングステップの一部ではないため、トレーニングインスタンスに直接影響されず、(2)GANの損失の値は、通常モデルの生成性能を捉えないためである。 To this end, (1) we propose an influence estimation method that uses the Jacobian of the gradient of the generator's loss with respect to the discriminator's parameters (and vice versa) to trace how the absence of an instance in the discriminator's training affects the generator's parameters, and (2) we propose a novel evaluation scheme, in which we assess harmfulness of each training instance on the basis of how GAN evaluation metric (e.g., inception score) is expect to change due to the removal of the instance. 提案手法がGAN評価指標の変化を正確に推定できることを実験的に検証した。 さらに, 同定された有害事象の除去により, GAN評価指標に対するモデル生成性能が向上することが実証された。

Identifying harmful instances, whose absence in a training dataset improves model performance, is important for building better machine learning models. Although previous studies have succeeded in estimating harmful instances under supervised settings, they cannot be trivially extended to generative adversarial networks (GANs). This is because previous approaches require that (1) the absence of a training instance directly affects the loss value and that (2) the change in the loss directly measures the harmfulness of the instance for the performance of a model. In GAN training, however, neither of the requirements is satisfied. This is because, (1) the generator's loss is not directly affected by the training instances as they are not part of the generator's training steps, and (2) the values of GAN's losses normally do not capture the generative performance of a model. To this end, (1) we propose an influence estimation method that uses the Jacobian of the gradient of the generator's loss with respect to the discriminator's parameters (and vice versa) to trace how the absence of an instance in the discriminator's training affects the generator's parameters, and (2) we propose a novel evaluation scheme, in which we assess harmfulness of each training instance on the basis of how GAN evaluation metric (e.g., inception score) is expect to change due to the removal of the instance. We experimentally verified that our influence estimation method correctly inferred the changes in GAN evaluation metrics. Further, we demonstrated that the removal of the identified harmful instances effectively improved the model's generative performance with respect to various GAN evaluation metrics.
翻訳日:2021-03-22 01:33:06 公開日:2021-01-20
# 決定木と森林への欲求--理論的実証

Dive into Decision Trees and Forests: A Theoretical Demonstration ( http://arxiv.org/abs/2101.08656v1 )

ライセンス: Link先を確認
Jinxiong Zhang(参考訳) 決定木に基づいて、近年多くの分野が大きな進歩を遂げている。 簡単に言えば、決定木は入力特徴とラベル間の依存性に関する複雑な問題を小さな問題に分割するために「分割と探索」という戦略を用いる。 決定木には長い歴史があるが、近年の進歩により、計算広告、推薦システム、情報検索などの性能が大幅に向上している。 一般的な木モデル(例えば、ベイジアンCART、ベイジアン回帰スプライン)とトレーニング技術(例えば、混合整数プログラミング、交互最適化、勾配降下)を導入する。 その過程で,木系モデルの確率的特性を強調し,その実用的および理論的利点を説明する。 機械学習とデータマイニングを除くと、統計学や運用研究など他の分野のツリーベースモデルにおける理論的進歩を示す。 各メソッドの最後に再現可能なリソースをリストアップする。

Based on decision trees, many fields have arguably made tremendous progress in recent years. In simple words, decision trees use the strategy of "divide-and-conquer&q uot; to divide the complex problem on the dependency between input features and labels into smaller ones. While decision trees have a long history, recent advances have greatly improved their performance in computational advertising, recommender system, information retrieval, etc. We introduce common tree-based models (e.g., Bayesian CART, Bayesian regression splines) and training techniques (e.g., mixed integer programming, alternating optimization, gradient descent). Along the way, we highlight probabilistic characteristics of tree-based models and explain their practical and theoretical benefits. Except machine learning and data mining, we try to show theoretical advances on tree-based models from other fields such as statistics and operation research. We list the reproducible resource at the end of each method.
翻訳日:2021-03-22 01:32:42 公開日:2021-01-20
# トランスフォーマーを用いたオープンドメイン対話型検索アシスタント

Open-Domain Conversational Search Assistant with Transformers ( http://arxiv.org/abs/2101.08197v1 )

ライセンス: Link先を確認
Rafael Ferreira, Mariana Leite, David Semedo and Joao Magalhaes(参考訳) オープンドメイン会話検索アシスタントは、オープントピックに関するユーザの質問に会話形式で答えることを目的としている。 本稿では,トランスフォーマーアーキテクチャが,オープンドメインの対話型検索に係わる対話型アシスタントを単一かつ有意義な回答で作成することにより,重要なIRタスクにおける最先端結果を実現する方法を示す。 特に,会話コンテキストを意識した検索と,第2の抽象的検索回答生成という2つの大きな課題に対処する,オープンドメインの抽象的対話型検索エージェントパイプラインを提案する。 最初の課題に対処するために、会話コンテキストは、適切な回答を検索するために、会話のコンテキストを特定の瞬間まで展開するクエリ書き換えメソッドでモデル化される。 これらの回答はTransformerベースのリランカに渡され、検索性能がさらに向上する。 第2の課題は、最近の抽象トランスフォーマーアーキテクチャに取り組み、最も関係のある最上位の通路のダイジェストを生成することである。 実験によると、Transformerは会話検索のすべてのタスクに対して安定したパフォーマンスを提供し、TREC CAsT 2019ベースラインで最高のパフォーマンスを発揮する。

Open-domain conversational search assistants aim at answering user questions about open topics in a conversational manner. In this paper we show how the Transformer architecture achieves state-of-the-art results in key IR tasks, leveraging the creation of conversational assistants that engage in open-domain conversational search with single, yet informative, answers. In particular, we propose an open-domain abstractive conversational search agent pipeline to address two major challenges: first, conversation context-aware search and second, abstractive search-answers generation. To address the first challenge, the conversation context is modeled with a query rewriting method that unfolds the context of the conversation up to a specific moment to search for the correct answers. These answers are then passed to a Transformer-based re-ranker to further improve retrieval performance. The second challenge, is tackled with recent Abstractive Transformer architectures to generate a digest of the top most relevant passages. Experiments show that Transformers deliver a solid performance across all tasks in conversational search, outperforming the best TREC CAsT 2019 baseline.
翻訳日:2021-03-22 01:32:27 公開日:2021-01-20
# PGT:グラフベースの変換器を用いた擬似関連フィードバック

PGT: Pseudo Relevance Feedback Using a Graph-Based Transformer ( http://arxiv.org/abs/2101.07918v1 )

ライセンス: Link先を確認
HongChien Yu, Zhuyun Dai, Jamie Callan(参考訳) 擬似関連フィードバック(PRF)に関するほとんどの研究はベクトル空間と確率的検索モデルで行われている。 本稿では、トランスフォーマーベースのリカウンタがprfが提供する余分なコンテキストによってもメリットがあることを示す。 PGTはグラフベースのTransformerで、ほとんどのTransformerアーキテクチャの計算複雑性を回避しつつ、PRFを有効にするためにグラフノード間の注意を分散する。 実験により、PGTは非PRFトランスフォーマー・リランカにより改善され、少なくとも完全な注意を払って計算コストを下げるTransformer PRFモデルと同程度に正確であることが示されている。

Most research on pseudo relevance feedback (PRF) has been done in vector space and probabilistic retrieval models. This paper shows that Transformer-based rerankers can also benefit from the extra context that PRF provides. It presents PGT, a graph-based Transformer that sparsifies attention between graph nodes to enable PRF while avoiding the high computational complexity of most Transformer architectures. Experiments show that PGT improves upon non-PRF Transformer reranker, and it is at least as accurate as Transformer PRF models that use full attention, but with lower computational costs.
翻訳日:2021-03-22 01:32:10 公開日:2021-01-20
# DynaComm: 動的通信スケジューリングによるエッジとクラウド間の分散CNNトレーニングの高速化

DynaComm: Accelerating Distributed CNN Training between Edges and Clouds through Dynamic Communication Scheduling ( http://arxiv.org/abs/2101.07968v1 )

ライセンス: Link先を確認
Shangming Cai, Dongsheng Wang, Haixia Wang, Yongqiang Lyu, Guangquan Xu, Xi Zheng and Athanasios V. Vasilakos(参考訳) アップロード帯域幅とアドレスプライバシの懸念を軽減するために、ネットワークエッジでのディープラーニングが注目されている。 通常、エッジデバイスはパラメータサーバーフレームワークを通じてリアルタイムに生成されたデータを使用して、共有モデルを協調的にトレーニングする。 すべてのエッジデバイスはコンピューティングワークロードを共有することができるが、エッジネットワーク上の分散トレーニングプロセスは、パラメータサーバとエッジデバイス間の送信手順のパラメータと勾配のため、依然として時間がかかる。 ネットワークエッジにおける分散畳み込みニューラルネットワーク(CNN)トレーニングの高速化に着目し,各送信手順を複数のセグメントに動的に分解し,実行時に重複する最適な通信と計算を実現する新しいスケジューラDynaCommを提案する。 実験により、DynaCommは、モデル精度が変化しないまま、競合する戦略と比較して、全てのケースに対して最適なスケジューリングを達成できることを確認した。

To reduce uploading bandwidth and address privacy concerns, deep learning at the network edge has been an emerging topic. Typically, edge devices collaboratively train a shared model using real-time generated data through the Parameter Server framework. Although all the edge devices can share the computing workloads, the distributed training processes over edge networks are still time-consuming due to the parameters and gradients transmission procedures between parameter servers and edge devices. Focusing on accelerating distributed Convolutional Neural Networks (CNNs) training at the network edge, we present DynaComm, a novel scheduler that dynamically decomposes each transmission procedure into several segments to achieve optimal communications and computations overlapping during run-time. Through experiments, we verify that DynaComm manages to achieve optimal scheduling for all cases compared to competing strategies while the model accuracy remains untouched.
翻訳日:2021-03-22 01:31:59 公開日:2021-01-20
# 軽量NASのためのゼロコストプロキシ

Zero-Cost Proxies for Lightweight NAS ( http://arxiv.org/abs/2101.08134v1 )

ライセンス: Link先を確認
Mohamed S. Abdelfattah, Abhinav Mehrotra, {\L}ukasz Dudziak, Nicholas D. Lane(参考訳) neural architecture search(nas)は、ニューラルネットワークモデルを設計するための標準的な方法論になりつつある。 しかしながら、NASは通常、最高のモデルを選択する前に複数のモデルを評価する必要があるため、計算集約的である。 計算能力と時間を削減するため、完全なトレーニングではなく、各モデルを評価するためにプロキシタスクが頻繁に使用される。 本稿では,従来の還元学習プロキシを評価し,最終訓練精度によるランキングと比較し,探索中における複数のモデル間のランキング保持率を定量化する。 本稿では,モデルスコアの計算に,トレーニングデータのミニバッチを1つだけ使用した,最近のプルーニング文献に基づくゼロコストプロキシを提案する。 ゼロコストプロキシは3桁の計算量が少ないが、従来のプロキシとマッチし、さらに優れています。 例えば、NAS-Bench-201上での最適ゼロコストプロキシと最終検証精度の相関係数は、EcoNAS(最近提案された縮小学習プロキシ)の0.61と比べて0.82である。 最後に,これらゼロコストプロキシを用いてランダム検索,強化学習,進化的検索,予測型検索などの既存のnas検索アルゴリズムを強化する。 すべての探索手法と3つのNASデータセットに対して,ゼロコストプロキシを用いることで,サンプル効率を大幅に向上し,計算量を削減することができる。 例えばNAS-Bench-101では、最良な前の結果よりも4$\times$の精度を達成しました。

Neural Architecture Search (NAS) is quickly becoming the standard methodology to design neural network models. However, NAS is typically compute-intensive because multiple models need to be evaluated before choosing the best one. To reduce the computational power and time needed, a proxy task is often used for evaluating each model instead of full training. In this paper, we evaluate conventional reduced-training proxies and quantify how well they preserve ranking between multiple models during search when compared with the rankings produced by final trained accuracy. We propose a series of zero-cost proxies, based on recent pruning literature, that use just a single minibatch of training data to compute a model's score. Our zero-cost proxies use 3 orders of magnitude less computation but can match and even outperform conventional proxies. For example, Spearman's rank correlation coefficient between final validation accuracy and our best zero-cost proxy on NAS-Bench-201 is 0.82, compared to 0.61 for EcoNAS (a recently proposed reduced-training proxy). Finally, we use these zero-cost proxies to enhance existing NAS search algorithms such as random search, reinforcement learning, evolutionary search and predictor-based search. For all search methodologies and across three different NAS datasets, we are able to significantly improve sample efficiency, and thereby decrease computation, by using our zero-cost proxies. For example on NAS-Bench-101, we achieved the same accuracy 4$\times$ quicker than the best previous result.
翻訳日:2021-03-22 01:31:43 公開日:2021-01-20
# 量子相関による生成モデルの強化

Enhancing Generative Models via Quantum Correlations ( http://arxiv.org/abs/2101.08354v1 )

ライセンス: Link先を確認
Xun Gao, Eric R. Anschuetz, Sheng-Tao Wang, J. Ignacio Cirac and Mikhail D. Lukin(参考訳) 確率分布から抽出したサンプルを用いた生成モデリングは教師なし機械学習の強力なアプローチである。 量子力学系は、古典モデルを用いて捉えるのが難しい量子相関を示す確率分布を生成することができる。 このような量子相関が生成モデリングの強力な資源であることを示す。 特に、ベイズネットワークと呼ばれる広く使われている生成モデルのクラスと、その最小量子拡張との間の表現力の無条件な分離証明を提供する。 この表現性アドバンテージは、量子非局所性と量子文脈性と関連していることを示す。 さらに,この分離を標準機械学習データセット上で数値的にテストし,実用的問題に対して有効であることを示す。 この研究で証明された量子アドバンテージの可能性は、有用な量子機械学習プロトコルの設計に光を当てるだけでなく、純粋に古典的なアルゴリズムを改善するために量子ファンデーションのアイデアに着想を与える。

Generative modeling using samples drawn from the probability distribution constitutes a powerful approach for unsupervised machine learning. Quantum mechanical systems can produce probability distributions that exhibit quantum correlations which are difficult to capture using classical models. We show theoretically that such quantum correlations provide a powerful resource for generative modeling. In particular, we provide an unconditional proof of separation in expressive power between a class of widely-used generative models, known as Bayesian networks, and its minimal quantum extension. We show that this expressivity advantage is associated with quantum nonlocality and quantum contextuality. Furthermore, we numerically test this separation on standard machine learning data sets and show that it holds for practical problems. The possibility of quantum advantage demonstrated in this work not only sheds light on the design of useful quantum machine learning protocols but also provides inspiration to draw on ideas from quantum foundations to improve purely classical algorithms.
翻訳日:2021-03-22 01:31:10 公開日:2021-01-20
# 視野からコマンドへのビジョンギャップをブリッジする:照度と詳細を取り入れたディープラーニングネットワーク

Bridge the Vision Gap from Field to Command: A Deep Learning Network Enhancing Illumination and Details ( http://arxiv.org/abs/2101.08039v1 )

ライセンス: Link先を確認
Zhuqing Jiang, Chang Liu, Ya'nan Wang, Kai Li, Aidong Men, Haiying Wang, Haiyong Luo(参考訳) 明るさを調整することを目的として、低光度画像強調は監視、リモートセンシング、計算写真など多くの応用を享受している。 低照度条件下で撮影された画像は視界が悪く、ぼやけていることが多い。 暗い領域だけを明るくすることは必然的にぼやけを増幅するので、細部が失われる可能性がある。 本稿では,多くの計算コストを伴わずに,明るさを調整し,細部を同時に強化する,シンプルで効果的な2ストリームフレームワークNEIDを提案する。 正確には、提案手法は、光強調(le)、詳細精細(dr)、機能融合(ff)モジュールの3つの部分から構成されている。 いくつかのベンチマークデータセットで行った広範囲な実験により、本手法の有効性と最先端手法に対する優位性が実証された。

With the goal of tuning up the brightness, low-light image enhancement enjoys numerous applications, such as surveillance, remote sensing and computational photography. Images captured under low-light conditions often suffer from poor visibility and blur. Solely brightening the dark regions will inevitably amplify the blur, thus may lead to detail loss. In this paper, we propose a simple yet effective two-stream framework named NEID to tune up the brightness and enhance the details simultaneously without introducing many computational costs. Precisely, the proposed method consists of three parts: Light Enhancement (LE), Detail Refinement (DR) and Feature Fusing (FF) module, which can aggregate composite features oriented to multiple tasks based on channel attention mechanism. Extensive experiments conducted on several benchmark datasets demonstrate the efficacy of our method and its superiority over state-of-the-art methods.
翻訳日:2021-03-22 01:30:45 公開日:2021-01-20
# コンポーネントツリー損失関数:定義と最適化

Component Tree Loss Function: Definition and Optimization ( http://arxiv.org/abs/2101.08063v1 )

ライセンス: Link先を確認
Benjamin Perret (LIGM), Jean Cousty (LIGM)(参考訳) 本稿では,勾配降下アルゴリズムにより最適化可能なコンポーネントツリーに基づく損失関数の設計手法を提案する。 このような階層的な画像表現のノードに付随する高度が、画像画素値に対してどのように区別できるかを示す。 この機能は、絶滅値などの様々な属性に基づいて画像の最大値を選択または破棄できる汎用的損失関数を設計するために使用される。 シミュレーションおよび実画像フィルタリングにおいて,提案手法の可能性を示す。

In this article, we propose a method to design loss functions based on component trees which can be optimized by gradient descent algorithms and which are therefore usable in conjunction with recent machine learning approaches such as neural networks. We show how the altitudes associated to the nodes of such hierarchical image representations can be differentiated with respect to the image pixel values. This feature is used to design a generic loss function that can select or discard image maxima based on various attributes such as extinction values. The possibilities of the proposed method are demonstrated on simulated and real image filtering.
翻訳日:2021-03-22 01:30:29 公開日:2021-01-20
# 安定で正確なニューラルネットワークは計算できるのか? --深層学習の障壁とスモール18号問題について

Can stable and accurate neural networks be computed? -- On the barriers of deep learning and Smale's 18th problem ( http://arxiv.org/abs/2101.08286v1 )

ライセンス: Link先を確認
Vegard Antun, Matthew J. Colbrook, Anders C. Hansen(参考訳) ディープラーニング(DL)は前例のない成功を収め、現在は全力で科学計算に参入している。 しかし、dlは安定ニューラルネットワーク(nns)の存在を保証する普遍的な近似特性にもかかわらず、不安定という普遍的な現象に苦しむ。 以下のパラドックスを示す。 科学的計算には、非常に近似品質の高いNNの存在を証明できる基本的な条件付き問題があるが、そのようなNNを訓練(あるいは計算)できるランダム化されたアルゴリズムは存在しない。 実際、任意の正の整数 $K > 2$ および $L$ に対して、同時に、 (a) ランダム化されたアルゴリズムは、1/2$ 以上の確率で NN を$K$ の桁に計算できる (b) NN を$K-1$ の桁で計算する決定論的アルゴリズムは存在するが、そのような (ランダム化された) アルゴリズムは任意の数のトレーニングデータを必要とする (c) NN を$K-2$ の桁で計算する決定論的アルゴリズムは、$L$ 以上のトレーニングサンプルを用いて存在する。 これらの結果は、Smaleの18番目の問題の基礎となり、与えられた精度の(安定な)NNをアルゴリズムで計算できる条件を記述する、潜在的に広大かつ重要な分類理論であることを示している。 この理論は圧縮センシングとdlの統一理論を開始し、逆問題において安定なnnsを計算するアルゴリズムが存在するための十分な条件を導いた。 我々は、Fast Iterative Restarted NETworks (FIRENETs)を紹介し、それを証明し、数値的に検証する。 さらに、逆問題(指数収束)に対する$\epsilon$正確な解には$\mathcal{O}(|\log(\epsilon)|)$層のみが必要であることを証明し、その層の内部次元が逆問題の次元を超えないことを証明した。 したがって、FIRENETは計算的に非常に効率的である。

Deep learning (DL) has had unprecedented success and is now entering scientific computing with full force. However, DL suffers from a universal phenomenon: instability, despite universal approximating properties that often guarantee the existence of stable neural networks (NNs). We show the following paradox. There are basic well-conditioned problems in scientific computing where one can prove the existence of NNs with great approximation qualities, however, there does not exist any algorithm, even randomised, that can train (or compute) such a NN. Indeed, for any positive integers $K > 2$ and $L$, there are cases where simultaneously: (a) no randomised algorithm can compute a NN correct to $K$ digits with probability greater than $1/2$, (b) there exists a deterministic algorithm that computes a NN with $K-1$ correct digits, but any such (even randomised) algorithm needs arbitrarily many training data, (c) there exists a deterministic algorithm that computes a NN with $K-2$ correct digits using no more than $L$ training samples. These results provide basic foundations for Smale's 18th problem and imply a potentially vast, and crucial, classification theory describing conditions under which (stable) NNs with a given accuracy can be computed by an algorithm. We begin this theory by initiating a unified theory for compressed sensing and DL, leading to sufficient conditions for the existence of algorithms that compute stable NNs in inverse problems. We introduce Fast Iterative REstarted NETworks (FIRENETs), which we prove and numerically verify are stable. Moreover, we prove that only $\mathcal{O}(|\log(\epsilon)|)$ layers are needed for an $\epsilon$ accurate solution to the inverse problem (exponential convergence), and that the inner dimensions in the layers do not exceed the dimension of the inverse problem. Thus, FIRENETs are computationally very efficient.
翻訳日:2021-03-22 01:30:22 公開日:2021-01-20
# ワッサースタイン汚染下におけるロバストW-GAN推定

Robust W-GAN-Based Estimation Under Wasserstein Contamination ( http://arxiv.org/abs/2101.07969v1 )

ライセンス: Link先を確認
Zheng Liu, Po-Ling Loh(参考訳) ロバスト推定は、データ生成分布が未汚染分布の周りで適切に定義された球内にある場合、合理的な推定器を提供することを目的とした統計学における重要な問題である。 近年ミニマックス推定が確立されているが、最適な収束率を持つ既存のロバスト推定器の多くは計算に難解である。 本稿では,ワッサースタイン汚染モデルに基づく推定問題をいくつか検討し,gans(generative adversarial networks)を動機とする計算可能な推定器を提案する。 具体的には,位置推定,共分散行列推定,線形回帰のためのwasserstein ganに基づく推定器の特性を分析し,提案する推定器が多くのシナリオにおいて最小最適であることを示す。 最後に,推定器の有効性を示す数値的な結果を示す。

Robust estimation is an important problem in statistics which aims at providing a reasonable estimator when the data-generating distribution lies within an appropriately defined ball around an uncontaminated distribution. Although minimax rates of estimation have been established in recent years, many existing robust estimators with provably optimal convergence rates are also computationally intractable. In this paper, we study several estimation problems under a Wasserstein contamination model and present computationally tractable estimators motivated by generative adversarial networks (GANs). Specifically, we analyze properties of Wasserstein GAN-based estimators for location estimation, covariance matrix estimation, and linear regression and show that our proposed estimators are minimax optimal in many scenarios. Finally, we present numerical results which demonstrate the effectiveness of our estimators.
翻訳日:2021-03-22 01:29:42 公開日:2021-01-20
# ディバイドとコンカー:ヒンディー語における宿主検出のためのアンサンブルアプローチ

Divide and Conquer: An Ensemble Approach for Hostile Post Detection in Hindi ( http://arxiv.org/abs/2101.07973v1 )

ライセンス: Link先を確認
Varad Bhatnagar, Prince Kumar, Sairam Moghili and Pushpak Bhattacharyya(参考訳) 最近、NLPコミュニティは、ホストポスト検出の困難なタスクに関心を示し始めている。 本稿では,HindiにおけるHostile Post Detectionについて,Constraint2021における共有タスクシステムを提案する。 この共有タスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。 これは、各データインスタンスがフェイク、ヘイト、攻撃、破壊、非敵対の5つのクラスのうちの1つまたはそれ以上に注釈付けされるマルチラベルのマルチクラス分類問題である。 この問題を解決するために,bertベースの分類器と統計分類器からなる2階層アーキテクチャを提案する。 私たちのチームである"Albatross"は,ヒンディー語サブタスクにおける宿主ポスト検出において,粗い敵意F1スコアを0.9709点獲得し,45チーム中2位を確保しました。 我々の応募は156件中2位と3位にランクされ、それぞれ0.9709点と0.9703点の粗い敵意F1点が与えられた。 きめ細かいスコアも非常に有益で、さらに微調整することで改善できます。 コードは公開されている。

Recently the NLP community has started showing interest towards the challenging task of Hostile Post Detection. This paper present our system for Shared Task at Constraint2021 on "Hostile Post Detection in Hindi". The data for this shared task is provided in Hindi Devanagari script which was collected from Twitter and Facebook. It is a multi-label multi-class classification problem where each data instance is annotated into one or more of the five classes: fake, hate, offensive, defamation, and non-hostile. We propose a two level architecture which is made up of BERT based classifiers and statistical classifiers to solve this problem. Our team 'Albatross', scored 0.9709 Coarse grained hostility F1 score measure on Hostile Post Detection in Hindi subtask and secured 2nd rank out of 45 teams for the task. Our submission is ranked 2nd and 3rd out of a total of 156 submissions with Coarse grained hostility F1 score of 0.9709 and 0.9703 respectively. Our fine grained scores are also very encouraging and can be improved with further finetuning. The code is publicly available.
翻訳日:2021-03-22 01:29:10 公開日:2021-01-20
# ペルシア語ユーザ生成テキストコンテンツの課題--機械学習に基づくアプローチ

The Challenges of Persian User-generated Textual Content: A Machine Learning-Based Approach ( http://arxiv.org/abs/2101.08087v1 )

ライセンス: Link先を確認
Mohammad Kasra Habib(参考訳) 近年、大量のユーザ生成コンテンツから恩恵を受け、その上にインテリジェントな予測モデルを構築する効果的なアプローチの開発について、多くの研究論文や研究が出版されている。 この研究は、ペルシャのユーザーが生成したテキストコンテンツのハードルに対処するために機械学習に基づくアプローチを適用する。 残念ながら、ペルシア語のテキストを分類/クラスタ化するための機械学習アプローチを利用するには、依然として不十分な研究がある。 さらにペルシャのテキストの分析は、特にデータセットやテキスト操作ツールのリソース不足に苦しむ。 ペルシア語の構文と意味は英語や他の言語とは異なるため、これらの言語から得られる資源はペルシャ語ですぐには利用できない。 加えて、名詞や代名詞の認識、言語タグ付け、単語の境界の発見、ペルシャ語に対する語源や文字操作は、さらなる研究を必要とする未解決の問題である。 そのため,本研究ではいくつかの課題に対処する努力がなされている。 このアプローチでは、ペルシャ語の感情分析に機械翻訳データセットを使用する。 最後に、データセットは異なる分類器と機能エンジニアリングアプローチでリハーサルされている。 実験の結果、従来の取り組みとは対照的に最先端のパフォーマンスが期待でき、最高の分類器は91.22%の精度、91.71%のリコール、91.46%のF1スコアを達成したサポートベクトルマシンであった。

Over recent years a lot of research papers and studies have been published on the development of effective approaches that benefit from a large amount of user-generated content and build intelligent predictive models on top of them. This research applies machine learning-based approaches to tackle the hurdles that come with Persian user-generated textual content. Unfortunately, there is still inadequate research in exploiting machine learning approaches to classify/cluster Persian text. Further, analyzing Persian text suffers from a lack of resources; specifically from datasets and text manipulation tools. Since the syntax and semantics of the Persian language is different from English and other languages, the available resources from these languages are not instantly usable for Persian. In addition, recognition of nouns and pronouns, parts of speech tagging, finding words' boundary, stemming or character manipulations for Persian language are still unsolved issues that require further studying. Therefore, efforts have been made in this research to address some of the challenges. This presented approach uses a machine-translated datasets to conduct sentiment analysis for the Persian language. Finally, the dataset has been rehearsed with different classifiers and feature engineering approaches. The results of the experiments have shown promising state-of-the-art performance in contrast to the previous efforts; the best classifier was Support Vector Machines which achieved a precision of 91.22%, recall of 91.71%, and F1 score of 91.46%.
翻訳日:2021-03-22 01:28:52 公開日:2021-01-20
# Data-Scarce Domain BERT 知識蒸留のための拡張学習

Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation ( http://arxiv.org/abs/2101.08106v1 )

ライセンス: Link先を確認
Lingyun Feng, Minghui Qiu, Yaliang Li, Hai-Tao Zheng, Ying Shen(参考訳) BERTのような事前訓練された言語モデルは、幅広い自然言語処理タスクにおいて魅力的なパフォーマンスを達成しているが、リアルタイムアプリケーションにデプロイするには計算コストがかかる。 典型的な方法は、これらの大きな事前訓練されたモデル(教師モデル)を小さな学生モデルに圧縮するために知識蒸留を採用することである。 しかし、学習データが少ない対象領域では、教師が生徒に有用な知識を渡すことはほとんどなく、生徒モデルの性能劣化をもたらす。 この問題を解決するために,資源豊富なソースドメインの助けを借りてターゲットを自動的に拡張するクロスドメイン操作方式を学習することにより,データ共有ドメインBERT知識蒸留の強化を学ぶ方法を提案する。 具体的には、対象データ近傍の定常分布から得られたサンプルを生成し、強化セレクタを採用し、生徒のパフォーマンスに応じて拡張戦略を自動的に洗練する。 大規模な実験により、提案手法は4つの異なるタスクにおいて最先端のベースラインを著しく上回り、データスカース領域では、圧縮された学生モデルは元の大きな教師モデルよりも優れた性能を示し、ラベル付き例がいくつかある場合に、パラメータがはるかに少ない(${\sim}13.3\%$)。

Despite pre-trained language models such as BERT have achieved appealing performance in a wide range of natural language processing tasks, they are computationally expensive to be deployed in real-time applications. A typical method is to adopt knowledge distillation to compress these large pre-trained models (teacher models) to small student models. However, for a target domain with scarce training data, the teacher can hardly pass useful knowledge to the student, which yields performance degradation for the student models. To tackle this problem, we propose a method to learn to augment for data-scarce domain BERT knowledge distillation, by learning a cross-domain manipulation scheme that automatically augments the target with the help of resource-rich source domains. Specifically, the proposed method generates samples acquired from a stationary distribution near the target data and adopts a reinforced selector to automatically refine the augmentation strategy according to the performance of the student. Extensive experiments demonstrate that the proposed method significantly outperforms state-of-the-art baselines on four different tasks, and for the data-scarce domains, the compressed student models even perform better than the original large teacher model, with much fewer parameters (only ${\sim}13.3\%$) when only a few labeled examples available.
翻訳日:2021-03-22 01:28:12 公開日:2021-01-20
# 分類学は役立つか? 質問分類を用いた意味的質問照合の改善

Can Taxonomy Help? Improving Semantic Question Matching using Question Taxonomy ( http://arxiv.org/abs/2101.08201v1 )

ライセンス: Link先を確認
Deepak Gupta, Rajkumar Pujari, Asif Ekbal, Pushpak Bhattacharyya, Anutosh Maitra, Tom Jain, Shubhashis Sengupta(参考訳) 本稿では,意味的質問マッチングのためのハイブリッド手法を提案する。 提案手法は,ディープラーニングに基づく問合せ分類器から得られた問合せクラスを用いて,最先端のディープラーニングモデルを拡張することにより,英語質問に対する2層分類法を提案する。 3つのオープンドメインデータセットで実験を行い、提案手法の有効性を示した。 偏順質問ランキング(POQR)ベンチマークデータセットを用いて、最先端の結果を得る。 我々の実証分析は、標準的な分布特性(質問エンコーダによって提供される)と分類学からの知識との結合が、深層学習(DL)や分類学に基づく知識よりも効果的であることを示している。

In this paper, we propose a hybrid technique for semantic question matching. It uses our proposed two-layered taxonomy for English questions by augmenting state-of-the-art deep learning models with question classes obtained from a deep learning based question classifier. Experiments performed on three open-domain datasets demonstrate the effectiveness of our proposed approach. We achieve state-of-the-art results on partial ordering question ranking (POQR) benchmark dataset. Our empirical analysis shows that coupling standard distributional features (provided by the question encoder) with knowledge from taxonomy is more effective than either deep learning (DL) or taxonomy-based knowledge alone.
翻訳日:2021-03-22 01:27:35 公開日:2021-01-20
# 生成的質問応答による対話状態追跡におけるゼロショット一般化

Zero-shot Generalization in Dialog State Tracking through Generative Question Answering ( http://arxiv.org/abs/2101.08333v1 )

ライセンス: Link先を確認
Shuyang Li, Jin Cao, Mukund Sridhar, Henghui Zhu, Shang-Wen Li, Wael Hamza, Julian McAuley(参考訳) ダイアログ状態追跡(DST)は、タスク指向ダイアログにおけるユーザの好みや制約(スロット)を追跡することを目的としている。 常に変化するサービスを持つ現実世界では、DSTシステムは新しいドメインと見えないスロットタイプに一般化する必要がある。 DSTの既存のメソッドは、新しいスロット名をうまく一般化せず、多くはスロットタイプと推論の値の既知のオントロジーを必要とする。 マルチドメインタスク指向ダイアログにおける制約やスロットに対する自然言語クエリをサポートする新しいオントロジーフリーフレームワークを提案する。 本手法は,英語副詞に事前学習した条件付き言語モデルを用いた生成的質問応答に基づく。 我々のモデルは、MultiWOZ 2.1データセットの以前の最先端技術よりも、ゼロショットドメイン適応設定における共同ゴール精度を9%(絶対)向上させる。

Dialog State Tracking (DST), an integral part of modern dialog systems, aims to track user preferences and constraints (slots) in task-oriented dialogs. In real-world settings with constantly changing services, DST systems must generalize to new domains and unseen slot types. Existing methods for DST do not generalize well to new slot names and many require known ontologies of slot types and values for inference. We introduce a novel ontology-free framework that supports natural language queries for unseen constraints and slots in multi-domain task-oriented dialogs. Our approach is based on generative question-answering using a conditional language model pre-trained on substantive English sentences. Our model improves joint goal accuracy in zero-shot domain adaptation settings by up to 9% (absolute) over the previous state-of-the-art on the MultiWOZ 2.1 dataset.
翻訳日:2021-03-22 01:27:26 公開日:2021-01-20
# オントロジーにおけるバイアス-予備評価

Bias in ontologies -- a preliminary assessment ( http://arxiv.org/abs/2101.08035v1 )

ライセンス: Link先を確認
C. Maria Keet(参考訳) コンピューティングやITにおけるオントロジーや類似のアーティファクトの形での論理理論は、データの構造化、注釈付け、クエリに使われ、アルゴリズムに入力されるものに関するデータ分析に影響を与えている。 アルゴリズムバイアスはよく知られた概念だが、バイアスはアルゴリズムの入力を構造化するメカニズムを提供するオントロジーの文脈において何を意味するのか? バイアスの源は何で、どうやってオントロジーに現れますか? 我々はオントロジーに関連するバイアスの種類と、それらが明示的か暗黙的かを調査し、列挙する。 これらの8つのタイプは、現存する生産レベルのオントロジーと文献からのサンプルの例で示される。 次に、バイアスに関する3つの同時に開発されたcovid-19オントロジーを評価し、それぞれのバイアスの異なるサブセットを多かれ少なかれ検出した。 この最初の特徴付けは、情報と知識の表現を主眼とするオントロジーの倫理的側面の感性化に寄与する。

Logical theories in the form of ontologies and similar artefacts in computing and IT are used for structuring, annotating, and querying data, among others, and therewith influence data analytics regarding what is fed into the algorithms. Algorithmic bias is a well-known notion, but what does bias mean in the context of ontologies that provide a structuring mechanism for an algorithm's input? What are the sources of bias there and how would they manifest themselves in ontologies? We examine and enumerate types of bias relevant for ontologies, and whether they are explicit or implicit. These eight types are illustrated with examples from extant production-level ontologies and samples from the literature. We then assessed three concurrently developed COVID-19 ontologies on bias and detected different subsets of types of bias in each one, to a greater or lesser extent. This first characterisation aims contribute to a sensitisation of ethical aspects of ontologies primarily regarding representation of information and knowledge.
翻訳日:2021-03-22 01:27:13 公開日:2021-01-20
# mt5b3: 自律企業構築のためのフレームワーク

mt5b3: A Framework for Building AutonomousTraders ( http://arxiv.org/abs/2101.08169v1 )

ライセンス: Link先を確認
Paulo Andr\'e Lima de Castro(参考訳) 自律的なトレーディングロボットは、長い間、アーティフィシャルインテリジェンスエリアで研究されてきた。 畳み込みニューラルネットワークや深層強化学習(deep reinforcement learning)といった最近のアプローチを含む金融分野では、多くのai技術がテストされてきた。 しかし、これらのロボットが実際の市場や、訓練や評価に頻繁に使われないデータで使用される場合、リスクやリターンの面では非常に低いパフォーマンスを示す。 本稿では,自律取引業者のモデリングと金融界である複雑な環境に関する基礎的側面について概説する。 さらに,自律トレーダの開発とテストを支援するフレームワークも提示した。 また、金融市場における実物や模擬業務にも利用することができる。 最後に,この領域のオープンな問題について論じ,課題の進展に寄与するであろう興味深い技術について指摘した。 mt5b3は新しい自律型トレーダーの開発にも寄与すると信じている。

Autonomous trading robots have been studied in ar-tificial intelligence area for quite some time. Many AI techniqueshave been tested in finance field including recent approaches likeconvolutional neural networks and deep reinforcement learning.There are many reported cases, where the developers are suc-cessful in creating robots with great performance when executingwith historical price series, so called backtesting. However, whenthese robots are used in real markets or data not used intheir training or evaluation frequently they present very poorperformance in terms of risks and return. In this paper, wediscussed some fundamental aspects of modelling autonomoustraders and the complex environment that is the financialworld. Furthermore, we presented a framework that helps thedevelopment and testing of autonomous traders. It may also beused in real or simulated operation in financial markets. Finally,we discussed some open problems in the area and pointed outsome interesting technologies that may contribute to advancein such task. We believe that mt5b3 may also contribute todevelopment of new autonomous traders.
翻訳日:2021-03-22 01:26:41 公開日:2021-01-20
# セマンティックセグメンテーションのための特徴共有協調ネットワーク

Feature Sharing Cooperative Network for Semantic Segmentation ( http://arxiv.org/abs/2101.07905v1 )

ライセンス: Link先を確認
Ryota Ikedo, Kazuhiro Hotta(参考訳) 近年,深層ニューラルネットワークは画像認識の分野で高い精度を実現している。 人間の学習から着想を得て,グループ学習に類似した情報を共有する協調学習を用いた意味的セグメンテーション手法を提案する。 2つのネットワーク間でフィーチャーマップを送信するのに、2つの同じネットワークとパスを使用します。 2つのネットワークを同時に訓練する。 特徴マップを共有することにより、2つのネットワークのうちの1つが1つのネットワークで取得できない情報を得ることができる。 また,協調の度合いを高めるために,同一層と複数層のみを接続する2種類の手法を提案する。 提案するアイデアを2種類のネットワークで評価した。 1つはDANet(Dual Attention Network)、もう1つはDeepLabv3+である。 提案手法は,従来の単一ネットワークやネットワークのアンサンブルよりも高いセグメンテーション精度を実現する。

In recent years, deep neural networks have achieved high ac-curacy in the field of image recognition. By inspired from human learning method, we propose a semantic segmentation method using cooperative learning which shares the information resembling a group learning. We use two same networks and paths for sending feature maps between two networks. Two networks are trained simultaneously. By sharing feature maps, one of two networks can obtain the information that cannot be obtained by a single network. In addition, in order to enhance the degree of cooperation, we propose two kinds of methods that connect only the same layer and multiple layers. We evaluated our proposed idea on two kinds of networks. One is Dual Attention Network (DANet) and the other one is DeepLabv3+. The proposed method achieved better segmentation accuracy than the conventional single network and ensemble of networks.
翻訳日:2021-03-22 01:26:26 公開日:2021-01-20
# 弱教師付き物体検出のためのオンラインアクティブ提案セット生成

Online Active Proposal Set Generation for Weakly Supervised Object Detection ( http://arxiv.org/abs/2101.07929v1 )

ライセンス: Link先を確認
Ruibing Jin, Guosheng Lin, and Changyun Wen(参考訳) ボックスレベルのアノテーションの消費電力を減らすため,画像レベルのアノテーションのみを必要とする弱教師付きオブジェクト検出法が近年提案されている。 これらの方法のトレーニングプロセスを2つのステップに定式化する。 まず、弱い監督下でニューラルネットワークをトレーニングし、擬似基底真理(PGT)を生成する。 そして、これらのPGTは、完全な監視下で別のネットワークをトレーニングするために使用される。 完全教師付き手法と比較して、弱教師付き手法の訓練プロセスはより複雑で時間がかかる。 さらに、最初の段階では圧倒的な否定的な提案が絡み合っている。 これはほとんどの手法で無視されており、トレーニングネットワークは負の提案に偏り、PGTの品質が低下し、トレーニングネットワークの性能が2番目のステップで制限される。 オンライン提案サンプリングはこれらの問題に対する直感的な解決策である。 しかし、適切なラベル付けがないため、簡単なオンライン提案サンプリングにより、トレーニングネットワークをローカルなミニマに固定することができる。 そこで本研究では,オンラインアクティブ・プロポーザル・セット生成(OPG)アルゴリズムを提案する。 提案アルゴリズムは動的提案制約 (DPC) と提案分割 (PP) の2つの部分から構成される。 DPCは、現在のトレーニング状況に応じて異なる提案サンプリング戦略を動的に決定する。 PPは各提案をスコアリングし、提案を異なるセットに分割し、ネットワーク最適化のためのアクティブな提案セットを生成する。 実験により,提案したOPGは, PASCAL VOC 2007 と 2012 の両データセットに対して一貫した, 有意な改善を示した。

To reduce the manpower consumption on box-level annotations, many weakly supervised object detection methods which only require image-level annotations, have been proposed recently. The training process in these methods is formulated into two steps. They firstly train a neural network under weak supervision to generate pseudo ground truths (PGTs). Then, these PGTs are used to train another network under full supervision. Compared with fully supervised methods, the training process in weakly supervised methods becomes more complex and time-consuming. Furthermore, overwhelming negative proposals are involved at the first step. This is neglected by most methods, which makes the training network biased towards to negative proposals and thus degrades the quality of the PGTs, limiting the training network performance at the second step. Online proposal sampling is an intuitive solution to these issues. However, lacking of adequate labeling, a simple online proposal sampling may make the training network stuck into local minima. To solve this problem, we propose an Online Active Proposal Set Generation (OPG) algorithm. Our OPG algorithm consists of two parts: Dynamic Proposal Constraint (DPC) and Proposal Partition (PP). DPC is proposed to dynamically determine different proposal sampling strategy according to the current training state. PP is used to score each proposal, part proposals into different sets and generate an active proposal set for the network optimization. Through experiments, our proposed OPG shows consistent and significant improvement on both datasets PASCAL VOC 2007 and 2012, yielding comparable performance to the state-of-the-art results.
翻訳日:2021-03-22 01:26:18 公開日:2021-01-20
# 微調整を超えて:機能保存変換を用いた高分解能マンモグラムの分類

Beyond Fine-tuning: Classifying High Resolution Mammograms using Function-Preserving Transformations ( http://arxiv.org/abs/2101.07945v1 )

ライセンス: Link先を確認
Tao Wei, Angelica I Aviles-Rivero, Shuo Wang, Yuan Huang, Fiona J Gilbert, Carola-Bibiane Sch\"onlieb, Chang Wen Chen(参考訳) マンモグラフィーの分類は,高解像度画像では病変が小さいため,非常に困難である。 医用画像分類における現在の最先端のアプローチは、ConvNetsのデファクト方式(ファクトチューニング)に頼っている。 しかし、自然画像と医学画像には根本的な違いがあり、文献からの既存の証拠に基づき、アルゴリズムによる設計による全体的な性能向上が制限されている。 本稿では,新しいトランスファー学習方式を強調するmorphhrと呼ばれる新しいフレームワークを導入することで,微調整を超越することを提案する。 提案されたフレームワークの背景にあるアイデアは、任意の連続的な非線形活性化ニューロンに対して機能保存変換を統合することで、マンモグラム分類を改善するネットワークを内部的に調整することである。 提案するソリューションは,既存の技術に対して2つの大きなメリットがある。 まず、微調整とは異なり、提案されたアプローチでは、最後のいくつかのレイヤだけでなく、Deep ConvNetの最初のレイヤも修正できる。 これによって、ドメイン固有の機能を学ぶのに適したネットワークフロントを設計することができます。 第二に、提案方式はハードウェアにスケーラブルである。 したがって、標準的なGPUメモリに高解像度の画像が収まる。 高解像度画像を用いることで,関連情報の消失を防止できることを示す。 数値的および視覚的な実験を通して,提案手法は最先端技術よりも分類性能が著しく向上し,放射線学の専門家と同等であることを示す。 さらに,本手法の汎用化のために,ChestX-ray14という別の大規模データセットに対する学習手法の有効性を示す。

The task of classifying mammograms is very challenging because the lesion is usually small in the high resolution image. The current state-of-the-art approaches for medical image classification rely on using the de-facto method for ConvNets - fine-tuning. However, there are fundamental differences between natural images and medical images, which based on existing evidence from the literature, limits the overall performance gain when designed with algorithmic approaches. In this paper, we propose to go beyond fine-tuning by introducing a novel framework called MorphHR, in which we highlight a new transfer learning scheme. The idea behind the proposed framework is to integrate function-preserving transformations, for any continuous non-linear activation neurons, to internally regularise the network for improving mammograms classification. The proposed solution offers two major advantages over the existing techniques. Firstly and unlike fine-tuning, the proposed approach allows for modifying not only the last few layers but also several of the first ones on a deep ConvNet. By doing this, we can design the network front to be suitable for learning domain specific features. Secondly, the proposed scheme is scalable to hardware. Therefore, one can fit high resolution images on standard GPU memory. We show that by using high resolution images, one prevents losing relevant information. We demonstrate, through numerical and visual experiments, that the proposed approach yields to a significant improvement in the classification performance over state-of-the-art techniques, and is indeed on a par with radiology experts. Moreover and for generalisation purposes, we show the effectiveness of the proposed learning scheme on another large dataset, the ChestX-ray14, surpassing current state-of-the-art techniques.
翻訳日:2021-03-22 01:25:55 公開日:2021-01-20
# クラスワイド型拡張による水中物体検出データセットの作成

Class balanced underwater object detection dataset generated by class-wise style augmentation ( http://arxiv.org/abs/2101.07959v1 )

ライセンス: Link先を確認
Long Chen, Junyu Dong and Huiyu Zhou(参考訳) 水中物体検出技術は水中の様々な用途において非常に重要である。 しかし、クラス不均衡問題は現在の水中物体検出アルゴリズムの未解決のボトルネックである。 その結果,より訓練データの多い支配クラスの方が検出精度が高く,訓練データが少ないマイノリティクラスでは検出精度がはるかに低いクラス間で大きな精度差が生じた。 本稿では,公衆コンテスト水中データセット URPC2018 からクラスバランス付き水中データセット Balance18 を生成するための,新しいクラスワイド型拡張アルゴリズムを提案する。 CWSAは、マイノリティクラスの様々な色、テクスチャ、コントラストを生成することで、マイノリティクラスのトレーニングデータを増強する新しいタイプのデータ拡張技術である。 CWSAは、フリップ、トリミング、ローテーションといった従来のデータ拡張アルゴリズムと比較して、多様な色歪みとヘイズ効果を持つバランスのとれた水中データセットを生成することができる。

Underwater object detection technique is of great significance for various applications in underwater the scenes. However, class imbalance issue is still an unsolved bottleneck for current underwater object detection algorithms. It leads to large precision discrepancies among different classes that the dominant classes with more training data achieve higher detection precisions while the minority classes with fewer training data achieves much lower detection precisions. In this paper, we propose a novel class-wise style augmentation (CWSA) algorithm to generate a class-balanced underwater dataset Balance18 from the public contest underwater dataset URPC2018. CWSA is a new kind of data augmentation technique which augments the training data for the minority classes by generating various colors, textures and contrasts for the minority classes. Compare with previous data augmentation algorithms such flipping, cropping and rotations, CWSA is able to generate a class balanced underwater dataset with diverse color distortions and haze-effects.
翻訳日:2021-03-22 01:25:29 公開日:2021-01-20
# FedNS: モバイルクライアントにおける協調画像分類のためのフェデレーション学習の改善

FedNS: Improving Federated Learning for collaborative image classification on mobile clients ( http://arxiv.org/abs/2101.07995v1 )

ライセンス: Link先を確認
Yaoxin Zhuo, Baoxin Li(参考訳) Federated Learning(FL)は、集中型サーバの助けを借りてグローバルモデルを学ぶ際に、疎結合なクライアントをサポートするためのパラダイムである。 最も一般的なFLアルゴリズムはFederated Averaging (FedAvg) であり、これはクライアントモデルの重み付け平均に基づいており、その重みはクライアントのデータセットサイズに基づいて決定される。 本稿では、fl設定におけるサーバのグローバルモデル集約のためのフェデレーションノード選択(fedns)と呼ばれる新しい手法を提案する。 fednは、クライアントのモデルをノード/カーネルレベルでフィルタリングし、再重み付けすることで、クライアントの最良のコンポーネントを融合することで、潜在的に優れたグローバルモデルを実現することができる。 協調画像分類を例として、FedNSがFedAvgよりも継続的に性能を向上できる複数のデータセットとネットワークの実験を示す。

Federated Learning (FL) is a paradigm that aims to support loosely connected clients in learning a global model collaboratively with the help of a centralized server. The most popular FL algorithm is Federated Averaging (FedAvg), which is based on taking weighted average of the client models, with the weights determined largely based on dataset sizes at the clients. In this paper, we propose a new approach, termed Federated Node Selection (FedNS), for the server's global model aggregation in the FL setting. FedNS filters and re-weights the clients' models at the node/kernel level, hence leading to a potentially better global model by fusing the best components of the clients. Using collaborative image classification as an example, we show with experiments from multiple datasets and networks that FedNS can consistently achieve improved performance over FedAvg.
翻訳日:2021-03-22 01:24:24 公開日:2021-01-20
# 画像キャプションのためのテキスト生成のマクロ制御

Macroscopic Control of Text Generation for Image Captioning ( http://arxiv.org/abs/2101.08000v1 )

ライセンス: Link先を確認
Zhangzi Zhu, Tianlei Wang, and Hong Qu(参考訳) 画像キャプションモデルが与えられた画像に対して印象的な記述を生成できたという事実にもかかわらず、(1)既存のモデルの制御可能性と多様性はまだ十分ではない。 本稿では, 2つの新しい手法をそれぞれ導入し, 課題を解決した。 具体的には,前者問題に対して,文の質,文長,文時制,名詞数などのマクロな文属性を制御可能な制御信号を導入する。 このような制御信号により、既存のキャプションモデルの制御性と多様性が向上する。 後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。 その結果、この戦略は質の低い文の割合を効果的に減らすことができる。 提案手法は,ほとんどの画像キャプションモデルに容易に適用でき,全体的な性能が向上する。 Up-Downモデルに基づく実験の結果,MSCOCO KarpathyテストではBLEU4/CIDEr/SPICEスコアが37.5/120.3/21.5であり,クロスエントロピー・トレーニングでは,クロスエントロピー・ロスによって訓練された他の最先端手法よりも優れていることがわかった。

Despite the fact that image captioning models have been able to generate impressive descriptions for a given image, challenges remain: (1) the controllability and diversity of existing models are still far from satisfactory; (2) models sometimes may produce extremely poor-quality captions. In this paper, two novel methods are introduced to solve the problems respectively. Specifically, for the former problem, we introduce a control signal which can control the macroscopic sentence attributes, such as sentence quality, sentence length, sentence tense and number of nouns etc. With such a control signal, the controllability and diversity of existing captioning models are enhanced. For the latter problem, we innovatively propose a strategy that an image-text matching model is trained to measure the quality of sentences generated in both forward and backward directions and finally choose the better one. As a result, this strategy can effectively reduce the proportion of poorquality sentences. Our proposed methods can be easily applie on most image captioning models to improve their overall performance. Based on the Up-Down model, the experimental results show that our methods achieve BLEU- 4/CIDEr/SPICE scores of 37.5/120.3/21.5 on MSCOCO Karpathy test split with cross-entropy training, which surpass the results of other state-of-the-art methods trained by cross-entropy loss.
翻訳日:2021-03-22 01:24:07 公開日:2021-01-20
# 小さな電球で現実の赤外線歩行者検知器を騙す

Fooling thermal infrared pedestrian detectors in real world using small bulbs ( http://arxiv.org/abs/2101.08154v1 )

ライセンス: Link先を確認
Xiaopei Zhu, Xiao Li, Jianmin Li, Zheyao Wang, Xiaolin Hu(参考訳) 赤外線検知システムは、夜間の安全、自律運転、体温検出など多くの分野で重要な役割を果たしている。 パッシブイメージング、温度感度、浸透率というユニークな利点がある。 しかし、システム自体のセキュリティは十分に検討されておらず、システムの適用にリスクが伴う。 本研究では,基板上に小さな電球を配置した物理攻撃方式を提案する。 我々の目標は、赤外線歩行者検出器が現実世界の歩行者を検知できないようにすることです。 この目的に向けて,まず2種類のパッチを用いて,yolov3に基づく赤外線歩行者検出器を攻撃できることを実証した。 デジタル世界では平均精度 (ap) が64.12%減少し、同じ大きさの空板がapを29.69%減少させた。 その後、我々は物理基板を設計・製造し、現実世界でYOLOv3を攻撃した。 記録されたビデオでは、物理基板はターゲット検出器のAPを34.48%低下させ、一方同じ大きさのブランクボードはAPを14.91%低下させた。 アンサンブル攻撃技術により、設計された物理基板は、見えない検出器への転送性に優れた。

Thermal infrared detection systems play an important role in many areas such as night security, autonomous driving, and body temperature detection. They have the unique advantages of passive imaging, temperature sensitivity and penetration. But the security of these systems themselves has not been fully explored, which poses risks in applying these systems. We propose a physical attack method with small bulbs on a board against the state of-the-art pedestrian detectors. Our goal is to make infrared pedestrian detectors unable to detect real-world pedestrians. Towards this goal, we first showed that it is possible to use two kinds of patches to attack the infrared pedestrian detector based on YOLOv3. The average precision (AP) dropped by 64.12% in the digital world, while a blank board with the same size caused the AP to drop by 29.69% only. After that, we designed and manufactured a physical board and successfully attacked YOLOv3 in the real world. In recorded videos, the physical board caused AP of the target detector to drop by 34.48%, while a blank board with the same size caused the AP to drop by 14.91% only. With the ensemble attack techniques, the designed physical board had good transferability to unseen detectors.
翻訳日:2021-03-22 01:23:10 公開日:2021-01-20
# 正確なバウンディングボックス回帰のための焦点・効率の良いIOU損失

Focal and Efficient IOU Loss for Accurate Bounding Box Regression ( http://arxiv.org/abs/2101.08158v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Weiqiang Ren, Zhang Zhang, Zhen Jia, Liang Wang, Tieniu Tan(参考訳) オブジェクト検出において、バウンディングボックス回帰(BBR)は、オブジェクトのローカライゼーション性能を決定する重要なステップである。 i) $\ell_n$-norm と iou-based の両方の損失関数は、bbrの目的を描くのに非効率であり、収束が遅く、回帰結果が不正確である。 (ii) 損失関数のほとんどがbbrにおける不均衡問題を無視しており、対象ボックスとの重なりが小さい多数のアンカーボックスがbbrの最適化に大きく寄与している。 そこで, 本論文では, BBR損失の可能性を活かすための徹底的な研究を行った。 まず, BBRにおける3つの幾何学的因子,すなわち重なり領域, 中心点, 側長の相違を明示的に測定する, 連合(EIOU)損失に対する効率的な断面積を提案する。 その後、効果的なサンプルマイニング(eem)問題を述べ、回帰過程を高品質アンカーボックスに集中させるために焦点損失の回帰バージョンを提案する。 最後に、上記の2つの部品を組み合わせて新たな損失関数、すなわちFocal-EIOU損失を得る。 合成データセットと実データセットの両方に関する大規模な実験を行う。 他のBBR損失よりも収束速度と局所化精度の両方において顕著な優位性が得られる。

In object detection, bounding box regression (BBR) is a crucial step that determines the object localization performance. However, we find that most previous loss functions for BBR have two main drawbacks: (i) Both $\ell_n$-norm and IOU-based loss functions are inefficient to depict the objective of BBR, which leads to slow convergence and inaccurate regression results. (ii) Most of the loss functions ignore the imbalance problem in BBR that the large number of anchor boxes which have small overlaps with the target boxes contribute most to the optimization of BBR. To mitigate the adverse effects caused thereby, we perform thorough studies to exploit the potential of BBR losses in this paper. Firstly, an Efficient Intersection over Union (EIOU) loss is proposed, which explicitly measures the discrepancies of three geometric factors in BBR, i.e., the overlap area, the central point and the side length. After that, we state the Effective Example Mining (EEM) problem and propose a regression version of focal loss to make the regression process focus on high-quality anchor boxes. Finally, the above two parts are combined to obtain a new loss function, namely Focal-EIOU loss. Extensive experiments on both synthetic and real datasets are performed. Notable superiorities on both the convergence speed and the localization accuracy can be achieved over other BBR losses.
翻訳日:2021-03-22 01:22:54 公開日:2021-01-20
# 軌道対応マルチモーダル特徴を用いた映像関係検出

Video Relation Detection with Trajectory-aware Multi-modal Features ( http://arxiv.org/abs/2101.08165v1 )

ライセンス: Link先を確認
Wentao Xie, Guanghui Ren, Si Liu(参考訳) ビデオ関係検出問題は、空間的関係やアクション関係など、ビデオ内の異なるオブジェクト間の関係を検出することを指す。 本稿では,この課題を解決するために,トラジェクトリ対応マルチモーダル特徴を用いた映像関係検出を提案する。 ビデオにおける視覚的関係検出の複雑さを考慮すると、このタスクをオブジェクト検出、軌道提案、関係予測の3つのサブタスクに分解する。 我々は,最先端の物体検出法を用いて,物体の軌跡検出精度とマルチモーダル特徴表現の精度を保証し,物体間の関係の予測を支援する。 本手法は,ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジの動画関係検出タスクにおいて,11.74 % mAP を突破し,他の手法を大差で上回った。

Video relation detection problem refers to the detection of the relationship between different objects in videos, such as spatial relationship and action relationship. In this paper, we present video relation detection with trajectory-aware multi-modal features to solve this task. Considering the complexity of doing visual relation detection in videos, we decompose this task into three sub-tasks: object detection, trajectory proposal and relation prediction. We use the state-of-the-art object detection method to ensure the accuracy of object trajectory detection and multi-modal feature representation to help the prediction of relation between objects. Our method won the first place on the video relation detection task of Video Relation Understanding Grand Challenge in ACM Multimedia 2020 with 11.74\% mAP, which surpasses other methods by a large margin.
翻訳日:2021-03-22 01:22:33 公開日:2021-01-20
# PCAによる異方性拡散に基づくSARと光データ融合とLCPを用いたパッチを用いた分類

SAR and Optical data fusion based on Anisotropic Diffusion with PCA and Classification using Patch-based with LBP ( http://arxiv.org/abs/2101.08215v1 )

ライセンス: Link先を確認
Achala Shakya, Mantosh Biswas, Mahesh Pal(参考訳) sar(vv,vh偏光)と光学データは画像融合において広く使われ、相互の補足情報を利用し、改良された分類結果のために(空間的およびスペクトル的特徴の観点から)より高品質な画像を得る。 本稿では、SARと光データの融合にPCAと異方性拡散を用い、LBP(LBP-PSVM)を用いたパッチベースのSVM分類を行う。 VV分極による核融合は, 核融合法によるVH分極よりも良好であった。 分類では、S1(VV)とS2(VH)を併用したLBP-PSVMの性能を、SVM分類器(パッチなし)とPSVM分類器(パッチなし)と比較する。 分類結果から, LBP-PSVM分類器は, SVMとPSVM分類器よりも有効であることが示唆された。

SAR (VV and VH polarization) and optical data are widely used in image fusion to use the complimentary information of each other and to obtain the better-quality image (in terms of spatial and spectral features) for the improved classification results. This paper uses anisotropic diffusion with PCA for the fusion of SAR and optical data and patch-based SVM Classification with LBP (LBP-PSVM). Fusion results with VV polarization performed better than VH polarization using considered fusion method. For classification, the performance of LBP-PSVM using S1 (VV) with S2, S1 (VH) with S2 is compared with SVM classifier (without patch) and PSVM classifier (with patch), respectively. Classification results suggests that the LBP-PSVM classifier is more effective in comparison to SVM and PSVM classifiers for considered data.
翻訳日:2021-03-22 01:22:21 公開日:2021-01-20
# SCADAデータに基づく風車ブレードのインテリジェントアイシング検出モデル

Intelligent Icing Detection Model of Wind Turbine Blades Based on SCADA data ( http://arxiv.org/abs/2101.07914v1 )

ライセンス: Link先を確認
Wenqian Jiang, Junyang Jin(参考訳) 風力タービンの羽根に氷が付着していることの診断は、風力発電所の状況監視において、常に困難である。 既存の手法では, ic化過程の機構解析, 特徴工学の偏差度解析に焦点をあてている。 しかし、現在、この分野にニューラルネットワークを応用した深い研究は行われていない。 監視制御とデータ取得(SCADA)により、風力タービンの運転パラメータと性能パラメータだけでなく、環境パラメータと運転モードを継続的に提供し、ネットワークを訓練することができる。 本稿では、畳み込みニューラルネットワーク(CNN)、生成敵対ネットワーク(GAN)、ドメイン適応学習を用いて、異なるトレーニングシナリオ下でインテリジェントな診断フレームワークを確立する可能性について検討する。 具体的には, PGANC と PGANT は, 目標風力タービンラベル付きデータに対して, それぞれ十分かつ不十分であることを示す。 基本的な考え方は、通常のサンプルとアイシングサンプルの固有の特徴を捉えるために、並列GANを用いた2段階の訓練を行い、その後、様々なトレーニングケースでCNNやドメイン適応モジュールを分類することである。 3つの風力タービンSCADAデータのモデル検証は、2段階の訓練がモデル性能を効果的に改善できることを示している。 さらに、実際の産業実践において非常に一般的な目標タービンに十分なラベル付きデータがない場合、ドメイン適応学習の追加により、訓練されたモデルの性能が向上する。 提案するインテリジェント診断フレームワークは,他の機械学習モデルや従来のCNNと比較して,同じ風力タービン上でのより正確な検出と,新しい風力タービン上でのより汎用的な機能を実現することができる。

Diagnosis of ice accretion on wind turbine blades is all the time a hard nut to crack in condition monitoring of wind farms. Existing methods focus on mechanism analysis of icing process, deviation degree analysis of feature engineering. However, there have not been deep researches of neural networks applied in this field at present. Supervisory control and data acquisition (SCADA) makes it possible to train networks through continuously providing not only operation parameters and performance parameters of wind turbines but also environmental parameters and operation modes. This paper explores the possibility that using convolutional neural networks (CNNs), generative adversarial networks (GANs) and domain adaption learning to establish intelligent diagnosis frameworks under different training scenarios. Specifically, PGANC and PGANT are proposed for sufficient and non-sufficient target wind turbine labeled data, respectively. The basic idea is that we consider a two-stage training with parallel GANs, which are aimed at capturing intrinsic features for normal and icing samples, followed by classification CNN or domain adaption module in various training cases. Model validation on three wind turbine SCADA data shows that two-stage training can effectively improve the model performance. Besides, if there is no sufficient labeled data for a target turbine, which is an extremely common phenomenon in real industrial practices, the addition of domain adaption learning makes the trained model show better performance. Overall, our proposed intelligent diagnosis frameworks can achieve more accurate detection on the same wind turbine and more generalized capability on a new wind turbine, compared with other machine learning models and conventional CNNs.
翻訳日:2021-03-22 01:22:01 公開日:2021-01-20
# 産業品質関連パフォーマンスモデリングとモニタリングのための表象評価ブロック型教師・学生ネットワーク

Representation Evaluation Block-based Teacher-Student Network for the Industrial Quality-relevant Performance Modeling and Monitoring ( http://arxiv.org/abs/2101.07976v1 )

ライセンス: Link先を確認
Dan Yang, Xin Peng, Yusheng Lu, Haojie Huang, Weimin Zhong(参考訳) 品質関連障害検出は産業プロセスにおいて重要な役割を担う一方で、現在のニューラルネットワークに基づく品質関連障害検出手法は、プロセス関連変数に主に集中し、プロセス監視の適用を制限する品質関連変数を無視している。 そこで本研究では,品質関連故障検出のための改良型教師学生ネットワークに基づく故障検出手法を提案する。 従来の教師・生徒ネットワークでは、教師ネットワークと生徒ネットワーク間の特徴差が生徒ネットワークのパフォーマンス低下を引き起こすため、表出評価ブロック(reb)が教師と生徒ネットワーク間の特徴差を定量化するために提案され、不確実性モデリングを用いて、特徴差の低減や学生ネットワークのパフォーマンス向上に有用なモデリングプロセスにこの差を加える。 したがって、教師-学生ネットワークにおいて、REBと不確実性モデリングを、教師-学生オートエンコーダ(tsuAE)として適用する。 次に,提案手法をプロセス監視に適用し,プロセス関連部分空間と品質関連部分空間の障害を効果的に検出する。 提案手法は, 故障検出性能が他の故障検出法と比較して良好であることを示す2つのシミュレーション実験で検証された。

Quality-relevant fault detection plays an important role in industrial processes, while the current quality-related fault detection methods based on neural networks main concentrate on process-relevant variables and ignore quality-relevant variables, which restrict the application of process monitoring. Therefore, in this paper, a fault detection scheme based on the improved teacher-student network is proposed for quality-relevant fault detection. In the traditional teacher-student network, as the features differences between the teacher network and the student network will cause performance degradation on the student network, representation evaluation block (REB) is proposed to quantify the features differences between the teacher and the student networks, and uncertainty modeling is used to add this difference in modeling process, which are beneficial to reduce the features differences and improve the performance of the student network. Accordingly, REB and uncertainty modeling is applied in the teacher-student network named as uncertainty modeling teacher-student uncertainty autoencoder (TSUAE). Then, the proposed TSUAE is applied to process monitoring, which can effectively detect faults in the process-relevant subspace and quality-relevant subspace simultaneously. The proposed TSUAE-based fault detection method is verified in two simulation experiments illustrating that it has satisfactory fault detection performance compared to other fault detection methods.
翻訳日:2021-03-22 01:21:36 公開日:2021-01-20
# 一般化Weisfeiler-Lehmanグラフカーネル

A Generalized Weisfeiler-Lehman Graph Kernel ( http://arxiv.org/abs/2101.08104v1 )

ライセンス: Link先を確認
Till Hendrik Schulz, Tam\'as Horv\'ath, Pascal Welke, Stefan Wrobel(参考訳) Weisfeiler-Lehmanグラフカーネルは、その顕著な時間複雑性と予測性能のため、最も一般的なグラフカーネルの一つである。 彼らの鍵となる概念は、等式(すなわち同型)に関して木を表す近傍の暗黙の比較に基づいている。 しかし、この2値比較はグラフ上の適切な類似度尺度を定義するには厳密すぎる。 この制限を克服するために,木間の類似性を考慮したweisfeiler-lehmanグラフカーネルの一般化を提案する。 本研究は, 効率良く計算できる既知のツリー編集距離の具体的変動を用いて実現する。 分子グラフ以外の構造的に複雑なグラフを含むデータセットの予測性能において,本手法が最先端の手法を著しく上回ることを示す。

The Weisfeiler-Lehman graph kernels are among the most prevalent graph kernels due to their remarkable time complexity and predictive performance. Their key concept is based on an implicit comparison of neighborhood representing trees with respect to equality (i.e., isomorphism). This binary valued comparison is, however, arguably too rigid for defining suitable similarity measures over graphs. To overcome this limitation, we propose a generalization of Weisfeiler-Lehman graph kernels which takes into account the similarity between trees rather than equality. We achieve this using a specifically fitted variation of the well-known tree edit distance which can efficiently be calculated. We empirically show that our approach significantly outperforms state-of-the-art methods in terms of predictive performance on datasets containing structurally more complex graphs beyond the typically considered molecular graphs.
翻訳日:2021-03-22 01:21:15 公開日:2021-01-20
# エンサンブル多様体に基づく認知能力予測のための正規化マルチモーダルグラフ畳み込みネットワーク

Ensemble manifold based regularized multi-modal graph convolutional network for cognitive ability prediction ( http://arxiv.org/abs/2101.08316v1 )

ライセンス: Link先を確認
Gang Qu, Li Xiao, Wenxing Hu, Kun Zhang, Vince D. Calhoun, Yu-Ping Wang(参考訳) 目的: マルチモーダル機能的磁気共鳴イメージング(fMRI)は、脳の接続ネットワークに基づいて、個人の行動特性や認知特性を予測するために用いられる。 方法: 多モードfMRIの相補的情報を活用するため,fMRI時系列と各脳領域間の機能接続(FC)を組み込んだ,解釈可能な多モードグラフ畳み込みネットワーク(MGCN)モデルを提案する。 具体的には,マルチモーダルデータから得られた個々の脳ネットワークからグラフ埋め込みを学習する。 多様体に基づく正規化項は、モダリティ内およびモダリティ間の対象の関係を考えるために強制される。 さらに,認知関連バイオマーカーを同定するために,勾配重み付き回帰アクティベーションマッピング (Grad-RAM) とエッジマスク学習 (エッジマスク学習) を提案する。 結果: フィラデルフィア神経発達コホートにおけるmgcnモデルの有効性を検証し, 個人の広域達成テスト(wrat)スコアを予測した。 このモデルは単一のモダリティと他の競合するアプローチでgcnよりも優れた予測性能を得る。 同定されたバイオマーカーは異なるアプローチから相互に検証される。 結論と意義:本稿は認知能力予測のための新しい解釈可能なグラフ深層学習フレームワークを開発した。 この結果は、マルチモーダルfMRIの解析と、ヒト脳研究における重要なバイオマーカー発見におけるMGCNの力を示すものである。

Objective: Multi-modal functional magnetic resonance imaging (fMRI) can be used to make predictions about individual behavioral and cognitive traits based on brain connectivity networks. Methods: To take advantage of complementary information from multi-modal fMRI, we propose an interpretable multi-modal graph convolutional network (MGCN) model, incorporating the fMRI time series and the functional connectivity (FC) between each pair of brain regions. Specifically, our model learns a graph embedding from individual brain networks derived from multi-modal data. A manifold-based regularization term is then enforced to consider the relationships of subjects both within and between modalities. Furthermore, we propose the gradient-weighted regression activation mapping (Grad-RAM) and the edge mask learning to interpret the model, which is used to identify significant cognition-related biomarkers. Results: We validate our MGCN model on the Philadelphia Neurodevelopmental Cohort to predict individual wide range achievement test (WRAT) score. Our model obtains superior predictive performance over GCN with a single modality and other competing approaches. The identified biomarkers are cross-validated from different approaches. Conclusion and Significance: This paper develops a new interpretable graph deep learning framework for cognitive ability prediction, with the potential to overcome the limitations of several current data-fusion models. The results demonstrate the power of MGCN in analyzing multi-modal fMRI and discovering significant biomarkers for human brain studies.
翻訳日:2021-03-22 01:20:44 公開日:2021-01-20
# NEMR:関係のメトリクスに関するネットワーク埋め込み

NEMR: Network Embedding on Metric of Relation ( http://arxiv.org/abs/2101.08020v1 )

ライセンス: Link先を確認
Luodi Xie, Hong Shen, Jiaxin Ren(参考訳) ネットワーク埋め込みは、与えられたネットワークのノードを低次元空間にマッピングし、ノード間のセマンティックな類似性を効果的に推測する。 既存のアプローチでは、ノード間の類似度を測定するためにノード埋め込みの内積を使用するため、ノード間の複雑な関係をキャプチャする能力が欠如している。 さらに、ノード埋め込みを推測する場合、ネットワーク内のパスは構造的な補助情報として、ネットワーク内のパスは意味的に関連があり無視できないリッチなユーザ情報で形成される。 本稿では,関係計量空間におけるノードの埋め込みを効率的に学習する,NEMR(Network Embedding on the Metric of Relation)と呼ばれる新しい手法を提案する。 まず、我々のNEMRは、不確かさを捉えるために、ノードの関係をガウス分布にマッピングする変分推論を含む深層学習手法を用いて、計量空間内のノード間の関係をモデル化する。 第2に,複数パスの等価性だけでなく,ノードの埋め込みを推測する場合の単一パスの自然な順序も考慮し,複数のパスがリッチなユーザ情報,例えば年齢,趣味,職業などを含むため,ノード間の多重関係を捉えることができる。 いくつかの公開データセットの実験結果は、NEMRがリンク予測やノード分類を含む関連する推論タスクにおいて最先端の手法より優れていることを示している。

Network embedding maps the nodes of a given network into a low-dimensional space such that the semantic similarities among the nodes can be effectively inferred. Most existing approaches use inner-product of node embedding to measure the similarity between nodes leading to the fact that they lack the capacity to capture complex relationships among nodes. Besides, they take the path in the network just as structural auxiliary information when inferring node embeddings, while paths in the network are formed with rich user informations which are semantically relevant and cannot be ignored. In this paper, We propose a novel method called Network Embedding on the Metric of Relation, abbreviated as NEMR, which can learn the embeddings of nodes in a relational metric space efficiently. First, our NEMR models the relationships among nodes in a metric space with deep learning methods including variational inference that maps the relationship of nodes to a gaussian distribution so as to capture the uncertainties. Secondly, our NEMR considers not only the equivalence of multiple-paths but also the natural order of a single-path when inferring embeddings of nodes, which makes NEMR can capture the multiple relationships among nodes since multiple paths contain rich user information, e.g., age, hobby and profession. Experimental results on several public datasets show that the NEMR outperforms the state-of-the-art methods on relevant inference tasks including link prediction and node classification.
翻訳日:2021-03-22 01:20:19 公開日:2021-01-20
# 高齢者の転倒予防のための個人情報更新システム

Obsolete Personal Information Update System for the Prevention of Falls among Elderly Patients ( http://arxiv.org/abs/2101.10132v1 )

ライセンス: Link先を確認
Salma Chaieb and Brahim Hnich and Ali Ben Mrad(参考訳) 転倒は高齢者に共通する問題であり、公衆衛生の問題でもある。 世界保健機関(who)は、65歳以上の成人の3人に1人が、80歳以上の成人の半数が毎年転倒していると報告している。 近年、より効果的な転倒予防介入を提供するために、ますます多くのアプリケーションが開発されている。 これらのアプリケーションはすべて、病院や相互健康、高齢者の世話をする組織から収集された巨大な高齢者データベースに依存している。 高齢者に関する情報は常に進化し続けており、ある瞬間に時代遅れになり、我々がすでに知っていることと矛盾する可能性がある。 そのため、データベースの一貫性を回復し、より良いサービスを提供するために、継続的にチェックおよび更新する必要があります。 本稿では,高齢者の転倒防止プロジェクトにおけるOIUS(Obsolete Personal Information Update System)の概要について述べる。 我々のOIUSは、高齢者の情報をリアルタイムで管理・更新し、オンデマンドで一貫した情報を提供し、介護者や転倒リスクのある患者に適切な介入を提供する。 この目的のために概説したアプローチは、老人データを表す因果ベイズネットワーク上に構築された多項式時間アルゴリズムに基づいている。 結果は、ある程度の精度のレコメンデーションツリーとして与えられる。 このようなモデルについて高齢者の個人情報ベースで徹底的な実証研究を行う。 実験によりOIUSの有効性と有効性が確認された。

Falls are a common problem affecting the older adults and a major public health issue. Centers for Disease Control and Prevention, and World Health Organization report that one in three adults over the age of 65 and half of the adults over 80 fall each year. In recent years, an ever-increasing range of applications have been developed to help deliver more effective falls prevention interventions. All these applications rely on a huge elderly personal database collected from hospitals, mutual health, and other organizations in caring for elderly. The information describing an elderly is continually evolving and may become obsolete at a given moment and contradict what we already know on the same person. So, it needs to be continuously checked and updated in order to restore the database consistency and then provide better service. This paper provides an outline of an Obsolete personal Information Update System (OIUS) designed in the context of the elderly-fall prevention project. Our OIUS aims to control and update in real-time the information acquired about each older adult, provide on-demand consistent information and supply tailored interventions to caregivers and fall-risk patients. The approach outlined for this purpose is based on a polynomial-time algorithm build on top of a causal Bayesian network representing the elderly data. The result is given as a recommendation tree with some accuracy level. We conduct a thorough empirical study for such a model on an elderly personal information base. Experiments confirm the viability and effectiveness of our OIUS.
翻訳日:2021-03-22 01:19:56 公開日:2021-01-20
# 特徴ランダム拡張モジュールによる細胞画像のセグメンテーション

Cell image segmentation by Feature Random Enhancement Module ( http://arxiv.org/abs/2101.07983v1 )

ライセンス: Link先を確認
Takamasa Ando, Kazuhiro Hotta(参考訳) エンコーダを用いて優れた特徴を抽出し,高精度なセマンティックセグメンテーションを実現することが重要である。 損失関数は深層ニューラルネットワークのトレーニングに最適化されているが、損失関数を演算するための層から遠い層は訓練が難しい。 スキップ接続はこの問題に有効であるが、損失関数からは程遠い層がある。 本稿では,学習のみにおいてランダムに機能を強化する機能ランダム拡張モジュールを提案する。 損失関数から遠方にある機能を強調することで、これらのレイヤをうまくトレーニングでき、精度が向上した。 実験では,提案モジュールを2種類のセルイメージデータセット上で評価し,実験段階での計算コストを増加させることなく,セグメンテーション精度を改善した。

It is important to extract good features using an encoder to realize semantic segmentation with high accuracy. Although loss function is optimized in training deep neural network, far layers from the layers for computing loss function are difficult to train. Skip connection is effective for this problem but there are still far layers from the loss function. In this paper, we propose the Feature Random Enhancement Module which enhances the features randomly in only training. By emphasizing the features at far layers from loss function, we can train those layers well and the accuracy was improved. In experiments, we evaluated the proposed module on two kinds of cell image datasets, and our module improved the segmentation accuracy without increasing computational cost in test phase.
翻訳日:2021-03-22 01:19:39 公開日:2021-01-20
# SplitSR: モバイルデバイスの超解法へのエンドツーエンドアプローチ

SplitSR: An End-to-End Approach to Super-Resolution on Mobile Devices ( http://arxiv.org/abs/2101.07996v1 )

ライセンス: Link先を確認
Xin Liu, Yuang Li, Josh Fromm, Yuntao Wang, Ziheng Jiang, Alex Mariakakis, Shwetak Patel(参考訳) Super- resolution (SR) は、基本的なカメラアプリからモバイル健康まで、モバイルアプリケーションのための画像処理技術である。 既存のSRアルゴリズムは、大きなメモリ要件を持つディープラーニングモデルに依存しているため、モバイルデバイスにデプロイされず、クラウドで運用することで、実現可能な推論時間を実現している。 この欠点は、ほぼリアルタイムレイテンシを必要とするアプリケーションで既存のSRメソッドが使用されるのを防ぐ。 本研究では、SplitSRと呼ばれる新しいハイブリッドアーキテクチャと、SplitSRBlockと呼ばれる新しい軽量残差ブロックを用いて、デバイス上の超分解能の最先端レイテンシと精度を示す。 splitsrblockはチャネル分割をサポートし、残余ブロックが空間情報を保持でき、チャネル次元での計算を削減できる。 SplitSRは標準の畳み込みブロックと軽量な残留ブロックからなるハイブリッド設計で、計算予算のためにSplitSRをチューニングできる。 我々は,我々のシステムをローエンドのARM CPU上で評価し,従来の手法に比べて高い精度と最大5倍高速な推論を実証した。 次に、当社のモデルをZoomSRというアプリでスマートフォンにデプロイし、デバイス上での深層学習ベースのSRの最初の事例を実演し、15人の参加者とユーザスタディを行い、SplitSRが後処理した画像の品質を評価させた。 両画像(z=-9.270, p<0.01)とテキスト(z=-6.486, p<0.01)の両方を見ると統計的に有意な傾向を示した。

Super-resolution (SR) is a coveted image processing technique for mobile apps ranging from the basic camera apps to mobile health. Existing SR algorithms rely on deep learning models with significant memory requirements, so they have yet to be deployed on mobile devices and instead operate in the cloud to achieve feasible inference time. This shortcoming prevents existing SR methods from being used in applications that require near real-time latency. In this work, we demonstrate state-of-the-art latency and accuracy for on-device super-resolution using a novel hybrid architecture called SplitSR and a novel lightweight residual block called SplitSRBlock. The SplitSRBlock supports channel-splitting, allowing the residual blocks to retain spatial information while reducing the computation in the channel dimension. SplitSR has a hybrid design consisting of standard convolutional blocks and lightweight residual blocks, allowing people to tune SplitSR for their computational budget. We evaluate our system on a low-end ARM CPU, demonstrating both higher accuracy and up to 5 times faster inference than previous approaches. We then deploy our model onto a smartphone in an app called ZoomSR to demonstrate the first-ever instance of on-device, deep learning-based SR. We conducted a user study with 15 participants to have them assess the perceived quality of images that were post-processed by SplitSR. Relative to bilinear interpolation -- the existing standard for on-device SR -- participants showed a statistically significant preference when looking at both images (Z=-9.270, p<0.01) and text (Z=-6.486, p<0.01).
翻訳日:2021-03-22 01:19:28 公開日:2021-01-20
# 自己教師付き事前訓練はSentinel-2画像の変化検出を増強する

Self-supervised pre-training enhances change detection in Sentinel-2 imagery ( http://arxiv.org/abs/2101.08122v1 )

ライセンス: Link先を確認
Marrit Leenstra, Diego Marcos, Francesca Bovolo, Devis Tuia(参考訳) 衛星画像を用いた変更検出のための注釈付き画像の入手は少なく、費用もかかるが、毎日大量のラベルなし画像が生成される。 本研究では,これらのデータを利用して変化検出に適した画像表現を学習するために,Sentinel-2の時系列の時間的一貫性を利用した自己教師付き学習信号を求める。 このために、世界中の1520都市地域のマルチテンポラルイメージペアを含むSentinel-2 Multitemporal Cities Pairs (S2MTCP)データセットを構築し、公開する(https://zenodo.org/ record/4280482)。 変更検出のための事前学習モデルのための複数の自己教師型学習手法の結果を検証し、Sentinel-2イメージペア(OSCD)を用いた公開変更検出データセットに適用する。

While annotated images for change detection using satellite imagery are scarce and costly to obtain, there is a wealth of unlabeled images being generated every day. In order to leverage these data to learn an image representation more adequate for change detection, we explore methods that exploit the temporal consistency of Sentinel-2 times series to obtain a usable self-supervised learning signal. For this, we build and make publicly available (https://zenodo.org/ record/4280482) the Sentinel-2 Multitemporal Cities Pairs (S2MTCP) dataset, containing multitemporal image pairs from 1520 urban areas worldwide. We test the results of multiple self-supervised learning methods for pre-training models for change detection and apply it on a public change detection dataset made of Sentinel-2 image pairs (OSCD).
翻訳日:2021-03-22 01:18:44 公開日:2021-01-20
# シミュレーショントレーニングのための断面モデルスライスからの超音波レンダリング学習

Learning Ultrasound Rendering from Cross-Sectional Model Slices for Simulated Training ( http://arxiv.org/abs/2101.08339v1 )

ライセンス: Link先を確認
Lin Zhang, Tiziano Portenier, Orcun Goksel(参考訳) 目的。 超音波画像のナビゲーションと解釈に必要な高度な専門知識を考えると、計算シミュレーションはバーチャルリアリティーにおけるそのようなスキルの訓練を促進することができる。 レイトレーシングに基づくシミュレーションにより、現実的な超音波画像を生成することができる。 しかし、相互作用性に対する計算上の制約のため、画像の品質を妥協する必要がある。 方法。 そこで本研究では,非時間クリティカルなオフラインステージにおいて,このようなシミュレーションを行い,クロスセクションモデルスライスからシミュレーションフレームへの画像変換を学習することにより,インタラクティブな時間におけるレンダリングとシミュレーションのプロセスをバイパスする手法を提案する。 我々は,ネットワークパラメータを増大させることなく画像品質を大幅に向上させる,専用のジェネレータアーキテクチャと入力供給方式を備えた生成的対向フレームワークを使用する。 クロスセクションモデルスライスから導出される積分減衰マップ、テクスチャフレンドリーなストレート畳み込み、中間層に確率的ノイズと入力マップを提供して局所性を保つことにより、翻訳作業が大幅に容易になることを示す。 結果。 いくつかの品質指標から, 組織マップのみを入力とする提案手法は, 低品質超音波画像を用いた最先端技術に匹敵する, あるいは優れた結果をもたらすことを示す。 広範なアブレーション研究は、質的例と定量的超音波類似度指標に基づいて、本研究で利用される個々の貢献の必要性と利益を示している。 そこで,超音波画像間の局所的差異を可視化するために,局所ヒストグラム統計に基づく誤差メトリックを提案する。

Purpose. Given the high level of expertise required for navigation and interpretation of ultrasound images, computational simulations can facilitate the training of such skills in virtual reality. With ray-tracing based simulations, realistic ultrasound images can be generated. However, due to computational constraints for interactivity, image quality typically needs to be compromised. Methods. We propose herein to bypass any rendering and simulation process at interactive time, by conducting such simulations during a non-time-critical offline stage and then learning image translation from cross-sectional model slices to such simulated frames. We use a generative adversarial framework with a dedicated generator architecture and input feeding scheme, which both substantially improve image quality without increase in network parameters. Integral attenuation maps derived from cross-sectional model slices, texture-friendly strided convolutions, providing stochastic noise and input maps to intermediate layers in order to preserve locality are all shown herein to greatly facilitate such translation task. Results. Given several quality metrics, the proposed method with only tissue maps as input is shown to provide comparable or superior results to a state-of-the-art that uses additional images of low-quality ultrasound renderings. An extensive ablation study shows the need and benefits from the individual contributions utilized in this work, based on qualitative examples and quantitative ultrasound similarity metrics. To that end, a local histogram statistics based error metric is proposed and demonstrated for visualization of local dissimilarities between ultrasound images.
翻訳日:2021-03-22 01:18:27 公開日:2021-01-20
# 局地的気候ダウンスケーリングのための畳み込み条件ニューラルプロセス

Convolutional conditional neural processes for local climate downscaling ( http://arxiv.org/abs/2101.07950v1 )

ライセンス: Link先を確認
Anna Vaughan, Will Tebbutt, J.Scott Hosking and Richard E. Turner(参考訳) 畳み込み条件付きニューラルプロセス (convCNPs) を用いて, 温度と降水量の多地点統計的ダウンスケーリングを行う。 ConvCNPは、最近開発されたモデルのクラスであり、オフザグリッド時空間データにディープラーニング技術を適用することができる。 このモデルは、トレーニングデータの可用性に関係なく、トレーニングされたモデルが任意の場所でマルチサイト予測を生成することができるという点において、既存のダウンスケーリング手法に対して大きな利点がある。 コンブCNPモデルは、VALUE相互比較プロジェクトから採取した温度と降水の両方において、ヨーロッパにおける既存のダウンスケーリング手法のアンサンブルよりも優れていた。 このモデルはまた、ガウス過程を用いて、見えない場所でシングルサイトダウンスケーリングモデルを補間するアプローチよりも優れている。 重要なことは、極端な降水現象の表現においてかなりの改善が見られることである。 以上の結果から,convCNPは,気候影響研究における局所的な予測生成に適した強靭なダウンスケーリングモデルであり,統計的ダウンスケーリングにおける深層学習技術の適用に関するさらなる研究を動機付けていると考えられる。

A new model is presented for multisite statistical downscaling of temperature and precipitation using convolutional conditional neural processes (convCNPs). ConvCNPs are a recently developed class of models that allow deep learning techniques to be applied to off-the-grid spatio-temporal data. This model has a substantial advantage over existing downscaling methods in that the trained model can be used to generate multisite predictions at an arbitrary set of locations, regardless of the availability of training data. The convCNP model is shown to outperform an ensemble of existing downscaling techniques over Europe for both temperature and precipitation taken from the VALUE intercomparison project. The model also outperforms an approach that uses Gaussian processes to interpolate single-site downscaling models at unseen locations. Importantly, substantial improvement is seen in the representation of extreme precipitation events. These results indicate that the convCNP is a robust downscaling model suitable for generating localised projections for use in climate impact studies, and motivates further research into applications of deep learning techniques in statistical downscaling.
翻訳日:2021-03-22 01:18:00 公開日:2021-01-20
# PyTorch-Direct:不規則アクセスを用いた大規模ニューラルネットワークトレーニングのためのGPU中心データアクセスの実現

PyTorch-Direct: Enabling GPU Centric Data Access for Very Large Graph Neural Network Training with Irregular Accesses ( http://arxiv.org/abs/2101.07956v1 )

ライセンス: Link先を確認
Seung Won Min, Kun Wu, Sitao Huang, Mert Hidayeto\u{g}lu, Jinjun Xiong, Eiman Ebrahimi, Deming Chen, Wen-mei Hwu(参考訳) 機械学習コミュニティにおけるグラフニューラルネットワーク(GNN)の採用の増加に伴い、GPUはGNNトレーニングを加速するための重要なツールとなっている。 しかし、GPUメモリに適合しない非常に大きなグラフでGNNをトレーニングすることは依然として難しい課題である。 従来のニューラルネットワークとは異なり、GNNのミニバッチ入力サンプルは、隣接するノードをトラバースしたり、特徴値を集めるといった複雑なタスクを必要とする。 このプロセスはトレーニング時間の大部分を占めるが、PyTorchのような一般的なディープニューラルネットワーク(DNN)ライブラリを使用した既存のGNN実装は、データ準備全体のCPU中心のアプローチに限定されている。 この"オールインCPU"アプローチは、CPUリソースを過剰に活用し、GNNトレーニングのGPUアクセラレーションを妨げるため、全体的なGNNトレーニングパフォーマンスに悪影響を及ぼす。 このような制限を克服するために、GNNトレーニングのためのGPU中心のデータアクセスパラダイムを可能にするPyTorch-Directを導入する。 PyTorch-Directでは、GPUはCPUの介入なしにホストメモリの複雑なデータ構造に直接効率的にアクセスすることができる。 マイクロベンチマークとエンドツーエンドのGNNトレーニングの結果から,PyTorch-Directはデータ転送時間を平均47.1%削減し,GNNトレーニングを最大1.6倍高速化した。 さらに、CPU使用率を下げることで、PyTorch-Directはトレーニング中にシステム電力を12.4%から17.5%削減する。 プログラマの労力を最小限に抑えるため、PyTorchメモリアロケータ、ディスパッチロジック、配置ルールの変更とともに、新しい"統一テンソル"型を導入する。 その結果、ユーザーは各テンソルオブジェクトに対してPyTorch-Directを利用するために、PyTorch GNNトレーニングコードの少なくとも2行を変更する必要がある。

With the increasing adoption of graph neural networks (GNNs) in the machine learning community, GPUs have become an essential tool to accelerate GNN training. However, training GNNs on very large graphs that do not fit in GPU memory is still a challenging task. Unlike conventional neural networks, mini-batching input samples in GNNs requires complicated tasks such as traversing neighboring nodes and gathering their feature values. While this process accounts for a significant portion of the training time, we find existing GNN implementations using popular deep neural network (DNN) libraries such as PyTorch are limited to a CPU-centric approach for the entire data preparation step. This "all-in-CPU" approach has negative impact on the overall GNN training performance as it over-utilizes CPU resources and hinders GPU acceleration of GNN training. To overcome such limitations, we introduce PyTorch-Direct, which enables a GPU-centric data accessing paradigm for GNN training. In PyTorch-Direct, GPUs are capable of efficiently accessing complicated data structures in host memory directly without CPU intervention. Our microbenchmark and end-to-end GNN training results show that PyTorch-Direct reduces data transfer time by 47.1% on average and speeds up GNN training by up to 1.6x. Furthermore, by reducing CPU utilization, PyTorch-Direct also saves system power by 12.4% to 17.5% during training. To minimize programmer effort, we introduce a new "unified tensor" type along with necessary changes to the PyTorch memory allocator, dispatch logic, and placement rules. As a result, users need to change at most two lines of their PyTorch GNN training code for each tensor object to take advantage of PyTorch-Direct.
翻訳日:2021-03-22 01:17:44 公開日:2021-01-20
# ロバストなブロックチェーン準備指数モデル

A Robust Blockchain Readiness Index Model ( http://arxiv.org/abs/2101.09162v1 )

ライセンス: Link先を確認
Elias Iosif and Klitos Christodoulou and Andreas Vlachos(参考訳) ブロックチェーンエコシステムが成熟するにつれ、多くの企業や投資家、起業家がブロックチェーンシステムや暗号通貨を扱う機会を求めている。 これらのアクターにとって重要な課題は、ビジネスをスタートまたは発展させるのに最適な環境を特定することである。 一般的に、どの国がブロックチェーンベースのアクティビティをホストし、イノベーティブなプロジェクトを実行するのに最適な条件を提供しているかを特定することが問題です。 Blockchain Readiness Index(BRI)は、ブロックチェーンと暗号通貨を採用する国の成熟度/完成度レベルを測定する数値指標(ブロックチェーン準備度スコア)を提供する。 その際、BRIは情報検索の技術を活用し、一連の国でインデックスランキングをアルゴリズムで導き出す。 この指標は、政府の規制、研究、技術、産業、ユーザーエンゲージメントの5つの柱の下に整理された指標を考慮に入れている。 本稿では,指標の欠落情報の存在下においても,指標を国レベルで導出する能力を有するBRIをさらに拡張する。 そこで我々は,指標値の初期推定値の精算のために,線形重み付けとsgmoid重み付けという2つの重み付けスキームを提案する。 分類精度を有意に向上させた開発手法の有効性を評価するため,分類枠組みを適用した。

As the blockchain ecosystem gets more mature many businesses, investors, and entrepreneurs are seeking opportunities on working with blockchain systems and cryptocurrencies. A critical challenge for these actors is to identify the most suitable environment to start or evolve their businesses. In general, the question is to identify which countries are offering the most suitable conditions to host their blockchain-based activities and implement their innovative projects. The Blockchain Readiness Index (BRI) provides a numerical metric (referred to as the blockchain readiness score) in measuring the maturity/readiness levels of a country in adopting blockchain and cryptocurrencies. In doing so, BRI leverages on techniques from information retrieval to algorithmically derive an index ranking for a set of countries. The index considers a range of indicators organized under five pillars: Government Regulation, Research, Technology, Industry, and User Engagement. In this paper, we further extent BRI with the capability of deriving the index - at the country level - even in the presence of missing information for the indicators. In doing so, we are proposing two weighting schemes namely, linear and sigmoid weighting for refining the initial estimates for the indicator values. A classification framework was employed to evaluate the effectiveness of the developed techniques which yielded to a significant classification accuracy.
翻訳日:2021-03-22 01:16:40 公開日:2021-01-20
# 教師なし学習を用いた室内環境の可視光通信によるモニタリング

Visible light communication-based monitoring for indoor environments using unsupervised learning ( http://arxiv.org/abs/2101.10838v1 )

ライセンス: Link先を確認
Mehmet C. Ilter, Alexis A. Dowhuszko, Jyri H\"am\"al\"ainen and Risto Wichman(参考訳) 可視光通信(vlc)システムは、照明やデータ通信だけでなく、受信した光信号に異なる事象が生ずる効果が適切に追跡される場合の屋内監視サービスも提供する。 この目的のために、VLC受信機が演算してOFDM信号のサブキャリアを等化するチャンネル状態情報も再利用でき、教師なし学習分類器を訓練することができる。 このようにして、収集されたCSIデータ上に異なるクラスタを作成することができ、そのクラスタは、所定の位置に新しいオブジェクトが存在することや、指定されたオブジェクトの位置の変化など、屋内環境で監視される関連するイベントにマッピングされる。 教師付き学習アルゴリズムと比較すると、提案されたアプローチはトレーニングデータにタグを追加する必要はなく、特に機械学習分類器の実装を単純化する。 モニタリング手法の実際的な検証はofdmに基づくソフトウェア定義のvlcリンクを用いて行われ、蛍光変換ledからの強度変調信号のコピーを一対の光検出器~(pds)で捉えた。 実験vlcベースの監視デモの性能評価により,多数のセンサを配置したり,対象物にvlc対応センサを装着したりすることなく,数センチ範囲での測位精度が達成された。

Visible Light Communication~(VLC) systems provide not only illumination and data communication, but also indoor monitoring services if the effect that different events create on the received optical signal is properly tracked. For this purpose, the Channel State Information that a VLC receiver computes to equalize the subcarriers of the OFDM signal can be also reused to train an Unsupervised Learning classifier. This way, different clusters can be created on the collected CSI data, which could be then mapped into relevant events to-be-monitored in the indoor environments, such as the presence of a new object in a given position or the change of the position of a given object. When compared to supervised learning algorithms, the proposed approach does not need to add tags in the training data, simplifying notably the implementation of the machine learning classifier. The practical validation the monitoring approach was done with the aid of a software-defined VLC link based on OFDM, in which a copy of the intensity modulated signal coming from a Phosphor-converted LED was captured by a pair of Photodetectors~(PDs) . The performance evaluation of the experimental VLC-based monitoring demo achieved a positioning accuracy in the few-centimeter-range , without the necessity of deploying a large number of sensors and/or adding a VLC-enabled sensor on the object to-be-tracked.
翻訳日:2021-03-22 01:16:19 公開日:2021-01-20
# 画像の重み付きガウス曲率の離散的計算法

A Discrete Scheme for Computing Image's Weighted Gaussian Curvature ( http://arxiv.org/abs/2101.07927v1 )

ライセンス: Link先を確認
Yuanhao Gong, Wenming Tang, Lebin Zhou, Lantao Yu, Guoping Qiu(参考訳) 重み付きガウス曲線は画像にとって重要な測定値である。 しかし、従来の計算方式は性能が低く、精度が低く、入力画像が2次微分可能である必要がある。 これら3つの問題に対処するために,重み付きガウス曲率に対する新しい離散計算方式を提案する。 我々のスキームは二階微分性を必要としない。 さらに,提案手法はより正確で,サポート領域が小さく,従来の方式よりも計算効率がよい。 したがって, 画像平滑化, マンガテクスチャ分解, 光流量推定など, 重み付きガウス曲率が必要となる広い範囲の応用が期待できる。

Weighted Gaussian Curvature is an important measurement for images. However, its conventional computation scheme has low performance, low accuracy and requires that the input image must be second order differentiable. To tackle these three issues, we propose a novel discrete computation scheme for the weighted Gaussian curvature. Our scheme does not require the second order differentiability. Moreover, our scheme is more accurate, has smaller support region and computationally more efficient than the conventional schemes. Therefore, our scheme holds promise for a large range of applications where the weighted Gaussian curvature is needed, for example, image smoothing, cartoon texture decomposition, optical flow estimation, etc.
翻訳日:2021-03-22 01:15:49 公開日:2021-01-20
# エッジ認識画像処理のためのクォータラプラシアンフィルタ

Quarter Laplacian Filter for Edge Aware Image Processing ( http://arxiv.org/abs/2101.07933v1 )

ライセンス: Link先を確認
Yuanhao Gong, Wenming Tang, Lebin Zhou, Lantao Yu, Guoping Qiu(参考訳) 本稿では,画像平滑化時に角と縁を保存できる4次ラプラシアンフィルタを提案する。 サポートリージョンは$2\times2$で、ラプラシアンフィルタの$3\times3$サポートリージョンより小さい。 そのため、より地方的である。 さらに,このフィルタを従来のボックスフィルタで実装することで,リアルタイムアプリケーションの性能向上を実現している。 最後に,画像の平滑化,テクスチャの強化,低照度画像の強調など,画像処理タスクにおけるエッジ保存性を示す。 提案するフィルタは,幅広い画像処理アプリケーションに適用可能である。

This paper presents a quarter Laplacian filter that can preserve corners and edges during image smoothing. Its support region is $2\times2$, which is smaller than the $3\times3$ support region of Laplacian filter. Thus, it is more local. Moreover, this filter can be implemented via the classical box filter, leading to high performance for real time applications. Finally, we show its edge preserving property in several image processing tasks, including image smoothing, texture enhancement, and low-light image enhancement. The proposed filter can be adopted in a wide range of image processing applications.
翻訳日:2021-03-22 01:15:38 公開日:2021-01-20
# 合成学習を用いたC.elegansのニューロン追跡と同定のための高速深層学習対応

Fast deep learning correspondence for neuron tracking and identification in C.elegans using synthetic training ( http://arxiv.org/abs/2101.08211v1 )

ライセンス: Link先を確認
Xinwei Yu, Matthew S. Creamer, Francesco Randi, Anuj K. Sharma, Scott W. Linderman, Andrew M. Leifer(参考訳) 本稿では,C. elegans のニューロンの追跡と同定を行う "fast Deep Learning Cor correspondingence&qu ot; あるいは fDLC という,トランスフォーマーネットワークアーキテクチャに基づく自動手法を提案する。 このモデルは、経験的な合成データに基づいて一度訓練され、転送学習を通じて、保持された実動物間の神経対応を予測する。 同じ事前訓練されたモデルは、時間にわたってニューロンを追跡し、個々のニューロンを識別する。 パフォーマンスはneuropal [1]を含む手書きのデータセットに対して評価される。 位置情報のみを用いて、個体内のニューロンを追跡する精度は80.0%、個体間の神経細胞を特定する精度は65.8%である。 公開されたデータセット [2] の精度はさらに高い。 NeuroPALの色情報を使用する場合、精度は76.5%に達する。 従来の方法とは異なり、fDLCは動物を正準座標系に変換する必要はない。 この手法は高速で、10ミリ秒で対応を予測し、将来のリアルタイムアプリケーションに適している。

We present an automated method to track and identify neurons in C. elegans, called "fast Deep Learning Correspondence" or fDLC, based on the transformer network architecture. The model is trained once on empirically derived synthetic data and then predicts neural correspondence across held-out real animals via transfer learning. The same pre-trained model both tracks neurons across time and identifies corresponding neurons across individuals. Performance is evaluated against hand-annotated datasets, including NeuroPAL [1]. Using only position information, the method achieves 80.0% accuracy at tracking neurons within an individual and 65.8% accuracy at identifying neurons across individuals. Accuracy is even higher on a published dataset [2]. Accuracy reaches 76.5% when using color information from NeuroPAL. Unlike previous methods, fDLC does not require straightening or transforming the animal into a canonical coordinate system. The method is fast and predicts correspondence in 10 ms making it suitable for future real-time applications.
翻訳日:2021-03-22 01:15:29 公開日:2021-01-20
# インテリジェント需要応答とスマートグリッドのためのディープラーニング:包括的調査

Deep Learning for Intelligent Demand Response and Smart Grids: A Comprehensive Survey ( http://arxiv.org/abs/2101.08013v1 )

ライセンス: Link先を確認
Prabadevi B, Quoc-Viet Pham, Madhusanka Liyanage, N Deepa, Mounik VVSS, Shivani Reddy, Praveen Kumar Reddy Maddikunta, Neelu Khare, Thippa Reddy Gadekallu, Won-Joo Hwang(参考訳) 今日、電気は人類にとって必須の商品の1つである。 従来の送電網における課題や課題に対処するため,スマートグリッドと需要応答の概念が開発されている。 このようなシステムでは、発電(風力タービンなど)、送電・配電(マイクログリッドや故障検知装置)、負荷管理(スマートメータやスマート家電など)といった様々なソースから、大量のデータが毎日生成される。 近年のビッグデータとコンピューティング技術の進歩により、Deep Learning(DL)は、生成されたデータからパターンを学び、電力とピーク時間の需要を予測するために利用することができる。 スマートグリッドの深層学習の利点を活かした本論文では,知的スマートグリッドに対するDLの適用状況と需要応答に関する総合的な調査を行う。 まず、DLの基本、スマートグリッド、需要応答、そしてDLの使用の背後にあるモチベーションを示す。 第2に、電力負荷予測、状態推定、エネルギー盗難検出、エネルギー共有、取引など、スマートグリッドおよび需要応答におけるDLの最先端応用について概観する。 さらに,様々なユースケースやプロジェクトを通じて,DLの実用性を説明する。 最後に,既存研究における課題を強調し,スマートグリッドと需要応答におけるDLの利用における重要な課題と潜在的方向性を強調した。

Electricity is one of the mandatory commodities for mankind today. To address challenges and issues in the transmission of electricity through the traditional grid, the concepts of smart grids and demand response have been developed. In such systems, a large amount of data is generated daily from various sources such as power generation (e.g., wind turbines), transmission and distribution (microgrids and fault detectors), load management (smart meters and smart electric appliances). Thanks to recent advancements in big data and computing technologies, Deep Learning (DL) can be leveraged to learn the patterns from the generated data and predict the demand for electricity and peak hours. Motivated by the advantages of deep learning in smart grids, this paper sets to provide a comprehensive survey on the application of DL for intelligent smart grids and demand response. Firstly, we present the fundamental of DL, smart grids, demand response, and the motivation behind the use of DL. Secondly, we review the state-of-the-art applications of DL in smart grids and demand response, including electric load forecasting, state estimation, energy theft detection, energy sharing and trading. Furthermore, we illustrate the practicality of DL via various use cases and projects. Finally, we highlight the challenges presented in existing research works and highlight important issues and potential directions in the use of DL for smart grids and demand response.
翻訳日:2021-03-22 01:15:14 公開日:2021-01-20
# Sparkデータ分析の性能チューニングのためのニューラルベースモデリング

Neural-based Modeling for Performance Tuning of Spark Data Analytics ( http://arxiv.org/abs/2101.08167v1 )

ライセンス: Link先を確認
Khaled Zaouk, Fei Song, Chenghao Lyu and Yanlei Diao(参考訳) クラウドデータ分析は、データ駆動の洞察発見のためのエンタープライズビジネスオペレーションの不可欠な部分となっている。 クラウドデータ分析のパフォーマンスモデリングは、クラウドのパフォーマンスチューニングやその他の重要な操作に不可欠である。 従来のモデリングテクニックは、このドメインにおけるワークロードやシステムの振る舞いの多様さに適応できません。 本稿では,Sparkデータ分析を代表的ワークロードとして重視した,クラウドデータ分析の自動パフォーマンスモデリングのプロセスに,近年のDeep Learning技術を導入します。 私たちの研究の核心は、異なるジョブの基本的な計算特性を表現するために(望ましいプロパティのセットとともに)ワークロードの埋め込みを学習することであり、リソース割り当てやその他のシステムノブを制御するジョブ構成とともに、パフォーマンス予測を可能にします。 私たちの研究は、要求に合致するさまざまなモデリング選択に関する詳細な研究を提供します。 広範な実験の結果、異なるモデリング方法の長所と限界、そしてクラウド分析のための最先端のモデリングツールよりも最高の実行方法のパフォーマンスが明らかになった。

Cloud data analytics has become an integral part of enterprise business operations for data-driven insight discovery. Performance modeling of cloud data analytics is crucial for performance tuning and other critical operations in the cloud. Traditional modeling techniques fail to adapt to the high degree of diversity in workloads and system behaviors in this domain. In this paper, we bring recent Deep Learning techniques to bear on the process of automated performance modeling of cloud data analytics, with a focus on Spark data analytics as representative workloads. At the core of our work is the notion of learning workload embeddings (with a set of desired properties) to represent fundamental computational characteristics of different jobs, which enable performance prediction when used together with job configurations that control resource allocation and other system knobs. Our work provides an in-depth study of different modeling choices that suit our requirements. Results of extensive experiments reveal the strengths and limitations of different modeling methods, as well as superior performance of our best performing method over a state-of-the-art modeling tool for cloud analytics.
翻訳日:2021-03-22 01:14:53 公開日:2021-01-20
# トレーニングデータを用いた非凸圧縮センシング

Non-Convex Compressed Sensing with Training Data ( http://arxiv.org/abs/2101.08310v1 )

ライセンス: Link先を確認
G. Welper(参考訳) 未決定線型系のスパース解に対する効率的なアルゴリズムは、制限等尺性(RIP)のような適切な仮定を満たす行列に対して$Ax = b$ が知られている。 そのような仮定がなければほとんど知られておらず、$A$の仮定がなければ、問題は$NP$-hardである。 一般的なアプローチは、$\ell_1$を$\ell_p$ minimizationを$0 < p < 1$に置き換えることである。 そこで本研究では,初期値に代えて,圧縮センシング問題に関連する追加のトレーニング問題として$Ax = B_l$, $l=1, \dots, p$が提供される。 これにより、元の問題である$Ax = b$の解を1層線形ニューラルネットワークの範囲内で高い確率で見つけることができ、行列$A$に対する仮定は比較的少ない。

Efficient algorithms for the sparse solution of under-determined linear systems $Ax = b$ are known for matrices $A$ satisfying suitable assumptions like the restricted isometry property (RIP). Without such assumptions little is known and without any assumptions on $A$ the problem is $NP$-hard. A common approach is to replace $\ell_1$ by $\ell_p$ minimization for $0 < p < 1$, which is no longer convex and typically requires some form of local initial values for provably convergent algorithms. In this paper, we consider an alternative, where instead of suitable initial values we are provided with extra training problems $Ax = B_l$, $l=1, \dots, p$ that are related to our compressed sensing problem. They allow us to find the solution of the original problem $Ax = b$ with high probability in the range of a one layer linear neural network with comparatively few assumptions on the matrix $A$.
翻訳日:2021-03-22 01:14:20 公開日:2021-01-20
# 単一マシン上の巨大なグラフ埋め込みを学習する

Learning Massive Graph Embeddings on a Single Machine ( http://arxiv.org/abs/2101.08358v1 )

ライセンス: Link先を確認
Jason Mohoney, Roger Waleffe, Yiheng Xu, Theodoros Rekatsinas, Shivaram Venkataraman(参考訳) 大規模グラフの埋め込みを1台のマシンで計算するための新しいフレームワークを提案する。 グラフ埋め込みはグラフの各ノード(および/またはエッジタイプ)に対する固定長ベクトル表現であり、グラフに現代的な機械学習を適用するデファクトアプローチとして登場した。 大規模グラフの埋め込みを学習するための現在のシステムは,データ移動によってボトルネックとなり,リソース利用率の低下と非効率なトレーニングにつながる。 これらの制限は、最先端のシステムが複数のマシンにトレーニングを分散する必要がある。 分割キャッシュとバッファアウェアデータ順序付けを利用してディスクアクセスを最小化し,データ移動を計算でインターリーブし,利用を最大化するグラフ埋め込みの効率的なトレーニングシステムであるgaiusを提案する。 gaiusと最先端の2つの産業システムを比較し,様々なベンチマークを行った。 ガイウスは同じレベルの精度を達成できるが、最大で1桁高速であることを示す。 また、Gaiusは、単一のマシンのGPUとCPUメモリ容量を超える規模のデータセットにトレーニングをスケールできることを示し、単一のAWS P3.2xLargeインスタンス上で10億以上のエッジと550GBのパラメータを持つ構成のトレーニングを可能にした。

We propose a new framework for computing the embeddings of large-scale graphs on a single machine. A graph embedding is a fixed length vector representation for each node (and/or edge-type) in a graph and has emerged as the de-facto approach to apply modern machine learning on graphs. We identify that current systems for learning the embeddings of large-scale graphs are bottlenecked by data movement, which results in poor resource utilization and inefficient training. These limitations require state-of-the-art systems to distribute training across multiple machines. We propose Gaius, a system for efficient training of graph embeddings that leverages partition caching and buffer-aware data orderings to minimize disk access and interleaves data movement with computation to maximize utilization. We compare Gaius against two state-of-the-art industrial systems on a diverse array of benchmarks. We demonstrate that Gaius achieves the same level of accuracy but is up to one order-of magnitude faster. We also show that Gaius can scale training to datasets an order of magnitude beyond a single machine's GPU and CPU memory capacity, enabling training of configurations with more than a billion edges and 550GB of total parameters on a single AWS P3.2xLarge instance.
翻訳日:2021-03-22 01:14:04 公開日:2021-01-20
# 観測データ拡張による深層学習推論による中性子星の状態方程式の広範的研究

Extensive Studies of the Neutron Star Equation of State from the Deep Learning Inference with the Observational Data Augmentation ( http://arxiv.org/abs/2101.08156v1 )

ライセンス: Link先を確認
Yuki Fujimoto, Kenji Fukushima, Koichi Murase(参考訳) 中性子星の状態方程式(EoS)の深層学習推定について,質量と半径の実観測データを用いて検討した。 従来の多項式回帰とニューラルネットワークによるeosパラメトリゼーションを定量的に比較した。 観測に不確実性を組み込む深層学習法では,観測の不確実性に対応する雑音変動を伴うトレーニングデータを増強する。 推定されたEoSsは、弱い一階相転移に対応でき、おそらく一階領域のヒストグラムを作成する。 また, 観測データの増大は, 過度に適合する行動を抑える副産物であることがわかった。 データ拡張によって性能が向上するのを確認するために,ダブルピーク関数を復元し,検証損失を監視するための最も単純な推論問題として,toyモデルを設定した。 我々は、データ拡張は、ドロップアウトを挿入するなどのニューラルネットワークアーキテクチャをチューニングすることなく、過剰フィッティングを回避するのに有用なテクニックであると結論づける。

We discuss deep learning inference for the neutron star equation of state (EoS) using the real observational data of the mass and the radius. We make a quantitative comparison between the conventional polynomial regression and the neural network approach for the EoS parametrization. For our deep learning method to incorporate uncertainties in observation, we augment the training data with noise fluctuations corresponding to observational uncertainties. Deduced EoSs can accommodate a weak first-order phase transition, and we make a histogram for likely first-order regions. We also find that our observational data augmentation has a byproduct to tame the overfitting behavior. To check the performance improved by the data augmentation, we set up a toy model as the simplest inference problem to recover a double-peaked function and monitor the validation loss. We conclude that the data augmentation could be a useful technique to evade the overfitting without tuning the neural network architecture such as inserting the dropout.
翻訳日:2021-03-22 01:13:45 公開日:2021-01-20