このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200907となっている論文です。

PDF登録状況(公開日: 20200907)

TitleAuthorsAbstract論文公表日・翻訳日
# 2つの絡み合った重力偏光物体間の共鳴相互作用

Resonance interaction between two entangled gravitational polarizable objects ( http://arxiv.org/abs/2001.05116v2 )

ライセンス: Link先を確認
Yongshun Hu, Jiawei Hu, Hongwei Yu and Puxun Wu(参考訳) 線形化量子重力の枠組みにおける真空中のゆらぎ量子重力場による2つの絡み合った重力偏光性物体間の共鳴四極子-四極子相互作用について検討した。 その結果、相互作用エネルギーは近傍のレジームでは$r^{-5}$として振る舞うことを示し、極端のレジームでは$r^{-1}$に比例する振幅の減少で振動することを示し、ここでは$r$は2つのオブジェクト間の距離である。 2つの物体が基底状態にある場合と比較すると、量子重力相互作用は物体が絡み合った状態にあるときに著しく増大する。 驚くべきことに、共鳴量子重力相互作用は、極値がモノポール-モノポール量子重力相互作用よりもはるかに大きいため、ニュートンポテンシャルに支配的な量子補正を与えることができる。

We investigate the resonance quadrupole-quadrupole interaction between two entangled gravitationally polarizable objects induced by a bath of fluctuating quantum gravitational fields in vacuum in the framework of linearized quantum gravity. Our result shows that, the interaction energy behaves as $r^{-5}$ in the near regime, and oscillates with a decreasing amplitude proportional to $r^{-1}$ in the far regime, where $r$ is the distance between the two objects. Compared to the case when the two objects are in their ground states, the quantum gravitational interaction is significantly enhanced when the objects are in an entangled state. Remarkably, in the far regime, the resonance quantum gravitational interaction can give the dominating quantum correction to the Newtonian potential, since the extremum is much greater than the monopole-monopole quantum gravitational interaction.
翻訳日:2023-01-11 07:09:15 公開日:2020-09-07
# 混合整数計画法によるANNアーキテクチャにおける臨界ニューロンの同定

Identifying Critical Neurons in ANN Architectures using Mixed Integer Programming ( http://arxiv.org/abs/2002.07259v4 )

ライセンス: Link先を確認
Mostafa ElAraby, Guy Wolf, Margarida Carvalho(参考訳) 本稿では,ニューラルネットワークアーキテクチャにおける各ニューロンに重要なスコアを割り当てる混合整数プログラム(MIP)を提案する。 MIPの目的関数を慎重に設計することにより、トレーニングされたニューラルネットワークの全体的な精度を維持するために必要な臨界ニューロンの数(すなわち高いスコア)を最小限に抑えるために、解法を駆動する。 さらに,提案方式では,複数の"ラッキー"サブネットワークを識別することにより,最適化されたアーキテクチャを単一データセット上で機能させるだけでなく,ネットワーク重み付けの再トレーニング時に複数のネットワークにまたがって一般化することにより,最近検討された抽選チケットの最適化を一般化する。 最後に,補助ネットワークを用いてレイヤ間の重要度を分離し,スケーラブルに実装する手法を提案する。 一般的なデータセットやアーキテクチャにおいて、精度や一般化性が限界的に失われるニューラルネットワークをprune化する能力を実証する。

We introduce a mixed integer program (MIP) for assigning importance scores to each neuron in deep neural network architectures which is guided by the impact of their simultaneous pruning on the main learning task of the network. By carefully devising the objective function of the MIP, we drive the solver to minimize the number of critical neurons (i.e., with high importance score) that need to be kept for maintaining the overall accuracy of the trained neural network. Further, the proposed formulation generalizes the recently considered lottery ticket optimization by identifying multiple "lucky" sub-networks resulting in optimized architecture that not only performs well on a single dataset, but also generalizes across multiple ones upon retraining of network weights. Finally, we present a scalable implementation of our method by decoupling the importance scores across layers using auxiliary networks. We demonstrate the ability of our formulation to prune neural networks with marginal loss in accuracy and generalizability on popular datasets and architectures.
翻訳日:2022-12-31 11:42:25 公開日:2020-09-07
# 変分ベイズ量子化

Variational Bayesian Quantization ( http://arxiv.org/abs/2002.08158v2 )

ライセンス: Link先を確認
Yibo Yang, Robert Bamler and Stephan Mandt(参考訳) 訓練モデルの連続的潜在表現を定量化する新しいアルゴリズムを提案する。 我々のアプローチは、変動オートエンコーダ(VAE)のような深い確率モデルに適用され、データとモデル圧縮の両方を可能にする。 固定量子化スキームにモデルを組み込む現在のエンドツーエンドのニューラル圧縮法とは異なり、我々のアルゴリズムはモデル設計とトレーニングを量子化から分離する。 そこで本アルゴリズムは,単一学習モデルを用いて,可変レート歪みトレードオフによる「プラグ・アンド・プレイ」圧縮を実現する。 本アルゴリズムは連続領域への算術符号化の新たな拡張と見なすことができ、後方不確かさの推定に基づく適応量子化精度を用いる。 実験の結果,後続の不確かさを考慮に入れることの重要性が示され,提案アルゴリズムによる画像圧縮は,単一の標準VAEのみを用いて,幅広いビットレートでJPEGより優れていることが示された。 ベイズニューラルワード埋め込みに関するさらなる実験は、提案手法の汎用性を示している。

We propose a novel algorithm for quantizing continuous latent representations in trained models. Our approach applies to deep probabilistic models, such as variational autoencoders (VAEs), and enables both data and model compression. Unlike current end-to-end neural compression methods that cater the model to a fixed quantization scheme, our algorithm separates model design and training from quantization. Consequently, our algorithm enables "plug-and-play" compression with variable rate-distortion trade-off, using a single trained model. Our algorithm can be seen as a novel extension of arithmetic coding to the continuous domain, and uses adaptive quantization accuracy based on estimates of posterior uncertainty. Our experimental results demonstrate the importance of taking into account posterior uncertainties, and show that image compression with the proposed algorithm outperforms JPEG over a wide range of bit rates using only a single standard VAE. Further experiments on Bayesian neural word embeddings demonstrate the versatility of the proposed method.
翻訳日:2022-12-30 19:06:11 公開日:2020-09-07
# L2逆例は本質的に異なるか?

Are L2 adversarial examples intrinsically different? ( http://arxiv.org/abs/2002.12527v2 )

ライセンス: Link先を確認
Mingxuan Li, Jingyuan Wang, Yufan Wu(参考訳) Deep Neural Network(DDN)は,シナリオに関するセキュリティなど,さまざまなタスクで顕著な成功を収めている。 しかし、かなりの量の作業が敵に対する脆弱性を証明している。 理論的解析により、本質的に逆例と正規入力を区別できる性質を解明する。 つまり、$L_2$アタックによって生成された逆例は、通常より大きな入力感度を持ち、それらを効率的に識別することができる。 また、$L_\infty$攻撃によって生成された画像は、ピクセル領域で経験的に検出できるほど異なることが判明した。 分析を検証するために,検出とリカバリプロセスを統合した \textbf{g}uided \textbf{c}omplementary \textbf{d}efenseモジュール (\textbf{gcd}) を提案した。 敵検出法と比較すると,ほとんどの攻撃に対して0.98以上の検出aucが得られる。 ガイド付き整流器と、一般的な対向訓練法や他の整流法を比較すると、整流器は大きなマージンで優れる。 本研究では,mnist の 99 %,cifar-10 の 89 %,imagenet のサブセットの 87 % の分類精度を $l_2$ 攻撃に対して達成した。 さらに、ホワイトボックス設定下では、我々の総合的な防御モジュールは、有望な堅牢性を示す。 したがって、少なくとも$l_2$ の逆例が、理論的にも経験的にも通常の入力と十分に異なることが確認できる。 そして、これらの特性でシンプルで効果的な防御方法をデザインすることに光を当てた。

Deep Neural Network (DDN) has achieved notable success in various tasks, including many security concerning scenarios. However, a considerable amount of work has proved its vulnerability to adversaries. We unravel the properties that can intrinsically differentiate adversarial examples and normal inputs through theoretical analysis. That is, adversarial examples generated by $L_2$ attacks usually have larger input sensitivity which can be used to identify them efficiently. We also found that those generated by $L_\infty$ attacks will be different enough in the pixel domain to be detected empirically. To verify our analysis, we proposed a \textbf{G}uided \textbf{C}omplementary \textbf{D}efense module (\textbf{GCD}) integrating detection and recovery processes. When compared with adversarial detection methods, our detector achieves a detection AUC of over 0.98 against most of the attacks. When comparing our guided rectifier with commonly used adversarial training methods and other rectification methods, our rectifier outperforms them by a large margin. We achieve a recovered classification accuracy of up to 99\% on MNIST, 89\% on CIFAR-10, and 87\% on ImageNet subsets against $L_2$ attacks. Furthermore, under the white-box setting, our holistic defensive module shows a promising degree of robustness. Thus, we confirm that at least $L_2$ adversarial examples are intrinsically different enough from normal inputs both theoretically and empirically. And we shed light upon designing simple yet effective defensive methods with these properties.
翻訳日:2022-12-28 02:22:02 公開日:2020-09-07
# 異常検出のための教師なし辞書学習

Unsupervised Dictionary Learning for Anomaly Detection ( http://arxiv.org/abs/2003.00293v2 )

ライセンス: Link先を確認
Paul Irofti and Andra B\u{a}ltoiu(参考訳) 辞書学習を活用して,監視の欠如,オンラインの定式化,偽陽性率の低下など,ほとんどの異常検出アプリケーションの要件に対処する可能性について検討する。 我々は,最近行った半教師付きオンラインアルゴリズム TODDLeR の反マネーロンダリングアプリケーションにおける新しい結果を示す。 また,本研究では,学習アルゴリズムの性能をサンプルの性質を示すため,教師なしの新たな手法を提案する。

We investigate the possibilities of employing dictionary learning to address the requirements of most anomaly detection applications, such as absence of supervision, online formulations, low false positive rates. We present new results of our recent semi-supervised online algorithm, TODDLeR, on a anti-money laundering application. We also introduce a novel unsupervised method of using the performance of the learning algorithm as indication of the nature of the samples.
翻訳日:2022-12-27 20:43:53 公開日:2020-09-07
# オンライン辞書学習による大規模水道網の故障処理

Fault Handling in Large Water Networks with Online Dictionary Learning ( http://arxiv.org/abs/2003.08483v2 )

ライセンス: Link先を確認
Paul Irofti and Florin Stoican and Vicen\c{c} Puig(参考訳) 水分配ネットワークにおける故障検出と隔離は、そのモデルの数学的複雑さとセンサ配置によるデータ可用性の向上により活発なトピックである。 ここでは,センサ配置を行う際のネットワークトポロジを考慮したデータ駆動型代替案を提供し,入力したセンサデータに基づくオンライン辞書学習を通じてネットワークモデルを構築することにより,モデルを単純化する。 オンライン学習は高速で、大規模なネットワークに取り組み、一度に小さな信号のバッチを処理し、新しいデータを既存のネットワークモデルに連続的に統合するメリットがある。 アルゴリズムは、小規模ネットワークと大規模ネットワークの両方でテストした場合、優れたパフォーマンスを示す。

Fault detection and isolation in water distribution networks is an active topic due to its model's mathematical complexity and increased data availability through sensor placement. Here we simplify the model by offering a data driven alternative that takes the network topology into account when performing sensor placement and then proceeds to build a network model through online dictionary learning based on the incoming sensor data. Online learning is fast and allows tackling large networks as it processes small batches of signals at a time and has the benefit of continuous integration of new data into the existing network model, be it in the beginning for training or in production when new data samples are encountered. The algorithms show good performance when tested on both small and large-scale networks.
翻訳日:2022-12-22 13:25:32 公開日:2020-09-07
# FT-CNN:畳み込みニューラルネットワークのアルゴリズムによるフォールトトレランス

FT-CNN: Algorithm-Based Fault Tolerance for Convolutional Neural Networks ( http://arxiv.org/abs/2003.12203v4 )

ライセンス: Link先を確認
Kai Zhao, Sheng Di, Sihuan Li, Xin Liang, Yujia Zhai, Jieyang Chen, Kaiming Ouyang, Franck Cappello, Zizhong Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの分野において困難で重要な問題を解決するためにますます重要になっている。 cnn推論アプリケーションは、高エネルギー粒子、高温、異常電圧によって生じるソフトエラーに苦しむ安全クリティカルシステムにデプロイされている。 重要なことは、ソフトエラーに対するCNN推論プロセスの安定性を保証することである。 従来のフォールトトレランス法はCNNの推論には適さないが、エラー訂正コードは計算コンポーネントを保護できないため、命令重複技術はオーバーヘッドが高く、既存のアルゴリズムベースのフォールトトレランス(ABFT)技術はすべての畳み込み実装を保護できない。 本稿では,CNN推論プロセスのソフトエラーを可能な限り効果的に防止する方法に着目し,以下の3つのコントリビューションについて述べる。 1)チェックサム手法に基づく複数の体系的ABFTスキームを提案し,そのフォールトプロテクション能力とランタイムを徹底的に解析する。 2)提案手法を全て統合した新しいワークフローを設計し,全ランタイムオーバーヘッドに制限のある高い検出・補正能力を実現する。 3) alexnet, vgg-19, resnet-18, yolov2などの有名なcnnモデルのimagenetを用いて評価を行った。 実験の結果,実行時のオーバーヘッドが非常に少ないソフトエラー(エラーのない状況とエラー注入状況の両方で4%~8%)で処理できることが確認された。

Convolutional neural networks (CNNs) are becoming more and more important for solving challenging and critical problems in many fields. CNN inference applications have been deployed in safety-critical systems, which may suffer from soft errors caused by high-energy particles, high temperature, or abnormal voltage. Of critical importance is ensuring the stability of the CNN inference process against soft errors. Traditional fault tolerance methods are not suitable for CNN inference because error-correcting code is unable to protect computational components, instruction duplication techniques incur high overhead, and existing algorithm-based fault tolerance (ABFT) techniques cannot protect all convolution implementations. In this paper, we focus on how to protect the CNN inference process against soft errors as efficiently as possible, with the following three contributions. (1) We propose several systematic ABFT schemes based on checksum techniques and analyze their fault protection ability and runtime thoroughly.Unlike traditional ABFT based on matrix-matrix multiplication, our schemes support any convolution implementations. (2) We design a novel workflow integrating all the proposed schemes to obtain a high detection/correction ability with limited total runtime overhead. (3) We perform our evaluation using ImageNet with well-known CNN models including AlexNet, VGG-19, ResNet-18, and YOLOv2. Experimental results demonstrate that our implementation can handle soft errors with very limited runtime overhead (4%~8% in both error-free and error-injected situations).
翻訳日:2022-12-19 05:28:52 公開日:2020-09-07
# FALCON: プライベートディープラーニングのための安全なフレームワーク

FALCON: Honest-Majority Maliciously Secure Framework for Private Deep Learning ( http://arxiv.org/abs/2004.02229v2 )

ライセンス: Link先を確認
Sameer Wagh, Shruti Tople, Fabrice Benhamouda, Eyal Kushilevitz, Prateek Mittal, Tal Rabin(参考訳) 大規模機械学習モデルの効率的なプライベートトレーニングと推論のためのエンドツーエンドのサードパーティプロトコルであるfalconを提案する。 falconの主な利点は4つある。 (i)VGG16などの高容量ネットワークをサポートした表現力が高い。 (ii)alexnetのような複雑なネットワークのトレーニングに重要なバッチ正規化をサポートする (iii)ファルコンは、正当な多数派と仮定して、悪意のある敵に対して中止してセキュリティを保証する (iv)最後に、falconはプロトコル設計に関する新たな理論的洞察を提示し、高い効率性と、既存のセキュアなディープラーニングソリューションよりも優れています。 ABY3 (CCS'18) に匹敵する, 従来のプライベート推論技術と比較して, SecureNN (PETS'19) よりも約8倍高速である。 これらよりも通信効率が16~200倍高いのです。 プライベートトレーニングでは、SecureNNの約6倍、ABY3の4.4倍、通信効率は約2~60倍です。 WAN設定実験により,大規模ネットワークやデータセット上では,通信よりもMPC全体のレイテンシが計算処理で支配されていることがわかった。

We propose Falcon, an end-to-end 3-party protocol for efficient private training and inference of large machine learning models. Falcon presents four main advantages - (i) It is highly expressive with support for high capacity networks such as VGG16 (ii) it supports batch normalization which is important for training complex networks such as AlexNet (iii) Falcon guarantees security with abort against malicious adversaries, assuming an honest majority (iv) Lastly, Falcon presents new theoretical insights for protocol design that make it highly efficient and allow it to outperform existing secure deep learning solutions. Compared to prior art for private inference, we are about 8x faster than SecureNN (PETS'19) on average and comparable to ABY3 (CCS'18). We are about 16-200x more communication efficient than either of these. For private training, we are about 6x faster than SecureNN, 4.4x faster than ABY3 and about 2-60x more communication efficient. Our experiments in the WAN setting show that over large networks and datasets, compute operations dominate the overall latency of MPC, as opposed to the communication.
翻訳日:2022-12-16 13:20:29 公開日:2020-09-07
# 新型ウイルス「MobileXpert」、医療用胸部X線で治療・追跡

COVID-MobileXpert: On-Device COVID-19 Patient Triage and Follow-up using Chest X-rays ( http://arxiv.org/abs/2004.03042v3 )

ライセンス: Link先を確認
Xin Li, Chengyin Li, Dongxiao Zhu(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの間、資源利用と臨床ワークフローを最適化するために、迅速で専門的で、治療の要となる患者配置技術がますます必要となってきた。 このニーズを考慮して、新型コロナウイルスの症例スクリーニングと放射線学的軌跡予測に胸部X線(CXR)を使用できる軽量ディープニューラルネットワーク(DNN)ベースのモバイルアプリであるCOVID-MobileXpertを紹介する。 We design and implement a novel three-player knowledge transfer and distillation (KTD) framework including a pre-trained attending physician (AP) network that extracts CXR imaging features from a large scale of lung disease CXR images, a fine-tuned resident fellow (RF) network that learns the essential CXR imaging features to discriminate COVID-19 from pneumonia and/or normal cases with a small amount of COVID-19 cases, and a trained lightweight medical student (MS) network to perform on-device COVID-19 patient triage and follow-up. 医療画像における前景と背景の類似性が極めて高い課題に取り組むため,我々は,msネットワークにおいてロバストな特徴を学習するために,新たな損失関数とトレーニングスキームを用いる。 多様なMSアーキテクチャとチューニングパラメータ設定による広範囲な実験を通じて、迅速な展開のためのCOVID-MobileXpertの有意義な可能性を示す。 クラウドおよびモバイルベースのモデルのソースコードは、以下のurlから入手できる。

During the COVID-19 pandemic, there has been an emerging need for rapid, dedicated, and point-of-care COVID-19 patient disposition techniques to optimize resource utilization and clinical workflow. In view of this need, we present COVID-MobileXpert: a lightweight deep neural network (DNN) based mobile app that can use chest X-ray (CXR) for COVID-19 case screening and radiological trajectory prediction. We design and implement a novel three-player knowledge transfer and distillation (KTD) framework including a pre-trained attending physician (AP) network that extracts CXR imaging features from a large scale of lung disease CXR images, a fine-tuned resident fellow (RF) network that learns the essential CXR imaging features to discriminate COVID-19 from pneumonia and/or normal cases with a small amount of COVID-19 cases, and a trained lightweight medical student (MS) network to perform on-device COVID-19 patient triage and follow-up. To tackle the challenge of vastly similar and dominant fore- and background in medical images, we employ novel loss functions and training schemes for the MS network to learn the robust features. We demonstrate the significant potential of COVID-MobileXpert for rapid deployment via extensive experiments with diverse MS architecture and tuning parameter settings. The source codes for cloud and mobile based models are available from the following url: https://github.com/xinli0928/COVID-Xray.
翻訳日:2022-12-16 06:28:08 公開日:2020-09-07
# 最適計量歪予想の解法

Resolving the Optimal Metric Distortion Conjecture ( http://arxiv.org/abs/2004.07447v2 )

ライセンス: Link先を確認
Vasilis Gkatzelis, Daniel Halpern, and Nisarg Shah(参考訳) v$ と $c$ という2つの有限個の点の集合が同じ計量空間に存在し、我々の目標は、v$ の点からの距離が可能な限り小さい $c$ の点を選択することである。 しかし、基礎となる距離メートル法にアクセスするのではなく、各点に対して$V$で、その点との距離を$C$でランク付けすることしか分かっていない。 我々は,これらのランキングのみを入力として,$C$の点を選択するアルゴリズムを提案し,それらの値に有意な値を与える(Worst-case approximation ratio)。 この問題の顕著な動機は投票理論によるもので、$V$は有権者の集合を表し、$C$は候補者の集合を表し、ランキングは有権者の序列的な選好に対応する。 このフレームワークにおける主要な予想は、最適決定論的アルゴリズムが3ドル歪んでいることである。 この予想は、既知の下界と一致する歪みを3ドルに抑える多項式時間アルゴリズムを提供することで解決する。 我々は、有権者と候補者のマッチングに関する新しい補題を証明し、それを \emph{ ranking-matching lemma} と呼ぶ。 この補題は、独立した興味を持つ可能性のある新しいアルゴリズムのファミリーを誘導し、このファミリーの特別なアルゴリズムが歪みを3ドルを達成することを示す。 さらに、$\alpha$-decisivenessという概念を用いて、より洗練され、パラメータ化された境界も提供します。 最後に、既知の結果と比較して歪みが改善された新しいランダム化アルゴリズムを導入し、決定論的およびランダム化アルゴリズム全体の歪みに対する下界を改善した。

We study the following metric distortion problem: there are two finite sets of points, $V$ and $C$, that lie in the same metric space, and our goal is to choose a point in $C$ whose total distance from the points in $V$ is as small as possible. However, rather than having access to the underlying distance metric, we only know, for each point in $V$, a ranking of its distances to the points in $C$. We propose algorithms that choose a point in $C$ using only these rankings as input and we provide bounds on their \emph{distortion} (worst-case approximation ratio). A prominent motivation for this problem comes from voting theory, where $V$ represents a set of voters, $C$ represents a set of candidates, and the rankings correspond to ordinal preferences of the voters. A major conjecture in this framework is that the optimal deterministic algorithm has distortion $3$. We resolve this conjecture by providing a polynomial-time algorithm that achieves distortion $3$, matching a known lower bound. We do so by proving a novel lemma about matching voters to candidates, which we refer to as the \emph{ranking-matching lemma}. This lemma induces a family of novel algorithms, which may be of independent interest, and we show that a special algorithm in this family achieves distortion $3$. We also provide more refined, parameterized, bounds using the notion of $\alpha$-decisiveness, which quantifies the extent to which a voter may prefer her top choice relative to all others. Finally, we introduce a new randomized algorithm with improved distortion compared to known results, and also provide improved lower bounds on the distortion of all deterministic and randomized algorithms.
翻訳日:2022-12-12 22:14:24 公開日:2020-09-07
# 低データレジームにおける植物病同定のためのSSM-Net

SSM-Net for Plants Disease Identification in Low Data Regime ( http://arxiv.org/abs/2005.13140v4 )

ライセンス: Link先を確認
Shruti Jadon(参考訳) 植物病の検出は農業生産の増加に欠かせない要素である。 病気の検出が困難であったため、農夫は作物を保護するために様々な農薬を散布し、作物の成長と食糧基準に大きな害を与えた。 深層学習はそのような病気を検出するのに重要な助けとなる。 しかし、特定の植物種にかかわる病気のあらゆる形態に関する大量のデータを集めることは、非常に不便である。 本稿では,低データ構造における疾患検出問題に対処するため,重畳されたシアムと整合性ネットワークコンポーネントで構成される,メトリクスベースの複数ショット学習型SSMネットアーキテクチャを提案する。 ミニリーブ病とサトウキビ病の2つのデータセットについて実験を行った。 我々は、SSM-Netアプローチが、ミニリーブデータセットで92.7%、サトウキビデータセットで94.3%の精度で、より良い意思決定境界を達成できることを示した。 広く使用されているvgg16転送学習アプローチと比較して,精度は10%,5%向上した。 さらに,サトウキビデータセットのSSMNetとミニリーブデータセットの0.91を用いてF1スコアの0.90を得た。 私たちのコード実装はGithubで公開されています。

Plant disease detection is an essential factor in increasing agricultural production. Due to the difficulty of disease detection, farmers spray various pesticides on their crops to protect them, causing great harm to crop growth and food standards. Deep learning can offer critical aid in detecting such diseases. However, it is highly inconvenient to collect a large volume of data on all forms of the diseases afflicting a specific plant species. In this paper, we propose a new metrics-based few-shot learning SSM net architecture, which consists of stacked siamese and matching network components to address the problem of disease detection in low data regimes. We demonstrated our experiments on two datasets: mini-leaves diseases and sugarcane diseases dataset. We have showcased that the SSM-Net approach can achieve better decision boundaries with an accuracy of 92.7% on the mini-leaves dataset and 94.3% on the sugarcane dataset. The accuracy increased by ~10% and ~5% respectively, compared to the widely used VGG16 transfer learning approach. Furthermore, we attained F1 score of 0.90 using SSM Net on the sugarcane dataset and 0.91 on the mini-leaves dataset. Our code implementation is available on Github: https://github.com/shruti-jadon/PlantsDiseaseDetection.
翻訳日:2022-11-28 08:49:41 公開日:2020-09-07
# ePillIDデータセット: ピン識別のための低ショット細粒度ベンチマーク

ePillID Dataset: A Low-Shot Fine-Grained Benchmark for Pill Identification ( http://arxiv.org/abs/2005.14288v2 )

ライセンス: Link先を確認
Naoto Usuyama, Natalia Larios Delgado, Amanda K. Hall, Jessica Lundin(参考訳) 処方薬の特定は、患者や医療専門家にとって頻繁な作業であるが、多くの薬が類似した外観(例えば、白い丸い錠剤)を持つため、薬剤の誤用によるリスクが増大する。 本稿では,9804の出現クラス(4902のピルタイプ)を表す13k画像からなる,ピル画像認識における最大のベンチマークであるePillIDを紹介する。 ほとんどの外観クラスでは、参照画像は1つしか存在せず、ローショットの認識設定に挑戦する。 本稿では,ベンチマークによる各種ベースラインモデルのセットアップと評価結果について述べる。 双線形特徴を持つマルチヘッド・メトリック・ラーニング・アプローチを用いた最良のベースラインは極めて良好に動作したが,誤差解析の結果,特に難解なクラスを区別できないことが示唆された。 コードとデータはhttps://github.com/usuyama/epillid-benchmarkで入手できる。

Identifying prescription medications is a frequent task for patients and medical professionals; however, this is an error-prone task as many pills have similar appearances (e.g. white round pills), which increases the risk of medication errors. In this paper, we introduce ePillID, the largest public benchmark on pill image recognition, composed of 13k images representing 9804 appearance classes (two sides for 4902 pill types). For most of the appearance classes, there exists only one reference image, making it a challenging low-shot recognition setting. We present our experimental setup and evaluation results of various baseline models on the benchmark. The best baseline using a multi-head metric-learning approach with bilinear features performed remarkably well; however, our error analysis suggests that they still fail to distinguish particularly confusing classes. The code and data are available at https://github.com/usuyama/ePillID-benchmark.
翻訳日:2022-11-27 05:55:55 公開日:2020-09-07
# サプライズ・アセスメントによるDNNラベリングコストの低減:自動運転の産業事例

Reducing DNN Labelling Cost using Surprise Adequacy: An Industrial Case Study for Autonomous Driving ( http://arxiv.org/abs/2006.00894v2 )

ライセンス: Link先を確認
Jinhan Kim, Jeongil Ju, Robert Feldt, Shin Yoo(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、自動運転に不可欠なタスクにおける優れたパフォーマンスのため、自動車業界で急速に採用されている。 オブジェクトセグメンテーションは、オブジェクトの境界を正確に特定し、識別されたオブジェクトを分類することを目的としており、自動運転車が道路環境と交通状況を認識するのを助ける。 このタスクの安全性は重要なだけでなく、DNNベースのオブジェクトセグメンテーションモジュールの開発も、従来の安全クリティカルソフトウェアの開発とは大きく異なる課題の集合を示している。 開発中の開発プロセスは、データ収集、ラベル付け、トレーニング、評価の繰り返しで構成される。 これらの段階のうち、トレーニングと評価は計算集約であり、データ収集とラベリングは手作業集約である。 本稿では、サプライズ・アデクシー(SA)とモデル性能の相関を利用して、DNNに基づくオブジェクトセグメンテーションの開発をいかに改善できるかを示す。 この相関により、手動でラベル付けすることなく入力のモデル性能を予測できる。 これにより、モデルパフォーマンスの理解、よりガイドされたデータ収集、さらなるトレーニングに関するインフォームドな意思決定が可能になる。 産業ケーススタディでは,評価の不正確性により最大50%のコスト削減が可能となる。 さらにエンジニアは、開発フェーズやシナリオによって異なる不正確な許容レベルに対して、コスト削減をトレードオフすることができる。

Deep Neural Networks (DNNs) are rapidly being adopted by the automotive industry, due to their impressive performance in tasks that are essential for autonomous driving. Object segmentation is one such task: its aim is to precisely locate boundaries of objects and classify the identified objects, helping autonomous cars to recognise the road environment and the traffic situation. Not only is this task safety critical, but developing a DNN based object segmentation module presents a set of challenges that are significantly different from traditional development of safety critical software. The development process in use consists of multiple iterations of data collection, labelling, training, and evaluation. Among these stages, training and evaluation are computation intensive while data collection and labelling are manual labour intensive. This paper shows how development of DNN based object segmentation can be improved by exploiting the correlation between Surprise Adequacy (SA) and model performance. The correlation allows us to predict model performance for inputs without manually labelling them. This, in turn, enables understanding of model performance, more guided data collection, and informed decisions about further training. In our industrial case study the technique allows cost savings of up to 50% with negligible evaluation inaccuracy. Furthermore, engineers can trade off cost savings versus the tolerable level of inaccuracy depending on different development phases and scenarios.
翻訳日:2022-11-26 23:57:00 公開日:2020-09-07
# 高複雑さ下におけるNKランドスケープの上部適合性探索アルゴリズム

An Algorithm to find Superior Fitness on NK Landscapes under High Complexity: Muddling Through ( http://arxiv.org/abs/2006.08333v2 )

ライセンス: Link先を確認
Sasanka Sekhar Chanda and Sai Yayavaram(参考訳) NKランドスケープにおける決定を構成する要素間の広範囲な相互依存により、我々のアルゴリズムは、既存の研究で報告されているよりも優れた適合性を得る。 我々は、決定を構成する決定要素をクラスタに分散する。 判定要素の値の変化を考慮した場合、判定要素に沿って居住するクラスタ部材の集合適合度が高い場合には前方移動を行う。 経路内の適合度が最も高い判定構成が選択される。 クラスタ数が増加すると、さらに高い適合性が得られる。 さらに、クラスタ内の最大2つの変更からなる動作を実装することも、より高い適合性を得る。 本アルゴリズムは,より広範囲な探索が可能となり,より遠方の配置を検査することで,優れた結果を得る。 我々はこのアルゴリズムをチャールズ・リンドブロム(Charles Lindblom)を記念し、洗練されたコンピュータシミュレーションが始まるずっと前にこのプロセスの有効性を発見した。

Under high complexity - given by pervasive interdependence between constituent elements of a decision in an NK landscape - our algorithm obtains fitness superior to that reported in extant research. We distribute the decision elements comprising a decision into clusters. When a change in value of a decision element is considered, a forward move is made if the aggregate fitness of the cluster members residing alongside the decision element is higher. The decision configuration with the highest fitness in the path is selected. Increasing the number of clusters obtains even higher fitness. Further, implementing moves comprising of up to two changes in a cluster also obtains higher fitness. Our algorithm obtains superior outcomes by enabling more extensive search, allowing inspection of more distant configurations. We name this algorithm the muddling through algorithm, in memory of Charles Lindblom who spotted the efficacy of the process long before sophisticated computer simulations came into being.
翻訳日:2022-11-24 21:58:30 公開日:2020-09-07
# CS-Embed at SemEval-2020 Task 9: 感情分析のためのコード切替単語埋め込みの有効性

CS-Embed at SemEval-2020 Task 9: The effectiveness of code-switched word embeddings for sentiment analysis ( http://arxiv.org/abs/2006.04597v2 )

ライセンス: Link先を確認
Frances Adriana Laureano De Leon and Florimond Gu\'eniat and Harish Tayyar Madabushi(参考訳) ソーシャルメディア投稿の感情分析の普及と応用は、複数の言語で書かれた投稿の感情分析を自然に引き起こしている。 コード切替ポストに関する最近の研究は、多言語単語の埋め込みの使用に焦点を当てているが、これらの埋め込みはコード切替データで訓練されていない。 本研究では、コード変更されたつぶやき、特にSpanglishとして知られるスペイン語と英語を利用した単語埋め込みについて述べる。 埋め込み空間を探索し、両言語における単語の意味をいかに捉えるかを明らかにする。 semeval 2020タスク9:~\emph{sentiment analysis on code-mixed social media text} に参加することで、埋め込みの有効性をテストする。 F-1スコア0.722の感情分類器の訓練に利用した。 これは0.656の競争のベースラインよりも高く、私たちのチーム(codalabのユーザー名 \emph{francesita})は29チーム中14位でベースラインを上回っています。

The growing popularity and applications of sentiment analysis of social media posts has naturally led to sentiment analysis of posts written in multiple languages, a practice known as code-switching. While recent research into code-switched posts has focused on the use of multilingual word embeddings, these embeddings were not trained on code-switched data. In this work, we present word-embeddings trained on code-switched tweets, specifically those that make use of Spanish and English, known as Spanglish. We explore the embedding space to discover how they capture the meanings of words in both languages. We test the effectiveness of these embeddings by participating in SemEval 2020 Task 9: ~\emph{Sentiment Analysis on Code-Mixed Social Media Text}. We utilised them to train a sentiment classifier that achieves an F-1 score of 0.722. This is higher than the baseline for the competition of 0.656, with our team (codalab username \emph{francesita}) ranking 14 out of 29 participating teams, beating the baseline.
翻訳日:2022-11-23 23:58:09 公開日:2020-09-07
# dm_control: 継続的制御のためのソフトウェアとタスク

dm_control: Software and Tasks for Continuous Control ( http://arxiv.org/abs/2006.12983v2 )

ライセンス: Link先を確認
Yuval Tassa, Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Piotr Trochim, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess(参考訳) dm_controlソフトウェアパッケージは、articulated-bodyシミュレーションにおける強化学習エージェントのためのpythonライブラリとタスクスイートのコレクションである。 MuJoCoラッパーは、関数とデータ構造に便利なバインディングを提供する。 PyMJCFとComposerライブラリは手続きモデル操作とタスクオーサリングを可能にする。 Control Suiteは、パフォーマンスベンチマークとして機能することを意図した、標準化された構造を持つタスクの固定セットである。 locomotionフレームワークは、locomotionタスクのハイレベルな抽象化と例を提供する。 ロボットアームとスナップツーザブロックによる一連の設定可能な操作タスクも含んでいる。 dm_controlはhttps://www.github.com/deepmind/dm_controlで公開されている。

The dm_control software package is a collection of Python libraries and task suites for reinforcement learning agents in an articulated-body simulation. A MuJoCo wrapper provides convenient bindings to functions and data structures. The PyMJCF and Composer libraries enable procedural model manipulation and task authoring. The Control Suite is a fixed set of tasks with standardised structure, intended to serve as performance benchmarks. The Locomotion framework provides high-level abstractions and examples of locomotion tasks. A set of configurable manipulation tasks with a robot arm and snap-together bricks is also included. dm_control is publicly available at https://www.github.com/deepmind/dm_control
翻訳日:2022-11-18 05:29:41 公開日:2020-09-07
# Go Transformer:ゲームプレイのための自然言語モデリング

The Go Transformer: Natural Language Modeling for Game Play ( http://arxiv.org/abs/2007.03500v3 )

ライセンス: Link先を確認
Matthew Ciolino, David Noever, Josh Kalin(参考訳) この研究は自然言語モデリングを応用し、古代のgoのゲームにおいて妥当な戦略的な動きを生み出す。 我々は、GPT-2(Generative Pretrained Transformer)をトレーニングし、移動シーケンスのテキスト記述を提供するSmart Game Format(SGF)にアーカイブされたGoチャンピオンのスタイルを模倣する。 トレーニングされたモデルはさらに、goの有効だが未認識の戦略を生成する。 gpt-2は句読点と間隔を保つため、テキストジェネレータの生出力は自動再生を用いたサバキプロジェクトのゲームエンジンのようなゲーム可視化やクリエイティブパターンへの入力を提供する。 その結果、言語モデリングはチャンピオンシップgoゲームのシークエンシング形式と、その戦略的構成の両方を捉えることができる。 ランダムなゲームボードと比較して、GPT-2ファインチューニングは、より有利なセンターとサイドプレイよりもコーナープレイを好む効率的なオープニング動作シーケンスを示す。 言語モデリングタスクとしてのゲーム生成は、過去のテキストアノテーションがトレーニングデータ(例えばAmazons & Connect 4/6)を提供する40以上のボードゲームに新しいアプローチを提供する。

This work applies natural language modeling to generate plausible strategic moves in the ancient game of Go. We train the Generative Pretrained Transformer (GPT-2) to mimic the style of Go champions as archived in Smart Game Format (SGF), which offers a text description of move sequences. The trained model further generates valid but previously unseen strategies for Go. Because GPT-2 preserves punctuation and spacing, the raw output of the text generator provides inputs to game visualization and creative patterns, such as the Sabaki project's game engine using auto-replays. Results demonstrate that language modeling can capture both the sequencing format of championship Go games and their strategic formations. Compared to random game boards, the GPT-2 fine-tuning shows efficient opening move sequences favoring corner play over less advantageous center and side play. Game generation as a language modeling task offers novel approaches to more than 40 other board games where historical text annotation provides training data (e.g., Amazons & Connect 4/6).
翻訳日:2022-11-12 18:38:35 公開日:2020-09-07
# スパースハウスドルフモーメント問題とトピックモデルへの応用

The Sparse Hausdorff Moment Problem, with Application to Topic Models ( http://arxiv.org/abs/2007.08101v3 )

ライセンス: Link先を確認
Spencer Gordon, Bijan Mazaheri, Leonard J. Schulman, Yuval Rabani(参考訳) 我々は、最初の$m$ノイズモーメントから、$[0,1]$のサポート$k<\infty$の確率分布を識別する問題を考える。 これは$m$オブザーバブルバイナリ確率変数 $x_1,x_2,\dots,x_m$ の分布を学習する問題と同値であり、これは$\{1,2,\dots,k\}$ で値を取る隠れた確率変数 $u$ 上で iid 条件付きである。 私たちはこれを$m=2k$で達成することに注力しています。これは、ソースが$k$-mixtureであることを確認するための最小の$m$です。 この問題は、単に述べられているように、非常に有用である:例えば、既知の還元によって、その問題のアルゴリズムは純粋なトピックモデルを学ぶアルゴリズムに持ち上げられる。 1/w_{\min}\right)^2 \cdot\left(1/\zeta\right)^{O(k)}$と、$O(k^{2+o(1)})$算術演算のみのポストサンプリングランタイムを用いて、$m=2k$のバイナリ変数のサンプルを用いて$k$-mixtureを識別するアルゴリズムを提供する。 ここで$w_{\min}$は$U$の結果の最小確率であり、$\zeta$は$X_i$sの異なる成功確率の間の最小分離である。 モーメント問題の観点から言えば、加算精度$w_{\min}\cdot\zeta^{O(k)}$のモーメントを知るのに十分である。 識別問題に対する任意の解のサンプル複雑性は少なくとも$k$で指数関数的になければならないことが知られている。 以前の結果は、サンプルの複雑さが悪く、さらに悪い$O(k^c)$ランタイムが2ドルよりかなり大きいか、類似のサンプルの複雑さとずっと悪い$k^{O(k^2)}$ランタイムが示されていた。

We consider the problem of identifying, from its first $m$ noisy moments, a probability distribution on $[0,1]$ of support $k<\infty$. This is equivalent to the problem of learning a distribution on $m$ observable binary random variables $X_1,X_2,\dots,X_m$ that are iid conditional on a hidden random variable $U$ taking values in $\{1,2,\dots,k\}$. Our focus is on accomplishing this with $m=2k$, which is the minimum $m$ for which verifying that the source is a $k$-mixture is possible (even with exact statistics). This problem, so simply stated, is quite useful: e.g., by a known reduction, any algorithm for it lifts to an algorithm for learning pure topic models. We give an algorithm for identifying a $k$-mixture using samples of $m=2k$ iid binary random variables using a sample of size $\left(1/w_{\min}\right)^2 \cdot\left(1/\zeta\right)^{O(k)}$ and post-sampling runtime of only $O(k^{2+o(1)})$ arithmetic operations. Here $w_{\min}$ is the minimum probability of an outcome of $U$, and $\zeta$ is the minimum separation between the distinct success probabilities of the $X_i$s. Stated in terms of the moment problem, it suffices to know the moments to additive accuracy $w_{\min}\cdot\zeta^{O(k)}$. It is known that the sample complexity of any solution to the identification problem must be at least exponential in $k$. Previous results demonstrated either worse sample complexity and worse $O(k^c)$ runtime for some $c$ substantially larger than $2$, or similar sample complexity and much worse $k^{O(k^2)}$ runtime.
翻訳日:2022-11-09 22:51:28 公開日:2020-09-07
# ビジュアルアナリティクスを用いた深部交通予測における修正可能なリアルユニット問題の再検討

Revisiting the Modifiable Areal Unit Problem in Deep Traffic Prediction with Visual Analytics ( http://arxiv.org/abs/2007.15486v3 )

ライセンス: Link先を確認
Wei Zeng, Chengqiao Lin, Juncong Lin, Jincheng Jiang, Jiazhi Xia, Cagatay Turkay, Wei Chen(参考訳) 深層学習手法は、時空間の交通データを逐次的に整理された行列に集約し、畳み込みに基づく残留ニューラルネットワークに入力する都市交通予測にますます使われている。 しかし、そのような集約プロセスの中で広く知られている変更可能なアラル単位問題は、ネットワーク入力の摂動を引き起こす可能性がある。 この問題は、機能埋め込みと予測を著しく不安定にし、ディープネットワークを専門家にとって非常に役に立たないものにする。 本稿では,都市交通データの動的に変化するマルチスカラーアグリゲーションとニューラルネットワーク予測との間の多対多の関係を探索するユニット可視化技術を活用することで,この問題に対処する。 ドメインエキスパートと定期的に交換することで、私たちはビジュアル分析ソリューションを設計し、開発します。 1) 空間を横断する入力トラフィックと予測エラーを同時に描写する高度な2変数カラーマップを備えたバイバーリエートマップ。 2)空間関連分析の局所的指標を提供するモランi散布書,及び 3) ツリーレイアウトに非線形ドットプロットを配置し,モデル解析とスケール間の比較を促進するマルチスケール帰属ビュー。 我々は、深センのタクシー旅行の現実世界のデータセットを含む一連のケーススタディと、ドメインの専門家とのインタビューを通じて、このアプローチを評価します。 地理的スケールの変動が予測性能に重要な影響を与え、動的に変化する入力と出力のインタラクティブなビジュアル探索は、深層交通予測モデルの開発に有益である。

Deep learning methods are being increasingly used for urban traffic prediction where spatiotemporal traffic data is aggregated into sequentially organized matrices that are then fed into convolution-based residual neural networks. However, the widely known modifiable areal unit problem within such aggregation processes can lead to perturbations in the network inputs. This issue can significantly destabilize the feature embeddings and the predictions, rendering deep networks much less useful for the experts. This paper approaches this challenge by leveraging unit visualization techniques that enable the investigation of many-to-many relationships between dynamically varied multi-scalar aggregations of urban traffic data and neural network predictions. Through regular exchanges with a domain expert, we design and develop a visual analytics solution that integrates 1) a Bivariate Map equipped with an advanced bivariate colormap to simultaneously depict input traffic and prediction errors across space, 2) a Morans I Scatterplot that provides local indicators of spatial association analysis, and 3) a Multi-scale Attribution View that arranges non-linear dot plots in a tree layout to promote model analysis and comparison across scales. We evaluate our approach through a series of case studies involving a real-world dataset of Shenzhen taxi trips, and through interviews with domain experts. We observe that geographical scale variations have important impact on prediction performances, and interactive visual exploration of dynamically varying inputs and outputs benefit experts in the development of deep traffic prediction models.
翻訳日:2022-11-05 14:53:05 公開日:2020-09-07
# audioLIME:ソース分離を用いたリスナブルな説明

audioLIME: Listenable Explanations Using Source Separation ( http://arxiv.org/abs/2008.00582v3 )

ライセンス: Link先を確認
Verena Haunschmid, Ethan Manilow, Gerhard Widmer(参考訳) ディープニューラルネットワーク(DNN)は様々な音楽情報検索(MIR)タスクにうまく適用されているが、その予測は通常解釈できない。 本稿では,局所性の定義によって拡張された局所解釈型モデル非依存記述(LIME)に基づくAudioLIMEを提案する。 LIMEで使用される摂動は、ソース分離によって抽出されたコンポーネントのオン/オフを切り替えることで、説明を聴くことができる。 2つの異なる音楽タグシステム上でaudiolimeを検証し,競合する方法ができない状況において,合理的な説明を生成することを示す。

Deep neural networks (DNNs) are successfully applied in a wide variety of music information retrieval (MIR) tasks but their predictions are usually not interpretable. We propose audioLIME, a method based on Local Interpretable Model-agnostic Explanations (LIME) extended by a musical definition of locality. The perturbations used in LIME are created by switching on/off components extracted by source separation which makes our explanations listenable. We validate audioLIME on two different music tagging systems and show that it produces sensible explanations in situations where a competing method cannot.
翻訳日:2022-11-03 20:01:56 公開日:2020-09-07
# グラフィカルユーザインタフェースのためのオブジェクト検出:古いファッションかディープラーニングか、それとも組み合わせか?

Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination? ( http://arxiv.org/abs/2008.05132v2 )

ライセンス: Link先を確認
Jieshan Chen, Mulong Xie, Zhenchang Xing, Chunyang Chen, Xiwei Xu, Liming Zhu and Guoqiang Li(参考訳) GUIイメージにおけるグラフィカルユーザインタフェース(GUI)要素の検出は、ドメイン固有のオブジェクト検出タスクである。 GUIアニメーションやテスト、GUI検索、コード生成など、多くのソフトウェアエンジニアリングタスクをサポートする。 GUI要素検出の既存の研究は、コンピュータビジョン(CV)ドメインから直接、従来の画像処理機能(例えば、キャニーエッジ、輪郭)に依存する古い手法や、大規模なGUIデータから検出することを学ぶディープラーニングモデルなど、成熟した手法を借用している。 残念なことに、これらのCV手法は、GUIおよびGUI要素のユニークな特性とGUI要素検出タスクの高精度なローカライゼーションを意識して設計されていない。 我々は,50k以上のGUI画像上に7つの代表的GUI要素検出手法の大規模実験を行い,これらの手法の能力,限界,効果的な設計について理解した。 本研究は,解決すべき技術的課題だけでなく,新しいGUI要素検出手法の設計にも光を当てる。 そこで我々は,GUI 要素検出のための新しい GUI 固有の古き良き手法を設計し,GUI テキスト検出のための成熟した深層学習モデルに組み込むことにより,GUI 要素検出における最先端性能を著しく向上させることを示す。

Detecting Graphical User Interface (GUI) elements in GUI images is a domain-specific object detection task. It supports many software engineering tasks, such as GUI animation and testing, GUI search and code generation. Existing studies for GUI element detection directly borrow the mature methods from computer vision (CV) domain, including old fashioned ones that rely on traditional image processing features (e.g., canny edge, contours), and deep learning models that learn to detect from large-scale GUI data. Unfortunately, these CV methods are not originally designed with the awareness of the unique characteristics of GUIs and GUI elements and the high localization accuracy of the GUI element detection task. We conduct the first large-scale empirical study of seven representative GUI element detection methods on over 50k GUI images to understand the capabilities, limitations and effective designs of these methods. This study not only sheds the light on the technical challenges to be addressed but also informs the design of new GUI element detection methods. We accordingly design a new GUI-specific old-fashioned method for non-text GUI element detection which adopts a novel top-down coarse-to-fine strategy, and incorporate it with the mature deep learning model for GUI text detection.Our evaluation on 25,000 GUI images shows that our method significantly advances the start-of-the-art performance in GUI element detection.
翻訳日:2022-10-31 05:02:59 公開日:2020-09-07
# 主エリプソイド分析(PEA) : 効率的な非線形次元削減とクラスタリング

Principal Ellipsoid Analysis (PEA): Efficient non-linear dimension reduction & clustering ( http://arxiv.org/abs/2008.07110v2 )

ライセンス: Link先を確認
Debolina Paul, Saptarshi Chakraborty, Didong Li and David Dunson(参考訳) 過パラメータ化モデルの普及にもかかわらず、PCAやk-meansのような単純な次元削減とクラスタリング手法は、いまだに驚くほど多様な設定で日常的に使われている。 主な理由は、単純性、解釈性、計算効率の組み合わせである。 この記事では、PCAとk平均の改善に焦点を当て、重要な利点を犠牲にすることなく、データとより柔軟なクラスタ形状の非線形関係を可能にする。 鍵となる貢献は、プライマリ楕円解析(PEA)のための新しいフレームワークであり、データを通して最適な楕円近似に適合するPCAに代わる単純で効率的な代替品を定義する。 Vapnik-Chervonenkis(VC)理論を用いて提案したPEAアルゴリズムに関する理論的保証を行い、強い一貫性と一様濃度境界を示す。 トイ実験は、PEAの性能と、非線形構造や複雑なクラスタ形状に適応する能力を説明する。 さまざまな実際のデータクラスタリングアプリケーションにおいて、PEAは単純なデータセットのためのk-meansと同様に機能し、より複雑な設定でパフォーマンスを劇的に改善する。

Even with the rise in popularity of over-parameterized models, simple dimensionality reduction and clustering methods, such as PCA and k-means, are still routinely used in an amazing variety of settings. A primary reason is the combination of simplicity, interpretability and computational efficiency. The focus of this article is on improving upon PCA and k-means, by allowing non-linear relations in the data and more flexible cluster shapes, without sacrificing the key advantages. The key contribution is a new framework for Principal Elliptical Analysis (PEA), defining a simple and computationally efficient alternative to PCA that fits the best elliptical approximation through the data. We provide theoretical guarantees on the proposed PEA algorithm using Vapnik-Chervonenkis (VC) theory to show strong consistency and uniform concentration bounds. Toy experiments illustrate the performance of PEA, and the ability to adapt to non-linear structure and complex cluster shapes. In a rich variety of real data clustering applications, PEA is shown to do as well as k-means for simple datasets, while dramatically improving performance in more complex settings.
翻訳日:2022-10-28 04:08:59 公開日:2020-09-07
# 混合モデルにおける非パラメトリック最大度推定器の自己レギュライゼーション特性

Self-regularizing Property of Nonparametric Maximum Likelihood Estimator in Mixture Models ( http://arxiv.org/abs/2008.08244v2 )

ライセンス: Link先を確認
Yury Polyanskiy and Yihong Wu(参考訳) kiefer と wolfowitz \cite{kw56} によって導入された nonparametric maximum likelihood estimator (npmle) は odel と経験ベイズ推定の混合を学習するのに広く使われている手法である。 混合度で非凸性を回避するため、npmleは、超過パラメータ化の極端な形式と見なすことができる確率測度の空間上の全確率を最大化することで混合分布を推定する。 本稿では,NPMLE溶液の驚くべき性質について述べる。 例えば、実数直線上のガウス混合モデルとサブガウス混合分布を考える。 複素解析手法を用いることで、NPMLEはサイズ$n$のサンプルに基づいて高い確率で$O(\log n)$原子(質量点)を持ち、Lndsay \cite{lindsay 1983geometry1} による決定論的上限$n$を大幅に改善することを示した。 特に、そのようなガウス混合は、$O(\log n)$成分の有限成分と統計的に区別できない(これは特定の混合に対してきつい)。 したがって、モデル選択の明示的な形式が存在しないため、NPMLEは自動的に正しいモデル複雑性、すなわち 'emph{self-regularization} という性質を選択する。 他の指数族への拡張が与えられる。 統計的応用として、この構造特性は、(パラメトリック) MLE の既存のヘリンジャーリスク境界を一般ガウス混合に対して NPMLE にブートストラップし、Zhang \cite{zhang2009 Generalized} の結果を回復することを示す。

Introduced by Kiefer and Wolfowitz \cite{KW56}, the nonparametric maximum likelihood estimator (NPMLE) is a widely used methodology for learning mixture odels and empirical Bayes estimation. Sidestepping the non-convexity in mixture likelihood, the NPMLE estimates the mixing distribution by maximizing the total likelihood over the space of probability measures, which can be viewed as an extreme form of overparameterization. In this paper we discover a surprising property of the NPMLE solution. Consider, for example, a Gaussian mixture model on the real line with a subgaussian mixing distribution. Leveraging complex-analytic techniques, we show that with high probability the NPMLE based on a sample of size $n$ has $O(\log n)$ atoms (mass points), significantly improving the deterministic upper bound of $n$ due to Lindsay \cite{lindsay1983geometry1}. Notably, any such Gaussian mixture is statistically indistinguishable from a finite one with $O(\log n)$ components (and this is tight for certain mixtures). Thus, absent any explicit form of model selection, NPMLE automatically chooses the right model complexity, a property we term \emph{self-regularization}. Extensions to other exponential families are given. As a statistical application, we show that this structural property can be harnessed to bootstrap existing Hellinger risk bound of the (parametric) MLE for finite Gaussian mixtures to the NPMLE for general Gaussian mixtures, recovering a result of Zhang \cite{zhang2009generalized}.
翻訳日:2022-10-27 12:36:16 公開日:2020-09-07
# DeepRegを用いた医用画像登録入門 : 旧来から新来にかけて

Introduction to Medical Image Registration with DeepReg, Between Old and New ( http://arxiv.org/abs/2009.01924v2 )

ライセンス: Link先を確認
N. Montana Brown, Y. Fu, S. U. Saeed, A. Casamitjana, Z. M. C. Baum, R. Delaunay, Q. Yang, A. Grimwood, Z. Min, E. Bonmati, T. Vercauteren, M. J. Clarkson, and Y. Hu(参考訳) このドキュメントは、オープンソースパッケージのDeepRegを使って、医用画像登録を開始するためのチュートリアルの概要である。 医学的画像登録の基本概念を議論し,古典的手法と深層学習による新しい手法を結びつけた。 最適化を用いた2つの反復的古典的アルゴリズムとディープラーニングを用いた1つの学習ベースのアルゴリズムは、DeepRegユーティリティを使用して段階的にコーディングされる。

This document outlines a tutorial to get started with medical image registration using the open-source package DeepReg. The basic concepts of medical image registration are discussed, linking classical methods to newer methods using deep learning. Two iterative, classical algorithms using optimisation and one learning-based algorithm using deep learning are coded step-by-step using DeepReg utilities, all with real, open-accessible, medical data.
翻訳日:2022-10-23 17:00:48 公開日:2020-09-07
# 階層的音色塗装と調音生成

Hierarchical Timbre-Painting and Articulation Generation ( http://arxiv.org/abs/2008.13095v2 )

ライセンス: Link先を確認
Michael Michelashvili and Lior Wolf(参考訳) 本稿では,特定のf0とラウドネスに基づいて,ターゲット楽器の音色と調音を模倣する高速で高精度な音楽生成法を提案する。 生成プロセスは、高分解能で信号を再構成する学習ソースフィルタリングネットワークで構成される。 モデルは、再構成損失としてマルチレゾリューションスペクトル損失を最適化し、オーディオをよりリアルにするための逆損失と、所望の入力ピッチ輪郭に合わせて出力を調整する知覚的f0損失を最適化する。 提案アーキテクチャでは,数分の短いサンプルを与えられた楽器の高品質な装着が可能であり,その手法は最先端の音色伝達能力を実証する。 コードとオーディオのサンプルはhttps://github.com/mosheman5/timbre_paintingで共有される。

We present a fast and high-fidelity method for music generation, based on specified f0 and loudness, such that the synthesized audio mimics the timbre and articulation of a target instrument. The generation process consists of learned source-filtering networks, which reconstruct the signal at increasing resolutions. The model optimizes a multi-resolution spectral loss as the reconstruction loss, an adversarial loss to make the audio sound more realistic, and a perceptual f0 loss to align the output to the desired input pitch contour. The proposed architecture enables high-quality fitting of an instrument, given a sample that can be as short as a few minutes, and the method demonstrates state-of-the-art timbre transfer capabilities. Code and audio samples are shared at https://github.com/mosheman5/timbre_painting.
翻訳日:2022-10-23 12:36:13 公開日:2020-09-07
# 進化的ニューラルネットワーク探索アルゴリズムの性能予測のための新しい学習プロトコル

A Novel Training Protocol for Performance Predictors of Evolutionary Neural Architecture Search Algorithms ( http://arxiv.org/abs/2008.13187v2 )

ライセンス: Link先を確認
Yanan Sun and Xian Sun and Yuhan Fang and Gary Yen(参考訳) evolution neural architecture search (enas) は、進化的計算アルゴリズムを用いてディープニューラルネットワーク(dnn)のアーキテクチャを自動的に設計することができる。 しかし、ほとんどのENASアルゴリズムは集約的な計算資源を必要とするため、興味のあるユーザーには必ずしも利用できない。 パフォーマンス予測は、多くの計算資源を行使することなく、探索を達成するのに役立つ回帰モデルの一種である。 様々なパフォーマンス予測器が設計されているが、回帰モデルを構築するために同じトレーニングプロトコルを使用している。 1)トレーニングデータセットとしてパフォーマンスを備えたDNNの集合をサンプリングする。 2)平均二乗誤差基準でモデルを訓練し、 3) ENAS中に新たに生成されたDNNの性能を予測する。 本稿では,トレーニングプロトコルを構成する3つのステップが,直観的かつ図解的な例を通してうまく機能していないことを指摘する。 さらに,これらの問題に対処する新たなトレーニングプロトコルを提案する。トレーニングターゲットを構築するためのペアワイズランキングインジケータを設計し,ロジスティック回帰を用いてトレーニングサンプルに適合させ,トレーニングインスタンスを構築するための差分手法を開発することを提案する。 提案手法の有効性を検証するため,2つのベンチマークデータセットの比較を行うため,機械学習分野において広く用いられている4つの回帰モデルが選択された。 比較実験の結果,提案したトレーニングプロトコルは従来のトレーニングプロトコルと比較して性能予測精度を大幅に向上できることが示された。

Evolutionary Neural Architecture Search (ENAS) can automatically design the architectures of Deep Neural Networks (DNNs) using evolutionary computation algorithms. However, most ENAS algorithms require intensive computational resource, which is not necessarily available to the users interested. Performance predictors are a type of regression models which can assist to accomplish the search, while without exerting much computational resource. Despite various performance predictors have been designed, they employ the same training protocol to build the regression models: 1) sampling a set of DNNs with performance as the training dataset, 2) training the model with the mean square error criterion, and 3) predicting the performance of DNNs newly generated during the ENAS. In this paper, we point out that the three steps constituting the training protocol are not well though-out through intuitive and illustrative examples. Furthermore, we propose a new training protocol to address these issues, consisting of designing a pairwise ranking indicator to construct the training target, proposing to use the logistic regression to fit the training samples, and developing a differential method to building the training instances. To verify the effectiveness of the proposed training protocol, four widely used regression models in the field of machine learning have been chosen to perform the comparisons on two benchmark datasets. The experimental results of all the comparisons demonstrate that the proposed training protocol can significantly improve the performance prediction accuracy against the traditional training protocols.
翻訳日:2022-10-23 12:03:30 公開日:2020-09-07
# Webイベント予測と異常検出を接続する:自己監視ニューラルネットワークを用いたエンタープライズWebアプリケーションのケーススタディ

Connecting Web Event Forecasting with Anomaly Detection: A Case Study on Enterprise Web Applications Using Self-Supervised Neural Networks ( http://arxiv.org/abs/2008.13707v2 )

ライセンス: Link先を確認
Xiaoyong Yuan, Lei Ding, Malek Ben Salem, Xiaolin Li, Dapeng Wu(参考訳) 近年、webアプリケーションは、従業員が効果的で効率的なビジネスプロセスを提供するのを助けるために、企業で広く使われている。 エンタープライズウェブアプリケーションにおける今後のWebイベントの予測は、効率的なキャッシングやレコメンデーションなど、多くの面で有益である。 本稿では,企業Webアプリケーションにおける異常検出のためのWebイベント予測手法であるDeepEventを提案する。 DeepEventには、シーケンシャルなWebイベントの特徴を考慮に入れたWeb固有のニューラルネットワーク、ラベル付きデータの不足を克服するための自己教師付き学習テクニック、コンテキストイベントの統合とWebイベント間の依存関係のキャプチャのためのシーケンス埋め込みテクニックの3つの重要な機能が含まれている。 実世界の6つのエンタープライズWebアプリケーションから収集したWebイベントについてDeepEventを評価する。 実験の結果,DeepEventはシーケンシャルなWebイベントの予測やWebベースの異常検出に有効であることが示された。 DeepEventは、研究者や実践者が状況を認識したWebイベントをより正確に予測するためのコンテキストベースのシステムを提供する。

Recently web applications have been widely used in enterprises to assist employees in providing effective and efficient business processes. Forecasting upcoming web events in enterprise web applications can be beneficial in many ways, such as efficient caching and recommendation. In this paper, we present a web event forecasting approach, DeepEvent, in enterprise web applications for better anomaly detection. DeepEvent includes three key features: web-specific neural networks to take into account the characteristics of sequential web events, self-supervised learning techniques to overcome the scarcity of labeled data, and sequence embedding techniques to integrate contextual events and capture dependencies among web events. We evaluate DeepEvent on web events collected from six real-world enterprise web applications. Our experimental results demonstrate that DeepEvent is effective in forecasting sequential web events and detecting web based anomalies. DeepEvent provides a context-based system for researchers and practitioners to better forecast web events with situational awareness.
翻訳日:2022-10-23 07:46:29 公開日:2020-09-07
# ペア比較による同時選好とメトリック学習

Simultaneous Preference and Metric Learning from Paired Comparisons ( http://arxiv.org/abs/2009.02302v2 )

ライセンス: Link先を確認
Austin Xu and Mark A. Davenport(参考訳) レコメンデーションシステムの文脈における選好の一般的なモデルは、いわゆる 'emph{ideal point} モデルである。 このモデルでは、ユーザはベクトル $\mathbf{u}$ と、共通の低次元空間におけるアイテム $\mathbf{x_1}, \ldots, \mathbf{x_N}$ の集合として表される。 ベクトル $\mathbf{u}$ はユーザの「理想点」または仮説化された最も好まれる項目を表す特徴の理想的な組み合わせを表す。 このモデルの基本的な仮定は、$\mathbf{u}$ と $\mathbf{x_j}$ の間の距離が小さいことは$\mathbf{x_j}$ のより強い選好を示すということである。 理想点モデルを学ぶ既存の研究のほとんどにおいて、基礎となる距離はユークリッドであると仮定されている。 しかし、これは機能とユーザの基本的な好みの間の相互作用を排除します。 本稿では,距離計量が未知のマハラノビス計量である場合に,ユーザの好みの理想的なポイント表現を学習する問題を考察する。 具体的には、「item $\mathbf{x_i}$ is preferred to item $\mathbf{x_j}$」という形式のペア比較から、ユーザの理想点$\mathbf{u}$とマハラノビス計量を推定する新しいアプローチを提案する。 「これは、ある点の位置が未知であるような、より一般的な計量学習問題の特別な場合と見なすことができる。 本アルゴリズムの有効性を示すために,合成および実世界のデータセットを広範囲に実験した。

A popular model of preference in the context of recommendation systems is the so-called \emph{ideal point} model. In this model, a user is represented as a vector $\mathbf{u}$ together with a collection of items $\mathbf{x_1}, \ldots, \mathbf{x_N}$ in a common low-dimensional space. The vector $\mathbf{u}$ represents the user's "ideal point," or the ideal combination of features that represents a hypothesized most preferred item. The underlying assumption in this model is that a smaller distance between $\mathbf{u}$ and an item $\mathbf{x_j}$ indicates a stronger preference for $\mathbf{x_j}$. In the vast majority of the existing work on learning ideal point models, the underlying distance has been assumed to be Euclidean. However, this eliminates any possibility of interactions between features and a user's underlying preferences. In this paper, we consider the problem of learning an ideal point representation of a user's preferences when the distance metric is an unknown Mahalanobis metric. Specifically, we present a novel approach to estimate the user's ideal point $\mathbf{u}$ and the Mahalanobis metric from paired comparisons of the form "item $\mathbf{x_i}$ is preferred to item $\mathbf{x_j}$." This can be viewed as a special case of a more general metric learning problem where the location of some points are unknown a priori. We conduct extensive experiments on synthetic and real-world datasets to exhibit the effectiveness of our algorithm.
翻訳日:2022-10-22 01:52:27 公開日:2020-09-07
# 人工ニューラルネットワークを用いた原始惑星円盤SEDのモデリング:粘性円盤モデルと更新ディスク質量の再検討

Modeling protoplanetary disk SEDs with artificial neural networks: Revisiting the viscous disk model and updated disk masses ( http://arxiv.org/abs/2009.03323v1 )

ライセンス: Link先を確認
\'A. Ribas, C. C. Espaillat, E. Mac\'ias, L. M. Sarro(参考訳) タウルス・アウリガ星形成領域における23個の原始惑星系円盤のスペクトルエネルギー分布(seds)を詳細なディスクモデルとベイズアプローチを用いてモデル化した。 これは、これらのモデルと人工ニューラルネットワークを組み合わせることで、パフォーマンスを大幅に高速化する。 このようなセットアップにより、いくつかの不確実性と退化を考慮しつつ、観測で$\alpha$-diskモデルと対決することができる。 その結果,近年の円盤内の低乱流レベルの測定値と一致しない多くのソースに対して,高粘度および降着速度が得られた。 この矛盾は、円盤内の角運動量移動の主なメカニズムは粘性ではなく、ディスク風のような代替手段がこの過程において重要な役割を果たすことを暗示している。 また、sed由来のディスク質量は、(sub)mmフラックスのみから得られるものよりも体系的に高いことが分かり、ディスク放出の一部が(sub)mm波長で光学的に厚くなる可能性が示唆された。 この効果は特に円盤群の研究に関係し、原始惑星円盤と外惑星系の質量の間の以前の観測的な緊張を緩和する。

We model the spectral energy distributions (SEDs) of 23 protoplanetary disks in the Taurus-Auriga star-forming region using detailed disk models and a Bayesian approach. This is made possible by combining these models with artificial neural networks to drastically speed up their performance. Such a setup allows us to confront $\alpha$-disk models with observations while accounting for several uncertainties and degeneracies. Our results yield high viscosities and accretion rates for many sources, which is not consistent with recent measurements of low turbulence levels in disks. This inconsistency could imply that viscosity is not the main mechanism for angular momentum transport in disks, and that alternatives such as disk winds play an important role in this process. We also find that our SED-derived disk masses are systematically higher than those obtained solely from (sub)mm fluxes, suggesting that part of the disk emission could still be optically thick at (sub)mm wavelengths. This effect is particularly relevant for disk population studies and alleviates previous observational tensions between the masses of protoplanetary disks and exoplanetary systems.
翻訳日:2022-10-21 03:37:31 公開日:2020-09-07
# データテーブルの深い関係を明らかにする軽量アルゴリズム

A Lightweight Algorithm to Uncover Deep Relationships in Data Tables ( http://arxiv.org/abs/2009.03358v1 )

ライセンス: Link先を確認
Jin Cao and Yibo Zhao and Linjun Zhang and Jason Li(参考訳) 今日収集した多くのデータは表形式で、行をレコードとして、列をレコードに関連付けています。 表形式のデータの構造的関係を理解することは、データサイエンスプロセスを大幅に促進する。 伝統的に、これらの関係情報はテーブルスキーマに格納され、作成者(通常はドメインエキスパート)によって保持される。 本稿では,専門家やドメイン知識を必要とせず,単一のデータテーブルで深い関係を明らかにする自動化手法を開発する。 本手法は,データテーブルを小さなテーブルの層に分解し,その深層構造を明らかにする。 我々のアプローチの鍵は計算量的に軽量な前方加算アルゴリズムであり、多数の列を持つテーブルにスケーラブルなテーブル列間の関数的依存関係を再帰的に抽出するために開発した。 我々のソリューションでは、データサイエンティストは新しいデータセットを探索する際に自動的に生成されたデータ駆動の洞察を提供する。

Many data we collect today are in tabular form, with rows as records and columns as attributes associated with each record. Understanding the structural relationship in tabular data can greatly facilitate the data science process. Traditionally, much of this relational information is stored in table schema and maintained by its creators, usually domain experts. In this paper, we develop automated methods to uncover deep relationships in a single data table without expert or domain knowledge. Our method can decompose a data table into layers of smaller tables, revealing its deep structure. The key to our approach is a computationally lightweight forward addition algorithm that we developed to recursively extract the functional dependencies between table columns that are scalable to tables with many columns. With our solution, data scientists will be provided with automatically generated, data-driven insights when exploring new data sets.
翻訳日:2022-10-21 03:37:08 公開日:2020-09-07
# 暗号通貨のポートフォリオ管理のためのトポロジカルデータ分析

Topological Data Analysis for Portfolio Management of Cryptocurrencies ( http://arxiv.org/abs/2009.03362v1 )

ライセンス: Link先を確認
Rodrigo Rivera-Castro, Polina Pilyugina, Evgeny Burnaev(参考訳) 投資決定にはポートフォリオ管理が不可欠です。 しかし、この文学における伝統的な手法は、暗号通貨の特徴とダイナミクスに不向きである。 本研究は,6年間の市場データをカバーする1500以上の暗号通貨からなる投資ポートフォリオを構築する方法を提案する。 トポロジカルデータ分析 (topological data analysis, tda) は、データ集合をトポロジカル構造の観点から解析する最近のアプローチである。 本論文は、暗号通貨の投資機会を特定するために、持続的景観を組み合わせたシステムを提案する。 本研究は,新しい暗号通貨価格の包括的データセットを用いて,アナリストがTDAの特徴工学やドメイン知識を必要とせずに,古典的手法を文献から上回り得ることを示す。 この研究は、tdaベースの暗号通貨のポートフォリオ管理を実践者にとって実行可能なツールとして導入する。

Portfolio management is essential for any investment decision. Yet, traditional methods in the literature are ill-suited for the characteristics and dynamics of cryptocurrencies. This work presents a method to build an investment portfolio consisting of more than 1500 cryptocurrencies covering 6 years of market data. It is centred around Topological Data Analysis (TDA), a recent approach to analyze data sets from the perspective of their topological structure. This publication proposes a system combining persistence landscapes to identify suitable investment opportunities in cryptocurrencies. Using a novel and comprehensive data set of cryptocurrency prices, this research shows that the proposed system enables analysts to outperform a classic method from the literature without requiring any feature engineering or domain knowledge in TDA. This work thus introduces TDA-based portfolio management of cryptocurrencies as a viable tool for the practitioner.
翻訳日:2022-10-21 03:36:54 公開日:2020-09-07
# スケーラブルな第2次手法による不条件行列補完における鞍点のエスケープ

Escaping Saddle Points in Ill-Conditioned Matrix Completion with a Scalable Second Order Method ( http://arxiv.org/abs/2009.02905v1 )

ライセンス: Link先を確認
Christian K\"ummerle, Claudio M. Verdun(参考訳) 本研究では,irlsアルゴリズムと非凸ランクサーロゲート目的に適用したサドルエスケープ平滑化ニュートン法の両方として解釈可能な,低ランク行列補完のための反復アルゴリズムを提案する。 これは、以前のIRLSアプローチの好ましいデータ効率と、数桁のスケーラビリティの改善を組み合わせたものです。 本手法は, 情報理論上の限界に近いサンプル数に対して, 既に局所二次収束率を達成する。 数値実験では, 現状の多くの手法と異なり, 条件数10^{10}$の極めて条件の悪い行列を, 少数のサンプルから解くことが可能であることが示されている。

We propose an iterative algorithm for low-rank matrix completion that can be interpreted as both an iteratively reweighted least squares (IRLS) algorithm and a saddle-escaping smoothing Newton method applied to a non-convex rank surrogate objective. It combines the favorable data efficiency of previous IRLS approaches with an improved scalability by several orders of magnitude. Our method attains a local quadratic convergence rate already for a number of samples that is close to the information theoretical limit. We show in numerical experiments that unlike many state-of-the-art approaches, our approach is able to complete very ill-conditioned matrices with a condition number of up to $10^{10}$ from few samples.
翻訳日:2022-10-21 03:36:40 公開日:2020-09-07
# 入出力協調フィルタリングにおける負サンプリングの簡易化とロバスト化

Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering ( http://arxiv.org/abs/2009.03376v1 )

ライセンス: Link先を確認
Jingtao Ding, Yuhan Quan, Quanming Yao, Yong Li, Depeng Jin(参考訳) 負のサンプリングアプローチは、大量のラベルのないデータから負のラベルを取得するための暗黙の協調フィルタリングにおいて一般的である。 負のサンプリングにおける2つの主要な関心事として、偽の負のインスタンスの複雑な構造と見落としのリスクを利用する最近の研究によって、効率と効果がまだ完全には達成されていない。 本稿では,まず,モデル学習においてわずか数個のインスタンスが潜在的に重要であること,偽陰性が多くのトレーニングイテレーションに対して安定した予測を持つ傾向があることを実証的に観察することで,負のインスタンスの新たな理解を提供する。 以上の結果から,いくつかの重要な候補のみを記憶する設計メモリから抽出し,さらに重要な点として,メモリに格納された高分散サンプルを選好することで,非タッチの偽陰性問題に対処し,高品質な真の負の効率的なサンプリングを実現することにより,モデルを単純化する動機となった。 2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。

Negative sampling approaches are prevalent in implicit collaborative filtering for obtaining negative labels from massive unlabeled data. As two major concerns in negative sampling, efficiency and effectiveness are still not fully achieved by recent works that use complicate structures and overlook risk of false negative instances. In this paper, we first provide a novel understanding of negative instances by empirically observing that only a few instances are potentially important for model learning, and false negatives tend to have stable predictions over many training iterations. Above findings motivate us to simplify the model by sampling from designed memory that only stores a few important candidates and, more importantly, tackle the untouched false negative problem by favouring high-variance samples stored in memory, which achieves efficient sampling of true negatives with high-quality. Empirical results on two synthetic datasets and three real-world datasets demonstrate both robustness and superiorities of our negative sampling method.
翻訳日:2022-10-21 03:34:07 公開日:2020-09-07
# グラフ埋め込みローカルアテンションエンコーダを用いたスカラカップリング定数予測

Scalar Coupling Constant Prediction Using Graph Embedding Local Attention Encoder ( http://arxiv.org/abs/2009.04522v1 )

ライセンス: Link先を確認
Caiqing Jian, Xinyu Cheng, Jian Zhang, Lihui Wang(参考訳) スカラーカップリング定数(SCC)は有機物の3次元構造解析において重要な役割を果たすが、量子力学計算を用いた従来のSCC予測は非常に時間がかかる。 To calculate SCC efficiently and accurately, we proposed a graph embedding local self-attention encoder (GELAE) model, in which, a novel invariant structure representation of the coupling system in terms of bond length, bond angle and dihedral angle was presented firstly, and then a local self-attention module embedded with the adjacent matrix of a graph was designed to extract effectively the features of coupling systems, finally, with a modified classification loss function, the SCC was predicted. 提案手法の優位性を検証するため,異なる構造表現,異なる注目モジュール,異なる損失を用いた一連の比較実験を行った。 The experimental results demonstrate that, compared to the traditional chemical bond structure representations, the rotation and translation invariant structure representations proposed in this work can improve the SCC prediction accuracy; with the graph embedded local self-attention, the mean absolute error (MAE) of the prediction model in the validation set decreases from 0.1603 Hz to 0.1067 Hz; using the classification based loss function instead of the scaled regression loss, the MAE of the predicted SCC can be decreased to 0.0963 HZ, which is close to the quantum chemistry standard on CHAMPS dataset.

Scalar coupling constant (SCC) plays a key role in the analysis of three-dimensional structure of organic matter, however, the traditional SCC prediction using quantum mechanical calculations is very time-consuming. To calculate SCC efficiently and accurately, we proposed a graph embedding local self-attention encoder (GELAE) model, in which, a novel invariant structure representation of the coupling system in terms of bond length, bond angle and dihedral angle was presented firstly, and then a local self-attention module embedded with the adjacent matrix of a graph was designed to extract effectively the features of coupling systems, finally, with a modified classification loss function, the SCC was predicted. To validate the superiority of the proposed method, we conducted a series of comparison experiments using different structure representations, different attention modules, and different losses. The experimental results demonstrate that, compared to the traditional chemical bond structure representations, the rotation and translation invariant structure representations proposed in this work can improve the SCC prediction accuracy; with the graph embedded local self-attention, the mean absolute error (MAE) of the prediction model in the validation set decreases from 0.1603 Hz to 0.1067 Hz; using the classification based loss function instead of the scaled regression loss, the MAE of the predicted SCC can be decreased to 0.0963 HZ, which is close to the quantum chemistry standard on CHAMPS dataset.
翻訳日:2022-10-21 03:33:48 公開日:2020-09-07
# CTにおける頭蓋内出血の局在と分類

Localization and classification of intracranialhemorrhages in CT data ( http://arxiv.org/abs/2009.03046v1 )

ライセンス: Link先を確認
Jakub Nemcek, Roman Jakubicek, Jiri Chmelik(参考訳) 頭蓋内出血(ICHs)は、比較的高い頻度で致命的な脳損傷である。 本稿では,局所化を含むICHの検出と分類のための自動アルゴリズムを提案する。 設計されたカスケード並列アーキテクチャを持つバイナリ畳み込みニューラルネットワークベースの分類器のセットが使用される。 この自動システムは急性症例の診断過程の持続時間を大幅に減少させる可能性がある。 公開されている頭部CTデータセットCQ500のデータから平均ジャカード係数53.7%を得る。

Intracranial hemorrhages (ICHs) are life-threatening brain injures with a relatively high incidence. In this paper, the automatic algorithm for the detection and classification of ICHs, including localization, is present. The set of binary convolutional neural network-based classifiers with a designed cascade-parallel architecture is used. This automatic system may lead to a distinct decrease in the diagnostic process's duration in acute cases. An average Jaccard coefficient of 53.7 % is achieved on the data from the publicly available head CT dataset CQ500.
翻訳日:2022-10-21 03:33:29 公開日:2020-09-07
# ディープフェイク検出:人間対マシン

Deepfake detection: humans vs. machines ( http://arxiv.org/abs/2009.03155v1 )

ライセンス: Link先を確認
Pavel Korshunov and S\'ebastien Marcel(参考訳) ディープフェイク動画(deepfake video)は、人の顔が自動的に他人の顔と入れ替わる仕組みで、よりリアルな結果を生み出すのがより簡単になっています。 このような操作はビデオ証拠への信頼を損なう可能性があるため、deepfakeビデオの大規模なデータセットや、それらを検出する多くの方法が最近提案されました。 しかし、ディープフェイク動画が平均的な人に対してどの程度リアルで、アルゴリズムが人間よりも検出に優れているのかは不明だ。 本稿では,映像がディープフェイクであるか否かを人間にとってどの程度難しいのかを体系的に評価する,クラウドソーシング的なシナリオによる主観的研究を行う。 評価には、kaggleのdeepfake detection challenge 2020で提供されたfacebook deepfakeデータベースから手動で選択した120の異なるビデオ(60のdeepfakeと60のオリジナル)を使用しました。 ビデオの中の人物の顔は偽物なのか?」という単純な質問は、平均して19人の「na\」の被験者が答えた。 主観評価の結果は,faceforensics++のgoogleサブセットと最近のceleb-dfデータセットの2つの大規模公開データベースで事前学習されたxception and efficientnets (b4変種)ニューラルネットワークに基づく2つの異なる状態のdeepfake検出手法のパフォーマンスと比較した。 この評価は、人間の知覚が機械の知覚とは大きく異なるが、成功しても異なる方法ではディープフェイクに騙されることを示した。 具体的には、ディープフェイクビデオの発見にアルゴリズムが苦労している。

Deepfake videos, where a person's face is automatically swapped with a face of someone else, are becoming easier to generate with more realistic results. In response to the threat such manipulations can pose to our trust in video evidence, several large datasets of deepfake videos and many methods to detect them were proposed recently. However, it is still unclear how realistic deepfake videos are for an average person and whether the algorithms are significantly better than humans at detecting them. In this paper, we present a subjective study conducted in a crowdsourcing-like scenario, which systematically evaluates how hard it is for humans to see if the video is deepfake or not. For the evaluation, we used 120 different videos (60 deepfakes and 60 originals) manually pre-selected from the Facebook deepfake database, which was provided in the Kaggle's Deepfake Detection Challenge 2020. For each video, a simple question: "Is face of the person in the video real of fake?" was answered on average by 19 na\"ive subjects. The results of the subjective evaluation were compared with the performance of two different state of the art deepfake detection methods, based on Xception and EfficientNets (B4 variant) neural networks, which were pre-trained on two other large public databases: the Google's subset from FaceForensics++ and the recent Celeb-DF dataset. The evaluation demonstrates that while the human perception is very different from the perception of a machine, both successfully but in different ways are fooled by deepfakes. Specifically, algorithms struggle to detect those deepfake videos, which human subjects found to be very easy to spot.
翻訳日:2022-10-21 03:33:21 公開日:2020-09-07
# 超音波画像再構成法による脂肪性肝疾患分類における深部学習モデルの逆行性攻撃

Adversarial attacks on deep learning models for fatty liver disease classification by modification of ultrasound image reconstruction method ( http://arxiv.org/abs/2009.03364v1 )

ライセンス: Link先を確認
Michal Byra, Grzegorz Styczynski, Cezary Szmigielski, Piotr Kalinowski, Lukasz Michalowski, Rafal Paluszkiewicz, Bogna Ziarkiewicz-Wroblewska, Krzysztof Zieniewicz, Andrzej Nowicki(参考訳) 畳み込みニューラルネットワーク(CNN)は、医用画像解析タスクにおいて顕著な成功を収めた。 超音波(US)イメージングでは、CNNは対象分類、画像再構成、組織評価に応用されている。 しかし、CNNは敵の攻撃に対して脆弱であり、入力データに適用される小さな摂動でさえモデルの性能に大きく影響し、結果が間違っている。 そこで本研究では,超音波 (us) 画像に特異的な新しい攻撃法を考案する。 米国の画像は電波信号に基づいて再構成される。 米国画像の出現は,応用画像再構成法に依存するため,米国Bモード画像再構成法を摂動することで,深層学習モデルを騙す可能性を探る。 画像再構成パラメータの小さな摂動を求めるため,ゼロ次最適化を適用し,減衰補償や振幅圧縮に関係し,誤出力を生じる可能性がある。 脂肪性肝疾患の診断のために開発された深層学習モデルを用いて,本手法の有効性を示す。

Convolutional neural networks (CNNs) have achieved remarkable success in medical image analysis tasks. In ultrasound (US) imaging, CNNs have been applied to object classification, image reconstruction and tissue characterization. However, CNNs can be vulnerable to adversarial attacks, even small perturbations applied to input data may significantly affect model performance and result in wrong output. In this work, we devise a novel adversarial attack, specific to ultrasound (US) imaging. US images are reconstructed based on radio-frequency signals. Since the appearance of US images depends on the applied image reconstruction method, we explore the possibility of fooling deep learning model by perturbing US B-mode image reconstruction method. We apply zeroth order optimization to find small perturbations of image reconstruction parameters, related to attenuation compensation and amplitude compression, which can result in wrong output. We illustrate our approach using a deep learning model developed for fatty liver disease diagnosis, where the proposed adversarial attack achieved success rate of 48%.
翻訳日:2022-10-21 03:32:51 公開日:2020-09-07
# horus: インフラストラクチャとオンボードセンシングを組み合わせたセンサ融合による自動運転車の安全性向上

Horus: Using Sensor Fusion to Combine Infrastructure and On-board Sensing to Improve Autonomous Vehicle Safety ( http://arxiv.org/abs/2009.03458v1 )

ライセンス: Link先を確認
Sanjay Seshan(参考訳) 研究は、自動運転車の需要が2019年から2026年の間に10倍に増加すると予想している。 しかし、最近の顕著な事故は、この技術に対する消費者の信頼に大きく影響している。 これらの事故の原因の多くは、差し迫った危険を正確に感知できないことにまで遡ることができる。 これに対し、メーカーは車載センサーのパッケージを改良し、安全ナビゲーションに必要なデータへのアクセスを常に確保している。 しかし、これらのセンサーパッケージは車両の視点からしか見えず、その結果、自動運転車は安全を確保するために頻繁に人間の介入を必要とする。 この問題に対処するため、私はHorusというシステムを開発しました。車載とインフラベースのセンサーを組み合わせて、車から見えない領域を含む環境をより完全なビューにします。 概念実証として、小さな実験ベッドを作りました。 センサー故障の影響を計測したところ、遅い速度(25km/hrの速度)で1秒の停止でも、車載センサーに頼っている車両が適切に走行できないことがわかった。 私の実験では、Horusは運転安全性を劇的に改善し、選択したセンサー融合アルゴリズムがナビゲーションの品質に重要な役割を果たすことも示しました。 たった一対のインフラストラクチャセンサーを使えば、horusは40%の時間を失敗しても安全に移動できるセンサーを許容できる。 これらの結果は、より安全な自動運転車に向けた有望な第一歩だ。

Studies predict that demand for autonomous vehicles will increase tenfold between 2019 and 2026. However, recent high-profile accidents have significantly impacted consumer confidence in this technology. The cause for many of these accidents can be traced back to the inability of these vehicles to correctly sense the impending danger. In response, manufacturers have been improving the already extensive on-vehicle sensor packages to ensure that the system always has access to the data necessary to ensure safe navigation. However, these sensor packages only provide a view from the vehicle's perspective and, as a result, autonomous vehicles still require frequent human intervention to ensure safety. To address this issue, I developed a system, called Horus, that combines on-vehicle and infrastructure-based sensors to provide a more complete view of the environment, including areas not visible from the vehicle. I built a small-scale experimental testbed as a proof of concept. My measurements of the impact of sensor failures showed that even short outages (1 second) at slow speeds (25 km/hr scaled velocity) prevents vehicles that rely on on-vehicle sensors from navigating properly. My experiments also showed that Horus dramatically improves driving safety and that the sensor fusion algorithm selected plays a significant role in the quality of the navigation. With just a pair of infrastructure sensors, Horus could tolerate sensors that fail 40% of the time and still navigate safely. These results are a promising first step towards safer autonomous vehicles.
翻訳日:2022-10-21 03:32:35 公開日:2020-09-07
# 放射能特徴を用いた脳腫瘍生存予測

Brain Tumor Survival Prediction using Radiomics Features ( http://arxiv.org/abs/2009.02903v1 )

ライセンス: Link先を確認
Sobia Yousaf, Syed Muhammad Anwar, Harish RaviPrakash, Ulas Bagci(参考訳) 脳腫瘍と診断された患者の手術計画は生存予後に依存する。 予後不良はより積極的な治療と治療計画を必要とし、良好な予後はよりリスクの低い手術計画を可能にする可能性がある。 したがって、正確な生存予後は治療計画の重要なステップである。 近年,脳腫瘍の分節にディープラーニングが応用され,予後に深い特徴が用いられるようになった。 しかし、放射能に基づく研究は、工学的/手技的な特徴によってより有望であることが示されている。 本稿では,多クラス生存予後の3段階的アプローチを提案する。 第1段階では、複数の磁気共鳴画像モダリティから腫瘍領域に対応する画像スライスを抽出する。 この2dスライスから放射線の特徴を抽出する。 最後に,機械学習の分類器を訓練して分類を行う。 提案手法を一般公開されたbrats 2019データ上で評価し,76.5%の精度と74.3%の精度をランダム森林分類器を用いて達成した。 さらに,予測の改善に寄与する最も重要な特徴を明らかにする。

Surgery planning in patients diagnosed with brain tumor is dependent on their survival prognosis. A poor prognosis might demand for a more aggressive treatment and therapy plan, while a favorable prognosis might enable a less risky surgery plan. Thus, accurate survival prognosis is an important step in treatment planning. Recently, deep learning approaches have been used extensively for brain tumor segmentation followed by the use of deep features for prognosis. However, radiomics-based studies have shown more promise using engineered/hand-crafted features. In this paper, we propose a three-step approach for multi-class survival prognosis. In the first stage, we extract image slices corresponding to tumor regions from multiple magnetic resonance image modalities. We then extract radiomic features from these 2D slices. Finally, we train machine learning classifiers to perform the classification. We evaluate our proposed approach on the publicly available BraTS 2019 data and achieve an accuracy of 76.5% and precision of 74.3% using the random forest classifier, which to the best of our knowledge are the highest reported results yet. Further, we identify the most important features that contribute in improving the prediction.
翻訳日:2022-10-21 03:32:14 公開日:2020-09-07
# 公式科学サイトdinaを用いたペルー専門家のカリキュラムによるテキストマイニング

Text Mining over Curriculum Vitae of Peruvian Professionals using Official Scientific Site DINA ( http://arxiv.org/abs/2009.03087v1 )

ライセンス: Link先を確認
Josimar Edinson Chire Saire, Honorio Apaza Alanoca(参考訳) この10年間で、ペルー政府はConcytec (National Council of Science and Technology) を通じて科学技術に投資し、推進し始めた。 多くのプログラムは、研究プロジェクトのサポート、ペーパープレゼンテーションの費用、カンファレンスやイベントの組織化などを目的としています。 concytecは、全国研究者ディレクトリ(national directory of researchers, dina)を作成し、専門家がカリキュラムのvitaeを作成し、追加することができる。 本研究の目的は,ペルーのプロのカリキュラムを探究的に分析することであり,ペルーの文脈を理解するためのデータマイニング手法である。

During the last decade, Peruvian government started to invest and promote Science and Technology through Concytec(National Council of Science and Technology). Many programs are oriented to support research projects, expenses for paper presentation, organization of conferences/ events and more. Concytec created a National Directory of Researchers(DINA) where professionals can create and add curriculum vitae, Concytec can provide official title of Researcher following some criterion for the evaluation. The actual paper aims to conduct an exploratory analysis over the curriculum vitae of Peruvian Professionals using Data Mining Approach to understand Peruvian context.
翻訳日:2022-10-21 03:32:00 公開日:2020-09-07
# 次元化による自動ログクラスタリングによる問題同定の改善

Improving Problem Identification via Automated Log Clustering using Dimensionality Reduction ( http://arxiv.org/abs/2009.03257v1 )

ライセンス: Link先を確認
Carl Martin Rosenberg and Leon Moonen(参考訳) 目標: 同じ理由で失敗した実行ログを自動的にグループ化する問題を考えることで、より効果的に処理できるようにし、以下の質問を検証します。 1)システムログの問題を識別するために開発されたアプローチは、継続的デプロイメントログの問題を一般化するのでしょうか? 2)次元の縮小は自動ログクラスタリングの質にどのように影響するか? 3)クラスタリングアルゴリズムにおけるクラスタ統合の基準はクラスタリング品質にどのように影響するか? メソッド: クラスタリングシステムログファイルの以前の作業を複製して拡張し、継続的デプロイメントログへの一般化を評価する。 主成分分析(PCA)、潜在セマンティックインデクシング(LSI)、非負行列分解(NMF)の1つを任意に含むことを検討する。 さらに,従来の作業で用いられた完全結合基準に加えて,クラスタマージ基準(シングルリンジ,平均リンジ,重み付きリンジ)を3つ検討した。 産業協力者が提供した継続的デプロイメントログの16の構成を実証的に評価する。 結果:(1)クラスタ化による継続的デプロイメントログの問題を同定することは可能であり,(2)nmfを含む場合,全体的な正確性と堅牢性が著しく向上し,(3)完全リンクは解析されたすべてのマージ基準の中で最も優れている。 結論: 自動ログクラスタリングによる問題同定は, パラメータ選択に対するパイプラインの感度を低下させ, 異なる入力に対するロバスト性を高めることにより, 次元の低減を含むことにより改善される。

Goal: We consider the problem of automatically grouping logs of runs that failed for the same underlying reasons, so that they can be treated more effectively, and investigate the following questions: (1) Does an approach developed to identify problems in system logs generalize to identifying problems in continuous deployment logs? (2) How does dimensionality reduction affect the quality of automated log clustering? (3) How does the criterion used for merging clusters in the clustering algorithm affect clustering quality? Method: We replicate and extend earlier work on clustering system log files to assess its generalization to continuous deployment logs. We consider the optional inclusion of one of these dimensionality reduction techniques: Principal Component Analysis (PCA), Latent Semantic Indexing (LSI), and Non-negative Matrix Factorization (NMF). Moreover, we consider three alternative cluster merge criteria (Single Linkage, Average Linkage, and Weighted Linkage), in addition to the Complete Linkage criterion used in earlier work. We empirically evaluate the 16 resulting configurations on continuous deployment logs provided by our industrial collaborator. Results: Our study shows that (1) identifying problems in continuous deployment logs via clustering is feasible, (2) including NMF significantly improves overall accuracy and robustness, and (3) Complete Linkage performs best of all merge criteria analyzed. Conclusions: We conclude that problem identification via automated log clustering is improved by including dimensionality reduction, as it decreases the pipeline's sensitivity to parameter choice, thereby increasing its robustness for handling different inputs.
翻訳日:2022-10-21 03:31:30 公開日:2020-09-07
# 実像超解像のためのディープサイクリック生成可逆残畳み込みネットワーク

Deep Cyclic Generative Adversarial Residual Convolutional Networks for Real Image Super-Resolution ( http://arxiv.org/abs/2009.03693v1 )

ライセンス: Link先を確認
Rao Muhammad Umer, Christian Micheloni(参考訳) 近年のディープラーニングベースの単一画像超解像法(SISR)は,低分解能(LR)と高分解能(HR)画像がバイコビックダウンサンプリングの仮定によりノイズフリーな設定(サメドメイン)から生じるクリーンなデータ領域でモデルをトレーニングしている。 しかし、そのような劣化プロセスは現実世界では利用できない。 本稿では、画像と画像の翻訳アプリケーションにおける最近のCycleGANの成功に触発されて、LRとHRデータの領域整合性を維持するための深い循環ネットワーク構造について考察する。 本稿では、LRからHRドメインへの翻訳のための生成逆数ネットワーク(GAN)フレームワークをエンドツーエンドにトレーニングすることで、超解法残留周期生成逆数ネットワーク(SRResCycGAN)を提案する。 提案手法は,実画像の超解像によく対応し,モバイル/組み込みデバイスへの展開が容易な定量的・定性的実験において実証された。 さらに、AIM 2020 Real Image SR ChallengeデータセットのSR結果は、提案したSRアプローチが他の最先端手法と同等の結果を得ることを示す。

Recent deep learning based single image super-resolution (SISR) methods mostly train their models in a clean data domain where the low-resolution (LR) and the high-resolution (HR) images come from noise-free settings (same domain) due to the bicubic down-sampling assumption. However, such degradation process is not available in real-world settings. We consider a deep cyclic network structure to maintain the domain consistency between the LR and HR data distributions, which is inspired by the recent success of CycleGAN in the image-to-image translation applications. We propose the Super-Resolution Residual Cyclic Generative Adversarial Network (SRResCycGAN) by training with a generative adversarial network (GAN) framework for the LR to HR domain translation in an end-to-end manner. We demonstrate our proposed approach in the quantitative and qualitative experiments that generalize well to the real image super-resolution and it is easy to deploy for the mobile/embedded devices. In addition, our SR results on the AIM 2020 Real Image SR Challenge datasets demonstrate that the proposed SR approach achieves comparable results as the other state-of-art methods.
翻訳日:2022-10-21 03:25:50 公開日:2020-09-07
# VisCode: Encoder-Decoder Network を用いた可視化画像への情報埋め込み

VisCode: Embedding Information in Visualization Images using Encoder-Decoder Network ( http://arxiv.org/abs/2009.03817v1 )

ライセンス: Link先を確認
Peiying Zhang, Chenhui Li, Changbo Wang(参考訳) 可視化画像に情報を埋め込むためのVisCodeという手法を提案する。 この技術は、ユーザが指定したデータ情報を暗黙的に視覚化し、符号化された可視化画像が歪まないようにする。 VisCodeフレームワークはディープニューラルネットワークに基づいている。 可視化画像とQRコードデータをトレーニングデータとして使用し、堅牢なディープエンコーダデコーダネットワークを設計することを提案する。 設計モデルは、画像の鮮やかな特徴を考慮し、符号化による視覚的損失を低減する。 大規模符号化と復号化をさらに支援するため,情報可視化の特徴を考察し,サリエンシに基づくQRコードレイアウトアルゴリズムを提案する。 本稿では,情報可視化の文脈における VisCode の実践的応用について紹介し,符号化,復号化,アンチアタック機能,時間性能などの知覚的品質を包括的に評価する。 評価結果はVisCodeの有効性を示す。

We present an approach called VisCode for embedding information into visualization images. This technology can implicitly embed data information specified by the user into a visualization while ensuring that the encoded visualization image is not distorted. The VisCode framework is based on a deep neural network. We propose to use visualization images and QR codes data as training data and design a robust deep encoder-decoder network. The designed model considers the salient features of visualization images to reduce the explicit visual loss caused by encoding. To further support large-scale encoding and decoding, we consider the characteristics of information visualization and propose a saliency-based QR code layout algorithm. We present a variety of practical applications of VisCode in the context of information visualization and conduct a comprehensive evaluation of the perceptual quality of encoding, decoding success rate, anti-attack capability, time performance, etc. The evaluation results demonstrate the effectiveness of VisCode.
翻訳日:2022-10-21 03:25:30 公開日:2020-09-07
# 単一画像超解像のための深部反復残差畳み込みネットワーク

Deep Iterative Residual Convolutional Network for Single Image Super-Resolution ( http://arxiv.org/abs/2009.04809v1 )

ライセンス: Link先を確認
Rao Muhammad Umer, Gian Luca Foresti, Christian Micheloni(参考訳) ディープ畳み込みニューラルネットワーク(CNN)は、その強力な特徴表現能力により、最近、単一画像超解像(SISR)タスクで大きな成功を収めている。 最新のディープラーニングベースのSISR法は、低解像度(LR)入力と高解像度(HR)出力の間の非線形マッピングを学習するために、より深くより広いモデルの設計に焦点を当てている。 これらの既存のSR手法は、画像観測(物理)モデルを考慮しておらず、大量のトレーニングデータを持つ大量のネットワークのトレーニング可能なパラメータを必要とする。 これらの問題に対処するため,我々は,高精細な画像正規化と大規模最適化手法を活用し,残差学習手法を用いて反復的に深層ネットワークを訓練する深層超解像残差畳み込みネットワーク (isrrescnet) を提案する。 各種超高分解能ベンチマークによる大規模実験結果から,本手法は,最先端の手法と比較して,異なるスケーリング要因に対する結果を改善することが示されている。

Deep convolutional neural networks (CNNs) have recently achieved great success for single image super-resolution (SISR) task due to their powerful feature representation capabilities. The most recent deep learning based SISR methods focus on designing deeper / wider models to learn the non-linear mapping between low-resolution (LR) inputs and high-resolution (HR) outputs. These existing SR methods do not take into account the image observation (physical) model and thus require a large number of network's trainable parameters with a great volume of training data. To address these issues, we propose a deep Iterative Super-Resolution Residual Convolutional Network (ISRResCNet) that exploits the powerful image regularization and large-scale optimization techniques by training the deep network in an iterative manner with a residual learning approach. Extensive experimental results on various super-resolution benchmarks demonstrate that our method with a few trainable parameters improves the results for different scaling factors in comparison with the state-of-art methods.
翻訳日:2022-10-21 03:25:12 公開日:2020-09-07
# データマイニング技術によるインフォーマル組織の検出

Detecting Informal Organization Through Data Mining Techniques ( http://arxiv.org/abs/2009.02895v1 )

ライセンス: Link先を確認
Maryam Abdirad, Jamal Shahrabi(参考訳) 人的資源管理における主要な話題の1つは、そのような非公式組織を認識・管理することが組織において重要な役割を果たすような組織内の非公式組織である。 一部のマネージャは、非公式な組織とそれらのメンバーとの関係を認識して、正式な組織開発を支援しようとしている。 非公式な組織を認識する方法は複雑で、時には不可能です。 本研究では,データマイニング技術を用いた組織認識手法を提案する。 本研究では,人的資源の指標を分類し,組織職員の個人的,社会的,仕事的特性を含む非公式組織の形成に影響を与える。 その後、従業員にアンケートを設計、配布した。 得られたデータからデータベースが作成される。 本研究の応用データマイニング技術は、因子分析、K平均によるクラスタリング、決定木による分類、GRIアルゴリズムによる相関ルールマイニングである。 最後に、非公式な組織を最適に認識するための人との類似した特徴の認識と、この情報の利用に応用できるモデルを示す。

One of the main topics in human resources management is the subject of informal organizations in the organization such that recognizing and managing such informal organizations play an important role in the organizations. Some managers are trying to recognize the relations between informal organizations and being a member of them by which they could assist the formal organization development. Methods of recognizing informal organizations are complicated and occasionally even impossible. This study aims to provide a method for recognizing such organizations using data mining techniques. This study classifies indices of human resources influencing the creation of informal organizations, including individual, social, and work characteristics of an organizations employees. Then, a questionnaire was designed and distributed among employees. A database was created from obtained data. Applied data mining techniques in this study are factor analysis, clustering by K-means, classification by decision trees, and finally association rule mining by GRI algorithm. At the end, a model is presented that is applicable for recognizing the similar characteristics between people for optimal recognition of informal organizations and usage of this information.
翻訳日:2022-10-21 03:24:15 公開日:2020-09-07
# 遺伝的アルゴリズム最適化教師付き学習による発語後ドリフトのキャプチャダイナミクス

Capturing dynamics of post-earnings-announcement drift using genetic algorithm-optimised supervised learning ( http://arxiv.org/abs/2009.03094v1 )

ライセンス: Link先を確認
Zhengxin Joseph Ye and Bjorn W. Schuller(参考訳) PEAD(Post-Earnings-Announcement Drift)は、最も研究されている株式市場の異常の1つであるが、現在の文献では、この現象を単純な回帰法を用いて、少数の要因によって説明できることが多い。 本稿では,機械学習に基づくアプローチを用いて,大量の在庫から得られたデータと,基本的および技術的要因の幅広い範囲を用いてPEADのダイナミクスを捉えることを目的とする。 私たちのモデルはExtreme Gradient Boosting(XGBoost)を中心に構築されており、1997年から2018年にかけてRussell 1000指数の1,106社の四半期決算発表データに基づいて、エンジニアリングされた入力機能の長いリストを使用している。 我々はPEAD予測と分析に関する数多くの実験を行い、文献に以下の貢献をしている。 まず,発表後のドリフトを機械学習手法を用いて分析し,ドリフト方向の信頼性の高い予測を行う手法の長所を示す。 XGBoostを用いたPEADダイナミクスの研究はこれが初めてである。 ドリフト方向は、実際には異なる産業セクターの在庫の異なる要因によって駆動されており、XGBoostは変化するドライバーを理解するのに有効であることを示す。 第2に,遺伝的アルゴリズムによって最適化されたXGBoostは,市場中立戦略の進展過程において採用される可能性のある,長期および短期のポートフォリオに対する肯定的なリターンが低いポートフォリオを形成するために,サンプル外株を割り当てるのに役立つことを示す。 第3に、イベント駆動の株価戦略が市場価格の変動にどのように対応し、その効果を減らさなければならないかを示す。 PEAD信号を扱う際には,移動市場への参入の困難さを解消する戦略を提案する。

While Post-Earnings-Announcement Drift (PEAD) is one of the most studied stock market anomalies, the current literature is often limited in explaining this phenomenon by a small number of factors using simpler regression methods. In this paper, we use a machine learning based approach instead, and aim to capture the PEAD dynamics using data from a large group of stocks and a wide range of both fundamental and technical factors. Our model is built around the Extreme Gradient Boosting (XGBoost) and uses a long list of engineered input features based on quarterly financial announcement data from 1,106 companies in the Russell 1000 index between 1997 and 2018. We perform numerous experiments on PEAD predictions and analysis and have the following contributions to the literature. First, we show how Post-Earnings-Announcement Drift can be analysed using machine learning methods and demonstrate such methods' prowess in producing credible forecasting on the drift direction. It is the first time PEAD dynamics are studied using XGBoost. We show that the drift direction is in fact driven by different factors for stocks from different industrial sectors and in different quarters and XGBoost is effective in understanding the changing drivers. Second, we show that an XGBoost well optimised by a Genetic Algorithm can help allocate out-of-sample stocks to form portfolios with higher positive returns to long and portfolios with lower negative returns to short, a finding that could be adopted in the process of developing market neutral strategies. Third, we show how theoretical event-driven stock strategies have to grapple with ever changing market prices in reality, reducing their effectiveness. We present a tactic to remedy the difficulty of buying into a moving market when dealing with PEAD signals.
翻訳日:2022-10-21 03:23:57 公開日:2020-09-07
# 無人地上車両によるエッジ学習 : 共同経路, エネルギー, サンプルサイズ計画

Edge Learning with Unmanned Ground Vehicle: Joint Path, Energy and Sample Size Planning ( http://arxiv.org/abs/2009.03140v1 )

ライセンス: Link先を確認
Dan Liu, Shuai Wang, Zhigang Wen, Lei Cheng, Miaowen Wen, and Yik-Chung Wu(参考訳) エッジコンピューティングをプラットフォームとして使用して機械学習アルゴリズムを実行するエッジラーニング(EL)は、IoT(Internet of Things)によって生成された巨大なセンシングデータを完全に活用することができる。 しかし、IoTデバイスの送信電力が限られているため、ELシステム内のセンシングデータを収集することは難しい課題である。 そこで本研究では,無人地上車両(UGV)とELを統合することを提案する。 このようなスキームにより、UGVは様々なIoTデバイスにアプローチすることで通信品質を向上させることができる。 しかし、異なるデバイスが異なる機械学習ジョブのために異なるデータを送信する可能性があり、基本的な問題は、ugvパス、デバイスのエネルギー消費量、異なるジョブのサンプル数を一緒に計画する方法である。 本稿ではさらに,f-measureをマイノリティクラスサンプルサイズの関数として特徴付ける,グラフベースの経路計画モデル,ネットワークエネルギー消費モデル,サンプルサイズ計画モデルを提案する。 これらのモデルを用いて、ジョイントパス、エネルギ、サンプルサイズ計画(JPESP)問題は、UGV運動に関連する高次元の不連続変数のために解決し難い大規模な混合整数非線形計画(MINLP)問題として定式化される。 これにより、各IoTデバイスが経路に沿って1回だけ提供されることが証明され、問題次元が大幅に削減される。 さらに, 不連続変数を扱うために, jpesp問題の最適解に期待して収束する, tabu search (ts) に基づくアルゴリズムが導出される。 タスクシナリオの違いによるシミュレーション結果から,最適化手法は固定されたELとフルパスELよりも優れていた。

Edge learning (EL), which uses edge computing as a platform to execute machine learning algorithms, is able to fully exploit the massive sensing data generated by Internet of Things (IoT). However, due to the limited transmit power at IoT devices, collecting the sensing data in EL systems is a challenging task. To address this challenge, this paper proposes to integrate unmanned ground vehicle (UGV) with EL. With such a scheme, the UGV could improve the communication quality by approaching various IoT devices. However, different devices may transmit different data for different machine learning jobs and a fundamental question is how to jointly plan the UGV path, the devices' energy consumption, and the number of samples for different jobs? This paper further proposes a graph-based path planning model, a network energy consumption model and a sample size planning model that characterizes F-measure as a function of the minority class sample size. With these models, the joint path, energy and sample size planning (JPESP) problem is formulated as a large-scale mixed integer nonlinear programming (MINLP) problem, which is nontrivial to solve due to the high-dimensional discontinuous variables related to UGV movement. To this end, it is proved that each IoT device should be served only once along the path, thus the problem dimension is significantly reduced. Furthermore, to handle the discontinuous variables, a tabu search (TS) based algorithm is derived, which converges in expectation to the optimal solution to the JPESP problem. Simulation results under different task scenarios show that our optimization schemes outperform the fixed EL and the full path EL schemes.
翻訳日:2022-10-21 03:23:10 公開日:2020-09-07
# 大規模分光調査における興味対象発見のための能動的深層学習法

Active deep learning method for the discovery of objects of interest in large spectroscopic surveys ( http://arxiv.org/abs/2009.03219v1 )

ライセンス: Link先を確認
Petr \v{S}koda (1 and 2), Ond\v{r}ej Podsztavek (2) and Pavel Tvrd\'ik (2) ((1) Astronomical Institute of the Czech Academy of Sciences, (2) Faculty of Information Technology of the Czech Technical University in Prague)(参考訳) 現在のLAMOST望遠鏡のアーカイブには、おそらく人間の目には見られない何百万ものパイプライン処理されたスペクトルが含まれている。 しかし、興味深い物理的性質を持つ希少物体のほとんどは、その特性スペクトルの特徴の視覚的解析によってのみ識別できる。 インタラクティブな視覚化と現代の機械学習技術の適切な組み合わせは、そのようなオブジェクトを発見する新しい方法を開きます。 深層畳み込みネットワークが支援するアクティブラーニング分類を適用し,数百万のスペクトルアーカイブにおける複雑なエミッションライン形状の自動同定を行う。 我々は、VGGNet、AlexNet、ZFNetにインスパイアされた12層からなる、カスタム設計のディープ畳み込みニューラルネットワークによって駆動されるプールベース不確実性サンプリングアクティブラーニングを使用した。 乱れのないプールセットはLAMOST DR2サーベイから4100万のスペクトルで表される。 ネットワークの最初の訓練は、主にBeのスペクトルを含むOnd\v{r}ejov天文台の2mのペレク望遠鏡によって、H$\alpha$付近で得られた約13,000のスペクトルのラベル付きセットで行われた。 Ond\v{r}ejov中間分解能とLAMOST低分解能分光像の差はガウスのぼかしによって補正された。 数回の反復の後、ネットワークは6.5%未満の誤差で放出線星の同定に成功した。 観測結果を可視化するために仮想観測所の技術を用いて、948個の新しい放射線天体のスペクトルを1013個発見し、さらに549個の天体のスペクトル664個をsimbadに、2291個の天体のスペクトル2644個をwen houが率いる中国グループの初期の論文で同定した。 特異なスペクトル特性を持つ最も興味深い物体について詳細に論じる。

Current archives of the LAMOST telescope contain millions of pipeline-processed spectra that have probably never been seen by human eyes. Most of the rare objects with interesting physical properties, however, can only be identified by visual analysis of their characteristic spectral features. A proper combination of interactive visualisation with modern machine learning techniques opens new ways to discover such objects. We apply active learning classification supported by deep convolutional networks to automatically identify complex emission-line shapes in multi-million spectra archives. We used the pool-based uncertainty sampling active learning driven by a custom-designed deep convolutional neural network with 12 layers inspired by VGGNet, AlexNet, and ZFNet, but adapted for one-dimensional feature vectors. The unlabelled pool set is represented by 4.1 million spectra from the LAMOST DR2 survey. The initial training of the network was performed on a labelled set of about 13000 spectra obtained in the region around H$\alpha$ by the 2m Perek telescope of the Ond\v{r}ejov observatory, which mostly contains spectra of Be and related early-type stars. The differences between the Ond\v{r}ejov intermediate-resolution and the LAMOST low-resolution spectrographs were compensated for by Gaussian blurring. After several iterations, the network was able to successfully identify emission-line stars with an error smaller than 6.5%. Using the technology of the Virtual Observatory to visualise the results, we discovered 1013 spectra of 948 new candidates of emission-line objects in addition to 664 spectra of 549 objects that are listed in SIMBAD and 2644 spectra of 2291 objects identified in an earlier paper of a Chinese group led by Wen Hou. The most interesting objects with unusual spectral properties are discussed in detail.
翻訳日:2022-10-21 03:22:40 公開日:2020-09-07
# 深部エンティティと関係モデルを用いたコロナウイルスマップの解明

Uncovering the Corona Virus Map Using Deep Entities and Relationship Models ( http://arxiv.org/abs/2009.03068v1 )

ライセンス: Link先を確認
Kuldeep Singh, Puneet Singla, Ketan Sarode, Anurag Chandrakar, Chetan Nichkawde(参考訳) 我々は、新しい実体と関係モデルを用いて、コロナウイルスに関する記事のコーパスから、COVID-19に関連するエンティティと関係を抽出する。 エンティティ認識および関係発見モデルは、大きな注釈付きコーパス上でマルチタスク学習目的を用いて訓練される。 概念マスキングパラダイムを用いて,連想記憶として機能するニューラルネットワークの進化を防止し,文脈のみを用いて推論を行うようにネットワークを誘導する右帰納的バイアスを誘導する。 いくつかの輸入サブネットが発見され、重要な用語や概念が浮き彫りにされ、過去の関連疾患におけるいくつかの治療のモダリティが解明された。

We extract entities and relationships related to COVID-19 from a corpus of articles related to Corona virus by employing a novel entities and relationship model. The entity recognition and relationship discovery models are trained with a multi-task learning objective on a large annotated corpus. We employ a concept masking paradigm to prevent the evolution of neural networks functioning as an associative memory and induce right inductive bias guiding the network to make inference using only the context. We uncover several import subnetworks, highlight important terms and concepts and elucidate several treatment modalities employed in related ailments in the past.
翻訳日:2022-10-21 03:15:25 公開日:2020-09-07
# 大規模オンラインP2Pライドシェアリングにおける要求予測

Predicting Requests in Large-Scale Online P2P Ridesharing ( http://arxiv.org/abs/2009.02997v1 )

ライセンス: Link先を確認
Filippo Bistaffa, Juan A. Rodr\'iguez-Aguilar, Jes\'us Cerquides(参考訳) ピアツーピアライドシェアリング(P2P-RS)は、プロのドライバーを介さずに、自分のプライベートカーでワンタイムの乗車を手配できる。 大規模P2P-RSのオンライン近似解アルゴリズムを提案した最近の論文で示すように、個人(再生コスト)とコミュニティ全体(再汚染とトラフィック)の両方に重要なメリットをもたらす顕著な集団知能アプリケーションである。 本稿では,P2P-RS最適化の文脈における配車要求予測の利点を評価するための基本的な課題に取り組む。 パブリック・リアル・ワールドの結果、完全な予測器を使用することで、総報酬を5.27%改善でき、1分で予測できることがわかった。 一方、バニラ長短期記憶ニューラルネットワークは、ほぼ2倍の精度を実現しつつ、前日の要求を単純に複製するベースライン予測器では改善できない。

Peer-to-peer ridesharing (P2P-RS) enables people to arrange one-time rides with their own private cars, without the involvement of professional drivers. It is a prominent collective intelligence application producing significant benefits both for individuals (reduced costs) and for the entire community (reduced pollution and traffic), as we showed in a recent publication where we proposed an online approximate solution algorithm for large-scale P2P-RS. In this paper we tackle the fundamental question of assessing the benefit of predicting ridesharing requests in the context of P2P-RS optimisation. Results on a public real-world show that, by employing a perfect predictor, the total reward can be improved by 5.27% with a forecast horizon of 1 minute. On the other hand, a vanilla long short-term memory neural network cannot improve upon a baseline predictor that simply replicates the previous day's requests, whilst achieving an almost-double accuracy.
翻訳日:2022-10-21 03:15:16 公開日:2020-09-07
# AI企業とファッション産業を結びつけるための相互運用可能なデータプロトコル

Towards an Interoperable Data Protocol Aimed at Linking the Fashion Industry with AI Companies ( http://arxiv.org/abs/2009.03005v1 )

ライセンス: Link先を確認
Mohammed Al-Rawi and Joeran Beel(参考訳) ファッション業界は、彼らのプロセス、サービス、アプリケーションを強化するために人工知能技術を使うことを楽しみにしています。 現在使用されているファッションデータの量は増加しているが、ファッション業界と関連するai企業の間でのデータ交換には大きなギャップがある。 その結果、AI企業は、異なるアプリケーションを構築するために手動で注釈付けされたファッションデータに依存している。 さらに、この記事の執筆時点では、ファッションアイテムを表すために使用されるデータ表現の用語、語彙、方法があいまいで混乱している。 したがって、ファッション業界とAI企業が、ファッション情報を統一的に交換し、組織化するためのプロトコルの恩恵を受けることは明らかである。 この目的を達成するために,(1)ファッションデータの相互運用を可能にするDDOIFと呼ばれるプロトコルを定義すること,(2)DDOIFは,衣料品やアクセサリーの属性に関する広範な情報を含む多様なエンティティをテキストやメディア形式で含むこと,(3)DDOIFプロトコルに従って構築されたファイルをインポート・エクスポートする機能を含むAPIの設計と実装を目標とする。 この目的のために,1000以上のクラスとサブクラス名を同定し,それを用いてDDOIF辞書を構築した。 DDOIFをすべての関心のあるユーザや開発者に公開し、より多くの協力者による改善と充実を期待しています。

The fashion industry is looking forward to use artificial intelligence technologies to enhance their processes, services, and applications. Although the amount of fashion data currently in use is increasing, there is a large gap in data exchange between the fashion industry and the related AI companies, not to mention the different structure used for each fashion dataset. As a result, AI companies are relying on manually annotated fashion data to build different applications. Furthermore, as of this writing, the terminology, vocabulary and methods of data representation used to denote fashion items are still ambiguous and confusing. Hence, it is clear that the fashion industry and AI companies will benefit from a protocol that allows them to exchange and organise fashion information in a unified way. To achieve this goal we aim (1) to define a protocol called DDOIF that will allow interoperability of fashion data; (2) for DDOIF to contain diverse entities including extensive information on clothing and accessories attributes in the form of text and various media formats; and (3)To design and implement an API that includes, among other things, functions for importing and exporting a file built according to the DDOIF protocol that stores all information about a single item of clothing. To this end, we identified over 1000 class and subclass names used to name fashion items and use them to build the DDOIF dictionary. We make DDOIF publicly available to all interested users and developers and look forward to engaging more collaborators to improve and enrich it.
翻訳日:2022-10-21 03:14:59 公開日:2020-09-07
# 2019年スマート農業・データ分析ワークショップ(sfdai)報告

Report on the 2019 Workshop on Smart Farming and Data Analytics (SFDAI) ( http://arxiv.org/abs/2009.03088v1 )

ライセンス: Link先を確認
Liadh Kelly and Simone van der Burg and Aine Regan and Peter Mooney(参考訳) 2019年6月12日、アイルランドのメイヌース大学でスマート農業とデータ分析に関する第1回全国ワークショップが開催された。 ワークショップには2つの招待された基調講演、招待された講演、ブレイクアウトグループディスカッションがあった。 ワークショップには50人の参加者が集まり、コンピュータ科学者、一般科学者、農夫、農業アドバイザー、農業事業の代表者が集まった。 これにより、活発な議論とアイデアの交配が可能となった。 そして、スマート農業分野への大きな関心、この分野で直面する多くの研究課題、そしてここでのデータ分析と情報検索の可能性を示した。

The 1st National workshop on Smart Farming and Data Analytics took place at Maynooth University in Ireland on June 12, 2019. The workshop included two invited keynote presentations, invited talks and breakout group discussions. The workshop attracted in the order of 50 participants, consisting of a mixture of computer scientists, general scientists, farmers, farm advisors, and agricultural business representatives. This allowed for lively discussion and cross-fertilization of ideas. And showed the significant interest in the smart farming domain, the many research challenges faced in the space and the potential for data analytics and information retrieval here.
翻訳日:2022-10-21 03:14:34 公開日:2020-09-07
# 高次元データを用いた二重ロバスト半パラメトリック差分推定器

Doubly Robust Semiparametric Difference-in-Differences Estimators with High-Dimensional Data ( http://arxiv.org/abs/2009.03151v1 )

ライセンス: Link先を確認
Yang Ning and Sida Peng and Jing Tao(参考訳) 本稿では,二次元データを用いて不均質な処理効果を推定するための2段階半パラメトリック差分推定器を提案する。 我々の新しい推定器はミスの特定をモデル化するのに堅牢であり、観測よりも多くの回帰器を必要としない。 第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。 第2段階では、パラメトリックパラメータと未知関数の両方に対する収束率を、結果方程式の部分的に線形な仕様の下で導出する。 また,不均質な治療効果の正当な推論を可能にするためのバイアス補正手順も提供する。 有限サンプル性能を広範囲なシミュレーションにより評価する。 また, 失業率に対する公正な最小賃金法の効果に関する実データ分析を, 本手法の例証として行った。 提案手法を実装するためのRパッケージがGithubで公開されている。

This paper proposes a doubly robust two-stage semiparametric difference-in-difference estimator for estimating heterogeneous treatment effects with high-dimensional data. Our new estimator is robust to model miss-specifications and allows for, but does not require, many more regressors than observations. The first stage allows a general set of machine learning methods to be used to estimate the propensity score. In the second stage, we derive the rates of convergence for both the parametric parameter and the unknown function under a partially linear specification for the outcome equation. We also provide bias correction procedures to allow for valid inference for the heterogeneous treatment effects. We evaluate the finite sample performance with extensive simulation studies. Additionally, a real data analysis on the effect of Fair Minimum Wage Act on the unemployment rate is performed as an illustration of our method. An R package for implementing the proposed method is available on Github.
翻訳日:2022-10-21 03:13:53 公開日:2020-09-07
# ユーザ支援ビデオリフレクション除去

User-assisted Video Reflection Removal ( http://arxiv.org/abs/2009.03281v1 )

ライセンス: Link先を確認
Amgad Ahmed, Suhong Kim, Mohamed Elgharib, Mohamed Hefeeda(参考訳) ビデオの反射は、ビデオがガラスのような反射面の後ろで撮影されるときに起こる障害である。 これらの反射はそのようなビデオの品質を低下させ、情報損失をもたらし、多くのコンピュータビジョンアルゴリズムの精度を低下させる。 リフレクションを含むビデオは、バックグラウンド層とリフレクション層の組み合わせである。 したがって、反射除去は映像を2つの層に分解することと同値である。 しかし、これは無限個の有効な分解が存在するため、困難かつ不適切な問題である。 そこで本研究では,ビデオ反射除去のためのユーザ支援手法を提案する。 空間情報と時間情報の両方に頼り、疎いユーザヒントを使って分離を改善する。 提案手法の鍵となる考え方は、最小限のユーザ支援で背景層をリフレクション層から分離するためにモーションキューを使用することである。 ユーザ・アシスタンスが層分離結果を大幅に改善することを示す。 実ビデオと合成ビデオの定量的および定性的な結果を用いて提案手法の実装と評価を行う。 提案手法は,映像列からの反射をうまく除去し,視覚歪みを生じさせず,文献における最先端の反射除去法を著しく上回っていることを示す。

Reflections in videos are obstructions that often occur when videos are taken behind reflective surfaces like glass. These reflections reduce the quality of such videos, lead to information loss and degrade the accuracy of many computer vision algorithms. A video containing reflections is a combination of background and reflection layers. Thus, reflection removal is equivalent to decomposing the video into two layers. This, however, is a challenging and ill-posed problem as there is an infinite number of valid decompositions. To address this problem, we propose a user-assisted method for video reflection removal. We rely on both spatial and temporal information and utilize sparse user hints to help improve separation. The key idea of the proposed method is to use motion cues to separate the background layer from the reflection layer with minimal user assistance. We show that user-assistance significantly improves the layer separation results. We implement and evaluate the proposed method through quantitative and qualitative results on real and synthetic videos. Our experiments show that the proposed method successfully removes reflection from video sequences, does not introduce visual distortions, and significantly outperforms the state-of-the-art reflection removal methods in the literature.
翻訳日:2022-10-21 03:13:21 公開日:2020-09-07
# 臨床応用における市販統計形状モデリングツールのベンチマーク

Benchmarking off-the-shelf statistical shape modeling tools in clinical applications ( http://arxiv.org/abs/2009.02878v1 )

ライセンス: Link先を確認
Anupama Goparaju, Alexandre Bone, Nan Hu, Heath B. Henninger, Andrew E. Anderson, Stanley Durrleman, Matthijs Jacxsens, Alan Morris, Ibolya Csecs, Nassir Marrouche, Shireen Y. Elhabian(参考訳) 統計形状モデリング(ssm)は、解剖学的形状の定量的解析のための新しい形態計測手法として生物学や医学で広く使われている。 生体イメージングの技術的進歩は、解剖学的形状のモデリングと個体群レベルの変動を自動化するオープンソースの計算ツールの開発につながった。 しかし、形態量化(インプラント設計や病変スクリーニングなど)に依存する臨床応用において、そのようなツールの評価と検証についてはほとんど研究されていない。 ここでは、広く使われている最先端のSSMツール、ShapeWorks、Deformetrica、SPHARM-PDMの結果を体系的に評価する。 さまざまなツールから形状モデルを評価するために,定量的および定性的な指標の両方を使用します。 解剖学的ランドマーク/計測推測および病変スクリーニングのための検証フレームワークを提案する。 また,学習した個体群レベルの制御統計値に対して,微妙な異常な形状変化を客観的に特徴付ける病変スクリーニング手法を提案する。 以上の結果から,SSMツールでは,SPHARM-PDMのモデルよりもShapeWorksとDeformetricaのモデルの方が整合性が高いことが示唆された。 さらに、ShapeWorksとDeformetricaの形状モデルは、SPHARM-PDMモデルと比較して臨床的に関連する集団レベルの変動を捉えている。

Statistical shape modeling (SSM) is widely used in biology and medicine as a new generation of morphometric approaches for the quantitative analysis of anatomical shapes. Technological advancements of in vivo imaging have led to the development of open-source computational tools that automate the modeling of anatomical shapes and their population-level variability. However, little work has been done on the evaluation and validation of such tools in clinical applications that rely on morphometric quantifications (e.g., implant design and lesion screening). Here, we systematically assess the outcome of widely used, state-of-the-art SSM tools, namely ShapeWorks, Deformetrica, and SPHARM-PDM. We use both quantitative and qualitative metrics to evaluate shape models from different tools. We propose validation frameworks for anatomical landmark/measurement inference and lesion screening. We also present a lesion screening method to objectively characterize subtle abnormal shape changes with respect to learned population-level statistics of controls. Results demonstrate that SSM tools display different levels of consistencies, where ShapeWorks and Deformetrica models are more consistent compared to models from SPHARM-PDM due to the groupwise approach of estimating surface correspondences. Furthermore, ShapeWorks and Deformetrica shape models are found to capture clinically relevant population-level variability compared to SPHARM-PDM models.
翻訳日:2022-10-21 03:07:08 公開日:2020-09-07
# 光リモートセンシングのためのFPAモジュールを用いた軽量物体検出フレームワーク

A Light-Weight Object Detection Framework with FPA Module for Optical Remote Sensing Imagery ( http://arxiv.org/abs/2009.03063v1 )

ライセンス: Link先を確認
Xi Gu, Lingbin Kong, Zhicheng Wang, Jie Li, Zhaohui Yu, Gang Wei(参考訳) リモートセンシング技術の開発により、リモートセンシング画像の取得が容易になり、リモートセンシングオブジェクトを検出するタスクに十分なデータ資源が提供される。 しかし、多くの複雑な光学リモートセンシング画像から物体を迅速かつ正確に検出する方法は、難しい課題である。 本稿では,効率的なアンカーフリー物体検出器CenterFPANetを提案する。 速度を追求するために、軽量なバックボーンを使用し、非対称な革命ブロックを導入する。 精度を向上させるため、異なるレベルの特徴マップをリンクするFPAモジュールを設計し、各特徴マップの重み付けを動的に調整するアテンション機構を導入し、大規模なリモートセンシングオブジェクトによる検出困難を解消した。 この戦略は、検出速度を低下させることなく、リモートセンシング画像オブジェクト検出の精度を向上させることができる。 dotaデータセットでは、中心fpanetマップは64.00%、fpsは22.2であり、現在使用されているアンカーベースメソッドの精度に近く、はるかに高速である。 高速RCNNと比較して、mAPは6.76%低いが60.87%高速である。 全体として、CenterFPANetは、大規模リモートセンシングオブジェクト検出において、速度と精度のバランスをとる。

With the development of remote sensing technology, the acquisition of remote sensing images is easier and easier, which provides sufficient data resources for the task of detecting remote sensing objects. However, how to detect objects quickly and accurately from many complex optical remote sensing images is a challenging hot issue. In this paper, we propose an efficient anchor free object detector, CenterFPANet. To pursue speed, we use a lightweight backbone and introduce the asymmetric revolution block. To improve the accuracy, we designed the FPA module, which links the feature maps of different levels, and introduces the attention mechanism to dynamically adjust the weights of each level of feature maps, which solves the problem of detection difficulty caused by large size range of remote sensing objects. This strategy can improve the accuracy of remote sensing image object detection without reducing the detection speed. On the DOTA dataset, CenterFPANet mAP is 64.00%, and FPS is 22.2, which is close to the accuracy of the anchor-based methods currently used and much faster than them. Compared with Faster RCNN, mAP is 6.76% lower but 60.87% faster. All in all, CenterFPANet achieves a balance between speed and accuracy in large-scale optical remote sensing object detection.
翻訳日:2022-10-21 03:06:11 公開日:2020-09-07
# 不確かさにインスパイアされたRGB-D濃度検出

Uncertainty Inspired RGB-D Saliency Detection ( http://arxiv.org/abs/2009.03075v1 )

ライセンス: Link先を確認
Jing Zhang, Deng-Ping Fan, Yuchao Dai, Saeed Anwar, Fatemeh Saleh, Sadegh Aliakbarian, Nick Barnes(参考訳) データラベリングプロセスから学習することで,RGB-Dサリエンシ検出の不確実性を活用するための最初の確率的フレームワークを提案する。 既存のRGB-Dサリエンシ検出モデルは、決定論的学習パイプラインに従って単一のサリエンシマップを予測することにより、このタスクをポイント推定問題として扱う。 しかし、決定論的解は比較的不適切であると主張する。 本稿では,ラベル付けのバリエーションをモデル化する潜在変数を用いた確率的RGB-Dサリエンシ検出を実現するための生成アーキテクチャを提案する。 私たちのフレームワークには2つの主要なモデルがあります。 1)入力画像と潜在変数を確率的塩分予測にマッピングする生成モデル,及び 2) 後続変数を真あるいは近似的な後続分布からサンプリングすることにより, 潜時変数を徐々に更新する推論モデル。 ジェネレータモデルはエンコーダ・デコーダ・サリエンシネットワークである。 潜在変数を推測するために、2つの異なる解を導入する。 一 潜伏変数の後方分布を近似する余分なエンコーダを有する条件付き変分自動エンコーダ 二 真の後方分布から潜在変数を直接サンプリングする交互なバックプロパゲーション技術 6つの挑戦的RGB-Dベンチマークデータセットの質的および定量的結果は、我々のアプローチが唾液度マップの分布を学習する際の優れた性能を示している。 ソースコードは、プロジェクトのページから公開されています。

We propose the first stochastic framework to employ uncertainty for RGB-D saliency detection by learning from the data labeling process. Existing RGB-D saliency detection models treat this task as a point estimation problem by predicting a single saliency map following a deterministic learning pipeline. We argue that, however, the deterministic solution is relatively ill-posed. Inspired by the saliency data labeling process, we propose a generative architecture to achieve probabilistic RGB-D saliency detection which utilizes a latent variable to model the labeling variations. Our framework includes two main models: 1) a generator model, which maps the input image and latent variable to stochastic saliency prediction, and 2) an inference model, which gradually updates the latent variable by sampling it from the true or approximate posterior distribution. The generator model is an encoder-decoder saliency network. To infer the latent variable, we introduce two different solutions: i) a Conditional Variational Auto-encoder with an extra encoder to approximate the posterior distribution of the latent variable; and ii) an Alternating Back-Propagation technique, which directly samples the latent variable from the true posterior distribution. Qualitative and quantitative results on six challenging RGB-D benchmark datasets show our approach's superior performance in learning the distribution of saliency maps. The source code is publicly available via our project page: https://github.com/JingZhang617/UCNet.
翻訳日:2022-10-21 03:05:52 公開日:2020-09-07
# 三次元点雲からのトウモロコシシュートの茎葉分節化と表現型形質抽出

Stem-leaf segmentation and phenotypic trait extraction of maize shoots from three-dimensional point cloud ( http://arxiv.org/abs/2009.03108v1 )

ライセンス: Link先を確認
Chao Zhu, Teng Miao, Tongyu Xu, Tao Yang, Na Li(参考訳) 今日では、トウモロコシの3次元(3d)点雲を得る多くのアプローチがある。 しかし,3次元(3次元)点雲からのトウモロコシ芽の茎葉の自動分割は,特に実生期において非常に近縁で包み合わされた新芽葉では課題である。 そこで本研究では,スケルトン抽出,スケルトンに基づく粗セグメント化,stem-leaf分類に基づく微細セグメント化という3つの主要なステップからなる自動セグメント化手法を提案する。 このセグメンテーション法を30種類のトウモロコシ実生で試験し,手作業で得られた真実と比較した。 平均精度,平均リコール,平均マイクロF1スコア,平均精度は0.964,0.966,0.963,0.969であった。 このセグメンテーション結果を用いて,表現型形質抽出と骨格最適化を含む2つの応用を開発した。 植物の高さ、樹冠径、茎の高さと直径、葉の幅と長さを含む6つの表現型パラメータを正確に自動測定することができる。 さらに、6つの表現型形質に対するR2の値は0.94以上であった。 その結果,本手法は葉の完全拡大だけでなく,新しい葉を包み,密集させることで,自動的に高精度に分割できることがわかった。 提案手法は, 遺伝子型から表現型への研究, 幾何学的再構築, 動的成長アニメーションなど, さらなる研究と応用において重要な役割を担っている。 ソースコードとテストデータは、https://github.com/syau-miao/seg4maize.gitで公開しました。

Nowadays, there are many approaches to acquire three-dimensional (3D) point clouds of maize plants. However, automatic stem-leaf segmentation of maize shoots from three-dimensional (3D) point clouds remains challenging, especially for new emerging leaves that are very close and wrapped together during the seedling stage. To address this issue, we propose an automatic segmentation method consisting of three main steps: skeleton extraction, coarse segmentation based on the skeleton, fine segmentation based on stem-leaf classification. The segmentation method was tested on 30 maize seedlings and compared with manually obtained ground truth. The mean precision, mean recall, mean micro F1 score and mean over accuracy of our segmentation algorithm were 0.964, 0.966, 0.963 and 0.969. Using the segmentation results, two applications were also developed in this paper, including phenotypic trait extraction and skeleton optimization. Six phenotypic parameters can be accurately and automatically measured, including plant height, crown diameter, stem height and diameter, leaf width and length. Furthermore, the values of R2 for the six phenotypic traits were all above 0.94. The results indicated that the proposed algorithm could automatically and precisely segment not only the fully expanded leaves, but also the new leaves wrapped together and close together. The proposed approach may play an important role in further maize research and applications, such as genotype-to-phenotype study, geometric reconstruction and dynamic growth animation. We released the source code and test data at the web site https://github.com/syau-miao/seg4maize.git
翻訳日:2022-10-21 03:05:30 公開日:2020-09-07
# 解釈可能な深層マルチモーダル画像超解像

Interpretable Deep Multimodal Image Super-Resolution ( http://arxiv.org/abs/2009.03118v1 )

ライセンス: Link先を確認
Iman Marivani, Evaggelia Tsiligianni, Bruno Cornelis, Nikos Deligiannis(参考訳) マルチモーダル画像超解像(Multimodal image super- resolution, SR)は、高解像度画像の再構成である。 既存の深層マルチモーダルモデルはイメージsrに関するドメイン知識を取り入れていないが、我々は、結合されたスパース前処理を統合し、他のモダリティから情報の効果的な融合を可能にするマルチモーダル深層ネットワーク設計を提案する。 提案手法は,畳み込みスパース符号を結合した新しい反復アルゴリズムにインスパイアされ,設計による解釈可能なネットワークとなる。 rgb画像に誘導された近赤外画像の超解像に本モデルを適用する。 実験の結果,本モデルは最先端手法よりも優れていた。

Multimodal image super-resolution (SR) is the reconstruction of a high resolution image given a low-resolution observation with the aid of another image modality. While existing deep multimodal models do not incorporate domain knowledge about image SR, we present a multimodal deep network design that integrates coupled sparse priors and allows the effective fusion of information from another modality into the reconstruction process. Our method is inspired by a novel iterative algorithm for coupled convolutional sparse coding, resulting in an interpretable network by design. We apply our model to the super-resolution of near-infrared image guided by RGB images. Experimental results show that our model outperforms state-of-the-art methods.
翻訳日:2022-10-21 03:05:05 公開日:2020-09-07
# 半教師付き深層学習による大腸内視鏡病変分類の改善

Improving colonoscopy lesion classification using semi-supervised deep learning ( http://arxiv.org/abs/2009.03162v1 )

ライセンス: Link先を確認
Mayank Golhar, Taylor L. Bobrow, MirMilad Pourmousavi Khoshknab, Simran Jit, Saowanee Ngamruengphong, Nicholas J. Durr(参考訳) データ駆動型アプローチは多くの画像解析タスクで優れているが、これらのアプローチのパフォーマンスはトレーニングに使える注釈付きデータの不足によって制限されることが多い。 半教師あり学習における最近の研究は、大量のラベルなしデータのトレーニングから意味のある画像表現を得ることができ、これらの表現は教師なしタスクのパフォーマンスを向上させることができることを示した。 そこで本研究では,教師なしジグソー学習課題と教師付きトレーニングを組み合わせることで,全教師付きベースラインと比較して大腸内視鏡像の病変を正しく分類する精度が最大9.8%向上することを示した。 さらに,ドメイン適応とアウト・オブ・ディストリビューション検出の改善をベンチマークし,半教師付き学習が教師付き学習より優れていることを示す。 大腸内視鏡検査では, 病変の内視鏡的評価に必要なスキル, 使用する各種内視鏡システム, ラベル付きデータセットに典型的な均質性などを考える上で, これらの指標が重要である。

While data-driven approaches excel at many image analysis tasks, the performance of these approaches is often limited by a shortage of annotated data available for training. Recent work in semi-supervised learning has shown that meaningful representations of images can be obtained from training with large quantities of unlabeled data, and that these representations can improve the performance of supervised tasks. Here, we demonstrate that an unsupervised jigsaw learning task, in combination with supervised training, results in up to a 9.8% improvement in correctly classifying lesions in colonoscopy images when compared to a fully-supervised baseline. We additionally benchmark improvements in domain adaptation and out-of-distribution detection, and demonstrate that semi-supervised learning outperforms supervised learning in both cases. In colonoscopy applications, these metrics are important given the skill required for endoscopic assessment of lesions, the wide variety of endoscopy systems in use, and the homogeneity that is typical of labeled datasets.
翻訳日:2022-10-21 03:04:53 公開日:2020-09-07
# コンピュータビジョンを用いた画像の近接重複検出に関する一検討

A Review on Near Duplicate Detection of Images using Computer Vision Techniques ( http://arxiv.org/abs/2009.03224v1 )

ライセンス: Link先を確認
K. K. Thyagharajan, G. Kalaiarasi(参考訳) 現在、デジタルコンテンツは広く、合法的または違法に、単純に再配布可能である。 例えば、画像がインターネットに投稿された後、他のWebユーザはそれを修正し、バージョンを再投稿することで、ほぼ重複した画像を生成することができる。 近重複の存在は検索エンジンの性能に重大な影響を及ぼす。 コンピュータビジョンは、デジタル画像から有用な情報の自動抽出、分析、理解に関するものである。 コンピュータビジョンの主な応用は画像理解である。 画像理解には、特徴抽出、オブジェクト検出、オブジェクト認識、画像クリーニング、画像変換など、いくつかのタスクがある。 画像の重複検出に関する文献の適切な調査は行われていない。 本稿では,最先端のコンピュータビジョンに基づくアプローチと,近接重複画像の検出のための特徴抽出手法について検討する。 また、この分野の主な課題と、他の研究者がこれらの課題にどう対処するかについても論じる。 このレビューは、この分野に興味がある研究者に研究の方向性を提供する。

Nowadays, digital content is widespread and simply redistributable, either lawfully or unlawfully. For example, after images are posted on the internet, other web users can modify them and then repost their versions, thereby generating near-duplicate images. The presence of near-duplicates affects the performance of the search engines critically. Computer vision is concerned with the automatic extraction, analysis and understanding of useful information from digital images. The main application of computer vision is image understanding. There are several tasks in image understanding such as feature extraction, object detection, object recognition, image cleaning, image transformation, etc. There is no proper survey in literature related to near duplicate detection of images. In this paper, we review the state-of-the-art computer vision-based approaches and feature extraction methods for the detection of near duplicate images. We also discuss the main challenges in this field and how other researchers addressed those challenges. This review provides research directions to the fellow researchers who are interested to work in this field.
翻訳日:2022-10-21 03:04:35 公開日:2020-09-07
# 移動学習を用いた行動パターン画像とシリーズCNNを用いた高齢者のスマートモニタリングのための新しい行動認識システム

A novel action recognition system for smart monitoring of elderly people using Action Pattern Image and Series CNN with transfer learning ( http://arxiv.org/abs/2009.03285v1 )

ライセンス: Link先を確認
L. Aneesh Euprazia, K.K.Thyagharajan(参考訳) 自宅で独りで暮らしている高齢者の転倒は健康リスクにつながる。 もしすぐに出席しなければ、命の危険に繋がる可能性がある。 本稿では,時系列畳み込みニューラルネットワーク(scnn, series convolutional neural network)を用いた高齢者のスマートモニタリングシステムを提案する。 cnnがビデオのフレームによって直接訓練されると、背景ピクセルを含むすべてのピクセルから学習される。 一般的に、ビデオの背景はアクションの識別に何の貢献もせず、実際にはアクションの分類を誤解します。 そこで我々は,新しい行動認識システムを提案し,その貢献について述べる。 1)映像系列の照明や背景変化の影響を受けないより一般的な行動パターンを生成し、CNNトレーニングにおける画像増強の義務を解消する 2)SCNNアーキテクチャを設計し,大量のデータを学習するための特徴抽出プロセスを強化する。 3) 層内のニューロンが学習したパターンを提示し、入力パターンがこれらのニューロンを通過するときにどのように作用を捉えているかを解析し、 4)転帰学習を用いて転倒行動を認識する訓練SCNNの能力を拡張すること。

Falling of elderly people who are staying alone at home leads to health risks. If they are not attended immediately even it may lead to fatal danger to their life. In this paper a novel computer vision-based system for smart monitoring of elderly people using Series Convolutional Neural Network (SCNN) with transfer learning is proposed. When CNN is trained by the frames of the videos directly, it learns from all pixels including the background pixels. Generally, the background in a video does not contribute anything in identifying the action and actually it will mislead the action classification. So, we propose a novel action recognition system and our contributions are 1) to generate more general action patterns which are not affected by illumination and background variations of the video sequences and eliminate the obligation of image augmentation in CNN training 2) to design SCNN architecture and enhance the feature extraction process to learn large amount of data, 3) to present the patterns learnt by the neurons in the layers and analyze how these neurons capture the action when the input pattern is passing through these neurons, and 4) to extend the capability of the trained SCNN for recognizing fall actions using transfer learning.
翻訳日:2022-10-21 03:04:22 公開日:2020-09-07
# リカレントニューラルネットワークのための動的逆摂動計算

Dynamically Computing Adversarial Perturbations for Recurrent Neural Networks ( http://arxiv.org/abs/2009.02874v1 )

ライセンス: Link先を確認
Shankar A. Deka and Du\v{s}an M. Stipanovi\'c and Claire J. Tomlin(参考訳) 畳み込みと繰り返しのニューラルネットワークは、分類タスクにおける最先端のパフォーマンスを達成するために広く利用されている。 しかし、これらのネットワークは入力に対して慎重に加法摂動を作れば相対的に容易に操作可能であることも指摘されている。 いくつかの実験的に確立された先行研究は、攻撃に対する工作と防御について存在するが、攻撃例の存在とネットワークの堅牢性マージンに関する理論的保証を持つことも望ましい。 本論文では両方について述べる。 我々は、特にリカレントアーキテクチャに注目し、動的システム理論からインスピレーションを得て、これを制御問題として自然にキャストし、入力シーケンスの各時間ステップで逆摂動を動的に計算し、フィードバックコントローラに類似させる。 理論的議論を補うための例を示す。

Convolutional and recurrent neural networks have been widely employed to achieve state-of-the-art performance on classification tasks. However, it has also been noted that these networks can be manipulated adversarially with relative ease, by carefully crafted additive perturbations to the input. Though several experimentally established prior works exist on crafting and defending against attacks, it is also desirable to have theoretical guarantees on the existence of adversarial examples and robustness margins of the network to such examples. We provide both in this paper. We focus specifically on recurrent architectures and draw inspiration from dynamical systems theory to naturally cast this as a control problem, allowing us to dynamically compute adversarial perturbations at each timestep of the input sequence, thus resembling a feedback controller. Illustrative examples are provided to supplement the theoretical discussions.
翻訳日:2022-10-21 02:57:39 公開日:2020-09-07
# リプシッツ正規化ディープニューラルネットワークによるシステム同定

System Identification Through Lipschitz Regularized Deep Neural Networks ( http://arxiv.org/abs/2009.03288v1 )

ライセンス: Link先を確認
Elisa Negrini, Giovanna Citti, Luca Capogna(参考訳) 本稿では,ニューラルネットワークを用いてデータから方程式を学習する。 具体的には、ニューラルネットワークを用いて観測された一様時間サンプリングデータから直接、odes $\dot{x}(t) = f(t, x(t))$の右辺を再構築する。 この問題に対する他のニューラルネットワークベースのアプローチとは対照的に、損失関数にリプシッツ正規化項を追加する。 合成例では, この正則化が, 軌道データ, 非軌道データ, 特にノイズの存在下での非正則化モデルと比較して, より滑らかな近似関数とより優れた一般化特性をもたらすことを実証的に観察した。 スパース回帰アプローチとは対照的に、ニューラルネットワークは普遍近似器であるため、ODEシステムに関する事前の知識は必要ない。 モデルはコンポーネント的に応用されるので、どんな次元のシステムでも扱えるので、現実世界のデータにも使える。

In this paper we use neural networks to learn governing equations from data. Specifically we reconstruct the right-hand side of a system of ODEs $\dot{x}(t) = f(t, x(t))$ directly from observed uniformly time-sampled data using a neural network. In contrast with other neural network based approaches to this problem, we add a Lipschitz regularization term to our loss function. In the synthetic examples we observed empirically that this regularization results in a smoother approximating function and better generalization properties when compared with non-regularized models, both on trajectory and non-trajectory data, especially in presence of noise. In contrast with sparse regression approaches, since neural networks are universal approximators, we don't need any prior knowledge on the ODE system. Since the model is applied component wise, it can handle systems of any dimension, making it usable for real-world data.
翻訳日:2022-10-21 02:57:24 公開日:2020-09-07
# covcor20 at wnut-2020 task 2: ディープラーニングとエキスパートルールを組み合わせた試み

COVCOR20 at WNUT-2020 Task 2: An Attempt to Combine Deep Learning and Expert rules ( http://arxiv.org/abs/2009.03191v1 )

ライセンス: Link先を確認
Ali H\"urriyeto\u{g}lu and Ali Safaya and Nelleke Oostdijk and Osman Mutlu and Erdem Y\"or\"uk(参考訳) WNUT-2020 Task 2の範囲内で,深層学習モデルと言語情報を用いたテキスト分類システムを開発した。 いずれの深層学習システムも,言語的にインフォームされたルールを用いたシステムよりも優れていたが,これらの3つのシステムの統合(アウトプット)によって,相互評価設定における各アプローチのスタンドアロンパフォーマンスよりも優れたパフォーマンスが得られることがわかった。 しかし、テストデータでは、統合の性能は私たちの最高のディープラーニングモデルよりもわずかに低かった。 これらの結果は、機械学習とエキスパートルール駆動システムの統合の進展を示すものはほとんどない。 このワークショップの後、アノテーションマニュアルとテストデータのゴールドラベルのリリースが、これらの混乱する結果に光を当てると期待しています。

In the scope of WNUT-2020 Task 2, we developed various text classification systems, using deep learning models and one using linguistically informed rules. While both of the deep learning systems outperformed the system using the linguistically informed rules, we found that through the integration of (the output of) the three systems a better performance could be achieved than the standalone performance of each approach in a cross-validation setting. However, on the test data the performance of the integration was slightly lower than our best performing deep learning model. These results hardly indicate any progress in line of integrating machine learning and expert rules driven systems. We expect that the release of the annotation manuals and gold labels of the test data after this workshop will shed light on these perplexing results.
翻訳日:2022-10-21 02:56:27 公開日:2020-09-07
# 適応物体検出のためのチャネルアライメント

Channel-wise Alignment for Adaptive Object Detection ( http://arxiv.org/abs/2009.02862v1 )

ライセンス: Link先を確認
Hang Yang, Shan Jiang, Xinge Zhu, Mingyang Huang, Zhiqiang Shen, Chunxiao Liu, Jianping Shi(参考訳) ジェネリックオブジェクト検出は、過去10年間に深層畳み込みニューラルネットワークの開発によって大いに推進されてきた。 しかし、領域シフト状況においては、天候や照明等の変化がドメインギャップを引き起こすことが多く、あるドメインから別のドメインへの物体の検出時に性能が著しく低下する。 このタスクの既存の手法は、通常、全体像や興味の対象に基づく高レベルのアライメントに注意を向けるが、これは当然、細粒度チャネル情報を十分に活用できない。 本稿では,チャネル方向アライメントという,完全に異なる視点から適応することを実現する。 各チャネルが特定のパターン(例えば、carのような特別な意味領域)に焦点を当てていることに動機づけられ、ソースドメインとターゲットドメインの分布をチャネルレベルで調整することを目的としています。 本手法は主に自己チャネルワイドおよび横断チャネルワイドアライメントからなる。 これら2つの部分は、チャネルの観点から暗黙的に注意領域の内部関係と横断関係を探索する。 さらに,ドメイン不変なRPNネットワークを得るために,RPNドメイン分類モジュールを提案する。 広範囲にわたる実験により,提案手法は既存の手法よりも5%程度の改善がみられた。 異なるタスク(例:インスタンスセグメンテーション)の実験も、その優れたスケーラビリティを示している。

Generic object detection has been immensely promoted by the development of deep convolutional neural networks in the past decade. However, in the domain shift circumstance, the changes in weather, illumination, etc., often cause domain gap, and thus performance drops substantially when detecting objects from one domain to another. Existing methods on this task usually draw attention on the high-level alignment based on the whole image or object of interest, which naturally, cannot fully utilize the fine-grained channel information. In this paper, we realize adaptation from a thoroughly different perspective, i.e., channel-wise alignment. Motivated by the finding that each channel focuses on a specific pattern (e.g., on special semantic regions, such as car), we aim to align the distribution of source and target domain on the channel level, which is finer for integration between discrepant domains. Our method mainly consists of self channel-wise and cross channel-wise alignment. These two parts explore the inner-relation and cross-relation of attention regions implicitly from the view of channels. Further more, we also propose a RPN domain classifier module to obtain a domain-invariant RPN network. Extensive experiments show that the proposed method performs notably better than existing methods with about 5% improvement under various domain-shift settings. Experiments on different task (e.g. instance segmentation) also demonstrate its good scalability.
翻訳日:2022-10-21 02:55:44 公開日:2020-09-07
# 効率的な2次元グラフSLAMに基づくアクティブ探索のためのフロンティア検出と到達可能性解析

Frontier Detection and Reachability Analysis for Efficient 2D Graph-SLAM Based Active Exploration ( http://arxiv.org/abs/2009.02869v1 )

ライセンス: Link先を確認
Zezhou Sun, Banghe Wu, Cheng-Zhong Xu, Sanjay E. Sarma, Jian Yang, and Hui Kong(参考訳) グラフ最適化によって誘導される幾何学的に協調したサブマップにおいて,サブマップ生成のためのベースSLAMモジュールとしてCartographer法を利用して,効率的なフロンティア検出を行う。 また,検出されたフロンティアにロボットが到達できるように,フロンティアとそのクラスタの到達可能性の解析を行う。 本手法は実屋内シーンにおける移動ロボットを用いて,本手法の有効性と効率性を実証する。

We propose an integrated approach to active exploration by exploiting the Cartographer method as the base SLAM module for submap creation and performing efficient frontier detection in the geometrically co-aligned submaps induced by graph optimization. We also carry out analysis on the reachability of frontiers and their clusters to ensure that the detected frontier can be reached by robot. Our method is tested on a mobile robot in real indoor scene to demonstrate the effectiveness and efficiency of our approach.
翻訳日:2022-10-21 02:55:24 公開日:2020-09-07
# LACO: 5Gネットワークを越えたレイテンシ駆動のネットワークスライシングオーケストレーション

LACO: A Latency-Driven Network Slicing Orchestration in Beyond-5G Networks ( http://arxiv.org/abs/2009.03771v1 )

ライセンス: Link先を確認
Lanfranco Zanzi, Vincenzo Sciancalepore, Andres Garcia-Saavedra, Hans D. Schotten, Xavier Costa-Perez(参考訳) ネットワークスライシングは今後の5Gネットワークにおけるゲームチェンジャーになり、まだ未定の垂直産業利益を通じて、通信ビジネスのエコシステムを拡大すると予想されている。 これは、多くの事前定義された要件を考慮すれば、SLA(ヘテロジニアスサービスレベル合意)がスライス毎に保証されなければならないことを意味する。 本稿では,マルチテナンシ環境において,レイテンシとスループットの保証を同時に実現する新しい無線スライシングオーケストレーションソリューションを考案する。 本研究では,マルチアームバンドベース(MAB)オーケストレータ (LACO) を用いて,交通需要やチャネル品質統計に関する事前知識のない資源スライシング決定を行う探索-vs-Exploitationパラダイムを活用する。 基盤となるシステムに盲目な従来のMAB手法とは対照的に、LACOは意思決定を迅速化するためにシステム構造情報に依存している。 提案手法の有効性を実証的に実証した予備的なシミュレーションキャンペーンの後, LACOの実用性を評価するため, 市販の機器を用いて, 現実的なネットワーク条件を完全にエミュレートするLACOの頑健な実装を提供する。

Network Slicing is expected to become a game changer in the upcoming 5G networks and beyond, enlarging the telecom business ecosystem through still-unexplored vertical industry profits. This implies that heterogeneous service level agreements (SLAs) must be guaranteed per slice given the multitude of predefined requirements. In this paper, we pioneer a novel radio slicing orchestration solution that simultaneously provides-latency and throughput guarantees in a multi-tenancy environment. Leveraging on a solid mathematical framework, we exploit the exploration-vs-exploitation paradigm by means of a multi-armed-bandit-based(MAB) orchestrator, LACO, that makes adaptive resource slicing decisions with no prior knowledge on the traffic demand or channel quality statistics. As opposed to traditional MAB methods that are blind to the underlying system, LACO relies on system structure information to expedite decisions. After a preliminary simulations campaign empirically proving the validness of our solution, we provide a robust implementation of LACO using off-the-shelf equipment to fully emulate realistic network conditions:near-optimal results within affordable computational time are measured when LACO is in place.
翻訳日:2022-10-21 02:49:14 公開日:2020-09-07
# 階層的NMFによる文献検索

COVID-19 Literature Topic-Based Search via Hierarchical NMF ( http://arxiv.org/abs/2009.09074v1 )

ライセンス: Link先を確認
Rachel Grotheer, Yihuan Huang, Pengyu Li, Elizaveta Rebrova, Deanna Needell, Longxiu Huang, Alona Kryshchenko, Xia Li, Kyung Ha, Oleksandr Kryshchenko(参考訳) 新型コロナウイルス関連の科学文献のデータセットがコンパイルされ、いくつかのオンライン図書館の記事を組み合わせて、オープンアクセスとフルテキストで選択できる。 次に、階層的非負行列分解を用いて、新型コロナウイルスに関連する文献を木構造に整理し、研究者が検出されたトピックに基づいて関連文献を検索できるようにする。 我々は, ワクチン, 遺伝子構造, 患者研究のモデル化, 関連疾患, ウイルス学に関する文献において, 8つの主要な潜在トピックと52の粒状サブトピックを発見した。 我々のツールが現在の研究者を助けるために、この階層構造を用いて利用可能な文献を整理するインタラクティブなウェブサイトが作成されます。

A dataset of COVID-19-related scientific literature is compiled, combining the articles from several online libraries and selecting those with open access and full text available. Then, hierarchical nonnegative matrix factorization is used to organize literature related to the novel coronavirus into a tree structure that allows researchers to search for relevant literature based on detected topics. We discover eight major latent topics and 52 granular subtopics in the body of literature, related to vaccines, genetic structure and modeling of the disease and patient studies, as well as related diseases and virology. In order that our tool may help current researchers, an interactive website is created that organizes available literature using this hierarchical structure.
翻訳日:2022-10-21 02:48:10 公開日:2020-09-07
# 拡散MRIにおける最適Q空間サンプリング

Towards learned optimal q-space sampling in diffusion MRI ( http://arxiv.org/abs/2009.03008v1 )

ライセンス: Link先を確認
Tomer Weiss, Sanketh Vedula, Ortal Senouf, Oleg Michailovich, and AlexBronstein(参考訳) ファイバトラクトグラフィは、脳の白質の空間的接続と組織化を再構築する計算神経科学の重要なツールである。 ファイバートラクトグラフィーは拡散磁気共鳴イメージング(dMRI)を利用して、異なる空間方向に沿って脳水の明らかな拡散率を測定する。 残念なことに、そのようなデータ収集は空間分解能の低下と取得時間の大幅な向上という価格が伴うため、dMRIの臨床応用性が制限される。 この問題はこれまでに2つの主要な戦略を用いて解決されてきた。 殆どの努力は、任意の固定されたサンプリングスキーム(拡散エンコーディング勾配の選択によって定義される)の信号推定の品質を改善するために拡張されている。 一方,サンプリング方式に対する最適化も有効であることが証明されている。 これまでの結果に触発されて本研究は,提案手法を統一的な推定フレームワークに統合し,推定モデルとサンプリング設計の両方について最適化を行う。 提案手法は,信号推定の精度を大幅に向上させるとともに,ファイバートラクトグラフィーによる解析の精度も向上する。 学習した推定モデルの最適性を証明するには、より広範囲な評価が必要だろうが、学習したサンプリングスキームはすぐに利用可能であり、その推定に使用されるニューラルネットワークをデプロイすることなく、dMRI分析を改善する方法を提供する。 本稿では,Human Connectome Projectデータに基づく総合的な比較分析を行う。 コードと学習されたサンプリング設計はhttps://github.com/tomer196/learned_dmriで実行可能である。

Fiber tractography is an important tool of computational neuroscience that enables reconstructing the spatial connectivity and organization of white matter of the brain. Fiber tractography takes advantage of diffusion Magnetic Resonance Imaging (dMRI) which allows measuring the apparent diffusivity of cerebral water along different spatial directions. Unfortunately, collecting such data comes at the price of reduced spatial resolution and substantially elevated acquisition times, which limits the clinical applicability of dMRI. This problem has been thus far addressed using two principal strategies. Most of the efforts have been extended towards improving the quality of signal estimation for any, yet fixed sampling scheme (defined through the choice of diffusion-encoding gradients). On the other hand, optimization over the sampling scheme has also proven to be effective. Inspired by the previous results, the present work consolidates the above strategies into a unified estimation framework, in which the optimization is carried out with respect to both estimation model and sampling design {\it concurrently}. The proposed solution offers substantial improvements in the quality of signal estimation as well as the accuracy of ensuing analysis by means of fiber tractography. While proving the optimality of the learned estimation models would probably need more extensive evaluation, we nevertheless claim that the learned sampling schemes can be of immediate use, offering a way to improve the dMRI analysis without the necessity of deploying the neural network used for their estimation. We present a comprehensive comparative analysis based on the Human Connectome Project data. Code and learned sampling designs aviliable at https://github.com/tomer196/Learned_dMRI.
翻訳日:2022-10-21 02:47:37 公開日:2020-09-07
# 多視点深度マップによる3次元形状のモデル化

Improved Modeling of 3D Shapes with Multi-view Depth Maps ( http://arxiv.org/abs/2009.03298v1 )

ライセンス: Link先を確認
Kamal Gupta and Susmija Jabbireddy and Ketul Shah and Abhinav Shrivastava and Matthias Zwicker(参考訳) CNNを用いた2次元画像生成の最近の進歩を活用し,3次元形状をモデル化するための汎用フレームワークを提案する。 オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。 新しいアイデンティティエンコーダとクラス条件視点生成器からなる単純なエンコーダ・デコーダフレームワークは、3次元一貫性のある深度マップを生成する。 実験結果は,我々のアプローチの2倍の利点を示している。 まず、2D画像領域でうまく機能するアーキテクチャを3Dに直接借りることができます。 第2に,計算メモリの少ない高分解能3d形状を効果的に生成できる。 本手法は,3次元オブジェクトの再構成と合成において既存の深度マップ法よりも優れており,点雲,ボクセル格子,暗黙関数などの他の表現と競合することを示す。

We present a simple yet effective general-purpose framework for modeling 3D shapes by leveraging recent advances in 2D image generation using CNNs. Using just a single depth image of the object, we can output a dense multi-view depth map representation of 3D objects. Our simple encoder-decoder framework, comprised of a novel identity encoder and class-conditional viewpoint generator, generates 3D consistent depth maps. Our experimental results demonstrate the two-fold advantage of our approach. First, we can directly borrow architectures that work well in the 2D image domain to 3D. Second, we can effectively generate high-resolution 3D shapes with low computational memory. Our quantitative evaluations show that our method is superior to existing depth map methods for reconstructing and synthesizing 3D objects and is competitive with other representations, such as point clouds, voxel grids, and implicit functions.
翻訳日:2022-10-21 02:46:54 公開日:2020-09-07
# ニューラルネットワークによる脳形態計測の深化

Going deeper with brain morphometry using neural networks ( http://arxiv.org/abs/2009.03303v1 )

ライセンス: Link先を確認
Rodrigo Santa Cruz, L\'eo Lebrat, Pierrick Bourgeat, Vincent Dor\'e, Jason Dowling, Jurgen Fripp, Clinton Fookes, Olivier Salvado(参考訳) 磁気共鳴イメージング(MRI)による脳形態計測は、多くの神経変性疾患の集積バイオマーカーである。 この領域の最近の進歩は、深層畳み込みニューラルネットワークが数秒以内に形態計測を推測できることを示している。 それにもかかわらず、洞察力に富んだバイオマーカー(曲率と厚さ)のモデルの精度は依然として不十分である。 本稿では,より正確で効率的な脳形態計測のためのニューラルネットワークモデルHerstonNetを提案する。 より具体的には、MRIから直接リッチな特徴を学習する3D ResNetベースのニューラルネットワークを開発し、解像度の異なる特徴マップの形状測定を予測してマルチスケール回帰スキームを設計し、ロバストな最適化手法を利用して、品質の低下を回避し、予測分散を低減する。 その結果、HerstonNetは競合的な実行時間を維持しながら、クラス内相関係数(アグリメント尺度)からFreeSurfer銀標準へのアプローチを24.30%改善した。

Brain morphometry from magnetic resonance imaging (MRI) is a consolidated biomarker for many neurodegenerative diseases. Recent advances in this domain indicate that deep convolutional neural networks can infer morphometric measurements within a few seconds. Nevertheless, the accuracy of the devised model for insightful bio-markers (mean curvature and thickness) remains unsatisfactory. In this paper, we propose a more accurate and efficient neural network model for brain morphometry named HerstonNet. More specifically, we develop a 3D ResNet-based neural network to learn rich features directly from MRI, design a multi-scale regression scheme by predicting morphometric measures at feature maps of different resolutions, and leverage a robust optimization method to avoid poor quality minima and reduce the prediction variance. As a result, HerstonNet improves the existing approach by 24.30% in terms of intraclass correlation coefficient (agreement measure) to FreeSurfer silver-standards while maintaining a competitive run-time.
翻訳日:2022-10-21 02:46:39 公開日:2020-09-07
# 最大共通部分列探索のための高速ランダム化アルゴリズム

A Fast Randomized Algorithm for Finding the Maximal Common Subsequences ( http://arxiv.org/abs/2009.03352v1 )

ライセンス: Link先を確認
Jin Cao and Dewei Zhong(参考訳) L$多重文字列の共通部分列を見つけることは、バイオインフォマティクス、計算言語学、情報検索の分野で多くの応用がある。 良く知られた結果は、$L$文字列に対して最も長い共通部分列(LCS)を見つけることはNPハードである、例えば、計算複雑性は$L$で指数関数的である。 本稿では,複数の文字列の最大共通部分列(MCS$)のランダムなインスタンスを見つけるためのランダム化アルゴリズムである {\em Random-MCS} を開発する。 共通部分列が {\em maximal} であるとは、任意の文字を部分列に挿入しても、もはや共通部分列は得られないということである。 MCSの特殊な例は、長さが最も長いLCSである。 アルゴリズムの複雑さは$L$で線形であることを示し、従って大きめの$L$に適している。 さらに, MCS の単一インスタンスの出現確率について検討し, 理論的および実験的な研究により, 複数行の {\em Random-MCS} の最長列が$LCS$の解となる場合が多いことを示した。

Finding the common subsequences of $L$ multiple strings has many applications in the area of bioinformatics, computational linguistics, and information retrieval. A well-known result states that finding a Longest Common Subsequence (LCS) for $L$ strings is NP-hard, e.g., the computational complexity is exponential in $L$. In this paper, we develop a randomized algorithm, referred to as {\em Random-MCS}, for finding a random instance of Maximal Common Subsequence ($MCS$) of multiple strings. A common subsequence is {\em maximal} if inserting any character into the subsequence no longer yields a common subsequence. A special case of MCS is LCS where the length is the longest. We show the complexity of our algorithm is linear in $L$, and therefore is suitable for large $L$. Furthermore, we study the occurrence probability for a single instance of MCS and demonstrate via both theoretical and experimental studies that the longest subsequence from multiple runs of {\em Random-MCS} often yields a solution to $LCS$.
翻訳日:2022-10-21 02:41:13 公開日:2020-09-07
# 高速かつセキュアな分散非負行列分解

Fast and Secure Distributed Nonnegative Matrix Factorization ( http://arxiv.org/abs/2009.02845v1 )

ライセンス: Link先を確認
Yuqiu Qian, Conghui Tan, Danhao Ding, Hui Li, Nikos Mamoulis(参考訳) 非負行列分解(NMF)は、いくつかのデータマイニングタスクでうまく適用されている。 近年,大行列のコストが高いため,nmfの加速への関心が高まっている。 一方で、nmfは複数の当事者(病院など)間でのプライバシーデータ(医療画像や記録など)の活用を含む画像やテキスト分析に広く適用されているため、フェデレーションデータに対するnmfのプライバシー問題は注目に値する。 本稿では,分散NMFの高速化とセキュリティ問題について検討する。 まず,NMFの非負の最小二乗法(DSANLS)フレームワークについて,行列スケッチ技術を用いて収束保証付き非負の最小二乗法のサイズを縮小する手法を提案する。 2つ目の問題として、DSANLSの修正はセキュリティ設定に適応できるが、1回または限定的なイテレーションにのみ適用可能であることを示す。 そこで本研究では,セキュリティ保証付きで,同期と非同期の両方で4つの効率的な分散NMF手法を提案する。 提案手法の優位性を示すために,複数の実データセットについて広範な実験を行った。 このメソッドの実装はhttps://github.com/qianyuqiu79/dsanlsで利用可能です。

Nonnegative matrix factorization (NMF) has been successfully applied in several data mining tasks. Recently, there is an increasing interest in the acceleration of NMF, due to its high cost on large matrices. On the other hand, the privacy issue of NMF over federated data is worthy of attention, since NMF is prevalently applied in image and text analysis which may involve leveraging privacy data (e.g, medical image and record) across several parties (e.g., hospitals). In this paper, we study the acceleration and security problems of distributed NMF. Firstly, we propose a distributed sketched alternating nonnegative least squares (DSANLS) framework for NMF, which utilizes a matrix sketching technique to reduce the size of nonnegative least squares subproblems with a convergence guarantee. For the second problem, we show that DSANLS with modification can be adapted to the security setting, but only for one or limited iterations. Consequently, we propose four efficient distributed NMF methods in both synchronous and asynchronous settings with a security guarantee. We conduct extensive experiments on several real datasets to show the superiority of our proposed methods. The implementation of our methods is available at https://github.com/qianyuqiu79/DSANLS.
翻訳日:2022-10-21 02:40:51 公開日:2020-09-07
# フォールディングによる展開 : 実際に行列を反転させることなく行列反転問題に対する再サンプリング的アプローチ

Unfolding by Folding: a resampling approach to the problem of matrix inversion without actually inverting any matrix ( http://arxiv.org/abs/2009.02913v1 )

ライセンス: Link先を確認
Pietro Vischia(参考訳) マトリックス逆転問題は、実験物理学、特に高エネルギー粒子物理学において、展開という名前でしばしば発生する。 物理量の真のスペクトルは検出器の存在によって変形し、観測されたスペクトルとなる。 真のスペクトルと観測されたスペクトルの両方をヒストグラムに識別すれば、行列を介して検出器応答をモデル化できる。 観測スペクトルから始まる真のスペクトルを推測するには、応答行列を反転する必要がある。 このタスクには、観測スペクトルから始まり、シミュレートされた真のスペクトルをガイドとして使用して、応答行列が容易に可逆でない場合に有意義な解を得る、多くの方法が存在する。 この写本では、展開する問題に対して異なるアプローチをとります。 応答行列を反転させ、観測された分布を生成空間内の最も可能性の高い親分布に変換する代わりに、生成空間内の多くの分布をサンプリングし、元の応答行列を介して折り畳み、データ分布に最も近い折り畳み分布を生成するジェネレータレベルの分布を選択する。 正則化スキームは、非対角応答行列が真の空間における溶液の高周波振動をもたらす場合を扱い、導入されたバイアスを研究することができる。 このアルゴリズムは、逆問題が真およびスミア空間の離散化の観点から適切に定義されている場合にも従来の展開アルゴリズムと同様に機能し、逆問題が不定義である場合には、真理空間のビンの数がスミア空間のビンの数よりも大きくなる。 これらの利点は、アルゴリズムが技術的に任意の行列を反転せず、最良の解を選ぶためのガイドとしてデータ分布のみを使用するという事実にある。

Matrix inversion problems are often encountered in experimental physics, and in particular in high-energy particle physics, under the name of unfolding. The true spectrum of a physical quantity is deformed by the presence of a detector, resulting in an observed spectrum. If we discretize both the true and observed spectra into histograms, we can model the detector response via a matrix. Inferring a true spectrum starting from an observed spectrum requires therefore inverting the response matrix. Many methods exist in literature for this task, all starting from the observed spectrum and using a simulated true spectrum as a guide to obtain a meaningful solution in cases where the response matrix is not easily invertible. In this Manuscript, I take a different approach to the unfolding problem. Rather than inverting the response matrix and transforming the observed distribution into the most likely parent distribution in generator space, I sample many distributions in generator space, fold them through the original response matrix, and pick the generator-level distribution that yields the folded distribution closest to the data distribution. Regularization schemes can be introduced to treat the case where non-diagonal response matrices result in high-frequency oscillations of the solution in true space, and the introduced bias is studied. The algorithm performs as well as traditional unfolding algorithms in cases where the inverse problem is well-defined in terms of the discretization of the true and smeared space, and outperforms them in cases where the inverse problem is ill-defined---when the number of truth-space bins is larger than that of smeared-space bins. These advantages stem from the fact that the algorithm does not technically invert any matrix and uses only the data distribution as a guide to choose the best solution.
翻訳日:2022-10-21 02:40:30 公開日:2020-09-07
# センサ劣化の反復補正とベイズ型マルチセンサデータ融合法

Iterative Correction of Sensor Degradation and a Bayesian Multi-Sensor Data Fusion Method ( http://arxiv.org/abs/2009.03091v1 )

ライセンス: Link先を確認
Luka Kolar, Rok \v{S}ikonja, Lenart Treven(参考訳) 本稿では,複数の劣化信号から地上構造信号を推定する新しい手法を提案する。 アルゴリズムは、2つの信号の繰り返し補正を2つの信号の比から行うことで乗算分解効果を学習する。 分解関数 d は連続で、単調性を満たすべきであり、d(0) = 1 である。 平滑化単調回帰法を用いて, 上記基準を適合部に容易に組み込むことができる。 我々は, 理論解析を行い, 無騒音測定モデルのための接地信号への収束を証明した。 最後に,ガウス過程を用いてノイズ補正信号を融合する手法を提案する。 全センサのノイズ値の推定を可能にする特別なカーネルとともに、多数の測定に使用できる疎ガウス過程を用いる。 データ融合フレームワークはデータギャップを自然に処理し、複数の時間スケール(長期的および短期的な信号特性)で信号トレンドを観測するためのシンプルで強力な方法を提供する。 既知接地信号を有する合成データセットにおいて、補正方法の有効性を評価する。

We present a novel method for inferring ground-truth signal from multiple degraded signals, affected by different amounts of sensor exposure. The algorithm learns a multiplicative degradation effect by performing iterative corrections of two signals solely from the ratio between them. The degradation function d should be continuous, satisfy monotonicity, and d(0) = 1. We use smoothed monotonic regression method, where we easily incorporate the aforementioned criteria to the fitting part. We include theoretical analysis and prove convergence to the ground-truth signal for the noiseless measurement model. Lastly, we present an approach to fuse the noisy corrected signals using Gaussian processes. We use sparse Gaussian processes that can be utilized for a large number of measurements together with a specialized kernel that enables the estimation of noise values of all sensors. The data fusion framework naturally handles data gaps and provides a simple and powerful method for observing the signal trends on multiple timescales(long-term and short-term signal properties). The viability of correction method is evaluated on a synthetic dataset with known ground-truth signal.
翻訳日:2022-10-21 02:39:13 公開日:2020-09-07
# 多項ロジット選択によるランクの学習

Learning to Rank under Multinomial Logit Choice ( http://arxiv.org/abs/2009.03207v1 )

ライセンス: Link先を確認
James A. Grant, David S. Leslie(参考訳) コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。 learning to rank(ltr)フレームワークはこの問題を、コンテンツのリストを選択し、ユーザーがクリックする場所を観察するシーケンシャルな問題としてモデル化している。 LTRに関するこれまでのほとんどの作業は、ユーザがリスト内の各項目を個別に考慮し、各項目をクリックするかしないかをバイナリ選択すると仮定している。 LTRフレームワークにMNL(multinomial logit)選択モデルを導入し、注文されたアイテムのリスト全体を考慮したユーザの振る舞いをキャプチャし、すべてのアイテムの中から1つの選択肢とノークリックオプションを選択できるようにする。 MNLモデルでは、ユーザーは本来より魅力的であるか、リスト内の好ましい位置に置かれているアイテムを好む。 位置依存パラメータが知られ、未知である2つの設定で後悔を最小限に抑えるために、上位信頼バウンドアルゴリズムを提案する。 我々は、この問題に対する$\Omega(\sqrt{T})$下限、$\tilde{O}(\sqrt{T})$上限を既知のパラメータバージョンに対する後悔の上限とする理論解析を提示する。 この分析は、幾何学的確率変数に対する厳密な新しい濃度結果と、離散データに基づいて計算された最大可能性推定器の関数的不等式に基づく。

Learning the optimal ordering of content is an important challenge in website design. The learning to rank (LTR) framework models this problem as a sequential problem of selecting lists of content and observing where users decide to click. Most previous work on LTR assumes that the user considers each item in the list in isolation, and makes binary choices to click or not on each. We introduce a multinomial logit (MNL) choice model to the LTR framework, which captures the behaviour of users who consider the ordered list of items as a whole and make a single choice among all the items and a no-click option. Under the MNL model, the user favours items which are either inherently more attractive, or placed in a preferable position within the list. We propose upper confidence bound algorithms to minimise regret in two settings - where the position dependent parameters are known, and unknown. We present theoretical analysis leading to an $\Omega(\sqrt{T})$ lower bound for the problem, an $\tilde{O}(\sqrt{T})$ upper bound on regret for the known parameter version. Our analyses are based on tight new concentration results for Geometric random variables, and novel functional inequalities for maximum likelihood estimators computed on discrete data.
翻訳日:2022-10-21 02:38:32 公開日:2020-09-07
# 疎混合独立成分分析による構造因果モデルの推定

Estimation of Structural Causal Model via Sparsely Mixing Independent Component Analysis ( http://arxiv.org/abs/2009.03077v1 )

ライセンス: Link先を確認
Kazuharu Harada and Hironori Fujisawa(参考訳) 本稿では,観測データから因果構造を推定する問題について考察する。 この種の問題は、通常、有向非巡回グラフ(DAG)モデルの推論として定式化される。 線形非ガウス非巡回モデル(LiNGAM)は最も成功したDAGモデルの一つであり、様々な推定法が開発されている。 しかし、既存の方法はいくつかの理由で効率的ではない。 (i)疎構造が必ずしも因果順序推定に組み込まれているとは限らない。 (ii)パラメータ推定にはデータ全体の情報を使用しない。 これらの問題に対処するために,非ガウス雑音を持つ線形DAGモデルの新たな推定法を提案する。 提案手法は, 独立成分分析(ica)のログライク性に基づき, 分散性と一貫性条件に関連する2つのペナルティ項を導出する。 提案手法により,因果順序とパラメータを同時に推定できる。 安定かつ効率的な最適化のために,改良された自然勾配などいくつかのデバイスを提案する。 数値実験により,提案手法はLiNGAMやNOTEARSなどの既存手法よりも優れていた。

We consider the problem of inferring the causal structure from observational data, especially when the structure is sparse. This type of problem is usually formulated as an inference of a directed acyclic graph (DAG) model. The linear non-Gaussian acyclic model (LiNGAM) is one of the most successful DAG models, and various estimation methods have been developed. However, existing methods are not efficient for some reasons: (i) the sparse structure is not always incorporated in causal order estimation, and (ii) the whole information of the data is not used in parameter estimation. To address {these issues}, we propose a new estimation method for a linear DAG model with non-Gaussian noises. The proposed method is based on the log-likelihood of independent component analysis (ICA) with two penalty terms related to the sparsity and the consistency condition. The proposed method enables us to estimate the causal order and the parameters simultaneously. For stable and efficient optimization, we propose some devices, such as a modified natural gradient. Numerical experiments show that the proposed method outperforms existing methods, including LiNGAM and NOTEARS.
翻訳日:2022-10-21 02:31:32 公開日:2020-09-07
# Per-Example Gradient Clippingによる差分プライベートディープラーニングのスケールアップ

Scaling up Differentially Private Deep Learning with Fast Per-Example Gradient Clipping ( http://arxiv.org/abs/2009.03106v1 )

ライセンス: Link先を確認
Jaewoo Lee and Daniel Kifer(参考訳) renyi differential privacyに関する最近の研究は、ディープラーニングタスクに差分プライバシーを適用する可能性を示している。 しかし、彼らの約束に反して、異なるプライベートなディープネットワークは、しばしば非プライベートなディープネットワークの精度よりもはるかに遅れており、モデルアーキテクチャやオプティマイザなどのさらなる研究の必要性を示している。 この拡張された研究の障壁の1つは、トレーニング時間 ― 多くの場合、非プライベートネットワークのトレーニングよりも桁違いに大きい。 このスローダウンの理由は、GPUによるバッチトレーニングのメリットを軽視する、"per-example gradient clipping"と呼ばれる、プライバシーに関する重要なステップである。 バックプロパゲーション方程式を解析することにより、自動微分(PyTorchやTensorFlowなど)と互換性のあるサンプルごとの勾配クリッピングの新たな手法が導き出され、GPUの利用性が向上する。 PyTorchの実装では、トレーニング速度が大幅に向上した(バッチサイズ128のさまざまなモデルをトレーニングするための54倍から94倍)。 これらのテクニックは、畳み込み層、リカレントネットワーク、注意、残留ブロックなど、さまざまなアーキテクチャ上の選択に役立ちます。

Recent work on Renyi Differential Privacy has shown the feasibility of applying differential privacy to deep learning tasks. Despite their promise, however, differentially private deep networks often lag far behind their non-private counterparts in accuracy, showing the need for more research in model architectures, optimizers, etc. One of the barriers to this expanded research is the training time -- often orders of magnitude larger than training non-private networks. The reason for this slowdown is a crucial privacy-related step called "per-example gradient clipping" whose naive implementation undoes the benefits of batch training with GPUs. By analyzing the back-propagation equations we derive new methods for per-example gradient clipping that are compatible with auto-differentiation (e.g., in PyTorch and TensorFlow) and provide better GPU utilization. Our implementation in PyTorch showed significant training speed-ups (by factors of 54x - 94x for training various models with batch sizes of 128). These techniques work for a variety of architectural choices including convolutional layers, recurrent networks, attention, residual blocks, etc.
翻訳日:2022-10-21 02:31:18 公開日:2020-09-07
# ブラックボックスからホワイトボックスへ - 戦略的調査に基づくモデル特性の発見

Black Box to White Box: Discover Model Characteristics Based on Strategic Probing ( http://arxiv.org/abs/2009.03136v1 )

ライセンス: Link先を確認
Josh Kalin, Matthew Ciolino, David Noever, Gerry Dozier(参考訳) 機械学習では、White Box Adversarial Attacksはモデル属性に関する基本的な知識に頼っている。 この作業は、基礎となるアーキテクチャと一次トレーニングデータセットという、モデルの情報を分離する部分を見つけることに焦点を当てている。 本論文のプロセスでは、入力プローブの構造化セットとモデルの出力が、深層分類器のトレーニングデータとなる。 機械学習における2つのサブドメイン:画像ベース分類器とGPT-2によるテキスト変換器。 イメージ分類では、一般的なパブリックライブラリで利用可能な一般的なデプロイアーキテクチャとデータセットの探索に重点を置いている。 複数のパラメーターを持つ単一のトランスフォーマーアーキテクチャを用いて、テキスト生成は異なるデータセットを微調整することによって行われる。 画像とテキストで探索された各データセットは、互いに区別可能である。 テキストトランスフォーマティブ出力の多様性は、テキストドメインにおけるアーキテクチャ属性の分類に成功するためには、さらなる研究が必要であることを意味する。

In Machine Learning, White Box Adversarial Attacks rely on knowing underlying knowledge about the model attributes. This works focuses on discovering to distrinct pieces of model information: the underlying architecture and primary training dataset. With the process in this paper, a structured set of input probes and the output of the model become the training data for a deep classifier. Two subdomains in Machine Learning are explored: image based classifiers and text transformers with GPT-2. With image classification, the focus is on exploring commonly deployed architectures and datasets available in popular public libraries. Using a single transformer architecture with multiple levels of parameters, text generation is explored by fine tuning off different datasets. Each dataset explored in image and text are distinguishable from one another. Diversity in text transformer outputs implies further research is needed to successfully classify architecture attribution in text domain.
翻訳日:2022-10-21 02:30:56 公開日:2020-09-07
# マンハッタン世界想定を超えた3次元空間配置推定

3D Room Layout Estimation Beyond the Manhattan World Assumption ( http://arxiv.org/abs/2009.02857v1 )

ライセンス: Link先を確認
Dongho Choi(参考訳) 単一画像から3Dルームレイアウトを予測することは、多くのアプリケーションにおいて難しい課題である。 本稿では,最近の最先端3次元部屋レイアウト推定モデルに基づく3次元部屋レイアウト推定のための新しいトレーニングと後処理手法を提案する。 実験結果から,本手法は目に見える部屋配置の予測において,最先端の手法よりも高い精度を示すことがわかった。 本手法は,2020年の3Dビジョンワークショップで3位となった。

Predicting 3D room layout from single image is a challenging task with many applications. In this paper, we propose a new training and post-processing method for 3D room layout estimation, built on a recent state-of-the-art 3D room layout estimation model. Experimental results show our method outperforms state-of-the-art approaches by a large margin in predicting visible room layout. Our method has obtained the 3rd place in 2020 Holistic Scene Structures for 3D Vision Workshop.
翻訳日:2022-10-21 02:30:00 公開日:2020-09-07
# チーム・アレックス - CLEF CheckThat! 2020年: トランスフォーマーモデルでチェックワードのつぶやきを特定

Team Alex at CLEF CheckThat! 2020: Identifying Check-Worthy Tweets With Transformer Models ( http://arxiv.org/abs/2009.02931v1 )

ライセンス: Link先を確認
Alex Nikolov, Giovanni Da San Martino, Ivan Koychev, and Preslav Nakov(参考訳) 偽情報や偽情報の拡散は、新型コロナウイルス(COVID-19)のパンデミックの出現とともにソーシャルメディアで長年続いているが、政治的・健康的な偽情報が融合し、問題が全く新しいレベルに上昇し、世界初となるインフォデミックがもたらされた。 このインフォデミックとの戦いには多くの側面があり、事実確認と虚偽や誤解を招く主張が最も重要なものの一つである。 残念なことに、手動のファクトチェックは時間がかかり、自動ファクトチェックはリソースインテンスであり、入力されたソーシャルメディア投稿を事前にフィルターし、チェック価値のないものを捨てる必要がある。 このことを念頭に置いて、covid-19に関するチェックに値するツイートを検出するモデルを提案し、深い文脈化されたテキスト表現と、ツイートの社会的コンテキストのモデル化を組み合わせた。 我々はさらに,今後の研究において,どのような手法がタスクに有効であるのかを示唆する上で有用であると考えられる,いくつかの実験と比較について述べる。 英語版CLEF-2020 CheckThat! Task 1 システム Team_Alex は MAP スコア 0.8034 で2位にランクされ、勝利システムとほぼ結びついており、0.003 MAP ポイントで遅れている。

While misinformation and disinformation have been thriving in social media for years, with the emergence of the COVID-19 pandemic, the political and the health misinformation merged, thus elevating the problem to a whole new level and giving rise to the first global infodemic. The fight against this infodemic has many aspects, with fact-checking and debunking false and misleading claims being among the most important ones. Unfortunately, manual fact-checking is time-consuming and automatic fact-checking is resource-intense, which means that we need to pre-filter the input social media posts and to throw out those that do not appear to be check-worthy. With this in mind, here we propose a model for detecting check-worthy tweets about COVID-19, which combines deep contextualized text representations with modeling the social context of the tweet. We further describe a number of additional experiments and comparisons, which we believe should be useful for future research as they provide some indication about what techniques are effective for the task. Our official submission to the English version of CLEF-2020 CheckThat! Task 1, system Team_Alex, was ranked second with a MAP score of 0.8034, which is almost tied with the wining system, lagging behind by just 0.003 MAP points absolute.
翻訳日:2022-10-21 02:29:54 公開日:2020-09-07
# おばあちゃん、大丈夫? 頑健な高齢者感情認識のための音響・言語モデル

Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition ( http://arxiv.org/abs/2009.03432v1 )

ライセンス: Link先を確認
Gizem So\u{g}anc{\i}o\u{g}lu, Oxana Verkholyak, Heysem Kaya, Dmitrii Fedotov, Tobias Cad\`ee, Albert Ali Salah, Alexey Karpov(参考訳) 高齢者の感情認識のための音響的・言語的分析は、未研究かつ困難な研究の方向性であるが、高齢者のためのデジタルアシスタントの作成には不可欠である。 本稿は,覚醒度と原子価の認識のための3段階の分類タスクからなる,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。 そこで本稿では,これらの課題を音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。 本研究では,ラベル付きデータの量が小さい場合,タスク固有の辞書や資源の利用によって言語モデルの性能が向上することを示す。 また,様々なモデルの開発とテストセットのパフォーマンスの高いミスマッチを観察し,一般化性能を推定し改善するための代替訓練と意思決定の融合戦略を提案する。

Acoustic and linguistic analysis for elderly emotion recognition is an under-studied and challenging research direction, but essential for the creation of digital assistants for the elderly, as well as unobtrusive telemonitoring of elderly in their residences for mental healthcare purposes. This paper presents our contribution to the INTERSPEECH 2020 Computational Paralinguistics Challenge (ComParE) - Elderly Emotion Sub-Challenge, which is comprised of two ternary classification tasks for arousal and valence recognition. We propose a bi-modal framework, where these tasks are modeled using state-of-the-art acoustic and linguistic features, respectively. In this study, we demonstrate that exploiting task-specific dictionaries and resources can boost the performance of linguistic models, when the amount of labeled data is small. Observing a high mismatch between development and test set performances of various models, we also propose alternative training and decision fusion strategies to better estimate and improve the generalization performance.
翻訳日:2022-10-21 02:29:12 公開日:2020-09-07
# 深層強化学習による因果構造の能動的学習

Active Learning of Causal Structures with Deep Reinforcement Learning ( http://arxiv.org/abs/2009.03009v1 )

ライセンス: Link先を確認
Amir Amirinezhad, Saber Salehkaleybar, Matin Hashemi(参考訳) 介入データから因果構造を学習するための実験設計の問題について検討する。 実験者は,各ステップにおけるシステム内の変数の1つに介入することを決定し,その介入の結果を用いて変数間の因果関係を回復するアクティブラーニング設定を考える。 目標は、最小限の介入で因果構造を完全に特定することである。 実験設計の課題に対して,最初の深層強化学習に基づく解法を提案する。 提案手法では,入力グラフをグラフニューラルネットワークを用いてベクトルに埋め込み,それを別のニューラルネットワークに供給し,各ステップで介入を行う変数を出力する。 どちらのネットワークもQ-イテレーションアルゴリズムによって共同で訓練される。 実験の結果, 提案手法は, 従来手法に比べて因果構造回復における競合性能が向上すると同時に, 密集グラフの実行時間を著しく削減できることがわかった。

We study the problem of experiment design to learn causal structures from interventional data. We consider an active learning setting in which the experimenter decides to intervene on one of the variables in the system in each step and uses the results of the intervention to recover further causal relationships among the variables. The goal is to fully identify the causal structures with minimum number of interventions. We present the first deep reinforcement learning based solution for the problem of experiment design. In the proposed method, we embed input graphs to vectors using a graph neural network and feed them to another neural network which outputs a variable for performing intervention in each step. Both networks are trained jointly via a Q-iteration algorithm. Experimental results show that the proposed method achieves competitive performance in recovering causal structures with respect to previous works, while significantly reducing execution time in dense graphs.
翻訳日:2022-10-21 02:22:32 公開日:2020-09-07
# 行列分解に基づく多視点データクラスタリングのための中間および内部多様体の学習

Learning Inter- and Intra-manifolds for Matrix Factorization-based Multi-Aspect Data Clustering ( http://arxiv.org/abs/2009.02859v1 )

ライセンス: Link先を確認
Khanh Luong and Richi Nayak(参考訳) マルチビューやマルチタイプのリレーショナルデータなど,複数の側面を持つデータのクラスタリングは,その適用範囲が広いため,近年では普及している。 多次元データの正確な低ランク表現を学習する非負行列因子化(NMF)フレームワークを用いた多様体学習手法の有効性を示した。 我々は,データクラスタリングのための多種多様な多様体を学習するために,異なるデータ型(またはビュー)のデータポイントの距離情報を利用するNMFフレームワークに多様体を組み込むことを提案する。 実験分析の結果,提案手法は相互関係型の部分表現を探索し,クラスタリング中に有用な特徴を抽出できることがわかった。 複数のデータセットから得られた結果から,提案手法が精度と効率の両面で最先端のマルチスペクトルデータクラスタリング手法を上回っていることが示された。

Clustering on the data with multiple aspects, such as multi-view or multi-type relational data, has become popular in recent years due to their wide applicability. The approach using manifold learning with the Non-negative Matrix Factorization (NMF) framework, that learns the accurate low-rank representation of the multi-dimensional data, has shown effectiveness. We propose to include the inter-manifold in the NMF framework, utilizing the distance information of data points of different data types (or views) to learn the diverse manifold for data clustering. Empirical analysis reveals that the proposed method can find partial representations of various interrelated types and select useful features during clustering. Results on several datasets demonstrate that the proposed method outperforms the state-of-the-art multi-aspect data clustering methods in both accuracy and efficiency.
翻訳日:2022-10-21 02:21:26 公開日:2020-09-07
# スマートカードデータを用いた地下鉄利用者の混雑予測

Crowding Prediction of In-Situ Metro Passengers Using Smart Card Data ( http://arxiv.org/abs/2009.02880v1 )

ライセンス: Link先を確認
Xiancai Tian, Chen Zhang, Baihua Zheng(参考訳) 地下鉄は都市公共交通網においてますます重要な役割を担い、市内の日々の空間に大量の人的流れを輸送している。 近年、地下鉄システムのサービス品質を向上させるための広範な研究が行われている。 その中でも、公共交通機関や鉄道事業者にとって、群衆管理は重要な問題となっている。 そこで本稿では,蓄積されたスマートカードデータを用いて,近接する各駅間における車内乗客数を,閉鎖型地下鉄システム内で予測する統計モデルを提案する。 提案するモデルは2つの主なタスクを実行する。 一 成熟した統計モデルを適用することにより、時間依存起因推定(OD)行列の予測 二 期待最大化(em)アルゴリズムによる正規混合分布の切断により、メトロネットワークの異なる部分で必要とされる走行時間コストの推定。 予測結果に基づいて,現在地における乗客密度の将来の予測を行うことができる。 シンガポール・マス・ラピッド・トランジット(MRT)システムにおける実際のスマートカードデータを用いたケーススタディでは,提案手法の有効性と有効性を示す。

The metro system is playing an increasingly important role in the urban public transit network, transferring a massive human flow across space everyday in the city. In recent years, extensive research studies have been conducted to improve the service quality of metro systems. Among them, crowd management has been a critical issue for both public transport agencies and train operators. In this paper, by utilizing accumulated smart card data, we propose a statistical model to predict in-situ passenger density, i.e., number of on-board passengers between any two neighbouring stations, inside a closed metro system. The proposed model performs two main tasks: i) forecasting time-dependent Origin-Destination (OD) matrix by applying mature statistical models; and ii) estimating the travel time cost required by different parts of the metro network via truncated normal mixture distributions with Expectation-Maximization (EM) algorithm. Based on the prediction results, we are able to provide accurate prediction of in-situ passenger density for a future time point. A case study using real smart card data in Singapore Mass Rapid Transit (MRT) system demonstrate the efficacy and efficiency of our proposed method.
翻訳日:2022-10-21 02:21:13 公開日:2020-09-07
# 局所部分空間の暗黙多次元射影

Implicit Multidimensional Projection of Local Subspaces ( http://arxiv.org/abs/2009.03259v1 )

ライセンス: Link先を確認
Rongzheng Bian, Yumeng Xue, Liang Zhou, Jian Zhang, Baoquan Chen, Daniel Weiskopf, Yunhai Wang(参考訳) 本研究では,多次元投影が局所部分空間に与える影響を暗黙の関数微分を用いて可視化する手法を提案する。 ここでは、局所部分空間をデータポイントの多次元局所近傍として理解する。 既存の手法は多次元データポイントの投影に重点を置いており、近隣情報は無視される。 本手法は,局所部分空間の形状と方向情報を解析し,局所構造を知覚することで,データの全体構造に関するさらなる洞察を得ることができる。 局所部分空間は基底ベクトルにまたがる多次元楕円体によって構成される。 暗黙関数として定式化された多次元射影の解析的微分に基づいて,高精度かつ効率的なベクトル変換法を提案する。 結果はグリフとして可視化され、効率的なWebベースの可視化ツールでサポートされている、特別に設計されたインタラクションの完全なセットを用いて分析される。 本手法の有用性を多次元および高次元ベンチマークデータセットを用いて実証した。 暗黙的微分ベクトル変換は数値比較により評価され, 探索例とユースケースを用いて総合的手法が評価された。

We propose a visualization method to understand the effect of multidimensional projection on local subspaces, using implicit function differentiation. Here, we understand the local subspace as the multidimensional local neighborhood of data points. Existing methods focus on the projection of multidimensional data points, and the neighborhood information is ignored. Our method is able to analyze the shape and directional information of the local subspace to gain more insights into the global structure of the data through the perception of local structures. Local subspaces are fitted by multidimensional ellipses that are spanned by basis vectors. An accurate and efficient vector transformation method is proposed based on analytical differentiation of multidimensional projections formulated as implicit functions. The results are visualized as glyphs and analyzed using a full set of specifically-designed interactions supported in our efficient web-based visualization tool. The usefulness of our method is demonstrated using various multi- and high-dimensional benchmark datasets. Our implicit differentiation vector transformation is evaluated through numerical comparisons; the overall method is evaluated through exploration examples and use cases.
翻訳日:2022-10-21 02:13:56 公開日:2020-09-07
# TorchKGE: PythonとPyTorchに埋め込まれた知識グラフ

TorchKGE: Knowledge Graph Embedding in Python and PyTorch ( http://arxiv.org/abs/2009.02963v1 )

ライセンス: Link先を確認
Armand Boschin(参考訳) TorchKGEは、PyTorchのみに依存する知識グラフ(KG)組み込みのためのPythonモジュールである。 このパッケージは、研究者とエンジニアに新しいモデルの設計とテストのためのクリーンで効率的なapiを提供する。 KGデータ構造、単純なモデルインターフェース、ネガティブサンプリングとモデル評価のためのモジュールを備えている。 その主な強みは、KG埋め込みの中心的な応用であるリンク予測タスクのための非常に高速な評価モジュールである。 様々なKG埋め込みモデルもすでに実装されている。 コード効率とシンプルさ、ドキュメント、API一貫性に特に注意が払われている。 BSDライセンスの下でPyPIを使って配布されている。 ソースコードとドキュメントとデプロイメントへのポインタはhttps://github.com/torchkge-team/torchkge.comにある。

TorchKGE is a Python module for knowledge graph (KG) embedding relying solely on PyTorch. This package provides researchers and engineers with a clean and efficient API to design and test new models. It features a KG data structure, simple model interfaces and modules for negative sampling and model evaluation. Its main strength is a very fast evaluation module for the link prediction task, a central application of KG embedding. Various KG embedding models are also already implemented. Special attention has been paid to code efficiency and simplicity, documentation and API consistency. It is distributed using PyPI under BSD license. Source code and pointers to documentation and deployment can be found at https://github.com/torchkge-team/torchkge.
翻訳日:2022-10-21 02:13:41 公開日:2020-09-07
# RLに基づく値誤り回復を用いたロバスト音声言語理解

Robust Spoken Language Understanding with RL-based Value Error Recovery ( http://arxiv.org/abs/2009.03095v1 )

ライセンス: Link先を確認
Chen Liu, Su Zhu, Lu Chen and Kai Yu(参考訳) Spoken Language Understanding (SLU) は、音声認識(ASR)の誤りに苦しむ音声認識テキストから構造化された意味表現(例えば、スロット値ペア)を抽出することを目的としている。 ASRエラーによる問題を緩和するために、以前の研究は音声認識されたテキストに入力適応を適用したり、発音において最も類似した候補を検索して予測値の正しいASRエラーを修正したりすることができる。 しかし、これら2つの方法は独立して適用される。 本研究では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。 このフレームワークはスロットタグモデルとルールベースの値エラー回復モジュールで構成される。 我々は、ASR仮説で言及されている潜在的なスロット値ペアを抽出し、既存の値エラー回復モジュールに適した適応されたスロットタグモデルを提案する。 値エラー回復後、洗練されたスロット値ペアとアノテーションを比較することで、監督信号(reward)を実現できる。 値誤差回復の操作は微分不可能であるため、政策勾配に基づく強化学習(RL)を用いてSLUモデルを最適化する。 パブリックCATSLUデータセットの大規模な実験により,提案手法の有効性が示され,SLUのロバスト性を向上し,ベースラインをかなりのマージンで上回る結果が得られた。

Spoken Language Understanding (SLU) aims to extract structured semantic representations (e.g., slot-value pairs) from speech recognized texts, which suffers from errors of Automatic Speech Recognition (ASR). To alleviate the problem caused by ASR-errors, previous works may apply input adaptations to the speech recognized texts, or correct ASR errors in predicted values by searching the most similar candidates in pronunciation. However, these two methods are applied separately and independently. In this work, we propose a new robust SLU framework to guide the SLU input adaptation with a rule-based value error recovery module. The framework consists of a slot tagging model and a rule-based value error recovery module. We pursue on an adapted slot tagging model which can extract potential slot-value pairs mentioned in ASR hypotheses and is suitable for the existing value error recovery module. After the value error recovery, we can achieve a supervision signal (reward) by comparing refined slot-value pairs with annotations. Since operations of the value error recovery are non-differentiable, we exploit policy gradient based Reinforcement Learning (RL) to optimize the SLU model. Extensive experiments on the public CATSLU dataset show the effectiveness of our proposed approach, which can improve the robustness of SLU and outperform the baselines by significant margins.
翻訳日:2022-10-21 02:13:32 公開日:2020-09-07
# SemEval-2020 Task 9におけるNLP-CIC:単純なディープラーニング分類器を用いたコードスイッチング言語における感情の分析

NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching language using a simple deep-learning classifier ( http://arxiv.org/abs/2009.03397v1 )

ライセンス: Link先を確認
Jason Angel, Segun Taofeek Aroyehun, Antonio Tamayo and Alexander Gelbukh(参考訳) コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。 今日では、ソーシャルメディアで混在する言語でメッセージを見つけることが一般的である。 この現象は感情分析の課題となる。 本稿では,標準畳み込みニューラルネットワークモデルを用いて,スペイン語と英語を混合したツイートの感情を予測する。 我々の単純なアプローチは、テストセットでのF1スコアが0.71に達した。 我々は最高のモデル機能を分析し、コードスイッチング環境で感情を分類する重要な困難を明らかにするためにエラー解析を行います。

Code-switching is a phenomenon in which two or more languages are used in the same message. Nowadays, it is quite common to find messages with languages mixed in social media. This phenomenon presents a challenge for sentiment analysis. In this paper, we use a standard convolutional neural network model to predict the sentiment of tweets in a blend of Spanish and English languages. Our simple approach achieved a F1-score of 0.71 on test set on the competition. We analyze our best model capabilities and perform error analysis to expose important difficulties for classifying sentiment in a code-switching setting.
翻訳日:2022-10-21 02:13:10 公開日:2020-09-07
# テキスト生成によるロバスト会話型AI

Robust Conversational AI with Grounded Text Generation ( http://arxiv.org/abs/2009.03457v1 )

ライセンス: Link先を確認
Jianfeng Gao, Baolin Peng, Chunyuan Li, Jinchao Li, Shahin Shayandeh, Lars Liden, Heung-Yeung Shum(参考訳) 本稿では,大規模タスクボットを構築するためのGTGモデルに基づくハイブリッドアプローチを提案する。 GTGは、大規模トランスフォーマーニューラルネットワークをバックボーンとして使用し、知識ベース推論と事前知識符号化のためのシンボル操作モジュールと組み合わせて、ダイアログの信念状態とタスク完了のための実世界の知識に基づく応答を生成するハイブリッドモデルである。 gtgは大量のテキストと人間の会話データに基づいて事前学習されており、幅広いタスクを完了するために微調整することができる。 ハイブリッドアプローチとその変種は、複数の研究チームによって同時に開発されている。 タスク指向のダイアログベンチマークで報告された主な結果は、このアプローチの大きな可能性を示している。 本稿では、この進歩の概要を述べ、堅牢な対話型AIシステムを構築するために組み込むことのできる関連手法と技術について論じる。

This article presents a hybrid approach based on a Grounded Text Generation (GTG) model to building robust task bots at scale. GTG is a hybrid model which uses a large-scale Transformer neural network as its backbone, combined with symbol-manipulation modules for knowledge base inference and prior knowledge encoding, to generate responses grounded in dialog belief state and real-world knowledge for task completion. GTG is pre-trained on large amounts of raw text and human conversational data, and can be fine-tuned to complete a wide range of tasks. The hybrid approach and its variants are being developed simultaneously by multiple research teams. The primary results reported on task-oriented dialog benchmarks are very promising, demonstrating the big potential of this approach. This article provides an overview of this progress and discusses related methods and technologies that can be incorporated for building robust conversational AI systems.
翻訳日:2022-10-21 02:13:00 公開日:2020-09-07
# 深層学習と追跡に基づく非リジッド手術ツールのリアルタイム分割

Real-Time Segmentation of Non-Rigid Surgical Tools based on Deep Learning and Tracking ( http://arxiv.org/abs/2009.03016v1 )

ライセンス: Link先を確認
Luis C. Garc\'ia-Peraza-Herrera, Wenqi Li, Caspar Gruijthuijsen, Alain Devreker, George Attilakos, Jan Deprest, Emmanuel Vander Poorten, Danail Stoyanov, Tom Vercauteren, S\'ebastien Ourselin(参考訳) リアルタイムツールセグメンテーションはコンピュータ支援手術システムにおいて不可欠な要素である。 本稿では,FCN(Fully Convolutional Networks)と光フロートラッキングに基づく新しいリアルタイム自動手法を提案する。 本手法は, 深層ニューラルネットワークを用いて, 高速光流とともに, 変形性の高い部品の正確なセグメント化を実現する。 さらに、事前訓練されたFCNは、手作りの機能を必要とせずに、少量の医療画像に微調整することができる。 既存のベンチマーク・データセットと新しいベンチマーク・データセットを用いて,異なる手術器具を用いた実検例と生体内臨床例を比較検討した。 非リアルタイムとリアルタイムの2つのバージョンが提示される。 前者はディープラーニングのみを使用して、実際の臨床データセットで89.6%のバランスの取れた精度を達成し、芸術の(非リアルタイム)状態を3.8%上回る。 後者は、ディープラーニングとオプティカルフロートラッキングを組み合わせることで、検証済みデータセット全体の平均平衡精度が78.2%になる。

Real-time tool segmentation is an essential component in computer-assisted surgical systems. We propose a novel real-time automatic method based on Fully Convolutional Networks (FCN) and optical flow tracking. Our method exploits the ability of deep neural networks to produce accurate segmentations of highly deformable parts along with the high speed of optical flow. Furthermore, the pre-trained FCN can be fine-tuned on a small amount of medical images without the need to hand-craft features. We validated our method using existing and new benchmark datasets, covering both ex vivo and in vivo real clinical cases where different surgical instruments are employed. Two versions of the method are presented, non-real-time and real-time. The former, using only deep learning, achieves a balanced accuracy of 89.6% on a real clinical dataset, outperforming the (non-real-time) state of the art by 3.8% points. The latter, a combination of deep learning with optical flow tracking, yields an average balanced accuracy of 78.2% across all the validated datasets.
翻訳日:2022-10-21 02:12:05 公開日:2020-09-07
# プログレッシブ・バイラテラル・コンテキスト駆動型人物再同定モデル

Progressive Bilateral-Context Driven Model for Post-Processing Person Re-Identification ( http://arxiv.org/abs/2009.03098v1 )

ライセンス: Link先を確認
Min Cao, Chen Chen, Hao Dou, Xiyuan Hu, Silong Peng and Arjan Kuijper(参考訳) ほとんどの既存人物再同定法は、頑健な視覚特徴を抽出し、識別メトリックを学習することにより、ペアワイズ類似度を計算する。 視覚的曖昧さのため、両者の類似性に基づいてペア関係を決定するコンテンツベースの手法は、必然的に準最適ランキングを作成する。 その代わり、サンプルの豊富な文脈情報を探索することで、ペアワイズ類似度を基礎となるデータ多様体の測地路に沿ってより正確に推定することができる。 本稿では、サンプルと相手のコンテキストの関係を教師なしの方法で一括測度で決定する軽量な後処理者再識別手法を提案する。 我々は、ポイント・ツー・ポイント比較を両側のポイント・ツー・セット比較に変換する。 サンプルのコンテキストは、隣接するサンプルからなり、第1の順序コンテキストと第2の順序コンテキストという2つの異なる定義方法がある。 4つの大規模人物再識別ベンチマークデータセットを用いた実験により,(1) 提案手法は, コンテンツに基づく人物再識別手法の後に, 処理後の処理手順として一貫した精度を達成可能であること, (2) 提案手法は, 1つのサンプルのランキング結果の最適化に約6ミリ秒を要すること, 高い効率性を示す。 コードは、https://github.com/123ci/PBCmodelで入手できる。

Most existing person re-identification methods compute pairwise similarity by extracting robust visual features and learning the discriminative metric. Owing to visual ambiguities, these content-based methods that determine the pairwise relationship only based on the similarity between them, inevitably produce a suboptimal ranking list. Instead, the pairwise similarity can be estimated more accurately along the geodesic path of the underlying data manifold by exploring the rich contextual information of the sample. In this paper, we propose a lightweight post-processing person re-identification method in which the pairwise measure is determined by the relationship between the sample and the counterpart's context in an unsupervised way. We translate the point-to-point comparison into the bilateral point-to-set comparison. The sample's context is composed of its neighbor samples with two different definition ways: the first order context and the second order context, which are used to compute the pairwise similarity in sequence, resulting in a progressive post-processing model. The experiments on four large-scale person re-identification benchmark datasets indicate that (1) the proposed method can consistently achieve higher accuracies by serving as a post-processing procedure after the content-based person re-identification methods, showing its state-of-the-art results, (2) the proposed lightweight method only needs about 6 milliseconds for optimizing the ranking results of one sample, showing its high-efficiency. Code is available at: https://github.com/123ci/PBCmodel.
翻訳日:2022-10-21 02:11:47 公開日:2020-09-07
# 自動定理証明のための生成言語モデリング

Generative Language Modeling for Automated Theorem Proving ( http://arxiv.org/abs/2009.03393v1 )

ライセンス: Link先を確認
Stanislas Polu, Ilya Sutskever(参考訳) 自動定理証明への変換言語モデルの適用について検討する。 この研究は、人間に対する自動定理プローバーの大きな制限、すなわち元の数学的用語の生成が言語モデルから生成することで対処できる可能性によって動機づけられている。 本稿ではメタマス形式化言語のための自動証明と証明アシスタント GPT-f を提案し,その性能解析を行う。 GPT-fは、メタマス図書館に受け入れられた新しい短い証明を発見したが、これは私たちの知る限り、ディープラーニングベースのシステムが初めて、公式な数学コミュニティによって採用された証明に寄与した。

We explore the application of transformer-based language models to automated theorem proving. This work is motivated by the possibility that a major limitation of automated theorem provers compared to humans -- the generation of original mathematical terms -- might be addressable via generation from language models. We present an automated prover and proof assistant, GPT-f, for the Metamath formalization language, and analyze its performance. GPT-f found new short proofs that were accepted into the main Metamath library, which is to our knowledge, the first time a deep-learning based system has contributed proofs that were adopted by a formal mathematics community.
翻訳日:2022-10-21 02:04:53 公開日:2020-09-07
# 文コヒーレンス目標による言語生成の改善

Improving Language Generation with Sentence Coherence Objective ( http://arxiv.org/abs/2009.06358v1 )

ライセンス: Link先を確認
Ruixiao Sun, Jie Yang, Mehrdad Yousefzadeh(参考訳) 条件付きストーリー生成と文脈テキスト継続は、NLPコミュニティでますます人気が高まっている。 既存のモデルは、与えられたプロンプトから徐々に逸脱するテキストの段落を出力する傾向がある。 生成されたテキストは合理的なパープレキシティと多様性を持っているかもしれないが、人間によって簡単にギブベリッシュと識別できる。 私たちのプロジェクトの目標は、言語生成モデルにおける文間の一貫性と一貫性を改善することです。 本稿では,まずGPT-2事前学習モデルを用いて文対コヒーレンス分類器を訓練し,次にREINFORCEアルゴリズムに類似した手法を用いて,新たなコヒーレンス目標を用いてGPT-2言語モデルを訓練する。 この微調整された言語モデルは、あまり分岐することなく、あるトピックで条件付けられた長い段落を生成することができる。 このモデルの単純さは、事前訓練されたモデルの最終層だけを変更するため、様々な基礎となる言語モデルアーキテクチャに適用することができる。

Conditional story generation and contextual text continuation have become increasingly popular topics in NLP community. Existing models are often prone to output paragraphs of texts that gradually diverge from the given prompt. Although the generated text may have a reasonable perplexity and diversity, it could easily be identified by human as gibberish. The goal of our project is to improve the coherence and consistency across sentences in a language-generation model. We aim to solve this issue by first training a sentence pair coherence classifier with GPT-2 pretrained model, and then co-train the GPT-2 language model with this new coherence objective using a method analogous to the REINFORCE algorithm. This fine-tuned language model is able to generate lengthy paragraph conditioned on a given topic without diverging too much. The simplicity of this model allows it to be applicable to a variety of underlying language model architecture since it only modifies the final layer of the pre-trained model.
翻訳日:2022-10-21 02:04:07 公開日:2020-09-07
# 重み付きl1ボールへの効率的な投影アルゴリズム

Efficient Projection Algorithms onto the Weighted l1 Ball ( http://arxiv.org/abs/2009.02980v1 )

ライセンス: Link先を確認
Guillaume Perez, Sebastian Ament, Carla Gomes, Michel Barlaud(参考訳) 予測勾配降下は、多くの最適化や機械学習問題において効率的であることが証明されている。 重み付き$\ell_1$ボールはスパースシステムの識別と特徴選択に有効であることが示されている。 本稿では,有限長ベクトルを重み付き$\ell_1$球に射影する3つの新しいアルゴリズムを提案する。 最初の2つのアルゴリズムは、線形最悪のケースの複雑さを持つ。 第3のケースは、実際には競争の激しいパフォーマンスですが、最悪のケースは二次的な複雑さがあります。 これらのアルゴリズムは,圧縮センシングや特徴選択といった予測勾配勾配に基づく機械学習手法の効率的なツールである。 重み付き投影に効率的な圧縮センシングアルゴリズムを適用することで,この効果を示す。 超大規模ベクトルを用いたベンチマークによる新しいアルゴリズムの有効性を実証する。 例えば、Intel I7 3世代では10^7$のベクトルを投影するのに8ミリ秒しか必要としない。

Projected gradient descent has been proved efficient in many optimization and machine learning problems. The weighted $\ell_1$ ball has been shown effective in sparse system identification and features selection. In this paper we propose three new efficient algorithms for projecting any vector of finite length onto the weighted $\ell_1$ ball. The first two algorithms have a linear worst case complexity. The third one has a highly competitive performances in practice but the worst case has a quadratic complexity. These new algorithms are efficient tools for machine learning methods based on projected gradient descent such as compress sensing, feature selection. We illustrate this effectiveness by adapting an efficient compress sensing algorithm to weighted projections. We demonstrate the efficiency of our new algorithms on benchmarks using very large vectors. For instance, it requires only 8 ms, on an Intel I7 3rd generation, for projecting vectors of size $10^7$.
翻訳日:2022-10-21 02:03:50 公開日:2020-09-07
# 常用量VAE:深部潜伏変数モデルにおける順序値コンテンツ係数の分離

Ordinal-Content VAE: Isolating Ordinal-Valued Content Factors in Deep Latent Variable Models ( http://arxiv.org/abs/2009.03034v1 )

ライセンス: Link先を確認
Minyoung Kim and Vladimir Pavlovic(参考訳) 深層表現学習では、特定の因子("em content} と呼ばれる)を他の要因("em style" と呼ばれる)から分離することがしばしば望まれる。 コンテンツを構成するものは通常、データ内の明示的なラベルを通してユーザによって指定されるが、ラベルなし/未知の要素はすべてスタイルとみなされる。 近年,コンテンツラベル付きデータは,スタイルとコンテンツが潜在表現で十分に分離するように,深い潜在因子モデル(例えばvae)を変更することで効果的に活用できることが示されている。 しかし、このアプローチでは、コンテンツファクタがカテゴリ値である(例えば、顔画像データのサブジェクトidやmnistデータセットのデジットクラス)と仮定している。 ある状況では、コンテンツは順序値であり、すなわち、コンテンツ要素が取る値はカテゴリーではなく「em順序」であり、コンテンツラベルvaeは、彼らが推測する潜在空間を含む、準最適である。 本稿では、コンテンツ潜在空間に部分的に順序付けられた集合(配置)構造を課し、同時に順序付きコンテンツ値に整合させるVAEの新規拡張を提案する。 この目的のために, 条件付きガウス間隔前モデルを導入することにより, 条件付きガウス間隔前モデルを導入する。 このモデルは、トラクタブルな合同ガウス的先行性を認め、また、ポーズ制約に違反するコンテンツ潜在構成に無視可能な密度値を効果的に配置する。 このモデルを評価するために, 被験者の年齢を顔画像で推定し, 食事画像におけるカロリー量を明らかにするという, 特定の順序構造の問題を考える。 従来の非順序的アプローチに比べて,コンテンツスタイルの分離が著しく改善されている。

In deep representational learning, it is often desired to isolate a particular factor (termed {\em content}) from other factors (referred to as {\em style}). What constitutes the content is typically specified by users through explicit labels in the data, while all unlabeled/unknown factors are regarded as style. Recently, it has been shown that such content-labeled data can be effectively exploited by modifying the deep latent factor models (e.g., VAE) such that the style and content are well separated in the latent representations. However, the approach assumes that the content factor is categorical-valued (e.g., subject ID in face image data, or digit class in the MNIST dataset). In certain situations, the content is ordinal-valued, that is, the values the content factor takes are {\em ordered} rather than categorical, making content-labeled VAEs, including the latent space they infer, suboptimal. In this paper, we propose a novel extension of VAE that imposes a partially ordered set (poset) structure in the content latent space, while simultaneously making it aligned with the ordinal content values. To this end, instead of the iid Gaussian latent prior adopted in prior approaches, we introduce a conditional Gaussian spacing prior model. This model admits a tractable joint Gaussian prior, but also effectively places negligible density values on the content latent configurations that violate the poset constraint. To evaluate this model, we consider two specific ordinal structured problems: estimating a subject's age in a face image and elucidating the calorie amount in a food meal image. We demonstrate significant improvements in content-style separation over previous non-ordinal approaches.
翻訳日:2022-10-21 02:03:39 公開日:2020-09-07
# R'enyi最小化による不偏表現の学習

Learning Unbiased Representations via R\'enyi Minimization ( http://arxiv.org/abs/2009.03183v1 )

ライセンス: Link先を確認
Vincent Grari, Oualid El Hajouji, Sylvain Lamprier, Marcin Detyniecki(参考訳) 近年,機械学習アルゴリズムの学習目標に公正性制約を含む重要な研究が行われている。 本稿では,すべての関連する情報を収集して出力yを予測するフェア表現を学習し,感度の高い属性sに関する情報を含まないアルゴリズムを提案する。 本研究では,ディープニューラルネットワーク変換を学習し,ミンマックスゲームとして多次元潜在表現における内在バイアスをペナルティ化することにより,この係数を推定する最近の研究を活用する。 他の依存測度と比較すると、hgr係数は敏感な変数との非線形依存関係に関するより多くの情報をキャプチャし、アルゴリズムが表現のバイアスを緩和するのをより効率的にする。 我々は、我々のアプローチを実証的に評価し、比較し、この分野における既存の作業よりも大幅に改善したことを示す。

In recent years, significant work has been done to include fairness constraints in the training objective of machine learning algorithms. Many state-of the-art algorithms tackle this challenge by learning a fair representation which captures all the relevant information to predict the output Y while not containing any information about a sensitive attribute S. In this paper, we propose an adversarial algorithm to learn unbiased representations via the Hirschfeld-Gebelein-Renyi (HGR) maximal correlation coefficient. We leverage recent work which has been done to estimate this coefficient by learning deep neural network transformations and use it as a minmax game to penalize the intrinsic bias in a multi dimensional latent representation. Compared to other dependence measures, the HGR coefficient captures more information about the non-linear dependencies with the sensitive variable, making the algorithm more efficient in mitigating bias in the representation. We empirically evaluate and compare our approach and demonstrate significant improvements over existing works in the field.
翻訳日:2022-10-21 02:03:09 公開日:2020-09-07
# よりリアルなポイントゴールナビゲーションエージェントのためのEgocentric Localizationの統合

Integrating Egocentric Localization for More Realistic Point-Goal Navigation Agents ( http://arxiv.org/abs/2009.03231v1 )

ライセンス: Link先を確認
Samyak Datta, Oleksandr Maksymets, Judy Hoffman, Stefan Lee, Dhruv Batra, Devi Parikh(参考訳) 近年の研究では、新しい屋内環境において、ほぼ完璧な精度でポイントゴール目標まで移動可能なエンボディエージェントが紹介されている。 しかし、これらのエージェントは、局所化と決定論的行動を取るための理想的なセンサーを備えている。 この設定は、現実のノイズの多いセンサーやアクティベーションの汚れた現実と比較すると、実質的に不安定だ。車輪が滑り、モーションセンサーがエラー、アクティベーションがリバウンドする。 本研究では,このノイズの多い現実に向けて一歩を踏み出し,ノイズの多い行動ダイナミクス下での自我の視覚的な推定に依存するポイントゴーアのナビゲーションエージェントを開発した。 これらのエージェントは、古典的な局所化ベースラインを組み込んだエージェントと同様に、現在のポイントゴールエージェントの自然な適応よりも優れている。 さらに,本モデルでは,学習エージェントのダイナミックスやオドメトリー(私はどこにいるのか)を,タスク固有のナビゲーションポリシー(どこへ行きたいのか? これにより、ナビゲーションポリシーの再トレーニングのコストを回避し、視覚計測モデルを再調整することで、ダイナミクス(異なるロボットやフロアタイプ)の変更にシームレスに適応することが可能になります。 私たちのエージェントはCVPR 2020 Habitat ChallengeのPointNavトラックのランナーでした。

Recent work has presented embodied agents that can navigate to point-goal targets in novel indoor environments with near-perfect accuracy. However, these agents are equipped with idealized sensors for localization and take deterministic actions. This setting is practically sterile by comparison to the dirty reality of noisy sensors and actuations in the real world -- wheels can slip, motion sensors have error, actuations can rebound. In this work, we take a step towards this noisy reality, developing point-goal navigation agents that rely on visual estimates of egomotion under noisy action dynamics. We find these agents outperform naive adaptions of current point-goal agents to this setting as well as those incorporating classic localization baselines. Further, our model conceptually divides learning agent dynamics or odometry (where am I?) from task-specific navigation policy (where do I want to go?). This enables a seamless adaption to changing dynamics (a different robot or floor type) by simply re-calibrating the visual odometry model -- circumventing the expense of re-training of the navigation policy. Our agent was the runner-up in the PointNav track of CVPR 2020 Habitat Challenge.
翻訳日:2022-10-21 02:02:40 公開日:2020-09-07