このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210126となっている論文です。

PDF登録状況(公開日: 20210126)

TitleAuthorsAbstract論文公表日・翻訳日
# 軌道多項式正則化による連続正規化流れの加速

Accelerating Continuous Normalizing Flow with Trajectory Polynomial Regularization ( http://arxiv.org/abs/2012.04228v2 )

ライセンス: Link先を確認
Han-Hsien Huang, Mi-Yen Yeh(参考訳) 本稿では,連続正規化フロー(CNF)の計算を効果的に高速化する手法を提案する。 通常の微分方程式(ODE)を解くために必要な関数評価(NFE)の数が非常に大きいため、CNFのトレーニング時間コストは非常に高い。 高いNFEは、ODEを解く際の大きなトランケーションエラーの結果であると考えられる。 この問題に対処するため,正規化を提案する。 正規化は、ODEの軌道とその適合した多項式回帰との差を罰する。 ODE の軌道は多項式関数に近似するので、トランケーション誤差は小さくなる。 さらに,2つの証明を提示し,追加の正規化がトレーニング品質に影響を与えないと主張する。 実験結果から,提案手法は密度推定タスクにおけるNFEの42.3%から71.3%,変分自動エンコーダにおけるNFEの19.3%から32.1%の低減を達成でき,試験損失は影響しないことがわかった。

In this paper, we propose an approach to effectively accelerating the computation of continuous normalizing flow (CNF), which has been proven to be a powerful tool for the tasks such as variational inference and density estimation. The training time cost of CNF can be extremely high because the required number of function evaluations (NFE) for solving corresponding ordinary differential equations (ODE) is very large. We think that the high NFE results from large truncation errors of solving ODEs. To address the problem, we propose to add a regularization. The regularization penalizes the difference between the trajectory of the ODE and its fitted polynomial regression. The trajectory of ODE will approximate a polynomial function, and thus the truncation error will be smaller. Furthermore, we provide two proofs and claim that the additional regularization does not harm training quality. Experimental results show that our proposed method can result in 42.3% to 71.3% reduction of NFE on the task of density estimation, and 19.3% to 32.1% reduction of NFE on variational auto-encoder, while the testing losses are not affected.
翻訳日:2021-05-16 21:45:39 公開日:2021-01-26
# 二重確率生成領域モデリング

Doubly Stochastic Generative Arrivals Modeling ( http://arxiv.org/abs/2012.13940v2 )

ライセンス: Link先を確認
Yufeng Zheng, Zeyu Zheng(参考訳) 本稿では,DS-WGANという新たなフレームワークを提案する。DS構造とWGAN(Warsserstein Generative Adversarial Network)を統合して,一般的な非定常およびランダムな到着率で,幅広い到着過程をモデル化し,推定し,シミュレートする。 統計特性に関しては,DS-WGAN フレームワークで解いた推定器の非パラメトリックな滑らかさ条件下での整合性と収束率を示す。 計算効率とトラクタビリティに関しては,シミュレータの不連続性から生じる勾配評価とモデル推定の課題に対処する。 そこで,DS-WGANフレームワークは,歴史と異なる将来のシナリオに対して,何時シミュレーションや予測シミュレーションを便利に行うことができることを示す。 DS-WGANの性能を示すために,合成および実データを用いた数値実験を行った。 性能は、統計学的観点と運用性能評価視点の両方から測定される。 数値実験により,DS-WGANのモデル推定は,操作管理の多くの点において魅力的でありながら,適度なデータのみを必要とすることが示唆された。

We propose a new framework named DS-WGAN that integrates the doubly stochastic (DS) structure and the Wasserstein generative adversarial networks (WGAN) to model, estimate, and simulate a wide class of arrival processes with general non-stationary and random arrival rates. Regarding statistical properties, we prove consistency and convergence rate for the estimator solved by the DS-WGAN framework under a non-parametric smoothness condition. Regarding computational efficiency and tractability, we address a challenge in gradient evaluation and model estimation, arised from the discontinuity in the simulator. We then show that the DS-WGAN framework can conveniently facilitate what-if simulation and predictive simulation for future scenarios that are different from the history. Numerical experiments with synthetic and real data sets are implemented to demonstrate the performance of DS-WGAN. The performance is measured from both a statistical perspective and an operational performance evaluation perspective. Numerical experiments suggest that, in terms of performance, the successful model estimation for DS-WGAN only requires a moderate size of representative data, which can be appealing in many contexts of operational management.
翻訳日:2021-04-24 20:13:54 公開日:2021-01-26
# (参考訳) 不確実性推定を用いた肝病変検出における偽陽性の軽減 [全文訳有]

Using uncertainty estimation to reduce false positives in liver lesion detection ( http://arxiv.org/abs/2101.04386v3 )

ライセンス: CC BY 4.0
Ishaan Bhat, Hugo J. Kuijf, Veronika Cheplygina and Josien P.W. Pluim(参考訳) 医学画像中の物体を検出する深層学習技術の成功にもかかわらず、偽陽性検出は正確な診断を妨げる可能性がある。 本稿では,ニューラルネットワーク予測の不確実性マップから抽出した特徴を学習したSVM分類器を用いて,ニューラルネットワークによる偽陽性検出を減らす手法を提案する。 腹部MR画像のデータセットにおける肝病変の検出に本法の有効性を実証する。 実験では, 降格率0.5はニューラルネットワークの予測において最小の偽陽性率を示し, 訓練された分類器はテストセットにおける偽陽性検出の約90%をフィルタリングする。

Despite the successes of deep learning techniques at detecting objects in medical images, false positive detections occur which may hinder an accurate diagnosis. We propose a technique to reduce false positive detections made by a neural network using an SVM classifier trained with features derived from the uncertainty map of the neural network prediction. We demonstrate the effectiveness of this method for the detection of liver lesions on a dataset of abdominal MR images. We find that the use of a dropout rate of 0.5 produces the least number of false positives in the neural network predictions and the trained classifier filters out approximately 90% of these false positives detections in the test-set.
翻訳日:2021-04-04 08:55:14 公開日:2021-01-26
# スパース双対アルゴリズムによる凸障壁のスケーリング

Scaling the Convex Barrier with Sparse Dual Algorithms ( http://arxiv.org/abs/2101.05844v2 )

ライセンス: Link先を確認
Alessandro De Palma, Harkirat Singh Behl, Rudy Bunel, Philip H.S. Torr, M. Pawan Kumar(参考訳) 厳密で効率的なニューラルネットワークバウンディングは、ニューラルネットワーク検証システムのスケーリングに不可欠である。 近年、多くの効率的な境界アルゴリズムが提示されているが、より難しい特性を検証するにはゆるすぎることが多い。 これは、通常ニューロン数に線形な大きさの線形プログラムである、使用済みの緩和の弱さによるものである。 分割線形活性化に対するより厳密な線形緩和が存在するが、指数関数的に多くの制約を伴い、現在効率的なカスタマイズされた解法が欠けている。 2つの新しい双対アルゴリズムを提案することにより、この欠陥を緩和する: 1つは、小さなアクティブな双対変数のセットで、もう1つは、Frank-Wolfe型オプティマイザの間隔を利用して、線形メモリコストのみを発生させる。 どちらの方法も新しい緩和の強さを回復する: 厳密さと線形分離オラクル。 同時に、大規模な並列処理、GPU実装、イテレーション当たりの低コスト、常に有効なバウンダリといった、緩和の弱さに対する、以前の2つのアプローチのメリットを共有している。 その結果,実行時間のほんの一部で,既定のソルバよりも優れた境界が得られるようになり,形式的な検証速度が向上した。

Tight and efficient neural network bounding is crucial to the scaling of neural network verification systems. Many efficient bounding algorithms have been presented recently, but they are often too loose to verify more challenging properties. This is due to the weakness of the employed relaxation, which is usually a linear program of size linear in the number of neurons. While a tighter linear relaxation for piecewise-linear activations exists, it comes at the cost of exponentially many constraints and currently lacks an efficient customized solver. We alleviate this deficiency by presenting two novel dual algorithms: one operates a subgradient method on a small active set of dual variables, the other exploits the sparsity of Frank-Wolfe type optimizers to incur only a linear memory cost. Both methods recover the strengths of the new relaxation: tightness and a linear separation oracle. At the same time, they share the benefits of previous dual approaches for weaker relaxations: massive parallelism, GPU implementation, low cost per iteration and valid bounds at any time. As a consequence, we can obtain better bounds than off-the-shelf solvers in only a fraction of their running time, attaining significant formal verification speed-ups.
翻訳日:2021-03-29 00:48:40 公開日:2021-01-26
# 格子分布からサンプルを得るためのmcmc法

An MCMC Method to Sample from Lattice Distributions ( http://arxiv.org/abs/2101.06453v2 )

ライセンス: Link先を確認
Anand Jerry George, Navin Kashyap(参考訳) 我々はMarkov Chain Monte Carlo (MCMC)アルゴリズムを導入し、$d$次元格子$\Lambda = \mathbf{B}\mathbb{Z}^d$でサポートされている確率分布からサンプルを生成する。 特に、格子分布 $p_\lambda$ を考えると、格子点の確率は与えられた確率密度関数 $f$ に比例する。 P_\Lambda$からサンプルを生成するには、整数格子上で定義されたプルバック測度$P_{\mathbb{Z}^d}$からサンプルを引き出すだけでよい。 P_{\mathbb{Z}^d}$ の整数格子点の確率は、密度関数 $\pi = |\det(\mathbf{B})|f\circ \mathbf{B}$ に比例する。 The algorithm present in this paper for sample from $P_{\mathbb{Z}^d}$ is based on the Metropolis-Hastings framework。 特に,提案分布として$\pi$を用い,高利率の目標分布に対するメトロポリス・ヘイスティングの受容率を計算する。 alg で表される任意の方法で、理想的には確率密度 $\pi$ からサンプルを引き出して提案状態を生成することができる。 対象分布は、対象分布から引き出されたサンプルの座標方向の丸めが、$P_{\mathbb{Z}^d}$のサンプルを与えるように選択された一方向のシグモダル分布である。 ALGが理想であるとき、我々のアルゴリズムが一様エルゴディックであることを示し、$-\log(\pi)$が勾配リプシッツ条件を満たす。

We introduce a Markov Chain Monte Carlo (MCMC) algorithm to generate samples from probability distributions supported on a $d$-dimensional lattice $\Lambda = \mathbf{B}\mathbb{Z}^d$, where $\mathbf{B}$ is a full-rank matrix. Specifically, we consider lattice distributions $P_\Lambda$ in which the probability at a lattice point is proportional to a given probability density function, $f$, evaluated at that point. To generate samples from $P_\Lambda$, it suffices to draw samples from a pull-back measure $P_{\mathbb{Z}^d}$ defined on the integer lattice. The probability of an integer lattice point under $P_{\mathbb{Z}^d}$ is proportional to the density function $\pi = |\det(\mathbf{B})|f\circ \mathbf{B}$. The algorithm we present in this paper for sampling from $P_{\mathbb{Z}^d}$ is based on the Metropolis-Hastings framework. In particular, we use $\pi$ as the proposal distribution and calculate the Metropolis-Hastings acceptance ratio for a well-chosen target distribution. We can use any method, denoted by ALG, that ideally draws samples from the probability density $\pi$, to generate a proposed state. The target distribution is a piecewise sigmoidal distribution, chosen such that the coordinate-wise rounding of a sample drawn from the target distribution gives a sample from $P_{\mathbb{Z}^d}$. When ALG is ideal, we show that our algorithm is uniformly ergodic if $-\log(\pi)$ satisfies a gradient Lipschitz condition.
翻訳日:2021-03-28 04:27:21 公開日:2021-01-26
# (参考訳) 自動運転におけるマルチセンサ知覚システムの対向ロバスト性探索 [全文訳有]

Exploring Adversarial Robustness of Multi-Sensor Perception Systems in Self Driving ( http://arxiv.org/abs/2101.06784v2 )

ライセンス: CC BY 4.0
James Tu, Huichen Li, Xinchen Yan, Mengye Ren, Yun Chen, Ming Liang, Eilyan Bitar, Ersin Yumer, Raquel Urtasun(参考訳) 現代の自動運転認識システムは、LiDARのような補完的な入力を画像処理することで改善されている。 孤立して、2D画像は敵の攻撃に対して極めて脆弱であることが判明した。 しかし、lidarの特徴と画像特徴を融合するマルチモーダルモデルの敵対的ロバスト性に関する研究は限られている。 さらに、既存の研究は入力モード間で整合性を持つ物理的に実現可能な摂動を考慮しない。 本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。 我々は、物理的に実現可能で入力に依存しない攻撃に焦点を合わせ、単一の普遍的な敵が最先端のマルチモーダル検出器から異なるホスト車両を隠せることを示す。 実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。 さらに, 画像特徴を3次元に投影する現代のセンサ融合法では, 敵攻撃は投射過程を利用して3次元の遠方領域に偽陽性を発生させることができる。 よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。 しかし,3次元LiDAR点と2次元画素間の不正確な関連によってもたらされる偽陽性の予防には,標準的な対人防御が依然として苦戦していることがわかった。

Modern self-driving perception systems have been shown to improve upon processing complementary inputs such as LiDAR with images. In isolation, 2D images have been found to be extremely vulnerable to adversarial attacks. Yet, there have been limited studies on the adversarial robustness of multi-modal models that fuse LiDAR features with image features. Furthermore, existing works do not consider physically realizable perturbations that are consistent across the input modalities. In this paper, we showcase practical susceptibilities of multi-sensor detection by placing an adversarial object on top of a host vehicle. We focus on physically realizable and input-agnostic attacks as they are feasible to execute in practice, and show that a single universal adversary can hide different host vehicles from state-of-the-art multi-modal detectors. Our experiments demonstrate that successful attacks are primarily caused by easily corrupted image features. Furthermore, we find that in modern sensor fusion methods which project image features into 3D, adversarial attacks can exploit the projection process to generate false positives across distant regions in 3D. Towards more robust multi-modal perception systems, we show that adversarial training with feature denoising can boost robustness to such attacks significantly. However, we find that standard adversarial defenses still struggle to prevent false positives which are also caused by inaccurate associations between 3D LiDAR points and 2D pixels.
翻訳日:2021-03-27 20:44:27 公開日:2021-01-26
# (参考訳) HyperNTF: 次元化のためのハイパーグラフ正規化非負テンソル因子化 [全文訳有]

HyperNTF: A Hypergraph Regularized Nonnegative Tensor Factorization for Dimensionality Reduction ( http://arxiv.org/abs/2101.06827v2 )

ライセンス: CC BY-SA 4.0
Wanguang Yin, Zhengming Ma, Quanying Liu(参考訳) 次元還元のほとんどの方法はテンソル表現または局所幾何学学習に基づいている。 しかしながら、テンソルに基づく手法は、高次元データにおける大域的・多線型構造の仮定に強く依存しており、多様体学習法はサンプル問題に苦しむ。 本稿では、テンソル分解と多様体学習を橋渡しし、ハイパーグラフ正則化非負のテンソル因子分解(hyperntf)と呼ばれる新しい手法を提案する。 HyperNTFはテンソル因子化における非負性を保つことができ、最も近い地区間の高次関係を明らかにする。 HyperNTFによるクラスタリング解析は、計算コストとストレージコストが低い。 4つの合成データに関する実験は、曲線多様体を展開する高次相関を明らかにする際にハイパーグラフの望ましい性質を示す。 さらに,6つの実データセットに対する数値実験から,hyperntfはクラスタリング解析において最先端アルゴリズムよりも頑健に優れることが示唆された。

Most methods for dimensionality reduction are based on either tensor representation or local geometry learning. However, the tensor-based methods severely rely on the assumption of global and multilinear structures in high-dimensional data; and the manifold learning methods suffer from the out-of-sample problem. In this paper, bridging the tensor decomposition and manifold learning, we propose a novel method, called Hypergraph Regularized Nonnegative Tensor Factorization (HyperNTF). HyperNTF can preserve nonnegativity in tensor factorization, and uncover the higher-order relationship among the nearest neighborhoods. Clustering analysis with HyperNTF has low computation and storage costs. The experiments on four synthetic data show a desirable property of hypergraph in uncovering the high-order correlation to unfold the curved manifolds. Moreover, the numerical experiments on six real datasets suggest that HyperNTF robustly outperforms state-of-the-art algorithms in clustering analysis.
翻訳日:2021-03-27 18:58:07 公開日:2021-01-26
# glocalx --black box aiモデルのローカルからグローバルへの説明

GLocalX -- From Local to Global Explanations of Black Box AI Models ( http://arxiv.org/abs/2101.07685v2 )

ライセンス: Link先を確認
Mattia Setzu, Riccardo Guidotti, Anna Monreale, Franco Turini, Dino Pedreschi, Fosca Giannotti(参考訳) 人工知能(AI)は、私たちの社会の主要な構成要素の1つとして、私たちの生活のほとんどに応用されている。 この分野では、アンサンブルモデル、ディープニューラルネットワーク、Support Vector Machinesのような複雑で非線形な機械学習モデルが、複雑なタスクの解決において一貫して顕著な精度を示している。 正確ではあるが、AIモデルは理解できない「ブラックボックス」であることが多い。 これらのモデルに依存することは、多面的な影響をもたらし、透明性に関する大きな懸念を引き起こす。 感度および臨界領域の応用は、ブラックボックスの振る舞いを理解するための強い動機付け要因である。 我々は,ブラックボックスモデル上に解釈可能な層を提供し,局所的な説明を集約することでこの問題に対処することを提案する。 GLocalXは"ローカルファースト"モデルに依存しない説明法である。 局所的な決定規則の形で表現された局所的な説明から始まり、GLocalXはそれらを階層的に集約することでそれらをグローバルな説明に反復的に一般化する。 私たちのゴールは、与えられたブラックボックスをエミュレートする正確かつ単純な解釈可能なモデルを学び、可能であれば完全に置き換えることです。 我々はGLocalXを、データやローカルな説明に限定的、あるいは全くアクセスせずに、標準および制約された設定の一連の実験で検証する。 実験によると、GLocalXは複数のモデルをシンプルで小さなモデルで正確にエミュレートでき、ネイティブなグローバルなソリューションに対して最先端のパフォーマンスに達する。 本研究は,高次元データを持つ複雑な領域においても,必ずしも一方の属性を他方と交換することなく,分類モデルの精度と理解性を高いレベルで達成できることを示す。 これは信頼できるAIにとって重要な要件であり、高い意思決定アプリケーションの採用に必要なものだ。

Artificial Intelligence (AI) has come to prominence as one of the major components of our society, with applications in most aspects of our lives. In this field, complex and highly nonlinear machine learning models such as ensemble models, deep neural networks, and Support Vector Machines have consistently shown remarkable accuracy in solving complex tasks. Although accurate, AI models often are "black boxes" which we are not able to understand. Relying on these models has a multifaceted impact and raises significant concerns about their transparency. Applications in sensitive and critical domains are a strong motivational factor in trying to understand the behavior of black boxes. We propose to address this issue by providing an interpretable layer on top of black box models by aggregating "local" explanations. We present GLocalX, a "local-first" model agnostic explanation method. Starting from local explanations expressed in form of local decision rules, GLocalX iteratively generalizes them into global explanations by hierarchically aggregating them. Our goal is to learn accurate yet simple interpretable models to emulate the given black box, and, if possible, replace it entirely. We validate GLocalX in a set of experiments in standard and constrained settings with limited or no access to either data or local explanations. Experiments show that GLocalX is able to accurately emulate several models with simple and small models, reaching state-of-the-art performance against natively global solutions. Our findings show how it is often possible to achieve a high level of both accuracy and comprehensibility of classification models, even in complex domains with high-dimensional data, without necessarily trading one property for the other. This is a key requirement for a trustworthy AI, necessary for adoption in high-stakes decision making applications.
翻訳日:2021-03-22 11:31:03 公開日:2021-01-26
# COVID-Net CT-2: 胸部CT画像からより大きく、より多様な学習を通してウイルスを検出するためのディープニューラルネットワーク

COVID-Net CT-2: Enhanced Deep Neural Networks for Detection of COVID-19 from Chest CT Images Through Bigger, More Diverse Learning ( http://arxiv.org/abs/2101.07433v2 )

ライセンス: Link先を確認
Hayden Gunraj, Ali Sabri, David Koff, and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは引き続き激化しており、複数の波が世界中の健康や経済に大きな打撃を与えている。 RT-PCR検査に有効な補完的スクリーニング法として,世界中の臨床施設でCTイメージングを応用して,オープンソースのCOVID-Netイニシアチブの一環として,胸部CT画像から新型コロナウイルスの検出に適したニューラルネットワークであるCOVID-Net CTを導入した。 しかしながら、1つの潜在的な制限要因は、単一国の患者コホートが使用した量と多様性である。 本研究では,研究論文における多国籍患者の最大量および多様性を訓練した胸部CT画像から,深部神経ネットワークを増強したCOVID-Net CT-2を導入する。 我々は,少なくとも15か国から4,501人の患者からなる多国籍コホートを含む2つのctベンチマークデータセットを紹介する。 当院で10年以上経験した放射線科医2名による検査・報告の結果をもとに,ct-2の意思決定行動について,説明可能性を活用して検討を行った。 COVID-Net CT-2ニューラルネットワークは、それぞれ98.1%/96.2%/96.7%/99 %/98.8%、97.9%/95.7%/96.4%/98 .9%/98.7%の精度を達成した。 説明可能性によるパフォーマンス検証は、COVID-Net CT-2の判定行動が、正しい臨床的に重要な要因を活用することで、放射線学の解釈と一致していることを示している。 結果は有望であり、コンピュータ支援型COVID-19アセスメントの有効なツールとして、ディープニューラルネットワークの強い可能性を示唆している。 プロダクション対応のソリューションではないが、COVID-Net CT-2とベンチマークデータセットのオープンソースリリースにより、研究者、臨床医、市民データサイエンティストがそれらの上に構築できることを期待している。

The COVID-19 pandemic continues to rage on, with multiple waves causing substantial harm to health and economies around the world. Motivated by the use of CT imaging at clinical institutes around the world as an effective complementary screening method to RT-PCR testing, we introduced COVID-Net CT, a neural network tailored for detection of COVID-19 cases from chest CT images as part of the open source COVID-Net initiative. However, one potential limiting factor is restricted quantity and diversity given the single nation patient cohort used. In this study, we introduce COVID-Net CT-2, enhanced deep neural networks for COVID-19 detection from chest CT images trained on the largest quantity and diversity of multinational patient cases in research literature. We introduce two new CT benchmark datasets, the largest comprising a multinational cohort of 4,501 patients from at least 15 countries. We leverage explainability to investigate the decision-making behaviour of COVID-Net CT-2, with the results for select cases reviewed and reported on by two board-certified radiologists with over 10 and 30 years of experience, respectively. The COVID-Net CT-2 neural networks achieved accuracy, COVID-19 sensitivity, PPV, specificity, and NPV of 98.1%/96.2%/96.7%/99 %/98.8% and 97.9%/95.7%/96.4%/98 .9%/98.7%, respectively. Explainability-drive n performance validation shows that COVID-Net CT-2's decision-making behaviour is consistent with radiologist interpretation by leveraging correct, clinically relevant critical factors. The results are promising and suggest the strong potential of deep neural networks as an effective tool for computer-aided COVID-19 assessment. While not a production-ready solution, we hope the open-source, open-access release of COVID-Net CT-2 and benchmark datasets will continue to enable researchers, clinicians, and citizen data scientists alike to build upon them.
翻訳日:2021-03-22 11:25:50 公開日:2021-01-26
# (参考訳) 特徴抽出と分類のためのリーマン型判別分析 [全文訳有]

Riemannian-based Discriminant Analysis for Feature Extraction and Classification ( http://arxiv.org/abs/2101.08032v2 )

ライセンス: CC BY-SA 4.0
Wanguang Yin, Zhengming Ma, Quanying Liu(参考訳) 判別分析は、高次元データから低次元特徴を抽出する機械学習において広く用いられる手法として、フィッシャー判別基準を適用して直交的判別射影部分空間を求める。 しかし、判別分析のためのユークリッドに基づくアルゴリズムのほとんどは、急激な局所ミニマに容易に収束し、ユニークな解を得ることができない。 そこで本研究では,従来のユークリッド型手法をリーマン多様体空間に変換する,リーマン型判別解析(rda)という新しい手法を提案する。 RDAでは、信頼領域法の第2次幾何学を用いて識別基準を学習する。 RDAの効率性と有効性を検証するため,画像分類タスクについて様々な実験を行った。 その結果、RDAは統計的に重要な特徴を抽出し、分類タスクにおける最先端のアルゴリズムより頑健に優れていることが示唆された。

Discriminant analysis, as a widely used approach in machine learning to extract low-dimensional features from the high-dimensional data, applies the Fisher discriminant criterion to find the orthogonal discriminant projection subspace. But most of the Euclidean-based algorithms for discriminant analysis are easily convergent to a spurious local minima and hardly obtain an unique solution. To address such problem, in this study we propose a novel method named Riemannian-based Discriminant Analysis (RDA), which transforms the traditional Euclidean-based methods to the Riemannian manifold space. In RDA, the second-order geometry of trust-region methods is utilized to learn the discriminant bases. To validate the efficiency and effectiveness of RDA, we conduct a variety of experiments on image classification tasks. The numerical results suggest that RDA can extract statistically significant features and robustly outperform state-of-the-art algorithms in classification tasks.
翻訳日:2021-03-22 07:27:13 公開日:2021-01-26
# フェデレーションラーニングにおける間接的マルチ端末源符号化のレート領域

Rate Region for Indirect Multiterminal Source Coding in Federated Learning ( http://arxiv.org/abs/2101.08696v2 )

ライセンス: Link先を確認
Naifu Zhang, Meixia Tao and Jia Wang(参考訳) フェデレーション学習(federated learning, fl)では,多数のエッジデバイスがモデルトレーニングの各ラウンドのエッジサーバに更新を送信するため,通信効率が重視される。 既存の作業は、エッジデバイスから各モデルの更新を再構築し、ローカルモデルの更新がエッジデバイス上で独立していることを暗黙的に仮定する。 しかしflでは、モデル更新は間接的なマルチターミナルソース符号化問題であり、各エッジデバイスはデコーダで再構成されるソースを直接観察することはできないが、ノイズの多いバージョンのみを提供する。 既存の作品は異なるエッジによって送信される情報の冗長性を利用しない。 本稿では,FLにおける間接的マルチ端末ソース符号化問題に対するレート領域について検討する。 目標は、勾配分散の特定の上限における最小到達率を得ることである。 一般の場合において複数のエッジデバイスに対するレート領域を求め、エッジデバイスとディメンジョンの勾配が同一である特別な場合において、サムレート歪み関数の明示的な公式を導出する。 最後に, コンベックスミニバッチsgdと非コンベックスミニバッチsgdの通信効率を, 合計レート歪関数に基づいて解析する。

One of the main focus in federated learning (FL) is the communication efficiency since a large number of participating edge devices send their updates to the edge server at each round of the model training. Existing works reconstruct each model update from edge devices and implicitly assume that the local model updates are independent over edge device. In FL, however, the model update is an indirect multi-terminal source coding problem where each edge device cannot observe directly the source that is to be reconstructed at the decoder, but is rather provided only with a noisy version. The existing works do not leverage the redundancy in the information transmitted by different edges. This paper studies the rate region for the indirect multiterminal source coding problem in FL. The goal is to obtain the minimum achievable rate at a particular upper bound of gradient variance. We obtain the rate region for multiple edge devices in general case and derive an explicit formula of the sum-rate distortion function in the special case where gradient are identical over edge device and dimension. Finally, we analysis communication efficiency of convex Mini-batched SGD and non-convex Minibatched SGD based on the sum-rate distortion function, respectively.
翻訳日:2021-03-21 08:02:12 公開日:2021-01-26
# (参考訳) 機械学習分類器を用いた自閉症スペクトラム障害の予測 [全文訳有]

Predicting Autism Spectrum Disorder Using Machine Learning Classifiers ( http://arxiv.org/abs/2101.09279v2 )

ライセンス: CC BY 4.0
Koushik Chowdhury, Mir Ahmad Iraj(参考訳) 自閉症スペクトラム障害(ASD)は増加傾向にあり、常に成長している。 ASDを最も良い結果で識別することは、適切な看護によって安全で健康な人を可能にする。 人間は初発症状を測定することで、asdの現況と段階をほとんど推定できない。 したがって、asdの最良の結果と測定を提供する方法を開発する必要がある。 本稿では,複数の分類器に実装されたいくつかの測定値について述べる。 その中でも、サポートベクターマシン(svm)は最良の結果を提供し、svmではいくつかのカーネルも実行する。 その中でも、ガウスのラジアル核は最良の結果をもたらす。 提案した分類器は、公開標準のASDデータセットを用いて95%の精度を達成する。

Autism Spectrum Disorder (ASD) is on the rise and constantly growing. Earlier identify of ASD with the best outcome will allow someone to be safe and healthy by proper nursing. Humans can hardly estimate the present condition and stage of ASD by measuring primary symptoms. Therefore, it is being necessary to develop a method that will provide the best outcome and measurement of ASD. This paper aims to show several measurements that implemented in several classifiers. Among them, Support Vector Machine (SVM) provides the best result and under SVM, there are also some kernels to perform. Among them, the Gaussian Radial Kernel gives the best result. The proposed classifier achieves 95% accuracy using the publicly available standard ASD dataset.
翻訳日:2021-03-20 21:00:35 公開日:2021-01-26
# (参考訳) グラフニューラルネットワークのハイパーパラメータ最適化のための階層的評価戦略を用いた新しい遺伝的アルゴリズム [全文訳有]

A Novel Genetic Algorithm with Hierarchical Evaluation Strategy for Hyperparameter Optimisation of Graph Neural Networks ( http://arxiv.org/abs/2101.09300v2 )

ライセンス: CC BY 4.0
Yingfang Yuan and Wenjun Wang and George M. Coghill and Wei Pang(参考訳) 構造化データのグラフ表現は、立体視的特徴の抽出を容易にし、ディープラーニングシステム、いわゆるグラフニューラルネットワーク(GNN)を扱う際に優れた能力を示す。 GNNを構築するための有望なアーキテクチャを選択することは、探索空間のサイズと候補GNNを評価するための高い計算コストのために非常に困難な課題であるハイパーパラメータ最適化問題に移行することができる。 そこで本研究では, 階層的評価戦略(HESGA)を用いた遺伝的アルゴリズムを提案する。 完全な評価によって、GNNはハイパーパラメータ値のセットで表現され、指定されたデータセット上でトレーニングされ、ルート平均二乗誤差(RMSE)を使用して、(回帰問題のために)ハイパーパラメータ値のセットで表されるGNNの品質を測定する。 提案する高速評価プロセスでは,早期にトレーニングを中断するが,開始時間と中断時間の間のrmse値の差は,gnnの可能性を示唆する高速スコアとして使用される。 両評価のコーディネートを行うため,提案する階層戦略では,候補者を上位レベルに推薦するために,下位レベルにおける迅速な評価を用いて,エリートグループを維持するための最終評価者としての完全な評価を行う。 HESGAの有効性を検証するため、2種類のディープグラフニューラルネットワークを最適化する。 3つのベンチマークデータセットの実験結果は、ベイジアンハイパーパラメータ最適化と比較してその利点を示している。

Graph representation of structured data can facilitate the extraction of stereoscopic features, and it has demonstrated excellent ability when working with deep learning systems, the so-called Graph Neural Networks (GNNs). Choosing a promising architecture for constructing GNNs can be transferred to a hyperparameter optimisation problem, a very challenging task due to the size of the underlying search space and high computational cost for evaluating candidate GNNs. To address this issue, this research presents a novel genetic algorithm with a hierarchical evaluation strategy (HESGA), which combines the full evaluation of GNNs with a fast evaluation approach. By using full evaluation, a GNN is represented by a set of hyperparameter values and trained on a specified dataset, and root mean square error (RMSE) will be used to measure the quality of the GNN represented by the set of hyperparameter values (for regression problems). While in the proposed fast evaluation process, the training will be interrupted at an early stage, the difference of RMSE values between the starting and interrupted epochs will be used as a fast score, which implies the potential of the GNN being considered. To coordinate both types of evaluations, the proposed hierarchical strategy uses the fast evaluation in a lower level for recommending candidates to a higher level, where the full evaluation will act as a final assessor to maintain a group of elite individuals. To validate the effectiveness of HESGA, we apply it to optimise two types of deep graph neural networks. The experimental results on three benchmark datasets demonstrate its advantages compared to Bayesian hyperparameter optimization.
翻訳日:2021-03-20 20:31:06 公開日:2021-01-26
# (参考訳) 語彙意味変化検出における前・後処理がタイプベース埋め込みに及ぼす影響 [全文訳有]

Effects of Pre- and Post-Processing on type-based Embeddings in Lexical Semantic Change Detection ( http://arxiv.org/abs/2101.09368v2 )

ライセンス: CC BY 4.0
Jens Kaiser, Sinan Kurtyigit, Serge Kotchourko, Dominik Schlechtweg(参考訳) 語彙的意味変化検出は、新しく革新的な研究分野である。 事前処理や後処理を含むモデルの最適微調整はほとんど不明である。 i) 大規模コーパスの事前学習と, 悪名高い小データ問題に対処するダイアクロニックターゲットコーパスの精製, および (ii) 同期タスクの性能向上を目的とした後処理変換の適用により, 既存のモデルを最適化する。 本結果は,様々な学習シナリオを対象とした語彙意味変化検出モデルの適用と最適化のガイドを提供する。

Lexical semantic change detection is a new and innovative research field. The optimal fine-tuning of models including pre- and post-processing is largely unclear. We optimize existing models by (i) pre-training on large corpora and refining on diachronic target corpora tackling the notorious small data problem, and (ii) applying post-processing transformations that have been shown to improve performance on synchronic tasks. Our results provide a guide for the application and optimization of lexical semantic change detection models across various learning scenarios.
翻訳日:2021-03-20 18:18:13 公開日:2021-01-26
# プロセス予測のための最先端深層学習法に関する体系的文献レビュー

A systematic literature review on state-of-the-art deep learning methods for process prediction ( http://arxiv.org/abs/2101.09320v2 )

ライセンス: Link先を確認
Dominic A. Neu, Johannes Lahann and Peter Fettke(参考訳) プロセスマイニングは、ITシステムのデジタルトレースに基づくビジネスプロセスの再構築と評価を可能にする。 この文脈でますます重要なテクニックは、プロセス予測である。 進行中のトレースの一連のイベントが与えられた後、プロセス予測は今後のイベントやパフォーマンス測定を予測できる。 近年,様々なデータ処理手法と予測アルゴリズムを適用し,複数のプロセス予測手法が提案されている。 この研究は、機械学習の代替手段を一貫して上回っているように見えるため、ディープラーニングアルゴリズムに焦点を当てている。 共通の学習アルゴリズムを持つ一方で、異なるデータ前処理技術を使用し、様々なネットワークトポロジを実装し、結果予測、時間予測、制御フロー予測といった様々な目標に集中する。 さらに、著者が使用するログデータ、評価指標、ベースラインのセットが多様化し、結果の比較が困難になる。 本稿では,これらのアプローチにおける手続き決定の長所と短所を体系的な文献レビューによって合成することを試みる。

Process mining enables the reconstruction and evaluation of business processes based on digital traces in IT systems. An increasingly important technique in this context is process prediction. Given a sequence of events of an ongoing trace, process prediction allows forecasting upcoming events or performance measurements. In recent years, multiple process prediction approaches have been proposed, applying different data processing schemes and prediction algorithms. This study focuses on deep learning algorithms since they seem to outperform their machine learning alternatives consistently. Whilst having a common learning algorithm, they use different data preprocessing techniques, implement a variety of network topologies and focus on various goals such as outcome prediction, time prediction or control-flow prediction. Additionally, the set of log-data, evaluation metrics and baselines used by the authors diverge, making the results hard to compare. This paper attempts to synthesise the advantages and disadvantages of the procedural decisions in these approaches by conducting a systematic literature review.
翻訳日:2021-03-20 17:20:28 公開日:2021-01-26
# 適応型オンライン学習におけるテレビデオライジングの最適削減

An Optimal Reduction of TV-Denoising to Adaptive Online Learning ( http://arxiv.org/abs/2101.09438v2 )

ライセンス: Link先を確認
Dheeraj Baby and Xuandong Zhao and Yu-Xiang Wang(参考訳) 離散的トータル変分(TV)を$C_n$で有界とする$n$ノイズサンプルから関数を推定する問題を考察する。 我々は、Strongly Adaptive Online Learning(Daniely et al, 2015)の一見異なる問題との深い関係を明らかにし、O(n \log n)$ time algorithm を提供し、最小値の最大値である$\tilde O (n^{1/3}C_n^{2/3})$を2乗誤差損失下で達成する。 その結果得られるアルゴリズムはオンライン上で動作し、未知の滑らかさパラメータ$c_n$に最適適応する。 これにより、(1)テレビの有界関数を適応的に推定するwaveletsベースの方法、(2)時系列におけるテレビの有界トレンドのオンライン予測といった新しい、より汎用的な方法がもたらされる。

We consider the problem of estimating a function from $n$ noisy samples whose discrete Total Variation (TV) is bounded by $C_n$. We reveal a deep connection to the seemingly disparate problem of Strongly Adaptive online learning (Daniely et al, 2015) and provide an $O(n \log n)$ time algorithm that attains the near minimax optimal rate of $\tilde O (n^{1/3}C_n^{2/3})$ under squared error loss. The resulting algorithm runs online and optimally adapts to the unknown smoothness parameter $C_n$. This leads to a new and more versatile alternative to wavelets-based methods for (1) adaptively estimating TV bounded functions; (2) online forecasting of TV bounded trends in time series.
翻訳日:2021-03-19 10:49:10 公開日:2021-01-26
# (参考訳) 信念に基づく論証の生成 [全文訳有]

Belief-based Generation of Argumentative Claims ( http://arxiv.org/abs/2101.09765v2 )

ライセンス: CC BY 4.0
Milad Alshomary, Wei-Fan Chen, Timon Gurcke, and Henning Wachsmuth(参考訳) 議論的談話を行う際、熟練した人間討論者は聴衆の信念を尊重し、効果的な議論を構築する。 最近、計算論の分野は、議論の自動生成に対処する広範囲な努力を目撃した。 しかし、既存のアプローチでは観客固有の適応は行わない。 本研究は,このギャップを埋めるために,信念に基づくクレーム生成の課題を考察することを目的としている。 この課題に取り組むために、議論の的となっている話題に対するスタンスを通して、人々の事前の信念をモデル化し、その信念に基づく主張を生成するために最先端のテキスト生成モデルを拡張する。 我々の自動評価は、与えられた信念の集合にクレームを適応させるアプローチの能力を確認する。 マニュアル研究では,それぞれの信念を持つ人物が発声する可能性と情報性の観点から,生成したクレームを評価する。 本研究は,ユーザの信念をその態度に基づいてモデル化することの限界を明らかにするとともに,信念を議論的なテキストにエンコードする可能性を示し,将来のオーディエンスリーチの探求の基盤を築いている。

When engaging in argumentative discourse, skilled human debaters tailor claims to the beliefs of the audience, to construct effective arguments. Recently, the field of computational argumentation witnessed extensive effort to address the automatic generation of arguments. However, existing approaches do not perform any audience-specific adaptation. In this work, we aim to bridge this gap by studying the task of belief-based claim generation: Given a controversial topic and a set of beliefs, generate an argumentative claim tailored to the beliefs. To tackle this task, we model the people's prior beliefs through their stances on controversial topics and extend state-of-the-art text generation models to generate claims conditioned on the beliefs. Our automatic evaluation confirms the ability of our approach to adapt claims to a set of given beliefs. In a manual study, we additionally evaluate the generated claims in terms of informativeness and their likelihood to be uttered by someone with a respective belief. Our results reveal the limitations of modeling users' beliefs based on their stances, but demonstrate the potential of encoding beliefs into argumentative texts, laying the ground for future exploration of audience reach.
翻訳日:2021-03-19 05:18:49 公開日:2021-01-26
# 混在環境下での運動からのVIO支援構造

VIO-Aided Structure from Motion Under Challenging Environments ( http://arxiv.org/abs/2101.09657v2 )

ライセンス: Link先を確認
Zijie Jiang, Hajime Taira, Naoyuki Miyashita, Masatoshi Okutomi(参考訳) 本稿では,視覚慣性オドメトリーからカメラのポーズ情報を活用することで,困難な環境下での正確な3次元再構成を実現するための,ロバストで効率的なモーションパイプライン構造を提案する。 具体的には,候補画像対の事前幾何配置を考慮し,ミスマッチをフィルタリングする幾何検証手法を提案する。 さらに,信頼性の高い局所的オドメトリ推定を活用し,バッチ画像登録とロバストバンドル調整に依存する効率的かつスケーラブルな再構成手法を提案する。 大規模な実験結果から,我々のパイプラインは,最新のSfMアプローチよりも再現精度や堅牢性を向上し,逐次的な画像収集に役立てることが判明した。

In this paper, we present a robust and efficient Structure from Motion pipeline for accurate 3D reconstruction under challenging environments by leveraging the camera pose information from a visual-inertial odometry. Specifically, we propose a geometric verification method to filter out mismatches by considering the prior geometric configuration of candidate image pairs. Furthermore, we introduce an efficient and scalable reconstruction approach that relies on batched image registration and robust bundle adjustment, both leveraging the reliable local odometry estimation. Extensive experimental results show that our pipeline performs better than the state-of-the-art SfM approaches in terms of reconstruction accuracy and robustness for challenging sequential image collections.
翻訳日:2021-03-16 09:13:39 公開日:2021-01-26
# ステレオビジョンにおけるスパース符号化を用いた画像統計の活用

Exploitation of Image Statistics with Sparse Coding in the Case of Stereo Vision ( http://arxiv.org/abs/2101.09710v2 )

ライセンス: Link先を確認
Gerrit A. Ecke, Harald M. Papp, Hanspeter A. Mallot(参考訳) スパース符号化アルゴリズムは哺乳類の視覚における初期処理のモデルとなっている。 脳はスパース符号を用いて感覚流の統計的特性を利用すると推定されている。 我々は、スパースコーディングがデータセットからパターンを発見し、単純な読み出しによって一連の刺激パラメータを推定できると仮定する。 本研究では,仮説を検証するためにステレオビジョンのモデルを選択した。 局所競合アルゴリズム (LCA) を用いて, ステレオ差を推定するために, na\\"ive Bayes 分類器を用いた。 結果から3つの観察を報告します。 まず、この自然な処理パイプラインで不均一推論が成功した。 第二に、入力パターンを堅牢に識別するために、拡張された非常に冗長な表現が必要である。 第3に、LCA表現における活性係数の数から推測誤差を予測することができる。 我々は、スパース符号化は後続の推論タスクに適した一般的な表現を生成することができると結論づける。 キーワード: スパースコーディング; 局所競合アルゴリズム(LCA); 効率的なコーディング; コンパクトなコード; 確率推論; ステレオビジョン

The sparse coding algorithm has served as a model for early processing in mammalian vision. It has been assumed that the brain uses sparse coding to exploit statistical properties of the sensory stream. We hypothesize that sparse coding discovers patterns from the data set, which can be used to estimate a set of stimulus parameters by simple readout. In this study, we chose a model of stereo vision to test our hypothesis. We used the Locally Competitive Algorithm (LCA), followed by a na\"ive Bayes classifier, to infer stereo disparity. From the results we report three observations. First, disparity inference was successful with this naturalistic processing pipeline. Second, an expanded, highly redundant representation is required to robustly identify the input patterns. Third, the inference error can be predicted from the number of active coefficients in the LCA representation. We conclude that sparse coding can generate a suitable general representation for subsequent inference tasks. Keywords: Sparse coding; Locally Competitive Algorithm (LCA); Efficient coding; Compact code; Probabilistic inference; Stereo vision
翻訳日:2021-03-16 09:11:20 公開日:2021-01-26
# (参考訳) ハイブリッドaspによるジョブショップスケジューリング問題のマルチリソース部分順序付けフレキシブル変種解決 [全文訳有]

Solving a Multi-resource Partial-ordering Flexible Variant of the Job-shop Scheduling Problem with Hybrid ASP ( http://arxiv.org/abs/2101.10162v2 )

ライセンス: CC BY 4.0
Giulia Francescutto, Konstantin Schekotihin, Mohammed M. S. El-Kholany(参考訳) 品質管理や故障解析のような生産サイクルの多くの複雑な活動は、高度に経験豊富な専門家が様々なツールを使って完成品の様々な操作を行う必要がある。 実際のシナリオでは、各専門家は実行すべき操作全体のセットについてローカルな視点しか持たないため、次の操作の選択は複雑である。 その結果、専門家による決定は最適外であり、重大なコストを引き起こす可能性があります。 本論文では,マルチリソース部分順序の柔軟なジョブショップスケジューリング(MPF-JSS)問題について考察する。 リソースは柔軟性があり、その特性に応じて1つ以上の操作を実行できる。 この問題は Answer Set Programming (ASP) を用いてモデル化され、時間割当は差分論理を用いて効率的に実行される。 さらに,スケジュール最適化問題の解決を可能にする時間境界の同定を目的とした2つのマルチショット解決戦略を提案する。 中規模半導体故障解析ラボから抽出された一組のインスタンスについて実験した結果,本手法は実世界の91インスタンス中87のスケジュールを見出すことができた。

Many complex activities of production cycles, such as quality control or fault analysis, require highly experienced specialists to perform various operations on (semi)finished products using different tools. In practical scenarios, the selection of a next operation is complicated, since each expert has only a local view on the total set of operations to be performed. As a result, decisions made by the specialists are suboptimal and might cause significant costs. In this paper, we consider a Multi-resource Partial-ordering Flexible Job-shop Scheduling (MPF-JSS) problem where partially-ordered sequences of operations must be scheduled on multiple required resources, such as tools and specialists. The resources are flexible and can perform one or more operations depending on their properties. The problem is modeled using Answer Set Programming (ASP) in which the time assignments are efficiently done using Difference Logic. Moreover, we suggest two multi-shot solving strategies aiming at the identification of the time bounds allowing for a solution of the schedule optimization problem. Experiments conducted on a set of instances extracted from a medium-sized semiconductor fault analysis lab indicate that our approach can find schedules for 87 out of 91 considered real-world instances.
翻訳日:2021-03-15 05:10:35 公開日:2021-01-26
# (参考訳) Proba-V-ref:参照認識超解像におけるProba-Vチャレンジの再考 [全文訳有]

Proba-V-ref: Repurposing the Proba-V challenge for reference-aware super resolution ( http://arxiv.org/abs/2101.10200v2 )

ライセンス: CC BY 4.0
Ngoc Long Nguyen, J\'er\'emy Anger, Axel Davy, Pablo Arias, Gabriele Facciolo(参考訳) PROBA-Vスーパーリゾリューションチャレンジは、実際の低解像度画像シリーズと対応する高リゾリューションターゲットを配布し、衛星画像のためのマルチイメージスーパーリゾリューション(MISR)の研究を進めます。 ただし、PROBA-Vデータセットでは、高解像度ターゲットに対応する低解像度画像は特定されません。 この挑戦は、MISRのパフォーマンスだけでなく、シリーズ内のどの画像が最も高解像度のターゲットに似ているかを推測するために使用されるヒューリスティックによって提案された方法にランク付けされていると我々は主張する。 簡単なヒューリスティックに追従して計算した,異なる参照画像を使用することで,課題の2人の勝者が獲得した性能を改善することで,これを実証する。 これに基づいて、低解像度系列の参照画像を提供するPROBA-Vデータセットの変種であるPROBA-V-REFを提案し、この設定で方法間のランキングが変化することを示す。 これはMISRの多くの実用的なユースケースに関連しており、目的はシリーズの特定のイメージをスーパーリゾルジョンすることである。 参照が知られている。 提案した PROBA-V-REF は、この参照型MISR 問題に対する異なる手法の性能を反映する。

The PROBA-V Super-Resolution challenge distributes real low-resolution image series and corresponding high-resolution targets to advance research on Multi-Image Super Resolution (MISR) for satellite images. However, in the PROBA-V dataset the low-resolution image corresponding to the high-resolution target is not identified. We argue that in doing so, the challenge ranks the proposed methods not only by their MISR performance, but mainly by the heuristics used to guess which image in the series is the most similar to the high-resolution target. We demonstrate this by improving the performance obtained by the two winners of the challenge only by using a different reference image, which we compute following a simple heuristic. Based on this, we propose PROBA-V-REF a variant of the PROBA-V dataset, in which the reference image in the low-resolution series is provided, and show that the ranking between the methods changes in this setting. This is relevant to many practical use cases of MISR where the goal is to super-resolve a specific image of the series, i.e. the reference is known. The proposed PROBA-V-REF should better reflect the performance of the different methods for this reference-aware MISR problem.
翻訳日:2021-03-15 03:43:32 公開日:2021-01-26
# 非正規型臨床時系列の多視点統合学習

Multi-view Integration Learning for Irregularly-sampled Clinical Time Series ( http://arxiv.org/abs/2101.09986v2 )

ライセンス: Link先を確認
Yurim Lee, Eunji Jun, Heung-Il Suk(参考訳) 電子健康記録(ehr)データは不規則な時間間隔で記録されるため、ばらばらで不規則であり、観察点ごとに異なる臨床変数が測定される。 本研究では,不規則な多変量時系列データを用いた多視点機能統合学習をインピーダンスフリー方式で提案する。 具体的には,不規則時系列データに固有の複雑な情報を抽出するために,新しいマルチ統合アテンションモジュール (miam) を考案する。 特に、観測された値、欠落した指標、および連続観測の間の時間間隔間の関係を、同時に明確に学習します。 私たちのアプローチの背後にある根拠は、データに間接的に表される、測定すべきことや異なる状況でいつ測定すべきかといった人間の知識を使用することです。 さらに,学習段階のみで動作する予測タスクの多視点観察における相互関係の表現学習の促進を支援するために,アテンションベースのデコーダを欠落値インデューサとして構築する。 本手法の有効性を,2012年版MIMIC-IIIとPhystoNetのデータセットで検証し,院内死亡予測の最先端手法との比較と性能比較を行った。

Electronic health record (EHR) data is sparse and irregular as it is recorded at irregular time intervals, and different clinical variables are measured at each observation point. In this work, we propose a multi-view features integration learning from irregular multivariate time series data by self-attention mechanism in an imputation-free manner. Specifically, we devise a novel multi-integration attention module (MIAM) to extract complex information inherent in irregular time series data. In particular, we explicitly learn the relationships among the observed values, missing indicators, and time interval between the consecutive observations, simultaneously. The rationale behind our approach is the use of human knowledge such as what to measure and when to measure in different situations, which are indirectly represented in the data. In addition, we build an attention-based decoder as a missing value imputer that helps empower the representation learning of the inter-relations among multi-view observations for the prediction task, which operates at the training phase only. We validated the effectiveness of our method over the public MIMIC-III and PhysioNet challenge 2012 datasets by comparing with and outperforming the state-of-the-art methods for in-hospital mortality prediction.
翻訳日:2021-03-14 19:20:49 公開日:2021-01-26
# (参考訳) 2段階Deep Remappingを用いたリアルタイム非視線イメージング [全文訳有]

Real-time Non-line-of-sight Imaging with Two-step Deep Remapping ( http://arxiv.org/abs/2101.10492v1 )

ライセンス: CC BY 4.0
Dayu Zhu, Wenshan Cai(参考訳) 従来のイメージングは、物体から検出器に直接送信された光子のみを記録し、非視線(NLOS)イメージングは間接光を考慮に入れます。 NLOS環境を探索するために、ほとんどのNLOSソリューションは過渡走査プロセスを使用し、続いてNLOSシーンを再構築するためのバックプロジェクションベースのアルゴリズムが続く。 しかし、過渡検出には、長時間の走査時間と環境に対する堅牢性の低い高度な装置が必要であり、再構成アルゴリズムは通常、メモリや計算資源に高い要求を伴い、数分間のコストがかかる。 ここでは、上記の欠陥に対処する新しいNLOSソリューションを提案し、検出装置と再構成アルゴリズムの両方に革新をもたらす。 我々は、より高速な走査速度と実世界の撮像タスクとの互換性を向上し、安価な商用Lidarを検知に応用する。 我々の再構成フレームワークは、変分オートエンコーダと圧縮ニューラルネットワークからなるディープラーニングベースである。 この枠組みの生成的特徴と2段階の再構成戦略は、nlosイメージングの高忠実性を保証する。 全体的な検出と再構築のプロセスは、最先端の再構築性能を備えたリアルタイム応答を可能にする。 提案手法を合成データセットと実物の両方で実験的に実験し,本手法をフルカラーNLOSイメージングに適用できることを実証した。

Conventional imaging only records the photons directly sent from the object to the detector, while non-line-of-sight (NLOS) imaging takes the indirect light into account. To explore the NLOS surroundings, most NLOS solutions employ a transient scanning process, followed by a back-projection based algorithm to reconstruct the NLOS scenes. However, the transient detection requires sophisticated apparatus, with long scanning time and low robustness to ambient environment, and the reconstruction algorithms typically cost tens of minutes with high demand on memory and computational resources. Here we propose a new NLOS solution to address the above defects, with innovations on both detection equipment and reconstruction algorithm. We apply inexpensive commercial Lidar for detection, with much higher scanning speed and better compatibility to real-world imaging tasks. Our reconstruction framework is deep learning based, consisting of a variational autoencoder and a compression neural network. The generative feature and the two-step reconstruction strategy of the framework guarantee high fidelity of NLOS imaging. The overall detection and reconstruction process allows for real-time responses, with state-of-the-art reconstruction performance. We have experimentally tested the proposed solution on both a synthetic dataset and real objects, and further demonstrated our method to be applicable for full-color NLOS imaging.
翻訳日:2021-03-14 15:55:34 公開日:2021-01-26
# (参考訳) 視覚言語ナビゲーション指示の評価について [全文訳有]

On the Evaluation of Vision-and-Language Navigation Instructions ( http://arxiv.org/abs/2101.10504v1 )

ライセンス: CC BY 4.0
Ming Zhao, Peter Anderson, Vihan Jain, Su Wang, Alexander Ku, Jason Baldridge, Eugene Ie(参考訳) 自動的に生成されたナビゲーション命令を利用することで、視覚・言語ナビゲーションのウェイフィングエージェントを強化することができる。 しかし、既存の命令生成器は包括的に評価されておらず、それを開発するのに使われる自動評価指標は検証されていない。 ヒトのウェイファインダーを用いて、これらのジェネレータはテンプレートベースのジェネレータと同等かわずかに優れた性能を示し、人間のインストラクターよりはるかに悪い性能を示す。 さらに, BLEU, ROUGE, METEOR, CIDErは, 接地したナビゲーション命令を評価するのに有効でないことがわかった。 命令評価を改善するために,参照命令を使わずに動作する命令軌道互換モデルを提案する。 本モデルでは,個々の指示を得点する場合,人間のウェイフィング結果と最も高い相関関係を示す。 ランキング命令生成システムについては、参照命令が利用可能であればSPICEの使用を推奨します。

Vision-and-Language Navigation wayfinding agents can be enhanced by exploiting automatically generated navigation instructions. However, existing instruction generators have not been comprehensively evaluated, and the automatic evaluation metrics used to develop them have not been validated. Using human wayfinders, we show that these generators perform on par with or only slightly better than a template-based generator and far worse than human instructors. Furthermore, we discover that BLEU, ROUGE, METEOR and CIDEr are ineffective for evaluating grounded navigation instructions. To improve instruction evaluation, we propose an instruction-trajecto ry compatibility model that operates without reference instructions. Our model shows the highest correlation with human wayfinding outcomes when scoring individual instructions. For ranking instruction generation systems, if reference instructions are available we recommend using SPICE.
翻訳日:2021-03-14 15:37:21 公開日:2021-01-26
# (参考訳) 二時間スケール自然アクタークリティカルアルゴリズムの有限サンプル解析

Finite Sample Analysis of Two-Time-Scale Natural Actor-Critic Algorithm ( http://arxiv.org/abs/2101.10506v1 )

ライセンス: CC BY 4.0
Sajad Khodadadian, Thinh T. Doan, Siva Theja Maguluri, Justin Romberg(参考訳) アクタークリティカルな2時間スケールのアルゴリズムは強化学習で非常に人気があり、実証的な成功を収めている。 しかし、その性能は理論的に完全には理解されていない。 本論文では, 単一の軌道を用いて, タブラ設定におけるオンライン自然なアクター・クリティカルアルゴリズムのグローバル収束を特徴づける。 我々の分析は、マルコフ連鎖がすべての方針の下でエルゴード的であると仮定する(いわゆる再帰仮説)ので、非常に一般的な設定に当てはまる。 十分な探査を確保するために$\epsilon$-greedyサンプリングを使用します。 固定探索パラメータ $\epsilon$ に対して、自然作用素批判アルゴリズムは $\mathcal{O}(\frac{1}{\epsilon T^{1/4}}+\epsilon)$ であり、アルゴリズムの$T$繰り返しの後、世界最適に近いことを示した。 繰り返しが進むにつれて探索パラメータ $\epsilon$ を慎重に減らすことにより、$\mathcal{O}(1/T^{1/6})$ の速度で地球最適値への収束を示す。

Actor-critic style two-time-scale algorithms are very popular in reinforcement learning, and have seen great empirical success. However, their performance is not completely understood theoretically. In this paper, we characterize the global convergence of an online natural actor-critic algorithm in the tabular setting using a single trajectory. Our analysis applies to very general settings, as we only assume that the underlying Markov chain is ergodic under all policies (the so-called Recurrence assumption). We employ $\epsilon$-greedy sampling in order to ensure enough exploration. For a fixed exploration parameter $\epsilon$, we show that the natural actor critic algorithm is $\mathcal{O}(\frac{1}{\epsilon T^{1/4}}+\epsilon)$ close to the global optimum after $T$ iterations of the algorithm. By carefully diminishing the exploration parameter $\epsilon$ as the iterations proceed, we also show convergence to the global optimum at a rate of $\mathcal{O}(1/T^{1/6})$.
翻訳日:2021-03-14 15:14:20 公開日:2021-01-26
# (参考訳) 限定監督によるロボットの視覚概念の連続学習 [全文訳有]

Continual Learning of Visual Concepts for Robots through Limited Supervision ( http://arxiv.org/abs/2101.10509v1 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) 多くの現実世界のロボティクスアプリケーションでは、ロボットは絶えず適応し、新しい概念を学ぶ必要があります。 さらに、ロボットは現実世界の環境でラベル付きデータの不足のために限られたデータを通して学ぶ必要があります。 この目的のために、私は動的に見えない環境やシナリオで継続的に学習し、限られた人間の監督から学習し、以前に学んだ知識を覚え、その知識を使って新しい概念を学習するロボットの開発に重点を置いています。 私は、ベンチマークデータセットでState-of-the-resultを生成できるだけでなく、ロボットが制約のない環境で新しいオブジェクトやシーンを学習できるようにする機械学習モデルを開発しています。

For many real-world robotics applications, robots need to continually adapt and learn new concepts. Further, robots need to learn through limited data because of scarcity of labeled data in the real-world environments. To this end, my research focuses on developing robots that continually learn in dynamic unseen environments/scenari os, learn from limited human supervision, remember previously learned knowledge and use that knowledge to learn new concepts. I develop machine learning models that not only produce State-of-the-results on benchmark datasets but also allow robots to learn new objects and scenes in unconstrained environments which lead to a variety of novel robotics applications.
翻訳日:2021-03-14 15:13:10 公開日:2021-01-26
# (参考訳) ジェネリックイベント境界検出:イベントセグメンテーションのベンチマーク [全文訳有]

Generic Event Boundary Detection: A Benchmark for Event Segmentation ( http://arxiv.org/abs/2101.10511v1 )

ライセンス: CC BY 4.0
Mike Zheng Shou, Deepti Ghadiyaram, Weiyao Wang, Matt Feiszli(参考訳) 本稿では,ビデオ全体をチャンクに分割する一般的な分類のないイベント境界を検出するための新しいベンチマークとともに,新しいタスクを提案する。 時間的ビデオセグメンテーションとアクション検出における従来の作業は、事前定義されたアクションカテゴリのローカライズに重点を置いているため、汎用的なビデオにはスケールしない。 認知科学(Cognitive Science)は、人間が動画を意味のある時間的チャンクに連続的に分割することが昨年から知られている。 このセグメンテーションは自然に行われ、事前定義されたイベントカテゴリはなく、明示的に要求されない。 本稿では、これらの認知実験を主流のCVデータセット上で繰り返し、分類のないイベント境界アノテーションの複雑さに対処する新しいアノテーションガイドラインを用いて、ジェネリックイベント境界検出(GEBD)と新しいベンチマークKineetics-GEBDを導入する。 実験と人間の研究を通じて、アノテーションの価値を実証する。 これはビデオ全体を理解するための重要なステップであり、適切なタスク定義とアノテーションの欠如により、これまで無視されていたものだと考えています。 さらに、人間が未来を正確に予測できない地点で境界線をマークすることの認知的発見に触発され、時間的予測可能性に基づく教師なしアプローチを探求する。 TAPOS データセットと Kinetics-GEBD 上での GEBD モデルの重要な設計要因を特定し,検討し,競争性能の達成と今後の課題を提案する。 CVPR'21 LOVEU Challenge: https://sites.google .com/view/loveucvpr2 1

This paper presents a novel task together with a new benchmark for detecting generic, taxonomy-free event boundaries that segment a whole video into chunks. Conventional work in temporal video segmentation and action detection focuses on localizing pre-defined action categories and thus does not scale to generic videos. Cognitive Science has known since last century that humans consistently segment videos into meaningful temporal chunks. This segmentation happens naturally, with no pre-defined event categories and without being explicitly asked to do so. Here, we repeat these cognitive experiments on mainstream CV datasets; with our novel annotation guideline which addresses the complexities of taxonomy-free event boundary annotation, we introduce the task of Generic Event Boundary Detection (GEBD) and the new benchmark Kinetics-GEBD. Through experiment and human study we demonstrate the value of the annotations. We view this as an important stepping stone towards understanding the video as a whole, and believe it has been previously neglected due to a lack of proper task definition and annotations. Further, inspired by the cognitive finding that humans mark boundaries at points where they are unable to predict the future accurately, we explore un-supervised approaches based on temporal predictability. We identify and extensively explore important design factors for GEBD models on the TAPOS dataset and our Kinetics-GEBD while achieving competitive performance and suggesting future work. We will release our annotations and code at CVPR'21 LOVEU Challenge: https://sites.google .com/view/loveucvpr2 1
翻訳日:2021-03-14 15:07:26 公開日:2021-01-26
# (参考訳) 耳の認識 [全文訳有]

Ear Recognition ( http://arxiv.org/abs/2101.10540v1 )

ライセンス: CC BY 4.0
Nikolaos Athanasios Anagnostopoulos(参考訳) 耳の認識は、復活した科学分野として説明できる。 耳の生体測定は、耳の特徴や、髪、衣服、耳のジュエリーによる耳の潜在的な閉塞を正確に測定することが困難であるため、長い間正確ではないと考えられており、科学研究の二次的な場所を保持していました。 しかし、近年の研究では、これらの問題に取り組み、耳のバイオメトリックスが本当に正確な識別と検証結果を提供できることを証明した後、活発な研究分野として復活している。 いくつかの2Dおよび3Dイメージング技術、および放射音と反射音を用いた音響技術は、耳の認識のために開発・研究され、また、耳の完全な自動認識にも大きな進歩があった。 さらに、耳のバイオメトリックスは、主に非侵襲的で、適切に永続的で正確であり、偽造や偽造が難しいことが証明されている。 さらに、異なる耳認識技術が顔認識技術と同じくらい効果的であることが証明されており、耳認識が識別および検証アプリケーションに使用される機会を提供します。 最後に、いくつかの問題はまだ開いていて、さらなる研究が必要ですが、耳の生体測定の科学分野は実行可能であるだけでなく、本当に繁栄していることが証明されています。

Ear recognition can be described as a revived scientific field. Ear biometrics were long believed to not be accurate enough and held a secondary place in scientific research, being seen as only complementary to other types of biometrics, due to difficulties in measuring correctly the ear characteristics and the potential occlusion of the ear by hair, clothes and ear jewellery. However, recent research has reinstated them as a vivid research field, after having addressed these problems and proven that ear biometrics can provide really accurate identification and verification results. Several 2D and 3D imaging techniques, as well as acoustical techniques using sound emission and reflection, have been developed and studied for ear recognition, while there have also been significant advances towards a fully automated recognition of the ear. Furthermore, ear biometrics have been proven to be mostly non-invasive, adequately permanent and accurate, and hard to spoof and counterfeit. Moreover, different ear recognition techniques have proven to be as effective as face recognition ones, thus providing the opportunity for ear recognition to be used in identification and verification applications. Finally, even though some issues still remain open and require further research, the scientific field of ear biometrics has proven to be not only viable, but really thriving.
翻訳日:2021-03-14 14:31:53 公開日:2021-01-26
# (参考訳) RESPER: 説得的会話における残留戦略の計算モデル [全文訳有]

RESPER: Computationally Modelling Resisting Strategies in Persuasive Conversations ( http://arxiv.org/abs/2101.10545v1 )

ライセンス: CC BY 4.0
Ritam Dutt and Sayan Sinha, Rishabh Joshi, Surya Shekhar Chakraborty, Meredith Riggs, Xinru Yan, Haogang Bao, Carolyn Penstein Ros\'e(参考訳) タスク成果の予測要因としての説得戦略のモデル化には、現実の応用がいくつかあり、計算言語学コミュニティからかなりの注目を集めている。 しかし、以前の研究では、個人がそのような説得を試みるために用いた抵抗戦略を説明できなかった。 認知心理学と社会心理学の先行文献に基礎を置き,説得的会話における抵抗戦略を識別するための一般化した枠組みを提案する。 説得と交渉の会話からなる2つの異なるデータセットでフレームワークをインスタンス化します。 また,上述の抵抗戦略を自動的に推測するために,階層的シーケンスラベル型ニューラルネットワークを利用する。 実験では,非協調的目標指向会話におけるパワーロールの非対称性と,最終会話結果に対する抵抗戦略の導入によるメリットを明らかにした。 また,会話の結果に対するさまざまな抵抗戦略の役割や,過去の発見と相反する洞察について検討した。 また、この作業のコードとデータセットをhttps://github.com/a mericast/resper.comで公開しています。

Modelling persuasion strategies as predictors of task outcome has several real-world applications and has received considerable attention from the computational linguistics community. However, previous research has failed to account for the resisting strategies employed by an individual to foil such persuasion attempts. Grounded in prior literature in cognitive and social psychology, we propose a generalised framework for identifying resisting strategies in persuasive conversations. We instantiate our framework on two distinct datasets comprising persuasion and negotiation conversations. We also leverage a hierarchical sequence-labelling neural architecture to infer the aforementioned resisting strategies automatically. Our experiments reveal the asymmetry of power roles in non-collaborative goal-directed conversations and the benefits accrued from incorporating resisting strategies on the final conversation outcome. We also investigate the role of different resisting strategies on the conversation outcome and glean insights that corroborate with past findings. We also make the code and the dataset of this work publicly available at https://github.com/a mericast/resper.
翻訳日:2021-03-14 14:06:19 公開日:2021-01-26
# (参考訳) 自己スパース生成型逆ネットワーク [全文訳有]

Self Sparse Generative Adversarial Networks ( http://arxiv.org/abs/2101.10556v1 )

ライセンス: CC BY 4.0
Wenliang Qian, Yang Xu, Wangmeng Zuo, Hui Li(参考訳) GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。 しかし,近年の実験では,高次元パラメータ空間の最適化と勾配ゼロ問題のため,ganの学習が困難であることが示された。 本研究では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。 セルフスパースGANでは、スパース分解と特徴マップ再結合からなる自己適応スパース変換モジュール(SASTM)を設計し、マルチチャネルの特徴マップに適用してスパース特徴マップを得る。 Self-Sparse GANの重要なアイデアは、発電機内のすべてのデコンボリューション層に従ってSASTMを追加することです。 理論的には、SASTMはジェネレータの畳み込みカーネル重みの探索空間を削減できるだけでなく、バッチ正規化層における有意義な特徴を維持し、デ畳み込み層の重みを負にしないようにすることでゼロ勾配問題を緩和できる。 実験結果は,MNIST, Fashion-MNIST, CIFAR-10, STL-10, mini-ImageNet, CELEBA-HQ, LSUNの寝室におけるWGAN-GPと比較し,FIDの相対的な減少率は4.76%~21.84%であった。

Generative Adversarial Networks (GANs) are an unsupervised generative model that learns data distribution through adversarial training. However, recent experiments indicated that GANs are difficult to train due to the requirement of optimization in the high dimensional parameter space and the zero gradient problem. In this work, we propose a Self Sparse Generative Adversarial Network (Self-Sparse GAN) that reduces the parameter space and alleviates the zero gradient problem. In the Self-Sparse GAN, we design a Self-Adaptive Sparse Transform Module (SASTM) comprising the sparsity decomposition and feature-map recombination, which can be applied on multi-channel feature maps to obtain sparse feature maps. The key idea of Self-Sparse GAN is to add the SASTM following every deconvolution layer in the generator, which can adaptively reduce the parameter space by utilizing the sparsity in multi-channel feature maps. We theoretically prove that the SASTM can not only reduce the search space of the convolution kernel weight of the generator but also alleviate the zero gradient problem by maintaining meaningful features in the Batch Normalization layer and driving the weight of deconvolution layers away from being negative. The experimental results show that our method achieves the best FID scores for image generation compared with WGAN-GP on MNIST, Fashion-MNIST, CIFAR-10, STL-10, mini-ImageNet, CELEBA-HQ, and LSUN bedrooms, and the relative decrease of FID is 4.76% ~ 21.84%.
翻訳日:2021-03-14 13:47:32 公開日:2021-01-26
# (参考訳) Glioblastoma Multiforme 患者の生存予測 [全文訳有]

Glioblastoma Multiforme Patient Survival Prediction ( http://arxiv.org/abs/2101.10589v1 )

ライセンス: CC BY-SA 4.0
Snehal Rajput, Rupal Agravat, Mohendra Roy, Mehul S Raval(参考訳) Glioblastoma Multiformeは脳腫瘍の非常に積極的なタイプです。 空間的および時間的組織内不均質性、位置および癌組織の範囲のために、腫瘍領域を検出し、拡散することは困難である。 本稿では,手作り画像とラジオミクス機能を利用した4つの回帰器を用いた生存予後モデルを提案する。 放射能形状の特徴は生存予測と最も高い相関関係にあると仮定した。 提案手法は脳腫瘍分離(BraTS-2020)課題データセットを用いて評価した。 ランダムフォレスト・レグレッサアプローチによる画像特徴量の最高精度は,トレーニングで51.5\%,検証データセットで51.7\%であった。 形状特徴を有するグラデーションブーストレグレッサーは、トレーニングデータセットとバリデーションデータセットでそれぞれ91.5\%と62.1\%の精度を示した。 トレーニングと検証データセットのbrats 2020 survival prediction challengeの勝者よりも優れています。 その結果,手作りの特徴は生存予測と強い相関を示した。 勾配上昇と放射能形状の特徴を持つコンセンサスベースの回帰器は生存予測に最適である。

Glioblastoma Multiforme is a very aggressive type of brain tumor. Due to spatial and temporal intra-tissue inhomogeneity, location and the extent of the cancer tissue, it is difficult to detect and dissect the tumor regions. In this paper, we propose survival prognosis models using four regressors operating on handcrafted image-based and radiomics features. We hypothesize that the radiomics shape features have the highest correlation with survival prediction. The proposed approaches were assessed on the Brain Tumor Segmentation (BraTS-2020) challenge dataset. The highest accuracy of image features with random forest regressor approach was 51.5\% for the training and 51.7\% for the validation dataset. The gradient boosting regressor with shape features gave an accuracy of 91.5\% and 62.1\% on training and validation datasets respectively. It is better than the BraTS 2020 survival prediction challenge winners on the training and validation datasets. Our work shows that handcrafted features exhibit a strong correlation with survival prediction. The consensus based regressor with gradient boosting and radiomics shape features is the best combination for survival prediction.
翻訳日:2021-03-14 13:36:26 公開日:2021-01-26
# (参考訳) 均一サンプリングキーポイントのための領域ベースディスクリプタネットワーク [全文訳有]

A region-based descriptor network for uniformly sampled keypoints ( http://arxiv.org/abs/2103.01780v1 )

ライセンス: CC BY 4.0
Kai Lv, Zongqing Lu, Qingmin Liao(参考訳) 異なる画像のキーポイントペアをマッチングすることは、コンピュータビジョンの基本タスクです。 ほとんどの方法は、複雑なアルゴリズム設計や高い訓練困難を伴うネットワークを必要とすることが多い特徴点の座標を得るために、カスタマイズされた極端点スキームを必要とし、また、平坦領域が一致する点の候補領域として使用できる可能性を無視している。 本稿では,ディープネットワークのコンテキスト特徴を組み合わせることで,地域ベースの記述子を設計する。 新しい記述子は、平坦な領域でも、ある点の堅牢な表現を与えることができる。 新しい記述子により、極端操作なしでより高信頼なマッチング点を得ることができる。 実験の結果,提案手法は最先端技術に匹敵する性能が得られることがわかった。

Matching keypoint pairs of different images is a basic task of computer vision. Most methods require customized extremum point schemes to obtain the coordinates of feature points with high confidence, which often need complex algorithmic design or a network with higher training difficulty and also ignore the possibility that flat regions can be used as candidate regions of matching points. In this paper, we design a region-based descriptor by combining the context features of a deep network. The new descriptor can give a robust representation of a point even in flat regions. By the new descriptor, we can obtain more high confidence matching points without extremum operation. The experimental results show that our proposed method achieves a performance comparable to state-of-the-art.
翻訳日:2021-03-14 13:18:32 公開日:2021-01-26
# (参考訳) 機能的MRIを用いた脳の状態、遷移、およびコミュニティの同定

Identification of brain states, transitions, and communities using functional MRI ( http://arxiv.org/abs/2101.10617v1 )

ライセンス: CC BY 4.0
Lingbin Bian, Tiangang Cui, B.T. Thomas Yeo, Alex Fornito, Adeel Razi and Jonathan Keith(参考訳) 脳機能は、異なる神経系の機能統合と分離の間の正確な調整と動的バランスに依存している。 神経系が相互作用を再構成し、異なるが隠れた脳の状態を生み出す方法を特徴付けることは、まだ未解決の課題である。 本論文では、潜時脳状態のベイズモデルに基づく評価法を提案し、潜時ブロックモデルを用いて、血中酸素レベル依存性(BOLD)時系列における潜時脳状態間の遷移を検出する新しい手法を提案する。 モデル内の推定パラメータのセットには、コミュニティにネットワークノードを割り当てる潜在ラベルベクターと、コミュニティ内とコミュニティ間の重み付き接続を反映したモデルパラメータが含まれている。 また,100人の健常成人を対象としたhuman connectome project (hcp) データセットを用いた実験的な検証(およびレプリケーション)を行う。 その結果,作業記憶におけるタスクfMRIデータの解析により,外的タスク要求と脳状態の変化点との間に適切な遅延がみられ,固定,低要求,高要求のタスク条件を区別する独特のコミュニティパターンが得られた。

Brain function relies on a precisely coordinated and dynamic balance between the functional integration and segregation of distinct neural systems. Characterizing the way in which neural systems reconfigure their interactions to give rise to distinct but hidden brain states remains an open challenge. In this paper, we propose a Bayesian model-based characterization of latent brain states and showcase a novel method based on posterior predictive discrepancy using the latent block model to detect transitions between latent brain states in blood oxygen level-dependent (BOLD) time series. The set of estimated parameters in the model includes a latent label vector that assigns network nodes to communities, and also block model parameters that reflect the weighted connectivity within and between communities. Besides extensive in-silico model evaluation, we also provide empirical validation (and replication) using the Human Connectome Project (HCP) dataset of 100 healthy adults. Our results obtained through an analysis of task-fMRI data during working memory performance show appropriate lags between external task demands and change-points between brain states, with distinctive community patterns distinguishing fixation, low-demand and high-demand task conditions.
翻訳日:2021-03-14 13:11:08 公開日:2021-01-26
# (参考訳) ガウス過程と微分進化アルゴリズムによる超最適化 [全文訳有]

Hyper-optimization with Gaussian Process and Differential Evolution Algorithm ( http://arxiv.org/abs/2101.10625v1 )

ライセンス: CC BY 4.0
Jakub Klus, Pavel Grunt, Martin Dobrovoln\'y(参考訳) 計算力の要求の高い問題の最適化は難しい課題である。 ベイズ最適化と呼ばれるそのような最適化に対する確率論的アプローチは、問題の数学的に単純なモデルを解くことによって性能要求を下げる。 選択されたアプローチ、ガウス過程、ガウス関数の混合を用いたモデル問題。 本稿では,利用可能な科学図書館のガウス過程最適化コンポーネントの具体的修正について述べる。 提示された修正はBlackBox 2020チャレンジに提出され、従来の最適化ライブラリを上回った。

Optimization of problems with high computational power demands is a challenging task. A probabilistic approach to such optimization called Bayesian optimization lowers performance demands by solving mathematically simpler model of the problem. Selected approach, Gaussian Process, models problem using a mixture of Gaussian functions. This paper presents specific modifications of Gaussian Process optimization components from available scientific libraries. Presented modifications were submitted to BlackBox 2020 challenge, where it outperformed some conventionally available optimization libraries.
翻訳日:2021-03-14 13:09:42 公開日:2021-01-26
# (参考訳) 下流NLPタスクにおけるBERTおよびALBERT文埋め込み性能の評価 [全文訳有]

Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks ( http://arxiv.org/abs/2101.10642v1 )

ライセンス: CC BY 4.0
Hyunjin Choi, Judong Kim, Seongho Joe, and Youngjune Gwon(参考訳) 学習済み言語モデルからの文脈化表現は、下流のnlpタスクで高いパフォーマンスを達成するために中心となる。 事前訓練されたBERTとA Lite BERT(ALBERT)モデルは、セマンティックテキスト類似性(STS)や自然言語推論(NLI)などの文対回帰に最先端の結果を与えるように微調整することができる。 BERT ベースのモデルでは,[CLS] トークンベクトルを合理的な文埋め込みとして生成するが,最適な文埋め込みスキームの探索は計算言語学において活発な研究領域である。 本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。 特に,SBERT(Sentence-BERT )と呼ばれるサイメムとトリプルトネットワーク構造を備えたBERTネットワークを改良し,BERTをALBERTに置き換え,SALBERT(Sentence-AL BERT)を作成する。 また,SBERTとSALBERTのCNN文埋め込みネットワークも実験した。 STSおよびNLIデータセットを用いて,すべての文埋め込みモデルの性能を評価する。 実験の結果,我々のCNNアーキテクチャは,STSベンチマークのBERTモデルよりもALBERTモデルを大幅に改善することが示された。 モデルパラメータが大幅に少ないにもかかわらず、ALBERT文埋め込みは下流NLP評価においてBERTに非常に競争力があります。

Contextualized representations from a pre-trained language model are central to achieve a high performance on downstream NLP task. The pre-trained BERT and A Lite BERT (ALBERT) models can be fine-tuned to give state-ofthe-art results in sentence-pair regressions such as semantic textual similarity (STS) and natural language inference (NLI). Although BERT-based models yield the [CLS] token vector as a reasonable sentence embedding, the search for an optimal sentence embedding scheme remains an active research area in computational linguistics. This paper explores on sentence embedding models for BERT and ALBERT. In particular, we take a modified BERT network with siamese and triplet network structures called Sentence-BERT (SBERT) and replace BERT with ALBERT to create Sentence-ALBERT (SALBERT). We also experiment with an outer CNN sentence-embedding network for SBERT and SALBERT. We evaluate performances of all sentence-embedding models considered using the STS and NLI datasets. The empirical results indicate that our CNN architecture improves ALBERT models substantially more than BERT models for STS benchmark. Despite significantly fewer model parameters, ALBERT sentence embedding is highly competitive to BERT in downstream NLP evaluations.
翻訳日:2021-03-14 13:03:46 公開日:2021-01-26
# (参考訳) 教師付きNLPタスクにおけるゼロショットクロスリンガル転送の解析 [全文訳有]

Analyzing Zero-shot Cross-lingual Transfer in Supervised NLP Tasks ( http://arxiv.org/abs/2101.10649v1 )

ライセンス: CC BY 4.0
Hyunjin Choi, Judong Kim, Seongho Joe, Seungjai Min, Youngjune Gwon(参考訳) ゼロショット言語間転送では、ある言語のコーパスでトレーニングされた教師付きnlpタスクが、追加のトレーニングなしで他の言語に直接適用されます。 言語間変換のソースは、自然にテキスト埋め込みに類似の表現空間を占有させる言語間の語彙重複(例えば、同じスクリプト、共有サブワードの使用)と同じくらい単純である。 最近導入されたクロス言語モデル(XLM)プリトレーニングは、トランスフォーマースタイルのネットワークで神経パラメータの共有を転送の最も重要な要因としてもたらします。 本稿では,XLM事前学習により生じる仮説上強い言語間移動特性を検証することを目的とする。 特に,XLM-RoBERTa(XLMR)を用いて,機械読取の理解,感情分析,文章埋め込みのアライメントを多種多様な言語間環境下で行うための意味的テキスト類似性(STS),SQuAD,KorQuADを拡張する実験を行った。 以上の結果から, 言語間移動の存在がSTS, 感情分析が次, MRCが最後であることが示唆された。 つまり、下流のタスクの複雑さは、言語間転送の程度を軟化する。 結果はすべて実証的に観察され、測定され、コードとデータを公開しています。

In zero-shot cross-lingual transfer, a supervised NLP task trained on a corpus in one language is directly applicable to another language without any additional training. A source of cross-lingual transfer can be as straightforward as lexical overlap between languages (e.g., use of the same scripts, shared subwords) that naturally forces text embeddings to occupy a similar representation space. Recently introduced cross-lingual language model (XLM) pretraining brings out neural parameter sharing in Transformer-style networks as the most important factor for the transfer. In this paper, we aim to validate the hypothetically strong cross-lingual transfer properties induced by XLM pretraining. Particularly, we take XLM-RoBERTa (XLMR) in our experiments that extend semantic textual similarity (STS), SQuAD and KorQuAD for machine reading comprehension, sentiment analysis, and alignment of sentence embeddings under various cross-lingual settings. Our results indicate that the presence of cross-lingual transfer is most pronounced in STS, sentiment analysis the next, and MRC the last. That is, the complexity of a downstream task softens the degree of crosslingual transfer. All of our results are empirically observed and measured, and we make our code and data publicly available.
翻訳日:2021-03-14 12:21:33 公開日:2021-01-26
# (参考訳) 屋内位置認識のための変動情報ボトルネックモデル [全文訳有]

Variational Information Bottleneck Model for Accurate Indoor Position Recognition ( http://arxiv.org/abs/2101.10655v1 )

ライセンス: CC BY 4.0
Weizhu Qian and Franck Gechter(参考訳) WiFi指紋でユーザーの位置を認識することは、正確な屋内位置問題に対する一般的なアプローチです。 この研究では、WiFi指紋を実際のユーザーロケーションに解釈することを目指しています。 しかし、Wi-Fi指紋データは非常に高次元である場合もあり、まず学習タスクの入力データの適切な表現を見つける必要がある。 さもなければ、ニューラルネットワークの使用は深刻なオーバーフィットに苦しむでしょう。 本稿では,情報ボトルネック法と変分推論を組み合わせることで,この問題を解決する。 これら2つのアプローチに基づき,屋内位置推定のための変動情報ボトルネックモデルを提案する。 提案モデルはエンコーダ構造と予測器構造からなる。 エンコーダは、学習タスクの入力データに良い表現を見出すことである。 予測子は、最終出力を予測するために潜在表現を使用する。 モデルの一般化を強化するために、デコーダの各隠された層にDropout技術を採用しています。 実世界のデータセット上で検証実験を行う。 また,提案手法と既存手法を比較し,提案手法の性能を定量的に評価する。

Recognizing user location with WiFi fingerprints is a popular approach for accurate indoor positioning problems. In this work, our goal is to interpret WiFi fingerprints into actual user locations. However, WiFi fingerprint data can be very high dimensional in some cases, we need to find a good representation of the input data for the learning task first. Otherwise, using neural networks will suffer from severe overfitting. In this work, we solve this issue by combining the Information Bottleneck method and Variational Inference. Based on these two approaches, we propose a Variational Information Bottleneck model for accurate indoor positioning. The proposed model consists of an encoder structure and a predictor structure. The encoder is to find a good representation in the input data for the learning task. The predictor is to use the latent representation to predict the final output. To enhance the generalization of our model, we also adopt the Dropout technique for each hidden layer of the decoder. We conduct the validation experiments on a real-world dataset. We also compare the proposed model to other existing methods so as to quantify the performances of our method.
翻訳日:2021-03-14 12:08:15 公開日:2021-01-26
# (参考訳) 胸部ctスキャンによるcovid-19検出のための効率的な多目的3dニューラルアーキテクチャ探索 [全文訳有]

Efficient Multi-objective Evolutionary 3D Neural Architecture Search for COVID-19 Detection with Chest CT Scans ( http://arxiv.org/abs/2101.10667v1 )

ライセンス: CC BY 4.0
Xin He, Shihao Wang, Guohao Ying, Jiyong Zhang, Xiaowen Chu(参考訳) 新型コロナウイルスのパンデミックは、何ヶ月も世界中で広がっています。 長いインキュベーション期間と高いテストコストのため、その拡散速度が低下していることを示す手がかりがないため、より高速なテスト方法が必要とされている。 本論文では、新型コロナウイルスの胸部CTスキャン分類のためのよく設計された検索空間に基づいて、3Dニューラルネットワークを自動的に検索できる、効率的な進化的マルチオブジェクトニューラルアーキテクチャサーチ(EMARS)フレームワークを提案する。 フレームワーク内では、重量共有戦略を使用して検索効率を大幅に改善し、8時間で検索プロセスを完了します。 また,探索過程の堅牢性向上に寄与する新たな目的,すなわち潜在的可能性も提案する。 精度、ポテンシャル、モデルサイズを目標に、ResNet3D101 (325.21 MB)、DenseNet3D121 (43.06 MB)、MC3\_18 (43.84 MB)の3つのベースライン人間設計モデルを上回る軽量モデル (3.39 MB) が見つかった。 さらに, 検索空間をよく設計したことにより, クラスアクティベーションマッピングアルゴリズムを全検索モデルに容易に組み込むことができ, 病変領域の特定のためにモデルに基づいて判断を可視化することにより, 診断の解釈性を提供することができる。

COVID-19 pandemic has spread globally for months. Due to its long incubation period and high testing cost, there is no clue showing its spread speed is slowing down, and hence a faster testing method is in dire need. This paper proposes an efficient Evolutionary Multi-objective neural ARchitecture Search (EMARS) framework, which can automatically search for 3D neural architectures based on a well-designed search space for COVID-19 chest CT scan classification. Within the framework, we use weight sharing strategy to significantly improve the search efficiency and finish the search process in 8 hours. We also propose a new objective, namely potential, which is of benefit to improve the search process's robustness. With the objectives of accuracy, potential, and model size, we find a lightweight model (3.39 MB), which outperforms three baseline human-designed models, i.e., ResNet3D101 (325.21 MB), DenseNet3D121 (43.06 MB), and MC3\_18 (43.84 MB). Besides, our well-designed search space enables the class activation mapping algorithm to be easily embedded into all searched models, which can provide the interpretability for medical diagnosis by visualizing the judgment based on the models to locate the lesion areas.
翻訳日:2021-03-14 11:56:27 公開日:2021-01-26
# (参考訳) モンテカルロ ツリー検索します。 [全文訳有]

Ordinal Monte Carlo Tree Search ( http://arxiv.org/abs/2101.10670v1 )

ライセンス: CC BY 4.0
Tobias Joppen and Johannes F\"urnkranz(参考訳) 多くの問題設定、特にゲームプレイでは、エージェントはアクションに対しておそらく遅延した報酬を受け取る。 多くの場合、報酬は手作りであり、自然に与えられるものではない。 これらの値が任意に選択され、学習者の振る舞いが異なるエンコーディングで変わるため、勝利が1つで損失がマイナス1個であるような単純な端末のみの報酬でさえも、偏りのないステートメントとは見なせない。 良い報酬について論じることは困難であり、エージェントのパフォーマンスは報酬信号の設計に依存することが多い。 特に、自然界の状態が序列ランキングのみを持ち、ゲーム状態値間の有意義な距離情報が得られない領域では、数値報酬信号が必ずバイアスされる。 本稿では,MDP を解くアルゴリズムである MCTS について考察し,報酬の利用に関する再帰的な問題を強調し,報奨の順序的処理がこの問題を克服することを示す。 汎用的なゲームプレイフレームワークを用いて,提案手法が提案するordinal mctsアルゴリズムが,新たなbanditアルゴリズムに基づいて他のmcts変種よりも優位であることを示す。

In many problem settings, most notably in game playing, an agent receives a possibly delayed reward for its actions. Often, those rewards are handcrafted and not naturally given. Even simple terminal-only rewards, like winning equals one and losing equals minus one, can not be seen as an unbiased statement, since these values are chosen arbitrarily, and the behavior of the learner may change with different encodings. It is hard to argue about good rewards and the performance of an agent often depends on the design of the reward signal. In particular, in domains where states by nature only have an ordinal ranking and where meaningful distance information between game state values is not available, a numerical reward signal is necessarily biased. In this paper we take a look at MCTS, a popular algorithm to solve MDPs, highlight a reoccurring problem concerning its use of rewards, and show that an ordinal treatment of the rewards overcomes this problem. Using the General Video Game Playing framework we show dominance of our newly proposed ordinal MCTS algorithm over other MCTS variants, based on a novel bandit algorithm that we also introduce and test versus UCB.
翻訳日:2021-03-14 11:29:59 公開日:2021-01-26
# (参考訳) 無監視脳MRIにおける3次元情報活用 [全文訳有]

Leveraging 3D Information in Unsupervised Brain MRI Segmentation ( http://arxiv.org/abs/2101.10674v1 )

ライセンス: CC BY 4.0
Benjamin Lambert, Maxime Louis, Senan Doyle, Florence Forbes, Michel Dojat, Alan Tucholka(参考訳) ある病理から別の病理に大きく異なるため、脳の異常の自動分割は困難です。 現在の手法は教師付きであり、各病理に多数の注釈付き画像を必要とする。 解剖学的変異に対処するために, 変分オートエンコーダ(VAE)を用いて学習した健康モデルの異常を異常として検出する, Unsupervised Anomaly Detection (UAD)法を提案する。 UADに関するこれまでの研究は、2Dアプローチを採用しており、MRIは独立したスライスコレクションとして処理される。 しかし、MRIに含まれる空間情報を十分に活用するわけではない。 本稿では,UADを3D方式で実行し,2Dと3DのVAEを比較することを提案する。 サイドコントリビューションとして、堅牢なトレーニングを保証する新しい損失機能を紹介します。 学習は、健康な脳MRIの多心性データセットを使用して行われ、白マター高輝度および腫瘍病変のセグメント化性能が推定される。 実験は、彼らの2D手法よりも優れた3D手法の興味を示す。

Automatic segmentation of brain abnormalities is challenging, as they vary considerably from one pathology to another. Current methods are supervised and require numerous annotated images for each pathology, a strenuous task. To tackle anatomical variability, Unsupervised Anomaly Detection (UAD) methods are proposed, detecting anomalies as outliers of a healthy model learned using a Variational Autoencoder (VAE). Previous work on UAD adopted a 2D approach, meaning that MRIs are processed as a collection of independent slices. Yet, it does not fully exploit the spatial information contained in MRI. Here, we propose to perform UAD in a 3D fashion and compare 2D and 3D VAEs. As a side contribution, we present a new loss function guarantying a robust training. Learning is performed using a multicentric dataset of healthy brain MRIs, and segmentation performances are estimated on White-Matter Hyperintensities and tumors lesions. Experiments demonstrate the interest of 3D methods which outperform their 2D counterparts.
翻訳日:2021-03-14 11:08:48 公開日:2021-01-26
# (参考訳) FDApy: 関数型データのためのPythonパッケージ [全文訳有]

FDApy: a Python package for functional data ( http://arxiv.org/abs/2101.11003v1 )

ライセンス: CC BY 4.0
Steven Golovkine(参考訳) 機能データの実装として、PythonパッケージであるFDApyを紹介します。 このパッケージは、そのようなデータの分析のためのモジュールを提供する。 異なる次元データと不規則にサンプリングされた機能データのためのクラスを含む。 シミュレーションツールボックスも備えている。 異なる関数データのクラスタをシミュレートするために使われるかもしれない。 これらのデータを扱ういくつかの方法論は、次元の縮小やクラスタリングなど、実装されている。 新しいメソッドを簡単に追加できる。 このパッケージはPython Package IndexとGithubで公開されている。

We introduce the Python package, FDApy, as an implementation of functional data. This package provide modules for the analysis of such data. It includes classes for different dimensional data as well as irregularly sampled functional data. A simulation toolbox is also provided. It might be used to simulate different clusters of functional data. Some methodologies to handle these data are implemented, such as dimension reduction and clustering. New methods can be easily added. The package is publicly available on the Python Package Index and Github.
翻訳日:2021-03-14 11:00:32 公開日:2021-01-26
# (参考訳) AINet:Superpixel SegmentationのAssociation Implantation [全文訳有]

AINet: Association Implantation for Superpixel Segmentation ( http://arxiv.org/abs/2101.10696v1 )

ライセンス: CC BY 4.0
Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu, Yi Yang(参考訳) 近年,深層畳み込みネットワークを利用してスーパーピクセルのセグメンテーションを容易にする手法が提案されている。 一般的なプラクティスは、まず画像を事前に定義されたグリッド数に均等に分割し、各ピクセルを周囲のグリッドと関連付けることを学ぶことです。 しかし、限られた受容体を持つ一連の畳み込み演算を適用するだけで、ピクセルとその周辺グリッドの関係を暗黙的に知覚できるだけである。 したがって、既存のメソッドはアソシエーションマップを推論する際に効果的なコンテキストを提供しないことが多い。 そこで本研究では,ネットワークが画素とその周辺格子の関係を明示的に捉えることを可能にする新しい \textbf{A}ssociation \textbf{I}mplantation (AI) モジュールを提案する。 提案したAIモジュールは、グリッドセルの特徴を対応する中央画素の周囲に直接注入し、パッドウィンドウ上で畳み込みを行い、それらの間の知識を適応的に伝達する。 このような埋め込み操作により、ネットワークは、ピクセル-グリッドレベルのコンテキストを明示的に取り出すことができ、これは、ピクセル-ワイド関係と比較して、スーパーピクセルセグメンテーションのターゲットとより一致している。 さらに、より高い境界精度を追求するために、ネットワークが隠れた特徴レベルで境界周辺のピクセルを識別するのに役立つ境界知覚損失を設計します。 BSDS500およびNYUv2データセットに関する広範な実験は、我々の手法が最先端のパフォーマンスを達成するだけでなく、十分な推論効率を維持することを示した。

Recently, some approaches are proposed to harness deep convolutional networks to facilitate superpixel segmentation. The common practice is to first evenly divide the image into a pre-defined number of grids and then learn to associate each pixel with its surrounding grids. However, simply applying a series of convolution operations with limited receptive fields can only implicitly perceive the relations between the pixel and its surrounding grids. Consequently, existing methods often fail to provide an effective context when inferring the association map. To remedy this issue, we propose a novel \textbf{A}ssociation \textbf{I}mplantation (AI) module to enable the network to explicitly capture the relations between the pixel and its surrounding grids. The proposed AI module directly implants the features of grid cells to the surrounding of its corresponding central pixel, and conducts convolution on the padded window to adaptively transfer knowledge between them. With such an implantation operation, the network could explicitly harvest the pixel-grid level context, which is more in line with the target of superpixel segmentation comparing to the pixel-wise relation. Furthermore, to pursue better boundary precision, we design a boundary-perceiving loss to help the network discriminate the pixels around boundaries in hidden feature level, which could benefit the subsequent inferring modules to accurately identify more boundary pixels. Extensive experiments on BSDS500 and NYUv2 datasets show that our method could not only achieve state-of-the-art performance but maintain satisfactory inference efficiency.
翻訳日:2021-03-14 10:29:16 公開日:2021-01-26
# (参考訳) 新しい述語に対する意味的パーシング [全文訳有]

Few-Shot Semantic Parsing for New Predicates ( http://arxiv.org/abs/2101.10708v1 )

ライセンス: CC BY 4.0
Zhuang Li, Lizhen Qu, Shuo Huang, Gholamreza Haffari(参考訳) 本研究では,数発学習環境における意味解析の問題点について検討する。 この設定では、新しい述語ごとに発話論理形式のペアを提供する。 最先端のニューラルネットワークセマンティックパーザは、k=1のベンチマークデータセットで25%未満の精度を達成する。 この問題に対処するため,i)モデルトレーニングにメタラーニング法を適用し,i)アライメント統計を用いたアライメントスコアの正規化を行い,iii)事前学習にスムーズな手法を適用した。 その結果,本手法は1ショットと2ショットの両設定において,ベースラインを一貫して上回っている。

In this work, we investigate the problems of semantic parsing in a few-shot learning setting. In this setting, we are provided with utterance-logical form pairs per new predicate. The state-of-the-art neural semantic parsers achieve less than 25% accuracy on benchmark datasets when k= 1. To tackle this problem, we proposed to i) apply a designated meta-learning method to train the model; ii) regularize attention scores with alignment statistics; iii) apply a smoothing technique in pre-training. As a result, our method consistently outperforms all the baselines in both one and two-shot settings.
翻訳日:2021-03-14 10:12:45 公開日:2021-01-26
# (参考訳) 境界手法に基づく時系列の短期予測

Short-term prediction of Time Series based on bounding techniques ( http://arxiv.org/abs/2101.10719v1 )

ライセンス: CC BY 4.0
Pedro Cadah\'ia and Jose Manuel Bravo Caro(参考訳) 本稿では,新しい非パラメトリック手法を用いて,時系列フレームワークにおける予測問題を再検討する。 この再検討により、過去の観測データの重み付け和によって予測を得る。 これらの重みは、予測誤差の外界を最小限に抑える制約付き線形最適化問題を解くことで得られる。 予測誤差の上限を得るために決定論的仮定と確率的仮定の両方を考慮し、これらの決定論的確率的仮定のバランスをとるためにチューニングパラメータを用いて予測器の性能を向上させる。 提案する予測器が予測スキームにおいて適切な結果を得ることができ、古典的非パラメトリック法に対する興味深い代替手段であることを示すためのベンチマークを含む。 さらに、このモデルが、短時間の予測で既存のモデルよりも優れていることを示す。

In this paper it is reconsidered the prediction problem in time series framework by using a new non-parametric approach. Through this reconsideration, the prediction is obtained by a weighted sum of past observed data. These weights are obtained by solving a constrained linear optimization problem that minimizes an outer bound of the prediction error. The innovation is to consider both deterministic and stochastic assumptions in order to obtain the upper bound of the prediction error, a tuning parameter is used to balance these deterministic-stocha stic assumptions in order to improve the predictor performance. A benchmark is included to illustrate that the proposed predictor can obtain suitable results in a prediction scheme, and can be an interesting alternative method to the classical non-parametric methods. Besides, it is shown how this model can outperform the preexisting ones in a short term forecast.
翻訳日:2021-03-14 09:51:56 公開日:2021-01-26
# (参考訳) 画像と映像のデノイジングのための空間的・時空間的ピクセル集約の学習 [全文訳有]

Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and Video Denoising ( http://arxiv.org/abs/2101.10760v1 )

ライセンス: CC BY 4.0
Xiangyu Xu, Muchen Li, Wenxiu Sun, Ming-Hsuan Yang(参考訳) 既存の denoising 法は、通常、ノイズ入力からピクセルを集約することで明確な結果を復元する。 我々は手作りのアグリゲーションスキームに頼る代わりに、ディープニューラルネットワークを用いてこのプロセスを明示的に学習することを提案する。 空間画素集約ネットワークを提案し,画像復調のための画素サンプリングと平均化戦略を学習する。 提案手法は自然に画像構造に適応し,実測結果を効果的に改善する。 さらに,時空間にまたがる画素を効率的にサンプリングするために,映像デノイジングのための時空間画素集約ネットワークを開発した。 本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。 さらに,提案手法を効果的に学習するための新たな正規化用語を提案する。 提案手法を広範に解析し,本モデルが合成・実世界の両データに対して最先端の画像とビデオデノベーションアプローチに対して良好に動作することを示す。

Existing denoising methods typically restore clear results by aggregating pixels from the noisy input. Instead of relying on hand-crafted aggregation schemes, we propose to explicitly learn this process with deep neural networks. We present a spatial pixel aggregation network and learn the pixel sampling and averaging strategies for image denoising. The proposed model naturally adapts to image structures and can effectively improve the denoised results. Furthermore, we develop a spatio-temporal pixel aggregation network for video denoising to efficiently sample pixels across the spatio-temporal space. Our method is able to solve the misalignment issues caused by large motion in dynamic scenes. In addition, we introduce a new regularization term for effectively training the proposed video denoising model. We present extensive analysis of the proposed method and demonstrate that our model performs favorably against the state-of-the-art image and video denoising approaches on both synthetic and real-world data.
翻訳日:2021-03-14 09:18:15 公開日:2021-01-26
# (参考訳) ディーゼルゲート様偽装防止法におけるより良いサンプリング法 [全文訳有]

Better sampling in explanation methods can prevent dieselgate-like deception ( http://arxiv.org/abs/2101.11702v1 )

ライセンス: CC BY 4.0
Domen Vre\v{s} and Marko Robnik \v{S}ikonja(参考訳) 機械学習モデルは、予測精度に加えて、理解性も重要である多くのセンシティブな領域で使用されている。 予測モデルの解釈可能性は、そのバイアスやエラーの原因を決定するために必要であり、ユーザの自信の必要条件である。 複雑な最先端のブラックボックスモデルの場合、ポストホックモデルに依存しない説明技術は確立されたソリューションです。 IME、LIME、SHAPなどのポピュラーで効果的なテクニックは、インスタンス機能の摂動を使用して個々の予測を説明します。 最近Slackなどが登場している。 (2020年)は, 摂動サンプリングが不十分なため, 結果が操作可能であることを示し, 頑健さを疑問視した。 この弱点は、調査を欺き、予測モデルに存在する非倫理的または違法なバイアスを隠蔽できる、機密性の高いモデルの所有者をディーゼルゲート型不正にすることを可能にする。 これにより、機械学習モデルに対する一般の信頼が損なわれ、その使用に関する法的制限が生じる可能性がある。 これらの説明方法のサンプリングが悪質な操作を防いでいることを示す。 提案するサンプリングは、トレーニングセットの分布を学習し、トレーニングセットに非常によく似た新しい摂動インスタンスを生成するデータジェネレータを使用する。 改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。

Machine learning models are used in many sensitive areas where besides predictive accuracy their comprehensibility is also important. Interpretability of prediction models is necessary to determine their biases and causes of errors, and is a necessary prerequisite for users' confidence. For complex state-of-the-art black-box models post-hoc model-independent explanation techniques are an established solution. Popular and effective techniques, such as IME, LIME, and SHAP, use perturbation of instance features to explain individual predictions. Recently, Slack et al. (2020) put their robustness into question by showing that their outcomes can be manipulated due to poor perturbation sampling employed. This weakness would allow dieselgate type cheating of owners of sensitive models who could deceive inspection and hide potentially unethical or illegal biases existing in their predictive models. This could undermine public trust in machine learning models and give rise to legal restrictions on their use. We show that better sampling in these explanation methods prevents malicious manipulations. The proposed sampling uses data generators that learn the training set distribution and generate new perturbation instances much more similar to the training set. We show that the improved sampling increases the robustness of the LIME and SHAP, while previously untested method IME is already the most robust of all.
翻訳日:2021-03-14 08:52:18 公開日:2021-01-26
# (参考訳) 音響画像表現学習のための大規模データセットの自動キュレーション [全文訳有]

Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning ( http://arxiv.org/abs/2101.10803v1 )

ライセンス: CC BY 4.0
Sangho Lee, Jiwan Chung, Youngjae Yu, Gunhee Kim, Thomas Breuel, Gal Chechik, Yale Song(参考訳) 大規模データセットは自己監視型表現学習の基礎となる。 既存のアルゴリズムは、時空間連続性やマルチモーダル対応など、データの特定の仮定をすることで学習信号を抽出する。 残念ながら、このような仮定を満たす大量のデータを見つけるのは簡単ではない。 これにより、コミュニティは手間のかかるアノテーションや手動フィルタリングプロセスを必要とするデータセットに頼ることが制限されます。 本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。 視聴覚表現学習のシナリオに注目し、映像内の音声と視覚チャネル間の相互情報を最大化するサブセットを見つけることで問題を提起します。 本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。 私たちのアプローチの最も大きなメリットはスケーラビリティです。 我々はこのアプローチで自動収集した音声・視覚研究のための最大のビデオデータセットをリリースする。

Large-scale datasets are the cornerstone of self-supervised representation learning. Existing algorithms extract learning signals by making certain assumptions about the data, e.g., spatio-temporal continuity and multimodal correspondence. Unfortunately, finding a large amount of data that satisfies such assumptions is sometimes not straightforward. This restricts the community to rely on datasets that require laborious annotation and/or manual filtering processes. In this paper, we describe a subset optimization approach for automatic dataset curation. Focusing on the scenario of audio-visual representation learning, we pose the problem as finding a subset that maximizes the mutual information between audio and visual channels in videos. We demonstrate that our approach finds videos with high audio-visual correspondence and show that self-supervised models trained on our data, despite being automatically constructed, achieve similar downstream performances to existing video datasets with similar scales. The most significant benefit of our approach is scalability. We release the largest video dataset for audio-visual research collected automatically using our approach.
翻訳日:2021-03-14 08:28:41 公開日:2021-01-26
# (参考訳) Spark NLP: スケールでの自然言語理解 [全文訳有]

Spark NLP: Natural Language Understanding at Scale ( http://arxiv.org/abs/2101.10848v1 )

ライセンス: CC BY 4.0
Veysel Kocaman, David Talby(参考訳) Spark NLPは、Apache Spark ML上に構築された自然言語処理(NLP)ライブラリである。 分散環境で容易にスケール可能な機械学習パイプラインに、シンプルで高性能で正確なnlpアノテーションを提供する。 Spark NLPには、192以上の言語で1100以上の事前トレーニングパイプラインとモデルが含まれている。 クラスタ内でシームレスに使用できるほぼすべてのNLPタスクとモジュールをサポートしています。 ダウンロード数は270万回を超え、2020年1月から9倍の成長を遂げたSpark NLPは、企業で最も広く使用されているNLPライブラリとして、54%のヘルスケア組織で使用されています。

Spark NLP is a Natural Language Processing (NLP) library built on top of Apache Spark ML. It provides simple, performant and accurate NLP annotations for machine learning pipelines that can scale easily in a distributed environment. Spark NLP comes with 1100 pre trained pipelines and models in more than 192 languages. It supports nearly all the NLP tasks and modules that can be used seamlessly in a cluster. Downloaded more than 2.7 million times and experiencing nine times growth since January 2020, Spark NLP is used by 54% of healthcare organizations as the worlds most widely used NLP library in the enterprise.
翻訳日:2021-03-14 07:53:06 公開日:2021-01-26
# (参考訳) I Beg to Differ: オンライン会話における構成的不一致に関する研究 [全文訳有]

I Beg to Differ: A study of constructive disagreement in online conversations ( http://arxiv.org/abs/2101.10917v1 )

ライセンス: CC BY 4.0
Christine de Kock and Andreas Vlachos(参考訳) 不一致は人間のコミュニケーションに広まります。 本稿では,不一致の発生要因について考察する。 この目的のために、コンテンツ紛争を含む7 425 Wikipedia Talkページの会話のコーパスであるWikiDisputesを構築し、モデレーターによる調停に不一致がエスカレートされるかどうかを予測するタスクを定義します。 従来研究の言語マーカーを用いた特徴に基づくモデルを評価し,平均値とは対照的に,会話中の言語マーカーの変化を捉えた特徴を用いて,その性能が向上することを実証した。 さまざまなニューラルモデルを開発し、会話の構造を考慮して、特徴に基づくモデルを超える予測精度を向上させることを示しています。 予測精度と不確実性を両面から評価し,会話開始時のみにその振る舞いを評価することにより,モデル精度が向上し,モデルがより多くの情報に晒されるにつれて不確実性が低下することを確認した。

Disagreements are pervasive in human communication. In this paper we investigate what makes disagreement constructive. To this end, we construct WikiDisputes, a corpus of 7 425 Wikipedia Talk page conversations that contain content disputes, and define the task of predicting whether disagreements will be escalated to mediation by a moderator. We evaluate feature-based models with linguistic markers from previous work, and demonstrate that their performance is improved by using features that capture changes in linguistic markers throughout the conversations, as opposed to averaged values. We develop a variety of neural models and show that taking into account the structure of the conversation improves predictive accuracy, exceeding that of feature-based models. We assess our best neural model in terms of both predictive accuracy and uncertainty by evaluating its behaviour when it is only exposed to the beginning of the conversation, finding that model accuracy improves and uncertainty reduces as models are exposed to more information.
翻訳日:2021-03-14 07:43:51 公開日:2021-01-26
# (参考訳) 注意は構文構造を反映する(許せば) [全文訳有]

Attention Can Reflect Syntactic Structure (If You Let It) ( http://arxiv.org/abs/2101.10927v1 )

ライセンス: CC BY 4.0
Vinit Ravishankar, Artur Kulmizev, Mostafa Abdou, Anders S{\o}gaard, Joakim Nivre(参考訳) NLPの汎用機能エンコーダとしてのトランスフォーマーの普及以来、多くの研究は、その新しいマルチヘッド注意メカニズムから言語構造を解読しようと試みてきた。 しかし、これらの作品の多くは、厳格な語順と屈折形態の欠如した言語である英語にのみ焦点が当てられている。 本研究では,18言語にわたる多言語BERTの復号化実験を行い,依存性構文が注意パターンに反映されているという主張の一般化性を検証する。 単一注意頭からベースライン精度以上で全木をデコードでき、言語間の同一の頭によって個々の関係が追跡されることがよく示される。 さらに, 解説メカニズムとしての注目の現状に関する最近の議論に対処するために, パラメータの異なる系列を凍結しながら, 教師付きパース対象のmBERTの微調整実験を行った。 興味深いことに、明示的な言語構造を学ぶ目的を操作する際には、結果として生じる注意パターンで表される同じ構造の多くを見つけ、どのパラメータが凍結されるかに関して興味深い違いがあります。

Since the popularization of the Transformer as a general-purpose feature encoder for NLP, many studies have attempted to decode linguistic structure from its novel multi-head attention mechanism. However, much of such work focused almost exclusively on English -- a language with rigid word order and a lack of inflectional morphology. In this study, we present decoding experiments for multilingual BERT across 18 languages in order to test the generalizability of the claim that dependency syntax is reflected in attention patterns. We show that full trees can be decoded above baseline accuracy from single attention heads, and that individual relations are often tracked by the same heads across languages. Furthermore, in an attempt to address recent debates about the status of attention as an explanatory mechanism, we experiment with fine-tuning mBERT on a supervised parsing objective while freezing different series of parameters. Interestingly, in steering the objective to learn explicit linguistic structure, we find much of the same structure represented in the resulting attention patterns, with interesting differences with respect to which parameters are frozen.
翻訳日:2021-03-14 07:29:18 公開日:2021-01-26
# (参考訳) 「あなたやあなたと一緒に笑う」:不合理空間形成におけるサーカスムの役割 [全文訳有]

"Laughing at you or with you": The Role of Sarcasm in Shaping the Disagreement Space ( http://arxiv.org/abs/2101.10952v1 )

ライセンス: CC BY 4.0
Debanjan Ghosh, Ritvik Shrivastava, and Smaranda Muresan(参考訳) オンラインインタラクションにおける議論の検出は、コンフリクトの発生と解決方法を理解する上で有用である。 ユーザーはしばしば、説得力のあるデバイスとして、またはアドホミネム引数で相手を攻撃するために、sarcasmなどの具象言語を使用します。 さらに,不一致空間の形成におけるサーカズムの役割をより深く理解するために,議論的な動き(語源/語源)とサルカズムの両方に注釈を付したコーパスを用いて,徹底的な実験を行う。 a) 議論関係分類(agree/disagree/none )のタスクにsarcasmを検出するのに有用な離散的特徴を適用すること、(b) ディープラーニングアーキテクチャ(例えば、階層的注意とTransformerベースのアーキテクチャを備えたデュアルLong Short-Term Memory(LSTM)を使用して、議論関係分類およびsarcasm検出のためのマルチタスク学習。 モデルサルカズムは,すべての設定において議論的関係分類タスク(agree/disagree/none )を改善することを実証する。

Detecting arguments in online interactions is useful to understand how conflicts arise and get resolved. Users often use figurative language, such as sarcasm, either as persuasive devices or to attack the opponent by an ad hominem argument. To further our understanding of the role of sarcasm in shaping the disagreement space, we present a thorough experimental setup using a corpus annotated with both argumentative moves (agree/disagree) and sarcasm. We exploit joint modeling in terms of (a) applying discrete features that are useful in detecting sarcasm to the task of argumentative relation classification (agree/disagree/none ), and (b) multitask learning for argumentative relation classification and sarcasm detection using deep learning architectures (e.g., dual Long Short-Term Memory (LSTM) with hierarchical attention and Transformer-based architectures). We demonstrate that modeling sarcasm improves the argumentative relation classification task (agree/disagree/none ) in all setups.
翻訳日:2021-03-14 07:08:34 公開日:2021-01-26
# (参考訳) CNN解釈のための入力摂動法の評価とSaliency Mapの比較 [全文訳有]

Evaluating Input Perturbation Methods for Interpreting CNNs and Saliency Map Comparison ( http://arxiv.org/abs/2101.10977v1 )

ライセンス: CC BY 4.0
Lukas Brunke, Prateek Agrawal, Nikhil George(参考訳) 入力摂動法は、関数への入力の一部を遮断し、関数の出力の変化を測定する。 近年,畳み込みニューラルネットワークからサリエンシマップの生成と評価に入力摂動法が適用されている。 実際には、中性ベースライン画像は閉塞のために使用され、ベースライン画像の分類確率への影響は最小限である。 しかし,本論文では,中立なベースライン画像が生成したサリエンシマップと入力摂動による評価に依然として影響を与えていることを示す。 また,多くのパラメータ選択が入力摂動によって生じる塩分マップのばらつきにつながることを示す。 入力摂動法における不一致を実験的に明らかにし, サリエンシーマップの生成やサリエンシーマップをサリエンシーメトリクスとして評価するための堅牢性が欠如していることを確認した。

Input perturbation methods occlude parts of an input to a function and measure the change in the function's output. Recently, input perturbation methods have been applied to generate and evaluate saliency maps from convolutional neural networks. In practice, neutral baseline images are used for the occlusion, such that the baseline image's impact on the classification probability is minimal. However, in this paper we show that arguably neutral baseline images still impact the generated saliency maps and their evaluation with input perturbations. We also demonstrate that many choices of hyperparameters lead to the divergence of saliency maps generated by input perturbations. We experimentally reveal inconsistencies among a selection of input perturbation methods and find that they lack robustness for generating saliency maps and for evaluating saliency maps as saliency metrics.
翻訳日:2021-03-14 06:43:01 公開日:2021-01-26
# (参考訳) 量子機械学習モデルはカーネル手法である [全文訳有]

Quantum machine learning models are kernel methods ( http://arxiv.org/abs/2101.11020v1 )

ライセンス: CC BY 4.0
Maria Schuld(参考訳) 近い将来の量子デバイスが利用可能になり、フォールトトレラント量子コンピュータの競争が本格化し、研究者は機械学習モデルを量子回路に置き換えるとどうなるかという問題に関心を持つようになった。 このような「量子モデル」は「量子ニューラルネットワーク」と呼ばれることもあるが、それらの数学的構造は実際はカーネルの手法と非常に密接な関係にあると繰り返し指摘されている。 この技術写本は、量子モデルをカーネルメソッドとして体系的に言い換えることでリンクを要約し、形式化し、拡張する。 これは、ほとんどの短期的およびフォールトトレラント量子モデルは、カーネルがデータエンコード量子状態間の距離を計算する一般的なサポートベクトルマシンに置き換えることができることを示している。 特にカーネルベースのトレーニングは、変分回路のトレーニングよりも優れた、あるいは同等に優れた量子モデルを見つけることが保証されている。 全体として、量子機械学習のカーネルパースペクティブは、データが量子状態にエンコードされる方法が、古典的な機械学習モデルとは別に量子モデルを設定できる主要な要素であることを示している。

With near-term quantum devices available and the race for fault-tolerant quantum computers in full swing, researchers became interested in the question of what happens if we replace a machine learning model with a quantum circuit. While such "quantum models" are sometimes called "quantum neural networks", it has been repeatedly noted that their mathematical structure is actually much more closely related to kernel methods: they analyse data in high-dimensional Hilbert spaces to which we only have access through inner products revealed by measurements. This technical manuscript summarises, formalises and extends the link by systematically rephrasing quantum models as a kernel method. It shows that most near-term and fault-tolerant quantum models can be replaced by a general support vector machine whose kernel computes distances between data-encoding quantum states. In particular, kernel-based training is guaranteed to find better or equally good quantum models than variational circuit training. Overall, the kernel perspective of quantum machine learning tells us that the way that data is encoded into quantum states is the main ingredient that can potentially set quantum models apart from classical machine learning models.
翻訳日:2021-03-14 06:01:48 公開日:2021-01-26
# (参考訳) ランダムな形式的文脈の形式的概念について [全文訳有]

On formal concepts of random formal contexts ( http://arxiv.org/abs/2101.11023v1 )

ライセンス: CC BY 4.0
Taro Sakurai (Chiba University)(参考訳) 形式的概念解析では、最悪の場合、形式的概念の数は指数関数的であることが知られている。 平均ケースを解析するために、ランダムな形式的文脈に対する確率モデルを導入し、形式的概念の平均数が超ポリノミカル漸近的下界を持つことを示す。

In formal concept analysis, it is well-known that the number of formal concepts can be exponential in the worst case. To analyze the average case, we introduce a probabilistic model for random formal contexts and prove that the average number of formal concepts has a superpolynomial asymptotic lower bound.
翻訳日:2021-03-14 05:15:59 公開日:2021-01-26
# (参考訳) Muppet: 事前ネットワークによる大規模マルチタスク表現 [全文訳有]

Muppet: Massive Multi-task Representations with Pre-Finetuning ( http://arxiv.org/abs/2101.11038v1 )

ライセンス: CC BY 4.0
Armen Aghajanyan, Anchit Gupta, Akshat Shrivastava, Xilun Chen, Luke Zettlemoyer, Sonal Gupta(参考訳) 本稿では,言語モデルの事前学習と微調整の間の大規模学習ステージであるpre-finetuningを提案する。 事前調整は、大量のマルチタスク学習(約50のデータセット、合計480万のラベル付きサンプル)であり、多くの異なるタスクに一般化する表現の学習を促進するように設計されている。 事前精細化は,事前学習された判別器(例:roberta)と生成モデル(例:bart)の性能を,幅広いタスク(sentence prediction, commonsense reasoning, mrcなど)において一貫して向上させる。 また,微調整時の試料効率も有意に向上した。 また,大規模マルチタスクが重要であり,タスク数において性能が線形に向上する臨界点(通常15以上)までタスクがほとんど使用されない場合,プレファクチュニングがパフォーマンスを損なう可能性があることを示す。

We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. Pre-finetuning is massively multi-task learning (around 50 datasets, over 4.8 million total labeled examples), and is designed to encourage learning of representations that generalize better to many different tasks. We show that pre-finetuning consistently improves performance for pretrained discriminators (e.g.~RoBERTa) and generation models (e.g.~BART) on a wide range of tasks (sentence prediction, commonsense reasoning, MRC, etc.), while also significantly improving sample efficiency during fine-tuning. We also show that large-scale multi-tasking is crucial; pre-finetuning can hurt performance when few tasks are used up until a critical point (usually above 15) after which performance improves linearly in the number of tasks.
翻訳日:2021-03-14 05:06:45 公開日:2021-01-26
# (参考訳) 補複合化の最小化, 一般ノルムの小勾配化, 回帰問題への応用 [全文訳有]

Complementary Composite Minimization, Small Gradients in General Norms, and Applications to Regression Problems ( http://arxiv.org/abs/2101.11041v1 )

ライセンス: CC BY 4.0
Jelena Diakonikolas and Crist\'obal Guzm\'an(参考訳) コンポジット最小化は、目的関数を構造的に異なる特性と分離し、より柔軟なアルゴリズム設計を可能にする大規模凸最適化の強力なフレームワークである。 本研究では, 対象関数が(弱く)滑らかかつ一様凸な項に分解する, 相補的複合最小化のための新しいアルゴリズムフレームワークを提案する。 分離のこの特定の形態は、正規化へのリンクのために、統計学と機械学習に広がっている。 私たちの仕事の主な貢献は以下のとおりである。 第1に,一般のノルム空間における相補的複合最小化の問題,第2に相補的複合最小化問題の幅広いクラスに対応する統一的高速化アルゴリズムフレームワーク,第3に,標準最適化設定のほとんどにおいて,このフレームワークによるアルゴリズムがほぼ最適であることを示す。 さらに,我々のアルゴリズムフレームワークは,一般のノルム空間において勾配を小さくする問題に対処するために利用できることを示した。 具体例として、標準的な $\ell_1$ セットアップ($\ell_\infty$ ノルムの小さな勾配)の概最適化法が得られ、本質的には、以前はユークリッド集合でのみ知られていた Nesterov (2012) の境界に一致する。 最後に、私たちのコンポジットメソッドは、多くの回帰問題に広く適用され、新しいものや既存のものと一致する複雑さの境界につながることを示しています。

Composite minimization is a powerful framework in large-scale convex optimization, based on decoupling of the objective function into terms with structurally different properties and allowing for more flexible algorithmic design. In this work, we introduce a new algorithmic framework for complementary composite minimization, where the objective function decouples into a (weakly) smooth and a uniformly convex term. This particular form of decoupling is pervasive in statistics and machine learning, due to its link to regularization. The main contributions of our work are summarized as follows. First, we introduce the problem of complementary composite minimization in general normed spaces; second, we provide a unified accelerated algorithmic framework to address broad classes of complementary composite minimization problems; and third, we prove that the algorithms resulting from our framework are near-optimal in most of the standard optimization settings. Additionally, we show that our algorithmic framework can be used to address the problem of making the gradients small in general normed spaces. As a concrete example, we obtain a nearly-optimal method for the standard $\ell_1$ setup (small gradients in the $\ell_\infty$ norm), essentially matching the bound of Nesterov (2012) that was previously known only for the Euclidean setup. Finally, we show that our composite methods are broadly applicable to a number of regression problems, leading to complexity bounds that are either new or match the best existing ones.
翻訳日:2021-03-14 04:47:54 公開日:2021-01-26
# (参考訳) LDLE: 低歪み局所固有写像

LDLE: Low Distortion Local Eigenmaps ( http://arxiv.org/abs/2101.11055v1 )

ライセンス: CC BY 4.0
Dhruv Kohli, Alexander Cloninger, Gal Mishne(参考訳) 本稿では、低次元のデータセットの低歪み局所ビューのセットを構築し、それらを登録してグローバル埋め込みを取得するマニホールド学習技術である低歪み局所固有マップ(LDLE)を紹介します。 局所ビューはグラフラプラシアンのグローバル固有ベクトルを用いて構築され、procrustes分析を用いて登録される。 これらの固有ベクトルの選択は地域によって異なる。 既存の手法とは対照的に、LDLEはより幾何学的であり、境界のない多様体や非向き多様体を固有の次元に埋め込むことができる。

We present Low Distortion Local Eigenmaps (LDLE), a manifold learning technique which constructs a set of low distortion local views of a dataset in lower dimension and registers them to obtain a global embedding. The local views are constructed using the global eigenvectors of the graph Laplacian and are registered using Procrustes analysis. The choice of these eigenvectors may vary across the regions. In contrast to existing techniques, LDLE is more geometric and can embed manifolds without boundary as well as non-orientable manifolds into their intrinsic dimension.
翻訳日:2021-03-14 03:11:57 公開日:2021-01-26
# (参考訳) 少数のショット分類のためのコントラスト学習の再考 [全文訳有]

Revisiting Contrastive Learning for Few-Shot Classification ( http://arxiv.org/abs/2101.11058v1 )

ライセンス: CC BY 4.0
Orchid Majumder, Avinash Ravichandran, Subhransu Maji, Marzia Polito, Rahul Bhotika, Stefano Soatto(参考訳) インスタンス識別に基づくコントラスト学習は,視覚表現の自己教師あり学習の指導的アプローチとして現れてきた。 しかし、その新しいタスクへの一般化は、特に数ショット設定において、監督で学んだ表現と比較すると、わかりにくいままである。 インスタンス差別に基づく対照的自己監督学習フレームワークに監督を組み込むことで、新しいタスクに一般化する表現を学習する方法を実証する。 当社のアプローチをCIDS(Contrastive Instance Discrimination with Supervision)と呼んでいる。 CIDSは、Mini-ImageNetやTiered-ImageNetのような人気のある数ショットベンチマークの既存のアルゴリズムと比較して有利に実行されます。 また,cidを用いてトレーニングされた普遍埋め込みと組み合わせて,挑戦的メタデータセットベンチマークにおいて最先端アルゴリズムを上回って利用できる新しいモデル選択アルゴリズムを提案する。

Instance discrimination based contrastive learning has emerged as a leading approach for self-supervised learning of visual representations. Yet, its generalization to novel tasks remains elusive when compared to representations learned with supervision, especially in the few-shot setting. We demonstrate how one can incorporate supervision in the instance discrimination based contrastive self-supervised learning framework to learn representations that generalize better to novel tasks. We call our approach CIDS (Contrastive Instance Discrimination with Supervision). CIDS performs favorably compared to existing algorithms on popular few-shot benchmarks like Mini-ImageNet or Tiered-ImageNet. We also propose a novel model selection algorithm that can be used in conjunction with a universal embedding trained using CIDS to outperform state-of-the-art algorithms on the challenging Meta-Dataset benchmark.
翻訳日:2021-03-14 03:10:45 公開日:2021-01-26
# (参考訳) 分類器の多段階物理ドメイン攻撃に対する防御 [全文訳有]

Defenses Against Multi-Sticker Physical Domain Attacks on Classifiers ( http://arxiv.org/abs/2101.11060v1 )

ライセンス: CC BY 4.0
Xinwei Zhao and Matthew C. Stamm(参考訳) 近年、物理ドメインの敵対的攻撃は機械学習コミュニティから大きな注目を集めている。 Eykholtらによって提案された1つの重要な攻撃。 道路標識などの物体に白黒のステッカーを付けて分類器を騙すことができる。 この攻撃は視覚的分類器に重大な脅威を与える可能性があるが、現在この攻撃から保護するために設計された防御策はない。 本稿では,マルチスティック攻撃から防御できる新たな防御策を提案する。 我々は、ディフェンダーが攻撃に関する完全な、部分的、および事前の情報を持っていない場合に動作できる防御戦略を提示します。 広範な実験を行うことで,提案する防御が,マルチステッカー攻撃を提示した場合の物理的攻撃に対する既存の防御を上回ることを示す。

Recently, physical domain adversarial attacks have drawn significant attention from the machine learning community. One important attack proposed by Eykholt et al. can fool a classifier by placing black and white stickers on an object such as a road sign. While this attack may pose a significant threat to visual classifiers, there are currently no defenses designed to protect against this attack. In this paper, we propose new defenses that can protect against multi-sticker attacks. We present defensive strategies capable of operating when the defender has full, partial, and no prior information about the attack. By conducting extensive experiments, we show that our proposed defenses can outperform existing defenses against physical attacks when presented with a multi-sticker attack.
翻訳日:2021-03-14 02:48:43 公開日:2021-01-26
# (参考訳) MineRL 2020 Competition on Sample Efficient Reinforcement Learning using Human Priors

The MineRL 2020 Competition on Sample Efficient Reinforcement Learning using Human Priors ( http://arxiv.org/abs/2101.11071v1 )

ライセンス: CC BY 4.0
William H. Guss, Mario Ynocente Castro, Sam Devlin, Brandon Houghton, Noboru Sean Kuno, Crissman Loomis, Stephanie Milani, Sharada Mohanty, Keisuke Nakata, Ruslan Salakhutdinov, John Schulman, Shinya Shiroshita, Nicholay Topin, Avinash Ummadisingu, Oriol Vinyals(参考訳) 深い強化学習は多くの困難な領域で突破口をたどったが、これらの成功は、さらに多くのサンプルを必要としており、AIコミュニティが開発にアクセスできる部分の縮小にしかならない。 これらの制限の解決には、新しいサンプル効率の方法が必要である。 この方向の研究を容易にするため,MineRLコンペティションの第2版を提案する。 競争の主な目標は、人間のデモンストレーションを効率的に活用し、複雑で階層的でスパースな環境を解決するために必要なサンプルの数を大幅に削減できるアルゴリズムの開発を促進することです。 そのために、参加者は、マインクラフトのMineRL ObtainDiamondタスク、長期計画、階層的制御、効率的な探索方法を必要とする連続的な意思決定環境を解決するシステムを開発するために、限られた環境のサンプルコンプレックス予算の下で競争します。 コンペティションは2ラウンドに分かれており、競技者は異なるゲームテクスチャとシェーダーを備えたデータセットと環境のペアバージョンを複数用意されている。 各ラウンドの最後に、競合他社は自身の学習アルゴリズムのコンテナ化バージョンをAIcrowdプラットフォームに送信し、事前に特定されたハードウェアプラットフォーム上で、合計4日間のデータセット環境ペアをスクラッチからトレーニングする。 このNeurIPS 2019 MineRLコンペティションのフォローアップイテレーションでは、競技の規模と到達範囲を拡大するための新機能を実装しています。 これまでの参加者のフィードバックに応えて,テスト時間以外の環境相互作用にアクセスできないソリューションに焦点を当てた,第2のマイナートラックを紹介した。 さらに,行動空間のランダム化や観測や行動のデママント化など,いくつかの新しい競争機構を実装することで,ドメイン非依存の提出を促すことを目的とする。

Although deep reinforcement learning has led to breakthroughs in many difficult domains, these successes have required an ever-increasing number of samples, affording only a shrinking segment of the AI community access to their development. Resolution of these limitations requires new, sample-efficient methods. To facilitate research in this direction, we propose this second iteration of the MineRL Competition. The primary goal of the competition is to foster the development of algorithms which can efficiently leverage human demonstrations to drastically reduce the number of samples needed to solve complex, hierarchical, and sparse environments. To that end, participants compete under a limited environment sample-complexity budget to develop systems which solve the MineRL ObtainDiamond task in Minecraft, a sequential decision making environment requiring long-term planning, hierarchical control, and efficient exploration methods. The competition is structured into two rounds in which competitors are provided several paired versions of the dataset and environment with different game textures and shaders. At the end of each round, competitors submit containerized versions of their learning algorithms to the AIcrowd platform where they are trained from scratch on a hold-out dataset-environment pair for a total of 4-days on a pre-specified hardware platform. In this follow-up iteration to the NeurIPS 2019 MineRL Competition, we implement new features to expand the scale and reach of the competition. In response to the feedback of the previous participants, we introduce a second minor track focusing on solutions without access to environment interactions of any kind except during test-time. Further we aim to prompt domain agnostic submissions by implementing several novel competition mechanics including action-space randomization and desemantization of observations and actions.
翻訳日:2021-03-14 02:22:27 公開日:2021-01-26
# (参考訳) 妥協のない適応性:確率最適化のためのモーメント化, 適応型, デュアルアダック・グラディエント法

Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization ( http://arxiv.org/abs/2101.11075v1 )

ライセンス: CC BY 4.0
Aaron Defazio and Samy Jelassi(参考訳) AdaGrad適応勾配法のファミリーにおける新しい最適化手法であるMADGRADを紹介します。 MADGRADは、視覚における分類と画像から画像へのタスク、自然言語処理における繰り返しおよび双方向マッピングモデルなど、複数の分野のディープラーニング最適化問題に対して優れたパフォーマンスを示します。 これらのタスクのそれぞれにおいて、MADGRADはテストセットのパフォーマンスにおいてSGDとADAMの両方にマッチするか、上回ります。

We introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-mask ed models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.
翻訳日:2021-03-14 02:20:58 公開日:2021-01-26
# (参考訳) 2次元グリッド上の視野計算のための新しいアルゴリズム [全文訳有]

New Algorithms for Computing Field of Vision over 2D Grids ( http://arxiv.org/abs/2101.11002v1 )

ライセンス: CC BY-SA 4.0
Evan R.M. Debenham and Roberto Solis-Oba (The University of Western Ontario, Canada)(参考訳) 本論文では,高分解能で既存の作業を改善するフィールド・オブ・ビジョン(FOV)計算の新しいアルゴリズムを提案する。 FOV(FOV)とは、コンピュータゲームのシーンにおいて特定の位置から見える位置の集合を指す。 FOV計算のための既存のアルゴリズムを要約し、それらの制限を記述し、これらの制限に対処する新しいアルゴリズムを提案する。 まず,fov計算の新たな手法として,空間データ構造を利用するアルゴリズムを提案する。 次に,計算済みのFOVをスクラッチから再計算するのではなく,更新する新しい手法を提案する。 我々のアルゴリズムを既存のFOVアルゴリズムと比較し、実行時間を大幅に改善したことを示す。 提案アルゴリズムは,既存のFOVアルゴリズムよりもグリッドサイズが大きいため,高解像度のFOVベースのビデオゲームの設計が可能となる。

The aim of this paper is to propose new algorithms for Field of Vision (FOV) computation which improve on existing work at high resolutions. FOV refers to the set of locations that are visible from a specific position in a scene of a computer game. We summarize existing algorithms for FOV computation, describe their limitations, and present new algorithms which aim to address these limitations. We first present an algorithm which makes use of spatial data structures in a way which is new for FOV calculation. We then present a novel technique which updates a previously calculated FOV, rather than re-calculating an FOV from scratch. We compare our algorithms to existing FOV algorithms and show they provide substantial improvements to running time. Our algorithms provide the largest improvement over existing FOV algorithms at large grid sizes, thus allowing the possibility of the design of high resolution FOV-based video games.
翻訳日:2021-03-14 02:19:55 公開日:2021-01-26
# (参考訳) Deep Video Inpainting Detection [全文訳有]

Deep Video Inpainting Detection ( http://arxiv.org/abs/2101.11080v1 )

ライセンス: CC BY 4.0
Peng Zhou, Ning Yu, Zuxuan Wu, Larry S. Davis, Abhinav Shrivastava and Ser-Nam Lim(参考訳) 本研究は,映像中のインペイント領域を空間的および時間的にローカライズする映像インペインティング検出手法について検討する。 特に、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含むVIDNet、Video Inpainting Detection Networkを紹介します。 圧縮で符号化されたアーティファクトを明らかにするため、VIDNetはエラーレベル解析フレームを付加してRGBフレームを拡大し、エンコーダで異なるレベルでマルチモーダル機能を生成する。 空間的および時間的関係を探索し、これらの特徴は、塗装領域のマスクを予測する畳み込みLSTMによってさらにデコードされる。 さらに,画素が塗布されているか否かを検出する際には,周囲の画素から情報を4方向から借用する四方向局所アテンションモジュールを提案する。 我々のアプローチを検証するために広範な実験が実施された。 とくに、VIDNetは、クリアマージンの代替塗り絵検出方法に勝るだけでなく、トレーニング中に目に見えない新しいビデオにも優れていることを実証する。

This paper studies video inpainting detection, which localizes an inpainted region in a video both spatially and temporally. In particular, we introduce VIDNet, Video Inpainting Detection Network, which contains a two-stream encoder-decoder architecture with attention module. To reveal artifacts encoded in compression, VIDNet additionally takes in Error Level Analysis frames to augment RGB frames, producing multimodal features at different levels with an encoder. Exploring spatial and temporal relationships, these features are further decoded by a Convolutional LSTM to predict masks of inpainted regions. In addition, when detecting whether a pixel is inpainted or not, we present a quad-directional local attention module that borrows information from its surrounding pixels from four directions. Extensive experiments are conducted to validate our approach. We demonstrate, among other things, that VIDNet not only outperforms by clear margins alternative inpainting detection methods but also generalizes well on novel videos that are unseen during training.
翻訳日:2021-03-14 02:02:08 公開日:2021-01-26
# (参考訳) 法医学的CNNに対する敵対攻撃の移動性に及ぼすクラス定義の影響 [全文訳有]

The Effect of Class Definitions on the Transferability of Adversarial Attacks Against Forensic CNNs ( http://arxiv.org/abs/2101.11081v1 )

ライセンス: CC BY 4.0
Xinwei Zhao and Matthew C. Stamm(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、画像改ざん検出などのフォレンジックタスクを実行するために研究者によって広く使用されています。 同時に、CNNベースの分類器を騙すことができる敵攻撃も開発されている。 敵対攻撃、すなわちの移動可能性を理解する。 訓練されたCNNと異なるCNNを攻撃する攻撃能力は、攻撃に抵抗するCNNを設計する上で重要な意味を持っています。 オブジェクト認識CNNへの攻撃は転送可能であると考えられているが、Barniらによる最近の研究。 法医学的なCNNに対する攻撃は、異なるデータセットを使用してトレーニングされた他のCNNアーキテクチャやCNNへの転送が困難であることを示している。 本論文では、事実上同一のCNNアーキテクチャ間でも、フォレンジックCNNに対する敵対攻撃が以前考えられていたよりもさらに少ないことを実証する! 画像操作を識別するために訓練されたCNNに対するいくつかの一般的な敵攻撃は、クラス定義にのみ差があるCNNへの転送に失敗することを示した。 同じデータを使ってトレーニングされた同じCNNアーキテクチャ)。 クラス定義の全ての定式化は不変なクラスを含むことに注意する。 これは、敵対的および反法医学的攻撃に対して堅牢な法医学的CNNの設計に重要な意味を持つ。

In recent years, convolutional neural networks (CNNs) have been widely used by researchers to perform forensic tasks such as image tampering detection. At the same time, adversarial attacks have been developed that are capable of fooling CNN-based classifiers. Understanding the transferability of adversarial attacks, i.e. an attacks ability to attack a different CNN than the one it was trained against, has important implications for designing CNNs that are resistant to attacks. While attacks on object recognition CNNs are believed to be transferrable, recent work by Barni et al. has shown that attacks on forensic CNNs have difficulty transferring to other CNN architectures or CNNs trained using different datasets. In this paper, we demonstrate that adversarial attacks on forensic CNNs are even less transferrable than previously thought even between virtually identical CNN architectures! We show that several common adversarial attacks against CNNs trained to identify image manipulation fail to transfer to CNNs whose only difference is in the class definitions (i.e. the same CNN architectures trained using the same data). We note that all formulations of class definitions contain the unaltered class. This has important implications for the future design of forensic CNNs that are robust to adversarial and anti-forensic attacks.
翻訳日:2021-03-14 01:47:58 公開日:2021-01-26
# (参考訳) 量子減算クラスタリングに基づく適応型神経ファジィネットワーク [全文訳有]

Adaptive Neuro Fuzzy Networks based on Quantum Subtractive Clustering ( http://arxiv.org/abs/2102.00820v1 )

ライセンス: CC BY 4.0
Ali Mousavi, Mehrdad Jalali and Mahdi Yaghoubi(参考訳) データマイニング技術は,データの探索と解析によって有用なパターンの探索に利用することができ,ファジィ分類規則を機械学習ツールと相乗的に組み合わせることで,TSKファジィ型適応型ニューロファジィネットワークと量子サブトラクティブクラスタリングの改善が図られている。 量子クラスタリング(Quantum clustering, QC)は、シュロディンガーポテンシャルと時間消費勾配法を用いる量子力学の直観である。 QCの原理的優位性と欠点を解析し,その欠点に基づき,減算クラスタリング法による改良アルゴリズムを提案する。 クラスタセンターはファジィルールの前提部分として利用できるデータの本質的特徴を持つ一般的なモデルであり, 量子サブトラクティブクラスタリングに基づくAnfiは, 優れた近似と一般化能力を有し, 従来の手法と比較してファジィルールの数やネットワーク出力精度が著しく低下することが実験的に明らかになった。

Data mining techniques can be used to discover useful patterns by exploring and analyzing data and it's feasible to synergitically combine machine learning tools to discover fuzzy classification rules.In this paper, an adaptive Neuro fuzzy network with TSK fuzzy type and an improved quantum subtractive clustering has been developed. Quantum clustering (QC) is an intuition from quantum mechanics which uses Schrodinger potential and time-consuming gradient descent method. The principle advantage and shortcoming of QC is analyzed and based on its shortcomings, an improved algorithm through a subtractive clustering method is proposed. Cluster centers represent a general model with essential characteristics of data which can be use as premise part of fuzzy rules.The experimental results revealed that proposed Anfis based on quantum subtractive clustering yielded good approximation and generalization capabilities and impressive decrease in the number of fuzzy rules and network output accuracy in comparison with traditional methods.
翻訳日:2021-03-14 01:35:49 公開日:2021-01-26
# (参考訳) 第一に、そして予測:多言語BERTの言語間能力を理解する [全文訳有]

First Align, then Predict: Understanding the Cross-Lingual Ability of Multilingual BERT ( http://arxiv.org/abs/2101.11109v1 )

ライセンス: CC BY-SA 4.0
Benjamin Muller and Yanai Elazar and Beno\^it Sagot and Djam\'e Seddah(参考訳) 多言語事前訓練された言語モデルは、目覚ましいゼロショットの言語間移動能力を示した。 このような移行は、1つの言語に興味のあるタスクを微調整し、微調整の間は見えない別の言語で評価することで生じる。 有望な結果にもかかわらず、我々はまだこの転送のソースの適切な理解を欠いています。 新たな層アブレーション手法とモデルの内部表現の解析を用いて,多言語言語モデルであるマルチリンガルbertを,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができることを示した。 エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要性がなく、微調整時に再起動できる。 我々は,3つの異なるタスク,17の類型的多様言語,および仮説を支持する複数のドメインを用いた広範囲な実験を行った。

Multilingual pretrained language models have demonstrated remarkable zero-shot cross-lingual transfer capabilities. Such transfer emerges by fine-tuning on a task of interest in one language and evaluating on a distinct language, not seen during the fine-tuning. Despite promising results, we still lack a proper understanding of the source of this transfer. Using a novel layer ablation technique and analyses of the model's internal representations, we show that multilingual BERT, a popular multilingual language model, can be viewed as the stacking of two sub-networks: a multilingual encoder followed by a task-specific language-agnostic predictor. While the encoder is crucial for cross-lingual transfer and remains mostly unchanged during fine-tuning, the task predictor has little importance on the transfer and can be reinitialized during fine-tuning. We present extensive experiments with three distinct tasks, seventeen typologically diverse languages and multiple domains to support our hypothesis.
翻訳日:2021-03-14 01:05:11 公開日:2021-01-26
# (参考訳) 並列コーパスを用いた言語間単語認識:XLM-RoBERTaアライメントを用いた新しいアプローチ [全文訳有]

Cross-Lingual Named Entity Recognition Using Parallel Corpus: A New Approach Using XLM-RoBERTa Alignment ( http://arxiv.org/abs/2101.11112v1 )

ライセンス: CC BY 4.0
Bing Li, Yujie He and Wenjin Xu(参考訳) 並列コーパスを用いた言語間名前付きエンティティ認識(NER)ゼロショット転送のための新しい手法を提案する。 我々は、XLM-RoBERTa上にエンティティアライメントモデルを構築し、並列データの英語部分で検出されたエンティティを対象言語文に投影した。 アライメントモデルでは、ターゲット言語で擬似ラベル付きNERデータセットを取得して、タスク固有のモデルをトレーニングできます。 翻訳方法とは異なり、このアプローチはターゲット言語のオリジナルコーパスの自然な流派性とニュアンスから利益を得ます。 また, 焦点損失に類似した修正損失関数を提案するが, 逆方向の重みを割り当てることで, うるさい擬似ラベルデータセットのモデルトレーニングをさらに改善する。 提案手法をベンチマークデータセット上で4つのターゲット言語に対して評価し,最新のSOTAモデルと比較してF1スコアを得た。 また, 並列コーパスサイズとドメインが最終転送性能に与える影響についても検討した。

We propose a novel approach for cross-lingual Named Entity Recognition (NER) zero-shot transfer using parallel corpora. We built an entity alignment model on top of XLM-RoBERTa to project the entities detected on the English part of the parallel data to the target language sentences, whose accuracy surpasses all previous unsupervised models. With the alignment model we can get pseudo-labeled NER data set in the target language to train task-specific model. Unlike using translation methods, this approach benefits from natural fluency and nuances in target-language original corpus. We also propose a modified loss function similar to focal loss but assigns weights in the opposite direction to further improve the model training on noisy pseudo-labeled data set. We evaluated this proposed approach over 4 target languages on benchmark data sets and got competitive F1 scores compared to most recent SOTA models. We also gave extra discussions about the impact of parallel corpus size and domain on the final transfer performance.
翻訳日:2021-03-14 00:39:09 公開日:2021-01-26
# (参考訳) オブジェクト検出スタイルにおける名前付きエンティティ認識 [全文訳有]

Named Entity Recognition in the Style of Object Detection ( http://arxiv.org/abs/2101.11122v1 )

ライセンス: CC BY 4.0
Bing Li(参考訳) 本研究では,ネストされたNERにおいて,名前付きエンティティ認識(NER)のための2段階の手法を提案する。 コンピュータビジョンにおける2段階オブジェクト検出のアイデアと、損失関数の構築方法からアイデアを借用した。 まず、地域提案ネットワークが地域候補を生成し、2段階モデルがエンティティを識別して分類し、最終的な予測を行う。 また、エンティティ性とエンティティタイプを同時に予測する第2段階トレーニングのための特別な損失関数も設計した。 このモデルは、事前訓練されたBERTエンコーダ上に構築され、BERTベースとBERT大モデルの両方を試した。 実験では,まずCoNLL2003 や OntoNotes 5.0 などの平らな NER タスクに適用し,シーケンシャルラベリング手法を用いて従来の NER モデルと同等の結果を得た。 次に、ネストした名前付きエンティティ認識タスクace2005とgeniaでモデルをテストし、それぞれ85.6$\%$と76.8$\%$のf1スコアを得た。 第2段階のトレーニングでは,ランダムに選択された領域の追加が精度向上に重要な役割を果たしていることがわかった。 また、将来の潜在的な改善のために、異なる状況下でモデルのパフォーマンスを評価するためにエラープロファイリングを行いました。

In this work, we propose a two-stage method for named entity recognition (NER), especially for nested NER. We borrowed the idea from the two-stage Object Detection in computer vision and the way how they construct the loss function. First, a region proposal network generates region candidates and then a second-stage model discriminates and classifies the entity and makes the final prediction. We also designed a special loss function for the second-stage training that predicts the entityness and entity type at the same time. The model is built on top of pretrained BERT encoders, and we tried both BERT base and BERT large models. For experiments, we first applied it to flat NER tasks such as CoNLL2003 and OntoNotes 5.0 and got comparable results with traditional NER models using sequence labeling methodology. We then tested the model on the nested named entity recognition task ACE2005 and Genia, and got F1 score of 85.6$\%$ and 76.8$\%$ respectively. In terms of the second-stage training, we found that adding extra randomly selected regions plays an important role in improving the precision. We also did error profiling to better evaluate the performance of the model in different circumstances for potential improvements in the future.
翻訳日:2021-03-14 00:26:21 公開日:2021-01-26
# (参考訳) 高エネルギー物理検出器をシミュレートする連続可変アーキテクチャにおける量子ジェネレーティブ・アドバーサル・ネットワーク [全文訳有]

Quantum Generative Adversarial Networks in a Continuous-Variable Architecture to Simulate High Energy Physics Detectors ( http://arxiv.org/abs/2101.11132v1 )

ライセンス: CC BY 4.0
Su Yeon Chang, Sofia Vallecorsa, El\'ias F. Combarro, and Federico Carminati(参考訳) ディープニューラルネットワーク(Deep Neural Networks、DNN)は、次世代の加速器で遭遇するデータ量を増やすために、高エネルギー物理学(HEP)のライムライトに入る。 近年、HEPコミュニティはモンテカルロ法に基づく従来の時間消費のGeant4シミュレーションを置き換えるためにGAN(Generative Adversarial Networks)を提案する。 ディープラーニングの進歩と並行して、IBMが提案する量子GANモデルを含む、過去10年間に量子コンピューティングに関する興味深い研究が行われている。 しかし、このモデルは、離散変数上の確率分布の学習に限定され、HEP内の連続変数上の確率分布の再現を目指している。 本稿では,連続的な物理観測可能な量子情報を符号化する連続可変(CV)量子コンピューティングに使用される量子GAN(qGAN)の新たなプロトタイプを紹介し,解析する。 量子と古典的判別器を備えた2つのCV qGANモデルを用いて、小型でカロリーを再現する実験を行い、その利点と限界について論じる。

Deep Neural Networks (DNNs) come into the limelight in High Energy Physics (HEP) in order to manipulate the increasing amount of data encountered in the next generation of accelerators. Recently, the HEP community has suggested Generative Adversarial Networks (GANs) to replace traditional time-consuming Geant4 simulations based on the Monte Carlo method. In parallel with advances in deep learning, intriguing studies have been conducted in the last decade on quantum computing, including the Quantum GAN model suggested by IBM. However, this model is limited in learning a probability distribution over discrete variables, while we initially aim to reproduce a distribution over continuous variables in HEP. We introduce and analyze a new prototype of quantum GAN (qGAN) employed in continuous-variable (CV) quantum computing, which encodes quantum information in a continuous physical observable. Two CV qGAN models with a quantum and a classical discriminator have been tested to reproduce calorimeter outputs in a reduced size, and their advantages and limitations are discussed.
翻訳日:2021-03-14 00:07:52 公開日:2021-01-26
# (参考訳) 網膜疾患の不確かさと説明可能な診断 [全文訳有]

Uncertainty aware and explainable diagnosis of retinal disease ( http://arxiv.org/abs/2101.12041v1 )

ライセンス: CC BY 4.0
Amitojdeep Singh, Sourya Sengupta, Mohammed Abdul Rasheed, Varadharajan Jayakumar, and Vasudevan Lakshminarayanan(参考訳) 眼科診断のための深層学習法は、セグメント化や分類などのタスクでかなりの成功を収めています。 しかし、モデルが不透明で、複雑なケースで間違った決定を下すのに弱いため、その適用範囲は限られている。 説明可能性の方法は、不確実性を認識しながら、システムが予測を行うのに使用した特徴を示し、システムが決定について確信が持てないときに強調する能力である。 これは、情報に基づいた臨床意思決定のための不確実性および説明を使用する最初の研究の1つです。 高齢者関連黄斑変性症 (AMD) , 中枢性髄質網膜症 (CSR) , 糖尿病性網膜症 (DR) , 黄斑孔 (MH) の4つの網膜疾患の診断のための深層学習モデルの不確実性解析を行った。 モンテカルロ(MC)のドロップアウトは、試験時にパラメータの分布を生成するために使用され、予測はベイズモデルの予測後部を近似する。 しきい値は分布を使用して計算され、不確実な症例は眼科医に参照することができ、誤診断を避ける。 モデルによって得られた特徴は、以前の研究から実証済みのアトリビューション方法を使用して視覚化される。 不確実性がモデル性能に及ぼす影響と不確実性と説明可能性の関係を臨床的意義の観点から検討した。 熱マップと共に不確実性情報により、臨床現場での使用がより信頼できる。

Deep learning methods for ophthalmic diagnosis have shown considerable success in tasks like segmentation and classification. However, their widespread application is limited due to the models being opaque and vulnerable to making a wrong decision in complicated cases. Explainability methods show the features that a system used to make prediction while uncertainty awareness is the ability of a system to highlight when it is not sure about the decision. This is one of the first studies using uncertainty and explanations for informed clinical decision making. We perform uncertainty analysis of a deep learning model for diagnosis of four retinal diseases - age-related macular degeneration (AMD), central serous retinopathy (CSR), diabetic retinopathy (DR), and macular hole (MH) using images from a publicly available (OCTID) dataset. Monte Carlo (MC) dropout is used at the test time to generate a distribution of parameters and the predictions approximate the predictive posterior of a Bayesian model. A threshold is computed using the distribution and uncertain cases can be referred to the ophthalmologist thus avoiding an erroneous diagnosis. The features learned by the model are visualized using a proven attribution method from a previous study. The effects of uncertainty on model performance and the relationship between uncertainty and explainability are discussed in terms of clinical significance. The uncertainty information along with the heatmaps make the system more trustworthy for use in clinical settings.
翻訳日:2021-03-14 00:00:45 公開日:2021-01-26
# (参考訳) 骨盤骨分割法を用いたヒストグラムによるデータセット間のセグメンテーション性能の向上 [全文訳有]

Boosting Segmentation Performance across datasets using histogram specification with application to pelvic bone segmentation ( http://arxiv.org/abs/2101.11135v1 )

ライセンス: CC BY 4.0
Prabhakara Subramanya Jois, Aniketh Manjunath and Thomas Fevens(参考訳) 骨盤ctの正確な分割は骨盤疾患の臨床診断や患者の特発性股関節手術の計画に不可欠である。 デジタル医療のための深層学習の出現と進歩に伴い、このようなセグメンテーションタスクにはいくつかの方法論が提案されている。 しかし、低データシナリオでは、深層ニューラルネットワークのトレーニングに必要な大量のデータがないことは、重要な問題である。 本研究では,画像の声調分布の変調と深層学習に基づく手法を提案し,限られたデータで訓練されたネットワークの性能を高める。 この戦略は、ヒストグラム仕様によるテストデータの事前処理を含む。 この単純で効果的なアプローチは、スタイル転送手法と見なすことができる。 セグメンテーションタスクは、拡張BCE-IoU損失関数を使用して最適化されたEfficientNet-B0バックボーンを備えたU-Net構成を使用します。 この構成は、TCIA(がん画像アーカイブ)とVisible Human Projectの2つの公開CTデータセットから撮影した合計284枚の画像で検証されます。 ダイス係数とユニオンに対するインターセクションの平均性能は、それぞれ95.7%と91.9%であり、最先端の方法論と非常に競合するアプローチの有効性の強い証拠を与える。

Accurate segmentation of the pelvic CTs is crucial for the clinical diagnosis of pelvic bone diseases and for planning patient-specific hip surgeries. With the emergence and advancements of deep learning for digital healthcare, several methodologies have been proposed for such segmentation tasks. But in a low data scenario, the lack of abundant data needed to train a Deep Neural Network is a significant bottle-neck. In this work, we propose a methodology based on modulation of image tonal distributions and deep learning to boost the performance of networks trained on limited data. The strategy involves pre-processing of test data through histogram specification. This simple yet effective approach can be viewed as a style transfer methodology. The segmentation task uses a U-Net configuration with an EfficientNet-B0 backbone, optimized using an augmented BCE-IoU loss function. This configuration is validated on a total of 284 images taken from two publicly available CT datasets, TCIA (a cancer imaging archive) and the Visible Human Project. The average performance measures for the Dice coefficient and Intersection over Union are 95.7% and 91.9%, respectively, give strong evidence for the effectiveness of the approach, which is highly competitive with state-of-the-art methodologies.
翻訳日:2021-03-13 23:51:13 公開日:2021-01-26
# 機械学習リスク予測モデルのフレーミングの継続:一般区における敗血症の評価

The Consequences of the Framing of Machine Learning Risk Prediction Models: Evaluation of Sepsis in General Wards ( http://arxiv.org/abs/2101.10790v1 )

ライセンス: Link先を確認
Simon Meyer Lauritsen, Bo Thiesson, Marianne Johansson J{\o}rgensen, Anders Hammerich Riis, Ulrick Skipper Espelund, Jesper Bo Weile and Jeppe Lange(参考訳) 目的:機械学習リスク予測モデルのフレーム化の結果を評価する。 フレーミングがモデル性能とモデル学習に与える影響を,これまでに公開された人工知能(AI)モデルに適用された4つの異なるアプローチで評価した。 設定と参加者:18歳以上のデンマークの4市町村から221,283人の二次医療データを分析した。 結果: 平均平均精度は0.007から0.385に大きく変化したのに対し, 4モデルは同じ人口レベルの性能(受信者の動作特性曲線下の平均面積は 0.73 から 0.82 に変化した。 それに応じて、欠落した値の比率もフレーミングアプローチによって異なる。 臨床医が早期の警告スコア評価を行う度にサンプルを投入したオンデマンドフレーミングでは、重要なサインパラメータの中で欠落した値の最低割合が示され、このモデルは他の指標よりも時間的依存関係を学習することができた。 Shapley加法的説明は、差分フレームモデルの結果、敗血症の予測におけるSpO2の反対解釈を示した。 結論: フレーミングの理解と報告が将来のAI技術の開発と臨床実装の成功に不可欠であるとして、臨床医やAI開発者からの注意を委ねるフレーミングの重大な結果。 モデルフレーミングは、期待される臨床環境を反映しなければならない。 適切な問題フレーミングの重要性は必ずしも敗血症予測に限らず、ほとんどの臨床リスク予測モデルに適用される。

Objectives: To evaluate the consequences of the framing of machine learning risk prediction models. We evaluate how framing affects model performance and model learning in four different approaches previously applied in published artificial-intellige nce (AI) models. Setting and participants: We analysed structured secondary healthcare data from 221,283 citizens from four Danish municipalities who were 18 years of age or older. Results: The four models had similar population level performance (a mean area under the receiver operating characteristic curve of 0.73 to 0.82), in contrast to the mean average precision, which varied greatly from 0.007 to 0.385. Correspondingly, the percentage of missing values also varied between framing approaches. The on-clinical-demand framing, which involved samples for each time the clinicians made an early warning score assessment, showed the lowest percentage of missing values among the vital sign parameters, and this model was also able to learn more temporal dependencies than the others. The Shapley additive explanations demonstrated opposing interpretations of SpO2 in the prediction of sepsis as a consequence of differentially framed models. Conclusions: The profound consequences of framing mandate attention from clinicians and AI developers, as the understanding and reporting of framing are pivotal to the successful development and clinical implementation of future AI technology. Model framing must reflect the expected clinical environment. The importance of proper problem framing is by no means exclusive to sepsis prediction and applies to most clinical risk prediction models.
翻訳日:2021-03-13 20:07:05 公開日:2021-01-26
# 保証付き過大評価学習

Overestimation learning with guarantees ( http://arxiv.org/abs/2101.11717v1 )

ライセンス: Link先を確認
Adrien Gauffriau, Fran\c{c}ois Malgouyres (IMT), M\'elanie Ducoffe(参考訳) 与えられたドメイン上の参照関数を過大評価することが保証されているニューラルネットワークを学習する完全な方法を説明します。 ニューラルネットワークは、参照関数のサロゲートとして使用できる。 方法は2つのステップを含む。 最初のステップでは、主要な点の適応セットを構築します。 第2のステップでは,重大点を過大評価するために,長大なニューラルネットワークを最適化する。 メジャーポイントの保証をドメイン全体に拡張するには、必ず参照関数の仮定をしなければなりません。 本研究では,参照関数が単調であると仮定する。 合成および実問題に関する実験を行う。 実験では、主点の密度が基準関数が変化する場所に集中することを示した。 学習された過大評価はどちらも参照関数を過大評価することが保証され、良好な近似を与えるために経験的に証明される。 実データに関する実験では、この方法は、過小評価が重要である組み込みシステムにおけるサーロゲート関数の使用を可能にすることが示されています。

We describe a complete method that learns a neural network which is guaranteed to overestimate a reference function on a given domain. The neural network can then be used as a surrogate for the reference function. The method involves two steps. In the first step, we construct an adaptive set of Majoring Points. In the second step, we optimize a well-chosen neural network to overestimate the Majoring Points. In order to extend the guarantee on the Majoring Points to the whole domain, we necessarily have to make an assumption on the reference function. In this study, we assume that the reference function is monotonic. We provide experiments on synthetic and real problems. The experiments show that the density of the Majoring Points concentrate where the reference function varies. The learned over-estimations are both guaranteed to overestimate the reference function and are proven empirically to provide good approximations of it. Experiments on real data show that the method makes it possible to use the surrogate function in embedded systems for which an underestimation is critical; when computing the reference function requires too many resources.
翻訳日:2021-03-13 20:06:43 公開日:2021-01-26
# 説明可能なAI(XAI)メソッドの紹介と評価:SIDU

Introducing and assessing the explainable AI (XAI)method: SIDU ( http://arxiv.org/abs/2101.10710v1 )

ライセンス: Link先を確認
Satya M. Muddamsetty, Mohammad N. S. Jahromi, Andreea E. Ciontos, Laura M. Fenoy, Thomas B. Moeslund(参考訳) 説明可能な人工知能(XAI)は近年、ブラックボックスモデルの人間の理解可能な説明を生成するのに適したフレームワークとなっている。 本論文では,予測に責任を持つ全対象領域を効率的にローカライズすることのできる,新しいXAI視覚的説明アルゴリズムSIDUを提案する。 様々な計算および人体実験を通して,その頑健性と有効性を分析した。 特に,3種類の評価(応用,人間および機能的接地)を用いてsiduアルゴリズムを評価し,その優れた性能を示す。 SIDUのロバスト性は、ブラックボックスモデルに対する敵攻撃の存在下でさらに研究され、その性能がよりよく理解される。

Explainable Artificial Intelligence (XAI) has in recent years become a well-suited framework to generate human understandable explanations of black box models. In this paper, we present a novel XAI visual explanation algorithm denoted SIDU that can effectively localize entire object regions responsible for prediction in a full extend. We analyze its robustness and effectiveness through various computational and human subject experiments. In particular, we assess the SIDU algorithm using three different types of evaluations (Application, Human and Functionally-Grounde d) to demonstrate its superior performance. The robustness of SIDU is further studied in presence of adversarial attack on black box models to better understand its performance.
翻訳日:2021-03-13 20:06:29 公開日:2021-01-26
# 自閉症者を支援するビデオ会議ソフトウェアのための感情認識の開発

Developing emotion recognition for video conference software to support people with autism ( http://arxiv.org/abs/2101.10785v1 )

ライセンス: Link先を確認
Marc Franzen, Michael Stephan Gresser, Tobias M\"uller, Prof. Dr. Sebastian Mauser(参考訳) 我々は,感情を正しく認識できない自閉症者のためのビデオ会議ソフトウェアを用いた感情認識ソフトウェアを開発した。 これは、ビデオストリームから画像を取得し、ニューラルネットワークの助けを借りてその中の感情を検出し、ユーザーに予測を表示することができます。 ネットワークは顔のランドマークで訓練されている。 ソフトウェアは完全にモジュール化されており、様々なビデオ会議ソフトウェア、プログラミング言語、実装への適応をサポートする。

We develop an emotion recognition software for the use with a video conference software for autistic individuals which are unable to recognize emotions properly. It can get an image out of the video stream, detect the emotion in it with the help of a neural network and display the prediction to the user. The network is trained on facial landmark features. The software is fully modular to support adaption to different video conference software, programming languages and implementations.
翻訳日:2021-03-13 20:06:17 公開日:2021-01-26
# コスト感応型アクティブラーニングによるオンラインボディスキーマの適応

Online Body Schema Adaptation through Cost-Sensitive Active Learning ( http://arxiv.org/abs/2101.10892v1 )

ライセンス: Link先を確認
Gon\c{c}alo Cunha, Pedro Vicente, Alexandre Bernardino, Ricardo Ribeiro, Pl\'inio Moreno(参考訳) ヒューマノイドロボットは複雑な体を持ち、数自由度(dof)のキネマティック・チェーンを持ち、モデル化が難しい。 予測動作中のロボットリンクの位置を観察し,予測誤差を最小化することにより,運動モデルのパラメータを学習することができる。 本研究は,人型ロボットアームの身体スキーマをデナヴィト・ハルテンベルク(DH)パラメーターを用いてオンラインで推定するための移動効率の良いアプローチを提案する。 A-Optimality criterionに基づくコスト依存型能動学習手法を用いて,最適な関節構成を選択する。 選択されたジョイント構成は、ボディスキーマの推定における誤差を最小化し、サンプル間の移動を最小化する。 これにより、学習精度を損なわず、機械的疲労や摩耗とともにエネルギー消費量を削減します。 この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。 手のポーズは、ロボットの手のひらと背中に配置されたマーカーを介して単一のカメラで測定されます。 非パラメトリックオクルージョンモデルを提案し、マーカーが見えないジョイント構成の選択を回避し、無意味な試行を防ぐ。 その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。

Humanoid robots have complex bodies and kinematic chains with several Degrees-of-Freedom (DoF) which are difficult to model. Learning the parameters of a kinematic model can be achieved by observing the position of the robot links during prospective motions and minimising the prediction errors. This work proposes a movement efficient approach for estimating online the body-schema of a humanoid robot arm in the form of Denavit-Hartenberg (DH) parameters. A cost-sensitive active learning approach based on the A-Optimality criterion is used to select optimal joint configurations. The chosen joint configurations simultaneously minimise the error in the estimation of the body schema and minimise the movement between samples. This reduces energy consumption, along with mechanical fatigue and wear, while not compromising the learning accuracy. The work was implemented in a simulation environment, using the 7DoF arm of the iCub robot simulator. The hand pose is measured with a single camera via markers placed in the palm and back of the robot's hand. A non-parametric occlusion model is proposed to avoid choosing joint configurations where the markers are not visible, thus preventing worthless attempts. The results show cost-sensitive active learning has similar accuracy to the standard active learning approach, while reducing in about half the executed movement.
翻訳日:2021-03-13 20:06:12 公開日:2021-01-26
# ローカル教師付き学習の再訪:エンドツーエンドのトレーニングに代わるもの

Revisiting Locally Supervised Learning: an Alternative to End-to-end Training ( http://arxiv.org/abs/2101.10832v1 )

ライセンス: Link先を確認
Yulin Wang, Zanlin Ni, Shiji Song, Le Yang, Gao Huang(参考訳) バックプロパゲーションの中間のアクティベーションを保存する必要があるため、ディープネットワークのエンドツーエンド(E2E)トレーニングは通常、高いGPUメモリフットプリントに悩まされる。 本稿では,ネットワークを勾配分離モジュールに分割し,局所的監視によって学習する局所教師付き学習を再考することで,この問題に対処することを目的とする。 実験により,e2e損失を伴うローカルモジュールのトレーニングが早期のレイヤでタスク関連情報を崩壊させる傾向にあり,モデル全体の性能を損なうことを示した。 この問題を回避するため,我々は,タスク関連情報を段階的に破棄しつつ,ローカルモジュールが可能な限り有用な情報を保存することを奨励する情報伝達損失(InfoPro)を提案する。 InfoProの損失は元の形式で計算することは困難であるため、我々はサーロゲート最適化の目的として実現可能な上限を導き出し、シンプルで効果的なアルゴリズムを生み出します。 実際,提案手法は,再構成損失と正規のクロスエントロピー/コントラスト項の組み合わせを最小化するために沸騰する。 5つのデータセット(すなわちcifar、svhn、stl-10、imagenet、cityscapes)の広範な実証結果によると、infoproはe2eトレーニングに比べて40%以下のメモリフットプリントで、同じgpuメモリ制約下で、より高解像度またはより大きなバッチサイズでトレーニングデータを使用できる。 また、ローカルモジュールを非同期にトレーニングすることで、トレーニングの加速が可能となる。 コードはhttps://github.com/b lackfeather-wang/Inf oPro-Pytorchで入手できる。

Due to the need to store the intermediate activations for back-propagation, end-to-end (E2E) training of deep networks usually suffers from high GPUs memory footprint. This paper aims to address this problem by revisiting the locally supervised learning, where a network is split into gradient-isolated modules and trained with local supervision. We experimentally show that simply training local modules with E2E loss tends to collapse task-relevant information at early layers, and hence hurts the performance of the full model. To avoid this issue, we propose an information propagation (InfoPro) loss, which encourages local modules to preserve as much useful information as possible, while progressively discard task-irrelevant information. As InfoPro loss is difficult to compute in its original form, we derive a feasible upper bound as a surrogate optimization objective, yielding a simple but effective algorithm. In fact, we show that the proposed method boils down to minimizing the combination of a reconstruction loss and a normal cross-entropy/contra stive term. Extensive empirical results on five datasets (i.e., CIFAR, SVHN, STL-10, ImageNet and Cityscapes) validate that InfoPro is capable of achieving competitive performance with less than 40% memory footprint compared to E2E training, while allowing using training data with higher-resolution or larger batch sizes under the same GPU memory constraint. Our method also enables training local modules asynchronously for potential training acceleration. Code is available at: https://github.com/b lackfeather-wang/Inf oPro-Pytorch.
翻訳日:2021-03-13 20:05:52 公開日:2021-01-26
# ロバストアダマールオートエンコーダを用いたブラインド画像のデノイングと塗装

Blind Image Denoising and Inpainting Using Robust Hadamard Autoencoders ( http://arxiv.org/abs/2101.10876v1 )

ライセンス: Link先を確認
Rasika Karkare, Randy Paffenroth and Gunjan Mahindre(参考訳) 本稿では,クリーンなトレーニングデータが得られなくても,ディープオートエンコーダが塗装や装飾の場合にどのように一般化できるかを示す。 特に,これらすべてのタスクを同時に実行するニューラルネットワークをトレーニングする方法を示す。 ニューラルネットワークによって実装されたディープオートエンコーダは、ノイズ検出や異常検出の可能性を実証しているが、標準的なオートエンコーダには、トレーニング用のクリーンデータへのアクセスを必要とする欠点がある。 しかしながら、Robust Deep Autoencoders(RDAEs)の最近の研究は、クリーンなトレーニングデータにアクセスせずに、データセットの外れ値とノイズを取り除くためにオートエンコーダをどのようにトレーニングするかを示している。 この研究にインスパイアされたRDAEは、データがノイズの多いだけでなく、部分的にのみ観測される場合にも拡張されます。 さらに、ニューラルネットワークをトレーニングするデータセットには、すべてのエントリがノイズを持つ特性があり、いくつかのエントリは大きなミスで破損しており、多くのエントリは知られていない。 このようなアルゴリズムを考えると、デノイジング、画像インペインティング、および観察されていないインプテーションといった多くの標準的なタスクは、すべて同じフレームワーク内で同時に実行することができる。 ここでは、MNISTおよびCIFAR10データセットの画像インペインティングやノイズ除去など、標準的な機械学習タスクでこれらのテクニックをデモします。 しかし、これらのアプローチは、画像処理の問題だけでなく、ノイズの多い部分的なデータが自然に発生する製造やネットワーク処理など、現実世界の問題から生じるデータセットにも幅広く影響します。

In this paper, we demonstrate how deep autoencoders can be generalized to the case of inpainting and denoising, even when no clean training data is available. In particular, we show how neural networks can be trained to perform all of these tasks simultaneously. While, deep autoencoders implemented by way of neural networks have demonstrated potential for denoising and anomaly detection, standard autoencoders have the drawback that they require access to clean data for training. However, recent work in Robust Deep Autoencoders (RDAEs) shows how autoencoders can be trained to eliminate outliers and noise in a dataset without access to any clean training data. Inspired by this work, we extend RDAEs to the case where data are not only noisy and have outliers, but also only partially observed. Moreover, the dataset we train the neural network on has the properties that all entries have noise, some entries are corrupted by large mistakes, and many entries are not even known. Given such an algorithm, many standard tasks, such as denoising, image inpainting, and unobserved entry imputation can all be accomplished simultaneously within the same framework. Herein we demonstrate these techniques on standard machine learning tasks, such as image inpainting and denoising for the MNIST and CIFAR10 datasets. However, these approaches are not only applicable to image processing problems, but also have wide ranging impacts on datasets arising from real-world problems, such as manufacturing and network processing, where noisy, partially observed data naturally arise.
翻訳日:2021-03-13 20:05:21 公開日:2021-01-26
# オープンワールドにおけるエンティティアライメントに向けて - 教師なしアプローチ

Towards Entity Alignment in the Open World: An Unsupervised Approach ( http://arxiv.org/abs/2101.10535v1 )

ライセンス: Link先を確認
Weixin Zeng, Xiang Zhao, Jiuyang Tang, Xinyi Li, Minnan Luo, Qinghua Zheng(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)における同等のエンティティを見つけることを目的としている。 KGを統合して知識のカバレッジと品質を向上させるための重要なステップです。 近年、EAフレームワークの急速な増加が見られた。 しかし、最先端のソリューションはモデルトレーニングにラベル付きデータに依存する傾向がある。 さらに、クローズドドメイン設定の下で動作し、マッチできないエンティティを扱うことができない。 これらの欠陥に対処するために、オープンな世界でエンティティアライメントを実行する監視されていないフレームワークを提供します。 具体的には,まずKGの側面情報から有用な特徴を抽出する。 そして,不整合エンティティ予測モジュールを考案し,不整合エンティティをフィルタリングし,事前アライメント結果を生成する。 これらの予備結果は擬似ラベルデータとみなされ、プログレッシブ学習フレームワークに転送され、側情報と統合された構造表現を生成し、より包括的なアライメントビューを提供します。 最後に、プログレッシブラーニングフレームワークは、構造埋め込みの品質を徐々に改善し、前ラウンドのアライメント結果と擬似ラベルデータを強化することにより、アライメントパフォーマンスを向上させます。 当社のソリューションはラベル付きデータを必要とせず、マッチしないエンティティを効果的にフィルタできる。 総合的な実験評価は、その優越性を検証する。

Entity alignment (EA) aims to discover the equivalent entities in different knowledge graphs (KGs). It is a pivotal step for integrating KGs to increase knowledge coverage and quality. Recent years have witnessed a rapid increase of EA frameworks. However, state-of-the-art solutions tend to rely on labeled data for model training. Additionally, they work under the closed-domain setting and cannot deal with entities that are unmatchable. To address these deficiencies, we offer an unsupervised framework that performs entity alignment in the open world. Specifically, we first mine useful features from the side information of KGs. Then, we devise an unmatchable entity prediction module to filter out unmatchable entities and produce preliminary alignment results. These preliminary results are regarded as the pseudo-labeled data and forwarded to the progressive learning framework to generate structural representations, which are integrated with the side information to provide a more comprehensive view for alignment. Finally, the progressive learning framework gradually improves the quality of structural embeddings and enhances the alignment performance by enriching the pseudo-labeled data with alignment results from the previous round. Our solution does not require labeled data and can effectively filter out unmatchable entities. Comprehensive experimental evaluations validate its superiority.
翻訳日:2021-03-13 20:04:56 公開日:2021-01-26
# SkeletonVis:人間行動認識モデルにおける敵攻撃の可視化

SkeletonVis: Interactive Visualization for Understanding Adversarial Attacks on Human Action Recognition Models ( http://arxiv.org/abs/2101.10586v1 )

ライセンス: Link先を確認
Haekyu Park, Zijie J. Wang, Nilaksh Das, Anindya S. Paul, Pruthvi Perumalla, Zhiyan Zhou, Duen Horng Chau(参考訳) 骨格をベースとした人間の行動認識技術は、ホームロボティクス、高齢化に関する医療、監視など、ビデオベースのアプリケーションでますます使われている。 しかし、そのようなモデルは敵対的な攻撃に対して脆弱であり、安全クリティカルなアプリケーションでの使用に対する深刻な懸念を引き起こします。 攻撃に対する効果的な防御を開発するには、そのような攻撃がポーズ検出モデルを誤認して誤った予測を行う方法を理解することが重要です。 SkeletonVisは、攻撃に対する人間の理解を高めるために、モデル上での攻撃の動作を可視化する最初のインタラクティブシステムである。

Skeleton-based human action recognition technologies are increasingly used in video based applications, such as home robotics, healthcare on aging population, and surveillance. However, such models are vulnerable to adversarial attacks, raising serious concerns for their use in safety-critical applications. To develop an effective defense against attacks, it is essential to understand how such attacks mislead the pose detection models into making incorrect predictions. We present SkeletonVis, the first interactive system that visualizes how the attacks work on the models to enhance human understanding of attacks.
翻訳日:2021-03-13 20:04:38 公開日:2021-01-26
# Wikipediaを用いたドメイン外発話のオープンドメイントピック同定

Open-domain Topic Identification of Out-of-domain Utterances using Wikipedia ( http://arxiv.org/abs/2101.11134v1 )

ライセンス: Link先を確認
A. Augustin, A. Papangelis, M. Kotti, P. Vougiouklis, J. Hare, N. Braunschweiler(参考訳) 音声対話システム(SDS)のユーザは、様々なトピックにわたる高品質な対話を期待している。 しかし,SDSの実装は,すべてのユーザ発話を情報的手法で応答させることができるため,難題である。 マルチドメインSDSは、ユーザーがSDSが処理できるドメインを常に事前に知らないので、適切な応答を生成するために、必ず特定し、ドメイン外(OOD)発話に対処する必要があります。 この問題に対処するため、ウィキペディアの外部知識表現を用いてOOD発話のトピックを推定し、マルチドメインSDSの現状を拡張します。 実人対人対話実験の結果,本手法はベースモデルと比較してドメイン予測性能が低下しないことがわかった。 しかし、我々の共同トレーニングは、ベンチマークと比較すると、より正確なウィキペディア記事の予測を最大30%精度で達成します。

Users of spoken dialogue systems (SDS) expect high quality interactions across a wide range of diverse topics. However, the implementation of SDS capable of responding to every conceivable user utterance in an informative way is a challenging problem. Multi-domain SDS must necessarily identify and deal with out-of-domain (OOD) utterances to generate appropriate responses as users do not always know in advance what domains the SDS can handle. To address this problem, we extend the current state-of-the-art in multi-domain SDS by estimating the topic of OOD utterances using external knowledge representation from Wikipedia. Experimental results on real human-to-human dialogues showed that our approach does not degrade domain prediction performance when compared to the base model. But more significantly, our joint training achieves more accurate predictions of the nearest Wikipedia article by up to about 30% when compared to the benchmarks.
翻訳日:2021-03-13 20:04:27 公開日:2021-01-26
# 臨床ノートの医療セグメントカラー化

Medical Segment Coloring of Clinical Notes ( http://arxiv.org/abs/2101.11477v1 )

ライセンス: Link先を確認
Maha Alkhairy(参考訳) 本稿では,ICD-9の幅広いカテゴリに対応する臨床ノートのセグメントを同定し,さらに17のICD-9カテゴリについてカラーコードする深層学習手法を提案する。 提案された医療セグメントカラーラー(MSC)アーキテクチャは、(1)単語分類、(2)フレーズ割り当て、(3)文書分類の3つの段階で動作するパイプラインフレームワークである。 MSCは、ゲートリカレントユニットニューラルネットワーク(GRU)を使用して、入力文書から単語マルチラベル、フレーズアロケーションまでをマッピングし、統計的なメディアンを使用してフレーズアロケーションを文書マルチラベルにマップします。 重なり合うフレーズ割り当て確率から可変長セグメントカラー化を計算する。 これらの双方向コンテキストリンクは適応的コンテキストを識別し、セグメントカラー化を生成する。 MIMIC-IIIの臨床診断書を用いてMSCを訓練・評価します。 トレーニングは、フレーズ、セグメント、または単語に関する情報なしで文書のマルチラベルのみを使用して行われます。 臨床メモの着色に加えて、MSCは副産物文書のマルチラベルと単語タグ付け -- セグメントカラー化に基づくICD9カテゴリキーワードリストの作成 -- を生成する。 MSCの副産物文書マルチラベルと、正当な文書マルチラベルを作成するための方法の比較は、64%対52.4%のマイクロ平均F1スコアであり、CAML(CNNの注意マルチラベル)法である。 臨床医はMSCセグメントカラー化結果を評価するために,40種類の色付き音符と50種類の単語の単語を単語タグに基づいて比較し,それぞれ独立に色をICD9カテゴリに割り当てた。 この評価のバイナリスコアリングの中央値は83.3%、平均は63.7%である。

This paper proposes a deep learning-based method to identify the segments of a clinical note corresponding to ICD-9 broad categories which are further color-coded with respect to 17 ICD-9 categories. The proposed Medical Segment Colorer (MSC) architecture is a pipeline framework that works in three stages: (1) word categorization, (2) phrase allocation, and (3) document classification. MSC uses gated recurrent unit neural networks (GRUs) to map from an input document to word multi-labels to phrase allocations, and uses statistical median to map phrase allocation to document multi-label. We compute variable length segment coloring from overlapping phrase allocation probabilities. These cross-level bidirectional contextual links identify adaptive context and then produce segment coloring. We train and evaluate MSC using the document labeled MIMIC-III clinical notes. Training is conducted solely using document multi-labels without any information on phrases, segments, or words. In addition to coloring a clinical note, MSC generates as byproducts document multi-labeling and word tagging -- creation of ICD9 category keyword lists based on segment coloring. Performance comparison of MSC byproduct document multi-labels versus methods whose purpose is to produce justifiable document multi-labels is 64% vs 52.4% micro-average F1-score against the CAML (CNN attention multi label) method. For evaluation of MSC segment coloring results, medical practitioners independently assigned the colors to broad ICD9 categories given a sample of 40 colored notes and a sample of 50 words related to each category based on the word tags. Binary scoring of this evaluation has a median value of 83.3% and mean of 63.7%.
翻訳日:2021-03-13 20:04:13 公開日:2021-01-26
# Entity-Aware Contextual Embeddingsを用いたイベント駆動ニューズストリームクラスタリング

Event-Driven News Stream Clustering using Entity-Aware Contextual Embeddings ( http://arxiv.org/abs/2101.11059v1 )

ライセンス: Link先を確認
Kailash Karthik Saravanakumar, Miguel Ballesteros, Muthu Kumar Chandrasekaran, Kathleen McKeown(参考訳) 本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。 我々のモデルはスパースと密度の高い文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約し、ニューラル分類器を用いてクラスタリングを決定する。 重み付き文書クラスタ類似度モデルは、線形分類目標への三重項損失の新しい適応を用いて学習される。 訓練済みトランスモデルに適切な微調整目標と外部知識を使用することにより、クラスタリングのためのコンテキスト埋め込みの有効性が大幅に改善されることが示された。 本モデルは,英語文書の標準ストリームクラスタリングデータセット上で,新たな最先端を実現する。

We propose a method for online news stream clustering that is a variant of the non-parametric streaming K-means algorithm. Our model uses a combination of sparse and dense document representations, aggregates document-cluster similarity along these multiple representations and makes the clustering decision using a neural classifier. The weighted document-cluster similarity model is learned using a novel adaptation of the triplet loss into a linear classification objective. We show that the use of a suitable fine-tuning objective and external knowledge in pre-trained transformer models yields significant improvements in the effectiveness of contextual embeddings for clustering. Our model achieves a new state-of-the-art on a standard stream clustering dataset of English documents.
翻訳日:2021-03-13 20:03:46 公開日:2021-01-26
# 反復弱学習性とマルチクラスAdaBoost

Iterative Weak Learnability and Multi-Class AdaBoost ( http://arxiv.org/abs/2101.10542v1 )

ライセンス: Link先を確認
In-Koo Cho and Jonathan Libgober(参考訳) SAMME (Zhu, Zou, Rosset, Hastie (2009)) に着想を得た多クラス分類問題に対する効率的な再帰的アンサンブルアルゴリズムを構築した。 zhu,zou,rosset,hasti e(2009)の弱い学習可能性条件は,少なくとも2つの要素を持つラベルのサブセットに対して弱い学習可能性条件が保持されることを要求することにより強化される。 この条件は多くの代替案(例: mukherjee and schapire (2013))よりも簡単にチェックできる。 SAMMEとして、ラベルの数が2つの場合、アルゴリズムはAdaptive Boostingアルゴリズム(Schapire and Freund (2012))に還元され、最適なソリューションを見つけるために最も急な下降方法の機能バージョンとして動機付けることができます。 SAMMEとは対照的に、アルゴリズムの最終仮説は確率1の正しいラベルに収束する。 任意のラベルに対して、トレーニング期間が増加するにつれて誤分類の確率は指数関数的に減少する。 サンプルサイズのみに依存する訓練誤差と追加項の和は,適応ブースティングアルゴリズムとしてアルゴリズムの一般化誤差を限定する。

We construct an efficient recursive ensemble algorithm for the multi-class classification problem, inspired by SAMME (Zhu, Zou, Rosset, and Hastie (2009)). We strengthen the weak learnability condition in Zhu, Zou, Rosset, and Hastie (2009) by requiring that the weak learnability condition holds for any subset of labels with at least two elements. This condition is simpler to check than many proposed alternatives (e.g., Mukherjee and Schapire (2013)). As SAMME, our algorithm is reduced to the Adaptive Boosting algorithm (Schapire and Freund (2012)) if the number of labels is two, and can be motivated as a functional version of the steepest descending method to find an optimal solution. In contrast to SAMME, our algorithm's final hypothesis converges to the correct label with probability 1. For any number of labels, the probability of misclassification vanishes exponentially as the training period increases. The sum of the training error and an additional term, that depends only on the sample size, bounds the generalization error of our algorithm as the Adaptive Boosting algorithm.
翻訳日:2021-03-13 20:03:33 公開日:2021-01-26
# Average Localized Proximity: デフォルトの1クラス分類性能の良い新しいデータ記述子

Average Localised Proximity: a new data descriptor with good default one-class classification performance ( http://arxiv.org/abs/2101.11037v1 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis(参考訳) ワンクラス分類は、いわゆるデータ記述子を使用してクラスの正の例のみに基づいてクラスのメンバシップを予測する機械学習の挑戦的なサブフィールドであり、反例はありません。 サポートベクターマシン(SVM)のような1クラス分類の以前の研究でうまく機能することが示されているデータ記述子の多くは、1つ以上のハイパーパラメータを設定する必要があります。 これらのハイパーパラメータの最適デフォルト値を決定するための体系的な試みはなく、特にアイソレーションフォレスト(IF)のようなハイパーパラメータフリーの提案と比較して、使いやすさを制限している。 我々は,50の異なる実世界のデータセットから抽出した246の1クラス分類問題の集合から,最適デフォルトのハイパーパラメータ値を決定することでこの問題に対処する。 さらに, 近距離に基づく既存アプローチの課題を解決するために, 新しいデータ記述子 Average Localized Proximity (ALP) を提案する。 最後に,ref-one-dataset-out 法を用いて分類性能を評価し,if および他のデータ記述子よりも alp が優れていることを示す強い証拠と,それが svm を上回るという弱い証拠を見いだし,alp が既定の選択肢となるようにした。

One-class classification is a challenging subfield of machine learning in which so-called data descriptors are used to predict membership of a class based solely on positive examples of that class, and no counter-examples. A number of data descriptors that have been shown to perform well in previous studies of one-class classification, like the Support Vector Machine (SVM), require setting one or more hyperparameters. There has been no systematic attempt to date to determine optimal default values for these hyperparameters, which limits their ease of use, especially in comparison with hyperparameter-free proposals like the Isolation Forest (IF). We address this issue by determining optimal default hyperparameter values across a collection of 246 one-class classification problems derived from 50 different real-world datasets. In addition, we propose a new data descriptor, Average Localised Proximity (ALP) to address certain issues with existing approaches based on nearest neighbour distances. Finally, we evaluate classification performance using a leave-one-dataset-ou t procedure, and find strong evidence that ALP outperforms IF and a number of other data descriptors, as well as weak evidence that it outperforms SVM, making ALP a good default choice.
翻訳日:2021-03-13 20:02:54 公開日:2021-01-26
# 一般化2パラメータ勾配推定器

Generalized Doubly Reparameterized Gradient Estimators ( http://arxiv.org/abs/2101.11046v1 )

ライセンス: Link先を確認
Matthias Bauer and Andriy Mnih(参考訳) 再パラメータ化トリック(RT)によって実現される効率的な低分散勾配推定は、変動オートエンコーダの成功に不可欠です。 DReGs(Douubly-repara meterized gradient)は、分散のさらなる低減のために2回目の再パラメータ化を施すことにより、マルチサンプル変動境界のRTを改善する。 ここでは、DReGs推定器の2つの一般化を開発し、条件付きおよび階層的なVAEをより効果的に画像モデリングタスクにトレーニングできることを示します。 まず,複数の確率層を持つ階層モデルに推定器を拡張し,階層的変動後部による追加のスコア関数項の扱い方を示す。 次に、DReGsをサンプリング分布だけでなく任意の分布の関数のスコアリングに一般化することにより、後方のパラメータに加えて、前者のパラメータにも適用できる推定値を求める。

Efficient low-variance gradient estimation enabled by the reparameterization trick (RT) has been essential to the success of variational autoencoders. Doubly-reparameteriz ed gradients (DReGs) improve on the RT for multi-sample variational bounds by applying reparameterization a second time for an additional reduction in variance. Here, we develop two generalizations of the DReGs estimator and show that they can be used to train conditional and hierarchical VAEs on image modelling tasks more effectively. We first extend the estimator to hierarchical models with several stochastic layers by showing how to treat additional score function terms due to the hierarchical variational posterior. We then generalize DReGs to score functions of arbitrary distributions instead of just those of the sampling distribution, which makes the estimator applicable to the parameters of the prior in addition to those of the posterior.
翻訳日:2021-03-13 20:02:31 公開日:2021-01-26
# 複数クラス分類のための抽出階層評価の落とし穴

Pitfalls of Assessing Extracted Hierarchies for Multi-Class Classification ( http://arxiv.org/abs/2101.11095v1 )

ライセンス: Link先を確認
Pablo del Moral, Slawomir Nowaczyk, Anita Sant'Anna, Sepideh Pashami(参考訳) クラス階層の使用は、マルチクラスの分類問題を解決する標準的な方法の1つです。 文献では,正しい階層を選択することが,分類性能の向上に重要な役割を果たしていると考えられる。 異なる方法が提案されているが、階層を抽出する1つの方法がより良いか悪いかを理解できない。 そこで本研究では,階層抽出における最も一般的なアプローチを分析し,比較する。 私たちは、実践者がメソッドについて誤解を招くような結論を下すかもしれない、一般的な落とし穴を特定します。 さらに,これらの問題に対処するため,階層構造が分類性能にどのように影響するかを評価するのに,ランダム階層を用いることが適切なベンチマークであることを示す。 特に、実験的な設定によって階層の質がいかに無関係になるかを示す: 十分な分類器を使用する場合、最終的な性能は階層の質に影響されない。 また,非階層的アプローチに対する階層効果の比較が,その優劣を不正確に示す可能性を示した。 その結果,多くのクラスを持つデータセットは,これらのクラスが相互に関係する複雑な構造を持つことが明らかとなった。 これらのデータセットでは、適切な階層構造により分類性能が劇的に向上する。

Using hierarchies of classes is one of the standard methods to solve multi-class classification problems. In the literature, selecting the right hierarchy is considered to play a key role in improving classification performance. Although different methods have been proposed, there is still a lack of understanding of what makes one method to extract hierarchies perform better or worse. To this effect, we analyze and compare some of the most popular approaches to extracting hierarchies. We identify some common pitfalls that may lead practitioners to make misleading conclusions about their methods. In addition, to address some of these problems, we demonstrate that using random hierarchies is an appropriate benchmark to assess how the hierarchy's quality affects the classification performance. In particular, we show how the hierarchy's quality can become irrelevant depending on the experimental setup: when using powerful enough classifiers, the final performance is not affected by the quality of the hierarchy. We also show how comparing the effect of the hierarchies against non-hierarchical approaches might incorrectly indicate their superiority. Our results confirm that datasets with a high number of classes generally present complex structures in how these classes relate to each other. In these datasets, the right hierarchy can dramatically improve classification performance.
翻訳日:2021-03-13 20:02:17 公開日:2021-01-26
# 分割交換性を考慮した漸近教師付き予測分類器

Asymptotic Supervised Predictive Classifiers under Partition Exchangeability ( http://arxiv.org/abs/2101.10950v1 )

ライセンス: Link先を確認
Ali Amiryousefi(参考訳) 教師付き分類における分割交換性の下での同時および限界予測分類器の収束が得られる。 その結果、これらの分類器の無限量のトレーニングまたはテストデータの下での無症状収束が示され、例えば、膨大な量のデータを観察した後、これらの分類器間の相違は無視可能である。 これは実用上重要な結果であり、十分な量のデータが存在する場合には、より単純な辺縁分類器を計算的に高価な同時処理に置き換えることができる。

The convergence of simultaneous and marginal predictive classifiers under partition exchangeability in supervised classification is obtained. The result shows the asymptotic convergence of these classifiers under infinite amount of training or test data, such that after observing umpteen amount of data, the differences between these classifiers would be negligible. This is an important result from the practical perspective as under the presence of sufficiently large amount of data, one can replace the simpler marginal classifier with computationally more expensive simultaneous one.
翻訳日:2021-03-13 20:00:54 公開日:2021-01-26
# SDF-Bayes : 薬物併用と異種患者グループによる安全な服用試験における注意深い最適化

SDF-Bayes: Cautious Optimism in Safe Dose-Finding Clinical Trials with Drug Combinations and Heterogeneous Patient Groups ( http://arxiv.org/abs/2101.10998v1 )

ライセンス: Link先を確認
Hyun-Suk Lee, Cong Shen, William Zame, Jang-Won Lee, Mihaela van der Schaar(参考訳) 第I相臨床試験は、薬物の安全性(非毒性)を検査し、最大許容量(MTD)を求めるように設計されている。 この課題は、指数関数的に増加するDC候補と限られた患者予算との間に固有の対立があるため、多剤併用(DC)が関与する場合、さらに困難になる。 本論文では,安全制約下での薬物併用のためのMTD探索のためのベイジアン設計である SDF-Bayes を提案する。 sdf-bayesは、現在の薬物の服用量をエスカレートまたは脱エスカレートする従来の原則ではなく、注意深い楽観主義によって進行する: 現在の情報に基づいて、安全である確率の高いdcを選択すること(注意)という制約のもと、最もmtd(最適化)になる可能性が高い次のdcを選択する(最適化)。 また,患者の不均一性を考慮した拡張型sdf-bayes-arを提案する。 合成と実世界の両方のデータセットに基づく大規模な実験は、精度と安全性の観点から、アートDCトライアル設計の状況に対するSDF-Bayesの利点を実証している。

Phase I clinical trials are designed to test the safety (non-toxicity) of drugs and find the maximum tolerated dose (MTD). This task becomes significantly more challenging when multiple-drug dose-combinations (DC) are involved, due to the inherent conflict between the exponentially increasing DC candidates and the limited patient budget. This paper proposes a novel Bayesian design, SDF-Bayes, for finding the MTD for drug combinations in the presence of safety constraints. Rather than the conventional principle of escalating or de-escalating the current dose of one drug (perhaps alternating between drugs), SDF-Bayes proceeds by cautious optimism: it chooses the next DC that, on the basis of current information, is most likely to be the MTD (optimism), subject to the constraint that it only chooses DCs that have a high probability of being safe (caution). We also propose an extension, SDF-Bayes-AR, that accounts for patient heterogeneity and enables heterogeneous patient recruitment. Extensive experiments based on both synthetic and real-world datasets demonstrate the advantages of SDF-Bayes over state of the art DC trial designs in terms of accuracy and safety.
翻訳日:2021-03-13 20:00:46 公開日:2021-01-26
# レーダーによる人間行動認識システムにおける敵攻撃の重要性とその解釈可能性との関連性の検討

Investigating the significance of adversarial attacks and their relation to interpretability for radar-based human activity recognition systems ( http://arxiv.org/abs/2101.10562v1 )

ライセンス: Link先を確認
Utku Ozbulak, Baptist Vandersmissen, Azarakhsh Jalalvand, Ivo Couckuyt, Arnout Van Messem, Wesley De Neve(参考訳) 幅広いコンピュータビジョンの課題に対処することに成功したことにより、Convolutional Neural Networks(CNN)はスマートホームアプリケーションでますます使用され、これらのアプリケーションの多くは人間の活動の自動認識に依存しています。 このような状況下では、従来のビデオカメラを使用する際の重要な問題であるプライバシー上の懸念を軽減できるため、低消費電力レーダー装置が記録センサーとして最近人気を集めている。 スマートホームアプリケーションを設計する際にしばしば引用されるもう一つの懸念は、サイバー攻撃に対するこれらのアプリケーションの回復力です。 例えば、画像とCNNの組み合わせが、テスト時間中に機械学習モデルに誤った分類を強制する、敵対的なデータポイントに対して脆弱であることはよく知られている。 本稿では,レーダベースCNNの敵攻撃に対する脆弱性と,これらのレーダベースCNNが人間のジェスチャーを認識するように設計されているかを検討する。 4つのユニークな脅威モデルによる実験により、レーダーベースのCNNが白と黒の両方の逆転攻撃の影響を受けやすいことを示しています。 また,レーダーによるCNNによる予測を,動作自体が生じるフレームに触れることなく,入力のパディングのみを摂動させることで変更することが可能な,極端な対向攻撃ケースの存在を明らかにした。 さらに、勾配に基づく攻撃はランダムではなく、入力データの重要な特徴に基づいて摂動を行う。 本稿では,一般的なニューラルネットワーク解釈手法であるgrad-camを用いて,逆摂動と予測可読性の関係を示す。

Given their substantial success in addressing a wide range of computer vision challenges, Convolutional Neural Networks (CNNs) are increasingly being used in smart home applications, with many of these applications relying on the automatic recognition of human activities. In this context, low-power radar devices have recently gained in popularity as recording sensors, given that the usage of these devices allows mitigating a number of privacy concerns, a key issue when making use of conventional video cameras. Another concern that is often cited when designing smart home applications is the resilience of these applications against cyberattacks. It is, for instance, well-known that the combination of images and CNNs is vulnerable against adversarial examples, mischievous data points that force machine learning models to generate wrong classifications during testing time. In this paper, we investigate the vulnerability of radar-based CNNs to adversarial attacks, and where these radar-based CNNs have been designed to recognize human gestures. Through experiments with four unique threat models, we show that radar-based CNNs are susceptible to both white- and black-box adversarial attacks. We also expose the existence of an extreme adversarial attack case, where it is possible to change the prediction made by the radar-based CNNs by only perturbing the padding of the inputs, without touching the frames where the action itself occurs. Moreover, we observe that gradient-based attacks exercise perturbation not randomly, but on important features of the input data. We highlight these important features by making use of Grad-CAM, a popular neural network interpretability method, hereby showing the connection between adversarial perturbation and prediction interpretability.
翻訳日:2021-03-13 20:00:22 公開日:2021-01-26
# 周波数領域に基づく画像可視化とディープラーニングによるマルウェア検出

Malware Detection Using Frequency Domain-Based Image Visualization and Deep Learning ( http://arxiv.org/abs/2101.10578v1 )

ライセンス: Link先を確認
Tajuddin Manhar Mohammed, Lakshmanan Nataraj, Satish Chikkagoudar, Shivkumar Chandrasekaran, B.S. Manjunath(参考訳) 画像分類によるマルウェアの検出と可視化を行う新しい手法を提案する。 実行可能バイナリを離散コサイン変換(dct)領域のバイトのnグラム(n=2)数から得られるグレースケール画像として表現し、マルウェア検出のためにニューラルネットワークを訓練する。 浅いニューラルネットワークは分類のために訓練され、その精度は転送学習を用いて訓練されるresnetのようなディープネットワークアーキテクチャと比較される。 これらの方法には、マルウェアの分解および動作解析は不要です。 これらの画像の視覚的な類似性に動機づけられて,当社のディープニューラルネットワークモデルとgist記述子などの標準画像機能を比較し,パフォーマンス評価を行った。 誤り解析を用いた異なる特徴を組み合わせることで,分類性能向上のための正確なアンサンブルモデルを得るための共同特徴尺度を提案する。 MaleXと呼ばれる新しいデータセットは、大規模なマルウェア検出と分類実験のために約100万のマルウェアと良質なWindows実行サンプルを含んでいる。 実験結果はMaleXの96%のバイナリ分類精度で有望である。 提案モデルでは, より大規模なマルウェアサンプルを対象とし, 現状の静的解析に基づくマルウェア検出アルゴリズムと比較した。

We propose a novel method to detect and visualize malware through image classification. The executable binaries are represented as grayscale images obtained from the count of N-grams (N=2) of bytes in the Discrete Cosine Transform (DCT) domain and a neural network is trained for malware detection. A shallow neural network is trained for classification, and its accuracy is compared with deep-network architectures such as ResNet that are trained using transfer learning. Neither dis-assembly nor behavioral analysis of malware is required for these methods. Motivated by the visual similarity of these images for different malware families, we compare our deep neural network models with standard image features like GIST descriptors to evaluate the performance. A joint feature measure is proposed to combine different features using error analysis to get an accurate ensemble model for improved classification performance. A new dataset called MaleX which contains around 1 million malware and benign Windows executable samples is created for large-scale malware detection and classification experiments. Experimental results are quite promising with 96% binary classification accuracy on MaleX. The proposed model is also able to generalize well on larger unseen malware samples and the results compare favorably with state-of-the-art static analysis-based malware detection algorithms.
翻訳日:2021-03-13 19:59:56 公開日:2021-01-26
# ImageCHD:先天性心疾患の分類のための3次元CT画像データセット

ImageCHD: A 3D Computed Tomography Image Dataset for Classification of Congenital Heart Disease ( http://arxiv.org/abs/2101.10799v1 )

ライセンス: Link先を確認
Xiaowei Xu, Tianchen Wang, Jian Zhuang, Haiyun Yuan, Meiping Huang, Jianzheng Cen, Qianjun Jia, Yuhao Dong, Yiyu Shi(参考訳) 先天性心疾患(英: Congenital heart disease、CHD)は、アメリカ合衆国の110出生毎に1度発生する、最も一般的な出生障害である。 CHDは通常、心臓構造や大動脈の接続に深刻な変化があり、様々な種類に分類される。 したがって、関連する医療画像を分析するには、高度に専門的なドメイン知識と時間を要する人間のプロセスが必要である。 一方、CHDの複雑さとデータセットの欠如により、CHDの自動診断(分類)についてはほとんど研究されていない。 本稿では,CHD分類のための最初の医用画像データセットであるImageCHDを提案する。 ImageCHDには、ほとんどのタイプのCHDをカバーする110の3DCT画像が含まれています。CHDのまともなサイズの分類には、局所組織の変化なしに大きな構造変化を識別する必要があります。 これは、現在の機械学習ベースの視覚手法では解決が困難である、より大規模な問題の例である。 そこで本研究では,最新のCHDセグメンテーション法に基づいて,CHDの自動分類のためのベースラインフレームワークを提案する。 実験結果は、ベースラインフレームワークが88.4\%のカバレッジを持つ選択的予測スキームの下でのみ82.0\%の分類精度を達成できることを示し、さらなる改善の余地を残している。 ImageCHDがさらなる研究を刺激し、複数のドメインに影響を及ぼす革新的で汎用的なソリューションに繋がることを願っている。 我々のデータセットは、既存の医療画像データセットと比較して一般公開されている。

Congenital heart disease (CHD) is the most common type of birth defect, which occurs 1 in every 110 births in the United States. CHD usually comes with severe variations in heart structure and great artery connections that can be classified into many types. Thus highly specialized domain knowledge and the time-consuming human process is needed to analyze the associated medical images. On the other hand, due to the complexity of CHD and the lack of dataset, little has been explored on the automatic diagnosis (classification) of CHDs. In this paper, we present ImageCHD, the first medical image dataset for CHD classification. ImageCHD contains 110 3D Computed Tomography (CT) images covering most types of CHD, which is of decent size Classification of CHDs requires the identification of large structural changes without any local tissue changes, with limited data. It is an example of a larger class of problems that are quite difficult for current machine-learning-bas ed vision methods to solve. To demonstrate this, we further present a baseline framework for the automatic classification of CHD, based on a state-of-the-art CHD segmentation method. Experimental results show that the baseline framework can only achieve a classification accuracy of 82.0\% under a selective prediction scheme with 88.4\% coverage, leaving big room for further improvement. We hope that ImageCHD can stimulate further research and lead to innovative and generic solutions that would have an impact in multiple domains. Our dataset is released to the public compared with existing medical imaging datasets.
翻訳日:2021-03-13 19:59:34 公開日:2021-01-26
# 逐次事前条件付き勾配拡散法のロバスト性:分散線形回帰問題の場合

Robustness of Iteratively Pre-Conditioned Gradient-Descent Method: The Case of Distributed Linear Regression Problem ( http://arxiv.org/abs/2101.10967v1 )

ライセンス: Link先を確認
Kushal Chakrabarti, Nirupam Gupta and Nikhil Chopra(参考訳) 本稿では,システムノイズの存在下でのマルチエージェント分散線形回帰問題について考察する。 この問題では、システムは、各エージェントがデータポイントのセットを局所的に観察する複数のエージェントで構成され、エージェントの目標は、すべてのエージェントが観察する集合データポイントに最も適した線形モデルを計算することである。 私たちは、エージェントが共通のサーバーと対話して問題を解決するサーバーベースの分散アーキテクチャを検討しますが、サーバーはエージェントのデータポイントにアクセスできません。 本稿では,監視ノイズ,すなわちエージェントが観測するデータポイントの破損,あるいはプロセスノイズ,すなわちサーバとエージェントが行う計算が破損する,といった実用シナリオについて考察する。 ノイズフリーシステムにおいて、最近提案されている分散線形回帰アルゴリズムは、反復前条件勾配拡散法 (ipg) と呼ばれ、関連する手法よりも高速に収束すると主張している。 本稿では, ipg法のロバスト性について, 観測ノイズとプロセスノイズの両方に対して検討する。 IPG法のロバスト性は,最先端のアルゴリズムと良好に比較できることを示す。

This paper considers the problem of multi-agent distributed linear regression in the presence of system noises. In this problem, the system comprises multiple agents wherein each agent locally observes a set of data points, and the agents' goal is to compute a linear model that best fits the collective data points observed by all the agents. We consider a server-based distributed architecture where the agents interact with a common server to solve the problem; however, the server cannot access the agents' data points. We consider a practical scenario wherein the system either has observation noise, i.e., the data points observed by the agents are corrupted, or has process noise, i.e., the computations performed by the server and the agents are corrupted. In noise-free systems, the recently proposed distributed linear regression algorithm, named the Iteratively Pre-conditioned Gradient-descent (IPG) method, has been claimed to converge faster than related methods. In this paper, we study the robustness of the IPG method, against both the observation noise and the process noise. We empirically show that the robustness of the IPG method compares favorably to the state-of-the-art algorithms.
翻訳日:2021-03-13 19:58:53 公開日:2021-01-26
# セントローレンス島ユピックのデジタルコーパス

A Digital Corpus of St. Lawrence Island Yupik ( http://arxiv.org/abs/2101.10496v1 )

ライセンス: Link先を確認
Lane Schwartz and Emily Chen and Hyunji Hayley Park and Edward Jahn and Sylvia L.R. Schreiner(参考訳) セントローレンス・アイランド・ユピク(英語: St. Lawrence Island Yupik, ISO 639-3: ess)は、アラスカやチュコトカに自生するイヌイット・ユピク語族の絶滅危うい多合成言語である。 この研究は、文章のデジタル化のためのステップバイステップパイプラインと、そのパイプラインを使用して作成されたセントローレンス島ユピックのための最初の公開デジタルコーパスを提示する。 このコーパスは今後のNLPにおける言語調査や研究に大きな可能性を持っている。 また、Yupik言語教育と活性化のために開発され、教育者やYupikコミュニティのメンバーによってYupikテキストに簡単にアクセスできます。 第二の目標は、スペルチェッカー、テキスト補完システム、インタラクティブな電子ブック、Yupikコミュニティが使用する言語学習アプリなどの言語技術の開発を支援することです。

St. Lawrence Island Yupik (ISO 639-3: ess) is an endangered polysynthetic language in the Inuit-Yupik language family indigenous to Alaska and Chukotka. This work presents a step-by-step pipeline for the digitization of written texts, and the first publicly available digital corpus for St. Lawrence Island Yupik, created using that pipeline. This corpus has great potential for future linguistic inquiry and research in NLP. It was also developed for use in Yupik language education and revitalization, with a primary goal of enabling easy access to Yupik texts by educators and by members of the Yupik community. A secondary goal is to support development of language technology such as spell-checkers, text-completion systems, interactive e-books, and language learning apps for use by the Yupik community.
翻訳日:2021-03-13 19:58:32 公開日:2021-01-26
# ブラックボックスの色付け - 文字埋め込みについてsynesthesia氏が語ること

Coloring the Black Box: What Synesthesia Tells Us about Character Embeddings ( http://arxiv.org/abs/2101.10565v1 )

ライセンス: Link先を確認
Katharina Kann and Mauro M. Monsalve-Mercado(参考訳) 単語レベルや文レベルとは対照的に、文字埋め込みはいまだに理解されていない。 このギャップを、英語の文字埋め込みに関する詳細な研究で解消することを目指している。 これは、文字が色に関連付けられている神経心理学的な現象であり、どの文字が合成語に類似しているか、どのように色空間で文字が組織されるのかを洞察する。 10の異なる文字の埋め込みを比較すると、文字の埋め込みとシナテートの文字の知覚はどの程度似ていますか? キャラクタ埋め込みは、異なるモデルからどのくらい似ていますか? LSTMはトランスよりも人間と一致している。 タスク間で比較すると、Grapheme-to-phoneme変換は最も人間的な文字埋め込みをもたらす。 最後に、ELMoの埋め込みは人間や他のモデルとは異なる。

In contrast to their word- or sentence-level counterparts, character embeddings are still poorly understood. We aim at closing this gap with an in-depth study of English character embeddings. For this, we use resources from research on grapheme-color synesthesia -- a neuropsychological phenomenon where letters are associated with colors, which give us insight into which characters are similar for synesthetes and how characters are organized in color space. Comparing 10 different character embeddings, we ask: How similar are character embeddings to a synesthete's perception of characters? And how similar are character embeddings extracted from different models? We find that LSTMs agree with humans more than transformers. Comparing across tasks, grapheme-to-phoneme conversion results in the most human-like character embeddings. Finally, ELMo embeddings differ from both humans and other models.
翻訳日:2021-03-13 19:58:17 公開日:2021-01-26
# 表とテキストを用いた文書からの質問応答表現

Representations for Question Answering from Documents with Tables and Text ( http://arxiv.org/abs/2101.10573v1 )

ライセンス: Link先を確認
Vicky Zayats, Kristina Toutanova, and Mari Ostendorf(参考訳) Webドキュメントのテーブルは広く普及しており、Webで検索されたクエリの多くに答えるために直接使用することができる。 表に示される情報はしばしば簡潔であり、標準言語表現では解釈が難しい。 一方、テーブルは、表を記述した記事など、テキストのコンテキスト内に現れることが多い。 記事の情報を追加のコンテキストとして使用すると、テーブル表現が強化される可能性があります。 本研究は,周辺テキストの情報に基づいて表表現を精査することで,表からの質問応答を改善することを目的とする。 また,全文書からの質問応答に対して,テキストと表に基づく予測を併用し,自然質問データセットの大幅な改善を実現するための効果的な手法を提案する。

Tables in Web documents are pervasive and can be directly used to answer many of the queries searched on the Web, motivating their integration in question answering. Very often information presented in tables is succinct and hard to interpret with standard language representations. On the other hand, tables often appear within textual context, such as an article describing the table. Using the information from an article as additional context can potentially enrich table representations. In this work we aim to improve question answering from tables by refining table representations based on information from surrounding text. We also present an effective method to combine text and table-based predictions for question answering from full documents, obtaining significant improvements on the Natural Questions dataset.
翻訳日:2021-03-13 19:58:05 公開日:2021-01-26
# 注釈付き並列ペアを使わずに構文制御されたパラフレーズを生成する

Generating Syntactically Controlled Paraphrases without Using Annotated Parallel Pairs ( http://arxiv.org/abs/2101.10579v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Kai-Wei Chang(参考訳) パラフレーズ生成は自然言語プロセス(NLP)において重要な役割を果たし、多くの下流アプリケーションがあります。 しかし、教師付き言い換えモデルの訓練には多くの注釈付き言い換えペアが必要である。 一方、既存の教師なしアプローチによって生じるパラフレーズは、通常、ソース文と構文的に類似しており、多様性に制限がある。 本稿では,アノテーション付きパラフローゼペアを必要とせずに,構文的に様々なパラフレーズを生成できることを実証する。 本稿では,意味論と文の構文を非注釈テキストの集合から切り離すことを学習するエンコーダ-デコーダモデルである構文制御パラフレーズ生成(SynPG)を提案する。 アンタングル化により、SynPGは構文空間への埋め込みを操作することで出力パラフレーズの構文を制御することができる。 自動測定と人間評価を用いた広範な実験では、SynPGは教師なしのベースラインよりも優れた構文制御を実行し、生成されたパラフレーズの品質は競争的である。 また、非注釈データが大きい場合、SynPGの性能が監視モデルよりも競争力が高いか、さらに優れていることを実証します。 最後に,SynPGが生成する構文制御パラフレーズをデータ拡張に利用することにより,NLPモデルのロバスト性を向上させることができることを示す。

Paraphrase generation plays an essential role in natural language process (NLP), and it has many downstream applications. However, training supervised paraphrase models requires many annotated paraphrase pairs, which are usually costly to obtain. On the other hand, the paraphrases generated by existing unsupervised approaches are usually syntactically similar to the source sentences and are limited in diversity. In this paper, we demonstrate that it is possible to generate syntactically various paraphrases without the need for annotated paraphrase pairs. We propose Syntactically controlled Paraphrase Generator (SynPG), an encoder-decoder based model that learns to disentangle the semantics and the syntax of a sentence from a collection of unannotated texts. The disentanglement enables SynPG to control the syntax of output paraphrases by manipulating the embedding in the syntactic space. Extensive experiments using automatic metrics and human evaluation show that SynPG performs better syntactic control than unsupervised baselines, while the quality of the generated paraphrases is competitive. We also demonstrate that the performance of SynPG is competitive or even better than supervised models when the unannotated data is large. Finally, we show that the syntactically controlled paraphrases generated by SynPG can be utilized for data augmentation to improve the robustness of NLP models.
翻訳日:2021-03-13 19:57:54 公開日:2021-01-26
# 神経機械翻訳, コーパス, 虚偽性

Neural machine translation, corpus and frugality ( http://arxiv.org/abs/2101.10650v1 )

ライセンス: Link先を確認
Raoul Blin(参考訳) 機械翻訳の分野では、学術と産業の両方において、数億から数十億のコーパスを使用して、ますます強力なシステムへの関心が高まっている。 これらのシステムは最先端のものです。 ここでは,<frugal>>二言語翻訳システムを並列に開発し,比較的小さなコーパスで学習するという考え方を擁護する。 標準の人間の専門翻訳者の観察に基づいて、コーポラは、ソース言語の75百万の例のモノリンガルサブコーパス、ターゲット言語の600百万の例の第二のモノリンガルサブコーパス、および600百万のバイリンガルサブコーパスの最大で構成されるべきであると推定する。 望ましくない選択肢は、47.5百万のバイ例の整列されたバイリンガルコーパスである。

In machine translation field, in both academia and industry, there is a growing interest in increasingly powerful systems, using corpora of several hundred million to several billion examples. These systems represent the state-of-the-art. Here we defend the idea of developing in parallel <<frugal>> bilingual translation systems, trained with relatively small corpora. Based on the observation of a standard human professional translator, we estimate that the corpora should be composed at maximum of a monolingual sub-corpus of 75 million examples for the source language, a second monolingual sub-corpus of 6 million examples for the target language, and an aligned bilingual sub-corpus of 6 million bi-examples. A less desirable alternative would be an aligned bilingual corpus of 47.5 million bi-examples.
翻訳日:2021-03-13 19:57:13 公開日:2021-01-26
# 検証によるニューラルNLIモデルのトランジシティの探索

Exploring Transitivity in Neural NLI Models through Veridicality ( http://arxiv.org/abs/2101.10713v1 )

ライセンス: Link先を確認
Hitomi Yanaka, Koji Mineshima, Kentaro Inui(参考訳) 近年、自然言語処理におけるディープニューラルネットワークの成功にもかかわらず、自然言語理解のための人間のような一般化能力を示すことができる範囲は未定である。 この問題を自然言語推論(nli:domain of natural language inference)の領域で検討し,推論関係の推移性に着目した。 推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。 本研究では,動詞を包含する合成的・自然主義的NLIデータセットを用いて,モデルが検証的推論と任意の推論型からなる推移性推論を実行できるかどうかを評価する。 現在のNLIモデルは、過渡性推論のタスクで一貫してうまく機能しておらず、与えられたトレーニング例から複合推論を描画する一般化能力がないことを示唆している。 分析のためのデータとコードはhttps://github.com/v erypluming/transitiv ityで公開されている。

Despite the recent success of deep neural networks in natural language processing, the extent to which they can demonstrate human-like generalization capacities for natural language understanding remains unclear. We explore this issue in the domain of natural language inference (NLI), focusing on the transitivity of inference relations, a fundamental property for systematically drawing inferences. A model capturing transitivity can compose basic inference patterns and draw new inferences. We introduce an analysis method using synthetic and naturalistic NLI datasets involving clause-embedding verbs to evaluate whether models can perform transitivity inferences composed of veridical inferences and arbitrary inference types. We find that current NLI models do not perform consistently well on transitivity inference tasks, suggesting that they lack the generalization capacity for drawing composite inferences from provided training examples. The data and code for our analysis are publicly available at https://github.com/v erypluming/transitiv ity.
翻訳日:2021-03-13 19:56:57 公開日:2021-01-26
# 半教師付き文書分類のための深層生成モデルと多言語事前学習の組み合わせ

Combining Deep Generative Models and Multi-lingual Pretraining for Semi-supervised Document Classification ( http://arxiv.org/abs/2101.10717v1 )

ライセンス: Link先を確認
Yi Zhu, Ehsan Shareghi, Yingzhen Li, Roi Reichart, Anna Korhonen(参考訳) 深層生成モデルと多言語事前学習技術による半教師あり学習は、NLPの様々な領域で大きな成功を収めている。 それでも、彼らの開発は独立して行われており、両方の組み合わせはタスク固有のラベル付きデータ不足に取り組むのに効果的かもしれない。 このギャップを埋めるために、半教師付き深層生成モデルと多言語事前学習を組み合わせることで、文書分類タスクのためのパイプラインを形成する。 強力な教師付き学習ベースラインと比較して、当社の半教師付き分類フレームワークは競争力が高く、複数の言語にわたる低リソース設定における最先端のものよりも優れています。

Semi-supervised learning through deep generative models and multi-lingual pretraining techniques have orchestrated tremendous success across different areas of NLP. Nonetheless, their development has happened in isolation, while the combination of both could potentially be effective for tackling task-specific labelled data shortage. To bridge this gap, we combine semi-supervised deep generative models and multi-lingual pretraining to form a pipeline for document classification task. Compared to strong supervised learning baselines, our semi-supervised classification framework is highly competitive and outperforms the state-of-the-art counterparts in low-resource settings across several languages.
翻訳日:2021-03-13 19:56:41 公開日:2021-01-26
# 文書レベルの機械翻訳へのアプローチの比較

A Comparison of Approaches to Document-level Machine Translation ( http://arxiv.org/abs/2101.11040v1 )

ライセンス: Link先を確認
Zhiyi Ma, Sergey Edunov, Michael Auli(参考訳) コヒーレントな翻訳を生成するために、周囲の文に対する文書レベルの機械翻訳条件。 この領域では、カスタムモデルアーキテクチャとデコードアルゴリズムの導入によって、近年多くの作業が行われている。 本稿では,文書レベルの現象評価スイートが存在する2つのベンチマークについて,文献から選択したアプローチを体系的に比較する。 単言語文書レベルのデータをバック翻訳する単純な手法は、文書レベルのメトリクスと人的評価の両方の観点から、より精巧な代替手段として機能する。

Document-level machine translation conditions on surrounding sentences to produce coherent translations. There has been much recent work in this area with the introduction of custom model architectures and decoding algorithms. This paper presents a systematic comparison of selected approaches from the literature on two benchmarks for which document-level phenomena evaluation suites exist. We find that a simple method based purely on back-translating monolingual document-level data performs as well as much more elaborate alternatives, both in terms of document-level metrics as well as human evaluation.
翻訳日:2021-03-13 19:56:29 公開日:2021-01-26
# 深層主語: 多言語BERTにおける高次文法的特徴

Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT ( http://arxiv.org/abs/2101.11043v1 )

ライセンス: Link先を確認
Isabel Papadimitriou, Ethan A. Chi, Richard Futrell, Kyle Mahowald(参考訳) MBERT(Multilingual BERT)がどのように文法をエンコードするかを、異なる言語の埋め込み空間にまたがるモルフォスシンタクティックアライメントの高階文法的特徴(異なる言語が「対象」としてカウントするものをどのように定義するか)がどのように現れるかを検討する。 モーフィオシンタクティックアライメントが文脈埋め込み空間にどのように影響するかを理解するために,モーフィオシンタクティックアライメントに関する過剰な情報を含まない)推移文における mBERT 埋め込みの主観性を取り戻すよう分類器を訓練し,非推移文(主観的分類がアライメントに依存する部分)においてゼロショットの評価を行う。 得られた分類器分布は, 学習言語の形態的アライメントを反映していることがわかった。 以上の結果から,mBERT表現は1つの入力文に現れない高次文法的特徴の影響を受けており,言語間で堅牢であることが示された。 さらに,我々の分類器が依存する特徴について検討した結果,パッシブ・ボイス,アナタシー,ケースといった特徴は分類決定と強く関連しており,mbert は主観を純粋に構文的にエンコードしていないが,主観埋め込みは意味的・談話的要因に依存しており,機能言語学の文献の多くで提案されている。 これらの結果は, 文脈埋め込み空間における文法的特徴がどのように現れるのかを, 過去の研究でカバーされていない抽象レベルにおいて考察する。

We investigate how Multilingual BERT (mBERT) encodes grammar by examining how the high-order grammatical feature of morphosyntactic alignment (how different languages define what counts as a "subject") is manifested across the embedding spaces of different languages. To understand if and how morphosyntactic alignment affects contextual embedding spaces, we train classifiers to recover the subjecthood of mBERT embeddings in transitive sentences (which do not contain overt information about morphosyntactic alignment) and then evaluate them zero-shot on intransitive sentences (where subjecthood classification depends on alignment), within and across languages. We find that the resulting classifier distributions reflect the morphosyntactic alignment of their training languages. Our results demonstrate that mBERT representations are influenced by high-level grammatical features that are not manifested in any one input sentence, and that this is robust across languages. Further examining the characteristics that our classifiers rely on, we find that features such as passive voice, animacy and case strongly correlate with classification decisions, suggesting that mBERT does not encode subjecthood purely syntactically, but that subjecthood embedding is continuous and dependent on semantic and discourse factors, as is proposed in much of the functional linguistics literature. Together, these results provide insight into how grammatical features manifest in contextual embedding spaces, at a level of abstraction not covered by previous work.
翻訳日:2021-03-13 19:56:21 公開日:2021-01-26
# CLiMP: 中国語モデル評価のためのベンチマーク

CLiMP: A Benchmark for Chinese Language Model Evaluation ( http://arxiv.org/abs/2101.11131v1 )

ライセンス: Link先を確認
Beilei Xiang, Changbing Yang, Yu Li, Alex Warstadt and Katharina Kann(参考訳) 言語モデル(LM)の言語情報分析は、これらのモデルの理解と改善に寄与する。 ここでは、中国のLMが取得する知識を調査するために使用できる中国語の言語最小ペア(CLiMP)のコーパスを紹介します。 climpはマンダリンにおける16の構文コントラストのための1000個の最小ペア(mps)で構成され、9つの主要なマンダリン言語現象をカバーする。 MPは半自動生成され、CLiMPのラベルとの人間の一致は95.8%である。 CLiMPで11種類のLMを評価し,n-gram,LSTM,中国BERTについて検討した。 分類子-名詞の一致と動詞補完の選択は、モデルが一般的に最善を尽くす現象であることがわかります。 しかし、モデルはbaの構築、バインディング、およびフィラーギャップの依存関係に最も苦労する。 全体として、中国のBERTの平均精度は81.8%であり、LSTMと5グラムのパフォーマンスはやや上回っている。

Linguistically informed analyses of language models (LMs) contribute to the understanding and improvement of these models. Here, we introduce the corpus of Chinese linguistic minimal pairs (CLiMP), which can be used to investigate what knowledge Chinese LMs acquire. CLiMP consists of sets of 1,000 minimal pairs (MPs) for 16 syntactic contrasts in Mandarin, covering 9 major Mandarin linguistic phenomena. The MPs are semi-automatically generated, and human agreement with the labels in CLiMP is 95.8%. We evaluated 11 different LMs on CLiMP, covering n-grams, LSTMs, and Chinese BERT. We find that classifier-noun agreement and verb complement selection are the phenomena that models generally perform best at. However, models struggle the most with the ba construction, binding, and filler-gap dependencies. Overall, Chinese BERT achieves an 81.8% average accuracy, while the performances of LSTMs and 5-grams are only moderately above chance level.
翻訳日:2021-03-13 19:55:50 公開日:2021-01-26
# 競争的ナップサック問題における投資対報酬

Investment vs. reward in a competitive knapsack problem ( http://arxiv.org/abs/2101.10964v1 )

ライセンス: Link先を確認
Oren Neumann, Claudius Gros(参考訳) 自然選択によって種は脳を発達させ、その大きさは課題の複雑さとともに増加する。 私たちの目標は、より大きな脳の代謝コストと、一般および組み合わせ問題の解決における利点のバランスを調べることです。 競技者に対するパフォーマンスとして優位性を定義するため、knapsack問題に基づく2プレーヤゲームを用いる。 このフレームワークでは、2人の対戦相手が共有リソースを競い合い、相手よりも多くのリソースを収集することを目指しています。 異なるサイズのニューラルネットワークはAlphaGo Zeroアルゴリズムの変種を使用して訓練される。 驚くほど単純な関係 $N_A/(N_A+N_B)$ は、$N_A$ ニューロンを持つネットの相対的な勝利率に対して $N_B$ である。 ネットワークのサイズが大きく異なる場合、追加リソースへの投資によって成功は線形に増加する。 N_A \ll N_B$ の場合、両方のネットワークがサイズに匹敵するとリターンが減少します。

Natural selection drives species to develop brains, with sizes that increase with the complexity of the tasks to be tackled. Our goal is to investigate the balance between the metabolic costs of larger brains compared to the advantage they provide in solving general and combinatorial problems. Defining advantage as the performance relative to competitors, a two-player game based on the knapsack problem is used. Within this framework, two opponents compete over shared resources, with the goal of collecting more resources than the opponent. Neural nets of varying sizes are trained using a variant of the AlphaGo Zero algorithm. A surprisingly simple relation, $N_A/(N_A+N_B)$, is found for the relative win rate of a net with $N_A$ neurons against one with $N_B$. Success increases linearly with investments in additional resources when the networks sizes are very different, i.e. when $N_A \ll N_B$, with returns diminishing when both networks become comparable in size.
翻訳日:2021-03-13 19:55:35 公開日:2021-01-26
# 確率軌道:軌道予測のための新しい運動記述法

Probability Trajectory: One New Movement Description for Trajectory Prediction ( http://arxiv.org/abs/2101.10595v1 )

ライセンス: Link先を確認
Pei Lv, Hui Wei, Tianxin Gu, Yuzhen Zhang, Xiaoheng Jiang, Bing Zhou and Mingliang Xu(参考訳) 軌道予測は、自動運転やインテリジェントロボットなど、多くのアプリケーションにとって基本的かつ困難なタスクである。 現在、既存の作業の多くは歩行者軌道を固定された2次元座標として扱う。 しかし、実際のシナリオでは、軌道はしばしばランダム性を示し、独自の確率分布を有する。 この観察結果に触発されて,歩行者の他の運動特性も考慮し,歩行者軌道の座標点を画像中の二次元ガウス分布にマッピングする,単純で直感的な動き記述である確率軌道を提案する。 この一意な記述に基づき, 社会確率と呼ばれる新しい軌道予測法を開発した。 この方法は、新しい確率軌道と強力な畳み込み再帰ニューラルネットワークを組み合わせる。 提案手法の入力と出力はともに確率軌道であり,移動歩行者の空間的・ランダムな情報に十分なリカレントニューラルネットワークを提供する。 社会確率は,新しい動き記述から直接時空間的特徴を抽出し,ロバストで正確な予測結果を生成する。 公開ベンチマークデータセットの実験では,提案手法の有効性が示された。

Trajectory prediction is a fundamental and challenging task for numerous applications, such as autonomous driving and intelligent robots. Currently, most of existing work treat the pedestrian trajectory as a series of fixed two-dimensional coordinates. However, in real scenarios, the trajectory often exhibits randomness, and has its own probability distribution. Inspired by this observed fact, also considering other movement characteristics of pedestrians, we propose one simple and intuitive movement description, probability trajectory, which maps the coordinate points of pedestrian trajectory into two-dimensional Gaussian distribution in images. Based on this unique description, we develop one novel trajectory prediction method, called social probability. The method combines the new probability trajectory and powerful convolution recurrent neural networks together. Both the input and output of our method are probability trajectories, which provide the recurrent neural network with sufficient spatial and random information of moving pedestrians. And the social probability extracts spatio-temporal features directly on the new movement description to generate robust and accurate predicted results. The experiments on public benchmark datasets show the effectiveness of the proposed method.
翻訳日:2021-03-13 19:55:09 公開日:2021-01-26
# Graphonomy: グラフ推論と転送によるユニバーサルイメージパーシング

Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer ( http://arxiv.org/abs/2101.10620v1 )

ライセンス: Link先を確認
Liang Lin and Yiming Gao and Ke Gong and Meng Wang and Xiaodan Liang(参考訳) 以前の高度に調整された画像解析モデルは、特定のセマンティックラベルのセットを持つ特定のドメインで研究されており、広範囲な再トレーニングなしに他のシナリオ(例えば、離散ラベルの粒度を共有する)に適応することができない。 異なるドメインやさまざまなレベルの粒度からラベルアノテーションを統一することで、単一のユニバーサルパーシングモデルを学ぶことは、重要だが、まれに扱われるトピックである。 例えば、異なるラベル粒度間の基本的な意味構造の発見や、関連するタスク間のラベル相関の発見などだ。 これらの課題に対処するために,人的知識とラベル分類を,局所的な畳み込みを超えた中間グラフ表現学習に組み込んだグラフ推論・伝達学習フレームワーク"Graphonomy"を提案する。 特に、graphonomyは、セマンティックアウェアグラフ推論と転送を通じて、複数のドメインにおけるグローバルかつ構造化されたセマンティックコヒーレンシを学習し、ドメイン間の解析の相互利益(例えば、異なるデータセットや関連タスク)を強制する。 Graphonomyには、イントラグラフ推論とイントラグラフ転送モジュールの2つの反復モジュールが含まれている。 前者は各ドメインのセマンティックグラフを抽出し、グラフで情報を伝達することによって特徴表現学習を改善する。後者は異なるドメインのグラフ間の依存関係を利用して双方向の知識伝達を行う。 Graphonomyは、人間のパースとパノプティクスのセグメンテーションという、関連性のある異なる2つのイメージ理解研究トピックに適用し、Graphonomyが、現在の最先端アプローチに対する標準的なパイプラインを通じて、両方をうまく扱えることを示す。 さらに、さまざまなデータセットをまたいだアノテーションを統一することで、さまざまなレベルの粒度で人間のパースを生成するなど、私たちのフレームワークのさらなるメリットが示されています。

Prior highly-tuned image parsing models are usually studied in a certain domain with a specific set of semantic labels and can hardly be adapted into other scenarios (e.g., sharing discrepant label granularity) without extensive re-training. Learning a single universal parsing model by unifying label annotations from different domains or at various levels of granularity is a crucial but rarely addressed topic. This poses many fundamental learning challenges, e.g., discovering underlying semantic structures among different label granularity or mining label correlation across relevant tasks. To address these challenges, we propose a graph reasoning and transfer learning framework, named "Graphonomy", which incorporates human knowledge and label taxonomy into the intermediate graph representation learning beyond local convolutions. In particular, Graphonomy learns the global and structured semantic coherency in multiple domains via semantic-aware graph reasoning and transfer, enforcing the mutual benefits of the parsing across domains (e.g., different datasets or co-related tasks). The Graphonomy includes two iterated modules: Intra-Graph Reasoning and Inter-Graph Transfer modules. The former extracts the semantic graph in each domain to improve the feature representation learning by propagating information with the graph; the latter exploits the dependencies among the graphs from different domains for bidirectional knowledge transfer. We apply Graphonomy to two relevant but different image understanding research topics: human parsing and panoptic segmentation, and show Graphonomy can handle both of them well via a standard pipeline against current state-of-the-art approaches. Moreover, some extra benefit of our framework is demonstrated, e.g., generating the human parsing at various levels of granularity by unifying annotations across different datasets.
翻訳日:2021-03-13 19:54:53 公開日:2021-01-26
# マルチビュー再構成3次元シーンのための一貫性メッシュカラー

Consistent Mesh Colors for Multi-View Reconstructed 3D Scenes ( http://arxiv.org/abs/2101.10734v1 )

ライセンス: Link先を確認
Mohamed Dahy Elkhouly, Alessio Del Bue, Stuart James(参考訳) カラーキャリブレーションなしでシーンから取得した一貫したメッシュテクスチャマップを作成するという課題に対処する。 複数のビューを集約する手法は、空間的一貫性を明示的に最適化することなく、空間的に一貫したメッシュを作成するのに不可欠である。 可観測面と可観測面の対比相関より先に色を算出し、最適な対面色を同定します。 次に,従来のメッシュテクスチャ作成作業で識別されたベストビューテクスチャに対して,この色を再重み付け比として使用し,空間的に一貫したテクスチャマップを作成する。 提案手法は空間的一貫性を明示的に処理しないが,計算効率は高く,他の最先端技術よりも質的に一貫性のある結果を示す。 先行データセットとMatterport3Dで評価し、定性的な改善を示します。

We address the issue of creating consistent mesh texture maps captured from scenes without color calibration. We find that the method for aggregation of the multiple views is crucial for creating spatially consistent meshes without the need to explicitly optimize for spatial consistency. We compute a color prior from the cross-correlation of observable view faces and the faces per view to identify an optimal per-face color. We then use this color in a re-weighting ratio for the best-view texture, which is identified by prior mesh texturing work, to create a spatial consistent texture map. Despite our method not explicitly handling spatial consistency, our results show qualitatively more consistent results than other state-of-the-art techniques while being computationally more efficient. We evaluate on prior datasets and additionally Matterport3D showing qualitative improvements.
翻訳日:2021-03-13 19:53:52 公開日:2021-01-26
# LIGHTS:マルチビューにおけるスペクトル検出のためのLIGHT Specularity Dataset

LIGHTS: LIGHT Specularity Dataset for specular detection in Multi-view ( http://arxiv.org/abs/2101.10772v1 )

ライセンス: Link先を確認
Mohamed Dahy Elkhouly, Theodore Tsesmelis, Alessio Del Bue, Stuart James(参考訳) スペクティラーハイライトは画像では一般的だが、それらを検知し、その現象を取り除く方法は特に困難である。 この理由は、トレーニングや評価のためのデータセットを作成することが困難であるためです。現実の世界では、環境に対する必要な制御が欠けています。 そこで本研究では,光強調検出タスクの評価のために,物理ベースでレンダリングされたLIGHTS(Light Specularity)データセットを提案する。 私たちのデータセットは、各シーンが複数のビューでレンダリングされる18の高品質の建築シーンで構成されています。 合計で2,603のビューがあり、1シーンあたり平均145のビューがあります。 さらに,データセット上の2桁の時間で3.6%の精度で先行作業に勝る,スペックハイライト検出のための簡易アグリゲーション方式を提案する。

Specular highlights are commonplace in images, however, methods for detecting them and in turn removing the phenomenon are particularly challenging. A reason for this, is due to the difficulty of creating a dataset for training or evaluation, as in the real-world we lack the necessary control over the environment. Therefore, we propose a novel physically-based rendered LIGHT Specularity (LIGHTS) Dataset for the evaluation of the specular highlight detection task. Our dataset consists of 18 high quality architectural scenes, where each scene is rendered with multiple views. In total we have 2,603 views with an average of 145 views per scene. Additionally we propose a simple aggregation based method for specular highlight detection that outperforms prior work by 3.6% in two orders of magnitude less time on our dataset.
翻訳日:2021-03-13 19:53:38 公開日:2021-01-26
# 人物再識別のための軽量マルチブランチネットワーク

Lightweight Multi-Branch Network for Person Re-Identification ( http://arxiv.org/abs/2101.10774v1 )

ライセンス: Link先を確認
Fabian Herzog, Xunbo Ji, Torben Teepe, Stefan H\"ormann, Johannes Gilg, Gerhard Rigoll(参考訳) Person Re-Identificationは、複数のカメラや同じカメラが捉えた画像から人物の身元を、異なる時間帯と場所で検索することを目的としている。 監視から人間と機械の相互作用まで、多くの視覚的応用において重要であるため、人物の再識別法は信頼性と迅速さが求められる。 パフォーマンス向上のためにより深いアーキテクチャが提案される一方で、これらの手法は全体のモデルの複雑さを増大させる。 本稿では,資源効率の高いOSNetバックボーン上に構築されたマルチブランチアーキテクチャにおいて,グローバル,パートベース,チャネル機能を組み合わせた軽量ネットワークを提案する。 トレーニング手法と設計選択をうまく組み合わせることで, CUHK03ラベル付き, CUHK03検出, Market-1501で85.1% mAP / 87.2% rank1, 82.4% mAP / 84.9% rank1, 91.5% mAP / 96.3% rank1の最先端結果が得られる。

Person Re-Identification aims to retrieve person identities from images captured by multiple cameras or the same cameras in different time instances and locations. Because of its importance in many vision applications from surveillance to human-machine interaction, person re-identification methods need to be reliable and fast. While more and more deep architectures are proposed for increasing performance, those methods also increase overall model complexity. This paper proposes a lightweight network that combines global, part-based, and channel features in a unified multi-branch architecture that builds on the resource-efficient OSNet backbone. Using a well-founded combination of training techniques and design choices, our final model achieves state-of-the-art results on CUHK03 labeled, CUHK03 detected, and Market-1501 with 85.1% mAP / 87.2% rank1, 82.4% mAP / 84.9% rank1, and 91.5% mAP / 96.3% rank1, respectively.
翻訳日:2021-03-13 19:53:28 公開日:2021-01-26
# CoMo:新しい3Dカメラシステム

CoMo: A novel co-moving 3D camera system ( http://arxiv.org/abs/2101.10775v1 )

ライセンス: Link先を確認
Andrea Cavagna, Xiao Feng, Stefania Melillo, Leonardo Parisi, Lorena Postiglione, Pablo Villegas(参考訳) 大型群れにおける個々の鳥の長い3D軌道の再構築に理論的関心を抱き、CoMoは2つの同期高速カメラと回転ステージを組み合わせた共同移動カメラシステムであり、ターゲット群の運動を動的に追従することを可能にする。 カメラの回転により、収集したデータの持続時間をカメラの共通視野内にある短い時間に制限する標準的な静的システムの限界を克服すると同時に、フレーム毎のキャリブレーションが必要なシステムの外部パラメータを時間的に変化させる。 カメラの位置を計測する外部パラメータのキャリブレーションと,システム「ホーム」構成におけるヨー,ピッチ,ロールの3つの角度(回転ステージは0degに等しい)のキャリブレーションに対処し,この静的情報とステージによる時間依存回転とを組み合わせる。 本研究では,3次元実験において,再現および測定した3次元距離を1%の相対誤差で比較することにより,システムのロバスト性と精度を評価する。 この論文で示される作品の斬新さは、システム自体だけでなく、私たちがテストで使用しているアプローチにも当てはまります。これは、キャリブレーションの不正確な検出と修正において非常に強力なツールであり、この理由から、幅広い聴衆に関連がある可能性があります。

Motivated by the theoretical interest in reconstructing long 3D trajectories of individual birds in large flocks, we developed CoMo, a co-moving camera system of two synchronized high speed cameras coupled with rotational stages, which allow us to dynamically follow the motion of a target flock. With the rotation of the cameras we overcome the limitations of standard static systems that restrict the duration of the collected data to the short interval of time in which targets are in the cameras common field of view, but at the same time we change in time the external parameters of the system, which have then to be calibrated frame-by-frame. We address the calibration of the external parameters measuring the position of the cameras and their three angles of yaw, pitch and roll in the system "home" configuration (rotational stage at an angle equal to 0deg and combining this static information with the time dependent rotation due to the stages. We evaluate the robustness and accuracy of the system by comparing reconstructed and measured 3D distances in what we call 3D tests, which show a relative error of the order of 1%. The novelty of the work presented in this paper is not only on the system itself, but also on the approach we use in the tests, which we show to be a very powerful tool in detecting and fixing calibration inaccuracies and that, for this reason, may be relevant for a broad audience.
翻訳日:2021-03-13 19:53:08 公開日:2021-01-26
# 密接な意味的未来予測のための特徴量と特徴運動の合同予測

Joint Forecasting of Features and Feature Motion for Dense Semantic Future Prediction ( http://arxiv.org/abs/2101.10777v1 )

ライセンス: Link先を確認
Josip \v{S}ari\'c and Sacha Vra\v{z}i\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 本稿では,様々なアーキテクチャやタスクに適用可能な,新しい意味予測手法を提案する。 アプローチは2つのモジュールで構成される。 特徴と動き(F2M)モジュールは、過去の特徴を将来の位置に警告する高密度変形場を予測します。 F2F(Feature-to-Featu re)モジュールは、将来の機能を直接回帰するため、創発的なシーンを説明できる。 複合F2MFアプローチは、タスクに依存しない方法でノベルティの効果から運動の効果を分離する。 我々は、F2MF予測を最もサブサンプル化され、望まれる単一フレームモデルの最も抽象的な表現に適用することを目指している。 我々の実装では、変形可能な畳み込みと対関係係数を隣り合った時間インスタント間で活用する。 セマンティックセグメンテーション、インスタンスレベルのセグメンテーション、パンオプティカルセグメンテーションの3つの高密度予測タスクの実験を行います。 結果は、Cityscapesデータセット上の3つのモードすべてにわたる最先端の予測精度を明らかにした。

We present a novel dense semantic forecasting approach which is applicable to a variety of architectures and tasks. The approach consists of two modules. Feature-to-motion (F2M) module forecasts a dense deformation field which warps past features into their future positions. Feature-to-feature (F2F) module regresses the future features directly and is therefore able to account for emergent scenery. The compound F2MF approach decouples effects of motion from the effects of novelty in a task-agnostic manner. We aim to apply F2MF forecasting to the most subsampled and the most abstract representation of a desired single-frame model. Our implementations take advantage of deformable convolutions and pairwise correlation coefficients across neighbouring time instants. We perform experiments on three dense prediction tasks: semantic segmentation, instance-level segmentation, and panoptic segmentation. The results reveal state-of-the-art forecasting accuracy across all three modalities on the Cityscapes dataset.
翻訳日:2021-03-13 19:52:20 公開日:2021-01-26
# rgb-dセマンティクスセグメンテーションのためのグローバル局所伝播ネットワーク

Global-Local Propagation Network for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2101.10801v1 )

ライセンス: Link先を確認
Sihan Chen, Xinxin Zhu, Wei Liu, Xingjian He, Jing Liu(参考訳) カラー画像に追加の幾何学情報を提供するRGB-Dセマンティックセマンティックセグメンテーションタスクにおける深度情報の重要性。 既存の手法の多くは多段核融合戦略を利用してrgbブランチに深度特性を伝播する。 しかし、非常に深い段階では、単純な要素的な付加方法での伝播は深度情報を十分に利用できない。 この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。 具体的には、要素融合前の両方のモダリティを動的に整列させるローカルコンテキスト融合モジュール(L-CFM)が導入され、マルチモーダルなグローバルコンテキスト機能を共同でモデリングすることにより、RGBブランチに深さ情報を伝達するグローバルコンテキスト融合モジュール(G-CFM)が導入された。 広範な実験は、提案された核融合モジュールの有効性と相補性を示す。 2つの融合モジュールを2つのストリームエンコーダデコーダ構造に組み込むことで、GLPNetは2つの困難な屋内シーンセグメンテーションデータセット、すなわちNYU-Depth v2とSUN-RGBDデータセットで最新のパフォーマンスを実現します。

Depth information matters in RGB-D semantic segmentation task for providing additional geometric information to color images. Most existing methods exploit a multi-stage fusion strategy to propagate depth feature to the RGB branch. However, at the very deep stage, the propagation in a simple element-wise addition manner can not fully utilize the depth information. We propose Global-Local propagation network (GLPNet) to solve this problem. Specifically, a local context fusion module(L-CFM) is introduced to dynamically align both modalities before element-wise fusion, and a global context fusion module(G-CFM) is introduced to propagate the depth information to the RGB branch by jointly modeling the multi-modal global context features. Extensive experiments demonstrate the effectiveness and complementarity of the proposed fusion modules. Embedding two fusion modules into a two-stream encoder-decoder structure, our GLPNet achieves new state-of-the-art performance on two challenging indoor scene segmentation datasets, i.e., NYU-Depth v2 and SUN-RGBD dataset.
翻訳日:2021-03-13 19:52:05 公開日:2021-01-26
# 半合成:ステレオマッチングのための効果的なデータセットを生成するための高速な方法

Semi-synthesis: A fast way to produce effective datasets for stereo matching ( http://arxiv.org/abs/2101.10811v1 )

ライセンス: Link先を確認
Ju He, Enyu Zhou, Liusheng Sun, Fei Lei, Chenyang Liu, Wenxiu Sun(参考訳) ステレオマッチングはコンピュータビジョンの重要な問題であり、何十年にもわたって大きな研究の注目を集めてきた。 近年,畳み込みニューラルネットワーク(CNN)を用いたデータ駆動手法が,新たな高さへのステレオマッチングを継続的に進めている。 しかし,データ駆動方式には大量のトレーニングデータが必要であり,画素単位の接地距離の差によるアノテーションの難しさのため,実際のステレオデータにとって容易な作業ではない。 大規模なデータ要求のギャップを埋めるために合成データセットが提案されているが、合成データと実データの間のドメインのばらつきのため、実データセットの微調整はまだ必要である。 本論文では, 合成データセットにおいて, ステレオマッチング性能を向上する鍵となる要素であると同時に, 現実に近い3Dモデリングが重要でないことを明らかにした。 そこで我々は, 合成データと実データとのギャップを最小化するために, 半合成的, 有効かつ高速に大量のデータをリアルタイムなテクスチャで合成する手法を提案する。 広範な実験により,提案する半合成データセットで学習したモデルが,一般的な合成データセット,特にトレーニングデータに制限のある実データベンチマークよりも有意に優れた性能を達成できることが証明された。 実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。

Stereo matching is an important problem in computer vision which has drawn tremendous research attention for decades. Recent years, data-driven methods with convolutional neural networks (CNNs) are continuously pushing stereo matching to new heights. However, data-driven methods require large amount of training data, which is not an easy task for real stereo data due to the annotation difficulties of per-pixel ground-truth disparity. Though synthetic dataset is proposed to fill the gaps of large data demand, the fine-tuning on real dataset is still needed due to the domain variances between synthetic data and real data. In this paper, we found that in synthetic datasets, close-to-real-scene texture rendering is a key factor to boost up stereo matching performance, while close-to-real-scene 3D modeling is less important. We then propose semi-synthetic, an effective and fast way to synthesize large amount of data with close-to-real-scene texture to minimize the gap between synthetic data and real data. Extensive experiments demonstrate that models trained with our proposed semi-synthetic datasets achieve significantly better performance than with general synthetic datasets, especially on real data benchmarks with limited training data. With further fine-tuning on the real dataset, we also achieve SOTA performance on Middlebury and competitive results on KITTI and ETH3D datasets.
翻訳日:2021-03-13 19:51:27 公開日:2021-01-26
# 非差別的治療:マルチヒューマン解析のための簡単な枠組み

Nondiscriminatory Treatment: a straightforward framework for multi-human parsing ( http://arxiv.org/abs/2101.10913v1 )

ライセンス: Link先を確認
Min Yan, Guoshan Zhang, Tong Zhang, Yueming Zhang(参考訳) マルチヒューマンパーシングは、すべての人間のインスタンスのすべてのボディ部分をセグメントすることを目的としている。 ほとんどすべての最先端のメソッドは、「検出ファースト」または「セグメントファースト」パイプラインに従います。 それらとは違って、新しい、より人間の直感的な視点からエンドツーエンドとボックスフリーのパイプラインを提示します。 トレーニング時間では、人間とパーツのインスタンスセグメンテーションを直接行います。 より具体的には、人間とパーツを区別せずに扱い、両方をカテゴリの例とみなす「カテゴリー付き無差別オブジェクト」の概念を導入する。 マスク予測では、各バイナリマスクは、すべての人間と部品カテゴリ間で共有されたプロトタイプの組み合わせによって得られる。 推論時間において、各部分のインスタンスと1つの人間のインスタンスを関連付け、それらをグループ化して最終的な人間レベルの解析結果を得る、新しいグループ化後処理法を設計する。 本手法は, NTHP (nondiscriminatory Treatment between Humans and Parts for Human Parsing) と命名した。 MHP v2.0 と PASCAL-Person-Part のデータセットにおいて,我々のネットワークは最先端の手法よりも大きなマージンで優れていることを示す。

Multi-human parsing aims to segment every body part of every human instance. Nearly all state-of-the-art methods follow the "detection first" or "segmentation first" pipelines. Different from them, we present an end-to-end and box-free pipeline from a new and more human-intuitive perspective. In training time, we directly do instance segmentation on humans and parts. More specifically, we introduce a notion of "indiscriminate objects with categorie" which treats humans and parts without distinction and regards them both as instances with categories. In the mask prediction, each binary mask is obtained by a combination of prototypes shared among all human and part categories. In inference time, we design a brand-new grouping post-processing method that relates each part instance with one single human instance and groups them together to obtain the final human-level parsing result. We name our method as Nondiscriminatory Treatment between Humans and Parts for Human Parsing (NTHP). Experiments show that our network performs superiorly against state-of-the-art methods by a large margin on the MHP v2.0 and PASCAL-Person-Part datasets.
翻訳日:2021-03-13 19:51:04 公開日:2021-01-26
# 深部バースト超解法

Deep Burst Super-Resolution ( http://arxiv.org/abs/2101.10997v1 )

ライセンス: Link先を確認
Goutam Bhat and Martin Danelljan and Luc Van Gool and Radu Timofte(参考訳) 近年, シングルイメージ超解像 (SISR) が注目されているが, 提案手法は高頻度の詳細を付加するために, 先行画像の学習に限られている。 対照的に、マルチフレームスーパーリゾリューション(MFSR)は、複数のシフト画像からの信号情報を組み合わせてリッチディテールを再構築する可能性を提供します。 この重要な利点はバースト写真の普及とともに、MFSRが現実世界のアプリケーションにとって重要な問題となったことである。 バースト超解像タスクのための新しいアーキテクチャを提案する。 我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。 これは、画素ワイド光フローを用いて入力フレームの深い埋め込みを明示的に整列させることによって達成される。 すべてのフレームからの情報は、注意に基づくフュージョンモジュールを使用して適応的にマージされる。 実世界のデータに対するトレーニングと評価を可能にするため,スマートフォンバーストと高分解能DSLRグラウンドトルースからなるBurstSRデータセットも導入した。 提案アーキテクチャの有効性を実証し、総合的な実験分析を行う。

While single-image super-resolution (SISR) has attracted substantial interest in recent years, the proposed approaches are limited to learning image priors in order to add high frequency details. In contrast, multi-frame super-resolution (MFSR) offers the possibility of reconstructing rich details by combining signal information from multiple shifted images. This key advantage, along with the increasing popularity of burst photography, have made MFSR an important problem for real-world applications. We propose a novel architecture for the burst super-resolution task. Our network takes multiple noisy RAW images as input, and generates a denoised, super-resolved RGB image as output. This is achieved by explicitly aligning deep embeddings of the input frames using pixel-wise optical flow. The information from all frames are then adaptively merged using an attention-based fusion module. In order to enable training and evaluation on real-world data, we additionally introduce the BurstSR dataset, consisting of smartphone bursts and high-resolution DSLR ground-truth. We perform comprehensive experimental analysis, demonstrating the effectiveness of the proposed architecture.
翻訳日:2021-03-13 19:50:31 公開日:2021-01-26
# スティリスティックなマルチページレイアウトと感情駆動テキストバルーン生成による自動コミック生成

Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation ( http://arxiv.org/abs/2101.11111v1 )

ライセンス: Link先を確認
Xin Yang, Zongliang Ma, Letian Yu, Ying Cao, Baocai Yin, Xiaopeng Wei, Qiang Zhang, Rynson W.H. Lau(参考訳) 本稿では,人間の介入なしに動画から漫画本を自動生成するシステムを提案する。 字幕とともに入力ビデオが与えられると、まず字幕を分析して情報的なキーフレームを抽出し、キーフレームをコミック風の画像にスタイライゼーションする。 そこで我々は,複数のページにまたがって画像を割り当て,画像のリッチなセマンティクス(重要度と画像間関係)に基づいて視覚的に興味深いレイアウトを合成する,新しい多ページレイアウトフレームワークを提案する。 最後に,前作と同じタイプのバルーンを使用するのではなく,字幕や音声の感情を分析して,異なる種類の単語バルーンを生成する感情認識バルーン生成手法を提案する。 本手法は,異なる感情に反応してバルーン形状や単語サイズを変化させることができ,読書体験がより豊かになる。 気球が生成されると、スピーカー検出によって対応するスピーカーに隣接して配置される。 その結果,本手法はユーザ入力を必要とせず,視覚的にリッチなレイアウトとバルーンで高品質な漫画ページを生成できることが示された。 また,本研究では,現状の漫画生成システムよりも,ユーザが生成した結果の方が好ましいことを示す。

In this paper, we propose a fully automatic system for generating comic books from videos without any human intervention. Given an input video along with its subtitles, our approach first extracts informative keyframes by analyzing the subtitles, and stylizes keyframes into comic-style images. Then, we propose a novel automatic multi-page layout framework, which can allocate the images across multiple pages and synthesize visually interesting layouts based on the rich semantics of the images (e.g., importance and inter-image relation). Finally, as opposed to using the same type of balloon as in previous works, we propose an emotion-aware balloon generation method to create different types of word balloons by analyzing the emotion of subtitles and audios. Our method is able to vary balloon shapes and word sizes in balloons in response to different emotions, leading to more enriched reading experience. Once the balloons are generated, they are placed adjacent to their corresponding speakers via speaker detection. Our results show that our method, without requiring any user inputs, can generate high-quality comic pages with visually rich layouts and balloons. Our user studies also demonstrate that users prefer our generated results over those by state-of-the-art comic generation systems.
翻訳日:2021-03-13 19:50:14 公開日:2021-01-26
# Doc2Doc情報検索による規制コンプライアンス: テキスト類似性に制限があるEU/UK法におけるケーススタディ

Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations ( http://arxiv.org/abs/2101.10726v1 )

ライセンス: Link先を確認
Ilias Chalkidis, Manos Fergadiotis, Nikolaos Manginas, Eva Katakalou and Prodromos Malakasiotis(参考訳) 企業史における大きなスキャンダルは規制遵守の必要性を訴えており、組織は規制(プロセス)が関連する法律、規則、政策に準拠することを保証する必要がある。 しかし、常に変化する法律の追跡は困難であり、組織はプロセスを促進するために規制技術(RegTech)をますます採用している。 そのために、ドキュメントからドキュメントへの情報検索(DOC2DOC IR)のアプリケーションである規制情報検索(REG-IR)を導入し、クエリはドキュメント全体であり、クエリが短い従来のIRよりもタスクがより困難になります。 さらに、EU指令と英国法との関係に基づいて、2つのデータセットをコンパイルしてリリースする。 プレフェッチャーとニューラルリランカからなる典型的な2ステップパイプラインアプローチを用いて,これらのデータセットを実験する。 BM25 から k 近傍への様々なプリフェッチをいくつかの BERT モデルから表現する実験を行い、ドメイン内の分類タスクで BERT モデルを微調整することで、IR に最適な表現が得られることを示した。 また,矛盾する監督,すなわち類似のクエリ文書対と反対のラベルの組み合わせにより,神経再ランク付けが過小評価されることを示した。 したがって、彼らはプレフェッチャーのスコアに偏っている。 興味深いことに、日付フィルターの適用は時間次元の重要性を示す性能を更に改善します。

Major scandals in corporate history have urged the need for regulatory compliance, where organizations need to ensure that their controls (processes) comply with relevant laws, regulations, and policies. However, keeping track of the constantly changing legislation is difficult, thus organizations are increasingly adopting Regulatory Technology (RegTech) to facilitate the process. To this end, we introduce regulatory information retrieval (REG-IR), an application of document-to-document information retrieval (DOC2DOC IR), where the query is an entire document making the task more challenging than traditional IR where the queries are short. Furthermore, we compile and release two datasets based on the relationships between EU directives and UK legislation. We experiment on these datasets using a typical two-step pipeline approach comprising a pre-fetcher and a neural re-ranker. Experimenting with various pre-fetchers from BM25 to k nearest neighbors over representations from several BERT models, we show that fine-tuning a BERT model on an in-domain classification task produces the best representations for IR. We also show that neural re-rankers under-perform due to contradicting supervision, i.e., similar query-document pairs with opposite labels. Thus, they are biased towards the pre-fetcher's score. Interestingly, applying a date filter further improves the performance, showcasing the importance of the time dimension.
翻訳日:2021-03-13 19:49:52 公開日:2021-01-26
# 特徴摂動の可視化によるモデル非依存解釈

Model-agnostic interpretation by visualization of feature perturbations ( http://arxiv.org/abs/2101.10502v1 )

ライセンス: Link先を確認
Wilson E. Marc\'ilio-Jr, Danilo M. Eler, Fabr\'icio Breve(参考訳) 機械学習モデルの解釈は、これらのアルゴリズムにおける制御の維持とバイアス回避の必要性から、研究の最も重要なトピックの1つとなっている。 多くの機械学習アルゴリズムが毎日発行されているので、様々なアルゴリズムを解釈するのに使える新しいモデルに依存しない解釈アプローチが必要である。 機械学習モデルを解釈するのに特に有用な方法は、予測の変化を理解するために異なる入力データをフィードすることである。 このようなアプローチを使って、実践者はデータのパターンとモデルの決定との関係を定義することができる。 本研究では,粒子群最適化アルゴリズムによって引き起こされる特徴摂動を可視化するモデル非依存解釈手法を提案する。 本手法は,公開データセット上で定性的かつ定量的に検証し,アートアルゴリズムの状態と比較して非常に安定した結果が得られると同時に,異なる分類器の解釈を強化する能力を示す。

Interpretation of machine learning models has become one of the most important topics of research due to the necessity of maintaining control and avoid bias in these algorithms. Since many machine learning algorithms are published every day, there is a need for novel model-agnostic interpretation approaches that could be used to interpret a great variety of algorithms. One particularly useful way to interpret machine learning models is to feed different input data to understand the changes in the prediction. Using such an approach, practitioners can define relations among patterns of data and a model's decision. In this work, we propose a model-agnostic interpretation approach that uses visualization of feature perturbations induced by the particle swarm optimization algorithm. We validate our approach both qualitatively and quantitatively on publicly available datasets, showing the capability to enhance the interpretation of different classifiers while yielding very stable results if compared with the state of the art algorithms.
翻訳日:2021-03-13 19:49:27 公開日:2021-01-26
# 初期化時の散布のための統一パス

A Unified Paths Perspective for Pruning at Initialization ( http://arxiv.org/abs/2101.10552v1 )

ライセンス: Link先を確認
Thomas Gebhart, Udit Saxena, Paul Schrater(参考訳) モデルのサイズと計算負荷を低減し、トレーニングダイナミクスと一般化性能に最小限の影響を与えながら、初期化時にニューラルネットワークパラメータを刈り取るための、最近の多くのアプローチが提案されている。 それぞれのアプローチにはある程度のモチベーションがあるが、ネットワークトレーニングのダイナミクスに対するプルーニング手法の効果の厳密な分析や、両者の形式的関係は今のところほとんど注目されていない。 Neural Tangent Kernelによる最近の理論的近似を活用して、私たちは単一のパス中心のフレームワークで初期化時に引き裂くための多くの一般的なアプローチを統一します。 ニューラルタンジェントカーネルの分解におけるデータ非依存因子としてパスカーネルを導入し,パスカーネルのグローバル構造を効率的に計算可能であることを示す。 このパスカーネル分解は、アーキテクチャ効果とNeural Tangent Kernel内のデータ依存効果を分離し、ネットワークの収束ダイナミクスをアーキテクチャのみから予測する手段を提供する。 多数の初期化プルーニングアプローチにまたがるデータの欠如におけるネットワークのトレーニングと一般化パフォーマンスの近似におけるこの構造の使用を分析します。 入力データとパスの関係とパスカーネルとその自然ノルムとの関係を観察し、初期化時にプルーニングするためのSynFlowアルゴリズムの2つの拡張を提案します。

A number of recent approaches have been proposed for pruning neural network parameters at initialization with the goal of reducing the size and computational burden of models while minimally affecting their training dynamics and generalization performance. While each of these approaches have some amount of well-founded motivation, a rigorous analysis of the effect of these pruning methods on network training dynamics and their formal relationship to each other has thus far received little attention. Leveraging recent theoretical approximations provided by the Neural Tangent Kernel, we unify a number of popular approaches for pruning at initialization under a single path-centric framework. We introduce the Path Kernel as the data-independent factor in a decomposition of the Neural Tangent Kernel and show the global structure of the Path Kernel can be computed efficiently. This Path Kernel decomposition separates the architectural effects from the data-dependent effects within the Neural Tangent Kernel, providing a means to predict the convergence dynamics of a network from its architecture alone. We analyze the use of this structure in approximating training and generalization performance of networks in the absence of data across a number of initialization pruning approaches. Observing the relationship between input data and paths and the relationship between the Path Kernel and its natural norm, we additionally propose two augmentations of the SynFlow algorithm for pruning at initialization.
翻訳日:2021-03-13 19:49:14 公開日:2021-01-26
# 構造材料設計における逆モデリングのための生成逆ネットワークと混合密度ネットワークを組み合わせた汎用フレームワーク

A General Framework Combining Generative Adversarial Networks and Mixture Density Networks for Inverse Modeling in Microstructural Materials Design ( http://arxiv.org/abs/2101.10553v1 )

ライセンス: Link先を確認
Zijiang Yang, Dipendra Jha, Arindam Paul, Wei-keng Liao, Alok Choudhary, Ankit Agrawal(参考訳) 構造材料設計は材料科学における逆モデリングの最も重要な応用の一つである。 一般的に、科学的な応用には2つの広いモデリングパラダイムがあります。 フォワードモデリングは既知のパラメータに基づいて観測を推定するが、逆モデリングは観測されたパラメータを推測しようとする。 逆問題は通常、直接観察できないパラメータを探索しようとするため、科学的な応用では困難であるだけでなく、より批判的です。 逆問題は、地球物理学、医療、材料科学など様々な科学分野で広く使われている。 しかし、通常は1対多の非線形写像を学習し、特に高次元のパラメータ空間においてかなりの計算時間を必要とするため、逆問題の解決は困難である。 さらに、入力の次元(すなわち)が変わると、逆問題はさらに解決しにくくなる。 観察)は出力(すなわち出力)よりもはるかに低い。 パラメータ)。 本研究では,逆モデリングのための生成逆数ネットワークと混合密度ネットワークからなるフレームワークを提案し,マイクロ構造材料設計のための材料科学データセットで評価する。 ベースライン手法と比較して,提案されたフレームワークが上記の課題を克服し,複数の有望なソリューションを効率的に生成できることを実証した。

Microstructural materials design is one of the most important applications of inverse modeling in materials science. Generally speaking, there are two broad modeling paradigms in scientific applications: forward and inverse. While the forward modeling estimates the observations based on known parameters, the inverse modeling attempts to infer the parameters given the observations. Inverse problems are usually more critical as well as difficult in scientific applications as they seek to explore the parameters that cannot be directly observed. Inverse problems are used extensively in various scientific fields, such as geophysics, healthcare and materials science. However, it is challenging to solve inverse problems, because they usually need to learn a one-to-many non-linear mapping, and also require significant computing time, especially for high-dimensional parameter space. Further, inverse problems become even more difficult to solve when the dimension of input (i.e. observation) is much lower than that of output (i.e. parameters). In this work, we propose a framework consisting of generative adversarial networks and mixture density networks for inverse modeling, and it is evaluated on a materials science dataset for microstructural materials design. Compared with baseline methods, the results demonstrate that the proposed framework can overcome the above-mentioned challenges and produce multiple promising solutions in an efficient manner.
翻訳日:2021-03-13 19:48:52 公開日:2021-01-26
# 時系列における複素不協和探索の高速アルゴリズム:HOT SAX Time

A fast algorithm for complex discord searches in time series: HOT SAX Time ( http://arxiv.org/abs/2101.10698v1 )

ライセンス: Link先を確認
Paolo Avogadro, Matteo Alessandro Dominoni(参考訳) 時系列分析は、長く複雑なタスクに素早く進んでいます。 近年,時系列の増大を補うために,ディスコード探索のための高速近似アルゴリズムが提案されている。 しかし、より正確な解決策を見つけるのがより興味深い。 本研究では、ウォームアッププロセスと時間に近いシーケンス間の類似性という2つの主なアイデアを利用してHOT SAXを改善しました。 HOT SAX Time(HST)と呼ばれるこのアルゴリズムは、実時間および合成時間系列で検証され、HOT SAX、RRA、SCAMP、DADDとの比較に成功した。 不協和探索の複雑さを新しい指標であるシーケンス毎のコスト(cps)で評価することで、異なる長さの時系列での検索を比較することができる。 数値的証拠は、不一致探索の複雑さを非自明な方法で決定するために2つの条件が関与していることを示唆している:不一致の長さ、およびノイズ/信号比。 複雑な検索の場合、HSTはHOT SAXよりも100倍以上高速であり、したがって正確な不一致検索の最前線にいます。

Time series analysis is quickly proceeding towards long and complex tasks. In recent years, fast approximate algorithms for discord search have been proposed in order to compensate for the increasing size of the time series. It is more interesting, however, to find quick exact solutions. In this research, we improved HOT SAX by exploiting two main ideas: the warm-up process, and the similarity between sequences close in time. The resulting algorithm, called HOT SAX Time (HST), has been validated with real and synthetic time series, and successfully compared with HOT SAX, RRA, SCAMP, and DADD. The complexity of a discord search has been evaluated with a new indicator, the cost per sequence (cps), which allows one to compare searches on time series of different lengths. Numerical evidence suggests that two conditions are involved in determining the complexity of a discord search in a non-trivial way: the length of the discords, and the noise/signal ratio. In the case of complex searches, HST can be more than 100 times faster than HOT SAX, thus being at the forefront of the exact discord search.
翻訳日:2021-03-13 19:48:32 公開日:2021-01-26
# 逆問題に対する逆アーキテクチャのベンチマーク

Benchmarking Invertible Architectures on Inverse Problems ( http://arxiv.org/abs/2101.10763v1 )

ライセンス: Link先を確認
Jakob Kruse, Lynton Ardizzone, Carsten Rother, Ullrich K\"othe(参考訳) 近年の研究では、フローベースの可逆ニューラルネットワークが曖昧な逆問題を解くための有望なツールであることが示されている。 これに続いて,10の非可逆アーキテクチャおよび関連モデルが2つの直感的で低次元のベンチマーク問題にどのように対応しているかを考察し,結合層と単純なオートエンコーダによる最良の結果を得る。 我々の最初の取り組みは、他の研究者が自身の可逆的アーキテクチャを同じ設定で評価し、追加のベンチマークを実施するよう促すことを願っています。

Recent work demonstrated that flow-based invertible neural networks are promising tools for solving ambiguous inverse problems. Following up on this, we investigate how ten invertible architectures and related models fare on two intuitive, low-dimensional benchmark problems, obtaining the best results with coupling layers and simple autoencoders. We hope that our initial efforts inspire other researchers to evaluate their invertible architectures in the same setting and put forth additional benchmarks, so our evaluation may eventually grow into an official community challenge.
翻訳日:2021-03-13 19:48:13 公開日:2021-01-26
# 機械学習パイプライン合成のためのインクリメンタル検索空間の構築

Incremental Search Space Construction for Machine Learning Pipeline Synthesis ( http://arxiv.org/abs/2101.10951v1 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller, Tien-Dung Nguyen, Marco F. Huber(参考訳) automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。 多くの研究でアルゴリズム選択とハイパーパラメータ最適化の効率的な手法が研究されている。 しかし、複数の前処理と分類アルゴリズムを含む複雑なパイプライン構造の影響を考慮したMLパイプライン合成と最適化の手法は、十分に研究されていない。 本稿では,人間の行動に触発されたパイプライン構築とハイパーパラメータ最適化のためのメタ機能に基づくデータ中心アプローチを提案する。 中間データセットのメタ機能と組み合わせ、パイプライン検索空間を段階的に拡張することで、パイプライン構造検索空間を効率化することができます。 これにより、フレキシブルでデータセット固有のMLパイプラインを構築することができる。 既存のAutoMLフレームワークと比較して,確立されたAutoMLベンチマークで使用される28のデータセットに対するアプローチの有効性と競争性を実証する。

Automated machine learning (AutoML) aims for constructing machine learning (ML) pipelines automatically. Many studies have investigated efficient methods for algorithm selection and hyperparameter optimization. However, methods for ML pipeline synthesis and optimization considering the impact of complex pipeline structures containing multiple preprocessing and classification algorithms have not been studied thoroughly. In this paper, we propose a data-centric approach based on meta-features for pipeline construction and hyperparameter optimization inspired by human behavior. By expanding the pipeline search space incrementally in combination with meta-features of intermediate data sets, we are able to prune the pipeline structure search space efficiently. Consequently, flexible and data set specific ML pipelines can be constructed. We prove the effectiveness and competitiveness of our approach on 28 data sets used in well-established AutoML benchmarks in comparison with state-of-the-art AutoML frameworks.
翻訳日:2021-03-13 19:48:02 公開日:2021-01-26
# 動的プログラミングとニューラルプロセスを用いたシリーズの非監視クラスタリング

Unsupervised clustering of series using dynamic programming and neural processes ( http://arxiv.org/abs/2101.10983v1 )

ライセンス: Link先を確認
Karthigan Sinnathamby, Chang-Yu Hou, Lalitha Venkataramanan, Vasileios-Marios Gkortsas, Fran\c{c}ois Fleuret(参考訳) arXiv:2101.09512の後、与えられた多変量系列を教師なしでクラスタリングすることに興味がある。 各クラスタに存在するブロックが事前に定義されたモデル構造(例えば、)に対して一貫性を持つように、シリーズをセグメンテーションしてクラスタ化したいと思います。 数個のパラメータによって定義される関数型を持つ物理モデル。 しかし、そのようなアプローチには、同じデータを記述する複数のモデルが存在すること、データの背後にある正確なモデルがすぐには知られていないことなど、制限があるかもしれない。 したがって、実行可能なモデルの統合を可能にし、クラスタリングタスクを支援するためにデータ駆動アプローチを1つの近似モデルに適応する一般的なフレームワークを確立することが有用である。 そこで,本研究では, arXiv:2101.09512で示されるアルゴリズムと同じ仮定を導出しながら, 近似モデル構築におけるニューラルプロセスの利用について検討する。

Following the work of arXiv:2101.09512, we are interested in clustering a given multi-variate series in an unsupervised manner. We would like to segment and cluster the series such that the resulting blocks present in each cluster are coherent with respect to a predefined model structure (e.g. a physics model with a functional form defined by a number of parameters). However, such approach might have its limitation, partly because there may exist multiple models that describe the same data, and partly because the exact model behind the data may not immediately known. Hence, it is useful to establish a general framework that enables the integration of plausible models and also accommodates data-driven approach into one approximated model to assist the clustering task. Hence, in this work, we investigate the use of neural processes to build the approximated model while yielding the same assumptions required by the algorithm presented in arXiv:2101.09512.
翻訳日:2021-03-13 19:47:53 公開日:2021-01-26
# 新しい移動ロボットの信頼度に及ぼす説明の影響

Impact of Explanation on Trust of a Novel Mobile Robot ( http://arxiv.org/abs/2101.10813v1 )

ライセンス: Link先を確認
Stephanie Rosenthal and Elizabeth J. Carter(参考訳) ロボットを新しい環境に導入する際の課題の1つは、スーパーバイザーの期待と現実の相違であり、これはユーザーの信頼とロボットの継続的な使用に大きな影響を及ぼす可能性がある。 本研究では,ロボットの動作が自律ロボットに対する監督者の信頼に影響を及ぼすかどうかを検証する実験を行った。 調査を通して主観的および客観的に信頼度を測定し、監督者の無視された許容度(ロボットが自律的に行動している間に自らのタスクを遂行する意思)を捉えた。 本研究では,新しいロボットが未知の環境で機能するノベルティ効果に対して,説明が有効であることを示した。 ロボットの行動の説明を受けた参加者は、説明を受けていない被験者に比べて、ロボットの行動の最初の試行中にロボットの監督タスクを無視するリスクがあるため、自身の作業に集中する傾向にあった。 しかし、この効果は複数の試行を経て減少し、説明を受けた参加者は説明を受けなかった者と同様にロボットの振る舞いを信頼していた。 興味深いことに、参加者は調査回答を通じて自身の信頼の変化を識別できず、デュアルタスクの設計は管理者の信頼の微妙な変化を測定した。

One challenge with introducing robots into novel environments is misalignment between supervisor expectations and reality, which can greatly affect a user's trust and continued use of the robot. We performed an experiment to test whether the presence of an explanation of expected robot behavior affected a supervisor's trust in an autonomous robot. We measured trust both subjectively through surveys and objectively through a dual-task experiment design to capture supervisors' neglect tolerance (i.e., their willingness to perform their own task while the robot is acting autonomously). Our objective results show that explanations can help counteract the novelty effect of seeing a new robot perform in an unknown environment. Participants who received an explanation of the robot's behavior were more likely to focus on their own task at the risk of neglecting their robot supervision task during the first trials of the robot's behavior compared to those who did not receive an explanation. However, this effect diminished after seeing multiple trials, and participants who received explanations were equally trusting of the robot's behavior as those who did not receive explanations. Interestingly, participants were not able to identify their own changes in trust through their survey responses, demonstrating that the dual-task design measured subtler changes in a supervisor's trust.
翻訳日:2021-03-13 19:47:19 公開日:2021-01-26
# 過去におけるスケール不変な時間記憶による未来予測

Predicting the future with a scale-invariant temporal memory for the past ( http://arxiv.org/abs/2101.10953v1 )

ライセンス: Link先を確認
Wei Zhong Goh, Varun Ursekar, Marc W. Howard(参考訳) 近年、脳は過去まで続く最近の出来事の時間記憶を維持していることが明らかになっている。 本稿では,過去におけるスケール不変時間表現を用いて,スケール不変未来を予測するニューラルネットワークを提案する。 結果は、将来のイベントが発生すると予想される時間の関数として、スケール不変な推定である。 アルゴリズムは時間ローカルであり、将来の予測にどのように影響するかを観察することで、クレジットを現在のイベントに割り当てる。 このアプローチの潜在的有用性を説明するために、異なる時間スケールの同時更新プロセスでモデルをテストする。 マルコフ過程として記述するのに必要な状態の数は指数関数的に増加するにもかかわらず、アルゴリズムはこれらの問題によくスケールする。

In recent years it has become clear that the brain maintains a temporal memory of recent events stretching far into the past. This paper presents a neurally-inspired algorithm to use a scale-invariant temporal representation of the past to predict a scale-invariant future. The result is a scale-invariant estimate of future events as a function of the time at which they are expected to occur. The algorithm is time-local, with credit assigned to the present event by observing how it affects the prediction of the future. To illustrate the potential utility of this approach, we test the model on simultaneous renewal processes with different time scales. The algorithm scales well on these problems despite the fact that the number of states needed to describe them as a Markov process grows exponentially.
翻訳日:2021-03-13 19:46:57 公開日:2021-01-26
# 動的認識問題における論理結合的アプローチ

Logical-Combinatoria l Approaches in Dynamic Recognition Problems ( http://arxiv.org/abs/2101.11066v1 )

ライセンス: Link先を確認
L. Aslanyan, V. Krasnoproshin, V. Ryazanov, H. Sahakyan(参考訳) パターン認識シナリオは、学習セットによってクラスにオブジェクト分類するのではなく、アルゴリズムがすべてのオブジェクトを同じ、いわゆる通常のクラスに割り当てることを目指しています。

A pattern recognition scenario, where instead of object classification into the classes by the learning set, the algorithm aims to allocate all objects to the same, the so-called normal class, is the research objective.
翻訳日:2021-03-13 19:46:46 公開日:2021-01-26
# オントロジーに基づくタントラフレームワークによるインドの農業セクターの変容

Transforming India's Agricultural Sector using Ontology-based Tantra Framework ( http://arxiv.org/abs/2102.04206v1 )

ライセンス: Link先を確認
Shreekanth M Prabhu(参考訳) 食料生産は、すべての国が自給自足を望む重要な活動である。 インドは世界最大の穀物生産国である。 インドでは、農村の世帯の70%近くが農業に依存しています。 インドでは農家を幸せにしておくことが特に重要である。 同時に、政府は農家の利益と消費者、仲介者、社会全体とのバランスをとる必要がある。 農業部門全体が情報集約型である。 政府のさまざまな組織からの膨大なデータと統計の収集であっても、情報ギャップは引き続きあります。 本稿では,タントラ社会情報管理フレームワークが,農業部門の分析と全体的アプローチによる変容にどのように役立つかを考察する。 Tantra Frameworkアプローチの利点は、社会的情報全体を、手元にあるセクターに限らず、全体として見ることである。 Tantra FrameworkはZachman Frameworkのコンセプトを利用して、統一基礎オントロジー(UFO)のさまざまな視点と概念を通じて社会情報の側面を管理し、側面間の相互関係を表します。 さらに、Tantra FrameworkはBalanced Scorecard、Theory of Change、Theory of Separationsなどのモデルと相互運用する。 最後に、インド農業セクターをビジネスエコシステムとしてモデル化し、内部から変革を舵取りするアプローチを検討します。

Food production is a critical activity in which every nation would like to be self-sufficient. India is one of the largest producers of food grains in the world. In India, nearly 70 percent of rural households still depend on agriculture for their livelihood. Keeping farmers happy is particularly important in India as farmers form a large vote bank which politicians dare not disappoint. At the same time, Governments need to balance the interest of farmers with consumers, intermediaries and society at large. The whole agriculture sector is highly information-intensiv e. Even with enormous collection of data and statistics from different arms of Government, there continue to be information gaps. In this paper we look at how Tantra Social Information Management Framework can help analyze the agricultural sector and transform the same using a holistic approach. Advantage of Tantra Framework approach is that it looks at societal information as a whole without limiting it to only the sector at hand. Tantra Framework makes use of concepts from Zachman Framework to manage aspects of social information through different perspectives and concepts from Unified Foundational Ontology (UFO) to represent interrelationships between aspects. Further, Tantra Framework interoperates with models such as Balanced Scorecard, Theory of Change and Theory of Separations. Finally, we model Indian Agricultural Sector as a business ecosystem and look at approaches to steer transformation from within.
翻訳日:2021-03-13 19:46:41 公開日:2021-01-26
# ビデオ要約はどれくらい良いですか。 リアルタイムビデオ要約のための新しいベンチマークデータセットと評価フレームワーク

How Good is a Video Summary? A New Benchmarking Dataset and Evaluation Framework Towards Realistic Video Summarization ( http://arxiv.org/abs/2101.10514v1 )

ライセンス: Link先を確認
Vishal Kaushal, Suraj Kothawade, Anshul Tomar, Rishabh Iyer, Ganesh Ramakrishnan(参考訳) 自動ビデオ要約は、いくつかの課題のために未解決の問題です。 現在入手可能なデータセットは、非常に短いビデオを持つか、特定のタイプのビデオしか持たない。 visiocity(連続性、意図、多様性に基づくビデオ要約)と呼ばれる新しいベンチマークビデオデータセットを導入し、6つのカテゴリにまたがる長いビデオからなる。 ロングビデオでは、監督ビデオ要約技術に必要な人間の参照要約を得ることは困難です。 VISIOCITYに存在する間接的な接地真理から複数の参照要約を自動的に生成する戦略を検討します。 これらの要約は人間の要約と同等であることを示す。 また、良い要約の異なる望ましい特徴について検討し、異なる特徴を持つ2つの良い要約を持つことがいかに普通であるかを示す。 したがって,1つ以上の要約と1つの測度を用いて要約を評価するには欠点がある。 人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。 最後に、より優れた要約を得るためにモデルをどのように拡張できるかについての洞察を示す。 複数の多様な基底真理サマリーが存在する場合、個別に学習し、異なる特性を測定する損失関数の組み合わせを用いることで、単一の損失関数を用いて単一の組み合わせ(オークル)基底真理サマリーから学習するよりは、効果的である。 我々は,VISIOCITYで試験された技術技術の代表的状況と比較し,その有効性を実証する。 VISIOCITYをベンチマークデータセットとしてリリースし、VISIOCITY上でのビデオ要約アルゴリズムの有効性をテストする研究者を招待します。

Automatic video summarization is still an unsolved problem due to several challenges. The currently available datasets either have very short videos or have few long videos of only a particular type. We introduce a new benchmarking video dataset called VISIOCITY (VIdeo SummarIzatiOn based on Continuity, Intent and DiversiTY) which comprises of longer videos across six different categories with dense concept annotations capable of supporting different flavors of video summarization and other vision problems. For long videos, human reference summaries necessary for supervised video summarization techniques are difficult to obtain. We explore strategies to automatically generate multiple reference summaries from indirect ground truth present in VISIOCITY. We show that these summaries are at par with human summaries. We also present a study of different desired characteristics of a good summary and demonstrate how it is normal to have two good summaries with different characteristics. Thus we argue that evaluating a summary against one or more human summaries and using a single measure has its shortcomings. We propose an evaluation framework for better quantitative assessment of summary quality which is closer to human judgment. Lastly, we present insights into how a model can be enhanced to yield better summaries. Sepcifically, when multiple diverse ground truth summaries can exist, learning from them individually and using a combination of loss functions measuring different characteristics is better than learning from a single combined (oracle) ground truth summary using a single loss function. We demonstrate the effectiveness of doing so as compared to some of the representative state of the art techniques tested on VISIOCITY. We release VISIOCITY as a benchmarking dataset and invite researchers to test the effectiveness of their video summarization algorithms on VISIOCITY.
翻訳日:2021-03-13 19:46:18 公開日:2021-01-26
# 一貫性チェックを用いた学習に基づくパッチワイズメタルセグメンテーション

Learning-Based Patch-Wise Metal Segmentation with Consistency Check ( http://arxiv.org/abs/2101.10914v1 )

ライセンス: Link先を確認
Tristan M. Gottschalk, Andreas Maier, Florian Kordon, Bj\"orn W. Kreher(参考訳) 外傷介入中に患者の体に挿入される金属インプラントは、3D X線取得で重いアーティファクトを引き起こします。 金属アーティファクト還元法(MAR)は、常に現在の金属オブジェクトのセグメンテーションであるので、これらのアーティファクトを除去しようと試みる。 したがって、セグメンテーションはmarの結果に強い影響を与える重要なタスクである。 本研究は,学習に基づくパッチワイズセグメンテーションネットワークと,新たに提案された一貫性チェックを後処理ステップとして提案し,評価する。 学習されたセグメンテーションと一貫性チェックの組み合わせは、テストセットで平均0.924のIoUスコアで高いセグメンテーション性能に達します。 さらに、一貫性チェックは、一貫性のあるセグメンテーションを同時に確保しながら、偽陽性セグメンテーションを著しく削減する能力を証明する。

Metal implants that are inserted into the patient's body during trauma interventions cause heavy artifacts in 3D X-ray acquisitions. Metal Artifact Reduction (MAR) methods, whose first step is always a segmentation of the present metal objects, try to remove these artifacts. Thereby, the segmentation is a crucial task which has strong influence on the MAR's outcome. This study proposes and evaluates a learning-based patch-wise segmentation network and a newly proposed Consistency Check as post-processing step. The combination of the learned segmentation and Consistency Check reaches a high segmentation performance with an average IoU score of 0.924 on the test set. Furthermore, the Consistency Check proves the ability to significantly reduce false positive segmentations whilst simultaneously ensuring consistent segmentations.
翻訳日:2021-03-13 19:45:52 公開日:2021-01-26
# ニューラルジオメトリレベルの詳細: 暗黙の3次元形状によるリアルタイムレンダリング

Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes ( http://arxiv.org/abs/2101.10994v1 )

ライセンス: Link先を確認
Towaki Takikawa, Joey Litalien, Kangxue Yin, Karsten Kreis, Charles Loop, Derek Nowrouzezahrai, Alec Jacobson, Morgan McGuire, Sanja Fidler(参考訳) ニューラルサイン付き距離関数(SDF)は3次元形状の効果的な表現として現れている。 最先端の手法は通常、sdfを大きな固定サイズのニューラルネットワークでエンコードし、暗黙的な表面を持つ複雑な形状を近似する。 しかし、これらの大きなネットワークによるレンダリングは計算量的に高価であり、全てのピクセルに対して多くの前方パスを必要とするため、これらの表現はリアルタイムグラフィックスでは実用的ではない。 高効率なニューラル表現を導入し、高忠実度なニューラルSDFをリアルタイムにレンダリングし、最先端のジオメトリ再構築品質を実現します。 我々は,複数次元の細部(LOD)で形状を適応的に適合させるオクツリー型特徴量を用いて暗黙の面を表現し,SDF補間による連続LODを可能にする。 さらに,必要なLODのみをスパースオクツリートラバーサルでクエリすることで,新しいSDF表現を直接リアルタイムに描画する効率的なアルゴリズムを開発した。 我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。 さらに、3次元幾何および2次元画像空間の計測値の下で、複雑な形状に対する最先端の復元品質を生成する。

Neural signed distance functions (SDFs) are emerging as an effective representation for 3D shapes. State-of-the-art methods typically encode the SDF with a large, fixed-size neural network to approximate complex shapes with implicit surfaces. Rendering with these large networks is, however, computationally expensive since it requires many forward passes through the network for every pixel, making these representations impractical for real-time graphics. We introduce an efficient neural representation that, for the first time, enables real-time rendering of high-fidelity neural SDFs, while achieving state-of-the-art geometry reconstruction quality. We represent implicit surfaces using an octree-based feature volume which adaptively fits shapes with multiple discrete levels of detail (LODs), and enables continuous LOD with SDF interpolation. We further develop an efficient algorithm to directly render our novel neural SDF representation in real-time by querying only the necessary LODs with sparse octree traversal. We show that our representation is 2-3 orders of magnitude more efficient in terms of rendering speed compared to previous works. Furthermore, it produces state-of-the-art reconstruction quality for complex shapes under both 3D geometric and 2D image-space metrics.
翻訳日:2021-03-13 19:45:39 公開日:2021-01-26
# 属性を持つ対称モノイド圏

Symmetric Monoidal Categories with Attributes ( http://arxiv.org/abs/2101.10480v1 )

ライセンス: Link先を確認
Spencer Breiner (National Institute of Standards and Technology), John S. Nolan (University of Maryland)(参考訳) エンジニアリングで計画を設計する場合、例えば、オブジェクトに関連する属性を考慮することがしばしば必要となる。 ロボットの位置。 本論文の目的は,既存の分類形式,すなわち対称モノイド圏と弦図に基づく属性に属性を組み込むことである。 これを達成するために、「属性を持つ対称モノイド圏」の概念を定義する。 これは、オブジェクトが検索可能な情報を持ち、オブジェクトと情報の相互作用が「属性構造」によって制御される対称モノイド圏である。 このようなカテゴリの例と意味をロボティクスの文脈で議論し,その定義を説明する。

When designing plans in engineering, it is often necessary to consider attributes associated to objects, e.g. the location of a robot. Our aim in this paper is to incorporate attributes into existing categorical formalisms for planning, namely those based on symmetric monoidal categories and string diagrams. To accomplish this, we define a notion of a "symmetric monoidal category with attributes." This is a symmetric monoidal category in which objects are equipped with retrievable information and where the interactions between objects and information are governed by an "attribute structure." We discuss examples and semantics of such categories in the context of robotics to illustrate our definition.
翻訳日:2021-03-13 19:45:21 公開日:2021-01-26
# 知覚的係留条件を伴う極端地形上の自律的オフロードナビゲーション

Autonomous Off-road Navigation over Extreme Terrains with Perceptually-challen ging Conditions ( http://arxiv.org/abs/2101.11110v1 )

ライセンス: Link先を確認
Rohan Thakker, Nikhilesh Alatur, David D. Fan, Jesus Tordesillas, Michael Paton, Kyohei Otsu, Olivier Toupet, Ali-akbar Agha-mohammadi(参考訳) 本研究では,岩や岩盤のある不均一な表面,急斜面,崖や穴などの負の障害物,狭い通路などの移動に支障を来した未知環境において,弾力性のある自律航行のための枠組みを提案する。 環境はGPSで識別され、暗く照らされたり、不規則な光(塵、霧、煙)で知覚的に劣化する。 事前マップと劣化した通信の欠如は、事前またはオフボードの計算またはオペレータの介入の可能性を排除します。 これはノイズセンサデータを用いたリアルタイムのオンボード計算を必要とする。 これらの課題を解決するため,冗長性と不均質性を感知するレジリエントアーキテクチャを提案する。 さらなるレジリエンスは、障害時にリカバリ動作をトリガーすることで達成される。 リアルタイムに堅牢なマルチファイアリティトラバーサビリティ推定を生成するための高速設定アルゴリズムを提案する。 提案されたアプローチは、DARPA潜水チャレンジへのチームCoSTARの取り組みの一環として、スキッドステアと追跡ロボット、高速RCカー、脚付きロボットを含む複数の物理的システムに展開され、それぞれトンネルと都市回路で2位と1位を獲得した。

We propose a framework for resilient autonomous navigation in perceptually challenging unknown environments with mobility-stressing elements such as uneven surfaces with rocks and boulders, steep slopes, negative obstacles like cliffs and holes, and narrow passages. Environments are GPS-denied and perceptually-degrade d with variable lighting from dark to lit and obscurants (dust, fog, smoke). Lack of prior maps and degraded communication eliminates the possibility of prior or off-board computation or operator intervention. This necessitates real-time on-board computation using noisy sensor data. To address these challenges, we propose a resilient architecture that exploits redundancy and heterogeneity in sensing modalities. Further resilience is achieved by triggering recovery behaviors upon failure. We propose a fast settling algorithm to generate robust multi-fidelity traversability estimates in real-time. The proposed approach was deployed on multiple physical systems including skid-steer and tracked robots, a high-speed RC car and legged robots, as a part of Team CoSTAR's effort to the DARPA Subterranean Challenge, where the team won 2nd and 1st place in the Tunnel and Urban Circuits, respectively.
翻訳日:2021-03-13 19:45:09 公開日:2021-01-26
# Reverse Derivative Ascent: ブール回路の学習におけるカテゴリ的アプローチ

Reverse Derivative Ascent: A Categorical Approach to Learning Boolean Circuits ( http://arxiv.org/abs/2101.10488v1 )

ライセンス: Link先を確認
Paul Wilson (University of Southampton), Fabio Zanasi (University College London)(参考訳) Reverse Derivative Ascentは、機械学習のためのグラデーションベースのメソッドのカテゴリアナログです。 我々のアルゴリズムは、いわゆる逆微分圏のレベルで定義される。 それはそのようなカテゴリの同型として表現されるモデルのパラメータを学ぶために使用することができます。 我々のモチベーションの例はブール回路(boolean circuits)であり、逆微分圏の理論を用いてアルゴリズムをそのような回路に適用する方法を示す。 既存の二項化ニューラルネットワークのアプローチとは対照的に,本手法ではブール回路のパラメータを直接学習することができる。 さらに、ベンチマーク機械学習データセットに実験結果を与えることで、その経験的価値を示す。

We introduce Reverse Derivative Ascent: a categorical analogue of gradient based methods for machine learning. Our algorithm is defined at the level of so-called reverse differential categories. It can be used to learn the parameters of models which are expressed as morphisms of such categories. Our motivating example is boolean circuits: we show how our algorithm can be applied to such circuits by using the theory of reverse differential categories. Note our methodology allows us to learn the parameters of boolean circuits directly, in contrast to existing binarised neural network approaches. Moreover, we demonstrate its empirical value by giving experimental results on benchmark machine learning datasets.
翻訳日:2021-03-13 19:44:49 公開日:2021-01-26
# ブロックチェーンにおけるセキュアなフェデレーション学習のための透過的貢献評価

Transparent Contribution Evaluation for Secure Federated Learning on Blockchain ( http://arxiv.org/abs/2101.10572v1 )

ライセンス: Link先を確認
Shuaicheng Ma, Yang Cao, Li Xiong(参考訳) 連合学習は、複数のパーティが協力して高品質な機械学習モデルを構築する、有望な機械学習パラダイムである。 それでも、これらのパーティーは、貢献に基づく公平な報酬など、十分なインセンティブが与えられた場合にのみ参加を希望する。 多くの研究は、学習モデルに対する各当事者の貢献を評価するためのShapley値ベースの方法を検討した。 しかしながら、彼らは一般的に、モデルのトレーニングとデータ所有者のモデルの貢献を評価するために信頼できるサーバを想定するが、透明性が欠如しており、実際に連合学習が成功するのを妨げる可能性がある。 本稿では,ブロックチェーンベースのフェデレーション学習フレームワークと,各参加者の貢献度を透過的に評価するプロトコルを提案する。 本フレームワークは,モデル構築フレーズにおけるすべての当事者のプライバシを保護し,モデル更新に基づくコントリビューションを透過的に評価する。 手書き桁データセットを用いた実験では,提案手法がコントリビューションを効果的に評価できることが示された。

Federated Learning is a promising machine learning paradigm when multiple parties collaborate to build a high-quality machine learning model. Nonetheless, these parties are only willing to participate when given enough incentives, such as a fair reward based on their contributions. Many studies explored Shapley value based methods to evaluate each party's contribution to the learned model. However, they commonly assume a trusted server to train the model and evaluate the data owners' model contributions, which lacks transparency and may hinder the success of federated learning in practice. In this work, we propose a blockchain-based federated learning framework and a protocol to transparently evaluate each participants' contribution. Our framework protects all parties' privacy in the model building phrase and transparently evaluates contributions based on the model updates. The experiment with the handwritten digits dataset demonstrates that the proposed method can effectively evaluate the contributions.
翻訳日:2021-03-13 19:44:40 公開日:2021-01-26
# 分散トレーニングシステムにおける効率的な統計的グラデーション圧縮手法

An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems ( http://arxiv.org/abs/2101.10761v1 )

ライセンス: Link先を確認
Ahmed M. Abdelmoniem and Ahmed Elzanaty and Mohamed-Slim Alouini and Marco Canini(参考訳) 最近のディープニューラルネットワークのサイズ拡大は、効率的な分散トレーニングを難しくしている。 多くの提案はグラデーションの圧縮性を利用し、分散トレーニングのコミュニケーションステージをスピードアップするために損失のある圧縮技術を提案する。 それにもかかわらず、圧縮はモデル品質の低下と余分な計算オーバーヘッドのコストが伴う。 本研究では, 最小オーバーヘッドの効率的な圧縮機を設計する。 グラデーションのスパース性に注目し,スパース性誘起分布(SID)に従って分布するランダム変数としてグラデーションをモデル化することを提案する。 我々は,学習過程における勾配ベクトルの進化の統計的特性を調べることにより,仮定を実証的に検証する。 次に、より低い圧縮オーバーヘッドを課し、より高速なDGC(Deep gradient compression)に類似したしきい値推定品質を享受する閾値ベースのスペーシフィケーションスキームであるスペーシリティ誘導型分散圧縮(SIDCo)を提案する。 recurrent neural network (rnn) とconvolution neural network (cnn) モデルの両方を用いた一般的な機械学習ベンチマークの広範な評価結果から,sidcoは,no-compression base,topk,dgc compressorと比較して,最大41:7%,7:6%,1:9%のトレーニング速度を示している。

The recent many-fold increase in the size of deep neural networks makes efficient distributed training challenging. Many proposals exploit the compressibility of the gradients and propose lossy compression techniques to speed up the communication stage of distributed training. Nevertheless, compression comes at the cost of reduced model quality and extra computation overhead. In this work, we design an efficient compressor with minimal overhead. Noting the sparsity of the gradients, we propose to model the gradients as random variables distributed according to some sparsity-inducing distributions (SIDs). We empirically validate our assumption by studying the statistical characteristics of the evolution of gradient vectors over the training process. We then propose Sparsity-Inducing Distribution-based Compression (SIDCo), a threshold-based sparsification scheme that enjoys similar threshold estimation quality to deep gradient compression (DGC) while being faster by imposing lower compression overhead. Our extensive evaluation of popular machine learning benchmarks involving both recurrent neural network (RNN) and convolution neural network (CNN) models shows that SIDCo speeds up training by up to 41:7%, 7:6%, and 1:9% compared to the no-compression baseline, Topk, and DGC compressors, respectively.
翻訳日:2021-03-13 19:44:25 公開日:2021-01-26
# アクティブトランスファー学習の逆脆弱性

Adversarial Vulnerability of Active Transfer Learning ( http://arxiv.org/abs/2101.10792v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Konstantin B\"ottinger(参考訳) 小さなデータセット上で教師付き機械学習モデルをトレーニングするための2つの広く使用されているテクニックは、Active LearningとTransfer Learningである。 前者は、限られた予算を使用して新しいデータをラベル付けするのに役立ちます。 後者は特徴抽出器として大規模な訓練済みモデルを使用し、小さなデータセットでも複雑な非線形モデルの設計を可能にする。 これら2つのアプローチを組み合わせることは、小さなデータセットを扱う際に効果的で最先端の方法である。 本稿では,これらの手法の組み合わせが,特に新しい種類のデータ中毒攻撃の影響を受けやすいという,興味深い観察を共有している。入力に小さな逆雑音を加えることで,転送学習者の出力空間に衝突を発生させることができる。 その結果、Active Learningアルゴリズムは、もはや最適なインスタンスを選択するのではなく、攻撃者が注入したインスタンスのみを選択するようになった。 これにより、攻撃者がアクティブな学習者を操作して、悪意のないサンプルの圧倒的多数に対しても、任意の画像をデータセットに選択し、組み込むことができる。 このような有毒データセットをトレーニングしたモデルでは, 精度が86\%から34\%に低下し, 性能が著しく低下したことを示す。 我々はこの攻撃を音声と画像のデータセットの両方で評価し,経験的支援を行う。 私たちの知る限りでは、この弱点は文献に記述されていない。

Two widely used techniques for training supervised machine learning models on small datasets are Active Learning and Transfer Learning. The former helps to optimally use a limited budget to label new data. The latter uses large pre-trained models as feature extractors and enables the design of complex, non-linear models even on tiny datasets. Combining these two approaches is an effective, state-of-the-art method when dealing with small datasets. In this paper, we share an intriguing observation: Namely, that the combination of these techniques is particularly susceptible to a new kind of data poisoning attack: By adding small adversarial noise on the input, it is possible to create a collision in the output space of the transfer learner. As a result, Active Learning algorithms no longer select the optimal instances, but almost exclusively the ones injected by the attacker. This allows an attacker to manipulate the active learner to select and include arbitrary images into the data set, even against an overwhelming majority of unpoisoned samples. We show that a model trained on such a poisoned dataset has a significantly deteriorated performance, dropping from 86\% to 34\% test accuracy. We evaluate this attack on both audio and image datasets and support our findings empirically. To the best of our knowledge, this weakness has not been described before in literature.
翻訳日:2021-03-13 19:44:01 公開日:2021-01-26
# コンテナキャラクタリゼーションによる高効率映像完全性解析

Efficient video integrity analysis through container characterization ( http://arxiv.org/abs/2101.10795v1 )

ライセンス: Link先を確認
Pengpeng Yang, Daniele Baracchi, Massimo Iuliani, Dasara Shullani, Rongrong Ni, Yao Zhao, Alessandro Piva(参考訳) しかし、ほとんどのビデオフォレンジック技術は、強く圧縮または低解像度のビデオを扱うときにほとんど効果がないデータストリーム内のトレースを探します。 最近の研究では、ビデオコンテナ構造にも有用な法医学的痕跡が残っており、メディアストリーム自体を見ることなくビデオファイルのライフサイクルを理解する機会を提供している。 本稿では,映像操作に使用するソフトウェアをコンテナベースで識別する手法と,ほとんどの場合,ソースデバイスのオペレーティングシステムについて述べる。 技術の現状とは対照的に,提案手法は効率的かつ効果的であり,その決定に簡単な説明を与えることもできる。 これはビデオコンテナ構造のベクトル表現に適用された決定木に基づく分類器を用いて達成される。 我々は、ソフトウェア操作コンテンツ(ffmpeg, exiftool, adobe premiere, avidemux, kdenlive)とソーシャルメディアプラットフォーム(facebook, tiktok, weibo, youtube)で交換されたビデオを含む7000のビデオファイルのデータセットの広範な検証を行った。 このデータセットは研究コミュニティに公開されている。 提案手法は,ビデオの再エンコーディングやサムネイルサイズに縮小された場合においても,プリスチンを改ざんされたビデオと区別し,編集ソフトウェアを分類する際に97.6%の精度を実現する。 さらに、改ざんされたビデオのほとんどのためにソースデバイスのオペレーティングシステムを正しく識別することができます。

Most video forensic techniques look for traces within the data stream that are, however, mostly ineffective when dealing with strongly compressed or low resolution videos. Recent research highlighted that useful forensic traces are also left in the video container structure, thus offering the opportunity to understand the life-cycle of a video file without looking at the media stream itself. In this paper we introduce a container-based method to identify the software used to perform a video manipulation and, in most cases, the operating system of the source device. As opposed to the state of the art, the proposed method is both efficient and effective and can also provide a simple explanation for its decisions. This is achieved by using a decision-tree-based classifier applied to a vectorial representation of the video container structure. We conducted an extensive validation on a dataset of 7000 video files including both software manipulated contents (ffmpeg, Exiftool, Adobe Premiere, Avidemux, and Kdenlive), and videos exchanged through social media platforms (Facebook, TikTok, Weibo and YouTube). This dataset has been made available to the research community. The proposed method achieves an accuracy of 97.6% in distinguishing pristine from tampered videos and classifying the editing software, even when the video is cut without re-encoding or when it is downscaled to the size of a thumbnail. Furthermore, it is capable of correctly identifying the operating system of the source device for most of the tampered videos.
翻訳日:2021-03-13 19:43:44 公開日:2021-01-26
# 毒物による特性推定

Property Inference From Poisoning ( http://arxiv.org/abs/2101.11073v1 )

ライセンス: Link先を確認
Melissa Chase, Esha Ghosh, Saeed Mahloujifar(参考訳) プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。 本研究では,攻撃者がトレーニングデータの一部を悪意を持って制御できるシナリオにおいて,情報漏えいの増大を目標としてプロパティ推論について検討する。 中毒攻撃に関する以前の研究は、集団全体または特定のサブ人口またはインスタンスのモデルの精度を低下させようとすることに焦点を当てた。 そこで,本研究では,敵の目的がモデルの情報漏洩を増加させることである中毒攻撃を初めて検討する。 以上の結果から,毒殺攻撃は情報漏洩を著しく促進し,一部のデータソースが悪意を持つ可能性のある機密アプリケーションにおいて,より強力な脅威モデルと考えるべきである。 我々は、敵が選択したプロパティのトレーニングデータで有病率を学習できるようにする「emph{property inference poisoning attack」について記述する。 我々は,学習アルゴリズムが優れた一般化特性を持つ限り,攻撃が常に成功することを理論的に証明する。 次に、調査データセットとenronメールデータセットの2つのデータセットで実験的に評価することで、攻撃の有効性を検証する。 我々はすべての実験で$ 9-10\%$中毒で$ 90\%$以上の攻撃精度を達成できました。

Property inference attacks consider an adversary who has access to the trained model and tries to extract some global statistics of the training data. In this work, we study property inference in scenarios where the adversary can maliciously control part of the training data (poisoning data) with the goal of increasing the leakage. Previous work on poisoning attacks focused on trying to decrease the accuracy of models either on the whole population or on specific sub-populations or instances. Here, for the first time, we study poisoning attacks where the goal of the adversary is to increase the information leakage of the model. Our findings suggest that poisoning attacks can boost the information leakage significantly and should be considered as a stronger threat model in sensitive applications where some of the data sources may be malicious. We describe our \emph{property inference poisoning attack} that allows the adversary to learn the prevalence in the training data of any property it chooses. We theoretically prove that our attack can always succeed as long as the learning algorithm used has good generalization properties. We then verify the effectiveness of our attack by experimentally evaluating it on two datasets: a Census dataset and the Enron email dataset. We were able to achieve above $90\%$ attack accuracy with $9-10\%$ poisoning in all of our experiments.
翻訳日:2021-03-13 19:43:12 公開日:2021-01-26
# ディープニューラルネットワークのオフラインテストはオンラインテストに代わるのか?

Can Offline Testing of Deep Neural Networks Replace Their Online Testing? ( http://arxiv.org/abs/2101.11118v1 )

ライセンス: Link先を確認
Fitash Ul Haq, Donghwan Shin, Shiva Nejati, Lionel Briand(参考訳) 私たちは、Deep Neural Networks(DNN)の一般的なテストモードを区別します。DNNがテスト中のDNNから独立したテストデータセットに基づいて個々のユニットとしてテストされるオフラインテストと、DNNが特定のアプリケーション環境に埋め込まれ、アプリケーション環境と相互作用してクローズドループモードでテストされるオンラインテストです。 通常、DNNは開発ライフサイクルの両タイプのテストを受けており、DNNトレーニング直後にオフラインテストが適用され、オフラインテスト後にオンラインテストが実施され、DNNが特定のアプリケーション環境にデプロイされる。 本稿では,オフラインテストとオンラインテストの関係について検討する。 私たちの目標は、オフラインテストとオンラインテストがどのように異なるか、相互補完するか、オフラインテスト結果を使用してオンラインテスト中により少ないテストを実行してテストコストを削減できるかを決定することです。 これらの質問は、一般に全ての自律システムに関係しているが、自動運転車の操舵機能のエンドツーエンド制御を自動化するDNNを用いて、自動走行システムの文脈でそれらを研究する。 オンラインテストで特定される多くの安全違反がオフラインテストでは特定できないため,オフラインテストはオンラインテストよりも楽観的であり,オフラインテストで発生する大きな予測エラーは,オンラインテストで検出可能な深刻な安全違反につながっている。 さらに、オフラインテストの結果は、安全要件違反を特定する上で、オフラインテストがオンラインテストと同じくらい正確である可能性のある特定の状況を特定することができないため、実際にオンラインテストにおいて、より少ないテストを実行するために使用できません。

We distinguish two general modes of testing for Deep Neural Networks (DNNs): Offline testing where DNNs are tested as individual units based on test datasets obtained independently from the DNNs under test, and online testing where DNNs are embedded into a specific application environment and tested in a closed-loop mode in interaction with the application environment. Typically, DNNs are subjected to both types of testing during their development life cycle where offline testing is applied immediately after DNN training and online testing follows after offline testing and once a DNN is deployed within a specific application environment. In this paper, we study the relationship between offline and online testing. Our goal is to determine how offline testing and online testing differ or complement one another and if we can use offline testing results to run fewer tests during online testing to reduce the testing cost. Though these questions are generally relevant to all autonomous systems, we study them in the context of automated driving systems where, as study subjects, we use DNNs automating end-to-end controls of steering functions of self-driving vehicles. Our results show that offline testing is more optimistic than online testing as many safety violations identified by online testing could not be identified by offline testing, while large prediction errors generated by offline testing always led to severe safety violations detectable by online testing. Further, we cannot use offline testing results to run fewer tests during online testing in practice since we are not able to identify specific situations where offline testing could be as accurate as online testing in identifying safety requirement violations.
翻訳日:2021-03-13 19:42:54 公開日:2021-01-26
# 散乱プロットに基づく次元還元表現のコントラスト解析

Contrastive analysis for scatter plot-based representations of dimensionality reduction ( http://arxiv.org/abs/2101.12044v1 )

ライセンス: Link先を確認
Wilson E. Marc\'ilio-Jr, Danilo M. Eler, Rog\'erio E. Garcia(参考訳) マルチ次元データセットの探索は、クラスタの解釈が主なタスクの1つであるデータを扱うもののユビキタスな部分です。 これらの多次元データセットは、通常、空間近接がデータサンプル間の類似性を符号化する散乱プロット表現を用いて符号化される。 文献では、相互作用とレイアウト強化戦略を用いてクラスタ定義の機能の重要性を視覚化することにより、散乱プロットの組織を理解する手法を試みている。 しかし、次元減少を解釈するために用いられるアプローチは、通常クラスターをよく区別しないため、クラスタ間の差異を理解することに焦点を当てる解析が妨げられる。 本稿では,多次元データセットを視覚的に探索し,コントラスト分析に基づくクラスタ形成を解釈する手法を提案する。 また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。 我々の方法論はケーススタディを通じて検証される。 脊椎疾患患者と2つの文書集の多変量データセットについて検討した。1つはニュース記事に関連するもの、もう1つはcovid-19の症状に関するツイートに関するもの。 最後に,多次元解析に十分頑健な方法を示すために,定量的な結果を用いて,そのアプローチを検証する。

Exploring multidimensional datasets is a ubiquitous part of the ones working with data, where interpreting clusters is one of the main tasks. These multidimensional datasets are usually encoded using scatter-plots representations, where spatial proximity encodes similarity among data samples. In the literature, techniques try to understand the scatter plot organization by visualizing the importance of the features for clusters definition with interaction and layout enrichment strategies. However, the approaches used to interpret dimensionality reduction usually do not differentiate clusters well, which hampers analysis where the focus is to understand the differences among clusters. This paper introduces a methodology to visually explore multidimensional datasets and interpret clusters' formation based on the contrastive analysis. We also introduce a bipartite graph to visually interpret and explore the relationship between the statistical variables used to understand how the attributes influenced cluster formation. Our methodology is validated through case studies. We explore a multivariate dataset of patients with vertebral problems and two document collections, one related to news articles and other related to tweets about COVID-19 symptoms. Finally, we also validate our approach through quantitative results to demonstrate how it can be robust enough to support multidimensional analysis.
翻訳日:2021-03-13 19:38:38 公開日:2021-01-26
# 混合整数計画法による確率ブロックモデルのコミュニティ検出

Community Detection in the Stochastic Block Model by Mixed Integer Programming ( http://arxiv.org/abs/2101.12336v1 )

ライセンス: Link先を確認
Breno Serrano and Thibaut Vidal(参考訳) Degree-Corrected Stochastic Block Model (DCSBM) は、期待される次数列を持つコミュニティ構造を持つランダムグラフを生成する一般的なモデルである。 DCSBMに基づくコミュニティ検出の標準的なアプローチは、最大可能性推定(MLE)を通じて観測されたネットワークデータを生成する可能性が最も高いモデルパラメータを検索することです。 MLE問題の現在のテクニックはヒューリスティックスであり、従って最適への収束を保証するものではない。 本稿では,モデルパラメータと最大確率のコミュニティ割当を観測グラフから確実に求める数学的計画式と厳密解法を提案する。 これらの厳密な手法を期待最大化(em)に基づく古典的ヒューリスティックアルゴリズムと比較する。 正確な方法によって与えられた解は、古典的ヒューリスティックの実験性能を測定し、その異なる変化を比較する原則的な方法を与える。

The Degree-Corrected Stochastic Block Model (DCSBM) is a popular model to generate random graphs with community structure given an expected degree sequence. The standard approach of community detection based on the DCSBM is to search for the model parameters that are the most likely to have produced the observed network data through maximum likelihood estimation (MLE). Current techniques for the MLE problem are heuristics, and therefore do not guarantee convergence to the optimum. We present mathematical programming formulations and exact solution methods that can provably find the model parameters and community assignments of maximum likelihood given an observed graph. We compare these exact methods with classical heuristic algorithms based on expectation-maximiza tion (EM). The solutions given by exact methods give us a principled way of measuring the experimental performance of classical heuristics and comparing different variations thereof.
翻訳日:2021-03-13 19:38:20 公開日:2021-01-26
# ランダムな特徴とカーネル手法の一般化誤差:超収縮性とカーネルマトリックス濃度

Generalization error of random features and kernel methods: hypercontractivity and kernel matrix concentration ( http://arxiv.org/abs/2101.10588v1 )

ライセンス: Link先を確認
Song Mei, Theodor Misiakiewicz, Andrea Montanari(参考訳) y_i,{\boldsymbol x}_i)$, $i\le n$, with $y_i$ a response and ${\boldsymbol x}_i\in {\mathcal x}$ a covariates vector, and try to learn a model $f:{\mathcal x}\to{\mathbb r}$ to predict future response. と題された。 ランダムの特徴は、共変ベクトル ${\boldsymbol x}_i$ を高次元空間 ${\mathbb R}^N$ 上の点 ${\boldsymbol \phi}({\boldsymbol x}_i)$ に写すことである。 本研究では,特徴空間 ${\mathbb r}^n$ におけるリッジ回帰を伴うランダム特徴法の利用について検討する。 これは、カーネルリッジ回帰(KRR)の有限次元近似、またはいわゆる遅延訓練体制におけるニューラルネットワークの様式化されたモデルと見なすことができる。 基底核上の特定のスペクトル条件を満たす問題のクラスと、関連する固有関数に対する超収縮仮定を定義する。 これらの条件は古典的な高次元の例によって検証される。 これらの条件下では,ランダム特徴のリッジ回帰の誤差を鋭く評価する。 特に、2つの基本的な問題に対処する:$(1)$~KRRの一般化誤差は何か? $(2)$~KRRと同じエラーを達成するためにランダムな機能近似には、どのくらい大きな$N$が必要ですか? この設定では、KRR がカーネルのトップ $\ell$ 固有関数への射影によってよく近似されることを証明し、$\ell$ はサンプルサイズ $n$ に依存する。 ランダムな特徴のリッジ回帰のテスト誤差は近似誤差によって支配され、ある $\delta>0$ に対して $N\le n^{1-\delta}$ であれば KRR の誤差よりも大きいことを示す。 このギャップを特徴付ける。 N の n^{1+\delta}$ の場合、ランダムな特徴は対応する KRR と同じ誤差を達成し、さらに$N$ の増加はテストエラーに大きな変化をもたらすことはない。

Consider the classical supervised learning problem: we are given data $(y_i,{\boldsymbol x}_i)$, $i\le n$, with $y_i$ a response and ${\boldsymbol x}_i\in {\mathcal X}$ a covariates vector, and try to learn a model $f:{\mathcal X}\to{\mathbb R}$ to predict future responses. Random features methods map the covariates vector ${\boldsymbol x}_i$ to a point ${\boldsymbol \phi}({\boldsymbol x}_i)$ in a higher dimensional space ${\mathbb R}^N$, via a random featurization map ${\boldsymbol \phi}$. We study the use of random features methods in conjunction with ridge regression in the feature space ${\mathbb R}^N$. This can be viewed as a finite-dimensional approximation of kernel ridge regression (KRR), or as a stylized model for neural networks in the so called lazy training regime. We define a class of problems satisfying certain spectral conditions on the underlying kernels, and a hypercontractivity assumption on the associated eigenfunctions. These conditions are verified by classical high-dimensional examples. Under these conditions, we prove a sharp characterization of the error of random features ridge regression. In particular, we address two fundamental questions: $(1)$~What is the generalization error of KRR? $(2)$~How big $N$ should be for the random features approximation to achieve the same error as KRR? In this setting, we prove that KRR is well approximated by a projection onto the top $\ell$ eigenfunctions of the kernel, where $\ell$ depends on the sample size $n$. We show that the test error of random features ridge regression is dominated by its approximation error and is larger than the error of KRR as long as $N\le n^{1-\delta}$ for some $\delta>0$. We characterize this gap. For $N\ge n^{1+\delta}$, random features achieve the same error as the corresponding KRR, and further increasing $N$ does not lead to a significant change in test error.
翻訳日:2021-03-13 19:37:58 公開日:2021-01-26
# アナログ-ターゲット距離の確率分布

Probability distributions for analog-to-target distances ( http://arxiv.org/abs/2101.10640v1 )

ライセンス: Link先を確認
Paul Platzer, Pascal Yiou (ESTIMR), Philippe Naveau (ESTIMR), Jean-Fran\c{c}ois Filipot, Maxime Thiebaut, Pierre Tandeo (IMT Atlantique - SC)(参考訳) カオス力学系のいくつかの性質は、アナログとも呼ばれる再発の特徴を通して探究することができる。 実際には、アナログはシステム状態の最も近い隣人であり、カタログと呼ばれる大きなデータベースから取り出されている。 アナログは、予報、ダウンスケーリング、予測可能性推定、極端な事象の帰属など、多くの大気アプリケーションで使われてきた。 ターゲット状態へのアナログの距離は、アナログアプリケーションのパフォーマンスを条件にします。 これらの距離は確率変数と見なすことができ、それらの確率分布は、与えられたシステムのカタログサイズと特性に関連付けられる。 いくつかの研究は、最良のアナログに対する戻り時間統計の最初の瞬間に焦点を当て、このアナログから目標状態への最大距離の目標を定めている。 しかし、実用的利用と推定ばらつきの低減のためには、アプリケーションは通常1つだけでなく、多くのアナログを必要とする。 本稿では,理論的な観点から,k$-bestアナログ対ターゲット距離の確率分布を数値実験により評価する。 我々は、良好なアナログを見つけるのに必要なカタログのサイズ、および$K$-bestアナログの相対的な手段と分散に次元性が重要な役割を果たしていることを示す。 この結果は、最近開発された動的システム理論のツールに基づいている。 これらの結果は、フランス北西部でよく知られたカオス力学系と10m風再解析データの数値シミュレーションによって示される。 同じ再解析データを用いて,主観的次元削減を目的とした導出の実践的応用を示す。

Some properties of chaotic dynamical systems can be probed through features of recurrences, also called analogs. In practice, analogs are nearest neighbours of the state of a system, taken from a large database called the catalog. Analogs have been used in many atmospheric applications including forecasts, downscaling, predictability estimation, and attribution of extreme events. The distances of the analogs to the target state condition the performances of analog applications. These distances can be viewed as random variables, and their probability distributions can be related to the catalog size and properties of the system at stake. A few studies have focused on the first moments of return time statistics for the best analog, fixing an objective of maximum distance from this analog to the target state. However, for practical use and to reduce estimation variance, applications usually require not just one, but many analogs. In this paper, we evaluate from a theoretical standpoint and with numerical experiments the probability distributions of the $K$-best analog-to-target distances. We show that dimensionality plays a role on the size of the catalog needed to find good analogs, and also on the relative means and variances of the $K$-best analogs. Our results are based on recently developed tools from dynamical systems theory. These findings are illustrated with numerical simulations of a well-known chaotic dynamical system and on 10m-wind reanalysis data in north-west France. A practical application of our derivations for the purpose of objective-based dimension reduction is shown using the same reanalysis data.
翻訳日:2021-03-13 19:37:13 公開日:2021-01-26
# ニューラルネットワークを用いた軽度認知障害検出のための複合ネットワーク「パースペクティブ」

Ensembling complex network 'perspectives' for mild cognitive impairment detection with artificial neural networks ( http://arxiv.org/abs/2101.10629v1 )

ライセンス: Link先を確認
Eufemia Lella, Gennaro Vessio(参考訳) 本稿では,複合ネットワークとニューラルネットワークのパラダイムを共同利用した軽度の認知障害検出手法を提案する。 特に、この手法は、異なる脳構造「パースペクティブ」を人工ニューラルネットワークでアンサンブルすることに基づいている。 一方、これらの視点は、変化した脳の接続性を記述するのに適した複雑なネットワーク測度によって得られる。 次に、拡散強調画像(dwi)データをトラクトグラフィアルゴリズムに組み合わせることにより、脳再構成を得る。 一方、ニューラルネットワークは、脳のトポロジカルな性質から認知低下の有無へのマッピングを学習する手段を提供する。 本手法の有効性は, 早期診断を支援する自動診断ツールを提供できるかどうかを評価するために, 有名なベンチマークデータセットを用いて検討した。 また、DWIデータに対する複雑なネットワークアプローチの信頼性をさらに評価するために、バランスの問題の影響を調査します。

In this paper, we propose a novel method for mild cognitive impairment detection based on jointly exploiting the complex network and the neural network paradigm. In particular, the method is based on ensembling different brain structural "perspectives" with artificial neural networks. On one hand, these perspectives are obtained with complex network measures tailored to describe the altered brain connectivity. In turn, the brain reconstruction is obtained by combining diffusion-weighted imaging (DWI) data to tractography algorithms. On the other hand, artificial neural networks provide a means to learn a mapping from topological properties of the brain to the presence or absence of cognitive decline. The effectiveness of the method is studied on a well-known benchmark data set in order to evaluate if it can provide an automatic tool to support the early disease diagnosis. Also, the effects of balancing issues are investigated to further assess the reliability of the complex network approach to DWI data.
翻訳日:2021-03-13 19:36:31 公開日:2021-01-26
# RAPIQUE: ユーザ生成コンテンツの迅速かつ正確なビデオ品質予測

RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content ( http://arxiv.org/abs/2101.10955v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Xiangxu Yu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, and Alan C. Bovik(参考訳) ユーザ生成コンテンツ(ugc)の盲目または非参照ビデオ品質評価は、トレンド的で挑戦的で未解決な問題となっている。 したがって、このコンテンツに適した正確で効率的なビデオ品質予測器は、UGCビデオのよりインテリジェントな分析と処理を達成するために大きな需要があります。 従来の研究では、自然のシーン統計と深層学習の特徴の両方が空間歪みを捉えるのに十分であることが示されており、UGCビデオの品質問題の重要な側面に寄与している。 しかし、これらのモデルは実用上、複雑で多様なugcビデオの品質を予測できないか非効率である。 ここでは,高速で正確な映像品質評価器(rapique: video quality evaluator)をダビングし,最先端(sota:state-of-the-a rt)モデルと相性が良いが,桁違いに高速な実行環境を実現するための,効率的なビデオ品質モデルを提案する。 RAPIQUEは、品質を考慮したシーン統計機能とセマンティックスを考慮した深い畳み込み機能の両方の利点を組み合わせて、ビデオ品質モデリングのための空間的および時間的(時空間)なバンドパス統計モデルの設計を可能にする。 最近の大規模UGCビデオ品質データベースに関する実験結果は、RAPIQUEがすべてのデータセットで最高のパフォーマンスを計算コストを大幅に削減できることを示しています。 本研究は,リアルタイム・低レイテンシアプリケーションのための映像品質問題の実用的なモデリングへのさらなる取り組みを促進することを願っている。 一般公開を促進するため、RAPIQUEの実装をオンラインで自由に利用できるようにした。

Blind or no-reference video quality assessment of user-generated content (UGC) has become a trending, challenging, unsolved problem. Accurate and efficient video quality predictors suitable for this content are thus in great demand to achieve more intelligent analysis and processing of UGC videos. Previous studies have shown that natural scene statistics and deep learning features are both sufficient to capture spatial distortions, which contribute to a significant aspect of UGC video quality issues. However, these models are either incapable or inefficient for predicting the quality of complex and diverse UGC videos in practical applications. Here we introduce an effective and efficient video quality model for UGC content, which we dub the Rapid and Accurate Video Quality Evaluator (RAPIQUE), which we show performs comparably to state-of-the-art (SOTA) models but with orders-of-magnitude faster runtime. RAPIQUE combines and leverages the advantages of both quality-aware scene statistics features and semantics-aware deep convolutional features, allowing us to design the first general and efficient spatial and temporal (space-time) bandpass statistics model for video quality modeling. Our experimental results on recent large-scale UGC video quality databases show that RAPIQUE delivers top performances on all the datasets at a considerably lower computational expense. We hope this work promotes and inspires further efforts towards practical modeling of video quality problems for potential real-time and low-latency applications. To promote public usage, an implementation of RAPIQUE has been made freely available online: \url{https://github.com/v ztu/RAPIQUE}.
翻訳日:2021-03-13 19:36:17 公開日:2021-01-26
# usp:pearsonのchi-squaredと$g$-testを改良した独立テスト

USP: an independence test that improves on Pearson's chi-squared and the $G$-test ( http://arxiv.org/abs/2101.10880v1 )

ライセンス: Link先を確認
Thomas B. Berrett and Richard J. Samworth(参考訳) U$-Statistic Permutation (USP) の独立性テストを、連続表に表示された離散データのコンテキストで提示する。 ピアソンの2乗独立テスト(または$G$-test)は一般的にこのタスクに使用されるが、これらのテストはテストのサイズやパワー特性を制御できないという点で、深刻な欠陥があると主張する。 対照的にUSPテストでは、すべてのサンプルサイズに対して名目レベルでテストのサイズを制御することが保証されており、小さな(またはゼロの)細胞数に問題はなく、最小限の方法で独立性に反する分布を検出することができる。 テスト統計は、依存の自然な人口尺度の$ U$統計的推定値から派生しており、これはこの人口量のユニークな最小分散不偏推定値であることを証明します。 USP テストの実用性は、Pearson のテストや $G$-test のそれよりも劇的に大きなパワーを持つシミュレートされたデータと、実際のデータの両方で実証されています。 USPテストは、RパッケージUSPで実装される。

We present the $U$-Statistic Permutation (USP) test of independence in the context of discrete data displayed in a contingency table. Either Pearson's chi-squared test of independence, or the $G$-test, are typically used for this task, but we argue that these tests have serious deficiencies, both in terms of their inability to control the size of the test, and their power properties. By contrast, the USP test is guaranteed to control the size of the test at the nominal level for all sample sizes, has no issues with small (or zero) cell counts, and is able to detect distributions that violate independence in only a minimal way. The test statistic is derived from a $U$-statistic estimator of a natural population measure of dependence, and we prove that this is the unique minimum variance unbiased estimator of this population quantity. The practical utility of the USP test is demonstrated on both simulated data, where its power can be dramatically greater than those of Pearson's test and the $G$-test, and on real data. The USP test is implemented in the R package USP.
翻訳日:2021-03-13 19:35:35 公開日:2021-01-26
# 深層生成モデルを用いた残響環境における半監視源の局在

Semi-supervised source localization in reverberant environments with deep generative modeling ( http://arxiv.org/abs/2101.10636v1 )

ライセンス: Link先を確認
Michael J. Bianco, Sharon Gannot, Efren Fernandez-Grande, and Peter Gerstoft(参考訳) 深層生成モデルに基づく残響環境における音源定位に関する半監督的アプローチを提案する。 残響環境におけるローカリゼーションは未だにオープンな課題である。 大量のデータでも、残響環境での教師付き学習に使用できるラベルの数は、通常少ないです。 残響環境における音声信号に対する畳み込み可変オートエンコーダ(VAE)による半教師付き学習(SSL)を行うことでこの問題に対処します。 VAEは、ラベル付きおよびラベルなしのRTFサンプルのRTF位相に基づく到着方向(DOA)分類器と並行して、マイク間の相対移動関数(RTF)の位相を生成するように訓練されている。 これらのタスクを実行するための学習において、VAE-SSLはRTF相の物理的原因(すなわち音源位置)をノイズや音声活動などの信号特性を逸脱することから明確に学習する。 音響学における既存の半教師付きローカライズ手法とは対照的に、VAE-SSLはRTF位相特徴の最小前処理に依存するエンドツーエンド処理アプローチである。 VAE-SSLアプローチは、位相変換(SRP-PHAT)と完全に監視されたCNNによる操舵応答電力と比較されます。 VAE-SSLは、ラベル制限シナリオでSRP-PHATとCNNの両方を上回る可能性があります。 さらに、トレーニングされたVAE-SSLシステムは、新しいRTF相サンプルを生成することができ、VAE-SSLアプローチが音響環境の物理を学習することを示す。 VAE-SSLにおける生成モデリングは、学習した表現を解釈する手段を提供する。

A semi-supervised approach to acoustic source localization in reverberant environments, based on deep generative modeling, is proposed. Localization in reverberant environments remains an open challenge. Even with large data volumes, the number of labels available for supervised learning in reverberant environments is usually small. We address this issue by performing semi-supervised learning (SSL) with convolutional variational autoencoders (VAEs) on speech signals in reverberant environments. The VAE is trained to generate the phase of relative transfer functions (RTFs) between microphones, in parallel with a direction of arrival (DOA) classifier based on RTF-phase, on both labeled and unlabeled RTF samples. In learning to perform these tasks, the VAE-SSL explicitly learns to separate the physical causes of the RTF-phase (i.e., source location) from distracting signal characteristics such as noise and speech activity. Relative to existing semi-supervised localization methods in acoustics, VAE-SSL is effectively an end-to-end processing approach which relies on minimal preprocessing of RTF-phase features. The VAE-SSL approach is compared with the steered response power with phase transform (SRP-PHAT) and fully supervised CNNs. We find that VAE-SSL can outperform both SRP-PHAT and CNN in label-limited scenarios. Further, the trained VAE-SSL system can generate new RTF-phase samples, which shows the VAE-SSL approach learns the physics of the acoustic environment. The generative modeling in VAE-SSL thus provides a means of interpreting the learned representations.
翻訳日:2021-03-13 19:35:16 公開日:2021-01-26
# データ共有ゲーム

Data sharing games ( http://arxiv.org/abs/2101.10721v1 )

ライセンス: Link先を確認
V\'ictor Gallego, Roi Naveiro, David R\'ios Insua, Wolfram Rozas(参考訳) データ共有問題は、オンライン社会と経済環境に浸透する。 社会の進歩を促進するためには、関係者間の協力の上昇を促進することができるデータ生産者と消費者の間の相互作用のモデルを開発することが重要です。 私たちは、この相互作用を、反復囚人のジレンマに基づいたゲーム、データ共有ゲームとして形式化し、マルチエージェント強化学習技術を通じて対処します。 中央集権化の程度に応じて、市民がどのように行動するかに関するいくつかの戦略を検討します。 データ消費者は何らかの反対のモデリングを実行するか、規制当局は両方のプレーヤー間でユーティリティを転送し、それらをインセンティブ化する必要があります。

Data sharing issues pervade online social and economic environments. To foster social progress, it is important to develop models of the interaction between data producers and consumers that can promote the rise of cooperation between the involved parties. We formalize this interaction as a game, the data sharing game, based on the Iterated Prisoner's Dilemma and deal with it through multi-agent reinforcement learning techniques. We consider several strategies for how the citizens may behave, depending on the degree of centralization sought. Simulations suggest mechanisms for cooperation to take place and, thus, achieve maximum social utility: data consumers should perform some kind of opponent modeling, or a regulator should transfer utility between both players and incentivise them.
翻訳日:2021-03-13 19:34:50 公開日:2021-01-26
# 高次元の近くの近所をサンプリング - 誰がすべての最も公正ですか?

Sampling a Near Neighbor in High Dimensions -- Who is the Fairest of Them All? ( http://arxiv.org/abs/2101.10905v1 )

ライセンス: Link先を確認
Martin Aum\"uller, Sariel Har-Peled, Sepideh Mahabadi, Rasmus Pagh, Francesco Silvestri(参考訳) 類似性探索は基本的なアルゴリズムプリミティブであり、多くのコンピュータサイエンスの分野で広く使われている。 点のセット$S$と半径パラメータ$r>0$が与えられたとき、$r$-near neighbor$r$-NN)問題はデータ構造を求め、任意のクエリポイント$q$が与えられた場合、最大$r$から$q$までの距離内の点$p$を返す。 本稿では、個々の公平性の観点からr$-nn問題を研究し、等しく機会を提供する:クエリからの距離にあるすべてのポイントは、返される確率が同じであるべきである。 低次元の場合、この問題はHu, Qiao, Tao (PODS 2014) によって初めて研究された。 高次元での類似性探索に対する理論的に最強のアプローチである局所性敏感ハッシュ(LSH)は、そのような公平性保証を提供していない。 本研究では、LSHに基づくアルゴリズムを効率を著しく損なうことなく公平にすることができることを示す。 フェアNN問題の正確かつ近似的な変種に対して,複数の効率的なデータ構造を提案する。 このアプローチは、与えられたコレクションの集合のサブコレクションから一様にサンプリングするためにより一般的に機能し、他のいくつかのアプリケーションで使用できる。 また, 内部積の下では, ほぼ線形空間を必要とし, 局所性に敏感なフィルタを利用する, 等価類似性探索のためのデータ構造も開発した。 この論文は、NNデータ構造の本質的な不公平さを強調し、現実世界のデータセットに対するアルゴリズムのパフォーマンスを示す実験的評価で締めくくられる。

Similarity search is a fundamental algorithmic primitive, widely used in many computer science disciplines. Given a set of points $S$ and a radius parameter $r>0$, the $r$-near neighbor ($r$-NN) problem asks for a data structure that, given any query point $q$, returns a point $p$ within distance at most $r$ from $q$. In this paper, we study the $r$-NN problem in the light of individual fairness and providing equal opportunities: all points that are within distance $r$ from the query should have the same probability to be returned. In the low-dimensional case, this problem was first studied by Hu, Qiao, and Tao (PODS 2014). Locality sensitive hashing (LSH), the theoretically strongest approach to similarity search in high dimensions, does not provide such a fairness guarantee. In this work, we show that LSH based algorithms can be made fair, without a significant loss in efficiency. We propose several efficient data structures for the exact and approximate variants of the fair NN problem. Our approach works more generally for sampling uniformly from a sub-collection of sets of a given collection and can be used in a few other applications. We also develop a data structure for fair similarity search under inner product that requires nearly-linear space and exploits locality sensitive filters. The paper concludes with an experimental evaluation that highlights the inherent unfairness of NN data structures and shows the performance of our algorithms on real-world datasets.
翻訳日:2021-03-13 19:34:38 公開日:2021-01-26
# 畳み込みニューラルネットワークによるtessフルフレーム画像光曲線の惑星通過候補の同定

Identifying Planetary Transit Candidates in TESS Full-Frame Image Light Curves via Convolutional Neural Networks ( http://arxiv.org/abs/2101.10919v1 )

ライセンス: Link先を確認
Greg Olmschenk, Stela Ishitani Silva, Gioia Rau, Richard K. Barry, Ethan Kruse, Luca Cacciapuoti, Veselin Kostov, Brian P. Powell, Edward Wyrwas, Jeremy D. Schnittman, Thomas Barclay(参考訳) トランジット太陽系外惑星探査衛星(TESS)は、2年間の主ミッションを通して、天空から75%の恒星の光を観測し、トランジット系外惑星の探索で分析するために、数百万のTESS30分間のケイデンス光曲線を導いた。 この膨大なデータをトランジット信号として探索するために,計算効率が高く,高い性能の予測を行うアプローチを提案する。 このアプローチは、必要な人間の探索作業を最小化する。 本稿では,惑星通過信号の同定と偽陽性の除去を訓練する畳み込みニューラルネットワークを提案する。 所定の光度曲線の予測を行うためには,他の手法を用いて事前の遷移パラメータを同定する必要がなくなる。 私たちのネットワークは、ttess 30分周期の光曲線を単一のgpu上で約5msで推論し、大規模なアーカイブ検索を可能にします。 我々は、我々のネットワークによって特定された181個の新しい惑星候補を提示する。 私たちのニューラルネットワークモデルは、パブリック使用と拡張のためのオープンソースコードとして提供されています。

The Transiting Exoplanet Survey Satellite (TESS) mission measured light from stars in ~75% of the sky throughout its two year primary mission, resulting in millions of TESS 30-minute cadence light curves to analyze in the search for transiting exoplanets. To search this vast data trove for transit signals, we aim to provide an approach that is both computationally efficient and produces highly performant predictions. This approach minimizes the required human search effort. We present a convolutional neural network, which we train to identify planetary transit signals and dismiss false positives. To make a prediction for a given light curve, our network requires no prior transit parameters identified using other methods. Our network performs inference on a TESS 30-minute cadence light curve in ~5ms on a single GPU, enabling large scale archival searches. We present 181 new planet candidates identified by our network, which pass subsequent human vetting designed to rule out false positives. Our neural network model is additionally provided as open-source code for public use and extension.
翻訳日:2021-03-13 19:34:10 公開日:2021-01-26
# ポリアジカル分解によるテンソル完備のための新しいリーマン条件付きアルゴリズム

New Riemannian preconditioned algorithms for tensor completion via polyadic decomposition ( http://arxiv.org/abs/2101.11108v1 )

ライセンス: Link先を確認
Shuyu Dong, Bin Gao, Yu Guan, Fran\c{c}ois Glineur(参考訳) テンソルのポリアジカル分解による低ランクテンソル完成のための新しいリーマン条件付きアルゴリズムを提案する。 これらのアルゴリズムは、ポリアジック分解形態におけるローランクテンソルの因子行列の積空間上の非ユークリッド計量を利用する。 この新しいメトリックは、テンソル完了コスト関数のヘッシアンの対角ブロックの近似を使用して設計されており、これらのアルゴリズムに事前調節効果を有する。 提案されたリーマン勾配降下アルゴリズムは、$L{}$ojasiewiczプロパティを使用して収束率推定を行い、テンソル完備問題の定常点にグローバルに収束することを証明する。 合成データと実世界のデータの数値計算結果から,提案アルゴリズムは最先端アルゴリズムよりもメモリと時間において効率的であることが示唆された。 さらに,提案アルゴリズムはテンソル回収性能において,過度に推定されたランクパラメータに対する耐性が向上し,ランクパラメータの柔軟な選択が可能となった。

We propose new Riemannian preconditioned algorithms for low-rank tensor completion via the polyadic decomposition of a tensor. These algorithms exploit a non-Euclidean metric on the product space of the factor matrices of the low-rank tensor in the polyadic decomposition form. This new metric is designed using an approximation of the diagonal blocks of the Hessian of the tensor completion cost function, thus has a preconditioning effect on these algorithms. We prove that the proposed Riemannian gradient descent algorithm globally converges to a stationary point of the tensor completion problem, with convergence rate estimates using the $\L{}$ojasiewicz property. Numerical results on synthetic and real-world data suggest that the proposed algorithms are more efficient in memory and time compared to state-of-the-art algorithms. Moreover, the proposed algorithms display a greater tolerance for overestimated rank parameters in terms of the tensor recovery performance, thus enable a flexible choice of the rank parameter.
翻訳日:2021-03-13 19:33:49 公開日:2021-01-26
# 繰り返しin vivoデータを用いた深層学習による単一ボクセル磁気共鳴分光法

Denoising Single Voxel Magnetic Resonance Spectroscopy with Deep Learning on Repeatedly Sampled In Vivo Data ( http://arxiv.org/abs/2101.11442v1 )

ライセンス: Link先を確認
Wanqi Hu, Dicheng Chen, Tianyu Qiu, Hao Chen, Xi Chen, Lin Yang, Gen Yan, Di Guo, Xiaobo Qu(参考訳) 目的:磁気共鳴分光法(MRS)は代謝情報を明らかにする非侵襲的なツールである。 MRSの課題の1つは、代謝産物の低濃度による比較的低い信号ノイズ比(SNR)である。 SNRを改善するために、最も一般的なアプローチは、複数回取得される平均信号である。 しかし、データ取得時間はそれに応じて複数回増加し、スキャンされたオブジェクトは不快または耐え難くなります。 方法: 複数のサンプルデータを調べることにより,低snr信号から高snr信号へのマッピングを学ぶために,deep learning denoising法が提案されている。 結果: シミュレーションおよび生体内データから, 提案手法は代謝精度を損なうことなくデータ取得時間を著しく短縮することが示された。 結論: 信号の精度と信頼性を維持しながら、データ取得時間を大幅に短縮するディープラーニングデノイジング方法を提案しました。 重要:MRSの基本的な低SNR問題の解決策を人工知能で提供します。

Objective: Magnetic Resonance Spectroscopy (MRS) is a noninvasive tool to reveal metabolic information. One challenge of MRS is the relatively low Signal-Noise Ratio (SNR) due to low concentrations of metabolites. To improve the SNR, the most common approach is to average signals that are acquired in multiple times. The data acquisition time, however, is increased by multiple times accordingly, resulting in the scanned objects uncomfortable or even unbearable. Methods: By exploring the multiple sampled data, a deep learning denoising approach is proposed to learn a mapping from the low SNR signal to the high SNR one. Results: Results on simulated and in vivo data show that the proposed method significantly reduces the data acquisition time with slightly compromised metabolic accuracy. Conclusion: A deep learning denoising method was proposed to significantly shorten the time of data acquisition, while maintaining signal accuracy and reliability. Significance: Provide a solution of the fundamental low SNR problem in MRS with artificial intelligence.
翻訳日:2021-03-13 19:32:54 公開日:2021-01-26
# 映画トレーラーの老朽化率予測のための深層学習に基づくマルチモーダル手法の事例研究

A Case Study of Deep Learning Based Multi-Modal Methods for Predicting the Age-Suitability Rating of Movie Trailers ( http://arxiv.org/abs/2101.11704v1 )

ライセンス: Link先を確認
Mahsa Shafaei, Christos Smailis, Ioannis A. Kakadiaris, Thamar Solorio(参考訳) 本研究では,映画トレーラーの年齢適合性自動評価の問題に対して,モダリティを組み合わせるための様々なアプローチを検討する。 まず、IMDBとYouTubeからダウンロードされた英語の映画トレーラーのビデオを含む新しいデータセットと、それに対応する年齢適合性評価ラベルを紹介する。 次に,映画トレーラーの年齢適合性評価問題に対するマルチモーダル深層学習パイプラインを提案する。 この問題に対するビデオ,音声,音声情報を組み合わせた最初の試みであり,実験結果から,マルチモーダルアプローチは,このタスクにおいて最高のモノモーダルモデル,バイモーダルモデルよりも優れていることが示された。

In this work, we explore different approaches to combine modalities for the problem of automated age-suitability rating of movie trailers. First, we introduce a new dataset containing videos of movie trailers in English downloaded from IMDB and YouTube, along with their corresponding age-suitability rating labels. Secondly, we propose a multi-modal deep learning pipeline addressing the movie trailer age suitability rating problem. This is the first attempt to combine video, audio, and speech information for this problem, and our experimental results show that multi-modal approaches significantly outperform the best mono and bimodal models in this task.
翻訳日:2021-03-13 19:31:03 公開日:2021-01-26