このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200807となっている論文です。

PDF登録状況(公開日: 20200807)

TitleAuthorsAbstract論文公表日・翻訳日
# 分散システムにおける高速フーリエフォアキャスティングリソース活用

Fast-Fourier-Forecasting Resource Utilisation in Distributed Systems ( http://arxiv.org/abs/2001.04281v3 )

ライセンス: Link先を確認
Paul J. Pritz and Daniel Perez and Kin K. Leung(参考訳) 分散コンピューティングシステムはしばしば数百のノードで構成され、異なるリソース要求でタスクを実行する。 このようなシステムにおける効率的なリソース供給とタスクスケジューリングは簡単ではなく、システムの状態の厳密な監視と正確な予測を必要とする。 2つの課題がこれらの目標に向かって現れます。 まず、監視データの収集にはかなりの通信オーバーヘッドが伴う。 このオーバーヘッドは、特に帯域幅が限られているネットワークでは、禁止的に高い。 第二に、資源利用予測のための予測モデルは正確で、高い推論速度を示す必要がある。 ミッションクリティカルなスケジューリングとリソース割り当てアルゴリズムはこれらの予測を使い、その即時可用性に依存している。 最初の課題に対処するため,通信効率のよいデータ収集機構を提案する。 リソース利用データはシステム内の個々のマシンで収集され、バッチで中央コントローラに送信される。 各バッチは、周波数領域におけるフーリエ変換と切断に基づく適応データ還元アルゴリズムによって処理される。 提案手法は,誤りの最小化と精度保証の遵守のみを伴いながら,通信オーバーヘッドの大幅な低減につながることを示す。 第2の課題に対処するために,複雑なGated Recurrent Unitを用いたディープラーニングアーキテクチャを提案する。 このアーキテクチャは上記のデータ収集機構と直接統合され、予測モデルの推論速度が向上します。 実世界の2つのデータセットを用いて、精度予測と推論速度の両面で、我々のアプローチの有効性を実証する。 提案手法は,資源供給フレームワークで発生する課題を解決し,他の予測問題に適用できる。

Distributed computing systems often consist of hundreds of nodes, executing tasks with different resource requirements. Efficient resource provisioning and task scheduling in such systems are non-trivial and require close monitoring and accurate forecasting of the state of the system, specifically resource utilisation at its constituent machines. Two challenges present themselves towards these objectives. First, collecting monitoring data entails substantial communication overhead. This overhead can be prohibitively high, especially in networks where bandwidth is limited. Second, forecasting models to predict resource utilisation should be accurate and need to exhibit high inference speed. Mission critical scheduling and resource allocation algorithms use these predictions and rely on their immediate availability. To address the first challenge, we present a communication-efficient data collection mechanism. Resource utilisation data is collected at the individual machines in the system and transmitted to a central controller in batches. Each batch is processed by an adaptive data-reduction algorithm based on Fourier transforms and truncation in the frequency domain. We show that the proposed mechanism leads to a significant reduction in communication overhead while incurring only minimal error and adhering to accuracy guarantees. To address the second challenge, we propose a deep learning architecture using complex Gated Recurrent Units to forecast resource utilisation. This architecture is directly integrated with the above data collection mechanism to improve inference speed of our forecasting model. Using two real-world datasets, we demonstrate the effectiveness of our approach, both in terms of forecasting accuracy and inference speed. Our approach resolves challenges encountered in resource provisioning frameworks and can be applied to other forecasting problems.
翻訳日:2023-01-11 23:50:07 公開日:2020-08-07
# CodedとColuding Serverからの量子プライベート情報検索

Quantum Private Information Retrieval from Coded and Colluding Servers ( http://arxiv.org/abs/2001.05883v3 )

ライセンス: Link先を確認
Matteo Allaix, Lukas Holzbaur, Tefjol Pllaha, Camilla Hollanti(参考訳) 従来のプライベート情報検索(PIR)設定では、ユーザは、データベースや分散ストレージシステム(DSS)から、データを保持しているサーバにファイルのIDを明らかにすることなく、ファイルを検索したい。 量子PIR(QPIR)設定では、ユーザーはサーバから量子情報を受信して古典的なファイルをプライベートに検索する。 QPIR問題はSong \emph{et alによって扱われている。 複製されたサーバの場合、共謀なく、そして1つのサーバ以外が共謀する。 本稿では,QPIR設定を最大距離分離可能(MDS)符号化サーバのために拡張する。 提案されたプロトコルは、$[n,k]$-MDSコードと$t=n-k$の$t$-collusionで機能する。 以前のケースと同様に、達成された率は古典的なケースで知られているまたは予想されるものよりも優れている。 さらに、このプロトコルは、局所的な修復可能コード(LRC)で符号化されたDSSから、それぞれがMDSコードである不整合修復グループで、より高い検索率を達成するために、どのように適応できるかを示す。

In the classical private information retrieval (PIR) setup, a user wants to retrieve a file from a database or a distributed storage system (DSS) without revealing the file identity to the servers holding the data. In the quantum PIR (QPIR) setting, a user privately retrieves a classical file by receiving quantum information from the servers. The QPIR problem has been treated by Song \emph{et al.} in the case of replicated servers, both without collusion and with all but one servers colluding. In this paper, the QPIR setting is extended to account for maximum distance separable (MDS) coded servers. The proposed protocol works for any $[n,k]$-MDS code and $t$-collusion with $t=n-k$. Similarly to the previous cases, the rates achieved are better than those known or conjectured in the classical counterparts. Further, it is demonstrated how the protocol can adapted to achieve significantly higher retrieval rates from DSSs encoded with a locally repairable code (LRC) with disjoint repair groups, each of which is an MDS code.
翻訳日:2023-01-11 01:13:05 公開日:2020-08-07
# トレーニング可能なアクティベーションと制御リプシッツ定数を持つディープニューラルネットワーク

Deep Neural Networks with Trainable Activations and Controlled Lipschitz Constant ( http://arxiv.org/abs/2001.06263v2 )

ライセンス: Link先を確認
Shayan Aziznejad, Harshit Gupta, Joaquim Campos, Michael Unser(参考訳) 本稿では,深層ニューラルネットワークの活性化関数を学習するための変分フレームワークを提案する。 我々の目的は、入力-出力関係の実際のリプシッツ定数の上界を制御しながら、ネットワークの容量を増加させることである。 そこで我々はまず,ニューラルネットワークのリプシッツ定数に対する大域的な境界を確立する。 得られた境界に基づいて、アクティベーション関数を学習するための変分問題を定式化する。 我々の変分問題は無限次元であり、計算はできない。 しかし、連続かつ分割線形(線形-スプライン)活性化を持つ解が常に存在することが証明される。 これにより、元の問題を有限次元の最小化に還元し、活性化のパラメータのl1ペナルティがスパース非線形性の学習を好む。 提案手法を標準ReLUネットワークとそのバリエーションであるPRELUとLeakyReLUと比較し,本フレームワークの実践的側面を実証的に示す。

We introduce a variational framework to learn the activation functions of deep neural networks. Our aim is to increase the capacity of the network while controlling an upper-bound of the actual Lipschitz constant of the input-output relation. To that end, we first establish a global bound for the Lipschitz constant of neural networks. Based on the obtained bound, we then formulate a variational problem for learning activation functions. Our variational problem is infinite-dimensional and is not computationally tractable. However, we prove that there always exists a solution that has continuous and piecewise-linear (linear-spline) activations. This reduces the original problem to a finite-dimensional minimization where an l1 penalty on the parameters of the activations favors the learning of sparse nonlinearities. We numerically compare our scheme with standard ReLU network and its variations, PReLU and LeakyReLU and we empirically demonstrate the practical aspects of our framework.
翻訳日:2023-01-10 09:59:55 公開日:2020-08-07
# MGCN:マルチスケールGCNを用いた記述子学習

MGCN: Descriptor Learning using Multiscale GCNs ( http://arxiv.org/abs/2001.10472v3 )

ライセンス: Link先を確認
Yiqun Wang, Jing Ren, Dong-Ming Yan, Jianwei Guo, Xiaopeng Zhang, Peter Wonka(参考訳) 三次元曲面上の点を特徴付けるディスクリプタを計算するための新しいフレームワークを提案する。 まず、グラフウェーブレットを用いて表面上のディリクレエネルギーを分解する新しい非学習的特徴を示す。 我々はこの特徴をウェーブレットエネルギー分解署名 (WEDS) と呼ぶ。 次に,非学習特徴を識別的記述子に変換するための多スケールグラフ畳み込みネットワーク(mgcn)を提案する。 その結果,新しい記述子WEDSは最先端の非学習記述子よりも差別的であり,WEDSとMGCNの組み合わせは最先端の学習記述子より優れていることがわかった。 我々のディスクリプタの重要な設計基準は、頂点数の異なる三角測量を含む異なる表面離散化に対するロバスト性である。 以上の結果から,従来のグラフ畳み込みネットワークは,特定の解像度や,あるいは特定の三角測量に大きく適合することが示された。 さらに、MGCNは以前のディスクリプタと互換性があり、ヒートカーネルシグネチャ、ウェーブカーネルシグネチャ、ローカルポイントシグネチャなどの他のディスクリプタの性能向上にも利用できる。

We propose a novel framework for computing descriptors for characterizing points on three-dimensional surfaces. First, we present a new non-learned feature that uses graph wavelets to decompose the Dirichlet energy on a surface. We call this new feature wavelet energy decomposition signature (WEDS). Second, we propose a new multiscale graph convolutional network (MGCN) to transform a non-learned feature to a more discriminative descriptor. Our results show that the new descriptor WEDS is more discriminative than the current state-of-the-art non-learned descriptors and that the combination of WEDS and MGCN is better than the state-of-the-art learned descriptors. An important design criterion for our descriptor is the robustness to different surface discretizations including triangulations with varying numbers of vertices. Our results demonstrate that previous graph convolutional networks significantly overfit to a particular resolution or even a particular triangulation, but MGCN generalizes well to different surface discretizations. In addition, MGCN is compatible with previous descriptors and it can also be used to improve the performance of other descriptors, such as the heat kernel signature, the wave kernel signature, or the local point signature.
翻訳日:2023-01-06 02:51:54 公開日:2020-08-07
# レベル3合成フィンガープリント生成

Level Three Synthetic Fingerprint Generation ( http://arxiv.org/abs/2002.03809v3 )

ライセンス: Link先を確認
Andr\'e Brasil Vieira Wyzykowski, Mauricio Pamplona Segundo, Rubisley de Paula Lemes(参考訳) 生体認証データのプライバシーを守る今日の法的規制は、指紋認証の研究を妨げる。 例えば、高解像度の指紋データベースはすべて公開されなくなった。 そこで本研究では,高分解能のリアル指紋を合成する新しいハイブリッド手法を提案する。 まず,手作り指紋生成装置であるanguliの改良を行い,汗孔や傷のある動的リッジマップを得た。 そして、これらの地図をリアルな指紋に変換するために、サイクガンを訓練しました。 他のCNNベースの作品とは異なり、同一のIDに対して複数の画像を生成することができる。 我々は,本手法を用いて7400画像からなる合成データベースを作成し,法的な問題を提起することなく,この分野のさらなる研究を促進することを試みた。 汗孔アノテーションを740枚の画像に含め,毛孔検出研究を奨励した。 実験では,2つの指紋マッチング手法を用いて,実データベースと合成データベースの類似性能を確認した。 実際の指紋と合成指紋とでは60名の被験者の区別がほとんどなかった。 私たちの研究成果と文学における最先端の成果を好意的に比較した結果から,我々のアプローチは最先端の新たな手法であることが示唆された。

Today's legal restrictions that protect the privacy of biometric data are hampering fingerprint recognition researches. For instance, all high-resolution fingerprint databases ceased to be publicly available. To address this problem, we present a novel hybrid approach to synthesize realistic, high-resolution fingerprints. First, we improved Anguli, a handcrafted fingerprint generator, to obtain dynamic ridge maps with sweat pores and scratches. Then, we trained a CycleGAN to transform these maps into realistic fingerprints. Unlike other CNN-based works, we can generate several images for the same identity. We used our approach to create a synthetic database with 7400 images in an attempt to propel further studies in this field without raising legal issues. We included sweat pore annotations in 740 images to encourage research developments in pore detection. In our experiments, we employed two fingerprint matching approaches to confirm that real and synthetic databases have similar performance. We conducted a human perception analysis where sixty volunteers could hardly differ between real and synthesized fingerprints. Given that we also favorably compare our results with the most advanced works in the literature, our experimentation suggests that our approach is the new state-of-the-art.
翻訳日:2023-01-03 21:12:17 公開日:2020-08-07
# 回帰問題に対するロバストブースティング

Robust Boosting for Regression Problems ( http://arxiv.org/abs/2002.02054v2 )

ライセンス: Link先を確認
Xiaomeng Ju, Mat\'ias Salibi\'an-Barrera(参考訳) 勾配ブースティングアルゴリズムは ``base learners'' の線形結合を用いて回帰予測器を構築する。 Boostingはまた、多くの説明変数を持つアプリケーションにスケーラブルな堅牢な非パラメトリック回帰推定器を得るためのアプローチを提供する。 ロバストなブースティングアルゴリズムは、2段階のアプローチに基づいており、ロバストな線形回帰に類似している: まず、ロバストな残留スケール推定器を最小化し、次に、有界損失関数を最適化することで改善する。 従来の堅牢なブースティング提案とは異なり、このアプローチではブースティングの各イテレーションでアドホックな残留スケール推定器を計算する必要はない。 この頑健なブースティングアルゴリズムに関わる損失関数は典型的には非凸であるため、L1回帰木のような高速で計算できる信頼できる初期化ステップが必要である。 頑健な変数重要度尺度は置換手順によっても計算できる。 徹底的なシミュレーション研究といくつかのデータ分析により、非定型的な観測が存在しない場合、ロバストなブースティングアプローチは標準勾配ブースティングと同様に二乗損失を伴う。 さらに、データが外れ値を含む場合、ロバストなブースティング推定器は、予測誤差と可変選択精度で代替値より優れている。

Gradient boosting algorithms construct a regression predictor using a linear combination of ``base learners''. Boosting also offers an approach to obtaining robust non-parametric regression estimators that are scalable to applications with many explanatory variables. The robust boosting algorithm is based on a two-stage approach, similar to what is done for robust linear regression: it first minimizes a robust residual scale estimator, and then improves it by optimizing a bounded loss function. Unlike previous robust boosting proposals this approach does not require computing an ad-hoc residual scale estimator in each boosting iteration. Since the loss functions involved in this robust boosting algorithm are typically non-convex, a reliable initialization step is required, such as an L1 regression tree, which is also fast to compute. A robust variable importance measure can also be calculated via a permutation procedure. Thorough simulation studies and several data analyses show that, when no atypical observations are present, the robust boosting approach works as well as the standard gradient boosting with a squared loss. Furthermore, when the data contain outliers, the robust boosting estimator outperforms the alternatives in terms of prediction error and variable selection accuracy.
翻訳日:2023-01-03 13:07:06 公開日:2020-08-07
# Riemannian Brownian Motion Priors を用いた変分オートエンコーダ

Variational Autoencoders with Riemannian Brownian Motion Priors ( http://arxiv.org/abs/2002.05227v3 )

ライセンス: Link先を確認
Dimitris Kalatzis, David Eklund, Georgios Arvanitidis, S{\o}ren Hauberg(参考訳) 変分オートエンコーダ(VAE)は、一般にユークリッドであると仮定される低次元潜在空間における与えられたデータを表す。 この仮定は自然に連続潜在変数よりも標準ガウス事前の共通選択につながる。 しかし,近年の研究では,モデルキャパシティが低下し,サブパー性能が低下することが示されている。 我々は、ユークリッドの仮定がこの障害モードの中心にあることを示唆する。 これに対応するために、より原理化された潜在符号の幾何学的ビューを構成する潜在空間上のリーマン構造を仮定し、それ以前の標準ガウス構造をリーマンブラウン運動に置き換える。 本稿では、この前の未知の正規化因子に依存しない効率的な推論手法を提案する。 最後に,1つのスカラーパラメータのみを用いることで,モデルキャパシティが大幅に向上することが実証された。

Variational Autoencoders (VAEs) represent the given data in a low-dimensional latent space, which is generally assumed to be Euclidean. This assumption naturally leads to the common choice of a standard Gaussian prior over continuous latent variables. Recent work has, however, shown that this prior has a detrimental effect on model capacity, leading to subpar performance. We propose that the Euclidean assumption lies at the heart of this failure mode. To counter this, we assume a Riemannian structure over the latent space, which constitutes a more principled geometric view of the latent codes, and replace the standard Gaussian prior with a Riemannian Brownian motion prior. We propose an efficient inference scheme that does not rely on the unknown normalizing factor of this prior. Finally, we demonstrate that this prior significantly increases model capacity using only one additional scalar parameter.
翻訳日:2023-01-01 19:29:39 公開日:2020-08-07
# グラディエントフローの保存によるトレーニング前のピッキングティケット

Picking Winning Tickets Before Training by Preserving Gradient Flow ( http://arxiv.org/abs/2002.07376v2 )

ライセンス: Link先を確認
Chaoqi Wang, Guodong Zhang, Roger Grosse(参考訳) 過パラメータ化はニューラルネットワークの最適化と一般化の両方にメリットがあることが示されているが、大規模ネットワークはトレーニングとテスト時間の両方でリソースが不足している。 ネットワークプルーニングは、テスト時間リソースの要求を低減できるが、訓練されたネットワークに適用されるため、高価なトレーニングプロセスを回避することはできない。 ネットワークを初期化して、トレーニング時にリソースを節約することを目指しています。 具体的には、効率的なトレーニングにはネットワーク内の勾配流の保存が必要であると論じる。 これにより、Gradient Signal Preservation (GraSP) と呼ばれる単純だが効果的なプルーニング基準が導かれる。 VGGNetとResNetアーキテクチャを用いて,CIFAR-10,CIFAR-100,Tiny-ImageNet,ImageNetにおいて提案手法の有効性を実験的に検討した。 本手法では初期化時のvgg-16ネットワークの重量の80%を削減でき,top-1の精度は1.6%低下する。 さらに,本手法は,極端間隔レベルにおけるベースラインよりも高い性能を実現する。

Overparameterization has been shown to benefit both the optimization and generalization of neural networks, but large networks are resource hungry at both training and test time. Network pruning can reduce test-time resource requirements, but is typically applied to trained networks and therefore cannot avoid the expensive training process. We aim to prune networks at initialization, thereby saving resources at training time as well. Specifically, we argue that efficient training requires preserving the gradient flow through the network. This leads to a simple but effective pruning criterion we term Gradient Signal Preservation (GraSP). We empirically investigate the effectiveness of the proposed method with extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet, using VGGNet and ResNet architectures. Our method can prune 80% of the weights of a VGG-16 network on ImageNet at initialization, with only a 1.6% drop in top-1 accuracy. Moreover, our method achieves significantly better performance than the baseline at extreme sparsity levels.
翻訳日:2022-12-30 18:56:50 公開日:2020-08-07
# 核流を伴うニューラルネットワークの内部層の深部正規化と直接学習

Deep regularization and direct training of the inner layers of Neural Networks with Kernel Flows ( http://arxiv.org/abs/2002.08335v2 )

ライセンス: Link先を確認
Gene Ryan Yoo and Houman Owhadi(参考訳) 本稿では,Kernel Flows(KFs)に基づくニューラルネットワーク(ANNs)の新しい正規化手法を提案する。 KFは、データセットのランダムバッチにおける補間点数を半分にすることで得られた精度損失の最小化に基づいて、回帰/クリギングにおけるカーネルの選択方法として導入された。 f_\theta(x) = \big(f^{(n)}_{\theta_n}\circ f^{(n-1)}_{\theta_{n-1}} \circ \dots \circ f^{(1)}_{\theta_1}\big(x)$をANNの構成構造の関数表現として書くと、内部層は$h^{(i)}(x) = \big(f^{(i)_{\theta_i}\circ f^{(i-1)}_{\theta_{i-1}} \circ \dots \circ f^{(1)}_{\theta_1}\big(x)$を出力する。 データセットのバッチと組み合わせると、これらのカーネルはKF損失$e_2^{(i)}$(バッチのランダムな半分を使って残りの半分を予測する$L^2$の回帰エラー)を内部層$\theta_1,\ldots,\theta_i$(および$\gamma_i$)のパラメータによって生成する。 提案手法は,これらのkf損失のサブセットを古典的出力損失で集約するものである。 提案手法は,構造や出力分類器を変更せずにcnnとwrnでテストし,テスト誤差の低減,一般化ギャップの低減,分散シフトに対するロバスト性の向上を,計算量の増加を伴わずに検証した。 これらの結果は、従来のトレーニングではデータセットで定義された経験的分布の線形汎関数(一般化されたモーメント)のみを使用しており、(過剰パラメータ化の下で)神経接核系にトラップしやすいという事実によって説明される可能性があるが、提案された損失関数(経験的分布の非線形汎関数として定義される)は、cnnが定義する基礎となるカーネルを、そのカーネルでリグレッシブする余地なく効果的に訓練する。

We introduce a new regularization method for Artificial Neural Networks (ANNs) based on Kernel Flows (KFs). KFs were introduced as a method for kernel selection in regression/kriging based on the minimization of the loss of accuracy incurred by halving the number of interpolation points in random batches of the dataset. Writing $f_\theta(x) = \big(f^{(n)}_{\theta_n}\circ f^{(n-1)}_{\theta_{n-1}} \circ \dots \circ f^{(1)}_{\theta_1}\big)(x)$ for the functional representation of compositional structure of the ANN, the inner layers outputs $h^{(i)}(x) = \big(f^{(i)}_{\theta_i}\circ f^{(i-1)}_{\theta_{i-1}} \circ \dots \circ f^{(1)}_{\theta_1}\big)(x)$ define a hierarchy of feature maps and kernels $k^{(i)}(x,x')=\exp(- \gamma_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)$. When combined with a batch of the dataset these kernels produce KF losses $e_2^{(i)}$ (the $L^2$ regression error incurred by using a random half of the batch to predict the other half) depending on parameters of inner layers $\theta_1,\ldots,\theta_i$ (and $\gamma_i$). The proposed method simply consists in aggregating a subset of these KF losses with a classical output loss. We test the proposed method on CNNs and WRNs without alteration of structure nor output classifier and report reduced test errors, decreased generalization gaps, and increased robustness to distribution shift without significant increase in computational complexity. We suspect that these results might be explained by the fact that while conventional training only employs a linear functional (a generalized moment) of the empirical distribution defined by the dataset and can be prone to trapping in the Neural Tangent Kernel regime (under over-parameterizations), the proposed loss function (defined as a nonlinear functional of the empirical distribution) effectively trains the underlying kernel defined by the CNN beyond regressing the data with that kernel.
翻訳日:2022-12-30 13:19:16 公開日:2020-08-07
# 確率的潜在残差映像予測

Stochastic Latent Residual Video Prediction ( http://arxiv.org/abs/2002.09219v4 )

ライセンス: Link先を確認
Jean-Yves Franceschi (MLIA), Edouard Delasalles (MLIA), Micka\"el Chen (MLIA), Sylvain Lamprier (MLIA), Patrick Gallinari (MLIA)(参考訳) 将来の不確実性を考慮したビデオ予測モデルの設計は困難である。 文献におけるほとんどの研究は確率的イメージ自己回帰リカレントネットワークに基づいており、いくつかのパフォーマンスと適用性の問題を引き起こす。 別の方法は、フレーム合成と時間力学を解き放つ完全な潜時モデルを使用することである。 しかし,このような確率的映像予測モデルは,設計や訓練の困難さから,文献にはまだ提案されていない。 本稿では, 残差更新規則によって潜在空間にダイナミクスが支配される新しい確率的時間モデルを導入することで, これらの困難を克服する。 この一階スキームは微分方程式の離散化スキームによって動機付けられる。 ビデオのダイナミックスを自然にモデル化し、よりシンプルで解釈しやすく、潜在的なモデルによって、挑戦的なデータセットに関する最先端の手法を上回ります。

Designing video prediction models that account for the inherent uncertainty of the future is challenging. Most works in the literature are based on stochastic image-autoregressive recurrent networks, which raises several performance and applicability issues. An alternative is to use fully latent temporal models which untie frame synthesis and temporal dynamics. However, no such model for stochastic video prediction has been proposed in the literature yet, due to design and training difficulties. In this paper, we overcome these difficulties by introducing a novel stochastic temporal model whose dynamics are governed in a latent space by a residual update rule. This first-order scheme is motivated by discretization schemes of differential equations. It naturally models video dynamics as it allows our simpler, more interpretable, latent model to outperform prior state-of-the-art methods on challenging datasets.
翻訳日:2022-12-30 00:15:00 公開日:2020-08-07
# KeypointNet: 多数のアノテーションから集約された大規模3Dキーポイントデータセット

KeypointNet: A Large-scale 3D Keypoint Dataset Aggregated from Numerous Human Annotations ( http://arxiv.org/abs/2002.12687v6 )

ライセンス: Link先を確認
Yang You, Yujing Lou, Chengkun Li, Zhoujun Cheng, Liangwei Li, Lizhuang Ma, Weiming Wang, Cewu Lu(参考訳) 3dオブジェクトの検出 キーポイントは、グラフィックスとコンピュータビジョンの両方の領域で非常に興味があります。 データ駆動方式でこの問題に対処するための2Dおよび3Dキーポイントデータセットがいくつか存在する。 しかし、これらのデータセットはスケーラビリティを欠いているか、キーポイントの定義にあいまいさをもたらす。 そこで我々は,16のオブジェクトカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含む,最初の大規模かつ多様な3DキーポイントデータセットであるKeypointNetを提案する。 異なる人物のアノテーション間の不整合に対処するため,これらのキーポイントを自動的に集約し,忠実度損失を最小限に抑える手法を提案する。 最後に、提案したデータセットに10の最先端手法をベンチマークする。 私たちのコードとデータはhttps://github.com/qq456cvb/keypointnetで入手できます。

Detecting 3D objects keypoints is of great interest to the areas of both graphics and computer vision. There have been several 2D and 3D keypoint datasets aiming to address this problem in a data-driven way. These datasets, however, either lack scalability or bring ambiguity to the definition of keypoints. Therefore, we present KeypointNet: the first large-scale and diverse 3D keypoint dataset that contains 103,450 keypoints and 8,234 3D models from 16 object categories, by leveraging numerous human annotations. To handle the inconsistency between annotations from different people, we propose a novel method to aggregate these keypoints automatically, through minimization of a fidelity loss. Finally, ten state-of-the-art methods are benchmarked on our proposed dataset. Our code and data are available on https://github.com/qq456cvb/KeypointNet.
翻訳日:2022-12-28 02:32:09 公開日:2020-08-07
# Karate Club: グラフの教師なし学習のためのAPI指向のオープンソースPythonフレームワーク

Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs ( http://arxiv.org/abs/2003.04819v3 )

ライセンス: Link先を確認
Benedek Rozemberczki, Oliver Kiss, Rik Sarkar(参考訳) 我々は、教師なし機械学習タスクを解くことができる30以上の最先端グラフマイニングアルゴリズムを組み合わせたPythonフレームワークKarate Clubを提案する。 このパッケージの主な目標は、コミュニティ検出、ノード、グラフ全体の埋め込みを、機械学習研究者や実践者の幅広い聴衆に利用できるようにすることである。 私たちは、一貫性のあるアプリケーションインターフェース、スケーラビリティ、使いやすさ、ボックスモデルの振る舞い、標準化されたデータセットの取り込み、アウトプット生成に重点を置いた空手クラブを設計しました。 本稿では,この枠組みの背景にある設計原則を実例で論じる。 空手部は,実世界のクラスタリング問題,分類課題の多岐にわたる課題において,学習性能の面での効率性を示し,その競争速度に関するエビデンスを裏付ける。

We present Karate Club a Python framework combining more than 30 state-of-the-art graph mining algorithms which can solve unsupervised machine learning tasks. The primary goal of the package is to make community detection, node and whole graph embedding available to a wide audience of machine learning researchers and practitioners. We designed Karate Club with an emphasis on a consistent application interface, scalability, ease of use, sensible out of the box model behaviour, standardized dataset ingestion, and output generation. This paper discusses the design principles behind this framework with practical examples. We show Karate Club's efficiency with respect to learning performance on a wide range of real world clustering problems, classification tasks and support evidence with regards to its competitive speed.
翻訳日:2022-12-24 20:54:32 公開日:2020-08-07
# エピトミック変動グラフオートエンコーダ

Epitomic Variational Graph Autoencoder ( http://arxiv.org/abs/2004.01468v3 )

ライセンス: Link先を確認
Rayyan Ahmad Khan, Muhammad Umer Anwaar and Martin Kleinsteuber(参考訳) 変分オートエンコーダ(VAE)は潜在表現の学習に広く用いられている生成モデルである。 バーダらは学術論文で、VAEの学習能力はオーバープルーニングによって制限されていることを示した。 これは、かなりの数の潜伏変数が入力データに関する情報を捕捉できず、対応する隠蔽ユニットが非アクティブになる現象である。 これは多様で解釈可能な潜在表現の学習に悪影響を及ぼす。 変分グラフオートエンコーダ(VGAE)は、グラフ構造化データに対してVAEを拡張するため、オーバープルーニング問題を継承する。 本稿では,モデルに基づくアプローチを採用し,グラフデータセットの生成的変動フレームワークであるEVGAEを提案し,オーバープルーニング問題を緩和し,VGAEの生成能力を向上する。 我々はEVGAEを,潜時空間を共有する潜時変数群であるエピトームと呼ばれる複数のスパースVGAEモデルからなると考えている。 このアプローチは、エピトームがグラフデータのより良い表現を学ぶために競合するため、アクティブユニットの増加を支援する。 3つのベンチマークデータセットで実験を行い、クレームを検証する。 EVGAEはVGAEよりも優れた生成能を有することが示された。 さらに、evgaeは引用ネットワークにおけるリンク予測タスクにおいてvgaeよりも優れている。

Variational autoencoder (VAE) is a widely used generative model for learning latent representations. Burda et al. in their seminal paper showed that learning capacity of VAE is limited by over-pruning. It is a phenomenon where a significant number of latent variables fail to capture any information about the input data and the corresponding hidden units become inactive. This adversely affects learning diverse and interpretable latent representations. As variational graph autoencoder (VGAE) extends VAE for graph-structured data, it inherits the over-pruning problem. In this paper, we adopt a model based approach and propose epitomic VGAE (EVGAE),a generative variational framework for graph datasets which successfully mitigates the over-pruning problem and also boosts the generative ability of VGAE. We consider EVGAE to consist of multiple sparse VGAE models, called epitomes, that are groups of latent variables sharing the latent space. This approach aids in increasing active units as epitomes compete to learn better representation of the graph data. We verify our claims via experiments on three benchmark datasets. Our experiments show that EVGAE has a better generative ability than VGAE. Moreover, EVGAE outperforms VGAE on link prediction task in citation networks.
翻訳日:2022-12-17 03:51:31 公開日:2020-08-07
# 自己改善単分子SLAMのための擬似RGB-Dと深さ予測

Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction ( http://arxiv.org/abs/2004.10681v3 )

ライセンス: Link先を確認
Lokender Tiwari, Pan Ji, Quoc-Huy Tran, Bingbing Zhuang, Saket Anand, Manmohan Chandraker(参考訳) 古典的単眼同時測位・マッピング(slam)と最近出現した単眼深度予測のための畳み込みニューラルネットワーク(cnns)は、周囲環境の3dマップを構築するための2つの大きな非協力的アプローチを表している。 本稿では,これら2つの結合が,両者の強みを生かして互いの欠点を軽減できることを実証する。 具体的には、CNN予測深度を利用して擬似RGB-D特徴量ベースのSLAMを行い、単一のRGB SLAMベースラインよりも精度と堅牢性を向上する、狭狭広ベースラインによる自己改善フレームワークを提案する。 一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、深度予測ネットワークを改善するために提案された新しい広義のベースライン損失により、深度ネットワークに注入され、次のイテレーションでより良いポーズと3次元構造推定に寄与し続けている。 我々のフレームワークはトレーニング段階と推論段階の両方において、ラベルなしのモノクラービデオのみを必要とするが、最先端の自己監督型モノクラー・ステレオ深度予測ネットワーク(Monodepth2)や機能ベースのモノクラーSLAMシステム(ORB-SLAM)よりも優れている。 KITTIとTUM RGB-Dデータセットの大規模な実験は、我々の自己改善型幾何CNNフレームワークの優位性を検証する。

Classical monocular Simultaneous Localization And Mapping (SLAM) and the recently emerging convolutional neural networks (CNNs) for monocular depth prediction represent two largely disjoint approaches towards building a 3D map of the surrounding environment. In this paper, we demonstrate that the coupling of these two by leveraging the strengths of each mitigates the other's shortcomings. Specifically, we propose a joint narrow and wide baseline based self-improving framework, where on the one hand the CNN-predicted depth is leveraged to perform pseudo RGB-D feature-based SLAM, leading to better accuracy and robustness than the monocular RGB SLAM baseline. On the other hand, the bundle-adjusted 3D scene structures and camera poses from the more principled geometric SLAM are injected back into the depth network through novel wide baseline losses proposed for improving the depth prediction network, which then continues to contribute towards better pose and 3D structure estimation in the next iteration. We emphasize that our framework only requires unlabeled monocular videos in both training and inference stages, and yet is able to outperform state-of-the-art self-supervised monocular and stereo depth prediction networks (e.g, Monodepth2) and feature-based monocular SLAM system (i.e, ORB-SLAM). Extensive experiments on KITTI and TUM RGB-D datasets verify the superiority of our self-improving geometry-CNN framework.
翻訳日:2022-12-10 18:33:02 公開日:2020-08-07
# CHiME-6 Dinner Party 転写のための競合型エンドツーエンド音声認識に向けて

Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription ( http://arxiv.org/abs/2004.10799v3 )

ライセンス: Link先を確認
Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov(参考訳) エンドツーエンドのASRシステムは従来のハイブリッドアプローチと競合することが証明されているが、ノイズや低リソース状態の場合には精度の低下が生じる。 本稿では,このような困難な場合においても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 これを実証するために,chime-6チャレンジデータを用いて,日常音声の課題環境と騒音環境の例を示す。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer アーキテクチャの比較と解析を行った。 また、音響的特徴と音声の強化の比較も行う。 また,低リソース条件下での仮説再構成におけるニューラルネットワーク言語モデルの有効性を評価する。 rnn-transducerに基づく最良エンド・ツー・エンドモデルとビームサーチの改善により、品質は3.8%向上した。 LF-MMI TDNN-F CHiME-6 チャレンジのベースラインよりも悪い。 ガイドドソース分離に基づくトレーニングデータ拡張により、このアプローチはハイブリッドベースラインシステムよりも2.7%のWER abs性能が向上する。 エンド・ツー・エンドのシステムは25.7%のWERで知られている。

While end-to-end ASR systems have proven competitive with the conventional hybrid approach, they are prone to accuracy degradation when it comes to noisy and low-resource conditions. In this paper, we argue that, even in such difficult cases, some end-to-end approaches show performance close to the hybrid baseline. To demonstrate this, we use the CHiME-6 Challenge data as an example of challenging environments and noisy conditions of everyday speech. We experimentally compare and analyze CTC-Attention versus RNN-Transducer approaches along with RNN versus Transformer architectures. We also provide a comparison of acoustic features and speech enhancements. Besides, we evaluate the effectiveness of neural network language models for hypothesis re-scoring in low-resource conditions. Our best end-to-end model based on RNN-Transducer, together with improved beam search, reaches quality by only 3.8% WER abs. worse than the LF-MMI TDNN-F CHiME-6 Challenge baseline. With the Guided Source Separation based training data augmentation, this approach outperforms the hybrid baseline system by 2.7% WER abs. and the end-to-end system best known before by 25.7% WER abs.
翻訳日:2022-12-10 17:39:05 公開日:2020-08-07
# キュレーションとオープンwebソースに関する質問応答

Question Answering over Curated and Open Web Sources ( http://arxiv.org/abs/2004.11980v4 )

ライセンス: Link先を確認
Rishiraj Saha Roy, Avishek Anand(参考訳) ここ数年、情報検索、自然言語処理、人工知能のコミュニティにまたがる自動質問応答(QA)に関する研究が爆発的に増えている。 このチュートリアルでは、QAの本当に活発な成長期間のハイライトを取り上げ、現在使用されているアルゴリズムのファミリーを聴衆に理解してもらう。 我々は、知識グラフ、構造化されていないテキスト、ハイブリッドコーパスといった、回答が検索される場所から、基礎となる情報源によって研究のコントリビューションを分割する。 アルゴリズム設計に関して最も差別的であるため、この分割の次元を選択する。 他の重要な次元は各サブトピックの範囲内、例えば、対処される質問の複雑さや、システムに導入された説明可能性や相互作用の程度などである。 我々はこのチュートリアルを、QAの拡大において最も有望なトレンドで締めくくり、この分野への新たな参入者がコミュニティを前進させる最善の決断を下すのに役立つだろう。 SIGIR 2016の最後のQAチュートリアル以来、コミュニティでは多くの変化が見られています。

The last few years have seen an explosion of research on the topic of automated question answering (QA), spanning the communities of information retrieval, natural language processing, and artificial intelligence. This tutorial would cover the highlights of this really active period of growth for QA to give the audience a grasp over the families of algorithms that are currently being used. We partition research contributions by the underlying source from where answers are retrieved: curated knowledge graphs, unstructured text, or hybrid corpora. We choose this dimension of partitioning as it is the most discriminative when it comes to algorithm design. Other key dimensions are covered within each sub-topic: like the complexity of questions addressed, and degrees of explainability and interactivity introduced in the systems. We would conclude the tutorial with the most promising emerging trends in the expanse of QA, that would help new entrants into this field make the best decisions to take the community forward. Much has changed in the community since the last tutorial on QA in SIGIR 2016, and we believe that this timely overview will indeed benefit a large number of conference participants.
翻訳日:2022-12-10 04:01:23 公開日:2020-08-07
# 異なる信念がエージェントの判断に与える影響 -- 組織の組織的特性とエージェントの行動の相互作用をモデル化する洗練された認知アーキテクチャ

Impact of different belief facets on agents' decision -- a refined cognitive architecture to model the interaction between organisations' institutional characteristics and agents' behaviour ( http://arxiv.org/abs/2004.11858v2 )

ライセンス: Link先を確認
Amir Hosein Afshar Sedigh, Martin K. Purvis, Bastin Tony Roy Savarimuthu, Christopher K Frantz, and Maryam A. Purvis(参考訳) 本稿では,信念-愛着-意図(BDI)と計画行動論(TPB)モデルから着想を得たエージェント認知アーキテクチャの概念的洗練について述べる。 これにより、エージェントが内的信念や社会的制裁をエージェントの行動に重み付けする方法や性格の影響を調べることができる。 この研究はまた、機関の公平性に関連する認知的不協和概念を用いて、エージェントの行動を調査する。 このモデルを示すために、ニュー・ジュルファのアルメニア商人とイギリス東インド会社の2つの歴史的長距離貿易社会をシミュレートした。 その結果,機関ルールに従う上で,エージェントの内的信念の重要性が重要視された。

This paper presents a conceptual refinement of agent cognitive architecture inspired from the beliefs-desires-intentions (BDI) and the theory of planned behaviour (TPB) models, with an emphasis on different belief facets. This enables us to investigate the impact of personality and the way that an agent weights its internal beliefs and social sanctions on an agent's actions. The study also uses the concept of cognitive dissonance associated with the fairness of institutions to investigate the agents' behaviour. To showcase our model, we simulate two historical long-distance trading societies, namely Armenian merchants of New-Julfa and the English East India Company. The results demonstrate the importance of internal beliefs of agents as a pivotal aspect for following institutional rules.
翻訳日:2022-12-10 03:42:36 公開日:2020-08-07
# 問題指向医療記録構築のための知識ベース補完

Knowledge Base Completion for Constructing Problem-Oriented Medical Records ( http://arxiv.org/abs/2004.12905v2 )

ライセンス: Link先を確認
James Mullenbach, Jordan Swartz, T. Greg McKelvey, Hui Dai, David Sontag(参考訳) 電子健康記録と個人の健康記録は、典型的にはデータ型によって整理され、医学的問題、薬品、処置、検査結果がチャートの別々の領域で時系列的に並べられる。 その結果、ある医療問題に関する臨床質問に回答するためのすべての関連情報を見つけることが困難になる可能性がある。 有望な代替手段は、問題によって組織化することであり、関連する薬、手順、その他の関連する情報がすべてまとめられている。 ブキャナン(2017年)による最近の取り組みは、専門家のコンセンサス、11の医療問題、関連する研究室と医薬品を手作業で定義した。 そこで本研究では,電子健康記録に機械学習を応用し,その代わりに関連する医薬品,プロシージャ,検査などの問題に基づくグループ化を自動的に構築する方法を示す。 学習課題を知識ベース完了の1つとして定式化し,問題の集合を11から32に拡張するデータセットを注釈化する。 本研究では,事前学習された概念埋め込みと,大規模健康システムからの縦型データセットに含まれる概念に関連する利用データの両方を利用するモデルアーキテクチャを開発する。 我々は,本アルゴリズムが関連する薬剤,手順,検査を提案できる能力を評価し,本手法がトレーニング中に隠された問題に対しても有効な提案を提供することを確認した。 結果の再現コードとともにデータセットは、https://github.com/asappresearch/kbc-pomrで利用可能です。

Both electronic health records and personal health records are typically organized by data type, with medical problems, medications, procedures, and laboratory results chronologically sorted in separate areas of the chart. As a result, it can be difficult to find all of the relevant information for answering a clinical question about a given medical problem. A promising alternative is to instead organize by problems, with related medications, procedures, and other pertinent information all grouped together. A recent effort by Buchanan (2017) manually defined, through expert consensus, 11 medical problems and the relevant labs and medications for each. We show how to use machine learning on electronic health records to instead automatically construct these problem-based groupings of relevant medications, procedures, and laboratory tests. We formulate the learning task as one of knowledge base completion, and annotate a dataset that expands the set of problems from 11 to 32. We develop a model architecture that exploits both pre-trained concept embeddings and usage data relating the concepts contained in a longitudinal dataset from a large health system. We evaluate our algorithms' ability to suggest relevant medications, procedures, and lab tests, and find that the approach provides feasible suggestions even for problems that are hidden during training. The dataset, along with code to reproduce our results, is available at https://github.com/asappresearch/kbc-pomr.
翻訳日:2022-12-09 04:09:17 公開日:2020-08-07
# ニューラルネットワークを用いた量子スピン鎖の臨界点探索

Probing Criticality in Quantum Spin Chains with Neural Networks ( http://arxiv.org/abs/2005.02104v2 )

ライセンス: Link先を確認
A Berezutskii, M Beketov, D Yudin, Z Zimbor\'as and J Biamonte(参考訳) 量子系の数値的なエミュレーションは、しばしば計算ボトルネックに変換される指数的な自由度を必要とする。 機械学習の手法は, 効率的な特徴抽出と高次元データセットの次元化のために, 隣接分野において用いられている。 近年の研究では、ニューラルネットワークが物質のマクロ的な相と関連する相転移の判定や効率的な量子状態表現にさらに適していることが示されている。 本研究では,量子スピン鎖,すなわち横磁場Ising鎖と異方性XY鎖の量子相転移に対処し,隠蔽層を持たないニューラルネットワークでさえ,磁場秩序と乱れ相の区別を効果的に行うことができることを示す。 私たちのニューラルネットワークは、対応するクロスオーバー有限サイズのシステムを予測するために働きます。 この結果は、相互作用する量子多体系の幅広いクラスに拡張され、多体量子物理学へのニューラルネットワークの適用性を示す。

The numerical emulation of quantum systems often requires an exponential number of degrees of freedom which translates to a computational bottleneck. Methods of machine learning have been used in adjacent fields for effective feature extraction and dimensionality reduction of high-dimensional datasets. Recent studies have revealed that neural networks are further suitable for the determination of macroscopic phases of matter and associated phase transitions as well as efficient quantum state representation. In this work, we address quantum phase transitions in quantum spin chains, namely the transverse field Ising chain and the anisotropic XY chain, and show that even neural networks with no hidden layers can be effectively trained to distinguish between magnetically ordered and disordered phases. Our neural network acts to predict the corresponding crossovers finite-size systems undergo. Our results extend to a wide class of interacting quantum many-body systems and illustrate the wide applicability of neural networks to many-body quantum physics.
翻訳日:2022-12-06 14:54:04 公開日:2020-08-07
# 極小フットプリントキーワードスポッティングのためのドメインアウェアトレーニング

Domain Aware Training for Far-field Small-footprint Keyword Spotting ( http://arxiv.org/abs/2005.03633v3 )

ライセンス: Link先を確認
Haiwei Wu, Yan Jia, Yuanfei Nie, Ming Li(参考訳) 本稿では,遠隔地シナリオにおける小文字のキーワードスポッティングの課題に注目した。 遠方界環境は実生活の音声アプリケーションで一般的に見られ、室内残響や様々な騒音による性能低下を引き起こす。 我々のベースラインシステムは、遠距離場と近接語の両方の音声のプールデータで訓練された畳み込みニューラルネットワーク上に構築されている。 この歪みに対処するため,我々は,ドメイン埋め込みシステム,ディープサンゴシステム,マルチタスク学習システムを含む3つのドメイン認識学習システムを開発した。 これらの手法はネットワークトレーニングにドメイン知識を取り入れ、遠方界条件におけるキーワード分類器の性能を向上させる。 実験の結果,提案手法は近接音声の性能を維持し,遠方フィールドテストセットにおいて有意な改善が得られた。

In this paper, we focus on the task of small-footprint keyword spotting under the far-field scenario. Far-field environments are commonly encountered in real-life speech applications, causing severe degradation of performance due to room reverberation and various kinds of noises. Our baseline system is built on the convolutional neural network trained with pooled data of both far-field and close-talking speech. To cope with the distortions, we develop three domain aware training systems, including the domain embedding system, the deep CORAL system, and the multi-task learning system. These methods incorporate domain knowledge into network training and improve the performance of the keyword classifier on far-field conditions. Experimental results show that our proposed methods manage to maintain the performance on the close-talking speech and achieve significant improvement on the far-field test set.
翻訳日:2022-12-06 00:08:30 公開日:2020-08-07
# ctcベースソフトvadとグローバルクエリアテンションを用いたノイズロバストキーワードスポッティングと話者照合のためのマルチタスクネットワーク

Multi-Task Network for Noise-Robust Keyword Spotting and Speaker Verification using CTC-based Soft VAD and Global Query Attention ( http://arxiv.org/abs/2005.03867v4 )

ライセンス: Link先を確認
Myunghun Jung, Youngmoon Jung, Jahyun Goo, and Hoirin Kim(参考訳) キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的であることが知られている。 本稿では、kwsとsvを同時に実行し、相互関連ドメイン情報を完全に活用するマルチタスクネットワークを提案する。 マルチタスクネットワークは、接続性時間分類(CTC)に基づくソフト音声活動検出(VAD)とグローバルクエリアテンションの導入により、ノイズ環境、オープンボキャブラリKWS、ショートデュレーションSVなどの課題条件におけるパフォーマンス改善を目的としたサブネットワークを密結合する。 フレームレベルの音響および話者情報は音素的に起源を持つ重みと統合され、単語レベルのグローバル表現を形成する。 次に、特徴ベクトルの集約に使われ、識別的埋め込みを生成する。 提案手法では,両タスクのベースラインと比較して,等誤差率(EER)が4.06%,26.71%向上した。 また、アブレーション実験の可視化例と結果を示す。

Keyword spotting (KWS) and speaker verification (SV) have been studied independently although it is known that acoustic and speaker domains are complementary. In this paper, we propose a multi-task network that performs KWS and SV simultaneously to fully utilize the interrelated domain information. The multi-task network tightly combines sub-networks aiming at performance improvement in challenging conditions such as noisy environments, open-vocabulary KWS, and short-duration SV, by introducing novel techniques of connectionist temporal classification (CTC)-based soft voice activity detection (VAD) and global query attention. Frame-level acoustic and speaker information is integrated with phonetically originated weights so that forms a word-level global representation. Then it is used for the aggregation of feature vectors to generate discriminative embeddings. Our proposed approach shows 4.06% and 26.71% relative improvements in equal error rate (EER) compared to the baselines for both tasks. We also present a visualization example and results of ablation experiments.
翻訳日:2022-12-05 12:09:12 公開日:2020-08-07
# 階層型深部畳み込みニューラルネットワークを用いた胃腸疾患の病理組織像診断

Hierarchical Deep Convolutional Neural Networks for Multi-category Diagnosis of Gastrointestinal Disorders on Histopathological Images ( http://arxiv.org/abs/2005.03868v2 )

ライセンス: Link先を確認
Rasoul Sali, Sodiq Adewole, Lubaina Ehsan, Lee A. Denson, Paul Kelly, Beatrice C. Amadi, Lori Holtz, Syed Asad Ali, Sean R. Moore, Sana Syed, Donald E. Brown(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、画像分類を含む幅広いコンピュータビジョンタスクで成功している。 この応用の特定の領域は、消化管疾患(GI)の組織診断におけるパターン認識のためのデジタル病理である。 このドメインはcnnを使用して病理像を正確な診断に翻訳することができる。 これらの複雑な生検は異質であり、複数のレベルの評価を必要とするため、これは難しい。 これは主に、GI管の異なる部分における構造的類似性と、異なる腸疾患間の共通性に起因する。 この問題を、すべてのクラス(腸の一部とその病気)を想定したフラットモデルで解決することは、各クラスを不適切な評価に導くのに等しく困難である。 階層モデルは分類誤差を各サブクラスに制限するため、フラットモデルよりもより情報的なモデルにつながる。 本稿では, 消化管の異なる部位からの生検画像の階層的分類と, それぞれの領域における受容性疾患について検討する。 階層構造を利用するために、クラス階層をプレーンなVGGNetに組み込んだ。 提案モデルは,373枚のスライド画像から独立した画像パッチを用いて評価した。 その結果,階層モデルは,病理組織像を用いてGI疾患の多カテゴリ診断のためのフラットモデルよりも良好な結果が得られることが示唆された。

Deep convolutional neural networks(CNNs) have been successful for a wide range of computer vision tasks, including image classification. A specific area of the application lies in digital pathology for pattern recognition in the tissue-based diagnosis of gastrointestinal(GI) diseases. This domain can utilize CNNs to translate histopathological images into precise diagnostics. This is challenging since these complex biopsies are heterogeneous and require multiple levels of assessment. This is mainly due to structural similarities in different parts of the GI tract and shared features among different gut diseases. Addressing this problem with a flat model that assumes all classes (parts of the gut and their diseases) are equally difficult to distinguish leads to an inadequate assessment of each class. Since the hierarchical model restricts classification error to each sub-class, it leads to a more informative model than a flat model. In this paper, we propose to apply the hierarchical classification of biopsy images from different parts of the GI tract and the receptive diseases within each. We embedded a class hierarchy into the plain VGGNet to take advantage of its layers' hierarchical structure. The proposed model was evaluated using an independent set of image patches from 373 whole slide images. The results indicate that the hierarchical model can achieve better results than the flat model for multi-category diagnosis of GI disorders using histopathological images.
翻訳日:2022-12-05 12:06:29 公開日:2020-08-07
# 低リソースビデオasrのための大規模弱教師付き学習

Large scale weakly and semi-supervised learning for low-resource video ASR ( http://arxiv.org/abs/2005.07850v2 )

ライセンス: Link先を確認
Kritika Singh, Vimal Manohar, Alex Xiao, Sergey Edunov, Ross Girshick, Vitaliy Liptchinsky, Christian Fuegen, Yatharth Saraf, Geoffrey Zweig, Abdelrahman Mohamed(参考訳) 高品質音声認識システム構築のラベル付けコストを克服するために, 半弱教師付きアプローチが数多く検討されている。 低リソース環境におけるソーシャルメディア動画の書き起こしの課題として,2つの自己ラベル方式と,文脈メタデータを用いた弱い教師付き事前学習を大規模に体系的に比較した。 オランダ語とルーマニア語におけるハイブリッド,エンコーダのみのctc,エンコーダ・デコーダ音声認識システムのフレームレベルとシーケンスレベルにおける蒸留法について,ラベルなし音声の27,000時間と58,000時間を用いて検討した。 エンコーダ-デコーダモデルにおけるシーケンスレベルの蒸留は, それぞれのベースラインWERに対して8%以上改善したが, 最強データ拡張ベースラインに比べて20%の相対的な還元率を示した。

Many semi- and weakly-supervised approaches have been investigated for overcoming the labeling cost of building high quality speech recognition systems. On the challenging task of transcribing social media videos in low-resource conditions, we conduct a large scale systematic comparison between two self-labeling methods on one hand, and weakly-supervised pretraining using contextual metadata on the other. We investigate distillation methods at the frame level and the sequence level for hybrid, encoder-only CTC-based, and encoder-decoder speech recognition systems on Dutch and Romanian languages using 27,000 and 58,000 hours of unlabeled audio respectively. Although all approaches improved upon their respective baseline WERs by more than 8%, sequence-level distillation for encoder-decoder models provided the largest relative WER reduction of 20% compared to the strongest data-augmented supervised baseline.
翻訳日:2022-12-02 13:42:09 公開日:2020-08-07
# 雲成分の異常検出

Anomaly Detection in Cloud Components ( http://arxiv.org/abs/2005.08739v2 )

ライセンス: Link先を確認
Mohammad Saiful Islam and Andriy Miranskyy(参考訳) クラウドプラットフォームは、内部にあり、ハードウェアとソフトウェアコンポーネントの複雑な相互接続スタックで構成されている。 これらのコンポーネントのそれぞれがフェールし、停止に繋がる可能性がある。 当社の目標は、リソース利用のメトリクスを分析して、このような障害を早期に検出することで、クラウドサービスの品質を向上させることです。 Gated-Recurrent-Unit-based autoencoder を用いて,多次元時系列の異常を検知し,高い性能を実現した。

Cloud platforms, under the hood, consist of a complex inter-connected stack of hardware and software components. Each of these components can fail which may lead to an outage. Our goal is to improve the quality of Cloud services through early detection of such failures by analyzing resource utilization metrics. We tested Gated-Recurrent-Unit-based autoencoder with a likelihood function to detect anomalies in various multi-dimensional time series and achieved high performance.
翻訳日:2022-12-02 00:41:25 公開日:2020-08-07
# 話者自動検証のための逆サンプル検出のロバスト性の検討

Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification ( http://arxiv.org/abs/2006.06186v2 )

ライセンス: Link先を確認
Xu Li, Na Li, Jinghua Zhong, Xixin Wu, Xunying Liu, Dan Su, Dong Yu, Helen Meng(参考訳) 近年,自動話者認証(ASV)システムに対する敵対的な攻撃は,ASVシステムに深刻な脅威をもたらすため,広く注目を集めている。 しかし、このような攻撃から守る方法は限られている。 既存のアプローチは主に、敵対的なデータ拡張を伴うASVシステムのリトレーニングに重点を置いている。 また、異なる攻撃設定に対する対策ロバスト性も不十分である。 先行手法と直交して,本研究は,asvトレーニングに敵データを追加するのではなく,別個の検出ネットワークを用いて,対向攻撃からasvシステムを防御することを提案する。 VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。 未発見のアタック設定が存在するような現実的な防御シナリオにおいて、検出器のロバスト性を調べるために、様々な種類のアンセエン攻撃設定の衝撃を分析し、アンセエン代替asvシステムに対するロバスト(最悪の場合では6.27\% eer_{det}分解)であるが、アンセエン摂動法に対するロバスト性(最悪の場合では50.37\% eer_{det}分解)が弱いことを観察する。 目に見えない摂動法に対する弱い堅牢性は、強力な対策を開発するための方向を示す。

Recently adversarial attacks on automatic speaker verification (ASV) systems attracted widespread attention as they pose severe threats to ASV systems. However, methods to defend against such attacks are limited. Existing approaches mainly focus on retraining ASV systems with adversarial data augmentation. Also, countermeasure robustness against different attack settings are insufficiently investigated. Orthogonal to prior approaches, this work proposes to defend ASV systems against adversarial attacks with a separate detection network, rather than augmenting adversarial data into ASV training. A VGG-like binary classification detector is introduced and demonstrated to be effective on detecting adversarial samples. To investigate detector robustness in a realistic defense scenario where unseen attack settings may exist, we analyze various kinds of unseen attack settings' impact and observe that the detector is robust (6.27\% EER_{det} degradation in the worst case) against unseen substitute ASV systems, but it has weak robustness (50.37\% EER_{det} degradation in the worst case) against unseen perturbation methods. The weak robustness against unseen perturbation methods shows a direction for developing stronger countermeasures.
翻訳日:2022-11-22 14:42:32 公開日:2020-08-07
# ATSO:半監督医療画像分割のための非同期教師・学生最適化

ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2006.13461v3 )

ライセンス: Link先を確認
Xinyue Huo, Lingxi Xie, Jianzhong He, Zijie Yang and Qi Tian(参考訳) 医学画像解析において、半教師付き学習は、少量のラベル付きデータと大量のラベル付きデータから知識を抽出する効果的な方法である。 本稿では,自己学習として知られる一般的なパイプラインに注目し,モデルが生成する擬似ラベルから学ぶことの難しさを指摘する,遅延学習と呼ばれる弱点を指摘する。 この問題を軽減するために,教師学生最適化の非同期バージョンであるATSOを提案する。 ATSOはラベルのないデータを2つのサブセットに分割し、1つのサブセットを使ってモデルを微調整し、他のサブセットでラベルを更新する。 医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。 わずかな修正で、ATSOは自律運転データのための自然な画像セグメンテーションにうまく移行する。

In medical image analysis, semi-supervised learning is an effective method to extract knowledge from a small amount of labeled data and a large amount of unlabeled data. This paper focuses on a popular pipeline known as self learning, and points out a weakness named lazy learning that refers to the difficulty for a model to learn from the pseudo labels generated by itself. To alleviate this issue, we propose ATSO, an asynchronous version of teacher-student optimization. ATSO partitions the unlabeled data into two subsets and alternately uses one subset to fine-tune the model and updates the label on the other subset. We evaluate ATSO on two popular medical image segmentation datasets and show its superior performance in various semi-supervised settings. With slight modification, ATSO transfers well to natural image segmentation for autonomous driving data.
翻訳日:2022-11-17 12:50:14 公開日:2020-08-07
# Open Set Domain Adaptation のための複数分類器付き対数ネットワーク

Adversarial Network with Multiple Classifiers for Open Set Domain Adaptation ( http://arxiv.org/abs/2007.00384v3 )

ライセンス: Link先を確認
Tasfia Shermin, Guojun Lu, Shyh Wei Teng, Manzur Murshed, Ferdous Sohel(参考訳) ドメイン適応は、適切なラベル付きサンプルを持つドメインから、少ないラベル付きサンプルを持つドメインに知識を移すことを目的としています。 先行研究は、実際のシナリオにおけるドメイン適応手法の適用を拡張するために、文献に様々なオープンセットドメイン適応設定を導入している。 本稿では、対象ドメインがプライベート(未知クラス)ラベル空間と共有(未知クラス)ラベル空間の両方を持つようなオープンセットドメイン適応設定のタイプに焦点を当てる。 しかし、ソースドメインは「既知のクラス」ラベル空間しか持たない。 分散マッチングドメイン適応法は、より小さなソースドメインからより多くのクラスを持つより大きく多様なターゲットドメインへの適応を要求するような環境では不十分である。 この特定の開集合領域適応設定に対処するために、先行研究では、未知のターゲットサンプルから既知のものを識別するために固定しきい値を使い、負の転送を処理できないドメイン逆数モデルを導入している。 本稿では, 対数モデルを拡張し, 複数の補助分類器を用いた新しい対数領域適応モデルを提案する。 提案する重み付けモジュールは,対象とするサンプルに対して,既知のクラスや未知クラスに属する可能性が高いかを示す重みを付与する特有のドメイン特性を評価し,敵のトレーニング中に正の転送を促すとともに,ソースと対象ドメインの共有クラス間のドメインギャップを低減させる。 提案手法は,複数のドメイン適応データセットにおいて既存のドメイン適応法を上回っていることを示す。

Domain adaptation aims to transfer knowledge from a domain with adequate labeled samples to a domain with scarce labeled samples. Prior research has introduced various open set domain adaptation settings in the literature to extend the applications of domain adaptation methods in real-world scenarios. This paper focuses on the type of open set domain adaptation setting where the target domain has both private ('unknown classes') label space and the shared ('known classes') label space. However, the source domain only has the 'known classes' label space. Prevalent distribution-matching domain adaptation methods are inadequate in such a setting that demands adaptation from a smaller source domain to a larger and diverse target domain with more classes. For addressing this specific open set domain adaptation setting, prior research introduces a domain adversarial model that uses a fixed threshold for distinguishing known from unknown target samples and lacks at handling negative transfers. We extend their adversarial model and propose a novel adversarial domain adaptation model with multiple auxiliary classifiers. The proposed multi-classifier structure introduces a weighting module that evaluates distinctive domain characteristics for assigning the target samples with weights which are more representative to whether they are likely to belong to the known and unknown classes to encourage positive transfers during adversarial training and simultaneously reduces the domain gap between the shared classes of the source and target domains. A thorough experimental investigation shows that our proposed method outperforms existing domain adaptation methods on a number of domain adaptation datasets.
翻訳日:2022-11-14 23:10:16 公開日:2020-08-07
# 二元活性化関数を持つディープニューラルネットワークに対する整数計画法

An Integer Programming Approach to Deep Neural Networks with Binary Activation Functions ( http://arxiv.org/abs/2007.03326v3 )

ライセンス: Link先を確認
Bubacarr Bah, Jannis Kurtz(参考訳) 二元活性化関数 (BDNN) を持つディープニューラルネットワークについて検討し, 活性化関数は2つの状態しか持たないことを示した。 BDNNは,古典的整数計画解法により大域的最適に解ける混合整数線形プログラムとして再構成可能であることを示す。 さらに, ヒューリスティック解法を提案し, 2段階ロバスト最適化手法を適用し, データの不確実性を考慮したモデルの検討を行った。 bdnnのヒューリスティックなバージョンは、ランダムなデータでさらに悪い処理をしながら、乳がんウィスコンシンのデータセット上の古典的なディープニューラルネットワークよりも優れています。

We study deep neural networks with binary activation functions (BDNN), i.e. the activation function only has two states. We show that the BDNN can be reformulated as a mixed-integer linear program which can be solved to global optimality by classical integer programming solvers. Additionally, a heuristic solution algorithm is presented and we study the model under data uncertainty, applying a two-stage robust optimization approach. We implemented our methods on random and real datasets and show that the heuristic version of the BDNN outperforms classical deep neural networks on the Breast Cancer Wisconsin dataset while performing worse on random data.
翻訳日:2022-11-12 18:39:17 公開日:2020-08-07
# 知識グラフからのマイニングパスパターンのスケーラビリティ問題への取り組み--予備的検討

Tackling scalability issues in mining path patterns from knowledge graphs: a preliminary study ( http://arxiv.org/abs/2007.08821v2 )

ライセンス: Link先を確認
Pierre Monnin and Emmanuel Bresso and Miguel Couceiro and Malika Sma\"il-Tabbone and Amedeo Napoli and Adrien Coulet(参考訳) 知識グラフから抽出した特徴は、分類やファクトチェックといった複数の知識発見タスクで広く利用されている。 ここでは、種頂点と呼ばれる与えられた頂点の集合を考察し、関連する頂点、経路、より一般的には、知識グラフに関連付けられたオントロジのクラスを含む経路パターンのマイニングに焦点を当てる。 組み合わせの性質と実世界の知識グラフの規模の増加により、これらのパターンをマイニングする作業はすぐにスケーラビリティの問題を引き起こす。 本稿では,制約の組(サポートしきい値や次数しきい値など)と単調性に依存するパターンマイニング手法を提案することで,これらの問題に対処する。 我々のモチベーションは現実世界の知識グラフのマイニングから来ており、バイオメディカル知識グラフであるPGxLODを用いて我々のアプローチを説明する。

Features mined from knowledge graphs are widely used within multiple knowledge discovery tasks such as classification or fact-checking. Here, we consider a given set of vertices, called seed vertices, and focus on mining their associated neighboring vertices, paths, and, more generally, path patterns that involve classes of ontologies linked with knowledge graphs. Due to the combinatorial nature and the increasing size of real-world knowledge graphs, the task of mining these patterns immediately entails scalability issues. In this paper, we address these issues by proposing a pattern mining approach that relies on a set of constraints (e.g., support or degree thresholds) and the monotonicity property. As our motivation comes from the mining of real-world knowledge graphs, we illustrate our approach with PGxLOD, a biomedical knowledge graph.
翻訳日:2022-11-09 14:42:54 公開日:2020-08-07
# 反復差分学習アルゴリズムの高次一般化境界

Tighter Generalization Bounds for Iterative Differentially Private Learning Algorithms ( http://arxiv.org/abs/2007.09371v2 )

ライセンス: Link先を確認
Fengxiang He, Bohan Wang, Dacheng Tao(参考訳) 本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。 まず,学習アルゴリズムの一般化とプライバシ保護の整合性を確立する。 我々は、$(\varepsilon, \delta)$-differential privacyは、任意の学習アルゴリズムに対して高い確率を持つマルチデータベース学習アルゴリズムに対して、平均的な一般化を意味することを証明している。 この高い確率境界はまた、微分プライベート学習アルゴリズムのPAC学習保証を意味する。 次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。 3つの合成定理は、任意の反復アルゴリズムの微分プライバシーを各反復の微分プライバシーによって近似するために提案される。 上記の2つのステップを統合することで、最終的には反復学習アルゴリズムの一般化境界が提供され、プライバシの保存と一般化が同時に向上することを示唆します。 私たちの結果は既存の作品より厳格です。 特に、我々の一般化境界は、ディープラーニングにおいて禁止的に大きいモデルサイズに依存しない。 これは深層学習の一般化可能性を理解するための光である。 これらの結果は幅広い学習アルゴリズムに適用できる。 本稿では,確率勾配ランゲヴィン力学と非認識フェデレーション学習を例として応用する。

This paper studies the relationship between generalization and privacy preservation in iterative learning algorithms by two sequential steps. We first establish an alignment between generalization and privacy preservation for any learning algorithm. We prove that $(\varepsilon, \delta)$-differential privacy implies an on-average generalization bound for multi-database learning algorithms which further leads to a high-probability bound for any learning algorithm. This high-probability bound also implies a PAC-learnable guarantee for differentially private learning algorithms. We then investigate how the iterative nature shared by most learning algorithms influence privacy preservation and further generalization. Three composition theorems are proposed to approximate the differential privacy of any iterative algorithm through the differential privacy of its every iteration. By integrating the above two steps, we eventually deliver generalization bounds for iterative learning algorithms, which suggest one can simultaneously enhance privacy preservation and generalization. Our results are strictly tighter than the existing works. Particularly, our generalization bounds do not rely on the model size which is prohibitively large in deep learning. This sheds light to understanding the generalizability of deep learning. These results apply to a wide spectrum of learning algorithms. In this paper, we apply them to stochastic gradient Langevin dynamics and agnostic federated learning as examples.
翻訳日:2022-11-09 05:24:18 公開日:2020-08-07
# ブラックボックス仮説伝達学習のための動的知識蒸留

Dynamic Knowledge Distillation for Black-box Hypothesis Transfer Learning ( http://arxiv.org/abs/2007.12355v2 )

ライセンス: Link先を確認
Yiqin Yu, Xu Min, Shiwan Zhao, Jing Mei, Fei Wang, Dongsheng Li, Kenney Ng, Shaochun Li(参考訳) 医療のような現実世界のアプリケーションでは、さまざまな機関にまたがって普遍的に機能する機械学習予測モデルを構築するのは通常困難です。 同時に、利用可能なモデルはしばしばプロプライエタリであり、すなわちモデルパラメータもモデルトレーニングに使用されるデータセットもアクセスできない。 その結果、利用可能なモデル(つまり仮説)に隠された知識を活用し、ローカルデータセットに適応させることは、非常に困難になります。 この状況に動機づけられた本論文では,仮説伝達学習フレームワークにおけるそのような特定の事例に対処することを目的としている。 1) 情報源仮説はブラックボックスモデルであり、 2) ソースドメインデータは利用できない。 特に,dkdhtl(dynamic knowledge distillation for hypothesis transfer learning)と呼ばれる新しいアルゴリズムを導入する。 In this method, we use knowledge distillation with instance-wise weighting mechanism to adaptively transfer the "dark" knowledge from the source hypothesis to the target domain.The weighting coefficients of the distillation loss and the standard loss are determined by the consistency between the predicted probability of the source hypothesis and the target ground-truth label.Empirical results on both transfer learning benchmark datasets and a healthcare dataset demonstrate the effectiveness of our method.

In real world applications like healthcare, it is usually difficult to build a machine learning prediction model that works universally well across different institutions. At the same time, the available model is often proprietary, i.e., neither the model parameter nor the data set used for model training is accessible. In consequence, leveraging the knowledge hidden in the available model (aka. the hypothesis) and adapting it to a local data set becomes extremely challenging. Motivated by this situation, in this paper we aim to address such a specific case within the hypothesis transfer learning framework, in which 1) the source hypothesis is a black-box model and 2) the source domain data is unavailable. In particular, we introduce a novel algorithm called dynamic knowledge distillation for hypothesis transfer learning (dkdHTL). In this method, we use knowledge distillation with instance-wise weighting mechanism to adaptively transfer the "dark" knowledge from the source hypothesis to the target domain.The weighting coefficients of the distillation loss and the standard loss are determined by the consistency between the predicted probability of the source hypothesis and the target ground-truth label.Empirical results on both transfer learning benchmark datasets and a healthcare dataset demonstrate the effectiveness of our method.
翻訳日:2022-11-07 06:03:55 公開日:2020-08-07
# 生成的ゼロショット学習の再検討 : 視覚パッチ認識のためのアンサンブル学習視点

Rethinking Generative Zero-Shot Learning: An Ensemble Learning Perspective for Recognising Visual Patches ( http://arxiv.org/abs/2007.13314v3 )

ライセンス: Link先を確認
Zhi Chen, Sen Wang, Jingjing Li, Zi Huang(参考訳) ゼロショット学習(ZSL)は、きめ細かい画像分類やその他のタスクにおいて、目に見えないクラスを予測するという非常に広範囲な問題に対処するために一般的に用いられる。 ソリューションの1つのファミリーは、自然言語記述のような補助的な意味情報から生成モデルによって生成された合成未認識の視覚的サンプルを学ぶことである。 しかしながら、ほとんどのモデルでは、パフォーマンスは無関係な画像背景の形でノイズに悩まされる。 さらに、ほとんどのメソッドは各セマンティックパッチに計算された重みを割り当てない。 しかし、現実世界では、特徴の識別力が定量化され、直接的に活用され、精度を改善し、計算複雑性を減らすことができる。 これらの問題に対処するため,我々は,局所的なパッチ特徴とラベルを新たな重み付き投票戦略で合成するMPGAN(Multi-patch Generative Adversarial Nets)という新しいフレームワークを提案する。 このプロセスは、複数のスペシャリスト生成モデルを使用して、事前定義されたローカルパッチのセットに対して、ノイズの多いテキスト記述から識別可能な視覚的特徴を生成することから始まります。 その後、各パッチから合成された特徴は、各ローカルパッチに対応する様々な教師付き分類器のアンサンブルを構築するために使用される。 投票戦略は、分類器から出力される確率分布を平均化し、あるパッチが他のパッチよりも差別的であることを考慮すれば、識別に基づく注意機構は各パッチの重み付けに役立つ。 大規模な実験により、MPGANは最先端の手法よりもはるかに精度が高いことが示された。

Zero-shot learning (ZSL) is commonly used to address the very pervasive problem of predicting unseen classes in fine-grained image classification and other tasks. One family of solutions is to learn synthesised unseen visual samples produced by generative models from auxiliary semantic information, such as natural language descriptions. However, for most of these models, performance suffers from noise in the form of irrelevant image backgrounds. Further, most methods do not allocate a calculated weight to each semantic patch. Yet, in the real world, the discriminative power of features can be quantified and directly leveraged to improve accuracy and reduce computational complexity. To address these issues, we propose a novel framework called multi-patch generative adversarial nets (MPGAN) that synthesises local patch features and labels unseen classes with a novel weighted voting strategy. The process begins by generating discriminative visual features from noisy text descriptions for a set of predefined local patches using multiple specialist generative models. The features synthesised from each patch for unseen classes are then used to construct an ensemble of diverse supervised classifiers, each corresponding to one local patch. A voting strategy averages the probability distributions output from the classifiers and, given that some patches are more discriminative than others, a discrimination-based attention mechanism helps to weight each patch accordingly. Extensive experiments show that MPGAN has significantly greater accuracy than state-of-the-art methods.
翻訳日:2022-11-06 09:04:21 公開日:2020-08-07
# 間違いに注意を払うことを学ぶ

Learning To Pay Attention To Mistakes ( http://arxiv.org/abs/2007.15131v3 )

ライセンス: Link先を確認
Mou-Cheng Xu and Neil P. Oxtoby and Daniel C. Alexander and Joseph Jacob(参考訳) 畳み込みニューラルネットワークに基づく医用画像分割では、悪性組織を表す前景領域の周囲は、健康な組織の背景クラスである \cite{attenunet}\cite{attenunet2018}\cite{interseg}\cite{unetfrontneuro}\cite{learnactivecontour} に属すると不釣り合いに割り当てられる。 これにより、偽陰性検出率が高い。 本稿では,このような高い偽陰性率に直接対処する新しい注意機構を提案する。 我々の注意機構は、モデルが偽陽性の識別に向けられ、既存の偽陰性のバイアスに逆らう。 提案するメカニズムには2つの補完的な実装がある。 (a)前景におけるより大きな効果受容場に参画するためのモデルの「明示的」操舵 b) 背景領域のより小さな有効受容場への参加により, 偽陽性に対する「単純」操舵を行った。 私たちは3つのタスクでメソッドを検証しました。 1)都市景観を用いた車両と背景の密接な二元予測 2) BRATS2018におけるマルチモーダルMRIによるTumour Coreセグメンテーションの増強 3) isles2018における超音波画像を用いた脳卒中病変の分節化 我々は, 自己注意, 空間意識, 空間チャネル混合注意など, 医用画像における最先端の注意機構と比較した。 3つの異なるタスクのすべてにおいて、我々のモデルは一貫して、Intersection over Union (IoU) や Hausdorff Distance (HD) のベースラインモデルより優れています。 例えば、第2のタスクでは、我々のメカニズムの「明示的」実装は、最高のベースラインのHDを26 %以上削減し、IoUを3 %以上改善します。 提案する注意機構は,背景の過度な検出に苦しむ医療やコンピュータビジョンの幅広いタスクに有用であると考えられる。

In convolutional neural network based medical image segmentation, the periphery of foreground regions representing malignant tissues may be disproportionately assigned as belonging to the background class of healthy tissues \cite{attenUnet}\cite{AttenUnet2018}\cite{InterSeg}\cite{UnetFrontNeuro}\cite{LearnActiveContour}. This leads to high false negative detection rates. In this paper, we propose a novel attention mechanism to directly address such high false negative rates, called Paying Attention to Mistakes. Our attention mechanism steers the models towards false positive identification, which counters the existing bias towards false negatives. The proposed mechanism has two complementary implementations: (a) "explicit" steering of the model to attend to a larger Effective Receptive Field on the foreground areas; (b) "implicit" steering towards false positives, by attending to a smaller Effective Receptive Field on the background areas. We validated our methods on three tasks: 1) binary dense prediction between vehicles and the background using CityScapes; 2) Enhanced Tumour Core segmentation with multi-modal MRI scans in BRATS2018; 3) segmenting stroke lesions using ultrasound images in ISLES2018. We compared our methods with state-of-the-art attention mechanisms in medical imaging, including self-attention, spatial-attention and spatial-channel mixed attention. Across all of the three different tasks, our models consistently outperform the baseline models in Intersection over Union (IoU) and/or Hausdorff Distance (HD). For instance, in the second task, the "explicit" implementation of our mechanism reduces the HD of the best baseline by more than $26\%$, whilst improving the IoU by more than $3\%$. We believe our proposed attention mechanism can benefit a wide range of medical and computer vision tasks, which suffer from over-detection of background.
翻訳日:2022-11-05 20:36:54 公開日:2020-08-07
# carlaシミュレータにおける車両検知器の物理敵攻撃

Physical Adversarial Attack on Vehicle Detector in the Carla Simulator ( http://arxiv.org/abs/2007.16118v2 )

ライセンス: Link先を確認
Tong Wu, Xuefei Ning, Wenshuo Li, Ranran Huang, Huazhong Yang, Yu Wang(参考訳) 本稿では,野生の物体検出器に対する物理敵の事例について考察する。 具体的には,写真実写カルラシミュレータの検出器では認識できないように,車両表面の対向パターンを生成することを提案した。 提案手法は,モザイクのような車両テクスチャを,検出器のモデル重みや差分レンダリング手順を使わずに製作する,拡大・縮小法と離散探索法という2つの主な手法を含んでいる。 シミュレーション実験の結果,本手法の有効性が示された。

In this paper, we tackle the issue of physical adversarial examples for object detectors in the wild. Specifically, we proposed to generate adversarial patterns to be applied on vehicle surface so that it's not recognizable by detectors in the photo-realistic Carla simulator. Our approach contains two main techniques, an Enlarge-and-Repeat process and a Discrete Searching method, to craft mosaic-like adversarial vehicle textures without access to neither the model weight of the detector nor a differential rendering procedure. The experimental results demonstrate the effectiveness of our approach in the simulator.
翻訳日:2022-11-04 06:49:07 公開日:2020-08-07
# 放射能レポートからのマルチラベル抽出のためのラベル単位の注意を払う

Paying Per-label Attention for Multi-label Extraction from Radiology Reports ( http://arxiv.org/abs/2007.16152v3 )

ライセンス: Link先を確認
Patrick Schrempf, Hannah Watson, Shadia Mikhael, Maciej Pajak, Mat\'u\v{s} Falis, Aneta Lisowska, Keith W. Muir, David Harris-Birtill, Alison Q. O'Neil(参考訳) 医用画像解析モデルの訓練には、大量の専門的な注釈付きデータが必要である。 画像にはリッチな情報源である自由テキストラジオロジーレポートが伴うことが多い。 本稿では,脳卒中患者の頭部CT像からの構造化ラベルの自動抽出にディープラーニングを用いて取り組む。 まず,神経学的異常に関連する放射線学的所見(高密度)と臨床的印象(出血など)に対応する31のラベル群を提案する。 次に,従来の研究に触発されて,既存の最先端ニューラルネットワークモデルをラベル依存の注意機構で拡張する。 この機構と単純な合成データ拡張を用いて、放射線学者の報告(正、不確実、負)に従って分類された単一のモデルで多くのラベルを強く抽出することができる。 このアプローチは、医療用テキストから多くのラベルを効果的に抽出するために、さらなる研究に利用できる。

Training medical image analysis models requires large amounts of expertly annotated data which is time-consuming and expensive to obtain. Images are often accompanied by free-text radiology reports which are a rich source of information. In this paper, we tackle the automated extraction of structured labels from head CT reports for imaging of suspected stroke patients, using deep learning. Firstly, we propose a set of 31 labels which correspond to radiographic findings (e.g. hyperdensity) and clinical impressions (e.g. haemorrhage) related to neurological abnormalities. Secondly, inspired by previous work, we extend existing state-of-the-art neural network models with a label-dependent attention mechanism. Using this mechanism and simple synthetic data augmentation, we are able to robustly extract many labels with a single model, classified according to the radiologist's reporting (positive, uncertain, negative). This approach can be used in further research to effectively extract many labels from medical text.
翻訳日:2022-11-04 06:01:51 公開日:2020-08-07
# 関連言語に対する音声言語識別のクロスドメイン適応--スラヴ語を事例として

Cross-Domain Adaptation of Spoken Language Identification for Related Languages: The Curious Case of Slavic Languages ( http://arxiv.org/abs/2008.00545v2 )

ライセンス: Link先を確認
Badr M. Abdullah, Tania Avgustinova, Bernd M\"obius, Dietrich Klakow(参考訳) エンド・ツー・エンドのディープ・ニューラルネットワークをベースとした最先端の音声言語識別(LID)システムは、遠隔言語間だけでなく、近縁言語間や同一言語の異なる言語間でも顕著な成功を収めている。 しかし、ドメインシフトによって異なる音響条件を持つ音声サンプルにニューラル蓋モデルがどの程度一般化するかは、まだ不明である。 本稿では,2つの領域にわたる6つのスラヴ語サブセット(読み上げ音声とラジオ放送)に対するニューラルLIDシステムの性能に対するドメインミスマッチの影響について検討し,この課題に対する2つの低レベル信号記述子(スペクトルおよびケプストラム特徴)について検討する。 実験の結果,(1)ドメイン外の音声サンプルはニューラルLIDモデルの性能を著しく損なうこと,(2)スペクトルとケプストラムの特徴はドメイン内で同等の性能を示すが,スペクトルの特徴はドメインミスマッチ下でより堅牢性を示すことがわかった。 さらに,2つの領域間の差を最小限に抑えるために,教師なし領域適応を適用した。 音源領域の音響条件の多様性に応じて,9%から77%の相対精度向上を実現した。

State-of-the-art spoken language identification (LID) systems, which are based on end-to-end deep neural networks, have shown remarkable success not only in discriminating between distant languages but also between closely-related languages or even different spoken varieties of the same language. However, it is still unclear to what extent neural LID models generalize to speech samples with different acoustic conditions due to domain shift. In this paper, we present a set of experiments to investigate the impact of domain mismatch on the performance of neural LID systems for a subset of six Slavic languages across two domains (read speech and radio broadcast) and examine two low-level signal descriptors (spectral and cepstral features) for this task. Our experiments show that (1) out-of-domain speech samples severely hinder the performance of neural LID models, and (2) while both spectral and cepstral features show comparable performance within-domain, spectral features show more robustness under domain mismatch. Moreover, we apply unsupervised domain adaptation to minimize the discrepancy between the two domains in our study. We achieve relative accuracy improvements that range from 9% to 77% depending on the diversity of acoustic conditions in the source domain.
翻訳日:2022-11-03 19:57:53 公開日:2020-08-07
# 意思決定における分散型言語表現:分類学、重要な要素と応用、データサイエンスと説明可能な人工知能の課題

Distributed Linguistic Representations in Decision Making: Taxonomy, Key Elements and Applications, and Challenges in Data Science and Explainable Artificial Intelligence ( http://arxiv.org/abs/2008.01499v2 )

ライセンス: Link先を確認
Yuzhu Wu, Zhen Zhang, Gang Kou, Hengjie Zhang, Xiangrui Chao, Cong-Cong Li, Yucheng Dong and Francisco Herrera(参考訳) 分散言語表現は、言語決定における選好情報の不確実性と複雑さをモデル化するための強力なツールである。 意思決定における分散言語表現の発展に関する包括的視点を提供するため,既存の分散言語表現の分類法を提案する。 そこで我々は,距離計測,集約手法,分散言語嗜好関係,分散言語多属性意思決定モデルなど,意思決定における分散言語情報処理の重要な要素について検討する。 次に、データサイエンスと説明可能な人工知能の観点から、現在進行中の課題と今後の研究方向について議論する。

Distributed linguistic representations are powerful tools for modelling the uncertainty and complexity of preference information in linguistic decision making. To provide a comprehensive perspective on the development of distributed linguistic representations in decision making, we present the taxonomy of existing distributed linguistic representations. Then, we review the key elements of distributed linguistic information processing in decision making, including the distance measurement, aggregation methods, distributed linguistic preference relations, and distributed linguistic multiple attribute decision making models. Next, we provide a discussion on ongoing challenges and future research directions from the perspective of data science and explainable artificial intelligence.
翻訳日:2022-11-03 00:13:03 公開日:2020-08-07
# 形式仕様言語としてのモジュラアンサーセットプログラミング

Modular Answer Set Programming as a Formal Specification Language ( http://arxiv.org/abs/2008.02015v2 )

ライセンス: Link先を確認
Pedro Cabalar, Jorge Fandinno and Yuliya Lierler(参考訳) 本稿では,与えられた(非基底)論理プログラムPの解集合が,問題事例に関わらず,Pによって符号化された問題に対する解に正しく対応していることを示す形式的証明を得るために,解答集合プログラミング(ASP)の形式的検証の問題について検討する。 この目的のために、ASPモジュールに基づいた正式な仕様言語を使用し、各モジュールが独立した方法で問題の非公式な側面をキャプチャできることを証明できる。 この仕様言語は、異なるレベルに局所隠れ原子を組み込むことができる(おそらく入れ子、一階)プログラムモジュールの新しい定義に依存している。 すると、論理プログラム P の検証は、P とモジュラー仕様の間の何らかの同値性を証明する。 TPLPの受容についての検討

In this paper, we study the problem of formal verification for Answer Set Programming (ASP), namely, obtaining a formal proof showing that the answer sets of a given (non-ground) logic program P correctly correspond to the solutions to the problem encoded by P, regardless of the problem instance. To this aim, we use a formal specification language based on ASP modules, so that each module can be proved to capture some informal aspect of the problem in an isolated way. This specification language relies on a novel definition of (possibly nested, first order) program modules that may incorporate local hidden atoms at different levels. Then, verifying the logic program P amounts to prove some kind of equivalence between P and its modular specification. Under consideration for acceptance in TPLP.
翻訳日:2022-11-02 18:29:32 公開日:2020-08-07
# BAT.jl -- ベイズ推論のためのユリアベースのツール

BAT.jl -- A Julia-based tool for Bayesian inference ( http://arxiv.org/abs/2008.03132v1 )

ライセンス: Link先を確認
Oliver Schulz and Frederik Beaujean and Allen Caldwell and Cornelius Grunwald and Vasyl Hafych and Kevin Kr\"oninger and Salvatore La Cagnina and Lars R\"ohrig and Lolian Shtembari(参考訳) ユリア語で書かれたベイズ統計推論のための多目的ソフトウェアBAT.jlの開発について述べる。 主要な設計上の考慮事項と実装されたアルゴリズムは、アルゴリズムの適切な機能を保証するテストスイートとともに、ここで要約される。 また、BAT.jlの機能を示す物理学領域から拡張された例を示す。

We describe the development of a multi-purpose software for Bayesian statistical inference, BAT.jl, written in the Julia language. The major design considerations and implemented algorithms are summarized here, together with a test suite that ensures the proper functioning of the algorithms. We also give an extended example from the realm of physics that demonstrates the functionalities of BAT.jl.
翻訳日:2022-11-02 02:08:56 公開日:2020-08-07
# 畳み込みニューラルネットワークを用いた前立腺癌におけるPSMA PET画像を用いた前立腺内腫瘍の深層学習アーキテクチャ

Convolutional neural network based deep-learning architecture for intraprostatic tumour contouring on PSMA PET images in patients with primary prostate cancer ( http://arxiv.org/abs/2008.03201v1 )

ライセンス: Link先を確認
Dejan Kostyszyn, Tobias Fechter, Nico Bartl, Anca L. Grosu, Christian Gratzke, August Sigle, Michael Mix, Juri Ruf, Thomas F. Fassbender, Selina Kiefer, Alisa S. Bettermann, Nils H. Nicolay, Simon Spohn, Maria U. Kramer, Peter Bronsert, Hongqian Guo, Xuefeng Qiu, Feng Wang, Christoph Henkenberens, Rudolf A. Werner, Dimos Baltas, Philipp T. Meyer, Thorsten Derlin, Mengxia Chen, Constantinos Zamboglou(参考訳) 原発性前立腺癌 (PCa) に対する治療法として, 前立腺内腫瘍容積 (GTV) の正確な経過が必須である。 前立腺特異的膜抗原ポジトロン断層撮影(PSMA-PET)はGTV検出においてMRIより優れている。 しかし、視覚的なGTVデライン化は、サーバ間の異質性を理解し、時間を要する。 本研究の目的は,PSMA-PETにおけるGTV-CNNの自動分割のための畳み込みニューラルネットワーク(CNN)を開発することである。 方法: CNN (3D U-Net) は, 2施設152症例の [68Ga]PSMA-PET画像を用いて訓練し, 評価手法を用いてトレーニングラベルを手作業で作成した。 CNNは2つの独立した内部(コホート1: [68Ga]PSMA-PET, n=18およびコホート2: [18F]PSMA-PET, n=19)と1つの外部(コホート3: [68Ga]PSMA-PET, n=20)で試験された。 手動輪郭とGTV-CNNの一致をDice-S{\o}rensen coefficient (DSC)を用いて評価した。 内部テストデータセットの感度と特異性は全マウントヒストロジーを用いて算出した。 結果:コホート1-3の中間DSCは0.84(範囲:0.32-0.95),0.81(範囲:0.28-0.93),0.83(範囲:0.32-0.93)であった。 GTV-CNNの感度と特異性はそれぞれ0.98と0.76(コホート1)、1と0.57(コホート2)である。 計算時間は標準データセットで約6秒であった。 結論: [68Ga]PSMA-および[18F]PSMA-PET画像におけるGTVの自動コントゥーリングへのCNNの適用は, 組織学的基準と比較して, 専門家の輪郭と高い感度, 特異性に一致した。 このロバストで正確で高速なテクニックは、プライマリpcaの治療概念のために実装することができる。 トレーニングされたモデルと研究のソースコードは、オープンソースリポジトリから入手できる。

Accurate delineation of the intraprostatic gross tumour volume (GTV) is a prerequisite for treatment approaches in patients with primary prostate cancer (PCa). Prostate-specific membrane antigen positron emission tomography (PSMA-PET) may outperform MRI in GTV detection. However, visual GTV delineation underlies interobserver heterogeneity and is time consuming. The aim of this study was to develop a convolutional neural network (CNN) for automated segmentation of intraprostatic tumour (GTV-CNN) in PSMA-PET. Methods: The CNN (3D U-Net) was trained on [68Ga]PSMA-PET images of 152 patients from two different institutions and the training labels were generated manually using a validated technique. The CNN was tested on two independent internal (cohort 1: [68Ga]PSMA-PET, n=18 and cohort 2: [18F]PSMA-PET, n=19) and one external (cohort 3: [68Ga]PSMA-PET, n=20) test-datasets. Accordance between manual contours and GTV-CNN was assessed with Dice-S{\o}rensen coefficient (DSC). Sensitivity and specificity were calculated for the two internal test-datasets by using whole-mount histology. Results: Median DSCs for cohorts 1-3 were 0.84 (range: 0.32-0.95), 0.81 (range: 0.28-0.93) and 0.83 (range: 0.32-0.93), respectively. Sensitivities and specificities for GTV-CNN were comparable with manual expert contours: 0.98 and 0.76 (cohort 1) and 1 and 0.57 (cohort 2), respectively. Computation time was around 6 seconds for a standard dataset. Conclusion: The application of a CNN for automated contouring of intraprostatic GTV in [68Ga]PSMA- and [18F]PSMA-PET images resulted in a high concordance with expert contours and in high sensitivities and specificities in comparison with histology reference. This robust, accurate and fast technique may be implemented for treatment concepts in primary PCa. The trained model and the study's source code are available in an open source repository.
翻訳日:2022-11-02 02:07:25 公開日:2020-08-07
# 臨床状況を用いたメラノーマ同定のための患者中心の画像データセットとメタデータ

A Patient-Centric Dataset of Images and Metadata for Identifying Melanomas Using Clinical Context ( http://arxiv.org/abs/2008.07360v1 )

ライセンス: Link先を確認
Veronica Rotemberg, Nicholas Kurtansky, Brigid Betz-Stablein, Liam Caffery, Emmanouil Chousakos, Noel Codella, Marc Combalia, Stephen Dusza, Pascale Guitera, David Gutman, Allan Halpern, Harald Kittler, Kivanc Kose, Steve Langer, Konstantinos Lioprys, Josep Malvehy, Shenara Musthaq, Jabpani Nanda, Ofer Reiter, George Shih, Alexander Stratigos, Philipp Tschandl, Jochen Weber, and H. Peter Soyer(参考訳) 以前の皮膚画像データセットは、同一患者の複数の皮膚病変から得られた患者レベル情報には対応していない。 人工知能の分類アルゴリズムは、単一の画像を調べる制御研究において、エキスパートレベルの性能を達成したが、実際、皮膚科医は、同じ患者の複数の病変から、その判断を段階的に根拠としている。 2020 SIIM-ISIC メラノーマ分類データセットは、以前の課題と臨床実践のこの相違に対処するために構築され、データセット内の各画像に同一患者の病変を互いにマッピングできる識別子を提供する。 この患者レベルのコンテクスト情報は臨床医によってメラノーマの診断に頻繁に用いられ、非定型ネビの患者において特に偽陽性を除外するのに有用である。 このデータセットは, 平均16病変の3大陸2,056例を対象とし, 良性黒色腫に対して33,126例, 病理組織学的に確認された黒色腫584例からなる。

Prior skin image datasets have not addressed patient-level information obtained from multiple skin lesions from the same patient. Though artificial intelligence classification algorithms have achieved expert-level performance in controlled studies examining single images, in practice dermatologists base their judgment holistically from multiple lesions on the same patient. The 2020 SIIM-ISIC Melanoma Classification challenge dataset described herein was constructed to address this discrepancy between prior challenges and clinical practice, providing for each image in the dataset an identifier allowing lesions from the same patient to be mapped to one another. This patient-level contextual information is frequently used by clinicians to diagnose melanoma and is especially useful in ruling out false positives in patients with many atypical nevi. The dataset represents 2,056 patients from three continents with an average of 16 lesions per patient, consisting of 33,126 dermoscopic images and 584 histopathologically confirmed melanomas compared with benign melanoma mimickers.
翻訳日:2022-11-02 02:06:33 公開日:2020-08-07
# ディープガウス過程を用いたマルチスピーカー音声合成

Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes ( http://arxiv.org/abs/2008.02950v1 )

ライセンス: Link先を確認
Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari(参考訳) マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。 ディープニューラルネットワーク(DNN)を用いた多くのアプローチが提案されているが、トレーニングデータの量を制限すると、DNNは過度に適合する傾向にある。 本稿では,ディープガウス過程(DGP)を用いた多話者音声合成のためのフレームワークを提案する。 このフレームワークでは、話者情報は話者コードを用いて持続時間/音響モデルに供給される。 また,DGPLVM (Deep Gaussian Process Latent variable Model) の利用についても検討した。 このアプローチでは、各話者の表現は他のモデルパラメータと同時に学習されるため、話者の類似性や類似性が効率的に考慮される。 提案手法の有効性を検討するための2つの条件を実験的に評価した。 ある状況では、各話者のデータ量がバランス(スピーカーバランス)され、他方では、特定の話者のデータが制限(スピーカーバランス)される。 主観的および客観的評価の結果、DGPとDGPLVMは、話者バランス状況下では、DNNよりも効果的にマルチスピーカ音声を合成することがわかった。 また、DGPLVMは話者不均衡状況において、DGPを著しく上回ります。

Multi-speaker speech synthesis is a technique for modeling multiple speakers' voices with a single model. Although many approaches using deep neural networks (DNNs) have been proposed, DNNs are prone to overfitting when the amount of training data is limited. We propose a framework for multi-speaker speech synthesis using deep Gaussian processes (DGPs); a DGP is a deep architecture of Bayesian kernel regressions and thus robust to overfitting. In this framework, speaker information is fed to duration/acoustic models using speaker codes. We also examine the use of deep Gaussian process latent variable models (DGPLVMs). In this approach, the representation of each speaker is learned simultaneously with other model parameters, and therefore the similarity or dissimilarity of speakers is considered efficiently. We experimentally evaluated two situations to investigate the effectiveness of the proposed methods. In one situation, the amount of data from each speaker is balanced (speaker-balanced), and in the other, the data from certain speakers are limited (speaker-imbalanced). Subjective and objective evaluation results showed that both the DGP and DGPLVM synthesize multi-speaker speech more effective than a DNN in the speaker-balanced situation. We also found that the DGPLVM outperforms the DGP significantly in the speaker-imbalanced situation.
翻訳日:2022-11-02 02:06:05 公開日:2020-08-07
# 少数の単語の機械 --強化学習による対話型話者認識

A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement Learning ( http://arxiv.org/abs/2008.03127v1 )

ライセンス: Link先を確認
Mathieu Seurin, Florian Strub, Philippe Preux, and Olivier Pietquin(参考訳) 話者認識は、音声処理領域においてよく知られ、研究されている課題である。 セキュリティやパーソナルデバイスの話者適応など、多くの応用がある。 本稿では,対話型話者認識(ISR)と呼ばれる,自動話者認識のための新しいパラダイムを提案する。 このパラダイムでは、標準のテキスト依存やテキスト非依存の方式とは対照的に、個別の発話を要求することで話者の表現を段階的に構築することを目的としている。 そこで我々は,話者認識タスクを逐次的な意思決定問題に落とし込み,強化学習によって解決する。 標準データセットを用いて,少ない音声信号量を用いて,提案手法が優れた性能を発揮することを示す。 この方法は,音声合成システム構築のための発話選択機構にも応用できる。

Speaker recognition is a well known and studied task in the speech processing domain. It has many applications, either for security or speaker adaptation of personal devices. In this paper, we present a new paradigm for automatic speaker recognition that we call Interactive Speaker Recognition (ISR). In this paradigm, the recognition system aims to incrementally build a representation of the speakers by requesting personalized utterances to be spoken in contrast to the standard text-dependent or text-independent schemes. To do so, we cast the speaker recognition task into a sequential decision-making problem that we solve with Reinforcement Learning. Using a standard dataset, we show that our method achieves excellent performance while using little speech signal amounts. This method could also be applied as an utterance selection mechanism for building speech synthesis systems.
翻訳日:2022-11-02 02:05:47 公開日:2020-08-07
# 音響的特徴と語彙的特徴を用いたハンチントン病の分類

Classification of Huntington Disease using Acoustic and Lexical Features ( http://arxiv.org/abs/2008.03367v1 )

ライセンス: Link先を確認
Matthew Perez, Wenyu Jin, Duc Le, Noelle Carlozzi, Praveen Dayalu, Angela Roberts, Emily Mower Provost(参考訳) 言語はハンチントン病(hd)の生命マーカーであり、疾患が進行するにつれて重篤度が増加する。 音声分析は現在、訓練された専門家が手動で作成した書き起こしか、グローバル評価尺度を用いて行われている。 手動文字起こしは高価で時間がかかり、グローバルな評価尺度には十分な感度と忠実性が欠落する可能性がある。 究極的に必要なのは、病気の進行を安価かつ継続的に追跡できる、控えめな手段です。 本稿では,このようなシステム開発に向けた第一歩として,音声の手がかりを用いて,健康的なコントロールとHDの個人を区別する能力を示す。 その結果, 客観的な分析が臨床診断支援に有用であり, 臨床・臨床環境外における症状学の追跡に寄与することが示唆された。

Speech is a critical biomarker for Huntington Disease (HD), with changes in speech increasing in severity as the disease progresses. Speech analyses are currently conducted using either transcriptions created manually by trained professionals or using global rating scales. Manual transcription is both expensive and time-consuming and global rating scales may lack sufficient sensitivity and fidelity. Ultimately, what is needed is an unobtrusive measure that can cheaply and continuously track disease progression. We present first steps towards the development of such a system, demonstrating the ability to automatically differentiate between healthy controls and individuals with HD using speech cues. The results provide evidence that objective analyses can be used to support clinical diagnoses, moving towards the tracking of symptomatology outside of laboratory and clinical environments.
翻訳日:2022-11-02 02:05:04 公開日:2020-08-07
# ディープラーニングを用いたgw150914の完全パラメータ推定

Complete parameter inference for GW150914 using deep learning ( http://arxiv.org/abs/2008.03312v1 )

ライセンス: Link先を確認
Stephen R. Green, Jonathan Gair(参考訳) LIGOとVirgo重力波観測所は過去5年間に多くのエキサイティングな出来事を観測してきた。 検出速度は検出器感度とともに増加するため、データ解析において計算上の課題が増大する。 このことを念頭において,本研究では,重力波の高速確率自由ベイズ推定に深層学習手法を適用する。 複数の検出器から検出されたひずみデータから, 2元ブラックホール系パラメータの完全な15次元空間上の後続確率分布をモデル化するニューラルネットワーク条件密度推定器を訓練する。 フローの正規化 - 具体的には、フローの正規化 - を用いて、迅速なサンプリングと密度推定を可能にする。 ネットワークのトレーニングは、データ生成プロセスからのサンプルを必要とするが、可能性評価は必要ない。 トレーニングを通じて、ネットワークは、トレーニングに使用される事前および検出器ノイズ特性と一致したひずみデータに対して、毎秒何千もの独立した後方サンプルを生成することができる。 GW150914の時点で推定される検出器ノイズパワースペクトル密度とイベントストレインデータに基づくトレーニングにより,ニューラルネットワークを用いて,従来のサンプリング手法を用いた分析と一致する正確な後部サンプルを生成する。

The LIGO and Virgo gravitational-wave observatories have detected many exciting events over the past five years. As the rate of detections grows with detector sensitivity, this poses a growing computational challenge for data analysis. With this in mind, in this work we apply deep learning techniques to perform fast likelihood-free Bayesian inference for gravitational waves. We train a neural-network conditional density estimator to model posterior probability distributions over the full 15-dimensional space of binary black hole system parameters, given detector strain data from multiple detectors. We use the method of normalizing flows---specifically, a neural spline normalizing flow---which allows for rapid sampling and density estimation. Training the network is likelihood-free, requiring samples from the data generative process, but no likelihood evaluations. Through training, the network learns a global set of posteriors: it can generate thousands of independent posterior samples per second for any strain data consistent with the prior and detector noise characteristics used for training. By training with the detector noise power spectral density estimated at the time of GW150914, and conditioning on the event strain data, we use the neural network to generate accurate posterior samples consistent with analyses using conventional sampling techniques.
翻訳日:2022-11-02 01:58:06 公開日:2020-08-07
# 認識による動的サイバー防御のためのグラフ上のハイパーゲーム理論

A Theory of Hypergames on Graphs for Synthesizing Dynamic Cyber Defense with Deception ( http://arxiv.org/abs/2008.03210v1 )

ライセンス: Link先を確認
Abhishek N. Kulkarni and Jie Fu(参考訳) 本稿では,複数のデコイシステムを備えたサイバーネットワークにおける反応防御戦略を,形式的手法を用いて合成する手法を提案する。 まず,グラフ上の攻撃防御ゲームと呼ばれるゲーム理論モデルにディフェンダーの対策を組み込むために,フォーマルなグラフィカルセキュリティモデル -- 攻撃グラフ -- を一般化する。 このゲームは、ディフェンダーと攻撃者の動的相互作用と、その防御・攻撃目標を形式論理で捉える。 次に,攻撃者と防御者とのインタラクションにおいて,decoysが生成する非対称情報をモデル化するハイパーゲームの種類を紹介する。 形式論理における質的セキュリティ仕様が与えられると、ハイパーゲームや形式的手法におけるリアクティブシンセシスからのソリューション概念を拡張して、サイバーデセプションを用いた効果的な動的防御戦略を合成できることが示される。 この戦略は、セキュリティ仕様が満たされていることを保証するために攻撃者の誤解の利点を生かしている。

In this chapter, we present an approach using formal methods to synthesize reactive defense strategy in a cyber network, equipped with a set of decoy systems. We first generalize formal graphical security models--attack graphs--to incorporate defender's countermeasures in a game-theoretic model, called an attack-defend game on graph. This game captures the dynamic interactions between the defender and the attacker and their defense/attack objectives in formal logic. Then, we introduce a class of hypergames to model asymmetric information created by decoys in the attacker-defender interactions. Given qualitative security specifications in formal logic, we show that the solution concepts from hypergames and reactive synthesis in formal methods can be extended to synthesize effective dynamic defense strategy using cyber deception. The strategy takes the advantages of the misperception of the attacker to ensure security specification is satisfied, which may not be satisfiable when the information is symmetric.
翻訳日:2022-11-02 01:57:46 公開日:2020-08-07
# 住宅利用に対する需要応答: データ分析のアプローチ

Demand Response For Residential Uses: A Data Analytics Approach ( http://arxiv.org/abs/2008.02908v1 )

ライセンス: Link先を確認
Abdelkareem Jaradat, Hanan Lutfiyya, Anwar Haque(参考訳) スマートグリッド環境では、インテリジェントな測定装置の出現により、家電電力消費量の監視が容易になる。 このデータは、データ分析を通じて住宅の需要応答(DR)を適用し、データマイニング技術の開発に利用することができる。 本研究では,ユーザの分散型電力消費データに適用するスマートシステム基盤を提案する。 本システムでは,より重い操作モードを軽快なモードにすることや,使用時間をオフピーク時間にシフトさせることで,DRの適用を奨励する。 まず,クロス相関(XCORR)を用いて,アプライアンスの使用時の発生時刻を検出する。 次にdynamic time warping (dtw) を用いて動作モードを認識する。

In the Smart Grid environment, the advent of intelligent measuring devices facilitates monitoring appliance electricity consumption. This data can be used in applying Demand Response (DR) in residential houses through data analytics, and developing data mining techniques. In this research, we introduce a smart system foundation that is applied to user's disaggregated power consumption data. This system encourages the users to apply DR by changing their behaviour of using heavier operation modes to lighter modes, and by encouraging users to shift their usages to off-peak hours. First, we apply Cross Correlation (XCORR) to detect times of the occurrences when an appliance is being used. We then use The Dynamic Time Warping (DTW) to recognize the operation mode used.
翻訳日:2022-11-02 01:57:27 公開日:2020-08-07
# MiNet: クロスドメインクリックスルーレート予測のための混合関心ネットワーク

MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction ( http://arxiv.org/abs/2008.02974v1 )

ライセンス: Link先を確認
Wentao Ouyang, Xiuwu Zhang, Lei Zhao, Jinmei Luo, Yu Zhang, Heng Zou, Zhaojie Liu, Yanlong Du(参考訳) クリックスルー率(CTR)予測はオンライン広告システムにおいて重要な課題である。 既存の作業は主に、単一ドメインのCTR予測問題と機能相互作用、ユーザ行動履歴、コンテキスト情報といったモデル側面に対処する。 それでも、広告は通常、自然なコンテンツで表示され、ドメイン横断CTR予測の機会を提供する。 本稿では、この問題に対処し、ソースドメインからの補助データを利用して、ターゲットドメインのctr予測性能を向上させる。 私たちの研究は、uc toutiao(ucブラウザアプリに統合されたニュースフィードサービスで、毎日数億人のユーザーが利用しています)に基づいており、ソースドメインがニュースでターゲットドメインが広告です。 広告のctr予測にニュースデータを有効に活用するために,3種類のユーザの興味を共同でモデル化するmixed interest network (minet)を提案する。 1)ドメイン間の長期的関心 2) ソースドメインからの短期的関心、及び 3)対象領域に対する短期的関心。 MiNetには、アイテムレベルの注意がクリックされたニュース/広告から有用な情報を適応的に蒸留し、関心レベルの注意が異なる関心表現を適応的に融合する2つのレベルがある。 オフライン実験により、MiNetはCTR予測のための最先端のいくつかの手法より優れていることが示された。 uc toutiaoにminantをデプロイし,a/bテスト結果から,オンラインctrも大幅に改善されていることが示された。 MiNetは現在、UC Toutiaoの主要な広告トラフィックを提供している。

Click-through rate (CTR) prediction is a critical task in online advertising systems. Existing works mainly address the single-domain CTR prediction problem and model aspects such as feature interaction, user behavior history and contextual information. Nevertheless, ads are usually displayed with natural content, which offers an opportunity for cross-domain CTR prediction. In this paper, we address this problem and leverage auxiliary data from a source domain to improve the CTR prediction performance of a target domain. Our study is based on UC Toutiao (a news feed service integrated with the UC Browser App, serving hundreds of millions of users daily), where the source domain is the news and the target domain is the ad. In order to effectively leverage news data for predicting CTRs of ads, we propose the Mixed Interest Network (MiNet) which jointly models three types of user interest: 1) long-term interest across domains, 2) short-term interest from the source domain and 3) short-term interest in the target domain. MiNet contains two levels of attentions, where the item-level attention can adaptively distill useful information from clicked news / ads and the interest-level attention can adaptively fuse different interest representations. Offline experiments show that MiNet outperforms several state-of-the-art methods for CTR prediction. We have deployed MiNet in UC Toutiao and the A/B test results show that the online CTR is also improved substantially. MiNet now serves the main ad traffic in UC Toutiao.
翻訳日:2022-11-02 01:56:52 公開日:2020-08-07
# パルスオキシメトリー信号を用いたリカレントニューラルネットワークによる睡眠覚醒段階の分類

Classifying sleep-wake stages through recurrent neural networks using pulse oximetry signals ( http://arxiv.org/abs/2008.03382v1 )

ライセンス: Link先を確認
Ramiro Casal, Leandro E. Di Persia, Gast\'on Schlotthauer(参考訳) 自律神経系の調節は、生理的変数の変化を引き起こす睡眠段階によって変化する。 我々はこれらの変化を利用して、覚醒または睡眠中の睡眠段階をパルスオキシメータ信号を用いて分類する。 心拍数と末梢酸素飽和信号にリカレントニューラルネットワークを適用し,30秒毎に睡眠ステージを分類した。 ネットワークアーキテクチャは、双方向ゲートリカレントユニット(grus)の2つのスタック層と、出力を分類するためのsoftmax層で構成される。 本研究では,Sleep Heart Health Studyデータセットから5000人の患者を用いた。 2500人の患者がネットワークのトレーニングに使われ、1250の2つのサブセットがトレーニングされたモデルの検証とテストに使用された。 テスト段階では、90.13%の精度、94.13%の感度、80.26%の特異性、92.05%の精度、84.68%の負の予測値が得られた。 さらに、コーエンのカッパ係数は 0.74 であり、実際の睡眠時間に対する絶対誤差率は 8.9% であった。 提案するネットワークの性能は、より情報的な信号(EEGを除く)を使用する場合の最先端のアルゴリズムに匹敵する。

The regulation of the autonomic nervous system changes with the sleep stages causing variations in the physiological variables. We exploit these changes with the aim of classifying the sleep stages in awake or asleep using pulse oximeter signals. We applied a recurrent neural network to heart rate and peripheral oxygen saturation signals to classify the sleep stage every 30 seconds. The network architecture consists of two stacked layers of bidirectional gated recurrent units (GRUs) and a softmax layer to classify the output. In this paper, we used 5000 patients from the Sleep Heart Health Study dataset. 2500 patients were used to train the network, and two subsets of 1250 were used to validate and test the trained models. In the test stage, the best result obtained was 90.13% accuracy, 94.13% sensitivity, 80.26% specificity, 92.05% precision, and 84.68% negative predictive value. Further, the Cohen's Kappa coefficient was 0.74 and the average absolute error percentage to the actual sleep time was 8.9%. The performance of the proposed network is comparable with the state-of-the-art algorithms when they use much more informative signals (except those with EEG).
翻訳日:2022-11-02 01:56:16 公開日:2020-08-07
# 可変選択におけるスパースCCAモデルの群化効果

Grouping effects of sparse CCA models in variable selection ( http://arxiv.org/abs/2008.03392v1 )

ライセンス: Link先を確認
Kefei Liu, Qi Long, Li Shen(参考訳) スパース正準相関解析(sparse canonical correlation analysis, SCCA)は、最大相関を持つ2つの変数のスパース線形結合を求める二変数相関モデルである。 標準のSCCAモデルに加えて、一対の正準変数間の相互共分散を近似する単純化されたSCCA基準が、計算の単純さから文献で広く使われている。 しかし、これらの2つのモデルの解の挙動や性質は理論上不明である。 本稿では,可変選択における標準および単純化されたSCCAモデルのグルーピング効果を解析する。 高次元設定では、変数は高いグループ内相関と低いグループ間相関を持つグループを形成することが多い。 我々の理論分析では, 単純化されたSCCAは変数群を共に選択または選択し, 標準のSCCAは関連変数群からいくつかの支配変数をランダムに選択する。 合成データおよび実画像遺伝データを用いた実験結果から, 理論的解析結果が得られた。

The sparse canonical correlation analysis (SCCA) is a bi-multivariate association model that finds sparse linear combinations of two sets of variables that are maximally correlated with each other. In addition to the standard SCCA model, a simplified SCCA criterion which maixmizes the cross-covariance between a pair of canonical variables instead of their cross-correlation, is widely used in the literature due to its computational simplicity. However, the behaviors/properties of the solutions of these two models remain unknown in theory. In this paper, we analyze the grouping effect of the standard and simplified SCCA models in variable selection. In high-dimensional settings, the variables often form groups with high within-group correlation and low between-group correlation. Our theoretical analysis shows that for grouped variable selection, the simplified SCCA jointly selects or deselects a group of variables together, while the standard SCCA randomly selects a few dominant variables from each relevant group of correlated variables. Empirical results on synthetic data and real imaging genetics data verify the finding of our theoretical analysis.
翻訳日:2022-11-02 01:55:56 公開日:2020-08-07
# グラフィックデザインタイプ間の視覚的重要性の予測

Predicting Visual Importance Across Graphic Design Types ( http://arxiv.org/abs/2008.02912v1 )

ライセンス: Link先を確認
Camilo Fosco, Vincent Casser, Amish Kumar Bedi, Peter O'Donovan, Aaron Hertzmann, Zoya Bylinskii(参考訳) 本稿では,入力グラフィックデザインにおける視覚的重要性と自然画像におけるサリエンシを,新たなデータセットやアプリケーションとともに予測するUMSI(Unified Model of Saliency and Importance)を提案する。 従来は、特定のデータセットで個別に学習し、適用範囲が限定され、新規画像クラスへの一般化が不十分であり、ユーザーはどの入力にどのモデルを適用するかを知る必要がある。 UMSIは、ポスター、インフォグラフィック、モバイルUI、および自然画像を含むさまざまなデザインクラスのイメージを同時にトレーニングしたディープラーニングベースのモデルであり、入力を分類する自動分類モジュールを含んでいる。 これにより、ユーザが入力にラベルを付けることなく、モデルをより効率的に動作させることができる。 また、重要情報を付加した新しいデザインデータセットであるImp1kについても紹介する。 デザイン要素の相対的重要度を調整するツールと、視覚的重要度を維持しつつ新しいアスペクト比にデザインをリフローするツールを含む、重要度予測を使用する2つの新しいデザインインターフェースを示す。 モデル、コード、重要度データセットはhttps://predimportance.mit.edu.com/で利用可能である。

This paper introduces a Unified Model of Saliency and Importance (UMSI), which learns to predict visual importance in input graphic designs, and saliency in natural images, along with a new dataset and applications. Previous methods for predicting saliency or visual importance are trained individually on specialized datasets, making them limited in application and leading to poor generalization on novel image classes, while requiring a user to know which model to apply to which input. UMSI is a deep learning-based model simultaneously trained on images from different design classes, including posters, infographics, mobile UIs, as well as natural images, and includes an automatic classification module to classify the input. This allows the model to work more effectively without requiring a user to label the input. We also introduce Imp1k, a new dataset of designs annotated with importance information. We demonstrate two new design interfaces that use importance prediction, including a tool for adjusting the relative importance of design elements, and a tool for reflowing designs to new aspect ratios while preserving visual importance. The model, code, and importance dataset are available at https://predimportance.mit.edu .
翻訳日:2022-11-02 01:55:38 公開日:2020-08-07
# SimPatch:画像パッチ間の近辺の類似性マッチング

SimPatch: A Nearest Neighbor Similarity Match between Image Patches ( http://arxiv.org/abs/2008.03085v1 )

ライセンス: Link先を確認
Aritra Banerjee(参考訳) 画像中のパッチ間の類似度を測定することは、様々なタスクにおいて基本的なビルディングブロックである。 当然、パッチサイズはマッチングの品質と、それに伴うアプリケーションパフォーマンスに大きな影響を与えます。 比較的小さなパッチではなく、大きなパッチを使って、各パッチにより多くの情報が含まれるようにしています。 特徴行列を構成する個々の画像パッチの特徴を抽出し,画像に最も近い近傍のパッチを見つけるために,異なる特徴抽出機構を用いる。 最寄りのパッチは,与えられた画像に対する問合せパッチに対して2つの異なる隣接アルゴリズムを用いて計算され,その結果が本論文で実証されている。

Measuring the similarity between patches in images is a fundamental building block in various tasks. Naturally, the patch-size has a major impact on the matching quality, and on the consequent application performance. We try to use large patches instead of relatively small patches so that each patch contains more information. We use different feature extraction mechanisms to extract the features of each individual image patches which forms a feature matrix and find out the nearest neighbor patches in the image. The nearest patches are calculated using two different nearest neighbor algorithms in this paper for a query patch for a given image and the results have been demonstrated in this paper.
翻訳日:2022-11-02 01:55:18 公開日:2020-08-07
# rejoinder: 機械学習による因果パラメータ推定のための名目信頼区間範囲のほぼ仮定なしテストについて

Rejoinder: On nearly assumption-free tests of nominal confidence interval coverage for causal parameters estimated by machine learning ( http://arxiv.org/abs/2008.03288v1 )

ライセンス: Link先を確認
Lin Liu and Rajarshi Mukherjee and James M. Robins(参考訳) これは、ケネディ、バラクリシュナン、ワッサーマンによる論文「機械学習によって推定される因果的パラメータに対する名目的信頼区間のカバレッジに関するほぼ仮定のないテスト」の議論への反論である。

This is the rejoinder to the discussion by Kennedy, Balakrishnan and Wasserman on the paper "On nearly assumption-free tests of nominal confidence interval coverage for causal parameters estimated by machine learning" published in Statistical Science.
翻訳日:2022-11-02 01:49:24 公開日:2020-08-07
# 時間的インフォームドアテンションネットワークによる北京オペラ合成

Peking Opera Synthesis via Duration Informed Attention Network ( http://arxiv.org/abs/2008.03029v1 )

ライセンス: Link先を確認
Yusong Wu, Shengchen Li, Chengzhu Yu, Heng Lu, Chao Weng, Liqiang Zhang, Dong Yu(参考訳) 北京オペラは200年ほど前から中国の芸能界でもっとも支配的な形式となっている。 北京のオペラ歌手は通常、即興と表現性を導入して非常に強い個人的なスタイルを示し、実際のリズムやピッチの輪郭を元の音楽譜から大きく逸脱させる。 この矛盾は、北京オペラの歌声合成において音楽のスコアから大きな課題となる。 本研究では,この課題に対処し,Duration Informed Attention Network (DurIAN) に基づく音楽スコアから表現的北京オペラ歌唱を合成することを提案する。 リズムミスマッチに取り組むために、楽譜から与えられた音符持続時間の制約を伴う最適な出力音素継続時間列を求めるためにラグランジュ乗算器を用いる。 ピッチパターンのミスマッチについては,楽譜から直接推定する代わりに,実際の歌声から生成された擬似楽譜を採用し,訓練中に入力として与える。 提案するシステムでは,高い音色,ピッチ,表現力を有する北京オペラの歌唱音声を合成できることを示す。

Peking Opera has been the most dominant form of Chinese performing art since around 200 years ago. A Peking Opera singer usually exhibits a very strong personal style via introducing improvisation and expressiveness on stage which leads the actual rhythm and pitch contour to deviate significantly from the original music score. This inconsistency poses a great challenge in Peking Opera singing voice synthesis from a music score. In this work, we propose to deal with this issue and synthesize expressive Peking Opera singing from the music score based on the Duration Informed Attention Network (DurIAN) framework. To tackle the rhythm mismatch, Lagrange multiplier is used to find the optimal output phoneme duration sequence with the constraint of the given note duration from music score. As for the pitch contour mismatch, instead of directly inferring from music score, we adopt a pseudo music score generated from the real singing and feed it as input during training. The experiments demonstrate that with the proposed system we can synthesize Peking Opera singing voice with high-quality timbre, pitch and expressiveness.
翻訳日:2022-11-02 01:49:16 公開日:2020-08-07
# 逐次音声変換のための事前学習技術

Pretraining Techniques for Sequence-to-Sequence Voice Conversion ( http://arxiv.org/abs/2008.03088v1 )

ライセンス: Link先を確認
Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda(参考訳) sequence-to-sequence (seq2seq) voice conversion (vc) モデルは、韻律変換能力があるため魅力的である。 それでも、十分なデータがなければ、Seq2seq VCモデルは、変換された音声の不安定な訓練や発音ミスに悩まされる可能性がある。 これらの欠点に対処するために,大規模コーパスが容易に利用できる他の音声処理タスク,通常,テキスト音声(TTS)と自動音声認識(ASR)から知識を伝達することを提案する。 このような事前訓練されたASRまたはTSモデルパラメータで初期化されたVCモデルは、高忠実で高知能な変換音声に対して効果的な隠れ表現を生成することができる。 このような手法をリカレントニューラルネットワーク(RNN)およびトランスフォーマーベースモデルに適用し、系統的な実験を通じて、インテリジェンス、自然性、類似性の観点から、トランスフォーマーモデルに対する事前学習方式の有効性と、トランスフォーマーベースモデルの優越性を実証する。

Sequence-to-sequence (seq2seq) voice conversion (VC) models are attractive owing to their ability to convert prosody. Nonetheless, without sufficient data, seq2seq VC models can suffer from unstable training and mispronunciation problems in the converted speech, thus far from practical. To tackle these shortcomings, we propose to transfer knowledge from other speech processing tasks where large-scale corpora are easily available, typically text-to-speech (TTS) and automatic speech recognition (ASR). We argue that VC models initialized with such pretrained ASR or TTS model parameters can generate effective hidden representations for high-fidelity, highly intelligible converted speech. We apply such techniques to recurrent neural network (RNN)-based and Transformer based models, and through systematical experiments, we demonstrate the effectiveness of the pretraining scheme and the superiority of Transformer based models over RNN-based models in terms of intelligibility, naturalness, and similarity.
翻訳日:2022-11-02 01:48:57 公開日:2020-08-07
# 外科用マスクの老年者感情・音声検出のための音声テンポ発達特徴, BoAW, 釣りベクトルの適用

Applying Speech Tempo-Derived Features, BoAW and Fisher Vectors to Detect Elderly Emotion and Speech in Surgical Masks ( http://arxiv.org/abs/2008.03183v1 )

ライセンス: Link先を確認
G\'abor Gosztolya and L\'aszl\'o T\'oth(参考訳) 2020年のinterspeech computational paralinguistics challenge (compare) は、高齢者の話者の覚醒レベルとヴァレンスを識別し、実際の話者が手術用マスクを着用しているかどうかを判断し、話者の実際の呼吸を推定する3つのサブチャレントで構成される。 チャレンジへのコントリビューションでは,高齢者の感情とマスクのサブチャレンジに焦点をあてる。 ComParE関数やBag-of-Audio-Words,Fisherベクターなどの標準的・標準的特徴を活用することに加えて,感情が発話速度(音声速度)に関係していることを活用する。 これを利用するために,asrシステムを用いて電話レベル認識を行い,発話テンポ,発話テンポ,ポーズ量を測定する各種属性などの出力から特徴を抽出する。 また, 手術用マスクを装着することで, 話者の不安感が増し, 発声速度が遅くなり, 動揺感が増すという仮説を立てた。 Mask Sub-Challengeの実験結果では,この理論は正当化されなかったが,高齢者の感情サブ-Challengeでは,開発セットとクロスバリデーションの両方において,この特徴型による覚醒値と価値を有意に改善した。

The 2020 INTERSPEECH Computational Paralinguistics Challenge (ComParE) consists of three Sub-Challenges, where the tasks are to identify the level of arousal and valence of elderly speakers, determine whether the actual speaker wearing a surgical mask, and estimate the actual breathing of the speaker. In our contribution to the Challenge, we focus on the Elderly Emotion and the Mask sub-challenges. Besides utilizing standard or close-to-standard features such as ComParE functionals, Bag-of-Audio-Words and Fisher vectors, we exploit that emotion is related to the velocity of speech (i.e. speech rate). To utilize this, we perform phone-level recognition using an ASR system, and extract features from the output such as articulation tempo, speech tempo, and various attributes measuring the amount of pauses. We also hypothesize that wearing a surgical mask makes the speaker feel uneasy, leading to a slower speech rate and more hesitations; hence, we experiment with the same features in the Mask sub-challenge as well. Although this theory was not justified by the experimental results on the Mask Sub-Challenge, in the Elderly Emotion Sub-Challenge we got significantly improved arousal and valence values with this feature type both on the development set and in cross-validation.
翻訳日:2022-11-02 01:48:40 公開日:2020-08-07
# NuI-Go:網膜画像非均一照明除去のための再帰的非局所エンコーダデコーダネットワーク

NuI-Go: Recursive Non-Local Encoder-Decoder Network for Retinal Image Non-Uniform Illumination Removal ( http://arxiv.org/abs/2008.02984v1 )

ライセンス: Link先を確認
Chongyi Li, Huazhu Fu, Runmin Cong, Zechao Li, Qianqian Xu(参考訳) 網膜画像は、臨床医が眼疾患の早期診断に広く用いられている。 しかし、網膜画像の品質は、眼の病変と不完全な撮像過程のため、臨床的に不十分であることが多い。 網膜画像における最も困難な品質劣化問題の1つは、病理情報を阻害し、さらに眼科医の診断やコンピュータ支援分析に支障をきたす非一様性であり、この問題に対処するため、劣化した網膜画像を漸進的に拡張するための3つの再帰的非局所エンコーダ・デコーダ残差ブロック(nedrbs)からなる、nui-goと呼ばれる網膜画像の非一様照明除去ネットワークを提案する。 NEDRBの各モジュールには、階層的な特徴表現をキャプチャする機能エンコーダモジュール、コンテキスト情報をモデル化する非ローカルコンテキストモジュール、詳細と空間次元を復元する機能デコーダモジュールが含まれている。 さらに、エンコーダモジュールとデコーダモジュールとの対称なスキップ接続は、長距離情報補償と再利用を提供する。 画像の詳細と色を良好に保ちながら、網膜画像上の均一でない照明を効果的に除去できることを示す。 さらに,網膜血管セグメンテーションの精度向上のための提案手法の利点を示す。

Retinal images have been widely used by clinicians for early diagnosis of ocular diseases. However, the quality of retinal images is often clinically unsatisfactory due to eye lesions and imperfect imaging process. One of the most challenging quality degradation issues in retinal images is non-uniform which hinders the pathological information and further impairs the diagnosis of ophthalmologists and computer-aided analysis.To address this issue, we propose a non-uniform illumination removal network for retinal image, called NuI-Go, which consists of three Recursive Non-local Encoder-Decoder Residual Blocks (NEDRBs) for enhancing the degraded retinal images in a progressive manner. Each NEDRB contains a feature encoder module that captures the hierarchical feature representations, a non-local context module that models the context information, and a feature decoder module that recovers the details and spatial dimension. Additionally, the symmetric skip-connections between the encoder module and the decoder module provide long-range information compensation and reuse. Extensive experiments demonstrate that the proposed method can effectively remove the non-uniform illumination on retinal images while well preserving the image details and color. We further demonstrate the advantages of the proposed method for improving the accuracy of retinal vessel segmentation.
翻訳日:2022-11-02 01:48:12 公開日:2020-08-07
# 照明内容の視覚的知覚に関する研究

A Study on Visual Perception of Light Field Content ( http://arxiv.org/abs/2008.03195v1 )

ライセンス: Link先を確認
Ailbhe Gill, Emin Zerman, Cagri Ozcinar, Aljosa Smolic(参考訳) ビジュアルコンピューティングシステムの効果的な設計は、視覚的注意の期待や、敬遠に大きく依存する。 従来の2d画像や映像では視覚的な注意力は十分研究されているが、没入型メディアにとって非常に活発な研究分野である。 特に、光野の視覚的な注意(カメラやマイクロレンズのグリッドで撮影されたシーンの光線)は、最近になって研究の焦点となったばかりである。 様々な方法でレンダリングされ、消費される可能性があるため、主な課題は、光界コンテンツの視覚知覚の定義である。 本研究は,光場の内容に関する視覚的注意研究である。 様々な方法でユーザに提示する知覚実験を行い,対応する視覚注意データを収集した。 本分析は,光電界イメージングアプリケーションにおけるユーザ行動の特徴を明らかにする。 本論文は、光場データセットと注目データとを具備する。

The effective design of visual computing systems depends heavily on the anticipation of visual attention, or saliency. While visual attention is well investigated for conventional 2D images and video, it is nevertheless a very active research area for emerging immersive media. In particular, visual attention of light fields (light rays of a scene captured by a grid of cameras or micro lenses) has only recently become a focus of research. As they may be rendered and consumed in various ways, a primary challenge that arises is the definition of what visual perception of light field content should be. In this work, we present a visual attention study on light field content. We conducted perception experiments displaying them to users in various ways and collected corresponding visual attention data. Our analysis highlights characteristics of user behaviour in light field imaging applications. The light field data set and attention data are provided with this paper.
翻訳日:2022-11-02 01:47:48 公開日:2020-08-07
# 第一量子化推定のための深部DCT係数分布解析

In-Depth DCT Coefficient Distribution Analysis for First Quantization Estimation ( http://arxiv.org/abs/2008.03206v1 )

ライセンス: Link先を確認
Sebastiano Battiato (1), Oliver Giudice (1), Francesco Guarnera (1), Giovanni Puglisi (2) ((1) University of Catania, (2) University of Cagliari)(参考訳) JPEG二重圧縮画像におけるトレースの活用は、調査において非常に重要である。 このような知見を適切に活用して、第1量子化推定(FQE)を行い、ソースカメラモデル識別(CMI)を取得し、デジタル画像の歴史を再構築することができる。 本稿では,JPEGの2重圧縮画像に対する第1の量子化係数を統計的・機械学習の混合手法を用いて推定する手法を提案する。 提示された解は、量子化行列に関する前提条件なしで機能することが示される。 実験結果と最先端技術との比較により,提案手法の有効性が示された。

The exploitation of traces in JPEG double compressed images is of utter importance for investigations. Properly exploiting such insights, First Quantization Estimation (FQE) could be performed in order to obtain source camera model identification (CMI) and therefore reconstruct the history of a digital image. In this paper, a method able to estimate the first quantization factors for JPEG double compressed images is presented, employing a mixed statistical and Machine Learning approach. The presented solution is demonstrated to work without any a-priori assumptions about the quantization matrices. Experimental results and comparisons with the state-of-the-art show the goodness of the proposed technique.
翻訳日:2022-11-02 01:47:37 公開日:2020-08-07
# 推定ハンドポーズと残留強化学習を用いた物理に基づくデクサラスマニピュレーション

Physics-Based Dexterous Manipulations with Estimated Hand Poses and Residual Reinforcement Learning ( http://arxiv.org/abs/2008.03285v1 )

ライセンス: Link先を確認
Guillermo Garcia-Hernando and Edward Johns and Tae-Kyun Kim(参考訳) 深度センサと最先端の3Dハンドポーズ推定器(HPE)のみを用いた仮想環境における物体の有害な操作は困難である。 仮想環境は物理、例えば物体の重みや表面摩擦によって支配されるが、力のフィードバックがないため、指先やHPEの接触点のわずかな不正確さでさえ、相互作用を失敗させる可能性がある。 従来の芸術は、指関節が仮想物体を貫通する際に、指の閉鎖方向の接触力を生成する。 単純な把握シナリオには役立つが、手動操作のような巧妙な操作には適用できない。 既存の強化学習(RL)と模倣学習(IL)は、オンラインユーザ入力を考慮せずに、タスク固有の報酬を用いてスキルを学ぶエージェントにアプローチする。 そこで本研究では,物理シミュレータ上でタスクを遂行するために必要なコンタクトを導入する仮想ポーズに対して,ノイズの多い入力手のポーズをマッピングするモデルを学ぶことを提案する。 このエージェントは、モデルフリーハイブリッドrl+ilアプローチを用いて残留設定で訓練される。 物理誘導補正されたターゲットポーズが入力空間に再マップされると、3Dハンドポーズ推定報酬が導入され、HPE精度が向上する。 このモデルでは, 接触に小さなが重要な関節変位を適用してHPE誤差を補正するので, 生成した動きをユーザ入力に近付けるのに役立つ。 仮想インタラクションを成功させるhpeシーケンスは存在しないので,システムを訓練し評価するためのデータ生成手法を提案する。 筆者らは,VRにおける手動物体の相互作用と,それを用いた手動物体の動作再構成という,手動姿勢推定を用いた2つのアプリケーションでテストを行った。

Dexterous manipulation of objects in virtual environments with our bare hands, by using only a depth sensor and a state-of-the-art 3D hand pose estimator (HPE), is challenging. While virtual environments are ruled by physics, e.g. object weights and surface frictions, the absence of force feedback makes the task challenging, as even slight inaccuracies on finger tips or contact points from HPE may make the interactions fail. Prior arts simply generate contact forces in the direction of the fingers' closures, when finger joints penetrate virtual objects. Although useful for simple grasping scenarios, they cannot be applied to dexterous manipulations such as in-hand manipulation. Existing reinforcement learning (RL) and imitation learning (IL) approaches train agents that learn skills by using task-specific rewards, without considering any online user input. In this work, we propose to learn a model that maps noisy input hand poses to target virtual poses, which introduces the needed contacts to accomplish the tasks on a physics simulator. The agent is trained in a residual setting by using a model-free hybrid RL+IL approach. A 3D hand pose estimation reward is introduced leading to an improvement on HPE accuracy when the physics-guided corrected target poses are remapped to the input space. As the model corrects HPE errors by applying minor but crucial joint displacements for contacts, this helps to keep the generated motion visually close to the user input. Since HPE sequences performing successful virtual interactions do not exist, a data generation scheme to train and evaluate the system is proposed. We test our framework in two applications that use hand pose estimates for dexterous manipulations: hand-object interactions in VR and hand-object motion reconstruction in-the-wild.
翻訳日:2022-11-02 01:47:26 公開日:2020-08-07
# レーダ信号生成のための生成逆ネットワーク

Generative Adversarial Network for Radar Signal Generation ( http://arxiv.org/abs/2008.03346v1 )

ライセンス: Link先を確認
Thomas Truong and Svetlana Yanushkevich(参考訳) レーダーを用いた人間の物体検出法における主要な障害と、セキュリティとアクセス制御システムへのシームレスな統合は、高品質なレーダー信号の収集が困難である。 generative adversarial networks (gan) は画像およびオーディオ処理の分野でデータ生成アプリケーションにおいて有望であることを示した。 そこで本稿では,レーダ信号生成への応用を目的としたGANの設計を提案する。 FDTD(Finite-Difference Time-Domain)法を用いて収集したデータは、GANを訓練し、各クラスに対してレーダー信号のサンプルを生成する訓練データとして、隠れた3つのオブジェクトクラス(オブジェクト、大きなオブジェクト、小さなオブジェクト)に使用される。 提案するganは,質的人間観測者による訓練データと区別できないレーダ信号データを生成する。

A major obstacle in radar based methods for concealed object detection on humans and seamless integration into security and access control system is the difficulty in collecting high quality radar signal data. Generative adversarial networks (GAN) have shown promise in data generation application in the fields of image and audio processing. As such, this paper proposes the design of a GAN for application in radar signal generation. Data collected using the Finite-Difference Time-Domain (FDTD) method on three concealed object classes (no object, large object, and small object) were used as training data to train a GAN to generate radar signal samples for each class. The proposed GAN generated radar signal data which was indistinguishable from the training data by qualitative human observers.
翻訳日:2022-11-02 01:46:54 公開日:2020-08-07
# 解答集合プログラミングを用いた安定ルームメイト問題の一般的な枠組み

A General Framework for Stable Roommates Problems using Answer Set Programming ( http://arxiv.org/abs/2008.03050v1 )

ライセンス: Link先を確認
Esra Erdem, Muge Fidan, David Manlove, Patrick Prosser(参考訳) 安定的ルームメイト問題 (stable roommates problem, sr) は、他のエージェントよりもエージェントの好みをルームメイト(roommates)として挙げることによって特徴づけられる。 srに対する解決策は、それぞれのペアが部屋を共有するようにエージェントをペアに分割することであり、このマッチングをブロックするエージェントのペアは存在しない(つまり、マッチングにおいて相手をルームメイトに好む)。 SRの興味深いバリエーションは、アプリケーションによって動機づけられる(例えば、選好リストは不完全(SRI)であり、関係(SRTI)を伴い、より公平な解を見つけようとする(例えば、平等主義的SR)。 安定結婚問題とは異なり、全てのSRインスタンスが解を持つことは保証されない。 そのため、良好な解(例えば、ほぼSR)を見つけようとするSRのバリエーションもある。 これらの変種のほとんどはNPハードである。 我々は,srti-aspと呼ばれる形式的フレームワークを導入し,論理プログラミングパラダイムの解集合プログラミングを活用し,srの変形の多くを解決するための証明可能かつ汎用的な手法を提案する。 私たちの実証分析は、SRTI-ASPがアプリケーションにも有望であることを示している。 本論文はTPLPの受容について検討中である。

The Stable Roommates problem (SR) is characterized by the preferences of agents over other agents as roommates: each agent ranks all others in strict order of preference. A solution to SR is then a partition of the agents into pairs so that each pair shares a room, and there is no pair of agents that would block this matching (i.e., who prefers the other to their roommate in the matching). There are interesting variations of SR that are motivated by applications (e.g., the preference lists may be incomplete (SRI) and involve ties (SRTI)), and that try to find a more fair solution (e.g., Egalitarian SR). Unlike the Stable Marriage problem, every SR instance is not guaranteed to have a solution. For that reason, there are also variations of SR that try to find a good-enough solution (e.g., Almost SR). Most of these variations are NP-hard. We introduce a formal framework, called SRTI-ASP, utilizing the logic programming paradigm Answer Set Programming, that is provable and general enough to solve many of such variations of SR. Our empirical analysis shows that SRTI-ASP is also promising for applications. This paper is under consideration for acceptance in TPLP.
翻訳日:2022-11-02 01:46:41 公開日:2020-08-07
# RGB-Dサルエント物体検出のためのカスケードグラフニューラルネットワーク

Cascade Graph Neural Networks for RGB-D Salient Object Detection ( http://arxiv.org/abs/2008.03087v1 )

ライセンス: Link先を確認
Ao Luo, Xin Li, Fan Yang, Zhicheng Jiao, Hong Cheng and Siwei Lyu(参考訳) 本稿では,rgb-d画像におけるsalient object detection(sod)の問題点について,色情報と深度情報の両方を用いて検討し,rgb-d画像からsalient object detection(sod)を行う際の技術的課題について述べる。 Current works either simply distill prior knowledge from the corresponding depth map for handling the RGB-image or blindly fuse color and geometric information to generate the coarse depth-aware representations, hindering the performance of RGB-D saliency detectors.In this work, we introduceCascade Graph Neural Networks(Cas-Gnn),a unified framework which is capable of comprehensively distilling and reasoning the mutual benefits between these two data sources through a set of cascade graphs, to learn powerful representations for RGB-D salient object detection. Cas-Gnnは2つのデータソースを個別に処理し、新しいCascade Graph Reasoning(CGR)モジュールを使用して強力な高密度な特徴埋め込みを学習する。 従来のアプローチとは対照的に,補完的なデータソース間の高レベルの関係を明示的にモデル化し,推論することで,オクルージョンや曖昧さといった課題を克服することができる。 大規模な実験により、Cas-Gnnはいくつかの広く使用されているベンチマークで既存のRGB-DSODアプローチよりも大幅に性能が向上した。

In this paper, we study the problem of salient object detection (SOD) for RGB-D images using both color and depth information.A major technical challenge in performing salient object detection fromRGB-D images is how to fully leverage the two complementary data sources. Current works either simply distill prior knowledge from the corresponding depth map for handling the RGB-image or blindly fuse color and geometric information to generate the coarse depth-aware representations, hindering the performance of RGB-D saliency detectors.In this work, we introduceCascade Graph Neural Networks(Cas-Gnn),a unified framework which is capable of comprehensively distilling and reasoning the mutual benefits between these two data sources through a set of cascade graphs, to learn powerful representations for RGB-D salient object detection. Cas-Gnn processes the two data sources individually and employs a novelCascade Graph Reasoning(CGR) module to learn powerful dense feature embeddings, from which the saliency map can be easily inferred. Contrast to the previous approaches, the explicitly modeling and reasoning of high-level relations between complementary data sources allows us to better overcome challenges such as occlusions and ambiguities. Extensive experiments demonstrate that Cas-Gnn achieves significantly better performance than all existing RGB-DSOD approaches on several widely-used benchmarks.
翻訳日:2022-11-02 01:40:33 公開日:2020-08-07
# アクション検出のためのマルチレベル時間ピラミッドネットワーク

Multi-Level Temporal Pyramid Network for Action Detection ( http://arxiv.org/abs/2008.03270v1 )

ライセンス: Link先を確認
Xiang Wang, Changxin Gao, Shiwei Zhang, and Nong Sang(参考訳) 現在、ワンステージフレームワークは時間的アクション検出に広く適用されているが、アクションインスタンスが広範囲にわたるという課題に悩まされている。 その理由として、例えばシングルショットマルチボックス検出器(SSD)のような一段検出装置は、各頭部に単一レベル層のみを適用した時間的特徴を抽出するが、分類と回帰を行うのに十分な識別性がないためである。 本稿では,特徴の識別を改善するため,マルチレベル時間ピラミッドネットワーク(MLTPN)を提案する。 特に,時間分解能の異なる複数の層から特徴を融合させ,多層時間情報を符号化する。 次に、特徴にマルチレベル機能ピラミッドアーキテクチャを適用し、その識別能力を高めます。 最後に,マルチレベルのマルチスケール機能を融合するシンプルな機能融合モジュールを設計する。 これにより、提案したMLTPNは、異なる期間の異なるアクションインスタンスに対して、リッチで差別的な特徴を学習することができる。 thumos'14 と activitynet v1.3 の2つの難解なデータセットで mltpn を評価し,実験結果から,mltpn が activitynet v1.3 の競合性能を獲得し,thums'14 の最先端のアプローチを著しく上回った。

Currently, one-stage frameworks have been widely applied for temporal action detection, but they still suffer from the challenge that the action instances span a wide range of time. The reason is that these one-stage detectors, e.g., Single Shot Multi-Box Detector (SSD), extract temporal features only applying a single-level layer for each head, which is not discriminative enough to perform classification and regression. In this paper, we propose a Multi-Level Temporal Pyramid Network (MLTPN) to improve the discrimination of the features. Specially, we first fuse the features from multiple layers with different temporal resolutions, to encode multi-layer temporal information. We then apply a multi-level feature pyramid architecture on the features to enhance their discriminative abilities. Finally, we design a simple yet effective feature fusion module to fuse the multi-level multi-scale features. By this means, the proposed MLTPN can learn rich and discriminative features for different action instances with different durations. We evaluate MLTPN on two challenging datasets: THUMOS'14 and Activitynet v1.3, and the experimental results show that MLTPN obtains competitive performance on Activitynet v1.3 and outperforms the state-of-the-art approaches on THUMOS'14 significantly.
翻訳日:2022-11-02 01:39:47 公開日:2020-08-07
# 顔と心電図データを用いた人物識別のためのハイブリッドスコアとランクレベルの融合

Hybrid Score- and Rank-level Fusion for Person Identification using Face and ECG Data ( http://arxiv.org/abs/2008.03353v1 )

ライセンス: Link先を確認
Thomas Truong, Jonathan Graf, Svetlana Yanushkevich(参考訳) ユニモーダル識別システムはセンサデータ収集の誤差に弱いため、被験者を誤識別する可能性が高くなる。 例えば、rgbのフェイスカメラのみのデータに依存すると、暗い環境や被写体がカメラに向き合わなければ問題が発生する可能性がある。 心電図(ECG)のような他の診断法では、皮膚への不適切な鉛接続に問題がある。 識別における誤差は、両者のモデルから収集された情報の融合によって最小化される。 本稿では,RGBビデオとECGデータを同期したBioVid Heat Pain DatabaseのパートAを用いて,顔と心電図データの識別結果を組み合わせる手法を提案する。 10倍のクロスバリデーションでは、顔の識別は98.8%、ECGの識別は96.1%であった。 融合アプローチにより、識別精度は99.8%に向上した。 提案手法では,非重複モードの異なる顔モデルとECGモデルを用いて,識別精度を著しく向上させることができる。

Uni-modal identification systems are vulnerable to errors in sensor data collection and are therefore more likely to misidentify subjects. For instance, relying on data solely from an RGB face camera can cause problems in poorly lit environments or if subjects do not face the camera. Other identification methods such as electrocardiograms (ECG) have issues with improper lead connections to the skin. Errors in identification are minimized through the fusion of information gathered from both of these models. This paper proposes a methodology for combining the identification results of face and ECG data using Part A of the BioVid Heat Pain Database containing synchronized RGB-video and ECG data on 87 subjects. Using 10-fold cross-validation, face identification was 98.8% accurate, while the ECG identification was 96.1% accurate. By using a fusion approach the identification accuracy improved to 99.8%. Our proposed methodology allows for identification accuracies to be significantly improved by using disparate face and ECG models that have non-overlapping modalities.
翻訳日:2022-11-02 01:38:57 公開日:2020-08-07
# 画像の畳み込みトレースを露呈してディープフェイクと戦う

Fighting Deepfake by Exposing the Convolutional Traces on Images ( http://arxiv.org/abs/2008.04095v1 )

ライセンス: Link先を確認
Luca Guarnera (1 and 2), Oliver Giudice (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) 人工知能と画像処理の進歩は、人々がデジタル画像やビデオと対話する方法を変えつつある。 FACEAPPのような幅広いモバイルアプリは、最も先進的なGenerative Adversarial Networks(GAN)を使用して、性別スワップや老化など、人間の顔写真に極端な変換を生成する。 結果は完全に現実的であり、経験のないユーザでも利用しやすい。 この種のメディアオブジェクトはDeepfakeという名前を取って、マルチメディアの法医学分野における新たな課題であるDeepfake検出課題を提起した。 実際、実際の画像からディープフェイクを識別することは、人間の目でも難しい作業であるが、最近の研究は、画像を生成するのに使用されるのと同じ技術を、予備的な良い結果で識別するのと同じ技術を適用しようとしているが、多くの制限がある。 本稿では,画像からディープフェイク指紋を抽出するための新しい手法を提案する。 この方法は、画像生成中にGANが残した畳み込みトレース(CT)を表す指紋を検出し、抽出するよう訓練された期待最大化アルゴリズムに基づいている。 CTは、Deepfake検出タスクにおける最先端技術よりも優れた結果が得られる高い判別力を持つことを示し、異なる攻撃に対して堅牢であることが証明されている。 顔の画像だけでなく、10の異なるGANアーキテクチャのDeepfakesを考慮し、総合的な分類精度を98%以上達成し、CTは画像意味論に頼らずに信頼性を証明している。 最後に,FACEAPPが生成したDeepfakesを用いて,偽検出タスクの精度の93%を達成し,実ケースシナリオにおける提案手法の有効性を実証した。

Advances in Artificial Intelligence and Image Processing are changing the way people interacts with digital images and video. Widespread mobile apps like FACEAPP make use of the most advanced Generative Adversarial Networks (GAN) to produce extreme transformations on human face photos such gender swap, aging, etc. The results are utterly realistic and extremely easy to be exploited even for non-experienced users. This kind of media object took the name of Deepfake and raised a new challenge in the multimedia forensics field: the Deepfake detection challenge. Indeed, discriminating a Deepfake from a real image could be a difficult task even for human eyes but recent works are trying to apply the same technology used for generating images for discriminating them with preliminary good results but with many limitations: employed Convolutional Neural Networks are not so robust, demonstrate to be specific to the context and tend to extract semantics from images. In this paper, a new approach aimed to extract a Deepfake fingerprint from images is proposed. The method is based on the Expectation-Maximization algorithm trained to detect and extract a fingerprint that represents the Convolutional Traces (CT) left by GANs during image generation. The CT demonstrates to have high discriminative power achieving better results than state-of-the-art in the Deepfake detection task also proving to be robust to different attacks. Achieving an overall classification accuracy of over 98%, considering Deepfakes from 10 different GAN architectures not only involved in images of faces, the CT demonstrates to be reliable and without any dependence on image semantic. Finally, tests carried out on Deepfakes generated by FACEAPP achieving 93% of accuracy in the fake detection task, demonstrated the effectiveness of the proposed technique on a real-case scenario.
翻訳日:2022-11-02 01:38:40 公開日:2020-08-07
# コーンの矯正学

Orthologics for Cones ( http://arxiv.org/abs/2008.03172v1 )

ライセンス: Link先を確認
Mena Leemhuis and \"Ozg\"ur L. \"Oz\c{c}ep and Diedrich Wolter(参考訳) 知識表現(kr)技術を使用するアプリケーション、特にデータ駆動型と論理型を組み合わせたアプリケーションでは、オブジェクトのドメインは抽象的な非構造化ドメインではなく、幾何学的オブジェクトの専用で深い構造を示す。 例の1つは、概念空間における自然概念のモデル化に使われる凸集合のクラスであり、凸最適化技術を介して機械学習にリンクする。 本稿では,このような幾何学的構造の論理について考察する。 格子理論の機械を用いて、閉凸錐に対して保たれる部分モジュラリティ則を持つ最小正則の拡張を記述する。 この論理は、可能なデータ構造(凸性/凸性)と十分な表現性(完全整列(凸性)を含む)を組み合わせる。

In applications that use knowledge representation (KR) techniques, in particular those that combine data-driven and logic methods, the domain of objects is not an abstract unstructured domain, but it exhibits a dedicated, deep structure of geometric objects. One example is the class of convex sets used to model natural concepts in conceptual spaces, which also links via convex optimization techniques to machine learning. In this paper we study logics for such geometric structures. Using the machinery of lattice theory, we describe an extension of minimal orthologic with a partial modularity rule that holds for closed convex cones. This logic combines a feasible data structure (exploiting convexity/conicity) with sufficient expressivity, including full orthonegation (exploiting conicity).
翻訳日:2022-11-02 01:37:54 公開日:2020-08-07
# メタロールが組織制度の進化に及ぼす影響

Impact of meta-roles on the evolution of organisational institutions ( http://arxiv.org/abs/2008.04096v1 )

ライセンス: Link先を確認
Amir Hosein Afshar Sedigh, Martin K. Purvis, Bastin Tony Roy Savarimuthu, Maryam A. Purvis, and Christopher K. Frantz(参考訳) 本稿では,エージェントのメタロールのダイナミクスとエージェントの信念の変化が組織の進化に与える影響を考察する。 この研究はエージェントのメタロールをBDIアーキテクチャに組み込む。 この文脈において、研究は、機関の不公平性によるエージェントの認知的不協和の影響を精査する。 我々のモデルを示すために、2つの歴史的長距離貿易社会、すなわちニュー・スルファのアルメニア商人とイギリス東インド会社をシミュレートする。 以上の結果から, エージェントの役割の変化と, 特定の組織的特徴が組み合わさることで, システムのルールが変化することを示す。

This paper investigates the impact of changes in agents' beliefs coupled with dynamics in agents' meta-roles on the evolution of institutions. The study embeds agents' meta-roles in the BDI architecture. In this context, the study scrutinises the impact of cognitive dissonance in agents due to unfairness of institutions. To showcase our model, two historical long-distance trading societies, namely Armenian merchants of New-Julfa and the English East India Company are simulated. Results show how change in roles of agents coupled with specific institutional characteristics leads to changes of the rules in the system.
翻訳日:2022-11-02 01:37:26 公開日:2020-08-07
# 局所形状問合せに基づく3次元オブジェクト検索のためのインデクシングと記述子

An Indexing Scheme and Descriptor for 3D Object Retrieval Based on Local Shape Querying ( http://arxiv.org/abs/2008.02916v1 )

ライセンス: Link先を確認
Bart Iver van Blokland and Theoharis Theoharis(参考訳) 局所形状問合せのためのハミング木と呼ばれるハミング距離に基づくバイナリ記述子インデックス方式を提案する。 Quick Intersection Count Change Image (QUICCI)と呼ばれる新しいバイナリクラッタ耐性ディスクリプタも導入された。 この局所的な形状記述子は極めて小さく、比較が早い。 さらに,QUICCI画像に適用可能なWeighted Hammingと呼ばれる新しい距離関数を提案する。 SHREC2017データセットから得られた8億8800万のQUICCI画像に対して、インデックス化方式とQUICCIの有効性を実証し、また、QUICCIのクラッタ抵抗をクラッタボックス実験を用いて示す。

A binary descriptor indexing scheme based on Hamming distance called the Hamming tree for local shape queries is presented. A new binary clutter resistant descriptor named Quick Intersection Count Change Image (QUICCI) is also introduced. This local shape descriptor is extremely small and fast to compare. Additionally, a novel distance function called Weighted Hamming applicable to QUICCI images is proposed for retrieval applications. The effectiveness of the indexing scheme and QUICCI is demonstrated on 828 million QUICCI images derived from the SHREC2017 dataset, while the clutter resistance of QUICCI is shown using the clutterbox experiment.
翻訳日:2022-11-02 01:31:33 公開日:2020-08-07
# 数理方程式のテキスト記述

Textual Description for Mathematical Equations ( http://arxiv.org/abs/2008.02980v1 )

ライセンス: Link先を確認
Ajoy Mondal and C. V. Jawahar(参考訳) 文書画像中の数学的表現や方程式を読むことは、数学的記号や表現の大きなばらつきのため非常に難しい。 本稿では,この方程式の内部的意味を解釈するテキスト記述の生成タスクとして,数学的方程式の読み上げを行う。 コンピュータビジョンにおける自然な画像キャプション問題に触発されて、数式画像を読むためのテキスト記述を生成することを学ぶ、新しいエンドツーエンドのトレーニング可能なディープニューラルネットワークベースのアプローチである数学的方程式記述(MED)モデルを提案する。 medモデルは,入力数式画像の特徴を抽出するエンコーダとしての畳み込みニューラルネットワークと,入力数式画像に関する記述を生成する注意機構を備えた再帰ニューラルネットワークから構成される。 数式画像データセットのテキスト記述が不適切であるため,実験目的のために2つのデータセットを生成する。 MEDモデルの有効性を検証するために,本研究では,学生が文章の記述を読んだり聴いたりすることで,方程式を書けるかどうかを実世界で検証する。 実験の結果、学生はテキスト記述のみを読めば、ほとんどの方程式を正しく書くことができると結論づけられた。

Reading of mathematical expression or equation in the document images is very challenging due to the large variability of mathematical symbols and expressions. In this paper, we pose reading of mathematical equation as a task of generation of the textual description which interprets the internal meaning of this equation. Inspired by the natural image captioning problem in computer vision, we present a mathematical equation description (MED) model, a novel end-to-end trainable deep neural network based approach that learns to generate a textual description for reading mathematical equation images. Our MED model consists of a convolution neural network as an encoder that extracts features of input mathematical equation images and a recurrent neural network with attention mechanism which generates description related to the input mathematical equation images. Due to the unavailability of mathematical equation image data sets with their textual descriptions, we generate two data sets for experimental purpose. To validate the effectiveness of our MED model, we conduct a real-world experiment to see whether the students are able to write equations by only reading or listening their textual descriptions or not. Experiments conclude that the students are able to write most of the equations correctly by reading their textual descriptions only.
翻訳日:2022-11-02 01:30:47 公開日:2020-08-07
# 3dポイントクラウド理解のためのグローバルコンテキスト対応畳み込み

Global Context Aware Convolutions for 3D Point Cloud Understanding ( http://arxiv.org/abs/2008.02986v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Binh-Son Hua, Wei Chen, Yibin Tian, Sai-Kit Yeung(参考訳) 最近の3Dポイントクラウドのディープラーニングの進歩は、ニューラルネットワークで直接3Dポイントクラウドを消費する畳み込み演算子の導入によって、シーン理解タスクにおいて大きな約束を達成している。 しかし、ポイントクラウドのデータは、特に3Dスキャンで取得したデータを任意に回転させることができる。 近年の研究では、回転不変性を持つ点クラウド畳み込みを設計できることが示されているが、そのような手法は一般的には変換不変な畳み込みだけでなく機能しない。 重要な理由は、点座標と比較して、点雲の畳み込みによって消費される回転不変な特徴が、あまり顕著でないことである。 この問題に対処するために,入力点クラウドから畳み込みへのグローバルコンテキスト情報の統合により特徴の区別を高める新しい畳み込み演算子を提案する。 この目的のために、局所点集合がビンに分解される各点近傍に、グローバルに重み付けされた局所基準フレームを構築する。 各ビンにアンカーポイントを生成し、グローバルな形状特徴を表す。 次に畳み込みを行い、点とアンカーの特徴を最終的な回転不変の特徴に変換する。 本研究では, 点雲の分類, 部分分割, 形状検索, 正規化推定についていくつかの実験を行った。

Recent advances in deep learning for 3D point clouds have shown great promises in scene understanding tasks thanks to the introduction of convolution operators to consume 3D point clouds directly in a neural network. Point cloud data, however, could have arbitrary rotations, especially those acquired from 3D scanning. Recent works show that it is possible to design point cloud convolutions with rotation invariance property, but such methods generally do not perform as well as translation-invariant only convolution. We found that a key reason is that compared to point coordinates, rotation-invariant features consumed by point cloud convolution are not as distinctive. To address this problem, we propose a novel convolution operator that enhances feature distinction by integrating global context information from the input point cloud to the convolution. To this end, a globally weighted local reference frame is constructed in each point neighborhood in which the local point set is decomposed into bins. Anchor points are generated in each bin to represent global shape features. A convolution can then be performed to transform the points and anchor features into final rotation-invariant features. We conduct several experiments on point cloud classification, part segmentation, shape retrieval, and normals estimation to evaluate our convolution, which achieves state-of-the-art accuracy under challenging rotations.
翻訳日:2022-11-02 01:30:27 公開日:2020-08-07
# マルチカメラアソシエーションのためのレバレッジローカライゼーション

Leveraging Localization for Multi-camera Association ( http://arxiv.org/abs/2008.02992v1 )

ライセンス: Link先を確認
Zhongang Cai, Cunjun Yu, Junzhe Zhang, Jiawei Ren, Haiyu Zhao(参考訳) マルチカメラシステムの異なる視点における検出境界ボックスの連想に対する深層学習手法であるMcAssocを提案する。 アカデミアの大多数はシングルカメラのコンピュータビジョンのアルゴリズムを開発しているが、マルチカメラシステムに組み込む研究はほとんど注目されていない。 本稿では,間接アソシエーションと追加のクロスローカライズ・フォー・メーションを活用した3分岐アーキテクチャを設計した。 クロスカメラ検出アソシエーションの性能評価のために,新しい計測基準である画像対関連精度(IPAA)が設計された。 特に類似の物体が存在する場合,suc-cessful cross-camera association においてローカライズ情報が重要であることを示す。 本論文は,ミュートリプルカメラにおける大規模ベンチマークであるmessytableに先立ち,実験的な研究である。

We present McAssoc, a deep learning approach to the as-sociation of detection bounding boxes in different views ofa multi-camera system. The vast majority of the academiahas been developing single-camera computer vision algo-rithms, however, little research attention has been directedto incorporating them into a multi-camera system. In thispaper, we designed a 3-branch architecture that leveragesdirect association and additional cross localization infor-mation. A new metric, image-pair association accuracy(IPAA) is designed specifically for performance evaluationof cross-camera detection association. We show in the ex-periments that localization information is critical to suc-cessful cross-camera association, especially when similar-looking objects are present. This paper is an experimentalwork prior to MessyTable, which is a large-scale bench-mark for instance association in mutliple cameras.
翻訳日:2022-11-02 01:30:04 公開日:2020-08-07
# Bag-of-conceptsアプローチを用いた知覚概念の文脈ベース曖昧化モデル

A Context-based Disambiguation Model for Sentiment Concepts Using a Bag-of-concepts Approach ( http://arxiv.org/abs/2008.03020v1 )

ライセンス: Link先を確認
Zeinab Rajabi, MohammadReza Valavi, Maryam Hourali(参考訳) 異なるソーシャルネットワークやAmazonなどのオンライン消費者システム上でのユーザ生成コンテンツの普及に伴い、インターネット上で利用可能な意見情報の量が増えてきた。 感情分析の主な課題の1つは、テキスト内の極性を検出することである。 既存の極性検出法は主にキーワードとその単純な周波数数に重点を置いているが、それらは自然概念の意味や暗黙の次元を軽視している。 背景知識は概念の極性を決定する上で重要な役割を果たすが、極性検出法では無視されている。 本研究では,コモンセンス知識を用いてあいまいな極性概念を解くための文脈モデルを提案する。 まず、確率分布を計算することにより、SenticNetに基づく曖昧な感情概念の源泉を生成するモデルを示す。 次に、概念の袋(bag-of-concepts)アプローチを使用して、概念ネットハンドリングによる曖昧さと意味的拡張を取り除き、失われた知識を克服する。 ConceptNetは、多数のコモンセンス概念を持つ大規模なセマンティックネットワークである。 本稿では,不明瞭な概念と強い関係を持つ文脈概念を選択するために,ポイント相互情報(PMI)尺度を用いる。 曖昧な概念の極性は、肯定的/否定的文脈概念と意味的知識ベースにおける概念の関係を用いて正確に検出される。 テキスト表現スキームは、概念ネットセマンティックネットワークの概念に基づく単語埋め込みモデルであるNumberbatchを用いて意味的にリッチ化されている。 提案モデルはsemevalと呼ばれる製品レビューのコーパスを適用することで評価される。 実験の結果,提案モデルの有効性を示す精度は82.07%であった。

With the widespread dissemination of user-generated content on different social networks, and online consumer systems such as Amazon, the quantity of opinionated information available on the Internet has been increased. One of the main tasks of the sentiment analysis is to detect polarity within a text. The existing polarity detection methods mainly focus on keywords and their naive frequency counts; however, they less regard the meanings and implicit dimensions of the natural concepts. Although background knowledge plays a critical role in determining the polarity of concepts, it has been disregarded in polarity detection methods. This study presents a context-based model to solve ambiguous polarity concepts using commonsense knowledge. First, a model is presented to generate a source of ambiguous sentiment concepts based on SenticNet by computing the probability distribution. Then the model uses a bag-of-concepts approach to remove ambiguities and semantic augmentation with the ConceptNet handling to overcome lost knowledge. ConceptNet is a large-scale semantic network with a large number of commonsense concepts. In this paper, the point mutual information (PMI) measure is used to select the contextual concepts having strong relationships with ambiguous concepts. The polarity of the ambiguous concepts is precisely detected using positive/negative contextual concepts and the relationship of the concepts in the semantic knowledge base. The text representation scheme is semantically enriched using Numberbatch, which is a word embedding model based on the concepts from the ConceptNet semantic network. The proposed model is evaluated by applying a corpus of product reviews, called Semeval. The experimental results revealed an accuracy rate of 82.07%, representing the effectiveness of the proposed model.
翻訳日:2022-11-02 01:22:06 公開日:2020-08-07
# テキスト変換の非識別のためのプライバシ保証

Privacy Guarantees for De-identifying Text Transformations ( http://arxiv.org/abs/2008.03101v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Ali Davody, Thomas Kleinbauer, and Dietrich Klakow(参考訳) 自然言語処理タスクに対する機械学習のアプローチは、現実のユーザデータの包括的な収集から恩恵を受ける。 同時に、データが収集され、処理されたユーザのプライバシーを保護することは明らかである。 音声対話の書き起こしや患者の記録などのテキストコレクションでは、繊細な部分を良質な代替品に置き換えることによって、識別を解除することができる。 しかし、このようなテキスト変換によって、実際にどの程度のプライバシーが保証されているのか。 本稿では,差分プライバシーに基づく一般テキスト変換に基づく非識別方式の形式的プライバシー保証を導出する。 また、ダイアログの書き起こしにおける個人情報のマスキング方法の違いがその後の機械学習タスクに与える影響を計測する。 この目的のために、異なるマスキング戦略を定式化し、プライバシ利用のトレードオフを比較する。 特に,名前付きエンティティ認識,意図検出,対話行為分類といった複数の自然言語理解タスクにおけるディープラーニングモデルを用いた,より洗練された単語単位の置き換え手法と比較した。 単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることがわかった。

Machine Learning approaches to Natural Language Processing tasks benefit from a comprehensive collection of real-life user data. At the same time, there is a clear need for protecting the privacy of the users whose data is collected and processed. For text collections, such as, e.g., transcripts of voice interactions or patient records, replacing sensitive parts with benign alternatives can provide de-identification. However, how much privacy is actually guaranteed by such text transformations, and are the resulting texts still useful for machine learning? In this paper, we derive formal privacy guarantees for general text transformation-based de-identification methods on the basis of Differential Privacy. We also measure the effect that different ways of masking private information in dialog transcripts have on a subsequent machine learning task. To this end, we formulate different masking strategies and compare their privacy-utility trade-offs. In particular, we compare a simple redact approach with more sophisticated word-by-word replacement using deep learning models on multiple natural language understanding tasks like named entity recognition, intent detection, and dialog act classification. We find that only word-by-word replacement is robust against performance drops in various tasks.
翻訳日:2022-11-02 01:21:42 公開日:2020-08-07
# IMS at SemEval-2020 Task 1: どれくらい低いのか? 語彙意味変化検出における次元性

IMS at SemEval-2020 Task 1: How low can you go? Dimensionality in Lexical Semantic Change Detection ( http://arxiv.org/abs/2008.03164v1 )

ライセンス: Link先を確認
Jens Kaiser, Dominik Schlechtweg, Sean Papay, Sabine Schulte im Walde(参考訳) 本研究では,Skip-GramとNegative Smplingを併用した語彙意味変化検出モデルを用いたSemEval-2020 Task 1のシステムについて述べる。 本研究では,Vector Initialization (VI)アライメントに着目し,VectorをSubtask 2の上位モデルと比較し,Vectorの次元を最適化すれば性能が向上することを示した。 性能の違いは、主にモデル固有のノイズ源に起因することが示され、VIアライメントにおける次元と周波数依存性の強い関係が明らかになる。 この結果から,ベクトル空間アライメントを組み込んだ語彙意味変化モデルが次元パラメータの役割により多くの注意を払うことが示唆された。

We present the results of our system for SemEval-2020 Task 1 that exploits a commonly used lexical semantic change detection model based on Skip-Gram with Negative Sampling. Our system focuses on Vector Initialization (VI) alignment, compares VI to the currently top-ranking models for Subtask 2 and demonstrates that these can be outperformed if we optimize VI dimensionality. We demonstrate that differences in performance can largely be attributed to model-specific sources of noise, and we reveal a strong relationship between dimensionality and frequency-induced noise in VI alignment. Our results suggest that lexical semantic change models integrating vector space alignment should pay more attention to the role of the dimensionality parameter.
翻訳日:2022-11-02 01:21:23 公開日:2020-08-07
# 有害事象報告データのベクター表現を構造化知識に再フィッティングすることで薬物移動信号の検出を改善する

Retrofitting Vector Representations of Adverse Event Reporting Data to Structured Knowledge to Improve Pharmacovigilance Signal Detection ( http://arxiv.org/abs/2008.03340v1 )

ライセンス: Link先を確認
Xiruo Ding, Trevor Cohen(参考訳) 逆薬のイベント(ADE)は一般的で費用がかかる。 臨床試験は、潜在的なADEを特定する能力に制約があり、ポストマーケット監視のための自発的報告システムの開発を動機付けている。 統計的手法は、これらの報告から信号を検出するのに便利な方法であるが、その離散的な数に基づく性質から薬物とadesの関係性を活用するのに制限がある。 提案手法であるaer2vecは、類似性のパターンをキャプチャするADEレポートエンティティの分散ベクトル表現を生成するが、語彙知識は利用できない。 本稿では,Aer2vec 薬物の組み込みを RxNorm の知識に適合させ,ベクトル再スケーリングを応用した新たな再適合変種を開発することにより,その限界に対処する。 薬物移動信号検出タスクの文脈で評価すると、再適合したaer2vecは、最小限の事前処理データでトレーニングされた場合、不均等な指標を一貫して上回る。 再スケーリングによるリトロフィッティングにより、評価に用いられる2つの薬剤移動基準セットがより大きく、より困難になる。

Adverse drug events (ADE) are prevalent and costly. Clinical trials are constrained in their ability to identify potential ADEs, motivating the development of spontaneous reporting systems for post-market surveillance. Statistical methods provide a convenient way to detect signals from these reports but have limitations in leveraging relationships between drugs and ADEs given their discrete count-based nature. A previously proposed method, aer2vec, generates distributed vector representations of ADE report entities that capture patterns of similarity but cannot utilize lexical knowledge. We address this limitation by retrofitting aer2vec drug embeddings to knowledge from RxNorm and developing a novel retrofitting variant using vector rescaling to preserve magnitude. When evaluated in the context of a pharmacovigilance signal detection task, aer2vec with retrofitting consistently outperforms disproportionality metrics when trained on minimally preprocessed data. Retrofitting with rescaling results in further improvements in the larger and more challenging of two pharmacovigilance reference sets used for evaluation.
翻訳日:2022-11-02 01:20:21 公開日:2020-08-07
# ASPにおけるマルチエージェントてんかん計画のモデル化

Modelling Multi-Agent Epistemic Planning in ASP ( http://arxiv.org/abs/2008.03007v1 )

ライセンス: Link先を確認
Alessandro Burigana, Francesco Fabiano, Agostino Dovier, Enrico Pontelli(参考訳) 世界を推論し行動するエージェントを設計することは、人工知能コミュニティの主要な目的の1つでした。 単純な"ドメインでの計画では、エージェントは世界に関する事実のみに頼ることができるが、経済、安全保障、正義、政治といったいくつかの文脈では、世界の知識が望ましい目標に達するには不十分である。 これらのシナリオでは、エージェントの信念と他のエージェントの信念を推論する疫学的推論が、勝利戦略の設計に不可欠である。 本稿では,宣言型プログラミング技術を利用したマルチエージェント・エピステミック・セッティングにおける推論の問題に対処する。 特に,マルチショットAnswer Setベースのプランナの実装について,PLATO (ePistemic muLti-agent Answer seT programming sOlver) と呼ばれるマルチエージェントのエピステミック設定で推論できる。 aspパラダイムは、プランナー、w.r.t.その他の命令的実装の簡潔でエレガントな設計を可能にし、正確性の形式的検証の開発を容易にする。 本稿は, アドホックなエピステミック状態表現とASPソルバの効率を生かしたプランナーが, 文献から収集したベンチマークに対して, 競合的な性能を示すことを示す。 TPLPの受け入れは検討中である。

Designing agents that reason and act upon the world has always been one of the main objectives of the Artificial Intelligence community. While for planning in "simple" domains the agents can solely rely on facts about the world, in several contexts, e.g., economy, security, justice and politics, the mere knowledge of the world could be insufficient to reach a desired goal. In these scenarios, epistemic reasoning, i.e., reasoning about agents' beliefs about themselves and about other agents' beliefs, is essential to design winning strategies. This paper addresses the problem of reasoning in multi-agent epistemic settings exploiting declarative programming techniques. In particular, the paper presents an actual implementation of a multi-shot Answer Set Programming-based planner that can reason in multi-agent epistemic settings, called PLATO (ePistemic muLti-agent Answer seT programming sOlver). The ASP paradigm enables a concise and elegant design of the planner, w.r.t. other imperative implementations, facilitating the development of formal verification of correctness. The paper shows how the planner, exploiting an ad-hoc epistemic state representation and the efficiency of ASP solvers, has competitive performance results on benchmarks collected from the literature. It is under consideration for acceptance in TPLP.
翻訳日:2022-11-02 01:19:58 公開日:2020-08-07
# aspにおけるコンフリクト一般化: 正確かつ効果的な非地上制約の学習

Conflict Generalisation in ASP: Learning Correct and Effective Non-Ground Constraints ( http://arxiv.org/abs/2008.03100v1 )

ライセンス: Link先を確認
Richard Taupe, Antonius Weinzierl, Gerhard Friedrich(参考訳) ある問題を解く際に学んだ知識の一般化と再利用は、最先端の解法によって無視されている。 将来的な問題インスタンスの解決を高速化するために、再利用のノウハウを一般化する新しいアプローチを提案する。 我々のソリューションは、よく知られたASPの問題解決技術と推論ロジックベースの機械学習を組み合わせる。 元のプログラムに学習した非基底的制約を追加することで、パフォーマンスを向上することができる。 実例を用いて本手法の効果を実証し,本手法はテストケースで有意な性能上の利点をもたらす制約を学習するために低計算コストを必要とすることを示した。 これらの利点は、地上分解システムや遅延接地システムで見ることができる。 しかし、グラウンド・アンド・ソルフシステムは、追加の制約によって引き起こされる追加のグラウンドングオーバーヘッドに苦しんでいる。 競合最小化により、最小限の学習制約を削減できる。 これは、実験が示すように、接地と解決の努力を大幅に削減する可能性がある。 (TPLPの受容についての検討)

Generalising and re-using knowledge learned while solving one problem instance has been neglected by state-of-the-art answer set solvers. We suggest a new approach that generalises learned nogoods for re-use to speed-up the solving of future problem instances. Our solution combines well-known ASP solving techniques with deductive logic-based machine learning. Solving performance can be improved by adding learned non-ground constraints to the original program. We demonstrate the effects of our method by means of realistic examples, showing that our approach requires low computational cost to learn constraints that yield significant performance benefits in our test cases. These benefits can be seen with ground-and-solve systems as well as lazy-grounding systems. However, ground-and-solve systems suffer from additional grounding overheads, induced by the additional constraints in some cases. By means of conflict minimization, non-minimal learned constraints can be reduced. This can result in significant reductions of grounding and solving efforts, as our experiments show. (Under consideration for acceptance in TPLP.)
翻訳日:2022-11-02 01:19:35 公開日:2020-08-07
# 強化学習によるストリーム推論のためのキャッシング戦略管理

Managing caching strategies for stream reasoning with reinforcement learning ( http://arxiv.org/abs/2008.03212v1 )

ライセンス: Link先を確認
Carmine Dodaro, Thomas Eiter, Paul Ogris, Konstantin Schekotihin(参考訳) 継続的なデータ変更に対する効率的な意思決定は、サイバーフィジカルシステムや業界ディジタル化など、多くのアプリケーションドメインにおいて不可欠です。 現代のストリーム推論フレームワークは、新しいデータがストリームに届くとプログラムのインクリメンタルかつ継続的な評価を使って、様々な現実世界の問題をモデル化し、解決することができる。 適用技術は、コストのかかる再計算を避けるために、例えばデータログライクな具体化や真理維持アルゴリズムを使用し、低レイテンシとストリーム推論のスループットを確保する。 しかし、既存のアプローチの表現力は非常に限られており、例えば、実際に現れる制約のある問題をエンコードすることができない。 本稿では,CDCL(Conflict-Driven Constraint Learning)を用いて,学習制約のインテリジェント管理を用いて,レガシソリューションを効率的に更新する手法を提案する。 特に,従来の問題解決アルゴリズムで計算された学習制約の有効性を連続的に評価するために,強化学習の適用性を検討した。 実世界の再構成問題に対する評価は、前回の繰り返しから学習した制約をCDCLアルゴリズムに提供することにより、ストリーム推論シナリオにおけるアルゴリズムの性能が大幅に向上することを示している。 TPLPの受容についての検討

Efficient decision-making over continuously changing data is essential for many application domains such as cyber-physical systems, industry digitalization, etc. Modern stream reasoning frameworks allow one to model and solve various real-world problems using incremental and continuous evaluation of programs as new data arrives in the stream. Applied techniques use, e.g., Datalog-like materialization or truth maintenance algorithms to avoid costly re-computations, thus ensuring low latency and high throughput of a stream reasoner. However, the expressiveness of existing approaches is quite limited and, e.g., they cannot be used to encode problems with constraints, which often appear in practice. In this paper, we suggest a novel approach that uses the Conflict-Driven Constraint Learning (CDCL) to efficiently update legacy solutions by using intelligent management of learned constraints. In particular, we study the applicability of reinforcement learning to continuously assess the utility of learned constraints computed in previous invocations of the solving algorithm for the current one. Evaluations conducted on real-world reconfiguration problems show that providing a CDCL algorithm with relevant learned constraints from previous iterations results in significant performance improvements of the algorithm in stream reasoning scenarios. Under consideration for acceptance in TPLP.
翻訳日:2022-11-02 01:19:17 公開日:2020-08-07
# SafePILCO:安全でデータ効率の良いポリシー合成のためのソフトウェアツール

SafePILCO: a software tool for safe and data-efficient policy synthesis ( http://arxiv.org/abs/2008.03273v1 )

ライセンス: Link先を確認
Kyriakos Polymenakos, Nikitas Rontsis, Alessandro Abate and Stephen Roberts(参考訳) SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。 これは、元々MATLABで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。 我々はPythonの実装を提供し、既存のライブラリを活用してコードベースを短くモジュール化し、検証、強化学習、コントロールコミュニティによって広く使われるようにしています。

SafePILCO is a software tool for safe and data-efficient policy search with reinforcement learning. It extends the known PILCO algorithm, originally written in MATLAB, to support safe learning. We provide a Python implementation and leverage existing libraries that allow the codebase to remain short and modular, which is appropriate for wider use by the verification, reinforcement learning, and control communities.
翻訳日:2022-11-02 01:13:12 公開日:2020-08-07
# lotteryfl: 非iidデータセット上での宝くじチケット仮説を用いたパーソナライズとコミュニケーション効率のよい連合学習

LotteryFL: Personalized and Communication-Efficient Federated Learning with Lottery Ticket Hypothesis on Non-IID Datasets ( http://arxiv.org/abs/2008.03371v1 )

ライセンス: Link先を確認
Ang Li, Jingwei Sun, Binghui Wang, Lin Duan, Sicheng Li, Yiran Chen, Hai Li(参考訳) フェデレーション学習は、プライバシーを強化した、人気のある分散機械学習パラダイムである。 その主な目標は、できるだけ多くの参加者に優れたパフォーマンスを提供するグローバルモデルを学ぶことです。 この技術は、多くの未解決の課題とともに急速に進歩しており、統計的な異質性(例えば、非iid)とコミュニケーション効率は、連合学習の発展を妨げる2つの重要な課題である。 本稿では,Lottery Ticket仮説を利用して,個人化されたコミュニケーション効率の高いフェデレーション学習フレームワークであるLotteryFLを提案する。 LotteryFLでは、各クライアントはLottery Ticket仮説を適用して宝くじのネットワーク(すなわちベースモデルのサブネットワーク)を学習し、これらの宝くじのネットワークのみがサーバとクライアントの間で通信される。 古典的なフェデレーション学習で共有グローバルモデルを学ぶのではなく、各クライアントは lotteryfl を通じてパーソナライズされたモデルを学ぶ。 本研究では,mnist,cifar-10,emnistに基づく非iidデータセットを,特徴分布スキュー,ラベル分布スキュー,量スキューを考慮して構築する。 これらの非IIDデータセットの実験により、LotteryFLはパーソナライゼーションと通信コストの点で既存のソリューションよりも大幅に優れていることが示された。

Federated learning is a popular distributed machine learning paradigm with enhanced privacy. Its primary goal is learning a global model that offers good performance for the participants as many as possible. The technology is rapidly advancing with many unsolved challenges, among which statistical heterogeneity (i.e., non-IID) and communication efficiency are two critical ones that hinder the development of federated learning. In this work, we propose LotteryFL -- a personalized and communication-efficient federated learning framework via exploiting the Lottery Ticket hypothesis. In LotteryFL, each client learns a lottery ticket network (i.e., a subnetwork of the base model) by applying the Lottery Ticket hypothesis, and only these lottery networks will be communicated between the server and clients. Rather than learning a shared global model in classic federated learning, each client learns a personalized model via LotteryFL; the communication cost can be significantly reduced due to the compact size of lottery networks. To support the training and evaluation of our framework, we construct non-IID datasets based on MNIST, CIFAR-10 and EMNIST by taking feature distribution skew, label distribution skew and quantity skew into consideration. Experiments on these non-IID datasets demonstrate that LotteryFL significantly outperforms existing solutions in terms of personalization and communication cost.
翻訳日:2022-11-02 01:13:07 公開日:2020-08-07
# ライドシェアリング経済における大規模チーム競争の個人的治療効果予測

Predicting Individual Treatment Effects of Large-scale Team Competitions in a Ride-sharing Economy ( http://arxiv.org/abs/2008.07364v1 )

ライセンス: Link先を確認
Teng Ye, Wei Ai, Lingyu Zhang, Ning Luo, Lulu Zhang, Jieping Ye, Qiaozhu Mei(参考訳) 世界中の何百万人ものドライバーが、ライドシェアリング経済を通じて経済的利益と労働スケジュールの柔軟性を享受しているが、一方ではアイデンティティとキャリアの達成感の欠如に苦しんでいる。 社会的アイデンティティとコンテスト理論を取り入れた、経済的にインセンティブを得たチームコンペティションは、ドライバーの生産性、仕事の満足度、維持率を高め、ライドシェアリングプラットフォームのコストよりも収益を上げるための効果的な手段となっている。 これらの競争は全体的に効果があるが、治療効果の背後にある決定的な要因と、個々のドライバーの結果にどのように影響するかは、ほとんど謎に包まれている。 本研究では,大手ライドシェアリングプラットフォームによって組織された500以上の大規模チームコンペティションから収集されたデータを分析し,個々の治療効果を予測する機械学習モデルを構築した。 特徴と予測器の綿密な調査を通じて,サンプル外の予測誤差を24%以上低減することができた。 最高のパフォーマンスモデルを理解することで、ライドシェアリングプラットフォームにおけるチームコンペティションの最適化と実行方法に関する、斬新で実行可能な洞察を数多く見つけ出します。 シミュレーション分析により、いくつかの競合設計オプションを変更するだけで、実際の競合に対する平均的な治療効果が最大26%増加することが示されている。 大規模オンラインフィールド実験を概ね分析し,最適化する方法について検討した。

Millions of drivers worldwide have enjoyed financial benefits and work schedule flexibility through a ride-sharing economy, but meanwhile they have suffered from the lack of a sense of identity and career achievement. Equipped with social identity and contest theories, financially incentivized team competitions have been an effective instrument to increase drivers' productivity, job satisfaction, and retention, and to improve revenue over cost for ride-sharing platforms. While these competitions are overall effective, the decisive factors behind the treatment effects and how they affect the outcomes of individual drivers have been largely mysterious. In this study, we analyze data collected from more than 500 large-scale team competitions organized by a leading ride-sharing platform, building machine learning models to predict individual treatment effects. Through a careful investigation of features and predictors, we are able to reduce out-sample prediction error by more than 24%. Through interpreting the best-performing models, we discover many novel and actionable insights regarding how to optimize the design and the execution of team competitions on ride-sharing platforms. A simulated analysis demonstrates that by simply changing a few contest design options, the average treatment effect of a real competition is expected to increase by as much as 26%. Our procedure and findings shed light on how to analyze and optimize large-scale online field experiments in general.
翻訳日:2022-11-02 01:12:28 公開日:2020-08-07
# プライバシー保護型ディープニューラルネットワークのための画像変換ネットワークとそのセキュリティ評価

Image Transformation Network for Privacy-Preserving Deep Neural Networks and Its Security Evaluation ( http://arxiv.org/abs/2008.03143v1 )

ライセンス: Link先を確認
Hiroki Ito, Yuma Kinoshita, Hitoshi Kiya(参考訳) プライバシー保護DNNのための画像生成のための変換ネットワークを提案する。 提案するトランスフォーメーションネットワークは、プレーンイメージデータセットを使用して、プレーンイメージを視覚的に保護されたものに変換する。 従来の知覚暗号法では視覚保護性能が弱く、画像分類の精度が低下する。 対照的に,提案するネットワークでは,視覚情報を強く保護するだけでなく,平滑な画像を用いた画像分類精度を維持できる。 画像分類実験において,提案したネットワークは,CIFARデータセットによる性能劣化を伴わずに,画像上の視覚情報を強く保護することを示した。 さらに、視覚的に保護された画像は、実験において逆変換ネットワーク攻撃(ITN-Attack)と呼ばれるDNNベースの攻撃に対して堅牢であることを示す。

We propose a transformation network for generating visually-protected images for privacy-preserving DNNs. The proposed transformation network is trained by using a plain image dataset so that plain images are transformed into visually protected ones. Conventional perceptual encryption methods have a weak visual-protection performance and some accuracy degradation in image classification. In contrast, the proposed network enables us not only to strongly protect visual information but also to maintain the image classification accuracy that using plain images achieves. In an image classification experiment, the proposed network is demonstrated to strongly protect visual information on plain images without any performance degradation under the use of CIFAR datasets. In addition, it is shown that the visually protected images are robust against a DNN-based attack, called inverse transformation network attack (ITN-Attack) in an experiment.
翻訳日:2022-11-02 01:11:25 公開日:2020-08-07
# 大域ヘテロ画像融合とビュー・スペクティブ・パラメーターを用いた超音波肝線維症の信頼性評価

Reliable Liver Fibrosis Assessment from Ultrasound using Global Hetero-Image Fusion and View-Specific Parameterization ( http://arxiv.org/abs/2008.03352v1 )

ライセンス: Link先を確認
Bowen Li, Ke Yan, Dar-In Tai, Yuankai Huo, Le Lu, Jing Xiao, Adam P. Harrison(参考訳) 超音波(US)は肝線維症の診断に重要である。 残念ながら、評価は非常に主観的であり、自動化アプローチを動機付けています。 我々は、いくつかのイノベーションを組み込んだ原則付き深層畳み込みニューラルネットワーク(cnn)ワークフローを導入する。 まず,非関連画像の特徴に対する過度な適合を避けるため,肝小葉と上縁部を包含する臨床領域(ROI)にネットワークを集中せざるを得なかった。 第2に,グローバルヘテロイメージ融合(GHIF)を導入し,CNNが任意の画像から特徴を融合させ,その汎用性と柔軟性を高める。 最後に,vsp(style'-based view-specific parameterization)を用いてcnn処理を肝の異なる視点向けに調整し,パラメータの大部分をビュー間で同一に保つ。 610名の患者(6979枚の画像)のデータセットを用いた実験により,本パイプラインは,曲線下の部分領域の約7%と22%の改善に寄与し,従来の分類器と比較して90%の精度でリコールし,この問題に対するアプローチを検証することができた。

Ultrasound (US) is a critical modality for diagnosing liver fibrosis. Unfortunately, assessment is very subjective, motivating automated approaches. We introduce a principled deep convolutional neural network (CNN) workflow that incorporates several innovations. First, to avoid overfitting on non-relevant image features, we force the network to focus on a clinical region of interest (ROI), encompassing the liver parenchyma and upper border. Second, we introduce global heteroimage fusion (GHIF), which allows the CNN to fuse features from any arbitrary number of images in a study, increasing its versatility and flexibility. Finally, we use 'style'-based view-specific parameterization (VSP) to tailor the CNN processing for different viewpoints of the liver, while keeping the majority of parameters the same across views. Experiments on a dataset of 610 patient studies (6979 images) demonstrate that our pipeline can contribute roughly 7% and 22% improvements in partial area under the curve and recall at 90% precision, respectively, over conventional classifiers, validating our approach to this crucial problem.
翻訳日:2022-11-02 01:11:11 公開日:2020-08-07
# 村データセットを用いたX線骨異常検出

X-Ray bone abnormalities detection using MURA dataset ( http://arxiv.org/abs/2008.03356v1 )

ライセンス: Link先を確認
A.Solovyova, I.Solovyov(参考訳) 2017年に発表されたスタンフォード大学のMUデータセットに基づく深層ネットワークについて紹介する。 本システムでは,X線写真から骨の異常を検知し,そのゾーンを可視化することができる。 我々のソリューションは、muraデータセットを使用した他の開発チームが達成した最高の結果に匹敵する精度で、特に我々のチームが達成したKappaスコアは、手首に0.942、肩に0.862、肩に o.735(公式Webサイト 0.931、0.851、0.729)であることがわかった。 しかし、良い結果にもかかわらず、提案技術の将来的な拡張には多くの方向性がある。 骨腫瘍や骨腫瘍の診断を専門医が迅速かつ高精度に行うのに役立つものとして,放射線写真用コンピュータ支援システム(CAD)のさらなる発展の可能性を見出した。

We introduce the deep network trained on the MURA dataset from the Stanford University released in 2017. Our system is able to detect bone abnormalities on the radiographs and visualise such zones. We found that our solution has the accuracy comparable to the best results that have been achieved by other development teams that used MURA dataset, in particular the overall Kappa score that was achieved by our team is about 0.942 on the wrist, 0.862 on the hand and o.735 on the shoulder (compared to the best available results to this moment on the official web-site 0.931, 0.851 and 0.729 accordingly). However, despite the good results there are a lot of directions for the future enhancement of the proposed technology. We see a big potential in the further development computer aided systems (CAD) for the radiographs as the one that will help practical specialists diagnose bone fractures as well as bone oncology cases faster and with the higher accuracy.
翻訳日:2022-11-02 01:10:50 公開日:2020-08-07
# エネルギー収穫小型セルにおける機能分割制御のための分散深層強化学習

Distributed Deep Reinforcement Learning for Functional Split Control in Energy Harvesting Virtualized Small Cells ( http://arxiv.org/abs/2008.04105v1 )

ライセンス: Link先を確認
Dagnachew Azene Temesgene, Marco Miozzo, Deniz G\"und\"uz and Paolo Dini(参考訳) ネットワーク容量の増大を願うモバイルネットワークオペレータ(MNO)は,小型セルの高密度インフラストラクチャをデプロイしている。 これにより、モバイルネットワークの消費電力が増加し、環境に影響を及ぼす。 その結果、環境とコストの両面での利益を達成するために、環境エネルギーを収穫したモバイルネットワークの電力化が最近進んでいる。 本稿では,電力回収装置を動力とする仮想小型セル (vscs) のネットワークについて検討し,その電力利用状況に応じて,ベースバンド (bb) 機能をグリッド接続エッジサーバに同調的にオフロードできる充電可能なバッテリを備えることを検討する。 本稿では,対応するグリッドエネルギーとトラフィック減少率の最小化問題を定式化し,分散深部強化学習(DDRL)ソリューションを提案する。 vSC間の調整は、バッテリ状態情報の交換によって可能となる。 グリッドエネルギー消費と交通量減少率の観点からネットワーク性能の評価を行い,vSC間の知識交換による協調が最適に近い性能を達成することを確認した。 また,提案したDDRLソリューションは,ネットワーク性能の向上,環境変化への適応性の向上,およびベンチマークとして使用する表型マルチエージェント強化学習(MRL)ソリューションに対するコスト削減効果も確認した。

To meet the growing quest for enhanced network capacity, mobile network operators (MNOs) are deploying dense infrastructures of small cells. This, in turn, increases the power consumption of mobile networks, thus impacting the environment. As a result, we have seen a recent trend of powering mobile networks with harvested ambient energy to achieve both environmental and cost benefits. In this paper, we consider a network of virtualized small cells (vSCs) powered by energy harvesters and equipped with rechargeable batteries, which can opportunistically offload baseband (BB) functions to a grid-connected edge server depending on their energy availability. We formulate the corresponding grid energy and traffic drop rate minimization problem, and propose a distributed deep reinforcement learning (DDRL) solution. Coordination among vSCs is enabled via the exchange of battery state information. The evaluation of the network performance in terms of grid energy consumption and traffic drop rate confirms that enabling coordination among the vSCs via knowledge exchange achieves a performance close to the optimal. Numerical results also confirm that the proposed DDRL solution provides higher network performance, better adaptation to the changing environment, and higher cost savings with respect to a tabular multi-agent reinforcement learning (MRL) solution used as a benchmark.
翻訳日:2022-11-02 01:03:58 公開日:2020-08-07
# コネクショミックからタスク誘発フィンガープリント:静止状態関数接続性からタスクコントラストの個別予測

From Connectomic to Task-evoked Fingerprints: Individualized Prediction of Task Contrasts from Resting-state Functional Connectivity ( http://arxiv.org/abs/2008.02961v1 )

ライセンス: Link先を確認
Gia H. Ngo, Meenakshi Khosla, Keith Jamison, Amy Kuceyeski, Mert R. Sabuncu(参考訳) Resting-state functional MRI (rsfMRI)は、個人の認知指紋として機能する機能的コネクトームである。 接続指紋は、主観的な行動特性の予測やタスク誘発活動など、多くの機械学習タスクで有用であることが証明されている。 本研究では,静止状態の指紋と個々のタスクのコントラストを予測するために,表面ベースの畳み込みニューラルネットワーク(BrainSurfCNN)モデルを提案する。 予測誤差を最小化しつつ,モデル出力の主観的特異性を強制する再構成コントラスト損失を導入する。 提案手法は, よく確立されたベースラインに対する予測コントラストの精度を大幅に向上させる。 さらに、BrainSurfCNNの予測は、被検体識別タスクにおけるテスト-テストベンチマークを上回っている。

Resting-state functional MRI (rsfMRI) yields functional connectomes that can serve as cognitive fingerprints of individuals. Connectomic fingerprints have proven useful in many machine learning tasks, such as predicting subject-specific behavioral traits or task-evoked activity. In this work, we propose a surface-based convolutional neural network (BrainSurfCNN) model to predict individual task contrasts from their resting-state fingerprints. We introduce a reconstructive-contrastive loss that enforces subject-specificity of model outputs while minimizing predictive error. The proposed approach significantly improves the accuracy of predicted contrasts over a well-established baseline. Furthermore, BrainSurfCNN's prediction also surpasses test-retest benchmark in a subject identification task.
翻訳日:2022-11-02 01:03:06 公開日:2020-08-07
# 確率的分類器の評価:信頼性図とスコア分解再検討

Evaluating probabilistic classifiers: Reliability diagrams and score decompositions revisited ( http://arxiv.org/abs/2008.03033v1 )

ライセンス: Link先を確認
Timo Dimitriadis, Tilmann Gneiting, Alexander I. Jordan(参考訳) 確率予測や確率分類器は、予測された確率が観測後の観測周波数で一致した場合、信頼性または校正される。 信頼性図をプロットする古典的なバイナリとカウントのアプローチは、避けられないアドホックな実装決定の下での安定性の欠如によって妨げられている。 本稿では、統計的に一貫性があり、最適にバイナリ化され、再現可能な信頼性図を自動で生成するplcアプローチを紹介する。 CORPは非パラメトリックな等方性回帰に基づいており、Pool-adjacent-violators (PAV)アルゴリズムを用いて実装されている。 CORPアプローチは、再サンプリング技術または漸近理論による不確実な定量化を可能にし、新しい数値的な誤校正尺度を作成し、CORPベースのブリアスコア分解を提供し、任意の適切なスコアリング規則に一般化する。 我々は,PAVアルゴリズムの偏見的利用により,非常に幅広い統計的・機械学習手法の診断・推論ツールの改善が期待できる。

A probability forecast or probabilistic classifier is reliable or calibrated if the predicted probabilities are matched by ex post observed frequencies, as examined visually in reliability diagrams. The classical binning and counting approach to plotting reliability diagrams has been hampered by a lack of stability under unavoidable, ad hoc implementation decisions. Here we introduce the CORP approach, which generates provably statistically Consistent, Optimally binned, and Reproducible reliability diagrams in an automated way. CORP is based on non-parametric isotonic regression and implemented via the Pool-adjacent-violators (PAV) algorithm - essentially, the CORP reliability diagram shows the graph of the PAV- (re)calibrated forecast probabilities. The CORP approach allows for uncertainty quantification via either resampling techniques or asymptotic theory, furnishes a new numerical measure of miscalibration, and provides a CORP based Brier score decomposition that generalizes to any proper scoring rule. We anticipate that judicious uses of the PAV algorithm yield improved tools for diagnostics and inference for a very wide range of statistical and machine learning methods.
翻訳日:2022-11-02 01:02:54 公開日:2020-08-07
# 強化学習を用いたニューラルシーケンス・ツー・シーケンスモデルのためのインクリメンタルテキストと音声

Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning ( http://arxiv.org/abs/2008.03096v1 )

ライセンス: Link先を確認
Devang S Ram Mohan, Raphael Lenain, Lorenzo Foglianti, Tian Huey Teh, Marlene Staib, Alexandra Torresquintero, Jiameng Gao(参考訳) テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。 このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限する。 文字を読み込む動作と音声合成の動作をインターリーブすることで、このレイテンシが低減される。 しかし、この一連の連続した行動の順序は文によって異なり、どのように行動を選択するべきかという問題を引き起こす。 エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。 性能を決定論的・ルールベースのシステムと比較する。 以上の結果から,音声生成のレイテンシと合成音声の品質とのトレードオフのバランスをとることができた。 より広い意味では、神経シーケンスからシーケンスへのモデルが漸進的に実行されるように適応できることを示す。

Modern approaches to text to speech require the entire input character sequence to be processed before any audio is synthesised. This latency limits the suitability of such models for time-sensitive tasks like simultaneous interpretation. Interleaving the action of reading a character with that of synthesising audio reduces this latency. However, the order of this sequence of interleaved actions varies across sentences, which raises the question of how the actions should be chosen. We propose a reinforcement learning based framework to train an agent to make this decision. We compare our performance against that of deterministic, rule-based systems. Our results demonstrate that our agent successfully balances the trade-off between the latency of audio generation and the quality of synthesised audio. More broadly, we show that neural sequence-to-sequence models can be adapted to run in an incremental manner.
翻訳日:2022-11-02 01:02:21 公開日:2020-08-07
# クラス不均衡故障診断のためのオーバーサンプリング対応ネットワーク

Oversampling Adversarial Network for Class-Imbalanced Fault Diagnosis ( http://arxiv.org/abs/2008.03071v1 )

ライセンス: Link先を確認
Masoumeh Zareapoor, Pourya Shamsolmoali, Jie Yang(参考訳) 産業機械から収集されたデータは、しばしば不均衡であり、学習アルゴリズムに悪影響を及ぼす。 しかし、この問題はデータの種類が混ざり合ったり、クラス間で重複している場合、より困難になる。 クラス不均衡問題は、データをタイムリーに予測し分類できる堅牢な学習システムを必要とする。 本稿では,同時分類と故障検出のための新しい対向ネットワークを提案する。 特に,提案した混合データから異常サンプルを生成することにより,不均衡データセットのバランスを回復する。 生成した故障サンプルを扱うために, モデル判別器を設計し, 異常値と過度な適合を防止した。 私たちはそれを実証的に示します。 (i) 発生器で訓練された判別器は、故障検知器と見なすことができる正常データ分布及び故障データ分布の混合物からサンプルを生成する。 (ii) 生成した欠陥試料の品質は他の合成サンプル法よりも優れている。 実験結果から,提案手法は,複数の評価指標の他の故障診断手法と比較した場合,特にGAN (Generative Adversarial Network) と特徴マッチング関数の結合は,故障サンプルの認識に有効であることが示唆された。

The collected data from industrial machines are often imbalanced, which poses a negative effect on learning algorithms. However, this problem becomes more challenging for a mixed type of data or while there is overlapping between classes. Class-imbalance problem requires a robust learning system which can timely predict and classify the data. We propose a new adversarial network for simultaneous classification and fault detection. In particular, we restore the balance in the imbalanced dataset by generating faulty samples from the proposed mixture of data distribution. We designed the discriminator of our model to handle the generated faulty samples to prevent outlier and overfitting. We empirically demonstrate that; (i) the discriminator trained with a generator to generates samples from a mixture of normal and faulty data distribution which can be considered as a fault detector; (ii), the quality of the generated faulty samples outperforms the other synthetic resampling techniques. Experimental results show that the proposed model performs well when comparing to other fault diagnosis methods across several evaluation metrics; in particular, coalescing of generative adversarial network (GAN) and feature matching function is effective at recognizing faulty samples.
翻訳日:2022-11-02 00:55:27 公開日:2020-08-07
# 連想的部分領域適応

Associative Partial Domain Adaptation ( http://arxiv.org/abs/2008.03111v1 )

ライセンス: Link先を確認
Youngeun Kim, Sungeun Hong, Seunghan Yang, Sungil Kang, Yunho Jeon, Jiwon Kim(参考訳) 部分適応(Partial Adaptation, PDA)は、ターゲットドメインがソースドメイン内のクラスのサブセットのみを含む現実的なシナリオに対処する。 PDAは、負の転送を緩和するために、クラスレベルとサンプルレベルの両方を考慮するべきであるが、現在のアプローチは、ほとんど1つだけに依存している。 本稿では,PDAに現れる多段階の関連性を完全に活用するための新しい手法を提案する。 associative partial domain adaptation(apda)はドメイン内アソシエーションを利用して,サンプルレベルの重み付けでは処理できない,各ソース-プライベートクラス内の非自明な異常サンプルを積極的に選択する。 さらに,本手法では,近傍のターゲットサンプルと,ラベル・コモンネスの高いソースサンプルとのマッピングにより,ドメイン間の関連性を向上する。 そこで,本研究では,原点構造ラベルと目標確率ラベルからなるラベル空間における特徴伝搬を利用する。 さらに,各ソースクラスのラベル共通性に基づく幾何学的ガイド損失を提案し,正の転送を促進する。 当社のAPDAは、パブリックデータセット間の最先端のパフォーマンスを一貫して達成しています。

Partial Adaptation (PDA) addresses a practical scenario in which the target domain contains only a subset of classes in the source domain. While PDA should take into account both class-level and sample-level to mitigate negative transfer, current approaches mostly rely on only one of them. In this paper, we propose a novel approach to fully exploit multi-level associations that can arise in PDA. Our Associative Partial Domain Adaptation (APDA) utilizes intra-domain association to actively select out non-trivial anomaly samples in each source-private class that sample-level weighting cannot handle. Additionally, our method considers inter-domain association to encourage positive transfer by mapping between nearby target samples and source samples with high label-commonness. For this, we exploit feature propagation in a proposed label space consisting of source ground-truth labels and target probabilistic labels. We further propose a geometric guidance loss based on the label commonness of each source class to encourage positive transfer. Our APDA consistently achieves state-of-the-art performance across public datasets.
翻訳日:2022-11-02 00:55:11 公開日:2020-08-07
# 深部品質の高度化:RGB-D能動物体検出のための深部品質評価手法

Knowing Depth Quality In Advance: A Depth Quality Assessment Method For RGB-D Salient Object Detection ( http://arxiv.org/abs/2008.04157v1 )

ライセンス: Link先を確認
Xuehao Wang, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 従来の RGB-D salient Object Detection (SOD) 手法では,RGBとD(深度)のトレードオフを自動的に打つためのディープラーニングツールが広く採用されている。 しかし、このような完全自動融合は、通常Dの品質がシーンによって異なるため、SODタスクにとって必ずしも役に立たない。 D の品質が事前に考慮されていない場合、これは容易に準最適融合結果につながる可能性がある。 さらに、客観的な要因として、Dの品質は以前から見過ごされてきた。 その結果、明らかにパフォーマンスのボトルネックになっています。 そこで,本稿では,D領域の共通属性に応じて一連の特徴を考案することを目的として,D領域の品質を事前に測定する簡易かつ効果的な手法を提案する。 さらに具体的には、低レベルのエッジ整合性、中レベルの地域不確実性、高レベルのモデル分散を含むマルチスケール方法論に従って、各画像領域のD品質評価を行う。 これらの全てのコンポーネントは独立に計算され、選択的融合を導くために暗黙の指標として適用されるrgbとdの機能で組み立てられる。 提案手法は,最先端の核融合方式と比較して,RGBとDの融合状態がより合理的であることを示す。

Previous RGB-D salient object detection (SOD) methods have widely adopted deep learning tools to automatically strike a trade-off between RGB and D (depth), whose key rationale is to take full advantage of their complementary nature, aiming for a much-improved SOD performance than that of using either of them solely. However, such fully automatic fusions may not always be helpful for the SOD task because the D quality itself usually varies from scene to scene. It may easily lead to a suboptimal fusion result if the D quality is not considered beforehand. Moreover, as an objective factor, the D quality has long been overlooked by previous work. As a result, it is becoming a clear performance bottleneck. Thus, we propose a simple yet effective scheme to measure D quality in advance, the key idea of which is to devise a series of features in accordance with the common attributes of high-quality D regions. To be more concrete, we conduct D quality assessments for each image region, following a multi-scale methodology that includes low-level edge consistency, mid-level regional uncertainty and high-level model variance. All these components will be computed independently and then be assembled with RGB and D features, applied as implicit indicators, to guide the selective fusion. Compared with the state-of-the-art fusion schemes, our method can achieve a more reasonable fusion status between RGB and D. Specifically, the proposed D quality measurement method achieves steady performance improvements for almost 2.0\% in general.
翻訳日:2022-11-02 00:54:41 公開日:2020-08-07
# 並列サブネットワークによる再帰的多モデル補完型ディープフュージョンフォロバストサルエント物体検出

Recursive Multi-model Complementary Deep Fusion forRobust Salient Object Detection via Parallel Sub Networks ( http://arxiv.org/abs/2008.04158v1 )

ライセンス: Link先を確認
Zhenyu Wu, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 完全畳み込みネットワークはsod(salient object detection)の分野で優れた性能を示している。 state-of-the-art(sota)メソッドは、より深く複雑になる傾向があり、学習した深い機能を簡単に均質化し、パフォーマンスのボトルネックが明らかになる。 本稿では,従来の ‘deeper'' 方式とは対照的に,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる ``wider'' ネットワークアーキテクチャを提案する。 このようにして、これらの2つのサブネットワークから得られる深い機能は、大きな多様性を示し、互いに補完できる大きな可能性を秘めている。 しかし、大きな多様性は特徴の衝突に容易につながり得るため、高密度の短絡を用いて並列サブネットワーク間の再帰的な相互作用を可能にし、マルチモデル深層特徴間の最適な相補的ステータスを追求する。 最後に、これらの補完的マルチモデル深層機能は選択的に融合され、高性能なオブジェクト検出を行う。 いくつかの有名なベンチマークに関する大規模な実験は、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力を示している。

Fully convolutional networks have shown outstanding performance in the salient object detection (SOD) field. The state-of-the-art (SOTA) methods have a tendency to become deeper and more complex, which easily homogenize their learned deep features, resulting in a clear performance bottleneck. In sharp contrast to the conventional ``deeper'' schemes, this paper proposes a ``wider'' network architecture which consists of parallel sub networks with totally different network architectures. In this way, those deep features obtained via these two sub networks will exhibit large diversity, which will have large potential to be able to complement with each other. However, a large diversity may easily lead to the feature conflictions, thus we use the dense short-connections to enable a recursively interaction between the parallel sub networks, pursuing an optimal complementary status between multi-model deep features. Finally, all these complementary multi-model deep features will be selectively fused to make high-performance salient object detections. Extensive experiments on several famous benchmarks clearly demonstrate the superior performance, good generalization, and powerful learning ability of the proposed wider framework.
翻訳日:2022-11-02 00:54:13 公開日:2020-08-07
# 被写体検出のための深さ品質認識

Depth Quality Aware Salient Object Detection ( http://arxiv.org/abs/2008.04159v1 )

ライセンス: Link先を確認
Chenglizhao Chen, Jipeng Wei, Chong Peng, Hong Qin(参考訳) 既存の融合に基づくRGB-D法は、通常、RGBと深さ(D)の融合トレードオフを打つために、双方向構造を採用する。 通常,d品質はシーンによって異なるが,sota bi-streamアプローチは深度品質を意識しないため,rgbとdの相補的な融合状態を達成することが極めて困難となり,低品質dに直面した核融合の結果が低かったため,従来のbi-stream構造に新たな深さ品質認識サブネットを統合することを試みた。 両ストリーム法と比較して,本手法の主な特徴は,RGB-D融合における低品質,ノンコントリビューション,あるいは負のコントリビューションD領域の重要性を低減し,RGBとDの相補的地位を著しく向上させることである。

The existing fusion based RGB-D salient object detection methods usually adopt the bi-stream structure to strike the fusion trade-off between RGB and depth (D). The D quality usually varies from scene to scene, while the SOTA bi-stream approaches are depth quality unaware, which easily result in substantial difficulties in achieving complementary fusion status between RGB and D, leading to poor fusion results in facing of low-quality D. Thus, this paper attempts to integrate a novel depth quality aware subnet into the classic bi-stream structure, aiming to assess the depth quality before conducting the selective RGB-D fusion. Compared with the SOTA bi-stream methods, the major highlight of our method is its ability to lessen the importance of those low-quality, no-contribution, or even negative-contribution D regions during the RGB-D fusion, achieving a much improved complementary status between RGB and D.
翻訳日:2022-11-02 00:53:53 公開日:2020-08-07
# マルチレベル構造類似性を考慮したフルリファレンススクリーン画像品質評価

Full Reference Screen Content Image Quality Assessment by Fusing Multi-level Structure Similarity ( http://arxiv.org/abs/2008.05396v1 )

ライセンス: Link先を確認
Chenglizhao Chen, Hongmeng Zhao, Huan Yang, Chong Peng, Teng Yu(参考訳) スクリーンコンテンツ画像(SCI)は、通常、鋭いエッジを持つ様々なコンテンツタイプで構成され、バニラ構造類似度測定によってアーチファクトや歪みを十分に把握することができる。 しかしながら、現在のSOTA構造類似度指標のほとんど全てが単一レベルの方法で「局所的」に定式化されている一方で、真の人間の視覚システム(HVS)は多レベルの方法で従っている。 本稿では,スパース表現の観点から,構造的類似性を「グローバル」に測定する新しい手法を提案する。 実HVSに応じて多レベル品質評価を行うため,新たに考案された選択深層融合ネットワークを利用して,上記のグローバルメトリックを従来のローカルメトリックと統合する。 本手法の有効性と有効性を検証するため,本手法を2つの大規模公開sciデータセットに対して12 sota法と比較した。 ソースコードもデータも公開されており、広く受け入れられ、新しい進歩と検証が促進されている。

The screen content images (SCIs) usually comprise various content types with sharp edges, in which the artifacts or distortions can be well sensed by the vanilla structure similarity measurement in a full reference manner. Nonetheless, almost all of the current SOTA structure similarity metrics are "locally" formulated in a single-level manner, while the true human visual system (HVS) follows the multi-level manner, and such mismatch could eventually prevent these metrics from achieving trustworthy quality assessment. To ameliorate, this paper advocates a novel solution to measure structure similarity "globally" from the perspective of sparse representation. To perform multi-level quality assessment in accordance with the real HVS, the above-mentioned global metric will be integrated with the conventional local ones by resorting to the newly devised selective deep fusion network. To validate its efficacy and effectiveness, we have compared our method with 12 SOTA methods over two widely-used large-scale public SCI datasets, and the quantitative results indicate that our method yields significantly higher consistency with subjective quality score than the currently leading works. Both the source code and data are also publicly available to gain widespread acceptance and facilitate new advancement and its validation.
翻訳日:2022-11-02 00:53:36 公開日:2020-08-07
# プライバシーポリシー分類のためのクラウドソーシングデータによるディープラーニング

Deep Active Learning with Crowdsourcing Data for Privacy Policy Classification ( http://arxiv.org/abs/2008.02954v1 )

ライセンス: Link先を確認
Wenjun Qiu and David Lie(参考訳) プライバシポリシは、サービスのデータプラクティスをユーザに通知するステートメントである。 しかし、長さと複雑さのためにポリシーテキストを読みたいユーザはほとんどいない。 マシンラーニングに基づく自動ツールは、プライバシポリシ分析には存在するが、高い分類精度を達成するには、大きなラベル付きデータセットで分類器をトレーニングする必要がある。 既存の政策コーパスのほとんどは、熟練した人間のアノテータによってラベル付けされており、かなりの労働時間と労力を必要とする。 本稿では,機械学習とクラウドソーシングの手法を活用し,ラベル付けコストを最小化しつつ,熟練者によるアノテーションと同等のアノテーションを高精度に実行可能な,calpric (crowdsourcing active learning privacy policy classificationifier) という自動分類ツールを開発した。 具体的には、アクティブな学習により、分類器はラベル付けされる最も情報性の高いセグメントを積極的に選択することができる。 平均して、我々のモデルはオリジナルのラベル付け作業の62%で同じF1スコアを達成することができる。 Calpricのアクティブラーニングの使用は、未ラベルのプライバシーポリシーデータセットで自然に発生するクラス不均衡にも対処する。 ラベル付けのためにマイノリティクラスからサンプルを選択することで、Calpricは自動的にバランスのとれたトレーニングセットを生成する。

Privacy policies are statements that notify users of the services' data practices. However, few users are willing to read through policy texts due to the length and complexity. While automated tools based on machine learning exist for privacy policy analysis, to achieve high classification accuracy, classifiers need to be trained on a large labeled dataset. Most existing policy corpora are labeled by skilled human annotators, requiring significant amount of labor hours and effort. In this paper, we leverage active learning and crowdsourcing techniques to develop an automated classification tool named Calpric (Crowdsourcing Active Learning PRIvacy Policy Classifier), which is able to perform annotation equivalent to those done by skilled human annotators with high accuracy while minimizing the labeling cost. Specifically, active learning allows classifiers to proactively select the most informative segments to be labeled. On average, our model is able to achieve the same F1 score using only 62% of the original labeling effort. Calpric's use of active learning also addresses naturally occurring class imbalance in unlabeled privacy policy datasets as there are many more statements stating the collection of private information than stating the absence of collection. By selecting samples from the minority class for labeling, Calpric automatically creates a more balanced training set.
翻訳日:2022-11-02 00:53:14 公開日:2020-08-07
# 中国語におけるアクセント認識と変換の新しいアプローチ

A New Approach to Accent Recognition and Conversion for Mandarin Chinese ( http://arxiv.org/abs/2008.03359v1 )

ライセンス: Link先を確認
Lin Ai and Shih-Ying Jeng and Homayoon Beigi(参考訳) アクセント分類と変換の2つの新しいアプローチをそれぞれ提示し,検討した。 最初の話題は中国語のアクセント分類/認識である。 第2のトピックは、エンコーダ-デコーダモデルを使用して中国語アクセント変換を行い、第1のトピックの分類器はアクセント変換器-デコーダモデルのトレーニングに使用される。 アクセント認識のために異なる特徴とモデルを用いた実験を行う。 これらの機能には、MFCCとスペクトログラムが含まれる。 分類モデルはTDNNと1D-CNNである。 5種類のアクセントを持つMAGICDATAデータセットでは、MFCCで訓練されたTDNN分類器は54%、テストF1スコアは0.54、分光器で訓練された1D-CNN分類器は62%、テストF1スコアは0.62であった。 エンド・ツー・エンドアクセント変換モデルのプロトタイプも提示されている。 変換器モデルは、エンコーダとデコーダとからなる。 エンコーダモデルはアクセント入力をアクセントニュートラル形式に変換する。 デコーダモデルは、入力アクセントラベルに割り当てられた特定アクセントでアクセントニュートラル形式をアクセント付形式に変換する。 コンバータプロトタイプは、トーンを保存し、出力オーディオ内の詳細を予見する。 エンコーダ−デコーダ構造は、効果的なアクセント変換器となる可能性を示す。 将来的な改善の提案も提示され、デコーダ出力における詳細が失われている問題に対処する。

Two new approaches to accent classification and conversion are presented and explored, respectively. The first topic is Chinese accent classification/recognition. The second topic is the use of encoder-decoder models for end-to-end Chinese accent conversion, where the classifier in the first topic is used for the training of the accent converter encoder-decoder model. Experiments using different features and model are performed for accent recognition. These features include MFCCs and spectrograms. The classifier models were TDNN and 1D-CNN. On the MAGICDATA dataset with 5 classes of accents, the TDNN classifier trained on MFCC features achieved a test accuracy of 54% and a test F1 score of 0.54 while the 1D-CNN classifier trained on spectrograms achieve a test accuracy of 62% and a test F1 score of 0.62. A prototype of an end-to-end accent converter model is also presented. The converter model comprises of an encoder and a decoder. The encoder model converts an accented input into an accent-neutral form. The decoder model converts an accent-neutral form to an accented form with the specified accent assigned by the input accent label. The converter prototype preserves the tone and foregoes the details in the output audio. An encoder-decoder structure demonstrates the potential of being an effective accent converter. A proposal for future improvements is also presented to address the issue of lost details in the decoder output.
翻訳日:2022-11-02 00:52:51 公開日:2020-08-07
# クラスタリング、多重線型性、特異ベクトル

Clustering, multicollinearity, and singular vectors ( http://arxiv.org/abs/2008.03368v1 )

ライセンス: Link先を確認
Hamid Usefi(参考訳) a$ を擬似行列 $a^{\dagger}$ を持つ行列とし、$s=i-a^{\dagger}a$ とする。 A$ の列を再順序付けした後、行列 $S$ はブロック対角形を持ち、各ブロックは線形依存列の集合に対応する。 これにより、$A$で冗長列を識別できます。 我々は,教師付き学習や教師なし学習,特に特徴選択,クラスタリング,最小二乗解の解の感度といった応用について検討する。

Let $A$ be a matrix with its pseudo-matrix $A^{\dagger}$ and set $S=I-A^{\dagger}A$. We prove that, after re-ordering the columns of $A$, the matrix $S$ has a block-diagonal form where each block corresponds to a set of linearly dependent columns. This allows us to identify redundant columns in $A$. We explore some applications in supervised and unsupervised learning, specially feature selection, clustering, and sensitivity of solutions of least squares solutions.
翻訳日:2022-11-02 00:45:03 公開日:2020-08-07
# 非負行列分解によるNystr\"om近似

Nystr\"om Approximation with Nonnegative Matrix Factorization ( http://arxiv.org/abs/2008.03399v1 )

ライセンス: Link先を確認
Yongquan Fu(参考訳) 遠隔ネットワークシステムにおけるバンテージポイントやランドマークからの部分的距離測定で近接クラスタリングを推定する必要性から, 近接クラスタリング問題は, 複素空間におけるカーネルK平均クラスタリング問題を解くNystr\"om近似問題として効果的に定式化できることが示唆された。 ランドマークに基づく非負行列分解(NMF)プロセスに基づくNystr\"om近似を実装した。 評価の結果,提案手法はパラメータ選択範囲やネットワーク条件が異なるため,合成データと実世界データの両方においてクラスタリング品質がほぼ最適であることが判明した。

Motivated by the needs of estimating the proximity clustering with partial distance measurements from vantage points or landmarks for remote networked systems, we show that the proximity clustering problem can be effectively formulated as the Nystr\"om approximation problem, which solves the kernel K-means clustering problem in the complex space. We implement the Nystr\"om approximation based on a landmark based Nonnegative Matrix Factorization (NMF) process. Evaluation results show that the proposed method finds nearly optimal clustering quality on both synthetic and real-world data sets as we vary the range of parameter choices and network conditions.
翻訳日:2022-11-02 00:44:55 公開日:2020-08-07
# モード主成分分析

Modal Principal Component Analysis ( http://arxiv.org/abs/2008.03400v1 )

ライセンス: Link先を確認
Keishi Sando and Hideitsu Hino(参考訳) 主成分分析(PCA)は、次元の縮小や可視化など、データ処理に広く用いられる手法である。 標準PCAは外れ値に敏感であることが知られており、様々な堅牢PCA法が提案されている。 多くの統計的手法のロバスト性は平均推定ではなくモード推定を用いて改善できることが示されている。 そこで本研究では,モード推定に基づくロバストなpca法であるモード主成分分析(mpca)を提案する。 提案手法は, 予測されたデータ点のモードを推定することにより, 少数成分を求める。 理論的貢献として, 確率収束特性, 影響関数, 有限サンプル分解点, 提案したMPCAに対する下界を導出した。 実験の結果,提案手法は従来の手法よりも有利であることがわかった。

Principal component analysis (PCA) is a widely used method for data processing, such as for dimension reduction and visualization. Standard PCA is known to be sensitive to outliers, and thus, various robust PCA methods have been proposed. It has been shown that the robustness of many statistical methods can be improved using mode estimation instead of mean estimation, because mode estimation is not significantly affected by the presence of outliers. Thus, this study proposes a modal principal component analysis (MPCA), which is a robust PCA method based on mode estimation. The proposed method finds the minor component by estimating the mode of the projected data points. As theoretical contribution, probabilistic convergence property, influence function, finite-sample breakdown point and its lower bound for the proposed MPCA are derived. The experimental results show that the proposed method has advantages over the conventional methods.
翻訳日:2022-11-02 00:44:43 公開日:2020-08-07
# splitnnによる垂直パーティショニング

SplitNN-driven Vertical Partitioning ( http://arxiv.org/abs/2008.04137v1 )

ライセンス: Link先を確認
Iker Ceballos, Vivek Sharma, Eduardo Mugica, Abhishek Singh, Alberto Roman, Praneeth Vepakomma, Ramesh Raskar(参考訳) 本研究では,SplitNNによる垂直分散特徴の学習を容易にするために,SplitNNと呼ばれる分散ディープラーニング手法の構成法であるVertical Partitioningを導入する。 SplitNNは、生のデータやモデルの詳細を協力機関と共有していない。 提案した構成により、複雑な暗号化アルゴリズムやセキュアな計算プロトコルを必要とせずに、さまざまなデータソースを持つ機関間のトレーニングが可能になる。 分割モデルの出力をマージするためにいくつかの構成を評価し、性能と資源効率を比較する。 このメソッドは柔軟で、多くの異なる構成で、垂直に分割されたデータセットによって生じる特定の課題に対処できる。

In this work, we introduce SplitNN-driven Vertical Partitioning, a configuration of a distributed deep learning method called SplitNN to facilitate learning from vertically distributed features. SplitNN does not share raw data or model details with collaborating institutions. The proposed configuration allows training among institutions holding diverse sources of data without the need of complex encryption algorithms or secure computation protocols. We evaluate several configurations to merge the outputs of the split models, and compare performance and resource efficiency. The method is flexible and allows many different configurations to tackle the specific challenges posed by vertically split datasets.
翻訳日:2022-11-02 00:44:30 公開日:2020-08-07
# 有能な物体検出のより深い展望:小さなトレーニングデータセットを持つ双方向ネットワーク

A Deeper Look at Salient Object Detection: Bi-stream Network with a Small Training Dataset ( http://arxiv.org/abs/2008.02938v1 )

ライセンス: Link先を確認
Zhenyu Wu, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 従来の手作りの手法と比較して、ディープラーニングベースの手法は、大規模なトレーニングセットよりも巧妙に構築された派手なネットワークをトレーニングすることで、大幅な性能向上を実現している。 しかし、我々は正当性物体検出(SOD)のための大規模トレーニングセットを本当に必要だろうか? 本稿では,SODのパフォーマンスとトレーニングセットの相互関係について,より深い知見を提供する。 大規模なトレーニングデータに対する従来の要求を緩和するため、4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提供する。 さらに,提案する2つの特徴的バックボーンと構造が異なり,ゲート制御ユニットを介して相補的なセマンティック・サリエンシ融合を実現するため,提案する小型トレーニングセットをフル活用するバイストリームネットワークを提案する。 私たちの知る限りでは、これは大規模なトレーニングセットでトレーニングされた最先端モデルを上回るために、小規模なトレーニングセットを使用する最初の試みである。

Compared with the conventional hand-crafted approaches, the deep learning based methods have achieved tremendous performance improvements by training exquisitely crafted fancy networks over large-scale training sets. However, do we really need large-scale training set for salient object detection (SOD)? In this paper, we provide a deeper insight into the interrelationship between the SOD performances and the training sets. To alleviate the conventional demands for large-scale training data, we provide a feasible way to construct a novel small-scale training set, which only contains 4K images. Moreover, we propose a novel bi-stream network to take full advantage of our proposed small training set, which is consisted of two feature backbones with different structures, achieving complementary semantical saliency fusion via the proposed gate control unit. To our best knowledge, this is the first attempt to use a small-scale training set to outperform state-of-the-art models which are trained on large-scale training sets; nevertheless, our method can still achieve the leading state-of-the-art performance on five benchmark datasets.
翻訳日:2022-11-02 00:44:21 公開日:2020-08-07
# 医用画像におけるオブザーバ間変動を低減するためのショット学習フレームワーク

Few Shot Learning Framework to Reduce Inter-observer Variability in Medical Images ( http://arxiv.org/abs/2008.02952v1 )

ライセンス: Link先を確認
Sohini Roychowdhury(参考訳) ほとんどのコンピュータ支援病理検出システムは、診断とフォローアップの手順を支援するために、大量の品質アノテートデータに依存している。 しかし、大量の注釈付き医用画像データを保証する品質は主観的でコストがかかる。 本研究では,3Dスタック毎に少なくとも5つの画像で反復的にトレーニングし,複数の領域提案(RP)を生成することのできる3つのFSLモデルを実装した新しい標準化フレームワークを提案する。 これらのFSLモデルは、新しい並列エコー状態ネットワーク(ParESN)フレームワークと拡張U-netモデルを含んでいる。 さらに,rpsと手作業でアノテートされたターゲットラベル間の相対的適合性を測定し,画像当たりの「最高の」品質アノテーションを検出する新しいターゲットラベル選択アルゴリズム(tlsa)を提案する。 FSLモデルを用いて,網膜内嚢胞分画のためのベンダーイメージスタック間で0.28-0.64Dice係数を実現する。 さらに、TLSAは、ノイズの多いラベルから高品質なターゲットラベルを60~97%のイメージで自動的に分類し、残りのイメージを手動で監督する。 また、paresnモデルを用いた提案フレームワークは、画像総数の12-28%まで手動アノテーションチェックを最小化する。 TLSAメトリクスはさらに、自動アノテーション品質保証の信頼性スコアを提供する。 したがって、提案フレームワークは、他の画像スタックの良質な画像アノテーションキュレーションの拡張にも柔軟である。

Most computer aided pathology detection systems rely on large volumes of quality annotated data to aid diagnostics and follow up procedures. However, quality assuring large volumes of annotated medical image data can be subjective and expensive. In this work we present a novel standardization framework that implements three few-shot learning (FSL) models that can be iteratively trained by atmost 5 images per 3D stack to generate multiple regional proposals (RPs) per test image. These FSL models include a novel parallel echo state network (ParESN) framework and an augmented U-net model. Additionally, we propose a novel target label selection algorithm (TLSA) that measures relative agreeability between RPs and the manually annotated target labels to detect the "best" quality annotation per image. Using the FSL models, our system achieves 0.28-0.64 Dice coefficient across vendor image stacks for intra-retinal cyst segmentation. Additionally, the TLSA is capable of automatically classifying high quality target labels from their noisy counterparts for 60-97% of the images while ensuring manual supervision on remaining images. Also, the proposed framework with ParESN model minimizes manual annotation checking to 12-28% of the total number of images. The TLSA metrics further provide confidence scores for the automated annotation quality assurance. Thus, the proposed framework is flexible to extensions for quality image annotation curation of other image stacks as well.
翻訳日:2022-11-02 00:44:03 公開日:2020-08-07
# 半教師あり動作品質知覚による新しい映像有向物体検出法

A Novel Video Salient Object Detection Method via Semi-supervised Motion Quality Perception ( http://arxiv.org/abs/2008.02966v1 )

ライセンス: Link先を確認
Chenglizhao Chen, Jia Song, Chong Peng, Guodong Wang, Yuming Fang(参考訳) これまでのVSOD(Video Salient Object Detection)アプローチは主に、パフォーマンス改善を実現するために、派手なネットワークの設計に重点を置いてきた。 しかし、近年のディープラーニング技術の発展が鈍化しているため、高級ネットワークのみで新たなブレークスルーを予想することはますます難しくなっている。 そこで本稿では,すべての最先端(sota)手法において,さらに3\%の性能向上を実現するための普遍学習方式を提案する。 提案手法の主な特徴は,従来のテストセットからビデオフレームのサブグループを選択して,新たなトレーニングセットを構築するために,新たなコンセプトである「モーションクオリティ」を活用することである。 この新しいトレーニングセットで選択されたフレームには、すべて高品質な動作が含まれており、「ターゲットSOTA法」によって正常な物体が検出される確率が大きい。 これにより,新たなトレーニングセットを用いて新たなネットワークトレーニングを開始することにより,大幅なパフォーマンス向上を実現することができる。 この新たなラウンドトレーニングでは,対象SOTA法のVSOD結果を擬似訓練対象として適用する。 我々の新しい学習手法は単純だが効果的であり、その半教師あり方法論は将来VSODコミュニティを刺激する大きな可能性を秘めている。

Previous video salient object detection (VSOD) approaches have mainly focused on designing fancy networks to achieve their performance improvements. However, with the slow-down in development of deep learning techniques recently, it may become more and more difficult to anticipate another breakthrough via fancy networks solely. To this end, this paper proposes a universal learning scheme to get a further 3\% performance improvement for all state-of-the-art (SOTA) methods. The major highlight of our method is that we resort the "motion quality"---a brand new concept, to select a sub-group of video frames from the original testing set to construct a new training set. The selected frames in this new training set should all contain high-quality motions, in which the salient objects will have large probability to be successfully detected by the "target SOTA method"---the one we want to improve. Consequently, we can achieve a significant performance improvement by using this new training set to start a new round of network training. During this new round training, the VSOD results of the target SOTA method will be applied as the pseudo training objectives. Our novel learning scheme is simple yet effective, and its semi-supervised methodology may have large potential to inspire the VSOD community in the future.
翻訳日:2022-11-02 00:43:40 公開日:2020-08-07
# リアルタイムビデオサリエント物体検出のためのリッチで効率的な空間的相互作用の探索

Exploring Rich and Efficient Spatial Temporal Interactions for Real Time Video Salient Object Detection ( http://arxiv.org/abs/2008.02973v1 )

ライセンス: Link先を確認
Chenglizhao Chen, Guotao Wang, Chong Peng, Dingwen Zhang, Yuming Fang, and Hong Qin(参考訳) 現在のメインストリーム法は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。 補足的要素として、時間枝の主な課題は、空間枝を有能な動きのある領域に断続的に集中させることである。 このようにして、全体的なビデオのサリーエンシーの質は、その空間的分岐に大きく依存するが、時間的分岐の性能は依然として重要である。 したがって、ビデオ全体のサリーエンシーを改善する鍵となる要素は、これらのブランチのパフォーマンスを効率的に向上させる方法である。 本稿では,この改善を完全インタラクティブに実現するための,新たな時空間ネットワークを提案する。 我々は,空間枝に軽量な時間モデルを組み込んで,信頼に値する正解運動と相関する空間的に正解な領域を粗く見つける。 一方、空間分岐そのものは、時間モデルをマルチスケールで繰り返し洗練することができる。 このように、空間的分岐と時間的分岐の両方が相互に相互作用でき、相互のパフォーマンス向上が達成される。 提案手法は実装が容易で,50fpsのリアルタイム速度で高画質ビデオサリエンシー検出を実現する。

The current main stream methods formulate their video saliency mainly from two independent venues, i.e., the spatial and temporal branches. As a complementary component, the main task for the temporal branch is to intermittently focus the spatial branch on those regions with salient movements. In this way, even though the overall video saliency quality is heavily dependent on its spatial branch, however, the performance of the temporal branch still matter. Thus, the key factor to improve the overall video saliency is how to further boost the performance of these branches efficiently. In this paper, we propose a novel spatiotemporal network to achieve such improvement in a full interactive fashion. We integrate a lightweight temporal model into the spatial branch to coarsely locate those spatially salient regions which are correlated with trustworthy salient movements. Meanwhile, the spatial branch itself is able to recurrently refine the temporal model in a multi-scale manner. In this way, both the spatial and temporal branches are able to interact with each other, achieving the mutual performance improvement. Our method is easy to implement yet effective, achieving high quality video saliency detection in real-time speed with 50 FPS.
翻訳日:2022-11-02 00:43:22 公開日:2020-08-07
# テキストによる視覚攻撃と防御

Visual Attack and Defense on Text ( http://arxiv.org/abs/2008.10356v1 )

ライセンス: Link先を確認
Shengjun Liu, Ningkang Jiang, Yuanbin Wu(参考訳) テキストの文字を視覚的に類似したものに変更することは、検査システムや他の条件を騙すために、しばしばスパムでap-pear(ap-pear)します。 我々は、このような視覚的テキスト攻撃を生成する方法を提案し、攻撃されたテキストが人間によって読み取られるが、神経分類器を著しく誤解させることを示す。 我々は、通常のテキストを理解する能力を失うことなく、攻撃を防御するための視覚モデルと敵の訓練を謝罪する。 また,視覚攻撃は高度かつ多様であり,それを解決するためにはより多くの作業が必要であることを示した。

Modifying characters of a piece of text to their visual similar ones often ap-pear in spam in order to fool inspection systems and other conditions, which we regard as a kind of adversarial attack to neural models. We pro-pose a way of generating such visual text attack and show that the attacked text are readable by humans but mislead a neural classifier greatly. We ap-ply a vision-based model and adversarial training to defense the attack without losing the ability to understand normal text. Our results also show that visual attack is extremely sophisticated and diverse, more work needs to be done to solve this.
翻訳日:2022-11-02 00:36:33 公開日:2020-08-07
# SemEval-2020 タスク10:ビジュアルメディアにおけるテキストの強調選択

SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual Media ( http://arxiv.org/abs/2008.03274v1 )

ライセンス: Link先を確認
Amirreza Shirani, Franck Dernoncourt, Nedim Lipka, Paul Asente, Jose Echevarria and Thamar Solorio(参考訳) 本稿では,SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Mediaについて,主な知見と結果を比較した。 この共有タスクの目的は、強調選択のための自動メソッド、すなわち、テキストコンテンツに強調する候補を選択することによって、オーサリングにおける自動設計支援を可能にすることである。 主な焦点はソーシャルメディアの短いテキストのインスタンスであり、ソーシャルメディアの投稿からインスピレーション的な引用まで様々な例がある。 参加者は、ユーザや他の設計上の考慮から、追加のコンテキストのないプレーンテキストを使用して強調をモデル化するように求められた。 semeval-2020 強調選択共有タスク 初期段階で197人が参加し、合計31チームがこのタスクに応募した。 最高成績は0.823マッチ。 タスクに送信されたシステムの解析は、BERTとRoBERTaが最も一般的な訓練済みモデルの選択であり、音声タグの一部(POS)が最も有用な特徴であることを示している。 完全な結果はタスクのWebサイトにある。

In this paper, we present the main findings and compare the results of SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Media. The goal of this shared task is to design automatic methods for emphasis selection, i.e. choosing candidates for emphasis in textual content to enable automated design assistance in authoring. The main focus is on short text instances for social media, with a variety of examples, from social media posts to inspirational quotes. Participants were asked to model emphasis using plain text with no additional context from the user or other design considerations. SemEval-2020 Emphasis Selection shared task attracted 197 participants in the early phase and a total of 31 teams made submissions to this task. The highest-ranked submission achieved 0.823 Matchm score. The analysis of systems submitted to the task indicates that BERT and RoBERTa were the most common choice of pre-trained models used, and part of speech tag (POS) was the most useful feature. Full results can be found on the task's website.
翻訳日:2022-11-02 00:36:15 公開日:2020-08-07
# 群知能に基づく特徴選択法の検討

Review of Swarm Intelligence-based Feature Selection Methods ( http://arxiv.org/abs/2008.04103v1 )

ライセンス: Link先を確認
Mehrdad Rostami, Kamal Berahmand, Saman Forouzandeh(参考訳) 過去数十年間、コンピュータとデータベース技術の急速な成長は、大規模なデータセットの急速な成長につながった。 一方で、高速で精度の高い高次元データセットを用いたデータマイニングアプリケーションも急速に増加している。 これらのアプリケーションにおける重要な問題は次元の呪いであり、そこでは特徴の数はパターンの数よりもずっと多い。 次元削減手法の1つは、データマイニングタスクの精度を高め、その計算複雑性を低減できる特徴選択である。 特徴選択法は,最も内的類似度が低く,対象クラスに最も関連性の高い特徴のサブセットを選択することを目的としている。 無関係、冗長、または騒がしいデータを排除することによって、データの寸法を減少させる。 本稿では、異なる特徴選択法の比較分析を行い、それらの方法の一般的な分類を行う。 さらに,本稿では最先端のスウォーム知能を研究し,これらのアルゴリズムに基づく最近の特徴選択手法について検討する。 さらに,研究したswarm intelligenceに基づく特徴選択手法の長所と短所について評価した。

In the past decades, the rapid growth of computer and database technologies has led to the rapid growth of large-scale datasets. On the other hand, data mining applications with high dimensional datasets that require high speed and accuracy are rapidly increasing. An important issue with these applications is the curse of dimensionality, where the number of features is much higher than the number of patterns. One of the dimensionality reduction approaches is feature selection that can increase the accuracy of the data mining task and reduce its computational complexity. The feature selection method aims at selecting a subset of features with the lowest inner similarity and highest relevancy to the target class. It reduces the dimensionality of the data by eliminating irrelevant, redundant, or noisy data. In this paper, a comparative analysis of different feature selection methods is presented, and a general categorization of these methods is performed. Moreover, in this paper, state-of-the-art swarm intelligence are studied, and the recent feature selection methods based on these algorithms are reviewed. Furthermore, the strengths and weaknesses of the different studied swarm intelligence-based feature selection methods are evaluated.
翻訳日:2022-11-02 00:28:26 公開日:2020-08-07
# オープンドメインマルチターンダイアログ、階層的、非階層的モデルにおいて、どちらが優れているか? 実証的研究

Which Kind Is Better in Open-domain Multi-turn Dialog,Hierarchical or Non-hierarchical Models? An Empirical Study ( http://arxiv.org/abs/2008.02964v1 )

ライセンス: Link先を確認
Tian Lan, Xian-Ling Mao, Wei Wei, Heyan Huang(参考訳) 現在、オープンドメイン生成ダイアログシステムは学術や産業において大きな注目を集めている。 シングルターンダイアログ生成の成功にもかかわらず、マルチターンダイアログ生成は依然として大きな課題である。 今のところ、オープンドメインのマルチターンダイアログ生成には、階層モデルと非階層モデルという2種類のモデルがある。 近年、階層モデルが実験条件下での非階層モデルよりも優れていることを示す研究もあるが、反対の結論を示す研究もある。 適切な比較が不十分なため、オープンドメインのマルチターンダイアログ生成においてどのモデルが優れているかは明らかではない。 そこで,本論文では,階層的および非階層的モデルのほとんどを,同じ実験環境上で系統的に測定し,どのモデルが優れているかを確認する。 広範にわたる実験を通じて,(1)階層モデルはほぼすべての階層モデルがhranモデルを除いて,オープンドメインマルチターンダイアログ生成において非階層モデルよりも悪い,という3つの重要な結論を得た。 HRANの優れた性能は、主に単語レベルの注意機構に依存し、(2)単語レベルの注意機構をこれらのモデルに統合した場合、他の階層モデルの性能も大幅に向上する。 改良された階層モデルは非階層モデルよりもはるかに優れている; (3) 単語レベルの注意機構が階層モデルにとってこれほど強力である理由は、文脈情報、特にきめ細かい情報をより効果的に活用できるためである。 さらに、すべてのモデルを実装し、すでにコードをリリースしています。

Currently, open-domain generative dialog systems have attracted considerable attention in academia and industry. Despite the success of single-turn dialog generation, multi-turn dialog generation is still a big challenge. So far, there are two kinds of models for open-domain multi-turn dialog generation: hierarchical and non-hierarchical models. Recently, some works have shown that the hierarchical models are better than non-hierarchical models under their experimental settings; meanwhile, some works also demonstrate the opposite conclusion. Due to the lack of adequate comparisons, it's not clear which kind of models are better in open-domain multi-turn dialog generation. Thus, in this paper, we will measure systematically nearly all representative hierarchical and non-hierarchical models over the same experimental settings to check which kind is better. Through extensive experiments, we have the following three important conclusions: (1) Nearly all hierarchical models are worse than non-hierarchical models in open-domain multi-turn dialog generation, except for the HRAN model. Through further analysis, the excellent performance of HRAN mainly depends on its word-level attention mechanism; (2) The performance of other hierarchical models will also obtain a great improvement if integrating the word-level attention mechanism into these models. The modified hierarchical models even significantly outperform the non-hierarchical models; (3) The reason why the word-level attention mechanism is so powerful for hierarchical models is because it can leverage context information more effectively, especially the fine-grained information. Besides, we have implemented all of the models and already released the codes.
翻訳日:2022-11-02 00:28:11 公開日:2020-08-07
# 対人訓練によるGANの高速化と品質向上

Improving the Speed and Quality of GAN by Adversarial Training ( http://arxiv.org/abs/2008.03364v1 )

ライセンス: Link先を確認
Jiachen Zhong, Xuanqing Liu, Cho-Jui Hsieh(参考訳) generative adversarial networks (gan) は画像生成タスクにおいて顕著な結果を示している。 高忠実度クラス条件付きGAN法は、大域リプシッツ連続性を制約することによって安定化技術に依存することが多い。 このような正規化は、表現力の少ないモデルと収束速度の遅いものにつながり、大規模なバッチトレーニングのような他の手法では、従来の計算能力を必要としないため、広くアクセスできない。 本稿では,GANトレーニングの高速化と品質向上を図るため,FastGAN(Free AdverSarial Training)という効率的なアルゴリズムを開発した。 我々は、この手法を、ImageNetのサブセットであるCIFAR10と、完全なImageNetデータセットでベンチマークする。 SNGANやSAGANのような強力なベースラインを選択することで、トレーニングアルゴリズムはより優れた生成品質(インセプションスコアとFrechetインセプション距離)を全体のトレーニング時間で実現できることを示す。 最も注目すべきは、私たちのトレーニングアルゴリズムが2-4GPUを必要とすることで、ImageNetのトレーニングを一般向けに提供しています。

Generative adversarial networks (GAN) have shown remarkable results in image generation tasks. High fidelity class-conditional GAN methods often rely on stabilization techniques by constraining the global Lipschitz continuity. Such regularization leads to less expressive models and slower convergence speed; other techniques, such as the large batch training, require unconventional computing power and are not widely accessible. In this paper, we develop an efficient algorithm, namely FastGAN (Free AdverSarial Training), to improve the speed and quality of GAN training based on the adversarial training technique. We benchmark our method on CIFAR10, a subset of ImageNet, and the full ImageNet datasets. We choose strong baselines such as SNGAN and SAGAN; the results demonstrate that our training algorithm can achieve better generation quality (in terms of the Inception score and Frechet Inception distance) with less overall training time. Most notably, our training algorithm brings ImageNet training to the broader public by requiring 2-4 GPUs.
翻訳日:2022-11-02 00:26:51 公開日:2020-08-07
# RGB-D能動物体検出のためのデータレベル再結合と軽量融合方式

Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection ( http://arxiv.org/abs/2009.05102v1 )

ライセンス: Link先を確認
Xuehao Wang, Shuai Li, Chenglizhao Chen, Yuming Fang, Aimin Hao, Hong Qin(参考訳) 既存のRGB-D有向物体検出法は、深度情報を独立成分として扱い、そのRGB部分を補完し、双方向並列ネットワークアーキテクチャを広く採用している。 最終結果としてRGBと深度の両方から抽出されたCNNの特徴を選択的に融合させるため、最先端(SOTA)のバイストリームネットワークは通常、2つの独立したサブブランチから構成される。 しかし,rgb成分は深部成分よりも本質的に有益であるため,深部塩分はrgb塩分よりも持続的に劣っている。 バイストリームアーキテクチャは、その後の融合手順をRGBサブブランチに容易にバイアスし、パフォーマンスボトルネックを引き起こす。 本稿では,rgbとd (deep) を融合する新しいデータレベル組換え戦略を提案する。ここでは,元の4次元 rgb-d を循環的に \textbf{d}gb, r\textbf{d}b, rg\textbf{d} に変換する。 そして、これらの新しい定式化データに対して、新たに設計された3重ストリームネットワークを適用して、RGBとDのチャネル的に最適な相補的な融合状態を実現し、新たなSOTA性能を実現する。

Existing RGB-D salient object detection methods treat depth information as an independent component to complement its RGB part, and widely follow the bi-stream parallel network architecture. To selectively fuse the CNNs features extracted from both RGB and depth as a final result, the state-of-the-art (SOTA) bi-stream networks usually consist of two independent subbranches; i.e., one subbranch is used for RGB saliency and the other aims for depth saliency. However, its depth saliency is persistently inferior to the RGB saliency because the RGB component is intrinsically more informative than the depth component. The bi-stream architecture easily biases its subsequent fusion procedure to the RGB subbranch, leading to a performance bottleneck. In this paper, we propose a novel data-level recombination strategy to fuse RGB with D (depth) before deep feature extraction, where we cyclically convert the original 4-dimensional RGB-D into \textbf{D}GB, R\textbf{D}B and RG\textbf{D}. Then, a newly lightweight designed triple-stream network is applied over these novel formulated data to achieve an optimal channel-wise complementary fusion status between the RGB and D, achieving a new SOTA performance.
翻訳日:2022-11-02 00:26:35 公開日:2020-08-07
# プロトタイプガイドによるタスク指向対話応答生成の多様化

Diversifying Task-oriented Dialogue Response Generation with Prototype Guided Paraphrasing ( http://arxiv.org/abs/2008.03391v1 )

ライセンス: Link先を確認
Phillip Lippe, Pengjie Ren, Hinda Haned, Bart Voorn, and Maarten de Rijke(参考訳) タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。 前者は事前に応答テンプレートのコレクションを作成し、スロットをシステムアクションで満たし、実行時にシステム応答を生成する。 後者はシステムアクションを考慮してトークンによってシステム応答トークンを生成する。 テンプレートベースのDRGは高精度で予測可能な応答を提供するが、通常、(神経)コーパスベースのアプローチと比較して、多様で自然な応答を生成する用語が欠けている。 逆に、コーパスに基づくDRG法は自然応答を生成できるが、精度や予測可能性を保証することはできない。 さらに、今日のコーパスベースのDRG法による応答の多様性は依然として限られている。 テンプレートベースとコーパスベースのDRGの利点を組み合わせ,P2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを導入し,精度と多様性の両面で応答の質を高めることを提案する。 P2-Netはスクラッチからレスポンスを生成する代わりに、テンプレートベースのレスポンスを言い換えることでシステムレスポンスを生成する。 応答の精度を保証するため、P2-Netは応答をセマンティクス、文脈の影響、パラフレージングノイズに分離し、パラフレージング中に意味を変化させる。 多様性を導入するために、p2-netは以前の会話発話をプロトタイプとしてランダムにサンプリングし、そこから会話スタイル情報を抽出できる。 自動評価と人間評価の両方を用いてマルチウォズデータセットを広範囲に実験する。 その結果,p2-netは,応答のセマンティクスを保ちながら,多様性の大幅な向上を実現した。

Existing methods for Dialogue Response Generation (DRG) in Task-oriented Dialogue Systems (TDSs) can be grouped into two categories: template-based and corpus-based. The former prepare a collection of response templates in advance and fill the slots with system actions to produce system responses at runtime. The latter generate system responses token by token by taking system actions into account. While template-based DRG provides high precision and highly predictable responses, they usually lack in terms of generating diverse and natural responses when compared to (neural) corpus-based approaches. Conversely, while corpus-based DRG methods are able to generate natural responses, we cannot guarantee their precision or predictability. Moreover, the diversity of responses produced by today's corpus-based DRG methods is still limited. We propose to combine the merits of template-based and corpus-based DRGs by introducing a prototype-based, paraphrasing neural network, called P2-Net, which aims to enhance quality of the responses in terms of both precision and diversity. Instead of generating a response from scratch, P2-Net generates system responses by paraphrasing template-based responses. To guarantee the precision of responses, P2-Net learns to separate a response into its semantics, context influence, and paraphrasing noise, and to keep the semantics unchanged during paraphrasing. To introduce diversity, P2-Net randomly samples previous conversational utterances as prototypes, from which the model can then extract speaking style information. We conduct extensive experiments on the MultiWOZ dataset with both automatic and human evaluations. The results show that P2-Net achieves a significant improvement in diversity while preserving the semantics of responses.
翻訳日:2022-11-02 00:26:08 公開日:2020-08-07
# ビデオ質問応答のための位置対応グラフ畳み込みネットワーク

Location-aware Graph Convolutional Networks for Video Question Answering ( http://arxiv.org/abs/2008.09105v1 )

ライセンス: Link先を確認
Deng Huang, Peihao Chen, Runhao Zeng, Qing Du, Mingkui Tan, Chuang Gan(参考訳) 我々は,自然言語形式でビデオに関する質問に機械が答える必要があるビデオ質問応答の課題に対処した。 ビデオ内で発生した物体の相互作用の位置と関係を明示的にモデル化することなく、ビデオフレームの特徴に時空間的注意機構を適用しようとする従来の手法である。 しかし,物体の相互作用と位置情報の関係は,行動認識と質問推論の両方において非常に重要である。 本研究では,物体の位置情報をグラフ構築に組み込むことにより,映像中のコンテンツを位置認識グラフとして表現することを提案する。 ここで、各ノードは、その外観と位置特徴で表現されたオブジェクトに関連付けられる。 構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。 このグラフはオブジェクト上に構築されているため,ビデオ質問応答を改善するために,前景のアクション内容に集中することが可能である。 最後に,グラフ畳み込みの出力とエンコードされた質問の特徴を組み合わせることで,最終回答の推論を行う。 広範な実験により,提案手法の有効性が実証された。 具体的には,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。 コードおよび事前トレーニングされたモデルは、https://github.com/SunDoge/L-GCNで公開されている。

We addressed the challenging task of video question answering, which requires machines to answer questions about videos in a natural language form. Previous state-of-the-art methods attempt to apply spatio-temporal attention mechanism on video frame features without explicitly modeling the location and relations among object interaction occurred in videos. However, the relations between object interaction and their location information are very critical for both action recognition and question reasoning. In this work, we propose to represent the contents in the video as a location-aware graph by incorporating the location information of an object into the graph construction. Here, each node is associated with an object represented by its appearance and location features. Based on the constructed graph, we propose to use graph convolution to infer both the category and temporal locations of an action. As the graph is built on objects, our method is able to focus on the foreground action contents for better video question answering. Lastly, we leverage an attention mechanism to combine the output of graph convolution and encoded question features for final answer reasoning. Extensive experiments demonstrate the effectiveness of the proposed methods. Specifically, our method significantly outperforms state-of-the-art methods on TGIF-QA, Youtube2Text-QA, and MSVD-QA datasets. Code and pre-trained models are publicly available at: https://github.com/SunDoge/L-GCN
翻訳日:2022-11-02 00:25:25 公開日:2020-08-07