このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200207となっている論文です。

PDF登録状況(公開日: 20200207)

TitleAuthorsAbstract論文公表日・翻訳日
# 解釈型ニューラルネットワークとしてのシス制御の生物物理モデル

Biophysical models of cis-regulation as interpretable neural networks ( http://arxiv.org/abs/2001.03560v2 )

ライセンス: Link先を確認
Ammar Tareen, Justin B. Kinney(参考訳) ゲノム学におけるディープラーニング技術の採用は、これらの技術が生み出すモデルを機械的に解釈することの難しさによって妨げられている。 近年、遺伝子制御の文脈において、このニューラルネットワークの解釈可能性問題に対処するために、様々なポストホック帰属法が提案されている。 本稿では,この問題に対する補完的なアプローチについて述べる。 我々の戦略は、シス調節機構の2種類の生物物理モデルが、ノードと重みが明確な物理化学的解釈を持つディープニューラルネットワークとして表現できるという観察に基づいている。 また,ある種の超並列レポーターアッセイ(MPRA)によって生成されたデータから,現代のディープラーニングフレームワークを用いて,このような生体物理ネットワークを迅速に推定する方法を実証した。 これらの結果から,mpraを用いて遺伝子制御の生物物理学的基盤を多種多様な生物学的文脈で体系的に特徴付けるスケーラブルな戦略が示唆された。 彼らはまた、深層学習への科学的解釈可能なアプローチを開発するための有望な場所として遺伝子規制を強調している。

The adoption of deep learning techniques in genomics has been hindered by the difficulty of mechanistically interpreting the models that these techniques produce. In recent years, a variety of post-hoc attribution methods have been proposed for addressing this neural network interpretability problem in the context of gene regulation. Here we describe a complementary way of approaching this problem. Our strategy is based on the observation that two large classes of biophysical models of cis-regulatory mechanisms can be expressed as deep neural networks in which nodes and weights have explicit physiochemical interpretations. We also demonstrate how such biophysical networks can be rapidly inferred, using modern deep learning frameworks, from the data produced by certain types of massively parallel reporter assays (MPRAs). These results suggest a scalable strategy for using MPRAs to systematically characterize the biophysical basis of gene regulation in a wide range of biological contexts. They also highlight gene regulation as a promising venue for the development of scientifically interpretable approaches to deep learning.
翻訳日:2023-01-17 02:33:38 公開日:2020-02-07
# チャネル補償機構を用いた高効率軽量自動変調分類のための累積極性特徴量に基づくディープラーニング

Accumulated Polar Feature-based Deep Learning for Efficient and Lightweight Automatic Modulation Classification with Channel Compensation Mechanism ( http://arxiv.org/abs/2001.01395v2 )

ライセンス: Link先を確認
Chieh-Fang Teng, Ching-Yao Chou, Chun-Hsiang Chen, and An-Yeu Wu(参考訳) 次世代通信では、大規模な機械型通信(mMTC)が基地局に深刻な負担をもたらす。 このような問題に対処するために、自動変調分類(AMC)は、ハンドシェイキングなしで変調タイプを盲目的に認識することで、信号のオーバーヘッドを低減するのに役立つ。 したがって、将来のインテリジェントモデムにおいて重要な役割を果たす。 新たなディープラーニング(DL)技術は、ネットワークにインテリジェンスを格納し、従来のアプローチよりも優れたパフォーマンスをもたらす。 しかし、従来のDLベースのアプローチは、トレーニングのオーバーヘッド、メモリオーバーヘッド、計算の複雑さに悩まされており、V2Xアプリケーションのようなリソース制限シナリオの実践的応用を著しく妨げている。 また,時間的変動を考慮したオンラインリトレーニングのオーバーヘッドは,先行技術では研究されていない。 本研究では, チャネル補償機構を付加した極性特徴量型DLを提案し, 上記の問題に対処する。 シミュレーションの結果から, 極域からの学習特徴と過去のデータ情報とが, 学習のオーバーヘッドを99.8倍に抑えながら, ほぼ最適性能にアプローチできることが示唆された。 次に,提案するニューラルネットワークに基づくチャネル推定器(nn-ce)は,チャネル応答を学習し,変形したチャネルを13%改善して補償することができる。 さらに、この軽量NN-CEを時変フェードチャネルに適用する場合、伝送オーバーヘッドと再トレーニングオーバーヘッドを90%と76%削減できるオンラインリトレーニングの2つの効率的なメカニズムが提案されている。 最後に,提案手法の性能を評価し,公開データセット上の先行技術と比較し,その優れた効率と軽量性を示す。

In next-generation communications, massive machine-type communications (mMTC) induce severe burden on base stations. To address such an issue, automatic modulation classification (AMC) can help to reduce signaling overhead by blindly recognizing the modulation types without handshaking. Thus, it plays an important role in future intelligent modems. The emerging deep learning (DL) technique stores intelligence in the network, resulting in superior performance over traditional approaches. However, conventional DL-based approaches suffer from heavy training overhead, memory overhead, and computational complexity, which severely hinder practical applications for resource-limited scenarios, such as Vehicle-to-Everything (V2X) applications. Furthermore, the overhead of online retraining under time-varying fading channels has not been studied in the prior arts. In this work, an accumulated polar feature-based DL with a channel compensation mechanism is proposed to cope with the aforementioned issues. Firstly, the simulation results show that learning features from the polar domain with historical data information can approach near-optimal performance while reducing training overhead by 99.8 times. Secondly, the proposed neural network-based channel estimator (NN-CE) can learn the channel response and compensate for the distorted channel with 13% improvement. Moreover, in applying this lightweight NN-CE in a time-varying fading channel, two efficient mechanisms of online retraining are proposed, which can reduce transmission overhead and retraining overhead by 90% and 76%, respectively. Finally, the performance of the proposed approach is evaluated and compared with prior arts on a public dataset to demonstrate its great efficiency and lightness.
翻訳日:2023-01-14 02:53:38 公開日:2020-02-07
# 話者照合のためのペアワイズ判別ニューラルplda

Pairwise Discriminative Neural PLDA for Speaker Verification ( http://arxiv.org/abs/2001.07034v2 )

ライセンス: Link先を確認
Shreyas Ramoji, Prashant Krishnan V, Prachi Singh, Sriram Ganapathy(参考訳) 話者検証に対する最先端のアプローチは、x-ベクトルのような識別埋め込みの抽出と、確率線形判別分析(plda)を用いた生成モデルバックエンドである。 本稿では,x-vectors/i-vectorsなどの一対の話者埋め込み上で動作し,スケールドログ類似度として考えられるスコアを出力する,話者検証タスクのためのペアワイズニューラルネットワーク識別モデルを提案する。 我々は、話者検証損失、すなわち最小検出コストを近似する微分可能なコスト関数を構築する。 線形判別分析(lda)、単位長正規化、クラス内共分散正規化の前処理ステップはすべて神経モデルの層としてモデル化され、これらの層を通して話者検証コスト関数をバックプロパゲーションすることができる。 また,検証タスクに対する識別的バックエンドモデルの使用において重要な関心事となる,過剰フィッティング防止のための正規化手法についても検討する。 実験はNIST SRE 2018の開発と評価データセット上で実施されている。 CMN2条件では8%,VAST条件では30%の相対的改善がPLDAベースラインシステム上で観測された。

The state-of-art approach to speaker verification involves the extraction of discriminative embeddings like x-vectors followed by a generative model back-end using a probabilistic linear discriminant analysis (PLDA). In this paper, we propose a Pairwise neural discriminative model for the task of speaker verification which operates on a pair of speaker embeddings such as x-vectors/i-vectors and outputs a score that can be considered as a scaled log-likelihood ratio. We construct a differentiable cost function which approximates speaker verification loss, namely the minimum detection cost. The pre-processing steps of linear discriminant analysis (LDA), unit length normalization and within class covariance normalization are all modeled as layers of a neural model and the speaker verification cost functions can be back-propagated through these layers during training. We also explore regularization techniques to prevent overfitting, which is a major concern in using discriminative back-end models for verification tasks. The experiments are performed on the NIST SRE 2018 development and evaluation datasets. We observe average relative improvements of 8% in CMN2 condition and 30% in VAST condition over the PLDA baseline system.
翻訳日:2023-01-08 05:48:37 公開日:2020-02-07
# 変分オートエンコーダに基づく音声変換におけるクロスドメイン特徴と逆学習を用いた教師なし表現不等角化

Unsupervised Representation Disentanglement using Cross Domain Features and Adversarial Learning in Variational Autoencoder based Voice Conversion ( http://arxiv.org/abs/2001.07849v3 )

ライセンス: Link先を確認
Wen-Chin Huang, Hao Luo, Hsin-Te Hwang, Chen-Chou Lo, Yu-Huai Peng, Yu Tsao, Hsin-Min Wang(参考訳) 音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。 例えば、可変オートエンコーダ(VAE)ベースのVC(VAE-VC)の有効性は、この原理に強く依存している。 本研究では,VAE-VCの性能向上のために,異なる特性の音響特性を利用するクロスドメインVAE-VC(CDVAE-VC)フレームワークを提案する。 私たちは、この成功はより行き詰まった潜在表現によるものだと信じていた。 本稿では,逆学習の概念を取り入れたCDVAE-VCフレームワークを拡張して,さらに絡み合いの度合いを高め,変換音声の品質と類似性を向上させる。 具体的には,CDVAE-VCにGAN(Generative Adversarial Network)を組み込むことの有効性について検討する。 次に、ドメイン敵訓練の概念を検討し、話者分類器によって実現された潜在表現に明示的な制約を加え、潜在コードに存在する話者情報を明示的に排除する。 実験結果から,学習した潜在表現のアンタングル化の度合いは,GANと話者分類器の両方で向上できることが確認された。 一方,品質や類似度の観点からの主観的評価を行った結果,提案手法の有効性が示された。

An effective approach for voice conversion (VC) is to disentangle linguistic content from other components in the speech signal. The effectiveness of variational autoencoder (VAE) based VC (VAE-VC), for instance, strongly relies on this principle. In our prior work, we proposed a cross-domain VAE-VC (CDVAE-VC) framework, which utilized acoustic features of different properties, to improve the performance of VAE-VC. We believed that the success came from more disentangled latent representations. In this paper, we extend the CDVAE-VC framework by incorporating the concept of adversarial learning, in order to further increase the degree of disentanglement, thereby improving the quality and similarity of converted speech. More specifically, we first investigate the effectiveness of incorporating the generative adversarial networks (GANs) with CDVAE-VC. Then, we consider the concept of domain adversarial training and add an explicit constraint to the latent representation, realized by a speaker classifier, to explicitly eliminate the speaker information that resides in the latent code. Experimental results confirm that the degree of disentanglement of the learned latent representation can be enhanced by both GANs and the speaker classifier. Meanwhile, subjective evaluation results in terms of quality and similarity scores demonstrate the effectiveness of our proposed methods.
翻訳日:2023-01-07 18:02:44 公開日:2020-02-07
# egomap:deep rlのための射影マッピングと構造化エゴセントリックメモリ

EgoMap: Projective mapping and structured egocentric memory for Deep RL ( http://arxiv.org/abs/2002.02286v2 )

ライセンス: Link先を確認
Edward Beeching, Christian Wolf, Jilles Dibangoye, Olivier Simonin(参考訳) 部分観測可能な3D環境における局所化,記憶,計画などの課題は,深層強化学習において進行中の課題である。 本稿では,空間的構造化ニューラルメモリアーキテクチャであるegomapを提案する。 egomapは、複数ステップの目的を持つ課題に対して、3d環境での深い強化学習エージェントのパフォーマンスを増強する。 EgoMapアーキテクチャには、CNN特徴ベクトルの微分可能逆射影を含むいくつかの帰納バイアスが組み込まれている。 地図は、微分可能なアフィン変換によるエゴモーション測定によって更新される。 このアーキテクチャは,メモリが構造化された標準的なリカレントエージェントと,アートエージェントの状態の両方に優れることを示す。 これらの帰納バイアスをエージェントのアーキテクチャに組み込むことで、報酬だけで安定したトレーニングが可能になり、専門家の軌跡の取得とラベル付けのコストを回避できることを実証する。 より詳細なアブレーション研究は、アーキテクチャの重要な側面と広範囲な質的分析を通じて、エージェントが内部メモリの構造をどのように活用してより高い性能を実現するかを示す。

Tasks involving localization, memorization and planning in partially observable 3D environments are an ongoing challenge in Deep Reinforcement Learning. We present EgoMap, a spatially structured neural memory architecture. EgoMap augments a deep reinforcement learning agent's performance in 3D environments on challenging tasks with multi-step objectives. The EgoMap architecture incorporates several inductive biases including a differentiable inverse projection of CNN feature vectors onto a top-down spatially structured map. The map is updated with ego-motion measurements through a differentiable affine transform. We show this architecture outperforms both standard recurrent agents and state of the art agents with structured memory. We demonstrate that incorporating these inductive biases into an agent's architecture allows for stable training with reward alone, circumventing the expense of acquiring and labelling expert trajectories. A detailed ablation study demonstrates the impact of key aspects of the architecture and through extensive qualitative analysis, we show how the agent exploits its structured internal memory to achieve higher performance.
翻訳日:2023-01-07 04:48:47 公開日:2020-02-07
# ニュートンスクリーニングについて

On Newton Screening ( http://arxiv.org/abs/2001.10616v2 )

ライセンス: Link先を確認
Jian Huang, Yuling Jiao, Lican Kang, Jin Liu, Yanyan Liu, Xiliang Lu, and Yuanyuan Yang(参考訳) 最適化問題のサイズを減らすため、スクリーニングと作業セット技術は重要なアプローチである。 大規模なスパース学習問題を解決する一階法の高速化に広く用いられている。 本稿では,ニュートンスクリーニング機構を内蔵した一般化ニュートン法であるNewton Screening (NS) という新しいスクリーニング手法を提案する。 我々は、lasso の等価な kkt 系を導出し、一般化ニュートン法を用いて kkt 方程式を解く。 このKKTシステムに基づいて、前回の繰り返しから生成された原始変数と双対変数の和を用いて、比較的小さな組込み作業セットをまず決定し、次いで、作業セットと閉形式式に基づいて更新された双対変数の最小二乗問題を解くことにより、一次変数を更新する。 さらに,ウォームスタート戦略によるニュートンスクリーニング(sns)の逐次バージョンについて検討する。 NSは1ステップの局所収束を達成するという意味で最適収束特性を有することを示す。 特徴行列上の一定の規則性条件下では、SNSが真ターゲットと同じ符号の解に到達し、高い確率で有界な推定誤差が得られることを示す。 シミュレーション研究と実データ解析は理論的な結果をサポートし、比較研究においてsnsがいくつかの最先端手法よりも高速かつ正確であることを実証する。

Screening and working set techniques are important approaches to reducing the size of an optimization problem. They have been widely used in accelerating first-order methods for solving large-scale sparse learning problems. In this paper, we develop a new screening method called Newton screening (NS) which is a generalized Newton method with a built-in screening mechanism. We derive an equivalent KKT system for the Lasso and utilize a generalized Newton method to solve the KKT equations. Based on this KKT system, a built-in working set with a relatively small size is first determined using the sum of primal and dual variables generated from the previous iteration, then the primal variable is updated by solving a least-squares problem on the working set and the dual variable updated based on a closed-form expression. Moreover, we consider a sequential version of Newton screening (SNS) with a warm-start strategy. We show that NS possesses an optimal convergence property in the sense that it achieves one-step local convergence. Under certain regularity conditions on the feature matrix, we show that SNS hits a solution with the same signs as the underlying true target and achieves a sharp estimation error bound with high probability. Simulation studies and real data analysis support our theoretical results and demonstrate that SNS is faster and more accurate than several state-of-the-art methods in our comparative studies.
翻訳日:2023-01-06 08:08:51 公開日:2020-02-07
# マイニングフォワードパターンによる高レベルネットワークインテントの自動推論

Automatic Inference of High-Level Network Intents by Mining Forwarding Patterns ( http://arxiv.org/abs/2002.02423v2 )

ライセンス: Link先を確認
Ali Kheradmand(参考訳) ネットワークオペレータの高レベルな意図と、その意図を達成する低レベルな構成との間には意味的なギャップがある。 これまでの研究は、検証や合成技術を使ってギャップを埋めようと試みていたが、どちらも意図された振る舞いの正式な仕様を必要とした。 本稿では,低レベルのネットワーク行動から高レベルの意図を推測する,ギャップを埋めるための代替手法について論じる。 具体的には、観測された転送動作のセットを付与するフレームワークとツールであるAnimeが、すべての観測を最もよく記述する可能なインテントのセットを自動的に推論する。 その結果,animeは低レベルのフォワーディング行動から高い品質のインテントを推測できることがわかった。

There is a semantic gap between the high-level intents of network operators and the low-level configurations that achieve the intents. Previous works tried to bridge the gap using verification or synthesis techniques, both requiring formal specifications of the intended behavior which are rarely available or even known in the real world. This paper discusses an alternative approach for bridging the gap, namely to infer the high-level intents from the low-level network behavior. Specifically, we provide Anime, a framework and a tool that given a set of observed forwarding behavior, automatically infers a set of possible intents that best describe all observations. Our results show that Anime can infer high-quality intents from the low-level forwarding behavior with acceptable performance.
翻訳日:2023-01-03 13:14:03 公開日:2020-02-07
# ビデオ中の人間の行動分類のための時空間CNNを用いた情報豊富なサンプリング手法

An Information-rich Sampling Technique over Spatio-Temporal CNN for Classification of Human Actions in Videos ( http://arxiv.org/abs/2002.02100v2 )

ライセンス: Link先を確認
S.H. Shabbeer Basha, Viswanath Pulabaigari, Snehasis Mukherjee(参考訳) 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。 従来、ディープラーニングに基づく人間の活動認識アプローチでは、ビデオのランダムフレームまたは各$k^{th}$フレームが3D CNNのトレーニングのために考慮され、$k$は4、5、6のような小さな正の整数である。 この種のサンプリングは、ネットワークのトレーニングを高速化し、ある程度の過度な適合を回避し、3D CNNモデルの性能を向上する入力データの量を削減する。 提案するビデオサンプリング手法では,k$フレームのガウス重み付き和を計算し,連続するk$フレームを1フレームに集約する。 得られたフレーム(集約フレーム)は、従来の手法よりも優れた方法で情報を保存し、実験によりより良い性能を示す。 本稿では,3次元CNNアーキテクチャを用いて時空間の特徴を抽出し,人間の行動を認識するためにLong Short-Term Memory (LSTM) に従う。 提案した3D CNNアーキテクチャは、カメラがパフォーマーから離れた位置に置かれているビデオを扱うことができる。 KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。

We propose a novel scheme for human action recognition in videos, using a 3-dimensional Convolutional Neural Network (3D CNN) based classifier. Traditionally in deep learning based human activity recognition approaches, either a few random frames or every $k^{th}$ frame of the video is considered for training the 3D CNN, where $k$ is a small positive integer, like 4, 5, or 6. This kind of sampling reduces the volume of the input data, which speeds-up training of the network and also avoids over-fitting to some extent, thus enhancing the performance of the 3D CNN model. In the proposed video sampling technique, consecutive $k$ frames of a video are aggregated into a single frame by computing a Gaussian-weighted summation of the $k$ frames. The resulting frame (aggregated frame) preserves the information in a better way than the conventional approaches and experimentally shown to perform better. In this paper, a 3D CNN architecture is proposed to extract the spatio-temporal features and follows Long Short-Term Memory (LSTM) to recognize human actions. The proposed 3D CNN architecture is capable of handling the videos where the camera is placed at a distance from the performer. Experiments are performed with KTH and WEIZMANN human actions datasets, whereby it is shown to produce comparable results with the state-of-the-art techniques.
翻訳日:2023-01-03 10:02:19 公開日:2020-02-07
# 非パラメトリック回帰量子ニューラルネットワーク

Nonparametric Regression Quantum Neural Networks ( http://arxiv.org/abs/2002.02818v1 )

ライセンス: Link先を確認
Do Ngoc Diep, Koji Nagata, and Tadao Nakamura(参考訳) 最初の著者は、最小二乗量子ニューラルネットワーク (LS-QNN) と ploynomial interpolation quantum Neural Network (PI-QNN)、parametrico-stattistical QNN like: leanr regrassion quantum Neural Network (LR-QNN)、 polynomial regression quantum Neural Network (PR-QNN)、chi-squared quantum neural netowrks (\chi^2$-QNN) を構築した。 本手法は非パラメトリック統計を用いた場合においても有効であることがわかった。 本稿では、線形非パラメトリック回帰量子ニューラルネットワーク(LNR-QNN)、多項式非パラメトリック回帰量子ニューラルネットワーク(PNR-QNN)などのQNNにおける非パラメトリックテストを分析し、実装する。 実装はガウス・ジョーダン除去量子ニューラルネットワーク(GJE-QNN)によって構成されている。 トレーニングルールは、高い確率信頼領域または間隔を使用することである。

In two pervious papers \cite{dndiep3}, \cite{dndiep4}, the first author constructed the least square quantum neural networks (LS-QNN), and ploynomial interpolation quantum neural networks ( PI-QNN), parametrico-stattistical QNN like: leanr regrassion quantum neural networks (LR-QNN), polynomial regression quantum neural networks (PR-QNN), chi-squared quantum neural netowrks ($\chi^2$-QNN). We observed that the method works also in the cases by using nonparametric statistics. In this paper we analyze and implement the nonparametric tests on QNN such as: linear nonparametric regression quantum neural networks (LNR-QNN), polynomial nonparametric regression quantum neural networks (PNR-QNN). The implementation is constructed through the Gauss-Jordan Elimination quantum neural networks (GJE-QNN).The training rule is to use the high probability confidence regions or intervals.
翻訳日:2023-01-03 05:20:55 公開日:2020-02-07
# 負の強度を持つNMRスペクトルのブラインド音源分離

Blind Source Separation for NMR Spectra with Negative Intensity ( http://arxiv.org/abs/2002.03009v1 )

ライセンス: Link先を確認
Ryan J. McCarty, Nimish Ronghe, Mandy Woo, Todd M. Alam(参考訳) NMRスペクトルデータセット、特に限られたサンプルを持つシステムでは、複数の化学成分(相、多形体、分子、結晶、ガラスなど)と重なり合う共鳴の可能性を解釈することは困難である。 本稿では、負の強度を含むNMRスペクトル分析のためのブラインド音源分離手法をベンチマークする。 ベンチマークのために,スピン格子t1緩和やナレーション先端/すべり角実験をモデル化した,四極性固体nmrライクスペクトルの大規模な合成データを生成する。 ベンチマークアプローチでは,基礎となる純成分のスペクトルを再現するブラインドソース分離技術にのみ焦点をあてた。 一般に、FastICA(Fast Independent Component Analysis)、SIMPLISMA(SIMPLe-to-use-Interactive Self-modeling Analysis)、NNMF(Non-Negative Matrix Factorization)がトップパフォーマンス技術である。 ブラインドソース分離前のデータセット正規化アプローチは,結果を大きく改善しないことを示す。 調査対象の騒音レベルの範囲内では,手法のランキングに大きな変化は認められなかった。 FastICAとSIMPLISMAの精度は、過剰な(非現実的な)純粋なコンポーネントが予測されると急速に低下する。 本研究では,SVD法の性能が低いことを示すとともに,行列初期化のための代替手法を提案する。 ベンチマーク手法は実固体NMRデータセットにも適用される。 一般に、合成データセットからの推奨は、実際のデータ分析による推奨と結果と一致する。 この議論は、NMRデータセットにブラインドソース分離を適用した分光学者や将来のベンチマーク研究にいくつかの推奨事項を提供する。

NMR spectral datasets, especially in systems with limited samples, can be difficult to interpret if they contain multiple chemical components (phases, polymorphs, molecules, crystals, glasses, etc...) and the possibility of overlapping resonances. In this paper, we benchmark several blind source separation techniques for analysis of NMR spectral datasets containing negative intensity. For benchmarking purposes, we generated a large synthetic datasbase of quadrupolar solid-state NMR-like spectra that model spin-lattice T1 relaxation or nutation tip/flip angle experiments. Our benchmarking approach focused exclusively on the ability of blind source separation techniques to reproduce the spectra of the underlying pure components. In general, we find that FastICA (Fast Independent Component Analysis), SIMPLISMA (SIMPLe-to-use-Interactive Self-modeling Mixture Analysis), and NNMF (Non-Negative Matrix Factorization) are top-performing techniques. We demonstrate that dataset normalization approaches prior to blind source separation do not considerably improve outcomes. Within the range of noise levels studied, we did not find drastic changes to the ranking of techniques. The accuracy of FastICA and SIMPLISMA degrades quickly if excess (unreal) pure components are predicted. Our results indicate poor performance of SVD (Singular Value Decomposition) methods, and we propose alternative techniques for matrix initialization. The benchmarked techniques are also applied to real solid state NMR datasets. In general, the recommendations from the synthetic datasets agree with the recommendations and results from the real data analysis. The discussion provides some additional recommendations for spectroscopists applying blind source separation to NMR datasets, and for future benchmark studies.
翻訳日:2023-01-03 05:19:41 公開日:2020-02-07
# 離散点の幾何学的定式化とその応用

Geometric Formulation for Discrete Points and its Applications ( http://arxiv.org/abs/2002.03767v1 )

ライセンス: Link先を確認
Yuuya Takayama(参考訳) 離散点上の幾何学の新しい定式化を提案する。 これは、関数の代数による離散集合の幾何学的記述を与える普遍微分計算に基づいている。 この数学的枠組みを微分幾何学と整合するように拡張し、スペクトルグラフ理論とランダムウォークに作用する。 その結果, 確率論, 物理, 応用調和解析, 機械学習における多くの離散的枠組みを包括的に検証した。 我々のアプローチは、本質的な理論の存在とこれらの離散的な枠組みの統一された図像を示唆する。

We introduce a novel formulation for geometry on discrete points. It is based on a universal differential calculus, which gives a geometric description of a discrete set by the algebra of functions. We expand this mathematical framework so that it is consistent with differential geometry, and works on spectral graph theory and random walks. Consequently, our formulation comprehensively demonstrates many discrete frameworks in probability theory, physics, applied harmonic analysis, and machine learning. Our approach would suggest the existence of an intrinsic theory and a unified picture of those discrete frameworks.
翻訳日:2023-01-03 05:19:13 公開日:2020-02-07
# 時系列間の等価関係と$L^p$距離

Equivalence relations and $L^p$ distances between time series ( http://arxiv.org/abs/2002.02592v1 )

ライセンス: Link先を確認
Nick James, Max Menzies(参考訳) 本稿では,時系列間の距離の等価性を定義するための一般的な枠組みと,それを行うための最初の具体的手法を提案する。 我々は、時間列の空間上の同値関係の存在を証明し、商空間は距離化可能な位相を持つことができる。 時系列の集合の中で,そのような距離をアルゴリズムで計算し,これらの距離に基づいてクラスタリング解析を行う。 これらの知見をオーストラリアのnswにおける最近の山火事の分析に適用する。 そこで我々は,時系列をコンテキスト横断的に解析する新しい手法を提案する。

We introduce a general framework for defining equivalence and measuring distances between time series, and a first concrete method for doing so. We prove the existence of equivalence relations on the space of time series, such that the quotient spaces can be equipped with a metrizable topology. We illustrate algorithmically how to calculate such distances among a collection of time series, and perform clustering analysis based on these distances. We apply these insights to analyse the recent bushfires in NSW, Australia. There, we introduce a new method to analyse time series in a cross-contextual setting.
翻訳日:2023-01-03 05:12:45 公開日:2020-02-07
# LQR制御における線形制御のパワー

The Power of Linear Controllers in LQR Control ( http://arxiv.org/abs/2002.02574v1 )

ライセンス: Link先を確認
Gautam Goel, Babak Hassibi(参考訳) 線形二次レギュレータ(lqr)フレームワークは、環境騒音によって摂動する線形力学系を制御する問題を考える。 政策の後悔を3つの異なる政策間で計算します 一 線形構造がリカティ方程式により与えられる最適オンライン政策 二 雑音系列に与えられた最良の線形状態フィードバック方針である最適オフライン線形方針 三 ノイズシーケンスによつて、グローバルに最適な制御アクションを選択する、最適なオフラインポリシー。 我々は、最適オフラインポリシーを完全に特徴付け、最適オンラインポリシーと将来の混乱の観点から再帰的な形態を示す。 また、最適オフライン線形ポリシーのコストは、時間軸が大きくなるにつれて最適オンラインポリシーのコストに収束し、従って、最適なオフライン線形ポリシーは、既知の分布からノイズが引き出される楽観的な状況であっても、最適オフラインポリシーに対して線形後悔を引き起こすことを示す。 我々は,ノイズが確率的であるような設定に注目する一方で,適応的な敵によってノイズが選択されると,後悔できる方針の新たな下界を示唆する。

The Linear Quadratic Regulator (LQR) framework considers the problem of regulating a linear dynamical system perturbed by environmental noise. We compute the policy regret between three distinct control policies: i) the optimal online policy, whose linear structure is given by the Ricatti equations; ii) the optimal offline linear policy, which is the best linear state feedback policy given the noise sequence; and iii) the optimal offline policy, which selects the globally optimal control actions given the noise sequence. We fully characterize the optimal offline policy and show that it has a recursive form in terms of the optimal online policy and future disturbances. We also show that cost of the optimal offline linear policy converges to the cost of the optimal online policy as the time horizon grows large, and consequently the optimal offline linear policy incurs linear regret relative to the optimal offline policy, even in the optimistic setting where the noise is drawn i.i.d from a known distribution. Although we focus on the setting where the noise is stochastic, our results also imply new lower bounds on the policy regret achievable when the noise is chosen by an adaptive adversary.
翻訳日:2023-01-03 05:12:37 公開日:2020-02-07
# RAID:ニューラルネットワークのランダムな逆入力検出

RAID: Randomized Adversarial-Input Detection for Neural Networks ( http://arxiv.org/abs/2002.02776v1 )

ライセンス: Link先を確認
Hasan Ferit Eniser, Maria Christakis, Valentin W\"ustholz(参考訳) 近年、ニューラルネットワークは、いわゆる敵攻撃に弱いにもかかわらず、画像分類やその他の多くの学習タスクのデフォルトの選択肢となっている。 これらの攻撃に対するロバスト性を高めるために、入力が逆方向かどうかを自動的に判断する多くの検出メカニズムが出現している。 しかし、最先端検出メカニズムは、攻撃の種類ごとに調整されるか、異なる攻撃タイプに一般化しないかのどちらかである。 そこで本研究では,2次分類器を訓練し,良性入力と逆入力のニューロン活性化値の差を同定する新しい逆画像検出手法であるraidを提案する。 本手法は6つの攻撃に対して評価した場合, 信頼性が高く, 有効性が高い。 さらに、RAIDの直接的な拡張は、その効果に影響を与えることなく、検出に注意する敵に対する堅牢性を高める。

In recent years, neural networks have become the default choice for image classification and many other learning tasks, even though they are vulnerable to so-called adversarial attacks. To increase their robustness against these attacks, there have emerged numerous detection mechanisms that aim to automatically determine if an input is adversarial. However, state-of-the-art detection mechanisms either rely on being tuned for each type of attack, or they do not generalize across different attack types. To alleviate these issues, we propose a novel technique for adversarial-image detection, RAID, that trains a secondary classifier to identify differences in neuron activation values between benign and adversarial inputs. Our technique is both more reliable and more effective than the state of the art when evaluated against six popular attacks. Moreover, a straightforward extension of RAID increases its robustness against detection-aware adversaries without affecting its effectiveness.
翻訳日:2023-01-03 05:12:17 公開日:2020-02-07
# ベイズ残留政策最適化:透視的専門家によるスケーラブルベイズ強化学習

Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement Learning with Clairvoyant Experts ( http://arxiv.org/abs/2002.03042v1 )

ライセンス: Link先を確認
Gilwoo Lee, Brian Hou, Sanjiban Choudhury, Siddhartha S. Srinivasa(参考訳) 不確実性に直面したインフォームで堅牢な意思決定は、人と一緒に物理的タスクを行うロボットにとって極めて重要である。 我々はこれを潜在マルコフ決定過程(mdps)上のベイズ強化学習として定式化する。 ベイズ最適性は理論的には金の標準であるが、既存のアルゴリズムは連続状態や作用空間にうまくスケールしない。 提案は,不確実性がない場合,各潜伏型MDPの解決が容易である。 我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。 次に,アンサンブルのレコメンデーションを改善するためにベイズ残留政策を訓練し,不確実性を減らすことを学ぶ。 我々のアルゴリズムであるbayesian residual policy optimization(brpo)は、ポリシー勾配法とタスク固有のエキスパートスキルのスケーラビリティをインポートする。 BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。

Informed and robust decision making in the face of uncertainty is critical for robots that perform physical tasks alongside people. We formulate this as Bayesian Reinforcement Learning over latent Markov Decision Processes (MDPs). While Bayes-optimality is theoretically the gold standard, existing algorithms do not scale well to continuous state and action spaces. Our proposal builds on the following insight: in the absence of uncertainty, each latent MDP is easier to solve. We first obtain an ensemble of experts, one for each latent MDP, and fuse their advice to compute a baseline policy. Next, we train a Bayesian residual policy to improve upon the ensemble's recommendation and learn to reduce uncertainty. Our algorithm, Bayesian Residual Policy Optimization (BRPO), imports the scalability of policy gradient methods and task-specific expert skills. BRPO significantly improves the ensemble of experts and drastically outperforms existing adaptive RL methods.
翻訳日:2023-01-03 05:12:03 公開日:2020-02-07
# SPN-CNN:ディープラーニングによるセンサベースソースカメラの属性向上

SPN-CNN: Boosting Sensor-Based Source Camera Attribution With Deep Learning ( http://arxiv.org/abs/2002.02927v1 )

ライセンス: Link先を確認
Matthias Kirchner and Cameron Johnson(参考訳) データ駆動型フレームワークにおけるセンサノイズに基づく音源カメラ識別の高速化手法を探究する。 我々の焦点は、テスト時に単一の画像からセンサパターンノイズ(SPN)抽出を改善することである。 既存の作業が特定のspn信号にほとんど依存しないノイズ除去フィルタによって迷惑コンテンツを抑制する場合,~deep learningアプローチは,ソース帰属を改善するための,より適切な抽出器を生成できることを実証する。 様々な公開データセットに関する広範な実験により、我々のアプローチの有効性と、画像操作のローカライゼーションとビデオソース属性への適用性が確認された。 潜在的な落とし穴に関する批判的な議論がこのテキストを完成させる。

We explore means to advance source camera identification based on sensor noise in a data-driven framework. Our focus is on improving the sensor pattern noise (SPN) extraction from a single image at test time. Where existing works suppress nuisance content with denoising filters that are largely agnostic to the specific SPN signal of interest, we demonstrate that a~deep learning approach can yield a more suitable extractor that leads to improved source attribution. A series of extensive experiments on various public datasets confirms the feasibility of our approach and its applicability to image manipulation localization and video source attribution. A critical discussion of potential pitfalls completes the text.
翻訳日:2023-01-03 05:11:48 公開日:2020-02-07
# M^3$T: 野生におけるマルチモーダル連続原子価推定

$M^3$T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild ( http://arxiv.org/abs/2002.02957v1 )

ライセンス: Link先を確認
Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng, Shiguang Shan and Xilin Chen(参考訳) 本報告では,ABAW(Affective Behavior Analysis in-the-wild)チャレンジの価-覚醒的評価トラックに対するマルチモーダルマルチタスク(M^3$T)アプローチを,IEEE International Conference on Automatic Face and Gesture Recognition (FG) 2020と共同で実施した。 提案する$m^3$tフレームワークでは,映像からの視覚的特徴と音響的特徴の両方をオーディオトラックから融合して,ヴァレンスと覚醒を推定する。 3次元畳み込みネットワークと双方向リカレントニューラルネットワークを用いて時空間視覚特徴を抽出する。 感情,感情,顔行動の関連を考慮し,他の課題の恩恵を受けるメカニズムについて検討する。 ABAWが提供する検証セットに対して,$M^3$T フレームワークを評価し,ベースライン法を著しく上回る性能を示した。

This report describes a multi-modal multi-task ($M^3$T) approach underlying our submission to the valence-arousal estimation track of the Affective Behavior Analysis in-the-wild (ABAW) Challenge, held in conjunction with the IEEE International Conference on Automatic Face and Gesture Recognition (FG) 2020. In the proposed $M^3$T framework, we fuse both visual features from videos and acoustic features from the audio tracks to estimate the valence and arousal. The spatio-temporal visual features are extracted with a 3D convolutional network and a bidirectional recurrent neural network. Considering the correlations between valence / arousal, emotions, and facial actions, we also explores mechanisms to benefit from other tasks. We evaluated the $M^3$T framework on the validation set provided by ABAW and it significantly outperforms the baseline method.
翻訳日:2023-01-03 05:11:36 公開日:2020-02-07
# 数理イメージングにおける構造類似性の最適化

Optimization of Structural Similarity in Mathematical Imaging ( http://arxiv.org/abs/2002.02657v1 )

ライセンス: Link先を確認
D. Otero, D. La Torre, O. Michailovich, E.R. Vrscay(参考訳) ユークリッドに基づく指標は、人間の観察者の主観的判断を常に適切に表しているとは限らないと一般に受け入れられている。 その結果、多くの画像処理手法が代替の視覚品質尺度(ssim)を活用できるように拡張され、最も顕著なものは構造類似性指標(ssim)である。 ユークリッドに基づく測度よりも後者の方が優れていることがいくつかの研究で示されている。 しかし、特定の応用に焦点が当てられているため、そのような研究の知見は、ssimベースの画像処理アルゴリズムのさらなる開発に有用なガイダンスを提供するような一般性に欠けることが多い。 そこで本稿では,特定の画像処理タスクに焦点をあてるのではなく,SSIMを忠実度尺度として利用できる幅広い画像アプリケーションを含む一般的なフレームワークを提案する。 その後、最適化問題に標準と独自の画像処理タスクを組み込むのにフレームワークがどう使われるかを示し、その解のためのいくつかの新しい数値戦略について議論する。

It is now generally accepted that Euclidean-based metrics may not always adequately represent the subjective judgement of a human observer. As a result, many image processing methodologies have been recently extended to take advantage of alternative visual quality measures, the most prominent of which is the Structural Similarity Index Measure (SSIM). The superiority of the latter over Euclidean-based metrics have been demonstrated in several studies. However, being focused on specific applications, the findings of such studies often lack generality which, if otherwise acknowledged, could have provided a useful guidance for further development of SSIM-based image processing algorithms. Accordingly, instead of focusing on a particular image processing task, in this paper, we introduce a general framework that encompasses a wide range of imaging applications in which the SSIM can be employed as a fidelity measure. Subsequently, we show how the framework can be used to cast some standard as well as original imaging tasks into optimization problems, followed by a discussion of a number of novel numerical strategies for their solution.
翻訳日:2023-01-03 05:11:18 公開日:2020-02-07
# ニューラルネットワーク量子状態を用いた量子臨界点の探索

Finding Quantum Critical Points with Neural-Network Quantum States ( http://arxiv.org/abs/2002.02618v1 )

ライセンス: Link先を確認
Remmy Zen, Long My, Ryan Tan, Frederic Hebert, Mario Gattobigio, Christian Miniatura, Dario Poletti, Stephane Bressan(参考訳) 量子臨界点の正確な位置を見つけることは、ゼロ温度で量子多体系を特徴づける上で特に重要である。 しかし、量子多体系はヒルベルト空間の大きさが指数関数的に増加するため、研究が難しいことで有名である。 近年、ニューラルネットワーク量子状態として知られる機械学習ツールは、量子多体系を効果的に効率的にシミュレートすることが示されている。 本稿では,ニューラルネットワーク量子状態を用いた量子イジングモデルの量子臨界点を求める手法を提案する。 従来のアプローチと比較して,このアプローチを検証し,その効率性と有効性を評価する。

Finding the precise location of quantum critical points is of particular importance to characterise quantum many-body systems at zero temperature. However, quantum many-body systems are notoriously hard to study because the dimension of their Hilbert space increases exponentially with their size. Recently, machine learning tools known as neural-network quantum states have been shown to effectively and efficiently simulate quantum many-body systems. We present an approach to finding the quantum critical points of the quantum Ising model using neural-network quantum states, analytically constructed innate restricted Boltzmann machines, transfer learning and unsupervised learning. We validate the approach and evaluate its efficiency and effectiveness in comparison with other traditional approaches.
翻訳日:2023-01-03 05:11:02 公開日:2020-02-07
# サブスペースカプセルネットワーク

Subspace Capsule Network ( http://arxiv.org/abs/2002.02924v1 )

ライセンス: Link先を確認
Marzieh Edraki, Nazanin Rahnavard, Mubarak Shah(参考訳) 畳み込みニューラルネットワーク(CNN)は、AIのほとんどの分野において重要な資産となっている。 その成功にもかかわらず、cnnは大きな欠点に苦しんだ。 それらは、エンティティの異なる部分間の空間的関係の階層を捕捉できない。 この問題の解決策として、カプセルのアイデアはヒントンによって提案された。 本稿では、カプセルネットワークのアイデアを利用して、単にニューロンをグループ化してカプセルを作成するのではなく、カプセルサブスペースのグループを通して、実体の外観や暗黙的に定義された特性をモデル化するサブスペースカプセルネットワーク(SCN)を提案する。 カプセルは、学習可能な変換を用いて、下部層からカプセルサブスペースに入力特徴ベクトルを投影することで作成される。 この変換は、カプセル部分空間によってモデル化された特性と入力のアライメントの度合いを求める。 SCNは,CNNと比較して計算オーバーヘッドを発生させることなく,識別モデルと生成モデルの両方に適用できる汎用カプセルネットワークであることを示す。 GAN(Generative Adversarial Network)フレームワークを用いて、教師付き画像分類、半教師付き画像分類、高解像度画像生成タスクに関する総合的な実験を通してSCNの有効性を評価する。 SCNは3つのタスクのベースラインモデルの性能を大幅に改善する。

Convolutional neural networks (CNNs) have become a key asset to most of fields in AI. Despite their successful performance, CNNs suffer from a major drawback. They fail to capture the hierarchy of spatial relation among different parts of an entity. As a remedy to this problem, the idea of capsules was proposed by Hinton. In this paper, we propose the SubSpace Capsule Network (SCN) that exploits the idea of capsule networks to model possible variations in the appearance or implicitly defined properties of an entity through a group of capsule subspaces instead of simply grouping neurons to create capsules. A capsule is created by projecting an input feature vector from a lower layer onto the capsule subspace using a learnable transformation. This transformation finds the degree of alignment of the input with the properties modeled by the capsule subspace. We show that SCN is a general capsule network that can successfully be applied to both discriminative and generative models without incurring computational overhead compared to CNN during test time. Effectiveness of SCN is evaluated through a comprehensive set of experiments on supervised image classification, semi-supervised image classification and high-resolution image generation tasks using the generative adversarial network (GAN) framework. SCN significantly improves the performance of the baseline models in all 3 tasks.
翻訳日:2023-01-03 05:04:13 公開日:2020-02-07
# 攻撃・バイアスに対する顔認識アルゴリズムのロバスト性について

On the Robustness of Face Recognition Algorithms Against Attacks and Bias ( http://arxiv.org/abs/2002.02942v1 )

ライセンス: Link先を確認
Richa Singh, Akshay Agarwal, Maneet Singh, Shruti Nagpal, Mayank Vatsa(参考訳) 顔認識アルゴリズムは非常に高い認識性能を示しており、現実のアプリケーションに適していることを示唆している。 精度は向上しているが、攻撃やバイアスに対するアルゴリズムの堅牢性は課題となっている。 本稿では,顔認識アルゴリズムの頑健さが意図した作業に大きく影響しうる,様々な方法について要約する。 物理的プレゼンテーション攻撃,変装/メイクアップ,デジタル敵攻撃,ganを用いたモーフィング/タンパリングなど,さまざまなタイプの攻撃について検討した。 また,顔認識モデルに偏りが与える影響について考察し,年齢や性別などの要因が現代のアルゴリズムの性能に影響を及ぼすことを示す。 また,これらの課題の潜在的理由と,顔認識モデルのロバスト性向上に向けた今後の研究方向についても述べる。

Face recognition algorithms have demonstrated very high recognition performance, suggesting suitability for real world applications. Despite the enhanced accuracies, robustness of these algorithms against attacks and bias has been challenged. This paper summarizes different ways in which the robustness of a face recognition algorithm is challenged, which can severely affect its intended working. Different types of attacks such as physical presentation attacks, disguise/makeup, digital adversarial attacks, and morphing/tampering using GANs have been discussed. We also present a discussion on the effect of bias on face recognition models and showcase that factors such as age and gender variations affect the performance of modern algorithms. The paper also presents the potential reasons for these challenges and some of the future research directions for increasing the robustness of face recognition models.
翻訳日:2023-01-03 05:03:32 公開日:2020-02-07
# うつ病の人はソーシャルメディアでより歪んだ思考を表現する

Depressed individuals express more distorted thinking on social media ( http://arxiv.org/abs/2002.02800v1 )

ライセンス: Link先を確認
Krishna C. Bathina, Marijn ten Thij, Lorenzo Lorenzo-Luaces, Lauren A. Rutter, and Johan Bollen(参考訳) うつ病は世界中の障害の主要な原因であるが、しばしば診断や治療が不十分である。 認知行動療法(cbt:cognitive-behavioral therapy)の長所の1つは、抑うつされた個人が思考の歪んだモード(いわゆる認知的歪曲)を示し、感情やモチベーションに悪影響を及ぼす可能性があることである。 本稿では,ソーシャルメディア上で抑うつを自己報告した個人が,ランダムなサンプルよりも歪んだ思考のレベルが高いことを示す。 抑うつコホートでは, いくつかの歪んだ思考が, 特にパーソナライズと感情的推論の2倍以上の傾向を示した。 この効果は表現の歪んだ内容に特有であり、特定の話題、感情、または一人称代名詞の存在によって説明できない。 我々の研究結果は、一般的にうつ病とみなすオンライン言語パターンの検出、および緩和に向けられている。 また、ソーシャルメディアの利用がメンタルヘルスに悪影響を及ぼすという最近の観察に対する洞察を与える可能性もある。

Depression is a leading cause of disability worldwide, but is often under-diagnosed and under-treated. One of the tenets of cognitive-behavioral therapy (CBT) is that individuals who are depressed exhibit distorted modes of thinking, so-called cognitive distortions, which can negatively affect their emotions and motivation. Here, we show that individuals with a self-reported diagnosis of depression on social media express higher levels of distorted thinking than a random sample. Some types of distorted thinking were found to be more than twice as prevalent in our depressed cohort, in particular Personalizing and Emotional Reasoning. This effect is specific to the distorted content of the expression and can not be explained by the presence of specific topics, sentiment, or first-person pronouns. Our results point towards the detection, and possibly mitigation, of patterns of online language that are generally deemed depressogenic. They may also provide insight into recent observations that social media usage can have a negative impact on mental health.
翻訳日:2023-01-03 05:03:20 公開日:2020-02-07
# 機械教育:意味論的順序付けと存在論的誘導型モジュール型ニューラルネットワークの設計

Machine Education: Designing semantically ordered and ontologically guided modular neural networks ( http://arxiv.org/abs/2002.03841v1 )

ライセンス: Link先を確認
Hussein A. Abbass, Sondoss Elsawah, Eleni Petraki, Robert Hunjet(参考訳) 機械の教育、機械教育、カリキュラムデザインに関する文献は、機械学習を改善するために主にデータとモデル工学の要素に焦点を当てた論文を控えて、まだ初期段階にある。 本稿では,まず,機械教育と教育の日程選択の試みについて論じる。 次に、人間教育から機械教育における授業設計の核となる問題と、機械教育のステップを支援するのに必要なモデリングアプローチを構造化し、数学的に定義する理論と方法論を組み合わせる。 最後に、ニューラルネットワークを含む透明で説明可能なモジュール型学習マシンを開発するためのレッスンプランの開発を指導するオントロジーベースの方法論を提供する。

The literature on machine teaching, machine education, and curriculum design for machines is in its infancy with sparse papers on the topic primarily focusing on data and model engineering factors to improve machine learning. In this paper, we first discuss selected attempts to date on machine teaching and education. We then bring theories and methodologies together from human education to structure and mathematically define the core problems in lesson design for machine education and the modelling approaches required to support the steps for machine education. Last, but not least, we offer an ontology-based methodology to guide the development of lesson plans to produce transparent and explainable modular learning machines, including neural networks.
翻訳日:2023-01-03 05:02:49 公開日:2020-02-07
# トライモーダル仮想環境における音響・視覚・嗅覚リソース割り当て

Audio-Visual-Olfactory Resource Allocation for Tri-modal Virtual Environments ( http://arxiv.org/abs/2002.02671v1 )

ライセンス: Link先を確認
Efstratios Doukakis, Kurt Debattista, Thomas Bashford-Rogers, Amar Dhokia, Ali Asadipour, Alan Chalmers and Carlo Harvey(参考訳) 仮想環境(ves)は、トレーニングからエンターテイメントまで、安全かつ制御された方法で、幅広いアプリケーションをシミュレートする機会を提供する。 現実の環境の現実的な表現を必要とするアプリケーションには、VEは複数の物理的に正確な感覚刺激を提供する必要がある。 しかし、人間の感覚システム(hss)を構成する全ての感覚をシミュレートすることは、重要な計算資源を必要とするタスクである。 高い品質で全ての感覚を届けることが困難であるため、与えられた計算予算内で最適な知覚経験を達成するため、資源分配方式を提案する。 本稿では,聴覚刺激,視覚刺激,嗅覚刺激からなるマルチモーダルシナリオの資源バランスについて検討する。 実験は3回行われた。 最初の実験で嗅覚計算の知覚境界が特定された。 第2の実験では,一定数の予算 (m=5) において,与えられた計算予算に対して,視覚,音響,嗅覚の刺激品質が最も良いと感じているものを識別するために参加者 (n=25) に求めた。 その結果、参加者は他の感覚刺激と比較して視覚品質を優先する傾向が見られた。 しかし,予算規模が大きくなるにつれ,利用者はVEの匂い刺激を好んで資源のバランスの取れた分布を好んだ。 収集したデータに基づいて品質予測モデルを提案し、その精度を3回目の実験で未使用の予算と未検証のシナリオに対して検証する。

Virtual Environments (VEs) provide the opportunity to simulate a wide range of applications, from training to entertainment, in a safe and controlled manner. For applications which require realistic representations of real world environments, the VEs need to provide multiple, physically accurate sensory stimuli. However, simulating all the senses that comprise the human sensory system (HSS) is a task that requires significant computational resources. Since it is intractable to deliver all senses at the highest quality, we propose a resource distribution scheme in order to achieve an optimal perceptual experience within the given computational budgets. This paper investigates resource balancing for multi-modal scenarios composed of aural, visual and olfactory stimuli. Three experimental studies were conducted. The first experiment identified perceptual boundaries for olfactory computation. In the second experiment, participants (N=25) were asked, across a fixed number of budgets (M=5), to identify what they perceived to be the best visual, acoustic and olfactory stimulus quality for a given computational budget. Results demonstrate that participants tend to prioritise visual quality compared to other sensory stimuli. However, as the budget size is increased, users prefer a balanced distribution of resources with an increased preference for having smell impulses in the VE. Based on the collected data, a quality prediction model is proposed and its accuracy is validated against previously unused budgets and an untested scenario in a third and final experiment.
翻訳日:2023-01-03 04:55:26 公開日:2020-02-07
# 逆データ拡張を用いたリアルタイムビジュアルトラッキングのためのオブジェクト適応型LSTMネットワーク

Object-Adaptive LSTM Network for Real-time Visual Tracking with Adversarial Data Augmentation ( http://arxiv.org/abs/2002.02598v1 )

ライセンス: Link先を確認
Yihan Du, Yan Yan, Si Chen, Yang Hua(参考訳) 近年,畳み込みニューラルネットワーク(CNN)の強力な特徴表現能力により,ディープラーニングに基づく視覚追跡手法が大きな成功を収めている。 これらの手法のうち, 分類に基づく追跡手法は性能に優れるが, 大規模提案特徴抽出のための高価な計算によって速度が大幅に制限される。 対照的に、マッチングベースの追跡手法(例えばシームズネットワーク)は、著しく高速である。 しかし、オンライン更新がないため、これらのメソッドは大きなオブジェクトの外観の変化に適応できない。 本稿では,オブジェクト適応型LSTMネットワークを用いて,映像の逐次的依存関係を効果的に捕捉し,オブジェクトの外観変化を適応的に学習する,新しいリアルタイムビジュアルトラッキング手法を提案する。 また,高い計算効率を実現するために,マッチングベースの追跡手法を用いて高次提案を事前に推定し,高品質な提案を選択してLSTMネットワークに分類する高速な提案選択戦略を提案する。 この戦略は,無関係な提案を効率的に排除し,特徴抽出のための冗長な計算を回避し,従来の分類に基づく追跡手法よりも高速に動作可能にする。 さらに,オンライントラッキングにおけるサンプル不足やクラス不均衡の問題に対処するために,ジェネレーティブ・アドバイサル・ネットワーク(GAN)に基づくデータ拡張手法を採用し,LSTMネットワークのトレーニングを容易にする。 4つのビジュアルトラッキングベンチマークによる大規模な実験は、トラッキング精度と速度の両方の観点から、我々の手法の最先端性能を示し、視覚トラッキングのための再帰的な構造の可能性を示している。

In recent years, deep learning based visual tracking methods have obtained great success owing to the powerful feature representation ability of Convolutional Neural Networks (CNNs). Among these methods, classification-based tracking methods exhibit excellent performance while their speeds are heavily limited by the expensive computation for massive proposal feature extraction. In contrast, matching-based tracking methods (such as Siamese networks) possess remarkable speed superiority. However, the absence of online updating renders these methods unadaptable to significant object appearance variations. In this paper, we propose a novel real-time visual tracking method, which adopts an object-adaptive LSTM network to effectively capture the video sequential dependencies and adaptively learn the object appearance variations. For high computational efficiency, we also present a fast proposal selection strategy, which utilizes the matching-based tracking method to pre-estimate dense proposals and selects high-quality ones to feed to the LSTM network for classification. This strategy efficiently filters out some irrelevant proposals and avoids the redundant computation for feature extraction, which enables our method to operate faster than conventional classification-based tracking methods. In addition, to handle the problems of sample inadequacy and class imbalance during online tracking, we adopt a data augmentation technique based on the Generative Adversarial Network (GAN) to facilitate the training of the LSTM network. Extensive experiments on four visual tracking benchmarks demonstrate the state-of-the-art performance of our method in terms of both tracking accuracy and speed, which exhibits great potentials of recurrent structures for visual tracking.
翻訳日:2023-01-03 04:55:03 公開日:2020-02-07
# 咬合下の人物再同定のための適応的深度埋め込み

Adaptive Deep Metric Embeddings for Person Re-Identification under Occlusions ( http://arxiv.org/abs/2002.02603v1 )

ライセンス: Link先を確認
Wanxiang Yang, Yan Yan, Si Chen(参考訳) 隠蔽下での人物識別(ReID)は、ビデオ監視において難しい問題である。 既存の人物ReIDメソッドのほとんどは、隠蔽を扱うためにローカル機能を利用する。 しかし、これらの手法は通常、異なる地域間の関係を考慮せずに、画像の局所領域から特徴を独立に抽出する。 本稿では,局所領域間の空間的依存性を学習し,長期短期記憶(lstm)に基づく歩行者画像の識別的特徴表現を抽出し,咬合問題に対処する新しいパーソンリード法を提案する。 特に,標本の適応近傍におけるクラス間差異を増大させながら,クラス内変動を効果的に低減するための分類の不確実性に基づく新しい損失(適応最近傍損失と呼ぶ)を提案する。 提案した損失により、ディープニューラルネットワークは識別的メートル法埋め込みを適応的に学習することができ、未確認の人物識別の一般化能力を大幅に向上する。 挑戦型reidデータセットの広範な比較評価の結果,提案手法の性能は,いくつかの最先端手法と比較して有意に向上した。

Person re-identification (ReID) under occlusions is a challenging problem in video surveillance. Most of existing person ReID methods take advantage of local features to deal with occlusions. However, these methods usually independently extract features from the local regions of an image without considering the relationship among different local regions. In this paper, we propose a novel person ReID method, which learns the spatial dependencies between the local regions and extracts the discriminative feature representation of the pedestrian image based on Long Short-Term Memory (LSTM), dealing with the problem of occlusions. In particular, we propose a novel loss (termed the adaptive nearest neighbor loss) based on the classification uncertainty to effectively reduce intra-class variations while enlarging inter-class differences within the adaptive neighborhood of the sample. The proposed loss enables the deep neural network to adaptively learn discriminative metric embeddings, which significantly improve the generalization capability of recognizing unseen person identities. Extensive comparative evaluations on challenging person ReID datasets demonstrate the significantly improved performance of the proposed method compared with several state-of-the-art methods.
翻訳日:2023-01-03 04:54:39 公開日:2020-02-07
# 何十億もの航空画像と衛星画像の視覚検索

Visual search over billions of aerial and satellite images ( http://arxiv.org/abs/2002.02624v1 )

ライセンス: Link先を確認
Ryan Keisler, Samuel W. Skillman, Sunny Gonnabathula, Justin Poehnelt, Xander Rudelis, Michael S. Warren(参考訳) 本稿では,数十億の航空画像と衛星画像を視覚的に探索するシステムを提案する。 ビジュアル検索の目的は、クエリ画像と視覚的に類似した画像を見つけることである。 我々は,航空画像と衛星画像で訓練された畳み込みニューラルネットワークによって生成された512の抽象視覚特徴を用いて,視覚類似性を定義する。 これらの機能は、データと計算要求を減らすためにバイナリ値に変換される。 Google CloudのスケーラブルなデータベースサービスであるBigtableを使ってハッシュベースの検索を行います。 約20億の画像に対応する1メートルの解像度で米国本土を探索するには、約0.1秒かかる。 このシステムは地上のリアルタイムなビジュアル検索を可能にし、インタラクティブなデモはhttps://search.descarteslabs.comで公開されている。

We present a system for performing visual search over billions of aerial and satellite images. The purpose of visual search is to find images that are visually similar to a query image. We define visual similarity using 512 abstract visual features generated by a convolutional neural network that has been trained on aerial and satellite imagery. The features are converted to binary values to reduce data and compute requirements. We employ a hash-based search using Bigtable, a scalable database service from Google Cloud. Searching the continental United States at 1-meter pixel resolution, corresponding to approximately 2 billion images, takes approximately 0.1 seconds. This system enables real-time visual search over the surface of the earth, and an interactive demo is available at https://search.descarteslabs.com.
翻訳日:2023-01-03 04:54:23 公開日:2020-02-07
# 期待最大化を用いたマルチロボット視覚SLAMにおける統計的外乱同定

Statistical Outlier Identification in Multi-robot Visual SLAM using Expectation Maximization ( http://arxiv.org/abs/2002.02638v1 )

ライセンス: Link先を確認
Arman Karimian, Ziqi Yang, Roberto Tron(参考訳) 本稿では、同時局所化とマッピング(SLAM)において、マップ間のループ閉包を検知するための新しい分散手法を提案する。 提案アルゴリズムは優れた初期化に依存しておらず、一度に2つ以上のマップを処理できる。 マルチロボットSLAMアプリケーションでは、異なるエージェントによって作成されるマップは、不特定空間の参照フレームを持ち、初期化が外れ値の存在下で非常に困難になる。 本稿では,回転測定の幾何的整合性をチェックすることにより,ポーズグラフの最適化に先立って不正確な方向測定を検出する確率論的手法を提案する。 期待最大化はモデルパラメータの微調整に使用される。 補助的な貢献として、グラフ内のループの証拠を使用し、最適化(乗算器の交互方向法)に基づく新しい近似離散推論手順が提示される。 この方法は、信念伝播よりも優れた結果をもたらし、収束保証を持つ。 実世界および合成データにおける異常検出法と推定アルゴリズムの性能を評価するためのシミュレーションおよび実験結果が得られた。

This paper introduces a novel and distributed method for detecting inter-map loop closure outliers in simultaneous localization and mapping (SLAM). The proposed algorithm does not rely on a good initialization and can handle more than two maps at a time. In multi-robot SLAM applications, maps made by different agents have nonidentical spatial frames of reference which makes initialization very difficult in the presence of outliers. This paper presents a probabilistic approach for detecting incorrect orientation measurements prior to pose graph optimization by checking the geometric consistency of rotation measurements. Expectation-Maximization is used to fine-tune the model parameters. As ancillary contributions, a new approximate discrete inference procedure is presented which uses evidence on loops in a graph and is based on optimization (Alternate Direction Method of Multipliers). This method yields superior results compared to Belief Propagation and has convergence guarantees. Simulation and experimental results are presented that evaluate the performance of the outlier detection method and the inference algorithm on synthetic and real-world data.
翻訳日:2023-01-03 04:53:57 公開日:2020-02-07
# スイッチング型精密ニューラルネットワーク

Switchable Precision Neural Networks ( http://arxiv.org/abs/2002.02815v1 )

ライセンス: Link先を確認
Luis Guerra, Bohan Zhuang, Ian Reid, Tom Drummond(参考訳) ニューラルネットワークスライミングの文脈で、即時およびオンデマンドの精度効率トレードオフが最近検討されている。 本稿では,複数の量子化レベルで動作可能な共有ネットワークを訓練するために,スイッチ可能な精密ニューラルネットワーク(sp-nets)と呼ばれる柔軟な量子化戦略を提案する。 実行時、ネットワークは、インスタントメモリ、レイテンシ、消費電力、精度要求に応じて、オンザフライで精度を調整できる。 例えば、スイッチ可能な正確なアクティベーションでネットワークの重みを1ビットに制限することで、共有ネットワークはバイナリ接続からバイナリ化されたニューラルネットワークにまたがる。 さらに, 量子化スイッチの性能向上のため, 自己蒸留方式を提案する。 ResNet-18 と MobileNet アーキテクチャを用いた Tiny ImageNet と ImageNet データセットの分類精度において,SP-Net を独立に訓練した定量化モデルと比較し,その性能を検証した。

Instantaneous and on demand accuracy-efficiency trade-off has been recently explored in the context of neural networks slimming. In this paper, we propose a flexible quantization strategy, termed Switchable Precision neural Networks (SP-Nets), to train a shared network capable of operating at multiple quantization levels. At runtime, the network can adjust its precision on the fly according to instant memory, latency, power consumption and accuracy demands. For example, by constraining the network weights to 1-bit with switchable precision activations, our shared network spans from BinaryConnect to Binarized Neural Network, allowing to perform dot-products using only summations or bit operations. In addition, a self-distillation scheme is proposed to increase the performance of the quantized switches. We tested our approach with three different quantizers and demonstrate the performance of SP-Nets against independently trained quantized models in classification accuracy for Tiny ImageNet and ImageNet datasets using ResNet-18 and MobileNet architectures.
翻訳日:2023-01-03 04:53:25 公開日:2020-02-07
# 3次元顕微鏡画像における核分割学習補助課題

An Auxiliary Task for Learning Nuclei Segmentation in 3D Microscopy Images ( http://arxiv.org/abs/2002.02857v1 )

ライセンス: Link先を確認
Peter Hirsch, Dagmar Kainmueller(参考訳) 顕微鏡画像における細胞核のセグメンテーションは細胞生物学において必須である。 特に3次元データセットの場合、手動のセグメンテーションは極めて時間がかかり、自動化されたメソッドの必要性を動機付けている。 ピクセル単位の基底セグメンテーションを学習する学習ベースの手法は、核の2dベンチマーク画像データに対して最先端の結果が得られることが示されているが、各ベンチマークは3d画像データには欠落している。 本研究では,手作業による3次元光顕微鏡ボリュームのデータベース上で,核分割アルゴリズムの比較評価を行う。 本稿では,単純な補助タスクによってセグメンテーション精度を高める新しい学習戦略を提案する。 さらに,提案した補助課題を訓練すると,我々のベースラインである3ラベルモデルが,最近のStarDist-3Dより優れていることを示す。 さらに,各画素精度のセグメンテーションを発生させることなく,個々の核をピンポイントするだけで核検出に対する核セグメンテーションをベンチマークする。 核検出の学習には、手動で注釈付けされた核中心点の大規模な3dトレーニングデータセットが利用できる。 しかし、そのような粗い基底真理に対する訓練による検出精度への影響は、高密度画素単位の基底真理とは対照的に、まだ定量化されていない。 そこで本研究では,密度の低い地中真実に対するトレーニングにより得られた核検出精度を比較した。 以上の結果から,sparse ground truthのトレーニングは競合核検出率をもたらすことが示唆された。

Segmentation of cell nuclei in microscopy images is a prevalent necessity in cell biology. Especially for three-dimensional datasets, manual segmentation is prohibitively time-consuming, motivating the need for automated methods. Learning-based methods trained on pixel-wise ground-truth segmentations have been shown to yield state-of-the-art results on 2d benchmark image data of nuclei, yet a respective benchmark is missing for 3d image data. In this work, we perform a comparative evaluation of nuclei segmentation algorithms on a database of manually segmented 3d light microscopy volumes. We propose a novel learning strategy that boosts segmentation accuracy by means of a simple auxiliary task, thereby robustly outperforming each of our baselines. Furthermore, we show that one of our baselines, the popular three-label model, when trained with our proposed auxiliary task, outperforms the recent StarDist-3D. As an additional, practical contribution, we benchmark nuclei segmentation against nuclei detection, i.e. the task of merely pinpointing individual nuclei without generating respective pixel-accurate segmentations. For learning nuclei detection, large 3d training datasets of manually annotated nuclei center points are available. However, the impact on detection accuracy caused by training on such sparse ground truth as opposed to dense pixel-wise ground truth has not yet been quantified. To this end, we compare nuclei detection accuracy yielded by training on dense vs. sparse ground truth. Our results suggest that training on sparse ground truth yields competitive nuclei detection rates.
翻訳日:2023-01-03 04:53:11 公開日:2020-02-07
# iqiyi Submission to ActivityNet Challenge 2019 Kinetics-700 Challenge: Hierarchical Group-wise Attention

iqiyi Submission to ActivityNet Challenge 2019 Kinetics-700 challenge: Hierarchical Group-wise Attention ( http://arxiv.org/abs/2002.02918v1 )

ライセンス: Link先を確認
Qian Liu, Dongyang Cai, Jie Liu, Nan Ding, Tao Wang(参考訳) 本報告では,ActivityNet 2019 Kinetics-700の課題に対するiqiyiの提出方法について述べる。 TSN、HG-NL、StNetの3つのモデルがモデルアンサンブルステージに関与している。 本稿では,階層型グループワイド非局所(HG-NL)モジュールを提案する。 標準非局所(NL)モジュールは、ビデオ分類タスクにおいてフレームレベルの特徴を集約するのに有効であるが、パラメータの低い効率と計算コストが高い。 HG-NL法は階層的なグループ単位の構造を持ち、性能を高めるために複数の注意マップを生成する。 提案手法は, この階層的グループ分割構造に基づき, 競合精度, パラメータ低減, 計算コストが標準nlよりも小さい。 activitynet 2019 kinetics-700チャレンジでは、モデルアンサンブルの後、テストセットで平均top-1とtop-5エラー率28.444%を得た。

In this report, the method for the iqiyi submission to the task of ActivityNet 2019 Kinetics-700 challenge is described. Three models are involved in the model ensemble stage: TSN, HG-NL and StNet. We propose the hierarchical group-wise non-local (HG-NL) module for frame-level features aggregation for video classification. The standard non-local (NL) module is effective in aggregating frame-level features on the task of video classification but presents low parameters efficiency and high computational cost. The HG-NL method involves a hierarchical group-wise structure and generates multiple attention maps to enhance performance. Basing on this hierarchical group-wise structure, the proposed method has competitive accuracy, fewer parameters and smaller computational cost than the standard NL. For the task of ActivityNet 2019 Kinetics-700 challenge, after model ensemble, we finally obtain an averaged top-1 and top-5 error percentage 28.444% on the test set.
翻訳日:2023-01-03 04:52:47 公開日:2020-02-07
# FiniteNet: 時間依存部分微分方程式のための完全な畳み込みLSTMネットワークアーキテクチャ

FiniteNet: A Fully Convolutional LSTM Network Architecture for Time-Dependent Partial Differential Equations ( http://arxiv.org/abs/2002.03014v1 )

ライセンス: Link先を確認
Ben Stevens, Tim Colonius(参考訳) 本研究では,時間依存偏微分方程式(pde)を数値解く際に誤差を低減できる機械学習手法を提案する。 完全畳み込みLSTMネットワークを用いてPDEの時空間ダイナミクスを利用する。 ニューラルネットワークは,pdesの解法として一般的に用いられる有限差分法と有限体積法(fdm/fvm)の強化に役立ち,本手法の収束順に保証を維持することができる。 シミュレーションデータに基づいてネットワークをトレーニングし,ベースラインアルゴリズムと比較して,ネットワークの誤差を2~3倍に削減できることを示す。 我々は,3つのpdesにおいて,それぞれが定性的に異なるダイナミクスを特徴とする手法を実証する。 定常速度で初期条件を伝播する線形移流方程式、衝撃波を発生させる不明瞭なバーガーズ方程式、カオスであるクラモト・シヴァシンスキー方程式を考察する。

In this work, we present a machine learning approach for reducing the error when numerically solving time-dependent partial differential equations (PDE). We use a fully convolutional LSTM network to exploit the spatiotemporal dynamics of PDEs. The neural network serves to enhance finite-difference and finite-volume methods (FDM/FVM) that are commonly used to solve PDEs, allowing us to maintain guarantees on the order of convergence of our method. We train the network on simulation data, and show that our network can reduce error by a factor of 2 to 3 compared to the baseline algorithms. We demonstrate our method on three PDEs that each feature qualitatively different dynamics. We look at the linear advection equation, which propagates its initial conditions at a constant speed, the inviscid Burgers' equation, which develops shockwaves, and the Kuramoto-Sivashinsky (KS) equation, which is chaotic.
翻訳日:2023-01-03 04:45:56 公開日:2020-02-07
# ライブコメント用マルチモーダルマッチングトランス

Multimodal Matching Transformer for Live Commenting ( http://arxiv.org/abs/2002.02649v1 )

ライセンス: Link先を確認
Chaoqun Duan and Lei Cui and Shuming Ma and Furu Wei and Conghui Zhu and Tiejun Zhao(参考訳) 自動ライブコメントは視聴者にリアルタイムのコメントを提供することを目的としている。 オンラインビデオサイトでのユーザエンゲージメントを奨励し、ビデオからテキスト生成のための良いベンチマークでもある。 このタスクの最近の研究は、コメントを生成するエンコーダデコーダモデルを採用している。 しかし、これらの手法はビデオとコメントの相互作用を明示的にモデル化しないため、しばしばビデオに関係のない人気コメントを生成する傾向がある。 本研究では,異なるモーダル間相互作用をモデル化することにより,ライブコメントとビデオの関連性を改善することを目的とする。 そこで本稿では,コメント,ビジョン,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。 提案モデルはtransformerフレームワークに基づいており,各モダリティに対する注意認識表現を反復的に学習することができる。 我々は、公開のライブコメントデータセットでモデルを評価する。 実験により、マルチモーダルマッチングトランスフォーマーモデルが最先端手法よりも優れていることが示された。

Automatic live commenting aims to provide real-time comments on videos for viewers. It encourages users engagement on online video sites, and is also a good benchmark for video-to-text generation. Recent work on this task adopts encoder-decoder models to generate comments. However, these methods do not model the interaction between videos and comments explicitly, so they tend to generate popular comments that are often irrelevant to the videos. In this work, we aim to improve the relevance between live comments and videos by modeling the cross-modal interactions among different modalities. To this end, we propose a multimodal matching transformer to capture the relationships among comments, vision, and audio. The proposed model is based on the transformer framework and can iteratively learn the attention-aware representations for each modality. We evaluate the model on a publicly available live commenting dataset. Experiments show that the multimodal matching transformer model outperforms the state-of-the-art methods.
翻訳日:2023-01-03 04:45:22 公開日:2020-02-07
# 接地空間内の文表現に視覚意味を組み込む

Incorporating Visual Semantics into Sentence Representations within a Grounded Space ( http://arxiv.org/abs/2002.02734v1 )

ライセンス: Link先を確認
Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski, Patrick Gallinari(参考訳) 言語基盤は視覚情報によるテキスト表現の充実を目的とした活動分野である。 一般に、テキストと視覚要素は同じ表現空間に埋め込まれ、モダリティ間の1対1の対応を暗黙的に仮定する。 この仮説は、単語を表現する際には成り立たないものであり、文表現(本論文の焦点)を視覚シーンとして学習する際に問題となる。 この制限を克服するために,中間表現空間:接地空間を学習することにより,視覚情報をテキスト表現に変換することを提案する。 さらに,(1)同一の視覚内容に関連する文が接地空間に近接すること,(2)関連要素間の類似性がモダリティ間で保存されることを保証する2つの新しい補完的目的を提案する。 このモデルは,従来の分類や意味的関連性タスクよりも優れていることを示す。

Language grounding is an active field aiming at enriching textual representations with visual information. Generally, textual and visual elements are embedded in the same representation space, which implicitly assumes a one-to-one correspondence between modalities. This hypothesis does not hold when representing words, and becomes problematic when used to learn sentence representations --- the focus of this paper --- as a visual scene can be described by a wide variety of sentences. To overcome this limitation, we propose to transfer visual information to textual representations by learning an intermediate representation space: the grounded space. We further propose two new complementary objectives ensuring that (1) sentences associated with the same visual content are close in the grounded space and (2) similarities between related elements are preserved across modalities. We show that this model outperforms the previous state-of-the-art on classification and semantic relatedness tasks.
翻訳日:2023-01-03 04:45:10 公開日:2020-02-07
# モンテカルロおよび線形確率近似のための平均二乗誤差境界

Explicit Mean-Square Error Bounds for Monte-Carlo and Linear Stochastic Approximation ( http://arxiv.org/abs/2002.02584v1 )

ライセンス: Link先を確認
Shuhang Chen, Adithya M. Devraj, Ana Bu\v{s}i\'c, Sean Meyn(参考訳) 本稿ではマルコフ乱を受ける再帰方程式の誤差境界について述べる。 マルコフ連鎖モンテカルロ (mcmc) と強化学習 (rl) の分野におけるモチベーションの例が多く、これらのアルゴリズムの多くは確率近似 (sa) の特別な場合として解釈できる。 基本となるマルコフ連鎖が可逆であり、m/m/1 キューのような幾何学的にエルゴードである場合でも、一般にエラーシーケンスにホッフディングバウンドを得ることは不可能である。 これはパラメータ推定の平均二乗誤差境界にフォーカスする動機である。 平均二乗誤差はステップサイズ列の条件に従えば,$o(1/n)$の最適値が得られることを示した。 さらに、そのレートの正確な定数が得られ、アルゴリズム設計において大きな価値がある。

This paper concerns error bounds for recursive equations subject to Markovian disturbances. Motivating examples abound within the fields of Markov chain Monte Carlo (MCMC) and Reinforcement Learning (RL), and many of these algorithms can be interpreted as special cases of stochastic approximation (SA). It is argued that it is not possible in general to obtain a Hoeffding bound on the error sequence, even when the underlying Markov chain is reversible and geometrically ergodic, such as the M/M/1 queue. This is motivation for the focus on mean square error bounds for parameter estimates. It is shown that mean square error achieves the optimal rate of $O(1/n)$, subject to conditions on the step-size sequence. Moreover, the exact constants in the rate are obtained, which is of great value in algorithm design.
翻訳日:2023-01-03 04:44:22 公開日:2020-02-07
# Reward Augmentation を通じてアドバイスする学生・教師

Student/Teacher Advising through Reward Augmentation ( http://arxiv.org/abs/2002.02938v1 )

ライセンス: Link先を確認
Cameron Reid(参考訳) トランスファー学習は、エージェントが別の問題を解決するための知識を使用することや、すでに問題を知っているエージェントがそれと通信する知識を使用することで、問題についてエージェントが学ぶのを助けることを目的とした、マルチエージェント強化学習の重要な新しいサブフィールドである。 これは、エージェントのアーキテクチャや学習アルゴリズムを変更したい場合(新しい知識をスクラッチから構築する必要はない)、新しいエージェントが知識なしで環境に頻繁に導入される場合、またはエージェントが類似しているが異なる問題に適応しなければならない場合に役立つ。 エージェントからエージェントへのケースでは、(torreyとtaylor 2013)によって提案された教師/学生のフレームワークを使って大きな進歩を遂げた。 しかし、このアプローチでは教師からの学習は、他の強化学習コンテキストの学習とは異なる扱いを受ける必要がある。 本稿では,教師のフィードバックを学習エージェントが受信した報奨信号に組み込むことにより,教師/学生の枠組みを,より一般的な強化学習フレームワークに直接的かつ自然な適用を可能にする手法を提案する。 私は、このアプローチが、1人のプレイヤーが確率ゲームを行うエージェントの学習率を大幅に改善できることを示し、そのアプローチの潜在的な落とし穴を例示し、このフレームワークに基づくさらなる研究領域を提案する。

Transfer learning is an important new subfield of multiagent reinforcement learning that aims to help an agent learn about a problem by using knowledge that it has gained solving another problem, or by using knowledge that is communicated to it by an agent who already knows the problem. This is useful when one wishes to change the architecture or learning algorithm of an agent (so that the new knowledge need not be built "from scratch"), when new agents are frequently introduced to the environment with no knowledge, or when an agent must adapt to similar but different problems. Great progress has been made in the agent-to-agent case using the Teacher/Student framework proposed by (Torrey and Taylor 2013). However, that approach requires that learning from a teacher be treated differently from learning in every other reinforcement learning context. In this paper, I propose a method which allows the teacher/student framework to be applied in a way that fits directly and naturally into the more general reinforcement learning framework by integrating the teacher feedback into the reward signal received by the learning agent. I show that this approach can significantly improve the rate of learning for an agent playing a one-player stochastic game; I give examples of potential pitfalls of the approach; and I propose further areas of research building on this framework.
翻訳日:2023-01-03 04:44:07 公開日:2020-02-07
# 化学オントロジーの概観

Overview of chemical ontologies ( http://arxiv.org/abs/2002.03842v1 )

ライセンス: Link先を確認
Christian Pachl, Nils Frank, Jan Breitbart, Stefan Br\"ase(参考訳) オントロジーは特定の分野の知識を形式的かつ意味的な方法で順序付け、相互接続し、マシンパーザブルである。 彼らは、概念や対象の許容可能な定義を定義し、それらを分類し、特性を提供し、それらを関係と相互接続する(例: "A is a special case of B")。 より正確には、トム・グルーバー(Tom Gruber)はオントロジーを「概念化の特定; [...]エージェントやエージェントのコミュニティに存在可能な概念と関係の(プログラムの正式な仕様のような)記述」と定義している。 どちらも属性と関係を持つことができる。 いくつかの複雑なオントロジは属性や関係を変更する制限、ルール、イベントを定義します。 コンピュータでアクセスできるように、OBO言語やよりよく使われる共通代数仕様言語など、特定のオントロジー言語で書かれている。 共通標準を見つける必要があるデジタル化、相互接続、グローバル化の世界が台頭するにつれ、オントロジーは大きな関心を集めている。 [2] しかし, 化学オントロジーの発展は始まったばかりである。 実際、化学オントロジーに対するいくつかの興味深い基本的なアプローチが見つかるが、2つの主要な欠陥に悩まされている。 まず、それらは大部分が断片的な完成か、あるいはまだアーキテクチャの状態にあることが分かりました。 第二に、化学オントロジーは広く受け入れられていない。 そこで本研究では,化学関連分野における化学分析法に関するオントロジー,名称反応に関するオントロジー,科学単位に関するオントロジーについて述べる。

Ontologies order and interconnect knowledge of a certain field in a formal and semantic way so that they are machine-parsable. They try to define allwhere acceptable definition of concepts and objects, classify them, provide properties as well as interconnect them with relations (e.g. "A is a special case of B"). More precisely, Tom Gruber defines Ontologies as a "specification of a conceptualization; [...] a description (like a formal specification of a program) of the concepts and relationships that can exist for an agent or a community of agents." [1] An Ontology is made of Individuals which are organized in Classes. Both can have Attributes and Relations among themselves. Some complex Ontologies define Restrictions, Rules and Events which change attributes or relations. To be computer accessible they are written in certain ontology languages, like the OBO language or the more used Common Algebraic Specification Language. With the rising of a digitalized, interconnected and globalized world, where common standards have to be found, ontologies are of great interest. [2] Yet, the development of chemical ontologies is in the beginning. Indeed, some interesting basic approaches towards chemical ontologies can be found, but nevertheless they suffer from two main flaws. Firstly, we found that they are mostly only fragmentary completed or are still in an architecture state. Secondly, apparently no chemical ontology is widespread accepted. Therefore, we herein try to describe the major ontology-developments in the chemical related fields Ontologies about chemical analytical methods, Ontologies about name reactions and Ontologies about scientific units.
翻訳日:2023-01-03 04:43:47 公開日:2020-02-07
# 大規模ベイズ可変選択のための拡張確率勾配MCMC

Extended Stochastic Gradient MCMC for Large-Scale Bayesian Variable Selection ( http://arxiv.org/abs/2002.02919v1 )

ライセンス: Link先を確認
Qifan Song, Yan Sun, Mao Ye, Faming Liang(参考訳) 確率勾配マルコフ連鎖モンテカルロ (MCMC) アルゴリズムは、ビッグデータ問題に対するベイズ計算において多くの注目を集めているが、パラメータ空間が固定次元を持ち、対数後続密度がパラメータに関して微分可能であるような小さな問題にのみ適用可能である。 本稿では,適切な潜伏変数を導入することで,次元跳躍や欠落データなど,より一般的な大規模ベイズ計算問題に適用可能な拡張確率勾配MCMC lgoriathmを提案する。 数値実験により,本アルゴリズムは従来のmcmcアルゴリズムよりもスケーラブルで効率的であることが判明した。 提案するアルゴリズムは,ビッグデータコンピューティングにおけるベイズ手法の苦痛を和らげるものである。

Stochastic gradient Markov chain Monte Carlo (MCMC) algorithms have received much attention in Bayesian computing for big data problems, but they are only applicable to a small class of problems for which the parameter space has a fixed dimension and the log-posterior density is differentiable with respect to the parameters. This paper proposes an extended stochastic gradient MCMC lgoriathm which, by introducing appropriate latent variables, can be applied to more general large-scale Bayesian computing problems, such as those involving dimension jumping and missing data. Numerical studies show that the proposed algorithm is highly scalable and much more efficient than traditional MCMC algorithms. The proposed algorithms have much alleviated the pain of Bayesian methods in big data computing.
翻訳日:2023-01-03 04:36:27 公開日:2020-02-07
# ヒューマノイドの全身運動能力の学習

Learning Whole-body Motor Skills for Humanoids ( http://arxiv.org/abs/2002.02991v1 )

ライセンス: Link先を確認
Chuanyu Yang, Kai Yuan, Wolfgang Merkt, Taku Komura, Sethu Vijayakumar, Zhibin Li(参考訳) 本稿では, 足首, ヒップ, 足の傾き, ステッピング戦略など, 様々なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。 このポリシーは、実際のロボットに学習スキルを移すのが容易な、ロボットモデルの現実的な設定と低レベルインピーダンス制御を備えた物理シミュレータで訓練される。 従来の手法の利点は、単一のコヒーレントポリシーネットワークに高レベルのプランナーとフィードバック制御を統合することであり、これは任意の場所で未知の摂動(例えば、脚、胴体)に対して、多元的バランスと回復の動作を学ぶための一般的な方法である。 さらに,提案フレームワークにより,多くの最先端学習アルゴリズムにより,ポリシーを迅速に学習することができる。 学習した結果を文学における特別目的の制御器の研究と比較することで、自己学習スキルは外乱拒否の点で同等であるが、幅広い適応的で多用途で頑健な行動を生み出すという利点がある。

This paper presents a hierarchical framework for Deep Reinforcement Learning that acquires motor skills for a variety of push recovery and balancing behaviors, i.e., ankle, hip, foot tilting, and stepping strategies. The policy is trained in a physics simulator with realistic setting of robot model and low-level impedance control that are easy to transfer the learned skills to real robots. The advantage over traditional methods is the integration of high-level planner and feedback control all in one single coherent policy network, which is generic for learning versatile balancing and recovery motions against unknown perturbations at arbitrary locations (e.g., legs, torso). Furthermore, the proposed framework allows the policy to be learned quickly by many state-of-the-art learning algorithms. By comparing our learned results to studies of preprogrammed, special-purpose controllers in the literature, self-learned skills are comparable in terms of disturbance rejection but with additional advantages of producing a wide range of adaptive, versatile and robust behaviors.
翻訳日:2023-01-03 04:36:14 公開日:2020-02-07
# resnext networkを用いたハイパースペクトル特徴抽出と分類の学習

Learning Hyperspectral Feature Extraction and Classification with ResNeXt Network ( http://arxiv.org/abs/2002.02585v1 )

ライセンス: Link先を確認
Divinah Nyasaka, Jing Wang, Haron Tinega(参考訳) ハイパースペクトル画像分類 (HSI) は標準的なリモートセンシングタスクであり、各画像ピクセルには地球表面の物理的土地被覆を示すラベルが与えられる。 通常の画像に対する画像意味セグメンテーションとディープラーニングアプローチの成果は,超スペクトル画像分類の研究を加速させた。 さらに,ハイパースペクトル画像におけるスペクトルと空間の手がかりの併用により,ハイパースペクトル画像の分類精度が向上した。 ハイパースペクトル画像から空間的およびスペクトル的手がかりを抽出するために3次元畳み込みニューラルネットワーク(3D-CNN)のみを使用すると、パラメータの爆発が起こり、計算コストが高くなる。 我々は,MixedSNと呼ばれるネットワークアーキテクチャを提案し,アーキテクチャの初期層におけるスペクトル空間情報と,セマンティック抽象化を主に扱う上位層における2次元畳み込みをモデル化する。 アーキテクチャをResNeXtブロックに制限するのは、そのパフォーマンスと単純さのためです。 本モデルはパラメータ数を大幅に削減し,インドパイン (ip) シーンデータセット,パビア大学シーン (pu) データセット,サリナス (sa) シーンデータセット,ボツワナ (bw) データセットにおける最先端手法と同等の分類性能を達成した。

The Hyperspectral image (HSI) classification is a standard remote sensing task, in which each image pixel is given a label indicating the physical land-cover on the earth's surface. The achievements of image semantic segmentation and deep learning approaches on ordinary images have accelerated the research on hyperspectral image classification. Moreover, the utilization of both the spectral and spatial cues in hyperspectral images has shown improved classification accuracy in hyperspectral image classification. The use of only 3D Convolutional Neural Networks (3D-CNN) to extract both spatial and spectral cues from Hyperspectral images results in an explosion of parameters hence high computational cost. We propose network architecture called the MixedSN that utilizes the 3D convolutions to modeling spectral-spatial information in the early layers of the architecture and the 2D convolutions at the top layers which majorly deal with semantic abstraction. We constrain our architecture to ResNeXt block because of their performance and simplicity. Our model drastically reduced the number of parameters and achieved comparable classification performance with state-of-the-art methods on Indian Pine (IP) scene dataset, Pavia University scene (PU) dataset, Salinas (SA) Scene dataset, and Botswana (BW) dataset.
翻訳日:2023-01-03 04:35:43 公開日:2020-02-07
# 複数音源を用いた深層学習による手術用サブタスクの時間分割

Temporal Segmentation of Surgical Sub-tasks through Deep Learning with Multiple Data Sources ( http://arxiv.org/abs/2002.02921v1 )

ライセンス: Link先を確認
Yidan Qin, Sahba Aghajani Pedram, Seyedshams Feyzabadi, Max Allan, A. Jonathan McLeod, Joel W. Burdick, Mahdi Azizian(参考訳) ロボット補助手術(RAS)における多くのタスクは有限状態機械(FSM)で表され、各状態は行動(針を拾うなど)または観察(出血など)を表す。 このような手術作業の自動化に向けた重要なステップは、現在の手術シーンの時間的知覚であり、FSMの状態をリアルタイムに推定する必要がある。 本研究の目的は,手術が進行するにつれて発生した動作や出来事に基づいて,手術の現況を推定することである。 我々は,Kinematics, Vision, System Eventsなどの複数のデータソースを組み込んだ統合手術状態推定モデルFusion-KVEを提案する。 さらに,代表的特徴や粒度が異なるセグメンテーション状態における異なる状態推定モデルの強みと弱みについて検討する。 我々は,jigsaws(jhu-isi gesture and skill assessment working set)のモデルと,da vinci xi手術システムを用いて作製したロボット術中超音波(rious)画像を用いたより複雑なデータセットの評価を行った。 本モデルは,JIGSAWS縫合データセットとRIOUSデータセットの両方において,最先端の手術状態推定モデルを改善するため,89.4%までのフレームワイズ状態推定精度が向上する。

Many tasks in robot-assisted surgeries (RAS) can be represented by finite-state machines (FSMs), where each state represents either an action (such as picking up a needle) or an observation (such as bleeding). A crucial step towards the automation of such surgical tasks is the temporal perception of the current surgical scene, which requires a real-time estimation of the states in the FSMs. The objective of this work is to estimate the current state of the surgical task based on the actions performed or events occurred as the task progresses. We propose Fusion-KVE, a unified surgical state estimation model that incorporates multiple data sources including the Kinematics, Vision, and system Events. Additionally, we examine the strengths and weaknesses of different state estimation models in segmenting states with different representative features or levels of granularity. We evaluate our model on the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS), as well as a more complex dataset involving robotic intra-operative ultrasound (RIOUS) imaging, created using the da Vinci Xi surgical system. Our model achieves a superior frame-wise state estimation accuracy up to 89.4%, which improves the state-of-the-art surgical state estimation models in both JIGSAWS suturing dataset and our RIOUS dataset.
翻訳日:2023-01-03 04:35:05 公開日:2020-02-07
# 準周期信号における教師なし非パラメトリック変化点検出

Unsupervised non-parametric change point detection in quasi-periodic signals ( http://arxiv.org/abs/2002.02717v1 )

ライセンス: Link先を確認
Nikolay Shvetsov and Nazar Buzun and Dmitry V. Dylov(参考訳) 複雑な準周期信号の変化点を検出する新しい教師なし・非パラメトリック法を提案する。 この検出は、位相解析とブートストラップ法を組み合わせた最適輸送理論に依存する。 このアルゴリズムは、事実上あらゆる高調波信号や部分高調波信号の変化を検出できるように設計されており、3つの異なる生理的データストリームで検証される。 単一アルゴリズムを用いて最も頻繁な6種類の不整脈の波形に異常または不規則な心周期を見出すことに成功した。 本手法の有効性と有効性は, 合成および実時間時系列で示す。 我々の教師なしアプローチは、監督された最先端技術の性能レベルに達する。 提案手法の効率性に関する概念的正当化とブートストラップ手順の収束を理論的に証明する。

We propose a new unsupervised and non-parametric method to detect change points in intricate quasi-periodic signals. The detection relies on optimal transport theory combined with topological analysis and the bootstrap procedure. The algorithm is designed to detect changes in virtually any harmonic or a partially harmonic signal and is verified on three different sources of physiological data streams. We successfully find abnormal or irregular cardiac cycles in the waveforms for the six of the most frequent types of clinical arrhythmias using a single algorithm. The validation and the efficiency of the method are shown both on synthetic and on real time series. Our unsupervised approach reaches the level of performance of the supervised state-of-the-art techniques. We provide conceptual justification for the efficiency of the method and prove the convergence of the bootstrap procedure theoretically.
翻訳日:2023-01-03 04:28:52 公開日:2020-02-07
# オンラインのオートエンコーダをベースとした異常検知器の攻撃に対するロバスト性

Can't Boil This Frog: Robustness of Online-Trained Autoencoder-Based Anomaly Detectors to Adversarial Poisoning Attacks ( http://arxiv.org/abs/2002.02741v1 )

ライセンス: Link先を確認
Moshe Kravchik, Asaf Shabtai(参考訳) 近年,産業用制御システム (ICS) における異常やサイバー攻撃検出に有効なニューラルネットワークを用いた様々な手法が文献で実証されている。 それらの実装の成功と広範な利用を考えると、それらに依存するシステムを保護するために、そのような検出方法に対する敵意攻撃を研究する必要がある。 画像とマルウェアの分類に対する敵攻撃に関する広範な研究は、ICS攻撃検知システムの大半が属する物理的システム状態予測ドメインとはほとんど関係がない。 さらに、このような検出システムは監視システムから収集した新たなデータを用いて再訓練されることが多いため、敵データ中毒の脅威は大きいが、まだ研究コミュニティによって対処されていない。 本稿では,オンライン学習オートエンコーダに基づく攻撃検知器に対する中毒攻撃に着目した最初の研究を行う。 本研究では, 毒物サンプル生成のための2つのアルゴリズム, 補間に基づくアルゴリズムと, 合成および実世界のicデータから評価する逆勾配最適化に基づくアルゴリズムを提案する。 提案アルゴリズムは, オートエンコーダ検出器によって標的攻撃が検出されないような毒サンプルを生成できることを実証するが, 検出する能力は少数の攻撃タイプと大きさに限られる。 一般的なSWaTデータセットに毒を発生させるアルゴリズムを適用すると、物理的システム状態データに基づいて訓練されたオートエンコーダ検出器が、データセットに含まれる10の攻撃のすべてに対して、毒性を持つことを示す。 この発見は、サイバー物理領域で使用されるニューラルネットワークベースの攻撃検知器が、マルウェア検出や画像処理などの他の問題領域よりも毒性に強いことを示唆している。

In recent years, a variety of effective neural network-based methods for anomaly and cyber attack detection in industrial control systems (ICSs) have been demonstrated in the literature. Given their successful implementation and widespread use, there is a need to study adversarial attacks on such detection methods to better protect the systems that depend upon them. The extensive research performed on adversarial attacks on image and malware classification has little relevance to the physical system state prediction domain, which most of the ICS attack detection systems belong to. Moreover, such detection systems are typically retrained using new data collected from the monitored system, thus the threat of adversarial data poisoning is significant, however this threat has not yet been addressed by the research community. In this paper, we present the first study focused on poisoning attacks on online-trained autoencoder-based attack detectors. We propose two algorithms for generating poison samples, an interpolation-based algorithm and a back-gradient optimization-based algorithm, which we evaluate on both synthetic and real-world ICS data. We demonstrate that the proposed algorithms can generate poison samples that cause the target attack to go undetected by the autoencoder detector, however the ability to poison the detector is limited to a small set of attack types and magnitudes. When the poison-generating algorithms are applied to the popular SWaT dataset, we show that the autoencoder detector trained on the physical system state data is resilient to poisoning in the face of all ten of the relevant attacks in the dataset. This finding suggests that neural network-based attack detectors used in the cyber-physical domain are more robust to poisoning than in other problem domains, such as malware detection and image processing.
翻訳日:2023-01-03 04:28:40 公開日:2020-02-07
# ターゲット型ディスプレイ広告-優先的な添付の場合

Targeted display advertising: the case of preferential attachment ( http://arxiv.org/abs/2002.02879v1 )

ライセンス: Link先を確認
Saurav Manchanda and Pranjul Yadav and Khoa Doan and S. Sathiya Keerthi(参考訳) 平均的な大人は毎日何百ものデジタル広告にさらされる(https://www.mediadynamicsinc.com/uploads/files/pr092214-note-only-150-ads-2mk.pdf)。 このように、広告テック業界は、パートナー(商品をターゲットとする売り手)の広告キャンペーンの潜在的興味のあるユーザーを特定するために、過去のエンゲージメントログ(クリックまたは購入)に依存している。 パートナーのために表示される広告の数と、パートナーが利用可能な歴史的キャンペーンデータは、パートナーの予算制約に依存する。 したがって、高予算のパートナーが正確な予測を行うのに十分なデータが収集できるが、低予算のパートナーはそうではない。 この歪んだデータの分布は、ターゲットのディスプレイ広告プラットフォームが高予算のパートナーに対して「優先的なアタッチメント」をもたらす。 本稿では,データ不足のパートナ,すなわちテールパートナに対して,関心のあるユーザを予測するという課題に対処する"ドメイン適応"アプローチを開発する。 具体的には、パートナー間の類似性を生かし、十分なデータを持つパートナーからコールドスタートパートナー、すなわちキャンペーンデータを持たないパートナーへ情報を転送するための、シンプルで効果的なアプローチを開発する。 当社のアプローチは,インクリメンタルな微調整によって新たなキャンペーンデータに容易に適応できるため,コールドスタートだけでなく,キャンペーンのさまざまなポイントで動作します。 本稿では,主要なディスプレイ広告プラットフォーム(https://www.criteo.com/)の履歴ログを実験的に分析する。 具体的には、キャンペーンのさまざまな点において、149社のパートナーによるアプローチを評価します。 実験の結果,提案手法は他の「ドメイン適応」アプローチよりもキャンペーンの異なる時点において優れていることがわかった。

An average adult is exposed to hundreds of digital advertisements daily (https://www.mediadynamicsinc.com/uploads/files/PR092214-Note-only-150-Ads-2mk.pdf), making the digital advertisement industry a classic example of a big-data-driven platform. As such, the ad-tech industry relies on historical engagement logs (clicks or purchases) to identify potentially interested users for the advertisement campaign of a partner (a seller who wants to target users for its products). The number of advertisements that are shown for a partner, and hence the historical campaign data available for a partner depends upon the budget constraints of the partner. Thus, enough data can be collected for the high-budget partners to make accurate predictions, while this is not the case with the low-budget partners. This skewed distribution of the data leads to "preferential attachment" of the targeted display advertising platforms towards the high-budget partners. In this paper, we develop "domain-adaptation" approaches to address the challenge of predicting interested users for the partners with insufficient data, i.e., the tail partners. Specifically, we develop simple yet effective approaches that leverage the similarity among the partners to transfer information from the partners with sufficient data to cold-start partners, i.e., partners without any campaign data. Our approaches readily adapt to the new campaign data by incremental fine-tuning, and hence work at varying points of a campaign, and not just the cold-start. We present an experimental analysis on the historical logs of a major display advertising platform (https://www.criteo.com/). Specifically, we evaluate our approaches across 149 partners, at varying points of their campaigns. Experimental results show that the proposed approaches outperform the other "domain-adaptation" approaches at different time points of the campaigns.
翻訳日:2023-01-03 04:26:33 公開日:2020-02-07
# 構文誘導合成のための文法フィルタリング

Grammar Filtering For Syntax-Guided Synthesis ( http://arxiv.org/abs/2002.02884v1 )

ライセンス: Link先を確認
Kairo Morton, William Hallahan, Elven Shum, Ruzica Piskac, Mark Santolucito(参考訳) プログラミング・バイ・サンプル(Programming-by-Example、PBE)は、入力出力の例を単純に提供することによって、ユーザが関数を生成できる合成パラダイムである。 有望な相互作用パラダイムであるにもかかわらず、合成はリアルタイムインタラクションやより広範な採用には遅すぎる。 PBE合成への既存のアプローチでは、SMTソルバのような自動推論ツールや、機械学習技術を適用している。 その中核は、自動推論アプローチは、プログラミング言語の高度にドメイン固有の知識に依存している。 一方、機械学習のアプローチでは、プログラムコードを扱う場合、任意に大規模なトレーニングデータセットを生成することが可能であるという事実を利用する。 本研究では,SyGuS(Syntax Guided Synthesis)方式のPBE問題を解決するために,自動推論技術を用いて機械学習を利用するシステムを提案する。 ニューラルネットワークでSyGuS PBE問題を前処理することにより、探索空間のサイズを減らすためにデータ駆動アプローチを使用して、自動推論ベースの解法を解析的により高速に見つけることができる。 我々のシステムは既存のSyGuS PBE合成ツール上で動作することができ、2019年のPBE文字列のSyGuSコンペティションの勝者のランタイムを47.65%減らし、競合するツールをすべて上回っている。

Programming-by-example (PBE) is a synthesis paradigm that allows users to generate functions by simply providing input-output examples. While a promising interaction paradigm, synthesis is still too slow for realtime interaction and more widespread adoption. Existing approaches to PBE synthesis have used automated reasoning tools, such as SMT solvers, as well as works applying machine learning techniques. At its core, the automated reasoning approach relies on highly domain specific knowledge of programming languages. On the other hand, the machine learning approaches utilize the fact that when working with program code, it is possible to generate arbitrarily large training datasets. In this work, we propose a system for using machine learning in tandem with automated reasoning techniques to solve Syntax Guided Synthesis (SyGuS) style PBE problems. By preprocessing SyGuS PBE problems with a neural network, we can use a data driven approach to reduce the size of the search space, then allow automated reasoning-based solvers to more quickly find a solution analytically. Our system is able to run atop existing SyGuS PBE synthesis tools, decreasing the runtime of the winner of the 2019 SyGuS Competition for the PBE Strings track by 47.65% to outperform all of the competing tools.
翻訳日:2023-01-03 04:25:41 公開日:2020-02-07
# 可逆線型変換による微分進化

Differential Evolution with Reversible Linear Transformations ( http://arxiv.org/abs/2002.02869v1 )

ライセンス: Link先を確認
Jakub M. Tomczak and Ewelina Weglarz-Tomczak and Agoston E. Eiben(参考訳) 微分進化 (DE) は、進化アルゴリズム(EA)の一種である。 他のEA変種と同様に、小さな個体数と緩やかな多様性に悩まされることがある。 本稿では,この問題を緩和するための新しいアプローチを提案する: 人口の3倍の解に適用した可逆線形変換を利用して,新しい候補解を生成する。 言い換えれば、新生個体を適合性を評価することなく利用することで人口を拡大する。 3つの問題に対する方法を評価します (i)ベンチマーク関数の最適化 (ii)遺伝子抑制剤システムのパラメータ値の発見 (iii)ニューラルネットワークの学習。 実験結果から,提案手法は全てのテストベッドで3回異なる突然変異を施したdeとvanilla deを上回っていた。

Differential evolution (DE) is a well-known type of evolutionary algorithms (EA). Similarly to other EA variants it can suffer from small populations and loose diversity too quickly. This paper presents a new approach to mitigate this issue: We propose to generate new candidate solutions by utilizing reversible linear transformation applied to a triplet of solutions from the population. In other words, the population is enlarged by using newly generated individuals without evaluating their fitness. We assess our methods on three problems: (i) benchmark function optimization, (ii) discovering parameter values of the gene repressilator system, (iii) learning neural networks. The empirical results indicate that the proposed approach outperforms vanilla DE and a version of DE with applying differential mutation three times on all testbeds.
翻訳日:2023-01-03 04:19:51 公開日:2020-02-07
# 短視深層学習

Short sighted deep learning ( http://arxiv.org/abs/2002.02664v1 )

ライセンス: Link先を確認
Ellen de Melllo Koch, Anita de Mello Koch, Nicholas Kastanos, Ling Cheng(参考訳) ディープラーニングの仕組みを説明する理論はまだ開発されていない。 これまでの研究では、深層学習は、再正規化群(RG)と同様、粗粒化を行うことが示唆された。 このアイデアは局所的(ネアレスト近傍相互作用)イジングスピン格子の設定において研究されている。 我々は、この議論を長距離スピン格子の設定にまで拡張する。 マルコフ連鎖モンテカルロ(mcmc)シミュレーションは、システムの臨界温度とスケーリング次元の両方を決定する。 このモデルは、単一のRBM(制限されたボルツマンマシン)ネットワークと積み重ねられたRBMネットワークの両方を訓練するために使用される。 初期のIsingモデル研究に続いて、単一層RCMネットワークのトレーニングされた重み付けは格子モデルのフローを定義する。 隣り合うIsingの結果とは対照的に、長い範囲のモデルのRBMフローはスピンとエネルギーのスケーリング次元の正しい値に収束しない。 さらに、可視ノードと隠れノードの相関関数は、積み重ねられたRBMとRGフローの間に重要な違いを示す。 積み重ねられたRBM流は低温に移動するが、RG流は高温に移動する。 これは近隣のイジングで得られた結果とはまた異なる。

A theory explaining how deep learning works is yet to be developed. Previous work suggests that deep learning performs a coarse graining, similar in spirit to the renormalization group (RG). This idea has been explored in the setting of a local (nearest neighbor interactions) Ising spin lattice. We extend the discussion to the setting of a long range spin lattice. Markov Chain Monte Carlo (MCMC) simulations determine both the critical temperature and scaling dimensions of the system. The model is used to train both a single RBM (restricted Boltzmann machine) network, as well as a stacked RBM network. Following earlier Ising model studies, the trained weights of a single layer RBM network define a flow of lattice models. In contrast to results for nearest neighbor Ising, the RBM flow for the long ranged model does not converge to the correct values for the spin and energy scaling dimension. Further, correlation functions between visible and hidden nodes exhibit key differences between the stacked RBM and RG flows. The stacked RBM flow appears to move towards low temperatures whereas the RG flow moves towards high temperature. This again differs from results obtained for nearest neighbor Ising.
翻訳日:2023-01-03 04:17:49 公開日:2020-02-07
# ゲイン過程に制約のあるbsdの離散化と機械学習近似

Discretization and Machine Learning Approximation of BSDEs with a Constraint on the Gains-Process ( http://arxiv.org/abs/2002.02675v1 )

ライセンス: Link先を確認
Idris Kharroubi (LPSM UMR 8001), Thomas Lim (LaMME, ENSIIE), Xavier Warin (EDF)(参考訳) 我々は、利得過程に制約のある後方確率微分方程式(BSDE)の近似について検討する。 まず、グリッド時にいわゆるフェースリフト演算子を適用することで制約を識別する。 この離散的に制約されたBSDEは、メッシュグリッドが0に収束するにつれて連続的に制約されたものへと収束することを示す。 次に、離散制約されたbsdeの近似に焦点を当てる。 そのためには、機械学習アプローチを採用しています。 ニューラルネットワークとその導関数の制約下でのニューラルネットワークのクラス上での最適化問題によってフェイスリフトを近似できることを示す。 次に、ニューロンの数が無限になるにつれて、離散的に制約されたbsdeに収束するアルゴリズムを導出する。 数値実験で終わります 数学科目分類(2010年):65C30、65M75、60H35、93E20、49L25。

We study the approximation of backward stochastic differential equations (BSDEs for short) with a constraint on the gains process. We first discretize the constraint by applying a so-called facelift operator at times of a grid. We show that this discretely constrained BSDE converges to the continuously constrained one as the mesh grid converges to zero. We then focus on the approximation of the discretely constrained BSDE. For that we adopt a machine learning approach. We show that the facelift can be approximated by an optimization problem over a class of neural networks under constraints on the neural network and its derivative. We then derive an algorithm converging to the discretely constrained BSDE as the number of neurons goes to infinity. We end by numerical experiments. Mathematics Subject Classification (2010): 65C30, 65M75, 60H35, 93E20, 49L25.
翻訳日:2023-01-03 04:17:23 公開日:2020-02-07
# k-modesアルゴリズムのための病院住民割当てに基づく新しい初期化

A novel initialisation based on hospital-resident assignment for the k-modes algorithm ( http://arxiv.org/abs/2002.02701v1 )

ライセンス: Link先を確認
Henry Wilde, Vincent Knight, Jonathan Gillard(参考訳) 本稿では,kモードアルゴリズムの初期解を選択する新しい方法を提案する。これは,数学的公平性の概念と,文献からの共通初期化が得られないデータの活用を可能にするものである。 本手法は,初期クラスタセンタロイドのセットを見つけるために,病院における代入問題を利用する手法であり,ベンチマークデータセットと新たに生成された人工データセットの両方の現在の初期化と比較する。 この分析に基づいて,提案手法は,特にクラスタ数を最適化した場合において,ほとんどのケースで他の初期化よりも優れることを示した。 また,本手法は,低密度データに特有な既定手法よりも優れていることがわかった。

This paper presents a new way of selecting an initial solution for the k-modes algorithm that allows for a notion of mathematical fairness and a leverage of the data that the common initialisations from literature do not. The method, which utilises the Hospital-Resident Assignment Problem to find the set of initial cluster centroids, is compared with the current initialisations on both benchmark datasets and a body of newly generated artificial datasets. Based on this analysis, the proposed method is shown to outperform the other initialisations in the majority of cases, especially when the number of clusters is optimised. In addition, we find that our method outperforms the leading established method specifically for low-density data.
翻訳日:2023-01-03 04:17:07 公開日:2020-02-07
# DynamicPPL:動的確率モデルのためのスタンライクな速度

DynamicPPL: Stan-like Speed for Dynamic Probabilistic Models ( http://arxiv.org/abs/2002.02702v1 )

ライセンス: Link先を確認
Mohamed Tarek, Kai Xu, Martin Trapp, Hong Ge, Zoubin Ghahramani(参考訳) 本稿では,確率的プログラミングのためのlightning-fastインフラストラクチャを提供するモジュールライブラリであるdynamicppl.jlの事前設計と機能を紹介する。 Stanに近いかそれ以上の計算性能の他に、DynamicPPLは複雑な動的確率プログラムの迅速な開発を可能にする直感的なDSLを提供する。 数値計算のためのハイレベルな動的プログラミング言語であるJuliaで完全に書かれており、DynamicPPLはJuliaエコシステムを通じて利用可能な豊富な機能を継承している。 DynamicPPLはモジュラーでスタンドアロンのライブラリであるため、Turing.jlのようなJuliaで記述された確率的プログラミングシステムはDynamicPPLを使用してモデルを特定し、モデルパラメータをトレースすることができる。 DynamicPPLの主な特徴は次のとおりである。 1)直観的なチルドベースの表記法を用いて動的モデルを特定するメタプログラミングベースのdsl 2)動的確率モデルにおけるRV追跡のためのトレースデータ構造 3) モデル実行時の仕立て動作が可能な豊富なコンテキストディスパッチシステム。 4)確率的クエリに対するユーザフレンドリな構文。 最後に,DynamicPPL が Turing.jl と組み合わせることで,Stan に近い,あるいはより優れた計算性能が得られることを示す。

We present the preliminary high-level design and features of DynamicPPL.jl, a modular library providing a lightning-fast infrastructure for probabilistic programming. Besides a computational performance that is often close to or better than Stan, DynamicPPL provides an intuitive DSL that allows the rapid development of complex dynamic probabilistic programs. Being entirely written in Julia, a high-level dynamic programming language for numerical computing, DynamicPPL inherits a rich set of features available through the Julia ecosystem. Since DynamicPPL is a modular, stand-alone library, any probabilistic programming system written in Julia, such as Turing.jl, can use DynamicPPL to specify models and trace their model parameters. The main features of DynamicPPL are: 1) a meta-programming based DSL for specifying dynamic models using an intuitive tilde-based notation; 2) a tracing data-structure for tracking RVs in dynamic probabilistic models; 3) a rich contextual dispatch system allowing tailored behaviour during model execution; and 4) a user-friendly syntax for probabilistic queries. Finally, we show in a variety of experiments that DynamicPPL, in combination with Turing.jl, achieves computational performance that is often close to or better than Stan.
翻訳日:2023-01-03 04:16:55 公開日:2020-02-07
# 行動認識のための学習クラス正規化特徴

Learning Class Regularized Features for Action Recognition ( http://arxiv.org/abs/2002.02651v1 )

ライセンス: Link先を確認
Alexandros Stergiou, Ronald Poppe, and Remco C. Veltkamp(参考訳) 深層畳み込みニューラルネットワーク(CNN)のトレーニングは、複数のカーネルと非線形をその後のアクティベーションに使用して有用な特徴を抽出するという概念に基づいている。 カーネルは、ターゲットクラスに特定の対応を持たずに、一般的な特徴抽出器として使用される。 その結果、抽出された特徴は特定のクラスに対応しない。 類似クラス間の部分差は、異種クラス間の大きな差と同じ方法でモデル化される。 CNNにおけるカーネルのクラスに依存しない使用を克服するために,クラス正規化と呼ばれる新しい手法を導入する。 これは、トレーニング中の特徴探索を改善するだけでなく、特徴抽出プロセスの各段階でクラス毎の機能の明示的な割り当てを可能にする。 動作認識に最先端CNNアーキテクチャのクラス正規化ブロックを用いることで,Kineetics, UCF-101, HMDB-51データセットにおいて, それぞれ1.8%, 1.2%, 1.4%の体系的改善が得られた。

Training Deep Convolutional Neural Networks (CNNs) is based on the notion of using multiple kernels and non-linearities in their subsequent activations to extract useful features. The kernels are used as general feature extractors without specific correspondence to the target class. As a result, the extracted features do not correspond to specific classes. Subtle differences between similar classes are modeled in the same way as large differences between dissimilar classes. To overcome the class-agnostic use of kernels in CNNs, we introduce a novel method named Class Regularization that performs class-based regularization of layer activations. We demonstrate that this not only improves feature search during training, but also allows an explicit assignment of features per class during each stage of the feature extraction process. We show that using Class Regularization blocks in state-of-the-art CNN architectures for action recognition leads to systematic improvement gains of 1.8%, 1.2% and 1.4% on the Kinetics, UCF-101 and HMDB-51 datasets, respectively.
翻訳日:2023-01-03 04:09:34 公開日:2020-02-07
# 属性特化埋め込みネットワークによるファイングレードファッション類似学習

Fine-Grained Fashion Similarity Learning by Attribute-Specific Embedding Network ( http://arxiv.org/abs/2002.02814v1 )

ライセンス: Link先を確認
Zhe Ma, Jianfeng Dong, Yao Zhang, Zhongzi Long, Yuan He, Hui Xue, Shouling Ji(参考訳) この論文は、きめ細かいファッションの類似性を学ぼうとしている。 この類似性パラダイムでは、ファッション著作権保護など多くのファッション関連アプリケーションにおいて潜在的な価値を持つファッションアイテムの特定のデザイン/属性の観点から、類似性に注意を払う必要がある。 そこで本稿では,複数の属性固有の埋め込みをエンドツーエンドに学習するAttribute-Specific Embedding Network (ASEN)を提案する。 属性対応空間注意(Attribute-aware spatial Attention)と属性対応チャネル注意(Attribute-aware Channel Attention)の2つのアテンションモジュールにより、ASENは関連する領域を特定し、特定の属性のガイダンスの下で必須パターンをキャプチャできる。 4つのファッション関連データセットの大規模な実験は、ファッション類似性学習におけるASENの有効性とファッション再ランキングの可能性を示している。

This paper strives to learn fine-grained fashion similarity. In this similarity paradigm, one should pay more attention to the similarity in terms of a specific design/attribute among fashion items, which has potential values in many fashion related applications such as fashion copyright protection. To this end, we propose an Attribute-Specific Embedding Network (ASEN) to jointly learn multiple attribute-specific embeddings in an end-to-end manner, thus measure the fine-grained similarity in the corresponding space. With two attention modules, i.e., Attribute-aware Spatial Attention and Attribute-aware Channel Attention, ASEN is able to locate the related regions and capture the essential patterns under the guidance of the specified attribute, thus make the learned attribute-specific embeddings better reflect the fine-grained similarity. Extensive experiments on four fashion-related datasets show the effectiveness of ASEN for fine-grained fashion similarity learning and its potential for fashion reranking.
翻訳日:2023-01-03 04:09:15 公開日:2020-02-07
# 教師なし事前学習の言語間移動

Unsupervised pretraining transfers well across languages ( http://arxiv.org/abs/2002.02848v1 )

ライセンス: Link先を確認
Morgane Rivi\`ere, Armand Joulin, Pierre-Emmanuel Mazar\'e, Emmanuel Dupoux(参考訳) 自動音声認識(asr)の言語間および多言語間学習は教師あり環境で広く研究されている。 これは、音声と正書法による転写の並列コーパスの存在を前提としている。 近年,非競合データを用いたASRシステムの事前学習のためのコントラスト予測符号化(CPC)アルゴリズムが提案されている。 本研究では,教師なし事前学習が言語間でうまく伝達されるかどうかを検討する。 cpcプリトレーニングのわずかな変更は、他の言語によく移行する機能を抽出し、教師付きプリトレーニングに匹敵するか、あるいは上回ることを示します。 これは言語資源の少ない言語に対する教師なし手法の可能性を示している。

Cross-lingual and multi-lingual training of Automatic Speech Recognition (ASR) has been extensively investigated in the supervised setting. This assumes the existence of a parallel corpus of speech and orthographic transcriptions. Recently, contrastive predictive coding (CPC) algorithms have been proposed to pretrain ASR systems with unlabelled data. In this work, we investigate whether unsupervised pretraining transfers well across languages. We show that a slight modification of the CPC pretraining extracts features that transfer well to other languages, being on par or even outperforming supervised pretraining. This shows the potential of unsupervised methods for languages with few linguistic resources.
翻訳日:2023-01-03 04:08:25 公開日:2020-02-07
# aiの認知的擬人化:人間とコンピュータによる画像分類

Cognitive Anthropomorphism of AI: How Humans and Computers Classify Images ( http://arxiv.org/abs/2002.03024v1 )

ライセンス: Link先を確認
Shane T. Mueller(参考訳) 現代のai画像分類器は近年目覚ましい進歩を遂げているが、その性能はしばしば奇妙に見えるか、ユーザーの期待に反している。 これは、AIが人間の知性と同じ性質を持つことを期待している。 このミスマッチは、適切な人間とAIの相互作用に障害をもたらす。 このミスマッチについて,画像分類システムと比較して,人間の分類の既知の特性について検討した。 この試験に基づいて、人間とAIの分類のミスマッチに対処できるシステム設計のための3つの戦略:説明可能なAI、ユーザーを訓練するための新しい方法、人間の認知にマッチする新しいアルゴリズムを提供する。

Modern AI image classifiers have made impressive advances in recent years, but their performance often appears strange or violates expectations of users. This suggests humans engage in cognitive anthropomorphism: expecting AI to have the same nature as human intelligence. This mismatch presents an obstacle to appropriate human-AI interaction. To delineate this mismatch, I examine known properties of human classification, in comparison to image classifier systems. Based on this examination, I offer three strategies for system design that can address the mismatch between human and AI classification: explainable AI, novel methods for training users, and new algorithms that match human cognition.
翻訳日:2023-01-03 04:08:17 公開日:2020-02-07
# トラベリングティフ問題の動的多目的最適化

Dynamic Multi-objective Optimization of the Travelling Thief Problem ( http://arxiv.org/abs/2002.02636v1 )

ライセンス: Link先を確認
Daniel Herring, Michael Kirley, Xin Yao(参考訳) 現実的なシナリオを反映した詳細かつ複雑な最適化問題の定式化の研究は、急成長する研究分野である。 多目的な定式化や、それを解決するための厳密な方法と近似的な方法の比較を含む、旅行泥棒問題に対する研究が増えている。 しかし、多くの現実的なシナリオは時間的に非静的であるため、TTPでは動的定式化はまだ検討されていない。 TTP問題の3つの領域におけるダイナミックスの定義には、都市部、アベイラビリティマップ、アイテム値がある。 初期集合と得られた非支配集合の間の解保存の解明に基づき,解法を用いて解法を厳密かつランダムに解法として定義する。 これらは、変化後に個体群を播種するために展開され、超体積および拡散の点における性能が比較のために提示される。 様々な TSP 成分と KP 成分のサイズの様々な問題において、既存の結論に沿う興味深い傾向が観察されるが、最適 TSP と KP 成分の解を活用できる場合、解群の初期化戦略としてランダム化を用いるメリットはほとんどない。 これらの別個のオプティマは優れたttpソリューションを保証していないが、結合すると、より優れた初期パフォーマンスが得られ、それゆえいくつかの検査されたインスタンスでは、動的変更に対する最善の応答を提供する。 動的変化に応答して, 溶液生成法を混合して複合集団を提供する組み合わせアプローチは, 動的TTP定式化の異なるインスタンスでの性能を向上させる。 より協調的な組み合わせ法のさらなる発展の可能性は、問題に関する既知の情報をより密に活用することを実現する。

Investigation of detailed and complex optimisation problem formulations that reflect realistic scenarios is a burgeoning field of research. A growing body of work exists for the Travelling Thief Problem, including multi-objective formulations and comparisons of exact and approximate methods to solve it. However, as many realistic scenarios are non-static in time, dynamic formulations have yet to be considered for the TTP. Definition of dynamics within three areas of the TTP problem are addressed; in the city locations, availability map and item values. Based on the elucidation of solution conservation between initial sets and obtained non-dominated sets, we define a range of initialisation mechanisms using solutions generated via solvers, greedily and randomly. These are then deployed to seed the population after a change and the performance in terms of hypervolume and spread is presented for comparison. Across a range of problems with varying TSP-component and KP-component sizes, we observe interesting trends in line with existing conclusions; there is little benefit to using randomisation as a strategy for initialisation of solution populations when the optimal TSP and KP component solutions can be exploited. Whilst these separate optima don't guarantee good TTP solutions, when combined, provide better initial performance and therefore in some examined instances, provides the best response to dynamic changes. A combined approach that mixes solution generation methods to provide a composite population in response to dynamic changes provides improved performance in some instances for the different dynamic TTP formulations. Potential for further development of a more cooperative combined method are realised to more cohesively exploit known information about the problems.
翻訳日:2023-01-03 04:08:06 公開日:2020-02-07
# 大規模回帰データにおける特徴選択のためのサブサンプリング勝者アルゴリズム

Subsampling Winner Algorithm for Feature Selection in Large Regression Data ( http://arxiv.org/abs/2002.02903v1 )

ライセンス: Link先を確認
Yiying Fan and Jiayang Sun(参考訳) 回帰分析における多数の共変量(いわゆる特徴)の特徴選択は、データサイエンスにおける課題であり、特にデータの拡大と科学的に意味のある特徴のグループを見つける可能性においてである。 例えば、卵巣癌に対する新しい応答性薬物標的を開発するには、実用的な特徴選択手順の実際の偽発見率(FDR)もターゲットFDRと一致しなければならない。 機能選択の一般的なアプローチは、真の機能が不足している場合、LASSO、SCAD、Elastic Net、MSPプロシージャ(それらをベンチマーク手順と呼ぶ)のようなペナル化可能性または縮小推定を使用することである。 本稿では,新しいサブサンプリング法であるsubsampling winner algorithm (swa) を用いて,異なる手法を提案する。 SWAの中心的な考え方は、アメリカの国家功労学者の選考に使われたものと類似している。 SWAは、各サブサンプルの分析に"ベースプロシージャ"を使用し、全てのサブサンプル分析から各機能のパフォーマンスに応じて全ての特徴のスコアを計算し、結果のスコアに基づいて「セミファイナリスト」を取得し、次に「ファイナリスト」、すなわち最も重要な特徴を決定する。 サブサンプリングの性質のため、SWAは原則として任意の次元のデータにスケールすることができる。 SWAは、ベンチマークプロシージャやランダムフォレストと比較して最高の制御された実際のFDRを持ち、競合する真の機能発見レートを持っている。 また,「真の」発見の可能性をさらに確保するために,ペナライズされたベンチマーク手順の有無に関わらず,swaに実用的なアドオン戦略を提案する。 Broad Instituteの卵巣血清性嚢胞腺癌標本に対するSWAの応用により,機能的に重要な遺伝子と経路が明らかとなり,追加のゲノミクスツールで検証した。 この第2段階の研究は、P値の適切な使用に関する現在の議論において不可欠である。

Feature selection from a large number of covariates (aka features) in a regression analysis remains a challenge in data science, especially in terms of its potential of scaling to ever-enlarging data and finding a group of scientifically meaningful features. For example, to develop new, responsive drug targets for ovarian cancer, the actual false discovery rate (FDR) of a practical feature selection procedure must also match the target FDR. The popular approach to feature selection, when true features are sparse, is to use a penalized likelihood or a shrinkage estimation, such as a LASSO, SCAD, Elastic Net, or MCP procedure (call them benchmark procedures). We present a different approach using a new subsampling method, called the Subsampling Winner algorithm (SWA). The central idea of SWA is analogous to that used for the selection of US national merit scholars. SWA uses a "base procedure" to analyze each of the subsamples, computes the scores of all features according to the performance of each feature from all subsample analyses, obtains the "semifinalist" based on the resulting scores, and then determines the "finalists," i.e., the most important features. Due to its subsampling nature, SWA can scale to data of any dimension in principle. The SWA also has the best-controlled actual FDR in comparison with the benchmark procedures and the randomForest, while having a competitive true-feature discovery rate. We also suggest practical add-on strategies to SWA with or without a penalized benchmark procedure to further assure the chance of "true" discovery. Our application of SWA to the ovarian serous cystadenocarcinoma specimens from the Broad Institute revealed functionally important genes and pathways, which we verified by additional genomics tools. This second-stage investigation is essential in the current discussion of the proper use of P-values.
翻訳日:2023-01-03 04:00:57 公開日:2020-02-07
# 最適輸送による幾何学的データセット距離

Geometric Dataset Distances via Optimal Transport ( http://arxiv.org/abs/2002.02923v1 )

ライセンス: Link先を確認
David Alvarez-Melis and Nicol\`o Fusi(参考訳) タスクの類似性の概念は、ドメイン適応やメタ学習など、さまざまな機械学習パラダイムの中核にある。 現在の方法はヒューリスティックで、タスク全体のラベルセットに強い仮定をしており、多くはアーキテクチャに依存しており、タスク固有の最適パラメータに依存している(例えば、各データセットでモデルをトレーニングする必要がある)。 本研究では,データセット間の距離の代替概念を提案する。 (i)モデル非依存である。 (ii)訓練は含まない。 (iii) ラベル集合が完全に解離していてもデータセットを比較することができる (iv)理論的根拠が固い。 この距離は最適な輸送に依存しており、リッチな幾何学的認識、解釈可能な対応およびよく理解された性質を提供する。 以上の結果から,この新しい距離はデータセットの有意義な比較を提供し,様々な実験的な設定とデータセットの転送学習の困難さとよく相関することが示された。

The notion of task similarity is at the core of various machine learning paradigms, such as domain adaptation and meta-learning. Current methods to quantify it are often heuristic, make strong assumptions on the label sets across the tasks, and many are architecture-dependent, relying on task-specific optimal parameters (e.g., require training a model on each dataset). In this work we propose an alternative notion of distance between datasets that (i) is model-agnostic, (ii) does not involve training, (iii) can compare datasets even if their label sets are completely disjoint and (iv) has solid theoretical footing. This distance relies on optimal transport, which provides it with rich geometry awareness, interpretable correspondences and well-understood properties. Our results show that this novel distance provides meaningful comparison of datasets, and correlates well with transfer learning hardness across various experimental settings and datasets.
翻訳日:2023-01-03 04:00:02 公開日:2020-02-07
# 薬物発見を促進するための化学空間の深層学習

A deep-learning view of chemical space designed to facilitate drug discovery ( http://arxiv.org/abs/2002.02948v1 )

ライセンス: Link先を確認
Paul Maragakis, Hunter Nisonoff, Brian Cole, and David E. Shaw(参考訳) 薬物発見プロジェクトは、特定の標的タンパク質に親和性を持つような性質を持つ一連の化学的に関連した小さな分子を、特定の薬物発見目標に順応する設計、合成、および試験のサイクルを包含する。 ディープラーニング技術の使用は、設計サイクルにおける人間の直感の使用の典型的な実践を強化し、薬物発見プロジェクトを迅速化する可能性がある。 本稿では,分子設計への機械学習アプローチの最先端技術である深層ニューラルネットワークモデルであるdesmilesについて述べる。 DESMILESはドパミン受容体D2を阻害するために入力分子を修飾する手法の能力を評価するベンチマークに応用し、DSMILESは最先端モデルと比較して77%低い失敗率を示した。 DESMILESが分子特性を刺激する能力を説明するために、DSMILESネットワークの層を可視化し、D2ベンチマークテストで使用される同じ分子を調整し、7つの異なる受容体に対してより強力なドッキングを行うことにより、この能力を実証する。

Drug discovery projects entail cycles of design, synthesis, and testing that yield a series of chemically related small molecules whose properties, such as binding affinity to a given target protein, are progressively tailored to a particular drug discovery goal. The use of deep learning technologies could augment the typical practice of using human intuition in the design cycle, and thereby expedite drug discovery projects. Here we present DESMILES, a deep neural network model that advances the state of the art in machine learning approaches to molecular design. We applied DESMILES to a previously published benchmark that assesses the ability of a method to modify input molecules to inhibit the dopamine receptor D2, and DESMILES yielded a 77% lower failure rate compared to state-of-the-art models. To explain the ability of DESMILES to hone molecular properties, we visualize a layer of the DESMILES network, and further demonstrate this ability by using DESMILES to tailor the same molecules used in the D2 benchmark test to dock more potently against seven different receptors.
翻訳日:2023-01-03 03:59:48 公開日:2020-02-07
# 異常検出のためのメモリ拡張ジェネレータネットワーク

Memory Augmented Generative Adversarial Networks for Anomaly Detection ( http://arxiv.org/abs/2002.02669v1 )

ライセンス: Link先を確認
Ziyi Yang, Teng Zhang, Iman Soltani Bozchalooi, Eric Darve(参考訳) 本稿では,異常検出のためのメモリ提示アルゴリズムを提案する。 古典的異常検出アルゴリズムは、通常のデータをモデル化して生成する学習に重点を置いているが、通常、異常データを検出する保証は弱い。 提案した Memory Augmented Generative Adversarial Networks (MEMGAN) は、エンコーディングおよび生成プロセスの両方のためにメモリモジュールと相互作用する。 我々のアルゴリズムは、 \textit{encoded} 正規データのほとんどはメモリユニットの凸包内にあり、異常なデータは外部に分離されている。 このような顕著な性質は良い (resp) につながる。 正常例(resp。 異常)データであり、異常検出の強力な保証を提供する。 MEMGANのデコードメモリユニットは、従来の方法よりも解釈可能であり、また、メモリメカニズムの有効性を示す。 CIFAR-10とMNISTの異常検出データセット20件の実験結果から,MeMGANは過去の異常検出方法よりも大幅に改善されていることが示された。

In this paper, we present a memory-augmented algorithm for anomaly detection. Classical anomaly detection algorithms focus on learning to model and generate normal data, but typically guarantees for detecting anomalous data are weak. The proposed Memory Augmented Generative Adversarial Networks (MEMGAN) interacts with a memory module for both the encoding and generation processes. Our algorithm is such that most of the \textit{encoded} normal data are inside the convex hull of the memory units, while the abnormal data are isolated outside. Such a remarkable property leads to good (resp.\ poor) reconstruction for normal (resp.\ abnormal) data and therefore provides a strong guarantee for anomaly detection. Decoded memory units in MEMGAN are more interpretable and disentangled than previous methods, which further demonstrates the effectiveness of the memory mechanism. Experimental results on twenty anomaly detection datasets of CIFAR-10 and MNIST show that MEMGAN demonstrates significant improvements over previous anomaly detection methods.
翻訳日:2023-01-03 03:52:05 公開日:2020-02-07
# Ready Policy One: アクティブラーニングによる世界構築

Ready Policy One: World Building Through Active Learning ( http://arxiv.org/abs/2002.02693v1 )

ライセンス: Link先を確認
Philip Ball and Jack Parker-Holder and Aldo Pacchiano and Krzysztof Choromanski and Stephen Roberts(参考訳) モデルベース強化学習(mbrl)は、サンプル効率的な学習に有望な方向性を提供し、継続的な制御タスクのための最先端の成果をしばしば達成します。 しかし、多くの既存のMBRL法は、欲求政策と探索ヒューリスティックスの組み合わせに依存しており、原理的な探索ボーナスを利用したものでさえ、アドホックな方法で二重目的を構成している。 本稿では,MBRLをアクティブな学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。 RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、学習の異なる段階における報酬対探索のトレードオフを可能にする。 さらに,モデル改善のために十分な軌道バッチを確保できれば,サンプルコレクションを終了するための原則的なメカニズムも導入する。 本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。

Model-Based Reinforcement Learning (MBRL) offers a promising direction for sample efficient learning, often achieving state of the art results for continuous control tasks. However, many existing MBRL methods rely on combining greedy policies with exploration heuristics, and even those which utilize principled exploration bonuses construct dual objectives in an ad hoc fashion. In this paper we introduce Ready Policy One (RP1), a framework that views MBRL as an active learning problem, where we aim to improve the world model in the fewest samples possible. RP1 achieves this by utilizing a hybrid objective function, which crucially adapts during optimization, allowing the algorithm to trade off reward v.s. exploration at different stages of learning. In addition, we introduce a principled mechanism to terminate sample collection once we have a rich enough trajectory batch to improve the model. We rigorously evaluate our method on a variety of continuous control tasks, and demonstrate statistically significant gains over existing approaches.
翻訳日:2023-01-03 03:51:49 公開日:2020-02-07
# 強化学習のためのReward-free Exploration

Reward-Free Exploration for Reinforcement Learning ( http://arxiv.org/abs/2002.02794v1 )

ライセンス: Link先を確認
Chi Jin, Akshay Krishnamurthy, Max Simchowitz, Tiancheng Yu(参考訳) 探索は強化学習(rl)の最も挑戦的な側面の1つと見なされ、指数的サンプル複雑性に屈する多くのナイーブなアプローチがある。 探索の課題を分離するため,我々は新しい"reward-free rl"フレームワークを提案する。 探索段階では、エージェントは事前に指定された報酬関数なしで、まずMDP$\mathcal{M}$から軌道を収集する。 探索後、与えられた報酬関数のコレクションに対して$\mathcal{m}$で最適に近いポリシーの計算を行う。 この枠組みは、興味のある報酬関数が多数存在する場合や、所望の行動を引き出すために外部エージェントによって報酬関数が形成される場合に特に適している。 我々は探索のエピソードを$\tilde{\mathcal{O}}(S^2A\mathrm{poly}(H)/\epsilon^2)で実行し、任意の数の報酬関数に対して$\epsilon$-suboptimal Policyを返す。 我々は,任意の政策の下で,その最大訪問確率に比例する確率で各「重要な」状態を訪問する探索的政策を見つけることにより,これを実現する。 さらに、我々の計画手順は、値反復や自然政策勾配などのブラックボックス近似プランナーによってインスタンス化することができる。 また、ほぼ一致する$\Omega(S^2AH^2/\epsilon^2)$lowboundを与え、この設定でアルゴリズムのほぼ最適性を示す。

Exploration is widely regarded as one of the most challenging aspects of reinforcement learning (RL), with many naive approaches succumbing to exponential sample complexity. To isolate the challenges of exploration, we propose a new "reward-free RL" framework. In the exploration phase, the agent first collects trajectories from an MDP $\mathcal{M}$ without a pre-specified reward function. After exploration, it is tasked with computing near-optimal policies under for $\mathcal{M}$ for a collection of given reward functions. This framework is particularly suitable when there are many reward functions of interest, or when the reward function is shaped by an external agent to elicit desired behavior. We give an efficient algorithm that conducts $\tilde{\mathcal{O}}(S^2A\mathrm{poly}(H)/\epsilon^2)$ episodes of exploration and returns $\epsilon$-suboptimal policies for an arbitrary number of reward functions. We achieve this by finding exploratory policies that visit each "significant" state with probability proportional to its maximum visitation probability under any possible policy. Moreover, our planning procedure can be instantiated by any black-box approximate planner, such as value iteration or natural policy gradient. We also give a nearly-matching $\Omega(S^2AH^2/\epsilon^2)$ lower bound, demonstrating the near-optimality of our algorithm in this setting.
翻訳日:2023-01-03 03:51:10 公開日:2020-02-07
# 効率的ロバストベイズ最適化のための雑音入力エントロピー探索

Noisy-Input Entropy Search for Efficient Robust Bayesian Optimization ( http://arxiv.org/abs/2002.02820v1 )

ライセンス: Link先を確認
Lukas P. Fr\"ohlich, Edgar D. Klenske, Julia Vinogradska, Christian Daniel, Melanie N. Zeilinger(参考訳) ベイズ最適化(BO)フレームワークにおけるロバスト最適化の問題点を考察する。 BOは目的関数の雑音評価に本質的に頑健であるが、標準手法では入力パラメータの不確実性については考慮していない。 本稿では,入力ノイズと測定ノイズの両方の問題に対して,頑健な最適解を求めるための情報理論獲得関数であるNoisy-Input Entropy Search (NES)を提案する。 NESは、多くの場合、堅牢な目的はガウス過程としてモデル化できるという重要な洞察に基づいているが、直接観察することはできない。 我々は、最適化文献とエンジニアリングから、いくつかのベンチマーク問題に対してNESを評価する。 その結果、NESは、すべてのベンチマークで既存の手法よりも優れたロバストな最適化を確実に見つけることがわかった。

We consider the problem of robust optimization within the well-established Bayesian optimization (BO) framework. While BO is intrinsically robust to noisy evaluations of the objective function, standard approaches do not consider the case of uncertainty about the input parameters. In this paper, we propose Noisy-Input Entropy Search (NES), a novel information-theoretic acquisition function that is designed to find robust optima for problems with both input and measurement noise. NES is based on the key insight that the robust objective in many cases can be modeled as a Gaussian process, however, it cannot be observed directly. We evaluate NES on several benchmark problems from the optimization literature and from engineering. The results show that NES reliably finds robust optima, outperforming existing methods from the literature on all benchmarks.
翻訳日:2023-01-03 03:50:25 公開日:2020-02-07
# 深部ベイズ型ニューラルネットワーク分類におけるモンテカルロの逆ロバスト性の評価と蒸留法

Assessing the Adversarial Robustness of Monte Carlo and Distillation Methods for Deep Bayesian Neural Network Classification ( http://arxiv.org/abs/2002.02842v1 )

ライセンス: Link先を確認
Meet P. Vadera, Satya Narayan Shukla, Brian Jalaian and Benjamin M. Marlin(参考訳) 本稿では,マルコフ連鎖モンテカルロ (MCMC) とベイジアンダークナレッジ (BDK) の近似を用いて,ディープニューラルネットワークモデルの対角的ロバスト性を評価する問題を考察する。 本稿では,FGSM(Fast gradient sign method)とPGD(Projected gradient descent)の2種類の攻撃に対して,各手法のロバスト性を特徴付ける。 完全なmcmcに基づく推論は頑健性が高く,標準点推定に基づく学習を著しく上回っている。 一方、BDKは限界的な改善を提供している。 追加の貢献として,fgsm攻撃とpgd攻撃の両方を用いて,大規模モンテカルロアンサンブルの逆例を計算するためのストレージ効率の高いアプローチを提案する。

In this paper, we consider the problem of assessing the adversarial robustness of deep neural network models under both Markov chain Monte Carlo (MCMC) and Bayesian Dark Knowledge (BDK) inference approximations. We characterize the robustness of each method to two types of adversarial attacks: the fast gradient sign method (FGSM) and projected gradient descent (PGD). We show that full MCMC-based inference has excellent robustness, significantly outperforming standard point estimation-based learning. On the other hand, BDK provides marginal improvements. As an additional contribution, we present a storage-efficient approach to computing adversarial examples for large Monte Carlo ensembles using both the FGSM and PGD attacks.
翻訳日:2023-01-03 03:50:11 公開日:2020-02-07
# 寸法低減のための安定スパース部分空間埋め込み

Stable Sparse Subspace Embedding for Dimensionality Reduction ( http://arxiv.org/abs/2002.02844v1 )

ライセンス: Link先を確認
Li Chen, Shuizheng Zhou, Jiajun Ma(参考訳) スパース・ランダム・プロジェクション(RP)は、計算複雑性の低い有望な性能を示す次元減少のための一般的なツールである。 しかし、既存のスパースRP行列では、非ゼロ成分の位置は通常ランダムに選択される。 サンプルのばらつきが大きいため、置換した均一サンプリングを採用するが、1回の試行で生成されるプロジェクション行列の行間に非ゼロの数が不均一であり、次元減少後により多くのデータ情報が失われる可能性がある。 このボトルネックを解消するために,統計的に置き換えることなくランダムサンプリングを行い,非零点が一様分布する安定なスパース部分空間埋め込み行列 (s-sse) を構築した。 S-SSEは既存の行列よりも安定であることが証明され、次元減少後の点間のユークリッド距離を維持することができる。 我々の実証研究は、我々の理論的な発見を裏付け、我々のアプローチが本当に満足できる性能を達成できることを示す。

Sparse random projection (RP) is a popular tool for dimensionality reduction that shows promising performance with low computational complexity. However, in the existing sparse RP matrices, the positions of non-zero entries are usually randomly selected. Although they adopt uniform sampling with replacement, due to large sampling variance, the number of non-zeros is uneven among rows of the projection matrix which is generated in one trial, and more data information may be lost after dimension reduction. To break this bottleneck, based on random sampling without replacement in statistics, this paper builds a stable sparse subspace embedded matrix (S-SSE), in which non-zeros are uniformly distributed. It is proved that the S-SSE is stabler than the existing matrix, and it can maintain Euclidean distance between points well after dimension reduction. Our empirical studies corroborate our theoretical findings and demonstrate that our approach can indeed achieve satisfactory performance.
翻訳日:2023-01-03 03:49:55 公開日:2020-02-07
# 不完全コレスキー分解を用いた高速カーネルk平均クラスタリング

Fast Kernel k-means Clustering Using Incomplete Cholesky Factorization ( http://arxiv.org/abs/2002.02846v1 )

ライセンス: Link先を確認
Li Chen, Shuisheng Zhou, Jiajun Ma(参考訳) カーネルベースのクラスタリングアルゴリズムは、データセット内の非線形構造を識別してキャプチャすることができ、リニアクラスタリングよりも優れたパフォーマンスを実現することができる。 しかし、カーネルマトリックス全体の計算と保存は非常に大きなメモリを占めるため、カーネルベースのクラスタリングが大規模なデータセットを扱うことは困難である。 本稿では,カーネルクラスタリングを高速化し,メモリ空間を節約するために,不完全なコレスキー分解を用いる。 不完全コレスキー分解を用いたカーネル$k$-meansクラスタリングの鍵となるアイデアは、カーネル行列全体の低ランク行列の積とその変換によって近似することである。 すると、線形な$k$-meansクラスタリングが、低ランク行列の転置の列に適用される。 我々は,提案アルゴリズムの性能がカーネル$k$-meansクラスタリングアルゴリズムと似ていることを解析的および実証的に示すが,本手法は大規模データセットを扱うことができる。

Kernel-based clustering algorithm can identify and capture the non-linear structure in datasets, and thereby it can achieve better performance than linear clustering. However, computing and storing the entire kernel matrix occupy so large memory that it is difficult for kernel-based clustering to deal with large-scale datasets. In this paper, we employ incomplete Cholesky factorization to accelerate kernel clustering and save memory space. The key idea of the proposed kernel $k$-means clustering using incomplete Cholesky factorization is that we approximate the entire kernel matrix by the product of a low-rank matrix and its transposition. Then linear $k$-means clustering is applied to columns of the transpose of the low-rank matrix. We show both analytically and empirically that the performance of the proposed algorithm is similar to that of the kernel $k$-means clustering algorithm, but our method can deal with large-scale datasets.
翻訳日:2023-01-03 03:49:40 公開日:2020-02-07
# Snippext: 拡張データによる半教師付きオピニオンマイニング

Snippext: Semi-supervised Opinion Mining with Augmented Data ( http://arxiv.org/abs/2002.03049v1 )

ライセンス: Link先を確認
Zhengjie Miao, Yuliang Li, Xiaolan Wang, Wang-Chiew Tan(参考訳) オンラインサービスは、テキストからアスペクト、意見、感情を抽出する問題である意見マイニングの解決策に興味を持っている。 意見を検討する一つの方法は、レビューから高品質な抽出を得るために微調整できる事前学習言語モデルの最近の成功を活用することである。 しかし、微調整の言語モデルは、いまだに大量のトレーニングデータを必要とする。 本稿では、意見マイニングのための微調整言語モデルに必要なラベル付きトレーニングデータの量を大幅に削減する方法について検討する。 Snippextは、言語モデル上で開発された意見マイニングシステムで、半教師付き学習と拡張データにより微調整される。 Snippext の新規性は,(1) ラベル付きトレーニングデータからラベル付きトレーニングデータを自動的に生成するデータ拡張,(2) ラベル付きラベル付きデータに加えて,大量のラベル付きデータを活用する半教師付き学習技術を通じて,最先端(SOTA)のパフォーマンスを実現するための2つのアプローチを巧妙に活用することにある。 本研究は,snippextが比較可能であり,トレーニングデータの半分しか必要としない複数の意見マイニングタスクにおいて,これまでのsoma結果を超えることさえ可能であることを示す。 さらに、すべてのトレーニングデータを活用すれば、新たなSOTA結果が得られる。 ベースラインパイプラインと比較して、Snippextはよりきめ細かな意見を抽出し、ダウンストリームアプリケーションの新たな機会を可能にします。

Online services are interested in solutions to opinion mining, which is the problem of extracting aspects, opinions, and sentiments from text. One method to mine opinions is to leverage the recent success of pre-trained language models which can be fine-tuned to obtain high-quality extractions from reviews. However, fine-tuning language models still requires a non-trivial amount of training data. In this paper, we study the problem of how to significantly reduce the amount of labeled training data required in fine-tuning language models for opinion mining. We describe Snippext, an opinion mining system developed over a language model that is fine-tuned through semi-supervised learning with augmented data. A novelty of Snippext is its clever use of a two-prong approach to achieve state-of-the-art (SOTA) performance with little labeled training data through: (1) data augmentation to automatically generate more labeled training data from existing ones, and (2) a semi-supervised learning technique to leverage the massive amount of unlabeled data in addition to the (limited amount of) labeled data. We show with extensive experiments that Snippext performs comparably and can even exceed previous SOTA results on several opinion mining tasks with only half the training data required. Furthermore, it achieves new SOTA results when all training data are leveraged. By comparison to a baseline pipeline, we found that Snippext extracts significantly more fine-grained opinions which enable new opportunities of downstream applications.
翻訳日:2023-01-03 03:43:14 公開日:2020-02-07
# 重度精神疾患患者のコホートにおける身体的健康悪化の同定:SemEHRの応用

Identifying physical health comorbidities in a cohort of individuals with severe mental illness: An application of SemEHR ( http://arxiv.org/abs/2002.08901v1 )

ライセンス: Link先を確認
Rebecca Bendayan, Honghan Wu, Zeljko Kraljevic, Robert Stewart, Tom Searle, Jaya Chaturvedi, Jayati Das-Munshi, Zina Ibrahim, Aurelie Mascio, Angus Roberts, Daniel Bean, Richard Dobson(参考訳) メンタルヘルスサービスのマルチモービルディティー研究は、伝統的にメンタルヘルスの電子健康記録に制限された物理的健康状態のデータを必要とする。 本研究では,SemEHRを用いた臨床ノートから健康状態からデータを抽出することを目的とした。 データは、南ロンドンのcrisシステムとmaudsley biomedical research centre(slam brc)から抽出され、2007年から2018年にかけて重度の精神疾患の一次診断または二次診断を受けたすべての個人からなる。 3組のアノテーターが2403の文書に注釈を付け、平均的なコーエンのカッパは0.757である。 その結果,NLPの性能は異なる疾患領域 (F1 0.601 - 0.954) で異なる条件群の言語パターンや用語が同一のNLPタスクに異なる技術的課題を伴っていることが示唆された。

Multimorbidity research in mental health services requires data from physical health conditions which is traditionally limited in mental health care electronic health records. In this study, we aimed to extract data from physical health conditions from clinical notes using SemEHR. Data was extracted from Clinical Record Interactive Search (CRIS) system at South London and Maudsley Biomedical Research Centre (SLaM BRC) and the cohort consisted of all individuals who had received a primary or secondary diagnosis of severe mental illness between 2007 and 2018. Three pairs of annotators annotated 2403 documents with an average Cohen's Kappa of 0.757. Results show that the NLP performance varies across different diseases areas (F1 0.601 - 0.954) suggesting that the language patterns or terminologies of different condition groups entail different technical challenges to the same NLP task.
翻訳日:2023-01-03 03:42:47 公開日:2020-02-07
# 医用ビデオ復号化のためのディープフェイク:プライバシー保護と診断情報保存

Deepfakes for Medical Video De-Identification: Privacy Protection and Diagnostic Information Preservation ( http://arxiv.org/abs/2003.00813v1 )

ライセンス: Link先を確認
Bingquan Zhu, Hao Fang, Yanan Sui, Luming Li(参考訳) 臨床データのオープンソース化は患者のプライバシーを侵害する可能性があるため、医学研究のためのデータ共有は困難である。 従来の顔の識別方法では、顔の情報を完全に消去し、顔の行動を分析することは不可能である。 全身キーポイント検出の最近の進歩は、身体キーポイントを推定するために顔入力にも依存している。 顔と体の両方のキーポイントはいくつかの診断において重要であり、非識別後のキーポイントの不変性は非常に重要である。 本稿では,ディープフェイク技術を用いた顔交換手法を提案する。 このスワッピング法は、プライバシとポートレートを正しく侵害したとして批判されているが、逆に医療ビデオのプライバシーを保護し、患者の顔は適切なターゲットの顔に切り替えられ、認識不能になる可能性がある。 しかし, 交換復号化法が身体のキーポイントの自動検出にどの程度影響するかは, 未解決のままであった。 本研究では, パーキンソン病検診ビデオにディープフェイク技術を適用し, 被験者の身元を同定し, 顔のスワッピングは信頼性が高く, キーポイントはほぼ不変であり, 従来の方法よりもかなり優れていることを示す。 本研究は,医療データ共有における倫理的制約を解消し,映像識別とキーポイント保存のためのパイプラインを提案する。 この研究により、オープンソースの高品質な医療ビデオデータセットがより実現可能になり、私たちの社会に利益をもたらす将来の医学研究を促進することができる。

Data sharing for medical research has been difficult as open-sourcing clinical data may violate patient privacy. Traditional methods for face de-identification wipe out facial information entirely, making it impossible to analyze facial behavior. Recent advancements on whole-body keypoints detection also rely on facial input to estimate body keypoints. Both facial and body keypoints are critical in some medical diagnoses, and keypoints invariability after de-identification is of great importance. Here, we propose a solution using deepfake technology, the face swapping technique. While this swapping method has been criticized for invading privacy and portraiture right, it could conversely protect privacy in medical video: patients' faces could be swapped to a proper target face and become unrecognizable. However, it remained an open question that to what extent the swapping de-identification method could affect the automatic detection of body keypoints. In this study, we apply deepfake technology to Parkinson's disease examination videos to de-identify subjects, and quantitatively show that: face-swapping as a de-identification approach is reliable, and it keeps the keypoints almost invariant, significantly better than traditional methods. This study proposes a pipeline for video de-identification and keypoint preservation, clearing up some ethical restrictions for medical data sharing. This work could make open-source high quality medical video datasets more feasible and promote future medical research that benefits our society.
翻訳日:2023-01-03 03:42:28 公開日:2020-02-07
# 凍結によるディープラーニング推論の高速化

Accelerating Deep Learning Inference via Freezing ( http://arxiv.org/abs/2002.02645v1 )

ライセンス: Link先を確認
Adarsh Kumar, Arjun Balasubramanian, Shivaram Venkataraman, Aditya Akella(参考訳) ここ数年、Deep Neural Networks(DNN)は、現実世界のタスクにおける高い精度のため、ユビキタスになった。 しかし、この精度の向上は計算コストの高いモデルのコストがかかるため、予測レイテンシが高くなる。 量子化、モデル蒸留、および任意の時間予測モデルのようなこのレイテンシを削減する以前の取り組みは、通常、性能のトレードオフ精度である。 本研究では,中間層出力のキャッシュが,DNNのすべてのレイヤの実行を回避するのに有効であることを示す。 これにより、ResNet-18上で実行されるCIFAR-10リクエストの91.58%に対して、有効レイヤの数を半分に削減できる可能性がある。 本稿では,各中間層に近似キャッシュを導入し,キャッシュサイズを削減し,キャッシュヒット率を向上する手法であるフリーズ推論を提案する。 最後に,このような設計を実現するためのオープンリサーチの課題について論じる。

Over the last few years, Deep Neural Networks (DNNs) have become ubiquitous owing to their high accuracy on real-world tasks. However, this increase in accuracy comes at the cost of computationally expensive models leading to higher prediction latencies. Prior efforts to reduce this latency such as quantization, model distillation, and any-time prediction models typically trade-off accuracy for performance. In this work, we observe that caching intermediate layer outputs can help us avoid running all the layers of a DNN for a sizeable fraction of inference requests. We find that this can potentially reduce the number of effective layers by half for 91.58% of CIFAR-10 requests run on ResNet-18. We present Freeze Inference, a system that introduces approximate caching at each intermediate layer and we discuss techniques to reduce the cache size and improve the cache hit rate. Finally, we discuss some of the open research challenges in realizing such a design.
翻訳日:2023-01-03 03:41:03 公開日:2020-02-07
# dropcluster:畳み込みネットワークのための構造化ドロップアウト

DropCluster: A structured dropout for convolutional networks ( http://arxiv.org/abs/2002.02997v1 )

ライセンス: Link先を確認
Liyan Chen, Philip Gautier, Sergul Aydore(参考訳) ディープニューラルネットワークのレギュレータとしてのドロップアウトは、完全連結層よりも畳み込み層では効果が低かった。 これはドロップアウトドロップがランダムに機能しているためである。 畳み込み層の場合のように特徴が空間的に相関している場合、落下した画素に関する情報は隣り合うピクセルを介して次の層に伝播する。 この問題に対処するため、より構造化されたドロップアウト形式が提案されている。 これらの手法の欠点は、データに適応しないことである。 本稿では,DropClusterと呼ばれる畳み込み層に対する新しい構造正規化を導入する。 私たちの正規化子はデータ駆動構造に依存しています。 畳み込み層出力で相関した特徴のクラスタを見つけ、各イテレーションでランダムにクラスタをドロップする。 クラスタは、モデルトレーニング中に学習および更新され、データとモデルの重み付けの両方に適応する。 resnet-50アーキテクチャの実験では、dropblockや他の既存の構造化ドロップアウト型よりも優れたパフォーマンスを実現しています。 トレーニングデータのサイズが制限されている場合や、テスト時にデータに破損がある場合も、私たちのアプローチの堅牢性を示す。

Dropout as a regularizer in deep neural networks has been less effective in convolutional layers than in fully connected layers. This is due to the fact that dropout drops features randomly. When features are spatially correlated as in the case of convolutional layers, information about the dropped pixels can still propagate to the next layers via neighboring pixels. In order to address this problem, more structured forms of dropout have been proposed. A drawback of these methods is that they do not adapt to the data. In this work, we introduce a novel structured regularization for convolutional layers, which we call DropCluster. Our regularizer relies on data-driven structure. It finds clusters of correlated features in convolutional layer outputs and drops the clusters randomly at each iteration. The clusters are learned and updated during model training so that they adapt both to the data and to the model weights. Our experiments on the ResNet-50 architecture demonstrate that our approach achieves better performance than DropBlock or other existing structured dropout variants. We also demonstrate the robustness of our approach when the size of training data is limited and when there is corruption in the data at test time.
翻訳日:2023-01-03 03:34:23 公開日:2020-02-07
# シーンステッチを用いたメカニクスからのマリオレベル生成

Mario Level Generation From Mechanics Using Scene Stitching ( http://arxiv.org/abs/2002.02992v1 )

ライセンス: Link先を確認
Michael Cerny Green, Luvneesh Mugrai, Ahmed Khalifa and Julian Togelius(参考訳) 本稿では, エージェントプレイスルーからのメカニックシーケンスを入力仕様として, 特定のメカニックを含む「シーン」を縫い合わせることで, スーパーマリオのレベル生成手法を提案する。 そこで本システムはFI-2Popアルゴリズムとシーンのコーパスを用いて,自動レベルのオーサリングを行う。 システムは、ターゲットのメカニックシーケンスに類似したメカニックシーケンスを持つが、プレイスルーエクスペリエンスが異なるレベルを出力する。 我々は,対象のメカニクスを最大化するシーンを選択するグレディ手法と比較した。 本システムでは, 縫合法と比較して創発力学を低減しつつ, 整合力学の最大化が可能である。

This paper presents a level generation method for Super Mario by stitching together pre-generated "scenes" that contain specific mechanics, using mechanic-sequences from agent playthroughs as input specifications. Given a sequence of mechanics, our system uses an FI-2Pop algorithm and a corpus of scenes to perform automated level authoring. The system outputs levels that have a similar mechanical sequence to the target mechanic sequence but with a different playthrough experience. We compare our system to a greedy method that selects scenes that maximize the target mechanics. Our system is able to maximize the number of matched mechanics while reducing emergent mechanics using the stitching process compared to the greedy approach.
翻訳日:2023-01-03 03:32:42 公開日:2020-02-07
# web検索クエリを自然言語質問に変換する

Translating Web Search Queries into Natural Language Questions ( http://arxiv.org/abs/2002.02631v1 )

ライセンス: Link先を確認
Adarsh Kumar, Sandipan Dandapat, Sushil Chordia(参考訳) ユーザーは検索エンジンを特定の質問を念頭に置いて検索することが多く、これらのクエリはキーワードかサブセンテンシャルフラグメントであることが多い。 例えば、ユーザが"What's the capital of USA"の答えを知りたい場合、"Capital of USA"や"USA capital"といったキーワードベースのバリエーションをクエリします。 例えば、ユーザが入力したクエリ "capital of usa" に対して、最も可能性の高い質問意図は "what's the capital of usa?" である。 本稿では,与えられたキーワードベースの問合せから,その問合せと同一の問合せを持つ自然言語質問を生成する手法を提案する。 キーワードベースのWebクエリを十分に構造化された質問に変換するには,検索エンジンやコミュニティ質問回答(CQA)Webサイト,ボット通信など,多くのアプリケーションがある。 問合せ問題と標準機械翻訳(MT)タスクの相乗効果を見出した。 我々は、統計的MT(SMT)モデルとニューラルMT(NMT)モデルの両方を用いて、クエリから質問を生成する。 MTモデルの性能は, 自動評価と人的評価の両方で良好である。

Users often query a search engine with a specific question in mind and often these queries are keywords or sub-sentential fragments. For example, if the users want to know the answer for "What's the capital of USA", they will most probably query "capital of USA" or "USA capital" or some keyword-based variation of this. For example, for the user entered query "capital of USA", the most probable question intent is "What's the capital of USA?". In this paper, we are proposing a method to generate well-formed natural language question from a given keyword-based query, which has the same question intent as the query. Conversion of keyword-based web query into a well-formed question has lots of applications, with some of them being in search engines, Community Question Answering (CQA) website and bots communication. We found a synergy between query-to-question problem with standard machine translation(MT) task. We have used both Statistical MT (SMT) and Neural MT (NMT) models to generate the questions from the query. We have observed that MT models perform well in terms of both automatic and human evaluation.
翻訳日:2023-01-03 03:32:28 公開日:2020-02-07
# 非線形ニューラルネットワークトレーニングのためのIll-Posednessと最適化幾何学

Ill-Posedness and Optimization Geometry for Nonlinear Neural Network Training ( http://arxiv.org/abs/2002.02882v1 )

ライセンス: Link先を確認
Thomas O'Leary-Roseberry, Omar Ghattas(参考訳) 本研究では,ニューラルネットワーク学習問題の定常点において非線形活性化関数が果たす役割を解析する。 汎用的最小二乗損失関数トレーニング定式化を考える。 ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を果たすことを示す。 浅密ネットワークでは、非線形活性化関数は大域的ミニマ近傍のヘッセンヌル空間を決定づけ、訓練問題の不適切性を決定する。 さらに, 浅層非線形ネットワークでは, 活性化関数とその導関数の零点が局所的な極小化を引き起こし, 厳密な鞍点の条件を議論できることを示した。 これらの結果を高密度ニューラルネットワークに拡張し、連鎖規則からの勾配に現れるため、最後の活性化関数が定常点の分類において重要な役割を果たすことを示した。

In this work we analyze the role nonlinear activation functions play at stationary points of dense neural network training problems. We consider a generic least squares loss function training formulation. We show that the nonlinear activation functions used in the network construction play a critical role in classifying stationary points of the loss landscape. We show that for shallow dense networks, the nonlinear activation function determines the Hessian nullspace in the vicinity of global minima (if they exist), and therefore determines the ill-posedness of the training problem. Furthermore, for shallow nonlinear networks we show that the zeros of the activation function and its derivatives can lead to spurious local minima, and discuss conditions for strict saddle points. We extend these results to deep dense neural networks, showing that the last activation function plays an important role in classifying stationary points, due to how it shows up in the gradient from the chain rule.
翻訳日:2023-01-03 03:32:09 公開日:2020-02-07
# MA-DST:マルチアテンションベースのスケーラブルな状態トラッキング

MA-DST: Multi-Attention Based Scalable Dialog State Tracking ( http://arxiv.org/abs/2002.08898v1 )

ライセンス: Link先を確認
Adarsh Kumar, Peter Ku, Anuj Kumar Goyal, Angeliki Metallinou, Dilek Hakkani-Tur(参考訳) タスク指向ダイアログエージェントは、ユーザが目標を達成するための自然な言語インターフェースを提供する。 これらのシステムの中核的なコンポーネントであるダイアログ状態追跡(DST)は、会話を通してユーザの目標に対するシステムの理解を追跡する。 正確なマルチドメインdstを実現するためには、過去の発話とスロットセマンティクス間の依存関係をエンコードし、長距離クロスドメイン参照を含むダイアログコンテキストを理解する必要がある。 本稿では,複数の粒度の注意機構を用いることで,会話履歴やスロットの意味をより堅牢に符号化する新しいアーキテクチャを提案する。 特に、コンテキストとスロット間の関係を異なる意味レベルでモデル化するためにクロスアテンションを使用し、クロスドメインのコア推論を解決するために自己アテンションを使用します。 さらに,提案アーキテクチャはドメインオントロジーの知識を事前に依存せず,新しいドメインのゼロショット設定や未確認スロット値にも使用することができる。 本モデルは、全データ設定において5%(絶対)、マルチウォズ2.1データセット上での現在の最先端のゼロショット設定において最大2%(絶対)の同時ゴール精度を向上させる。

Task oriented dialog agents provide a natural language interface for users to complete their goal. Dialog State Tracking (DST), which is often a core component of these systems, tracks the system's understanding of the user's goal throughout the conversation. To enable accurate multi-domain DST, the model needs to encode dependencies between past utterances and slot semantics and understand the dialog context, including long-range cross-domain references. We introduce a novel architecture for this task to encode the conversation history and slot semantics more robustly by using attention mechanisms at multiple granularities. In particular, we use cross-attention to model relationships between the context and slots at different semantic levels and self-attention to resolve cross-domain coreferences. In addition, our proposed architecture does not rely on knowing the domain ontologies beforehand and can also be used in a zero-shot setting for new domains or unseen slot values. Our model improves the joint goal accuracy by 5% (absolute) in the full-data setting and by up to 2% (absolute) in the zero-shot setting over the present state-of-the-art on the MultiWoZ 2.1 dataset.
翻訳日:2023-01-03 03:25:35 公開日:2020-02-07
# オフ政治最大エントロピー強化学習 : アドバンテージウェイト混合政策によるソフトアクター批判(SAC-AWMP)

Off-policy Maximum Entropy Reinforcement Learning : Soft Actor-Critic with Advantage Weighted Mixture Policy(SAC-AWMP) ( http://arxiv.org/abs/2002.02829v1 )

ライセンス: Link先を確認
Zhimin Hou and Kuangen Zhang and Yi Wan and Dongyu Li and Chenglong Fu and Haoyong Yu(参考訳) 強化学習問題の最適方針は、しばしば不連続かつ非滑らかである。 すなわち、類似した表現を持つ2つの状態の場合、それらの最適ポリシーは著しく異なる。 この場合、パラメータ共有の一般化能力は、不連続で非滑らかなポリシーを表現するのが難しくなるため、すべての状態に対して共有パラメータを持つ関数近似器(FA)でポリシー全体を表現することは望ましくないかもしれない。 この問題を解決する一般的な方法は、Mixture-of-Expertsと呼ばれ、状態空間の異なる部分で異なるコンポーネントがよく機能する複数のコンポーネントの重み付け和としてポリシーを表現することである。 この考え方に従い,近年のアドバンテージ重み付け情報最大化( advantage-weighted information maximization)という研究から着想を得た我々は,これらの構成要素のそれぞれの状態重みについて学習することを提案する。 アクションの好みはアドバンテージ関数によって特徴づけられる。 この場合、各成分の重みは、表現が類似しており、望ましい作用表現が類似している状態の特定のグループに対してのみ大きい。 したがって、各コンポーネントは簡単に表現できる。 このような方法でパラメータ化されたポリシーをAdvantage Weighted Mixture Policy (AWMP)と呼び、最も競争力のある連続制御アルゴリズムの一つであるSoft-actor-critic (SAC)を改善するためにこの考え方を適用します。 実験の結果, AWMP を用いた SAC は4つの連続制御タスクにおいて明らかに SAC を上回り, 異なるランダムシードに対して安定した性能を発揮することが示された。

The optimal policy of a reinforcement learning problem is often discontinuous and non-smooth. I.e., for two states with similar representations, their optimal policies can be significantly different. In this case, representing the entire policy with a function approximator (FA) with shared parameters for all states maybe not desirable, as the generalization ability of parameters sharing makes representing discontinuous, non-smooth policies difficult. A common way to solve this problem, known as Mixture-of-Experts, is to represent the policy as the weighted sum of multiple components, where different components perform well on different parts of the state space. Following this idea and inspired by a recent work called advantage-weighted information maximization, we propose to learn for each state weights of these components, so that they entail the information of the state itself and also the preferred action learned so far for the state. The action preference is characterized via the advantage function. In this case, the weight of each component would only be large for certain groups of states whose representations are similar and preferred action representations are also similar. Therefore each component is easy to be represented. We call a policy parameterized in this way an Advantage Weighted Mixture Policy (AWMP) and apply this idea to improve soft-actor-critic (SAC), one of the most competitive continuous control algorithm. Experimental results demonstrate that SAC with AWMP clearly outperforms SAC in four commonly used continuous control tasks and achieve stable performance across different random seeds.
翻訳日:2023-01-03 03:24:39 公開日:2020-02-07
# 強化学習のための因果正則部分モデル

Causally Correct Partial Models for Reinforcement Learning ( http://arxiv.org/abs/2002.02836v1 )

ライセンス: Link先を確認
Danilo J. Rezende, Ivo Danihelka, George Papamakarios, Nan Rosemary Ke, Ray Jiang, Theophane Weber, Karol Gregor, Hamza Merzic, Fabio Viola, Jane Wang, Jovana Mitrovic, Frederic Besse, Ioannis Antonoglou, Lars Buesing(参考訳) 強化学習では、将来の観察と報酬のモデルを学び、エージェントの次の行動を計画するためにそれを利用することができる。 しかし、将来の観測を共同でモデル化することは、もし観測が高次元(例えば画像)であれば計算的に高価あるいは難解である。 このため、それまでの研究では、観測の一部のみをモデル化する部分的なモデルが検討されてきた。 本稿では, 部分的モデルは, モデル化されていない観察結果によって構築され, 誤った計画に導かれる可能性があることを示す。 これを解決するために、我々は、確実に正当であるが、将来の観測を十分にモデル化する必要がなくなるため、高速な部分モデルの一般的なファミリーを導入する。

In reinforcement learning, we can learn a model of future observations and rewards, and use it to plan the agent's next actions. However, jointly modeling future observations can be computationally expensive or even intractable if the observations are high-dimensional (e.g. images). For this reason, previous works have considered partial models, which model only part of the observation. In this paper, we show that partial models can be causally incorrect: they are confounded by the observations they don't model, and can therefore lead to incorrect planning. To address this, we introduce a general family of partial models that are provably causally correct, yet remain fast because they do not need to fully model future observations.
翻訳日:2023-01-03 03:24:09 公開日:2020-02-07
# 胸部X線深部学習における側方視の意義の定量化

Quantifying the Value of Lateral Views in Deep Learning for Chest X-rays ( http://arxiv.org/abs/2002.02582v1 )

ライセンス: Link先を確認
Mohammad Hashir, Hadrien Bertrand and Joseph Paul Cohen(参考訳) 胸部x線予測におけるほとんどのディープラーニングモデルは、他のビューがないため、後天的(pa)ビューを利用する。 PadChestは、200近いラベルと複数のビューを持つ大規模な胸部X線データセットである。 本研究では, PadChestを用いて, PAと横方向のビューを融合させてX線画像に関連付けられた放射線ラベルを予測する。 モデルをマージする異なる方法が横方向のビューを異なる方法で利用することがわかった。 また、横方向のビューを含めると、データセット内の32のラベルのパフォーマンスが向上し、他では中立であることが分かる。 総合的なパフォーマンスの向上は、トレーニングセットの患者数の2倍のpaビューのみを使用して得られたものと同等である。

Most deep learning models in chest X-ray prediction utilize the posteroanterior (PA) view due to the lack of other views available. PadChest is a large-scale chest X-ray dataset that has almost 200 labels and multiple views available. In this work, we use PadChest to explore multiple approaches to merging the PA and lateral views for predicting the radiological labels associated with the X-ray image. We find that different methods of merging the model utilize the lateral view differently. We also find that including the lateral view increases performance for 32 labels in the dataset, while being neutral for the others. The increase in overall performance is comparable to the one obtained by using only the PA view with twice the amount of patients in the training set.
翻訳日:2023-01-03 03:23:32 公開日:2020-02-07