このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200926となっている論文です。

PDF登録状況(公開日: 20200926)

TitleAuthorsAbstract論文公表日・翻訳日
# ガウス過程をモデルとした低周波パルス分解音のベイズ復元

Bayesian Restoration of Audio Degraded by Low-Frequency Pulses Modeled via Gaussian Process ( http://arxiv.org/abs/2005.14181v2 )

ライセンス: Link先を確認
Hugo Tremonte de Carvalho, Fl\'avio Rainho \'Avila, Luiz Wagner Pereira Biscainho(参考訳) 古いビニルとグラモフォンの録音を機械装置で再生する際の一般的な欠陥は、腕-縫合システムと深い傷やメディア表面の破損によって生じる、かなりの低周波量の長いパルスである。 記録のデジタル対応の抑圧に対する以前のアプローチは、通常ヒューリスティックな方法で行われるパルス位置の事前推定に依存する。 本稿では、パルス位置を共同で推定できる新しいベイズアプローチを提案し、パルスを開始する強い不連続性の下にあるほぼ消滅した信号を補間し、また、単純なガウス過程により長いパルス尾を推定し、劣化した信号からの抑制を可能にする。 モデルパラメータとパルスの後方分布はマルコフ・チェイン・モンテカルロ(MCMC)アルゴリズムを用いて探索する。 制御実験により,提案手法は,ユーザの介入をかなり少なくしながら,従来の手法と類似した知覚結果を達成し,自然分解信号の処理に有効であることが示された。

A common defect found when reproducing old vinyl and gramophone recordings with mechanical devices are the long pulses with significant low-frequency content caused by the interaction of the arm-needle system with deep scratches or even breakages on the media surface. Previous approaches to their suppression on digital counterparts of the recordings depend on a prior estimation of the pulse location, usually performed via heuristic methods. This paper proposes a novel Bayesian approach capable of jointly estimating the pulse location; interpolating the almost annihilated signal underlying the strong discontinuity that initiates the pulse; and also estimating the long pulse tail by a simple Gaussian Process, allowing its suppression from the corrupted signal. The posterior distribution for the model parameters as well for the pulse is explored via Markov-Chain Monte Carlo (MCMC) algorithms. Controlled experiments indicate that the proposed method, while requiring significantly less user intervention, achieves perceptual results similar to those of previous approaches and performs well when dealing with naturally degraded signals.
翻訳日:2022-11-27 05:54:44 公開日:2020-09-26
# クラス不均衡学習を改善するためのラベルの価値再考

Rethinking the Value of Labels for Improving Class-Imbalanced Learning ( http://arxiv.org/abs/2006.07529v2 )

ライセンス: Link先を確認
Yuzhe Yang, Zhi Xu(参考訳) 実世界のデータは、しばしば重いクラス不均衡の長い尾の分布を示し、深層認識モデルにとって大きな課題となる。 不均衡学習の文脈において、ラベルの価値に持続するジレンマを識別する:一方、ラベルからの監督は、教師なし学習よりも良い結果をもたらす;一方、過度に不均衡なデータは分類器に自然に「ラベルバイアス」を生じさせ、そこで決定境界は多数クラスによって劇的に変更される。 本研究では,この2つのラベルを体系的に検討する。 半教師付き学習と自己教師付き学習の両方において,クラス不均衡学習が有益であることを示す。 具体的には,(1) ラベル付きラベルが有益であることが確認された: ラベル付きラベルがより多く与えられると, ラベルバイアスを半教師付き方式で低減し, 最終分類器を大幅に改善する; 負に, 不均衡ラベルは必ずしも有用ではない: 自己教師付き方式で事前訓練された分類器は, 常に対応するベースラインを上回っている。 大規模不均衡データセットに関する大規模な実験は、我々の理論上の基盤となる戦略を検証する。 我々の興味深い発見は、リアルなロングテールタスクにおける不均衡ラベルの使用を再考する必要性を浮き彫りにしている。 コードはhttps://github.com/YyzHarry/imbalanced-semi-selfで入手できる。

Real-world data often exhibits long-tailed distributions with heavy class imbalance, posing great challenges for deep recognition models. We identify a persisting dilemma on the value of labels in the context of imbalanced learning: on the one hand, supervision from labels typically leads to better results than its unsupervised counterparts; on the other hand, heavily imbalanced data naturally incurs "label bias" in the classifier, where the decision boundary can be drastically altered by the majority classes. In this work, we systematically investigate these two facets of labels. We demonstrate, theoretically and empirically, that class-imbalanced learning can significantly benefit in both semi-supervised and self-supervised manners. Specifically, we confirm that (1) positively, imbalanced labels are valuable: given more unlabeled data, the original labels can be leveraged with the extra data to reduce label bias in a semi-supervised manner, which greatly improves the final classifier; (2) negatively however, we argue that imbalanced labels are not useful always: classifiers that are first pre-trained in a self-supervised manner consistently outperform their corresponding baselines. Extensive experiments on large-scale imbalanced datasets verify our theoretically grounded strategies, showing superior performance over previous state-of-the-arts. Our intriguing findings highlight the need to rethink the usage of imbalanced labels in realistic long-tailed tasks. Code is available at https://github.com/YyzHarry/imbalanced-semi-self.
翻訳日:2022-11-21 20:24:14 公開日:2020-09-26
# PIPAL:知覚的画像復元のための大規模画像品質評価データセット

PIPAL: a Large-Scale Image Quality Assessment Dataset for Perceptual Image Restoration ( http://arxiv.org/abs/2007.12142v2 )

ライセンス: Link先を確認
Jinjin Gu, Haoming Cai, Haoyu Chen, Xiaoxing Ye, Jimmy Ren, Chao Dong(参考訳) 画像品質評価(IQA)は、画像復元アルゴリズム(IR)の急速な発展の鍵となる要素である。 GAN(Generative Adversarial Networks)に基づく最新のIR手法は、視覚的性能を大幅に向上させたが、定量的評価には大きな課題があった。 特に,知覚的品質と評価結果との間には不整合が増大している。 1) 既存のIQA法は最近のIRアルゴリズムを客観的に評価できるのか? (2) 現在のベンチマークに注目すると、より優れたIRアルゴリズムが得られますか? これらの疑問に答え、IQA手法の開発を促進するため、PIPALデータセットと呼ばれる大規模IQAデータセットをコントリビュートする。 特に、このデータセットには、以前のデータセットに欠けているGANベースのメソッドの結果が含まれている。 我々は、より信頼性の高い「エロシステム」を用いて、PIPAL画像の主観的スコアを割り当てるために、113万以上の人的判断を収集する。 PIPALに基づくIQA法と超解像法の両方のベンチマークを提案する。 その結果,既存のIQA法では,GANベースのIRアルゴリズムを十分に評価できないことがわかった。 適切な評価手法が重要である一方で、IRアルゴリズムの開発とともにIQA法も更新されるべきである。 最後に,ganに基づく歪みに対するiqaネットワークの性能を,アンチエイリアスプールの導入により向上させる。 提案手法の有効性を示す実験を行った。

Image quality assessment (IQA) is the key factor for the fast development of image restoration (IR) algorithms. The most recent IR methods based on Generative Adversarial Networks (GANs) have achieved significant improvement in visual performance, but also presented great challenges for quantitative evaluation. Notably, we observe an increasing inconsistency between perceptual quality and the evaluation results. Then we raise two questions: (1) Can existing IQA methods objectively evaluate recent IR algorithms? (2) When focus on beating current benchmarks, are we getting better IR algorithms? To answer these questions and promote the development of IQA methods, we contribute a large-scale IQA dataset, called Perceptual Image Processing Algorithms (PIPAL) dataset. Especially, this dataset includes the results of GAN-based methods, which are missing in previous datasets. We collect more than 1.13 million human judgments to assign subjective scores for PIPAL images using the more reliable "Elo system". Based on PIPAL, we present new benchmarks for both IQA and super-resolution methods. Our results indicate that existing IQA methods cannot fairly evaluate GAN-based IR algorithms. While using appropriate evaluation methods is important, IQA methods should also be updated along with the development of IR algorithms. At last, we improve the performance of IQA networks on GAN-based distortions by introducing anti-aliasing pooling. Experiments show the effectiveness of the proposed method.
翻訳日:2022-11-07 13:05:47 公開日:2020-09-26
# LiDARを忘れる: MED確率容積を持つ自己監督深度推定器

Forget About the LiDAR: Self-Supervised Depth Estimators with MED Probability Volumes ( http://arxiv.org/abs/2008.03633v2 )

ライセンス: Link先を確認
Juan Luis Gonzalez and Munchurl Kim(参考訳) 自己教師付き深度推定器は,訓練データにおける対象と参照ビューの幾何学的関係を活用し,挑戦的単一画像深度推定 (side) タスクにおける教師付き手法に匹敵する結果を示している。 しかし,従来手法では対象画像と基準画像との閉塞を効果的に無視できないため,前方画像や後方画像の合成を学習するが,深度推定は行わない。 これまでの研究は、厳密な測光仮定やSIDEネットワークに頼って深度と閉塞を推測し、性能が制限された。 一方,本論文では,深度推定器の学習のための"fal" (forget about the lidar, for the training of depth estimators, with mirrored exponential disparity (med) probability volume) を提案し,それをもとに新しいミラード・オクルージョン・モジュール (mom) を用いた幾何学的インスパイアされたオクルージョン・マップを得る。 当社のMOMは当社のFAL-netに負担をかけません。 線形空間の差を後退させることでステレオペアから側方を学ぶ従来の方法とは対照的に、fal-netは指数空間に重ねることで差を後退させ、遠距離と近距離の物体をよりよく検出する。 FAL-netの2段階のトレーニング戦略を定義し、まずビュー合成を訓練し、それからMOMで深度推定を微調整する。 我々のFAL-netは驚くほど軽量であり、挑戦的なKITTIデータセット上で8倍のパラメータと3倍高速な推論速度で従来の最先端手法よりも優れています。 提案手法の有効性を検証するため,KITTI,CityScapes,Make3Dデータセットについて実験を行った。 著者の知る限りでは,提案手法はこれまでのすべての自己教師あり手法の中で最良である。

Self-supervised depth estimators have recently shown results comparable to the supervised methods on the challenging single image depth estimation (SIDE) task, by exploiting the geometrical relations between target and reference views in the training data. However, previous methods usually learn forward or backward image synthesis, but not depth estimation, as they cannot effectively neglect occlusions between the target and the reference images. Previous works rely on rigid photometric assumptions or the SIDE network to infer depth and occlusions, resulting in limited performance. On the other hand, we propose a method to "Forget About the LiDAR" (FAL), for the training of depth estimators, with Mirrored Exponential Disparity (MED) probability volumes, from which we obtain geometrically inspired occlusion maps with our novel Mirrored Occlusion Module (MOM). Our MOM does not impose a burden on our FAL-net. Contrary to the previous methods that learn SIDE from stereo pairs by regressing disparity in the linear space, our FAL-net regresses disparity by binning it into the exponential space, which allows for better detection of distant and nearby objects. We define a two-step training strategy for our FAL-net: It is first trained for view synthesis and then fine-tuned for depth estimation with our MOM. Our FAL-net is remarkably light-weight and outperforms the previous state-of-the-art methods with 8x fewer parameters and 3x faster inference speeds on the challenging KITTI dataset. We present extensive experimental results on the KITTI, CityScapes, and Make3D datasets to verify our method's effectiveness. To the authors' best knowledge, the presented method performs the best among all the previous self-supervised methods until now.
翻訳日:2022-11-01 04:33:51 公開日:2020-09-26
# 合成データによるフェデレーション学習

Federated Learning via Synthetic Data ( http://arxiv.org/abs/2008.04489v2 )

ライセンス: Link先を確認
Jack Goetz, Ambuj Tewari(参考訳) フェデレートラーニングは、クライアントが生データを送信することなく、複数のクライアントのデータを使用したモデルのトレーニングを可能にする。 しかし、標準的な方法はモデルパラメータ(または更新)を送信し、現代のニューラルネットワークでは数百万のパラメータのスケールで処理し、クライアントにかなりの計算コストを与える。 そこで我々は,グラデーション更新をサーバに送信するのではなく,少量の合成データを送信するフェデレーション学習手法を提案する。 提案手法について述べるとともに, モデル劣化を最小限に抑えつつ, 通信コストの大幅な削減を図った実験結果を示す。

Federated learning allows for the training of a model using data on multiple clients without the clients transmitting that raw data. However the standard method is to transmit model parameters (or updates), which for modern neural networks can be on the scale of millions of parameters, inflicting significant computational costs on the clients. We propose a method for federated learning where instead of transmitting a gradient update back to the server, we instead transmit a small amount of synthetic `data'. We describe the procedure and show some experimental results suggesting this procedure has potential, providing more than an order of magnitude reduction in communication costs with minimal model degradation.
翻訳日:2022-10-31 10:47:13 公開日:2020-09-26
# 深層学習と身体的先行による知覚的水中画像強調

Perceptual underwater image enhancement with deep learning and physical priors ( http://arxiv.org/abs/2008.09697v2 )

ライセンス: Link先を確認
Long Chen, Zheheng Jiang, Lei Tong, Zhihua Liu, Aite Zhao, Qianni Zhang, Junyu Dong, and Huiyu Zhou(参考訳) 水中画像の強調は、次の物体検出タスクの精度を向上させるための前処理として、水中ナビゲーションや海洋探査の分野で大きな注目を集めている。 しかしながら、既存の水中画像強調戦略のほとんどは、相互作用のない2つの独立したモジュールとして強調と検出を考慮しがちであり、分離最適化の実践が水中物体検出タスクに必ずしも役立つとは限らない。 本稿では,2つの知覚エンハンスメントモデルを提案し,それぞれが検出パーセプタを備えた深部エンハンスメントモデルを用いる。 強調モデルに勾配の形でコヒーレント情報を提供し、強調モデルにパッチレベルの視覚的な心地よい画像を生成するか、好適な画像を検出するように誘導する。 また,トレーニングデータの欠如により,実世界の水中画像に対するトレーニングデータを合成し,拡張モデルを一般化するために,物理前処理とデータ駆動ヒントを融合したハイブリッド水中画像合成モデルが提案されている。 実験結果から,提案手法は実環境および合成水中データセット上でのいくつかの最先端手法よりも優れていることが示された。

Underwater image enhancement, as a pre-processing step to improve the accuracy of the following object detection task, has drawn considerable attention in the field of underwater navigation and ocean exploration. However, most of the existing underwater image enhancement strategies tend to consider enhancement and detection as two independent modules with no interaction, and the practice of separate optimization does not always help the underwater object detection task. In this paper, we propose two perceptual enhancement models, each of which uses a deep enhancement model with a detection perceptor. The detection perceptor provides coherent information in the form of gradients to the enhancement model, guiding the enhancement model to generate patch level visually pleasing images or detection favourable images. In addition, due to the lack of training data, a hybrid underwater image synthesis model, which fuses physical priors and data-driven cues, is proposed to synthesize training data and generalise our enhancement model for real-world underwater images. Experimental results show the superiority of our proposed method over several state-of-the-art methods on both real-world and synthetic underwater datasets.
翻訳日:2022-10-26 22:05:45 公開日:2020-09-26
# KoSpeech: エンドツーエンドの韓国語音声認識のためのオープンソースツールキット

KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition ( http://arxiv.org/abs/2009.03092v2 )

ライセンス: Link先を確認
Soohwan Kim, Seyoung Bae, Cheolhwang Won(参考訳) ディープラーニングライブラリPyTorchをベースとした,モジュール型かつ拡張可能な韓国語自動音声認識(ASR)ツールキットであるKoSpeechを提案する。 いくつかの自動音声認識オープンソースツールキットがリリースされたが、いずれも英語(例えばESPnet、エスプレッソ)のような非韓国語を扱う。 AI HubはKsponSpeechとして知られる韓国語音声コーパスを1000時間開放したが、モデル性能を比較するために確立された事前処理方法とベースラインモデルはない。 そこで我々は,KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。 我々のベースラインモデルはlisten, attend, spell (las)アーキテクチャに基づいており、様々なトレーニングハイパーパラメータを便利にカスタマイズできます。 KoSpeechによると、これは韓国の音声認識を研究する人たちのためのガイドラインになるだろう。 ベースラインモデルは音響モデルのみを用いて, ksponspeechコーパスで10.31%の文字誤り率(cer)を達成した。 ソースコードはこちらから入手できます。

We present KoSpeech, an open-source software, which is modular and extensible end-to-end Korean automatic speech recognition (ASR) toolkit based on the deep learning library PyTorch. Several automatic speech recognition open-source toolkits have been released, but all of them deal with non-Korean languages, such as English (e.g. ESPnet, Espresso). Although AI Hub opened 1,000 hours of Korean speech corpus known as KsponSpeech, there is no established preprocessing method and baseline model to compare model performances. Therefore, we propose preprocessing methods for KsponSpeech corpus and a baseline model for benchmarks. Our baseline model is based on Listen, Attend and Spell (LAS) architecture and ables to customize various training hyperparameters conveniently. By KoSpeech, we hope this could be a guideline for those who research Korean speech recognition. Our baseline model achieved 10.31% character error rate (CER) at KsponSpeech corpus only with the acoustic model. Our source code is available here.
翻訳日:2022-10-21 03:13:38 公開日:2020-09-26
# 潜時空間因子化を用いた地震画像の自己監督アノテーション

Self-Supervised Annotation of Seismic Images using Latent Space Factorization ( http://arxiv.org/abs/2009.04631v2 )

ライセンス: Link先を確認
Oluwaseun Joseph Aribido, Ghassan AlRegib and Mohamed Deriche(参考訳) 地震インタプリタが解釈に熟練するのに要する年数のため、地震データの注釈は高価で手間がかかり、主観的である。 本稿では,各画像に割り当てられた画像レベルラベルに与えられた地質構造要素を記述するための,地震画像のアノテート画素の自動作成フレームワークを開発する。 本フレームワークは,学習する部分空間に潜在空間を投影することにより,ディープエンコーダ・デコーダネットワークの潜在空間を分解する。 画素空間の制約を利用して、地震像はさらに分解され、地質学的要素に関連する画素の信頼度値を明らかにする。 注釈付き画像の詳細は分析のために提供され、類似のフレームワークで定性比較を行う。

Annotating seismic data is expensive, laborious and subjective due to the number of years required for seismic interpreters to attain proficiency in interpretation. In this paper, we develop a framework to automate annotating pixels of a seismic image to delineate geological structural elements given image-level labels assigned to each image. Our framework factorizes the latent space of a deep encoder-decoder network by projecting the latent space to learned sub-spaces. Using constraints in the pixel space, the seismic image is further factorized to reveal confidence values on pixels associated with the geological element of interest. Details of the annotated image are provided for analysis and qualitative comparison is made with similar frameworks.
翻訳日:2022-10-20 04:13:37 公開日:2020-09-26
# 圧縮深層ネットワーク:さよならsvd, hello robust low-rank approximation

Compressed Deep Networks: Goodbye SVD, Hello Robust Low-Rank Approximation ( http://arxiv.org/abs/2009.05647v2 )

ライセンス: Link先を確認
Murad Tukan and Alaa Maalouf and Matan Weksler and Dan Feldman(参考訳) ニューラルネットワークを圧縮するための一般的なテクニックは、完全連結層(または埋め込み層)に対応する行列 $a\in\mathbb{r}^{n\times d}$の$k$-rank $\ell_2$近似$a_{k,2}$を計算することである。 ここで、$d$は層のニューロンの数、$n$は次のニューロンのニューロンの数、$a_{k,2}$は$o(n+d)k)$ではなく$o(nd)$に格納できる。 この$\ell_2$-approximation は、行列 $A - A_{k,2}$ 内の全ての入力に対する$p=2$の和を最小化し、すべての行列 $A_{k,2}\in\mathbb{R}^{n\times d}$ のランクが $k$ となる。 SVDで効率的に計算できるが、$\ell_2$-approximation は外れ値に非常に敏感であることが知られている("far-away" rows")。 したがって、機械学習はLasso Regression、$\ell_1$-regularization、$\ell_1$-SVMのように、$\ell_1$-normを使用する。 本稿では,$k$-rank$\ell_2$近似を$\ell_p$,$p\in [1,2]$に置き換えることを提案する。 次に、計算幾何学の現代的な技術に基づいて、任意の$p\geq1$で計算するための実用的で証明可能な近似アルゴリズムを提供する。 bert、distilbert、xlnet、robertaを圧縮するためのglueベンチマークの広範な実験の結果、この理論上の利点が確認された。 例えば、我々の手法は、既存の$\ell_2$-approximationを使用して、GLUEのすべてのタスクに対して平均して0.63$%の加算ドロップ(微調整なしで)でRoBERTaの埋め込み層を28.%の圧縮で達成します。 結果の再現と拡張のためにオープンコードを提供しています。

A common technique for compressing a neural network is to compute the $k$-rank $\ell_2$ approximation $A_{k,2}$ of the matrix $A\in\mathbb{R}^{n\times d}$ that corresponds to a fully connected layer (or embedding layer). Here, $d$ is the number of the neurons in the layer, $n$ is the number in the next one, and $A_{k,2}$ can be stored in $O((n+d)k)$ memory instead of $O(nd)$. This $\ell_2$-approximation minimizes the sum over every entry to the power of $p=2$ in the matrix $A - A_{k,2}$, among every matrix $A_{k,2}\in\mathbb{R}^{n\times d}$ whose rank is $k$. While it can be computed efficiently via SVD, the $\ell_2$-approximation is known to be very sensitive to outliers ("far-away" rows). Hence, machine learning uses e.g. Lasso Regression, $\ell_1$-regularization, and $\ell_1$-SVM that use the $\ell_1$-norm. This paper suggests to replace the $k$-rank $\ell_2$ approximation by $\ell_p$, for $p\in [1,2]$. We then provide practical and provable approximation algorithms to compute it for any $p\geq1$, based on modern techniques in computational geometry. Extensive experimental results on the GLUE benchmark for compressing BERT, DistilBERT, XLNet, and RoBERTa confirm this theoretical advantage. For example, our approach achieves $28\%$ compression of RoBERTa's embedding layer with only $0.63\%$ additive drop in the accuracy (without fine-tuning) in average over all tasks in GLUE, compared to $11\%$ drop using the existing $\ell_2$-approximation. Open code is provided for reproducing and extending our results.
翻訳日:2022-10-19 20:41:38 公開日:2020-09-26
# 神経進化における体重初期化と体重継承効果に関する実験的研究

An Experimental Study of Weight Initialization and Weight Inheritance Effects on Neuroevolution ( http://arxiv.org/abs/2009.09644v2 )

ライセンス: Link先を確認
Zimeng Lyu, AbdElRahman ElSaid, Joshua Karns, Mohamed Mkaouer, Travis Desell(参考訳) 重みの初期化は、ニューラルネットワーク(anns)のトレーニングに成功し、さらに、勾配の消失や爆発に苦しむrecurrent neural networks(rnn)にとっても重要である。 進化的アルゴリズムがニューラルネットワークの探索に適用される神経進化において、重み付けは通常、3つの異なるタイミングで初期化する必要がある: 探索の最初に初期ゲノム(annアーキテクチャ)が作成される場合、子孫ゲノムがクロスオーバーによって生成される場合、そして変異の間に新しいノードやエッジが生成される場合である。 本研究は,xavier法,kaiming法,および一様ランダム重み初期化法と,クロスオーバーおよび突然変異操作中に新しい重み付けを初期化する新しいラマルキアン重み継承法の違いを考察する。 これらは、様々な現代の記憶細胞(例えば、LSTM、GRU、MGU、UGRNN、Delta-RNN細胞)でRNNを進化させることが可能なEXAMM(Evolutionary eXploration of Augmenting Memory Models)ニューロ進化アルゴリズムを用いて検討され、高性能な島ベースの分散進化アルゴリズムを通じて、様々な時間スキップを繰り返す。 以上の結果から,ラマルクの戦略はカイミング,ザビエル,一様ランダムウェイトの初期化よりも優れており,各RNNの逆伝播エポックを減らして神経進化を速めることが示唆された。

Weight initialization is critical in being able to successfully train artificial neural networks (ANNs), and even more so for recurrent neural networks (RNNs) which can easily suffer from vanishing and exploding gradients. In neuroevolution, where evolutionary algorithms are applied to neural architecture search, weights typically need to be initialized at three different times: when initial genomes (ANN architectures) are created at the beginning of the search, when offspring genomes are generated by crossover, and when new nodes or edges are created during mutation. This work explores the difference between using Xavier, Kaiming, and uniform random weight initialization methods, as well as novel Lamarckian weight inheritance methods for initializing new weights during crossover and mutation operations. These are examined using the Evolutionary eXploration of Augmenting Memory Models (EXAMM) neuroevolution algorithm, which is capable of evolving RNNs with a variety of modern memory cells (e.g., LSTM, GRU, MGU, UGRNN and Delta-RNN cells) as well recurrent connections with varying time skips through a high performance island based distributed evolutionary algorithm. Results show that with statistical significance, utilizing the Lamarckian strategies outperforms Kaiming, Xavier and uniform random weight initialization, and can speed neuroevolution by requiring less backpropagation epochs to be evaluated for each generated RNN.
翻訳日:2022-10-16 04:34:46 公開日:2020-09-26
# 周期過程の線形動的ネットワークの推定

Estimating Linear Dynamical Networks of Cyclostationary Processes ( http://arxiv.org/abs/2009.12667v1 )

ライセンス: Link先を確認
Harish Doddi, Deepjyoti Deka, Saurav Talukdar and Murti Salapaka(参考訳) トポロジー学習は、セキュリティと最適制御に影響を及ぼす力学系において重要な問題である。 一貫性のあるトポロジー推定における先行研究の大半は、時間的に非相関なプロセスによって励起される力学系に依存している。 本稿では,時間的に彩色された周期的プロセスに興奮するネットワークにおいて,トポロジー学習が保証される新しいアルゴリズムを提案する。 さらに、以前の作業とは異なり、フレームワークは複雑な値を持つ線形動的システムに適用される。 論文の第2部では、ネットワークのサブセットが観測されない場合、双方向ラジアルネットワークにおける一貫したトポロジ学習の条件を分析する。 ここで、観測されていないエージェントは少なく、観測されたエージェントデータのみから、観測されていないノードと共に完全なトポロジが復元される。 我々の理論的貢献はテストネットワーク上で検証される。

Topology learning is an important problem in dynamical systems with implications to security and optimal control. The majority of prior work in consistent topology estimation relies on dynamical systems excited by temporally uncorrelated processes. In this article, we present a novel algorithm for guaranteed topology learning, in networks that are excited by temporally colored, cyclostationary processes. Furthermore, unlike prior work, the framework applies to linear dynamic system with complex valued dependencies. In the second part of the article, we analyze conditions for consistent topology learning for bidirected radial networks when a subset of the network is unobserved. Here, few agents are unobserved and the full topology along with unobserved nodes are recovered from observed agents data alone. Our theoretical contributions are validated on test networks.
翻訳日:2022-10-14 09:15:50 公開日:2020-09-26
# 光顕微鏡における教師あり学習における画像圧縮の効果の定量化

Quantifying the effect of image compression on supervised learning applications in optical microscopy ( http://arxiv.org/abs/2009.12570v1 )

ライセンス: Link先を確認
Enrico Pomarico, C\'edric Schmidt, Florian Chays, David Nguyen, Arielle Planchette, Audrey Tissot, Adrien Roux, St\'ephane Pag\`es, Laura Batti, Christoph Clausen, Theo Lasser, Aleksandra Radenovic, Bruno Sanguinetti, and J\'er\^ome Extermann(参考訳) 光顕微鏡におけるデータスループットの顕著な成長は、効率的な自動解析のために圧縮画像データセット上で実行される教師あり学習(SL)モデルを広く活用するきっかけとなった。 しかし, 画像圧縮のリスクが低いため, データ圧縮がSLアプリケーションに与える影響を定量化することが, 信頼性, 特に臨床応用において重要な課題である。 本研究では,2次元および3次元セルセグメンテーションslタスクにおける画像圧縮歪みの許容性を評価する実験手法を提案する。 16ビットから8ビットのダウンサンプリングやJPEG圧縮の後に、オブジェクトと画像固有のセグメンテーションパラメータの予測を最大15%、標準偏差10以上変更できることを示す。 対照的に、最近開発されたロスレス圧縮アルゴリズムは、生のノイズから生じるものと統計的に等価な予測スプレッドを提供し、圧縮比は最大10:1である。 SL予測の不確実性に対する低い境界を設定することで、SL支援フィールドにおける様々なデータ解析パイプラインを検証することができる。

The impressive growth of data throughput in optical microscopy has triggered a widespread use of supervised learning (SL) models running on compressed image datasets for efficient automated analysis. However, since lossy image compression risks to produce unpredictable artifacts, quantifying the effect of data compression on SL applications is of pivotal importance to assess their reliability, especially for clinical use. We propose an experimental method to evaluate the tolerability of image compression distortions in 2D and 3D cell segmentation SL tasks: predictions on compressed data are compared to the raw predictive uncertainty, which is numerically estimated from the raw noise statistics measured through sensor calibration. We show that predictions on object- and image-specific segmentation parameters can be altered by up to 15% and more than 10 standard deviations after 16-to-8 bits downsampling or JPEG compression. In contrast, a recently developed lossless compression algorithm provides a prediction spread which is statistically equivalent to that stemming from raw noise, while providing a compression ratio of up to 10:1. By setting a lower bound to the SL predictive uncertainty, our technique can be generalized to validate a variety of data analysis pipelines in SL-assisted fields.
翻訳日:2022-10-14 09:15:40 公開日:2020-09-26
# 第16回ACL2理論に関する国際ワークショップの報告と応用

Proceedings of the Sixteenth International Workshop on the ACL2 Theorem Prover and its Applications ( http://arxiv.org/abs/2009.12521v1 )

ライセンス: Link先を確認
Grant Passmore (Imandra, Inc. and Clare Hall, Cambridge), Ruben Gamboa (University of Wyoming)(参考訳) この巻は16th International Workshop on the ACL2 Theorem Prover and its Applications (ACL2-2020)で発表された論文を含む。 ワークショップはACL2に関する研究と経験を発表するための主要な技術フォーラムである。

This volume contains a selection of papers presented at the 16th International Workshop on the ACL2 Theorem Prover and its Applications (ACL2-2020). The workshops are the premier technical forum for presenting research and experiences related to ACL2.
翻訳日:2022-10-14 09:13:14 公開日:2020-09-26
# 補助課題からの学習による物体識別・局在化・把握のための神経認知的共有視覚運動モデルの拡張

Enhancing a Neurocognitive Shared Visuomotor Model for Object Identification, Localization, and Grasping With Learning From Auxiliary Tasks ( http://arxiv.org/abs/2009.12674v1 )

ライセンス: Link先を確認
Matthias Kerzel (1), Fares Abawi (1), Manfred Eppe (1), Stefan Wermter (1) ((1) University of Hamburg)(参考訳) 本稿では,複数の物体を持つシーンにおいて,対象物を識別,局所化,把握するロボット作業のための統合型視覚神経モデルについて追従する。 我々のRetinanetベースのモデルは、生物学的にインスパイアされた発達アプローチで、視覚運動能力のエンドツーエンドトレーニングを可能にする。 最初の実装では、神経モデルは平面面から選択された物体を把握できた。 我々はNICOヒューマノイドロボットのモデルを具現化した。 本研究は,拡張現実とシミュレーション環境に基づく新しいデータセットを用いて,物体の3次元空間への到達にタスクとモデルを拡張したものである。 補助タスクによる学習の影響,すなわち,主視的タスクの学習が,異なる対象を分類・同定する学習によって支援されているかを評価する。 提案手法により,3次元空間における物体の到達を学習できることを示す。 対象の場所や特性に基づいて生物学的に評価可能なバイアスについて結果を分析する。 本稿では,2つの補助課題のうちの1つと同時に,主動作タスクの訓練を成功させることを示す。 これは、生物学的システムに見られるモデルと同様、共有およびタスク固有のコンポーネントを持つ複雑な神経認知モデルによって実現される。

We present a follow-up study on our unified visuomotor neural model for the robotic tasks of identifying, localizing, and grasping a target object in a scene with multiple objects. Our Retinanet-based model enables end-to-end training of visuomotor abilities in a biologically inspired developmental approach. In our initial implementation, a neural model was able to grasp selected objects from a planar surface. We embodied the model on the NICO humanoid robot. In this follow-up study, we expand the task and the model to reaching for objects in a three-dimensional space with a novel dataset based on augmented reality and a simulation environment. We evaluate the influence of training with auxiliary tasks, i.e., if learning of the primary visuomotor task is supported by learning to classify and locate different objects. We show that the proposed visuomotor model can learn to reach for objects in a three-dimensional space. We analyze the results for biologically-plausible biases based on object locations or properties. We show that the primary visuomotor task can be successfully trained simultaneously with one of the two auxiliary tasks. This is enabled by a complex neurocognitive model with shared and task-specific components, similar to models found in biological systems.
翻訳日:2022-10-14 09:11:45 公開日:2020-09-26
# ハイパフォーマンスコンピューティング・アズ・ア・サービス(HPCaaS)クラウド環境のアクティブモニタリングのための機械学習アルゴリズム

Machine Learning Algorithms for Active Monitoring of High Performance Computing as a Service (HPCaaS) Cloud Environments ( http://arxiv.org/abs/2009.12498v1 )

ライセンス: Link先を確認
Gianluca Longoni (1), Ryan LaMothe (1), Jeremy Teuton (1), Mark Greaves (1), Nicole Nichols (1), William Smith (1) ((1) Pacific Northwest National Laboratory)(参考訳) クラウドコンピューティングは、あらゆる計算ニーズを満たす巨大な再構成可能なリソースへのユビキタスかつオンデマンドアクセスを提供する。 多くのサービスモデルが利用可能だが、IaaS(Infrastructure as a Service)モデルは、大量のクラウドコンピューティングノードをネットワークすることで、ハイパフォーマンスコンピューティング(HPC)プラットフォームとして運用するのに特に適している。 我々は太平洋北西国立研究所(pnnl)のクラウドコンピューティング環境を用いて実験を行った。 Amazon Web Services、Microsoft Azure、IBM Cloudなど、多くのクラウドコンピューティングプロバイダが、柔軟でスケーラブルなコンピューティングリソースを提供している。 本稿では,HPCプラットフォームとして構成されたクラウドインフラストラクチャ上で動作しているエンジニアリングアプリケーションの種類を,統計モデルへの入力としてプライバシ保護機能を用いて同定する。 本研究で検討されている工学的応用としては、ロスアラモス国立研究所が開発した放射線輸送コードmcnp6、オープンソースの計算流体力学コードopenfoam、素数分解に使用される一般数フィールドシーブアルゴリズムの数値実装cado-nfsなどがある。 当社の実験では、openstackクラウド管理ツールを使用してクラウドhpc環境を構築し、プライバシ保護ceilometer課金メーターを分類機能として、これらのアプリケーションの識別を実証しています。

Cloud computing provides ubiquitous and on-demand access to vast reconfigurable resources that can meet any computational need. Many service models are available, but the Infrastructure as a Service (IaaS) model is particularly suited to operate as a high performance computing (HPC) platform, by networking large numbers of cloud computing nodes. We used the Pacific Northwest National Laboratory (PNNL) cloud computing environment to perform our experiments. A number of cloud computing providers such as Amazon Web Services, Microsoft Azure, or IBM Cloud, offer flexible and scalable computing resources. This paper explores the viability identifying types of engineering applications running on a cloud infrastructure configured as an HPC platform using privacy preserving features as input to statistical models. The engineering applications considered in this work include MCNP6, a radiation transport code developed by Los Alamos National Laboratory, OpenFOAM, an open source computational fluid dynamics code, and CADO-NFS, a numerical implementation of the general number field sieve algorithm used for prime number factorization. Our experiments use the OpenStack cloud management tool to create a cloud HPC environment and the privacy preserving Ceilometer billing meters as classification features to demonstrate identification of these applications.
翻訳日:2022-10-14 09:11:17 公開日:2020-09-26
# ProDOMA:ディープラーニングを用いた第3世代シークエンシング読解のためのProtein DOMAin分類の改善

ProDOMA: improve PROtein DOMAin classification for third-generation sequencing reads using deep learning ( http://arxiv.org/abs/2009.12591v1 )

ライセンス: Link先を確認
Du Nan, Jiayu Shang, Yanni Sun(参考訳) モチベーション(Motivation):第3世代のシークエンシング技術の発展に伴い、人々は10から100kbのDNA配列を取得できる。 これらの長い読み取りは、アセンブリなしでタンパク質ドメインのアノテーションを可能にするため、基礎となるデータの生物学的機能に関する重要な洞察を生み出すことができる。 しかし、第3世代のシーケンシングデータにおける高いエラー率は、確立されたドメイン分析パイプラインに対する新たな挑戦を引き起こす。 最先端の手法はノイズの読み出しに最適化されておらず,第3世代のシークエンシングデータではドメイン分類の精度が不十分である。 長い雑音の読み出しにおいて、領域予測の性能を改善するために新しい計算方法が必要である。 結果:本研究では,第3世代シーケンシング読解のためのドメイン分類を行う深層学習モデルであるProDOMAを紹介する。 3フレームの翻訳エンコーディングを備えたディープニューラルネットワークを使用して、部分的に正しい翻訳から保存された特徴を学習する。 さらに,我々はオープンセット問題としてこの問題を定式化し,非コーディング領域などの非関連DNA読取を拒否する。 タンパク質のコード配列とヒトゲノムからの実読をシミュレーションした実験では、タンパク質ドメインの分類においてHMMERとDeepFamよりも優れている。 要約すると、ProDOMAは、エラー訂正に頼ることなく、長いノイズのある読み込みに有用なエンドツーエンドのタンパク質ドメイン分析ツールである。 アベイラビリティ: ソースコードとトレーニングされたモデルは、https://github.com/strideradu/prodoma.comから無料で利用できる。 連絡先:yannisun@cityu.edu.hk

Motivation: With the development of third-generation sequencing technologies, people are able to obtain DNA sequences with lengths from 10s to 100s of kb. These long reads allow protein domain annotation without assembly, thus can produce important insights into the biological functions of the underlying data. However, the high error rate in third-generation sequencing data raises a new challenge to established domain analysis pipelines. The state-of-the-art methods are not optimized for noisy reads and have shown unsatisfactory accuracy of domain classification in third-generation sequencing data. New computational methods are still needed to improve the performance of domain prediction in long noisy reads. Results: In this work, we introduce ProDOMA, a deep learning model that conducts domain classification for third-generation sequencing reads. It uses deep neural networks with 3-frame translation encoding to learn conserved features from partially correct translations. In addition, we formulate our problem as an open-set problem and thus our model can reject unrelated DNA reads such as those from noncoding regions. In the experiments on simulated reads of protein coding sequences and real reads from the human genome, our model outperforms HMMER and DeepFam on protein domain classification. In summary, ProDOMA is a useful end-to-end protein domain analysis tool for long noisy reads without relying on error correction. Availability: The source code and the trained model are freely available at https://github.com/strideradu/ProDOMA. Contact: yannisun@cityu.edu.hk
翻訳日:2022-10-14 09:10:31 公開日:2020-09-26
# 領域間のセマンティックセグメンテーションに対するアフィニティ空間適応

Affinity Space Adaptation for Semantic Segmentation Across Domains ( http://arxiv.org/abs/2009.12559v1 )

ライセンス: Link先を確認
Wei Zhou, Yukang Wang, Jiajia Chu, Jiehua Yang, Xiang Bai, Yongchao Xu(参考訳) ピクセル単位の密接なアノテーションによる意味セグメンテーションは、ディープラーニングによって優れたパフォーマンスを達成している。 しかし、野生でのセマンティックセグメンテーションの一般化は依然として困難である。 本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。 ソース領域とターゲット領域が不変な意味構造を持つという事実に動機づけられ、構造化意味セグメンテーションの出力におけるペアワイズ画素間の共起パターンを利用して、ドメイン間の不変性を活用することを提案する。 これは、画像、特徴、出力レベルの個々のピクセル情報に基づいてドメインを適応しようとする既存のアプローチとは異なる。 具体的には、隣接画素間のアフィニティ関係を、ソースとターゲット領域のアフィニティ空間と呼ぶ領域適応を行う。 この目的のために,親和性空間適応戦略として親和性空間クリーニングと親和性空間アライメントという2つの親和性空間適応戦略を開発した。 拡張実験により,提案手法はドメイン間のセマンティックセグメンテーションのためのいくつかの挑戦的なベンチマークにおいて,最先端の手法に対して優れた性能を発揮することが示された。 コードはhttps://github.com/idealwei/asanetで入手できる。

Semantic segmentation with dense pixel-wise annotation has achieved excellent performance thanks to deep learning. However, the generalization of semantic segmentation in the wild remains challenging. In this paper, we address the problem of unsupervised domain adaptation (UDA) in semantic segmentation. Motivated by the fact that source and target domain have invariant semantic structures, we propose to exploit such invariance across domains by leveraging co-occurring patterns between pairwise pixels in the output of structured semantic segmentation. This is different from most existing approaches that attempt to adapt domains based on individual pixel-wise information in image, feature, or output level. Specifically, we perform domain adaptation on the affinity relationship between adjacent pixels termed affinity space of source and target domain. To this end, we develop two affinity space adaptation strategies: affinity space cleaning and adversarial affinity space alignment. Extensive experiments demonstrate that the proposed method achieves superior performance against some state-of-the-art methods on several challenging benchmarks for semantic segmentation across domains. The code is available at https://github.com/idealwei/ASANet.
翻訳日:2022-10-14 09:04:35 公開日:2020-09-26
# 歴史暗号写本認識のための数発学習手法

A Few-shot Learning Approach for Historical Ciphered Manuscript Recognition ( http://arxiv.org/abs/2009.12577v1 )

ライセンス: Link先を確認
Mohamed Ali Souibgui and Alicia Forn\'es and Yousri Kessentini and Crina Tudor(参考訳) エンコードされた(または暗号化された)写本は、暗号化されたテキストを含む特別な歴史文書である。 この種の文書の自動認識は、次のように困難である。 1) 暗号アルファベットは,ある文書から別の文書へ変化する。 2) 訓練のための注釈付きコーパスが欠如している。 3) 触覚記号はシンボルのセグメンテーションを難しく複雑にする。 そこで本研究では,この難しさを克服するために,手書きの音声認識手法を提案する。 提案手法はまず,行画像中の任意のアルファベットの記号をまず検出し,復号ステップで記号類似性のスコアを書き起こされた記号の最終的なシーケンスにマッピングする。 合成データのトレーニングにより,提案アーキテクチャは未知のアルファベットで手書きの暗号を認識可能であることを示す。 さらに,同じアルファベットのラベル付きページを微調整に使用する場合,暗号認識のための既存の教師なし・教師なしhtr法を上回っている。

Encoded (or ciphered) manuscripts are a special type of historical documents that contain encrypted text. The automatic recognition of this kind of documents is challenging because: 1) the cipher alphabet changes from one document to another, 2) there is a lack of annotated corpus for training and 3) touching symbols make the symbol segmentation difficult and complex. To overcome these difficulties, we propose a novel method for handwritten ciphers recognition based on few-shot object detection. Our method first detects all symbols of a given alphabet in a line image, and then a decoding step maps the symbol similarity scores to the final sequence of transcribed symbols. By training on synthetic data, we show that the proposed architecture is able to recognize handwritten ciphers with unseen alphabets. In addition, if few labeled pages with the same alphabet are used for fine tuning, our method surpasses existing unsupervised and supervised HTR methods for ciphers recognition.
翻訳日:2022-10-14 09:04:18 公開日:2020-09-26
# リモートセンシング画像のための自己適応型アテンションネットワークによるオブジェクト検出

Few-shot Object Detection with Self-adaptive Attention Network for Remote Sensing Images ( http://arxiv.org/abs/2009.12596v1 )

ライセンス: Link先を確認
Zixuan Xiao, Wei Xue, and Ping Zhong(参考訳) 近年,リモートセンシングの分野では,大量のラベル付きデータを必要とするオブジェクト検出の応用が数多く行われている。 しかし、限られたデータしか利用できないケースもあるかもしれません。 本稿では, ごく少数の例で提供される新しい物体を検出するために設計された, 数発の物体検出器を提案する。 特に,対象物検出設定に適合させるために,提案する数発検出器は,自己適応注意ネットワーク(SAAN)の助けを借りて,全画像ではなく対象物レベルの関係に集中する。 SAANは、関係GRUユニットを介してオブジェクトレベルの関係を完全に活用でき、同時に、オブジェクトレベルの関係に従って自己適応的にオブジェクトの特徴に注意を向けることができ、追加の注意が役に立たない、あるいは有害な状況を回避することができる。 最終的に、検出結果は、注意して加えられた特徴から生成されるので、簡単に検出することができる。 実験により,提案手法の有効性が実証された。

In remote sensing field, there are many applications of object detection in recent years, which demands a great number of labeled data. However, we may be faced with some cases where only limited data are available. In this paper, we proposed a few-shot object detector which is designed for detecting novel objects provided with only a few examples. Particularly, in order to fit the object detection settings, our proposed few-shot detector concentrates on the relations that lie in the level of objects instead of the full image with the assistance of Self-Adaptive Attention Network (SAAN). The SAAN can fully leverage the object-level relations through a relation GRU unit and simultaneously attach attention on object features in a self-adaptive way according to the object-level relations to avoid some situations where the additional attention is useless or even detrimental. Eventually, the detection results are produced from the features that are added with attention and thus are able to be detected simply. The experiments demonstrate the effectiveness of the proposed method in few-shot scenes.
翻訳日:2022-10-14 09:04:05 公開日:2020-09-26
# Grasp Proposal Networks: ロボットグラスの視覚学習のためのエンドツーエンドソリューション

Grasp Proposal Networks: An End-to-End Solution for Visual Learning of Robotic Grasps ( http://arxiv.org/abs/2009.12606v1 )

ライセンス: Link先を確認
Chaozheng Wu, Jian Chen, Qiaoyu Cao, Jianchi Zhang, Yunxin Tai, Lin Sun, Kui Jia(参考訳) 視覚的な観察からロボットの把握を学ぶことは、有望だが難しい課題だ。 最近の研究は、大規模な合成データセットを準備し、学習することで、その大きな可能性を示している。 パラレルジャウグリッパーの6自由度 (6-dof) 把持設定では, 従来の手法では, 把持候補をヒューリスティックにサンプリングし, 学習したスコアリング関数を用いて評価する手法がほとんどである。 この戦略はサンプリング効率と最適把握のカバレッジの相違という点で制限されている。 この目的のために,本研究では,単一かつ未知のカメラビューから観察される未知の物体に対して,多種多様な6-DOFグリップの予測を行う,GPNet(End-to-end \emph{Grasp Proposal Network)を提案する。 gpnet は、より正確に、またはより多様な把握予測をサポートする柔軟性のある、離散的だが通常の3dグリッドコーナーで \emph{anchors of grasp centers} を定義する、grab proposalモジュールのキー設計に基づいている。 GPNetをテストするために,ルールベース基準,シミュレーションテスト,実検定を用いて6-DOFオブジェクトグリップの合成データセットを作成した。 比較の結果,既存の手法に比べて,手法の利点が示された。 特にGPNetは、特定のカバレッジを通じてより良いシミュレーション結果を得ることができ、実際のテストで十分な翻訳を実現するのに役立ちます。 私たちはデータセットを一般公開します。

Learning robotic grasps from visual observations is a promising yet challenging task. Recent research shows its great potential by preparing and learning from large-scale synthetic datasets. For the popular, 6 degree-of-freedom (6-DOF) grasp setting of parallel-jaw gripper, most of existing methods take the strategy of heuristically sampling grasp candidates and then evaluating them using learned scoring functions. This strategy is limited in terms of the conflict between sampling efficiency and coverage of optimal grasps. To this end, we propose in this work a novel, end-to-end \emph{Grasp Proposal Network (GPNet)}, to predict a diverse set of 6-DOF grasps for an unseen object observed from a single and unknown camera view. GPNet builds on a key design of grasp proposal module that defines \emph{anchors of grasp centers} at discrete but regular 3D grid corners, which is flexible to support either more precise or more diverse grasp predictions. To test GPNet, we contribute a synthetic dataset of 6-DOF object grasps; evaluation is conducted using rule-based criteria, simulation test, and real test. Comparative results show the advantage of our methods over existing ones. Notably, GPNet gains better simulation results via the specified coverage, which helps achieve a ready translation in real test. We will make our dataset publicly available.
翻訳日:2022-10-14 09:03:50 公開日:2020-09-26
# カメラレンダリング画像のためのインタラクティブなホワイトバランシング

Interactive White Balancing for Camera-Rendered Images ( http://arxiv.org/abs/2009.12632v1 )

ライセンス: Link先を確認
Mahmoud Afifi and Michael S. Brown(参考訳) ホワイトバランス(wb)は、撮影された画像を最終的な出力にレンダリングするために使われる最初のフォトフィニッシュステップの1つである。 シーンの照明によるカラーキャストを除去するためにWBを適用する。 インタラクティブな写真編集ソフトウェアでは、ユーザーはWB補正の照明(例えば無彩色物体をクリック)の例として、写真の異なる領域を手動で選択することができる。 このようなインタラクティブな編集はRAW画像形式で保存された画像でのみ可能である。 これは、RAW画像に写真レンダリング操作が適用されず、フォト編集ソフトウェアがWBや他の写真仕上げ手順を適用できるためである。 カメラレンダリング画像でWBをインタラクティブに編集するのは、かなり難しい。 これは、カメラハードウェアが既に画像およびその後の非線形フォト処理ルーチンにWBを適用しているためである。 これらの非線形レンダリング操作は、WBポストキャプチャの変更を難しくする。 本稿では,カメラレンダリング画像のインタラクティブなwb操作を実現することを目的とする。 提案手法は, 非線形カラーマッピング関数に基づくwb補正のポストキャプチャ法を提案する最近の研究である \cite{afifi2019color} の拡張である。 本稿では,非線形カラーマッピング機能を直接ユーザ選択色にリンクし,WB操作を可能にする新しいフレームワークを提案する。 この新しいフレームワークは、メモリと実行時間の観点からも効率的である(メモリの99\%削減と3$\times$ speed-up)。 最後に、我々のフレームワークが単純な照明推定法(すなわちグレイワールド)を利用して、wb補正結果と同等のオートwb補正を \cite{afifi2019color} で実行する方法について述べる。 ソースコードはhttps://github.com/mahmoudnafifi/Interactive_WB_correctionで公開されている。

White balance (WB) is one of the first photo-finishing steps used to render a captured image to its final output. WB is applied to remove the color cast caused by the scene's illumination. Interactive photo-editing software allows users to manually select different regions in a photo as examples of the illumination for WB correction (e.g., clicking on achromatic objects). Such interactive editing is possible only with images saved in a RAW image format. This is because RAW images have no photo-rendering operations applied and photo-editing software is able to apply WB and other photo-finishing procedures to render the final image. Interactively editing WB in camera-rendered images is significantly more challenging. This is because the camera hardware has already applied WB to the image and subsequent nonlinear photo-processing routines. These nonlinear rendering operations make it difficult to change the WB post-capture. The goal of this paper is to allow interactive WB manipulation of camera-rendered images. The proposed method is an extension of our recent work \cite{afifi2019color} that proposed a post-capture method for WB correction based on nonlinear color-mapping functions. Here, we introduce a new framework that links the nonlinear color-mapping functions directly to user-selected colors to enable {\it interactive} WB manipulation. This new framework is also more efficient in terms of memory and run-time (99\% reduction in memory and 3$\times$ speed-up). Lastly, we describe how our framework can leverage a simple illumination estimation method (i.e., gray-world) to perform auto-WB correction that is on a par with the WB correction results in \cite{afifi2019color}. The source code is publicly available at https://github.com/mahmoudnafifi/Interactive_WB_correction.
翻訳日:2022-10-14 09:03:24 公開日:2020-09-26
# 循環ヒューズ・アンド・リファインブロックを用いた物体検出のためのマルチスペクトル融合

Multispectral Fusion for Object Detection with Cyclic Fuse-and-Refine Blocks ( http://arxiv.org/abs/2009.12664v1 )

ライセンス: Link先を確認
Heng Zhang, Elisa Fromont, S\'ebastien Lefevre, Bruno Avignon(参考訳) マルチスペクトル画像(例えば、可視光と赤外線)は、異なる環境(例えば、昼夜の屋外シーン)で同じモデルで物体を検出する際に特に有用である。 異なるスペクトルを効果的に利用するには、主な技術的問題は情報融合プロセスにある。 本稿では,各スペクトル特徴を周期的に融合・洗練する特定のモジュールであるネットワークアーキテクチャに付加することにより,マルチスペクトル特徴に存在する相補的/相補的バランスを利用するニューラルネットワークの中間機能融合法を提案する。 オブジェクト検出のための2つの挑戦的マルチスペクトルデータセットに対する融合法の有効性を評価する。 以上の結果から,どのネットワークにも循環ヒューズ・アンド・リファインモジュールを実装すれば,他の最先端マルチスペクトルオブジェクト検出手法と比較して,両方のデータセットの性能が向上することがわかった。

Multispectral images (e.g. visible and infrared) may be particularly useful when detecting objects with the same model in different environments (e.g. day/night outdoor scenes). To effectively use the different spectra, the main technical problem resides in the information fusion process. In this paper, we propose a new halfway feature fusion method for neural networks that leverages the complementary/consistency balance existing in multispectral features by adding to the network architecture, a particular module that cyclically fuses and refines each spectral feature. We evaluate the effectiveness of our fusion method on two challenging multispectral datasets for object detection. Our results show that implementing our Cyclic Fuse-and-Refine module in any network improves the performance on both datasets compared to other state-of-the-art multispectral object detection methods.
翻訳日:2022-10-14 09:02:55 公開日:2020-09-26
# パーソナリティ推論のためのdyadic会話のモデル化

Modeling Dyadic Conversations for Personality Inference ( http://arxiv.org/abs/2009.12496v1 )

ライセンス: Link先を確認
Qiang Liu(参考訳) 今日では、自動パーソナリティ推論は学術と産業の両方から大きな注目を集めている。 従来の手法は主にソーシャルメディア上のユーザー生成コンテンツ(例えば、個人のプロフィール、お気に入り、テキストなど)に基づいており、実際はあまり信頼できない。 対照的に、個人間のディアディックな会話は、自己の表現の仕方だけでなく、異なる状況にどう反応するかを反映することができる。 ディヤド会話における豊かな文脈情報は、会話中の個人の反応を説明することができる。 本稿では,個人間の対話に基づく教師なし会話埋め込み(pce)を学習するための拡張ゲートリカレントユニット(gru)モデルを提案する。 従来のgrgの各レイヤの定式化を、シーケンス学習と会話の両側の個人情報とで調整する。 学習したpceに基づいて、各個人の性格を推測することができる。 映画脚本の登場人物間の会話から収集した映画脚本データセットについて実験を行う。 個人間の対話をモデル化することで、人格推定精度を大幅に向上させることができる。 実験の結果,提案手法の有効性が示された。

Nowadays, automatical personality inference is drawing extensive attention from both academia and industry. Conventional methods are mainly based on user generated contents, e.g., profiles, likes, and texts of an individual, on social media, which are actually not very reliable. In contrast, dyadic conversations between individuals can not only capture how one expresses oneself, but also reflect how one reacts to different situations. Rich contextual information in dyadic conversation can explain an individual's response during his or her conversation. In this paper, we propose a novel augmented Gated Recurrent Unit (GRU) model for learning unsupervised Personal Conversational Embeddings (PCE) based on dyadic conversations between individuals. We adjust the formulation of each layer of a conventional GRU with sequence to sequence learning and personal information of both sides of the conversation. Based on the learned PCE, we can infer the personality of each individual. We conduct experiments on the Movie Script dataset, which is collected from conversations between characters in movie scripts. We find that modeling dyadic conversations between individuals can significantly improve personality inference accuracy. Experimental results illustrate the successful performance of our proposed method.
翻訳日:2022-10-14 09:02:39 公開日:2020-09-26
# 乱用的言語検出とtwitter行動のキャラクタリゼーション

Abusive Language Detection and Characterization of Twitter Behavior ( http://arxiv.org/abs/2009.14261v1 )

ライセンス: Link先を確認
Dincy Davis, Reena Murali, Remesh Babu(参考訳) 本研究では,双方向リカレントニューラルネットワーク(birnn)を用いて,オンラインコンテンツにおける乱用言語検出を行う。 ここでの主な目的は、Twitter上での様々な虐待行動に注目し、スピーチが虐待的かどうかを検出することである。 本研究では,畳み込み型ニューラルネットルーク(cnn)とリカレントニューラルネットワーク(rnn)を用いて,ソーシャルメディアにおける各種乱用行動の比較を行った。

In this work, abusive language detection in online content is performed using Bidirectional Recurrent Neural Network (BiRNN) method. Here the main objective is to focus on various forms of abusive behaviors on Twitter and to detect whether a speech is abusive or not. The results are compared for various abusive behaviors in social media, with Convolutional Neural Netwrok (CNN) and Recurrent Neural Network (RNN) methods and proved that the proposed BiRNN is a better deep learning model for automatic abusive speech detection.
翻訳日:2022-10-14 09:01:59 公開日:2020-09-26
# 接続特性に基づく脳波発作検出のための説明可能なモデル

An Explainable Model for EEG Seizure Detection based on Connectivity Features ( http://arxiv.org/abs/2009.12566v1 )

ライセンス: Link先を確認
Mohammad Mansour, Fouad Khnaisser and Hmayag Partamian(参考訳) 発作を特徴とするてんかんを脳波信号を用いて脳の電気的活動を記録することにより研究する。 脳の異なる部分間の異なる種類のコミュニケーションは、指示され、無向にできる芸術的接続手段の多くの状態によって特徴付けられる。 本研究では,非指向性(スペクトル行列の逆行列,スペクトル行列,コヒーレンス,部分コヒーレンス,位相同期値の逆行列)と有向特徴(有向コヒーレンス,部分有向コヒーレンス)を用いて,特定のデータウィンドウが発作に属するか否かを検出するディープニューラルネットワークを学習することを提案する。 10個のサブウィンドウのシーケンスとしてデータを取り込むことで、アテンション、cnn、bilstm、および完全に接続された層を用いた最適なディープラーニングモデルを設計することを目指している。 また,特定の層における受容野の活性化値に基づいて学習モデルの重みを用いて妥当性を計算する。 私たちの最高のモデルアーキテクチャは、バランスの取れたMITBIHデータサブセットを使用して97.03%の精度を実現した。 また、すべての患者にまたがる各特徴の関連性についても説明できた。 我々は,アクティベーションの寄与が決定に与える影響を研究することにより,発作に関する科学的事実のいくつかを実験的に検証することができた。

Epilepsy which is characterized by seizures is studied using EEG signals by recording the electrical activity of the brain. Different types of communication between different parts of the brain are characterized by many state of the art connectivity measures which can be directed and undirected. We propose to employ a set of undirected (spectral matrix, the inverse of the spectral matrix, coherence, partial coherence, and phaselocking value) and directed features (directed coherence, the partial directed coherence) to learn a deep neural network that detects whether a particular data window belongs to a seizure or not, which is a new approach to standard seizure classification. Taking our data as a sequence of ten sub-windows, we aim at designing an optimal deep learning model using attention, CNN, BiLstm, and fully connected layers. We also compute the relevance using the weights of the learned model based on the activation values of the receptive fields at a particular layer. Our best model architecture resulted in 97.03% accuracy using balanced MITBIH data subset. Also, we were able to explain the relevance of each feature across all patients. We were able to experimentally validate some of the scientific facts concerning seizures by studying the impact of the contributions of the activations on the decision.
翻訳日:2022-10-14 09:01:46 公開日:2020-09-26
# 大規模複合文書上でのトランスフォーマーモデルによるQ&A精度向上手法

Techniques to Improve Q&A Accuracy with Transformer-based models on Large Complex Documents ( http://arxiv.org/abs/2009.12695v1 )

ライセンス: Link先を確認
Chejui Liao, Tabish Maniar, Sravanajyothi N and Anantha Sharma(参考訳) 本稿では,テキストコーパスの複雑さとサイズを低減させるために,テキスト処理技術,それらの組み合わせ,エンコーディングの有効性について論じる。 簡略化されたテキストコーパスは質問や回答のためにBERT(または類似のトランスフォーマーベースモデル)に送られ、ユーザクエリに対してより関連性の高い応答を生成する。 本稿では,様々な手法の利点と有効性を見極める科学的アプローチを採り,統計的に有意な精度向上をもたらす最善の組み合わせを結論づける。

This paper discusses the effectiveness of various text processing techniques, their combinations, and encodings to achieve a reduction of complexity and size in a given text corpus. The simplified text corpus is sent to BERT (or similar transformer based models) for question and answering and can produce more relevant responses to user queries. This paper takes a scientific approach to determine the benefits and effectiveness of various techniques and concludes a best-fit combination that produces a statistically significant improvement in accuracy.
翻訳日:2022-10-14 08:54:46 公開日:2020-09-26
# 軌道データマイニングを用いた確率顧客による動的容量車両経路問題のマルチエージェントシステム

A Multi-Agent System for Solving the Dynamic Capacitated Vehicle Routing Problem with Stochastic Customers using Trajectory Data Mining ( http://arxiv.org/abs/2009.12691v1 )

ライセンス: Link先を確認
Juan Camilo Fonseca-Galindo, Gabriela de Castro Surita, Jos\'e Maia Neto, Cristiano Leite de Castro and Andr\'e Paim Lemos(参考訳) eコマースの世界的成長は、ロジスティクス企業にとって新たな課題を生み出した。そのひとつが、パッケージのソート方法を直接反映し、ストレージやバッチ生成といったステップを排除する必要性を反映した、迅速かつ低コストな製品提供を可能にすることだ。 本研究では,軌跡データマイニング手法を用いて領域パターンを抽出し,ラストマイル経路を動的に生成するマルチエージェントシステムを提案する。 この問題は、Stochastic Customerによる動的容量車両ルーティング問題(VRP)としてモデル化できるため、多くのパッケージで実装が不可能なNP-HARDとなっている。 この作業の主な貢献は、eコマース製品の提供に一般的に見られるビッグデータシナリオに適した、処理されたパッケージの数ではなく、倉庫システム構成のみに基づいてこの問題を解決することである。 シングルデポインスタンスとマルチデポインスタンスの計算実験を行った。 その確率的性質から、提案手法は静的なvrpアルゴリズムに比べてわずかに低い性能を示した。 しかしながら、我々のソリューションが提供する運用上の利益は、経路を動的に設定しなければならない状況に非常に魅力的です。

The worldwide growth of e-commerce has created new challenges for logistics companies, one of which is being able to deliver products quickly and at low cost, which reflects directly in the way of sorting packages, needing to eliminate steps such as storage and batch creation. Our work presents a multi-agent system that uses trajectory data mining techniques to extract territorial patterns and use them in the dynamic creation of last-mile routes. The problem can be modeled as a Dynamic Capacitated Vehicle Routing Problem (VRP) with Stochastic Customer, being therefore NP-HARD, what makes its implementation unfeasible for many packages. The work's main contribution is to solve this problem only depending on the Warehouse system configurations and not on the number of packages processed, which is appropriate for Big Data scenarios commonly present in the delivery of e-commerce products. Computational experiments were conducted for single and multi depot instances. Due to its probabilistic nature, the proposed approach presented slightly lower performances when compared to the static VRP algorithm. However, the operational gains that our solution provides making it very attractive for situations in which the routes must be set dynamically.
翻訳日:2022-10-14 08:54:13 公開日:2020-09-26
# ニューロモルフィックコンピューティングにおける信頼性-性能トレードオフ

Reliability-Performance Trade-offs in Neuromorphic Computing ( http://arxiv.org/abs/2009.12672v1 )

ライセンス: Link先を確認
Twisha Titirsha and Anup Das(参考訳) 非揮発性メモリ(NVM)で構築されたニューロモルフィックアーキテクチャは、スパイキングニューラルネットワーク(SNN)で設計された機械学習タスクのエネルギー効率を大幅に向上させることができる。 これらのアーキテクチャのクロスバーにおける電圧降下の主な原因は、クロスバーのビットラインとワードラインの寄生成分であり、ビットあたりのコストを下げるために意図的に長くなる。 寄生電圧低下は, クロスバー内のNVMセルのプログラミング速度と信頼性において重要な非対称性を生じさせる。 具体的には、より短い電流経路にあるNVM細胞は、プログラムが高速であるが、より長い電流経路にある細胞よりも持続性が低い。 ニューロモルフィックアーキテクチャにおけるこの非対称性は信頼性と性能のトレードオフを生み出し、SNNマッピング技術を用いて効率的に利用することができる。 本研究では,従来提案されていたSNNマッピング技術を用いて,最先端のニューロモルフィックハードウェアのための,現代の機械学習タスクからの10のワークロードを実証する。

Neuromorphic architectures built with Non-Volatile Memory (NVM) can significantly improve the energy efficiency of machine learning tasks designed with Spiking Neural Networks (SNNs). A major source of voltage drop in a crossbar of these architectures are the parasitic components on the crossbar's bitlines and wordlines, which are deliberately made longer to achieve lower cost-per-bit. We observe that the parasitic voltage drops create a significant asymmetry in programming speed and reliability of NVM cells in a crossbar. Specifically, NVM cells that are on shorter current paths are faster to program but have lower endurance than those on longer current paths, and vice versa. This asymmetry in neuromorphic architectures create reliability-performance trade-offs, which can be exploited efficiently using SNN mapping techniques. In this work, we demonstrate such trade-offs using a previously-proposed SNN mapping technique with 10 workloads from contemporary machine learning tasks for a state-of-the art neuromoorphic hardware.
翻訳日:2022-10-14 08:53:52 公開日:2020-09-26
# Dense-View GEIs Set:Dense-View GANに基づく歩行認識のための空間被覆

Dense-View GEIs Set: View Space Covering for Gait Recognition based on Dense-View GAN ( http://arxiv.org/abs/2009.12516v1 )

ライセンス: Link先を確認
Rijun Liao, Weizhi An, Shiqi Yu, Zhu Li, Yongzhen Huang(参考訳) 歩行認識は長距離人間の認識に有効であることが証明されている。 しかし、歩行の特徴の相違は人間の外観を大きく変え、性能を低下させる。 ほとんどの既存の歩行データセットは、通常、12の異なる角度のデータを収集する。 視野角の制限は、より良い視野不変機能を学ぶことを妨げる。 1度の間隔で様々な角度のデータを収集すれば、歩行認識の堅牢性をさらに向上させることができる。 しかし、この種のデータセットを集めるには時間と労力がかかります。 そこで本稿では,Dense-View GEIs Set (DV-GEIs)を導入し,限られた視野角の課題に対処する。 この集合は1度間隔で0度から180度までの角度の視野空間全体をカバーすることができる。 さらに,Dense-View GAN (DV-GAN) を提案し,この高密度ビューセットを合成した。 DV-GANはジェネレータ、ディスクリミネータ、モニターで構成されており、モニターは人間の識別と視認情報を保存するように設計されている。 提案手法は,CASIA-BおよびOU-ISIRデータセットを用いて評価する。 実験の結果,DV-GANにより合成されたDV-GEIsは,不均一な特徴をよりよく把握するための有効な方法であることがわかった。 濃密なビュー生成サンプルの概念は、歩容認識の発展をさらに改善すると信じている。

Gait recognition has proven to be effective for long-distance human recognition. But view variance of gait features would change human appearance greatly and reduce its performance. Most existing gait datasets usually collect data with a dozen different angles, or even more few. Limited view angles would prevent learning better view invariant feature. It can further improve robustness of gait recognition if we collect data with various angles at 1 degree interval. But it is time consuming and labor consuming to collect this kind of dataset. In this paper, we, therefore, introduce a Dense-View GEIs Set (DV-GEIs) to deal with the challenge of limited view angles. This set can cover the whole view space, view angle from 0 degree to 180 degree with 1 degree interval. In addition, Dense-View GAN (DV-GAN) is proposed to synthesize this dense view set. DV-GAN consists of Generator, Discriminator and Monitor, where Monitor is designed to preserve human identification and view information. The proposed method is evaluated on the CASIA-B and OU-ISIR dataset. The experimental results show that DV-GEIs synthesized by DV-GAN is an effective way to learn better view invariant feature. We believe the idea of dense view generated samples will further improve the development of gait recognition.
翻訳日:2022-10-14 08:53:21 公開日:2020-09-26
# ニューラルツインの講演

Neural Twins Talk ( http://arxiv.org/abs/2009.12524v1 )

ライセンス: Link先を確認
Zanyar Zohourianshahzadi (UCCS) and Jugal Kumar Kalita (UCCS)(参考訳) 被験者に焦点をあてる際に、人間の脳がより神経経路をどう使うかに着想を得て、視覚的接地作業に1つの注意チャンネルを用いて実装された最先端の画像キャプションモデルよりも優れた、新しい双対の注意モデルを導入する。 視覚的な接地は、入力画像内の特定の領域に接地された字幕文中の単語の存在を保証する。 深層学習モデルが視覚的接地作業に基づいて訓練された後、そのモデルでは、字幕文中の視覚的接地とオブジェクトの順序に関する学習パターンを用いて、キャプションを生成する。 実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。 結果は標準画像キャプション指標を用いて報告され、従来の画像キャプションモデルと比較して、我々のモデルが達成した改善を示す。 実験から得られた結果は、より並列な注意経路をディープニューラルネットワークに導入することで、より高い性能が得られることを示唆している。 NTTの実装は、https://github.com/zanyarz/NeuralTwinsTalk.comで公開されています。

Inspired by how the human brain employs more neural pathways when increasing the focus on a subject, we introduce a novel twin cascaded attention model that outperforms a state-of-the-art image captioning model that was originally implemented using one channel of attention for the visual grounding task. Visual grounding ensures the existence of words in the caption sentence that are grounded into a particular region in the input image. After a deep learning model is trained on visual grounding task, the model employs the learned patterns regarding the visual grounding and the order of objects in the caption sentences, when generating captions. We report the results of our experiments in three image captioning tasks on the COCO dataset. The results are reported using standard image captioning metrics to show the improvements achieved by our model over the previous image captioning model. The results gathered from our experiments suggest that employing more parallel attention pathways in a deep neural network leads to higher performance. Our implementation of NTT is publicly available at: https://github.com/zanyarz/NeuralTwinsTalk.
翻訳日:2022-10-14 08:53:02 公開日:2020-09-26
# 平均教師+移動学習GANを用いたリアルなCOVID19X線生成

Generating Realistic COVID19 X-rays with a Mean Teacher + Transfer Learning GAN ( http://arxiv.org/abs/2009.12478v1 )

ライセンス: Link先を確認
Sumeet Menon (1), Joshua Galita (1), David Chapman (1), Aryya Gangopadhyay (1), Jayalakshmi Mangalagiri (1), Phuong Nguyen (1), Yaacov Yesha (1), Yelena Yesha (1), Babak Saboury (1 and 2), Michael Morris (1, 2, and 3) ((1) University of Maryland, Baltimore County, (2) National Institutes of Health Clinical Center, (3) Networking Health)(参考訳) 新型コロナウイルス(COVID-19)は、2020年8月現在、世界中で800万以上の死者を負う新しい感染症である。 迅速なテストの必要性は高い優先度であり、x線画像分類を含む代替テスト戦略は有望な研究分野である。 しかし、現在、COVID19のX線画像の公開データセットはデータ量が少ないため、正確な画像分類器の開発が困難である。 近年,学習データ量を増やすためにGAN(Generative Adversarial Networks)の利用が報告されている。 しかし、現実的な合成X線は依然として生成が難しい。 本稿では,高品質のCOVID-19胸部X線画像を生成するMTT-GAN(Mean Teacher + Transfer GAN)を提案する。 より正確なGANを作成するために、私たちはKaggle Pneumonia X-Rayデータセットからの移行学習を採用しています。 さらに,トレーニングの安定性向上のための制約として,平均教師アルゴリズムを用いる。 MTT-GANは,ベースラインGANよりも優れたX線画像を生成し,実際のX線と視覚的に比較できることを示す。 MTT-GANの偽物と実際の新型コロナウイルスのX線を識別できる。 MTT-GANは、基準GANと比較して、バイナリCOVID19分類器とマルチクラス肺炎分類器の両方の精度を大幅に向上させる。 分類精度は,最近報告された2型および多型covid-19スクリーニング課題の文献と比較すると良好である。

COVID-19 is a novel infectious disease responsible for over 800K deaths worldwide as of August 2020. The need for rapid testing is a high priority and alternative testing strategies including X-ray image classification are a promising area of research. However, at present, public datasets for COVID19 x-ray images have low data volumes, making it challenging to develop accurate image classifiers. Several recent papers have made use of Generative Adversarial Networks (GANs) in order to increase the training data volumes. But realistic synthetic COVID19 X-rays remain challenging to generate. We present a novel Mean Teacher + Transfer GAN (MTT-GAN) that generates COVID19 chest X-ray images of high quality. In order to create a more accurate GAN, we employ transfer learning from the Kaggle Pneumonia X-Ray dataset, a highly relevant data source orders of magnitude larger than public COVID19 datasets. Furthermore, we employ the Mean Teacher algorithm as a constraint to improve stability of training. Our qualitative analysis shows that the MTT-GAN generates X-ray images that are greatly superior to a baseline GAN and visually comparable to real X-rays. Although board-certified radiologists can distinguish MTT-GAN fakes from real COVID19 X-rays. Quantitative analysis shows that MTT-GAN greatly improves the accuracy of both a binary COVID19 classifier as well as a multi-class Pneumonia classifier as compared to a baseline GAN. Our classification accuracy is favourable as compared to recently reported results in the literature for similar binary and multi-class COVID19 screening tasks.
翻訳日:2022-10-14 08:46:51 公開日:2020-09-26
# DT-Net:多方向統合畳み込みとしきい値畳み込みに基づく新しいネットワーク

DT-Net: A novel network based on multi-directional integrated convolution and threshold convolution ( http://arxiv.org/abs/2009.12569v1 )

ライセンス: Link先を確認
Hongfeng You, Long Yu, Shengwei Tian, Xiang Ma, Yan Xing and Xiaojie Ma(参考訳) 医用画像データセットにはサンプルや特異な特徴が少ないため、病変は他の組織と非常によく似ていると見なされる。 従来のニューラルネットワークは、機能を学ぶ能力に制限がある。 特徴マップのホストを拡張してより意味的な情報を得る場合でも、最終医療画像のセグメント化の精度はわずかに向上し、その機能は過剰に冗長である。 本稿では,この問題を解決するために,新しいエンドツーエンド意味セグメンテーションアルゴリズムdt-netを提案し,医療画像のエンドツーエンドセグメンテーションを実現するための2つの新しい畳み込み戦略を提案する。 1. 機能マイニングと機能融合の段階において, 多方向統合畳み込み(MDIC)を構築する。 中心となるアイデアは、マルチスケール畳み込みを使用して、ローカルな多方向特徴マップを強化し、拡張された特徴マップを生成し、特徴マップの数を増やすことなく、より多くの意味を含む生成した特徴をマイニングすることだ。 2) より意味のある深い特徴を発掘し, 維持し, 訓練過程における騒音の特徴を減らそうとしている。 そこで我々は,畳み込みしきい値決定戦略を提案する。 中心となる考え方は、多くの冗長な特徴を排除し、計算の複雑さを減らすためのしきい値を設定することである。 本稿では,2つの医用画像データセットに対して,現状の成果を提示するアルゴリズムを提案する。 提案する戦略が機能マイニングや冗長な特徴の排除において重要な役割を担っていることを詳細に証明する。 既存のセマンティックセグメンテーションアルゴリズムと比較して,提案アルゴリズムはより堅牢性が高い。

Since medical image data sets contain few samples and singular features, lesions are viewed as highly similar to other tissues. The traditional neural network has a limited ability to learn features. Even if a host of feature maps is expanded to obtain more semantic information, the accuracy of segmenting the final medical image is slightly improved, and the features are excessively redundant. To solve the above problems, in this paper, we propose a novel end-to-end semantic segmentation algorithm, DT-Net, and use two new convolution strategies to better achieve end-to-end semantic segmentation of medical images. 1. In the feature mining and feature fusion stage, we construct a multi-directional integrated convolution (MDIC). The core idea is to use the multi-scale convolution to enhance the local multi-directional feature maps to generate enhanced feature maps and to mine the generated features that contain more semantics without increasing the number of feature maps. 2. We also aim to further excavate and retain more meaningful deep features reduce a host of noise features in the training process. Therefore, we propose a convolution thresholding strategy. The central idea is to set a threshold to eliminate a large number of redundant features and reduce computational complexity. Through the two strategies proposed above, the algorithm proposed in this paper produces state-of-the-art results on two public medical image datasets. We prove in detail that our proposed strategy plays an important role in feature mining and eliminating redundant features. Compared with the existing semantic segmentation algorithms, our proposed algorithm has better robustness.
翻訳日:2022-10-14 08:46:28 公開日:2020-09-26
# 胸部X線診断における深層学習による4領域肺分画

Deep Learning-based Four-region Lung Segmentation in Chest Radiography for COVID-19 Diagnosis ( http://arxiv.org/abs/2009.12610v1 )

ライセンス: Link先を確認
Young-Gon Kim, Kyungsang Kim, Dufan Wu, Hui Ren, Won Young Tak, Soo Young Park, Yu Rim Lee, Min Kyu Kang, Jung Gil Park, Byung Seok Kim, Woo Jin Chung, Mannudeep K. Kalra, Quanzheng Li(参考訳) 目的 画像診断は、covid-19肺炎の重症度を評価する上で重要な役割を果たす。 しかし,胸部X線写真(CXR)の意味的解釈には,X線学的不透明度の定量的な記述は含まれていない。 現在のAI支援CXR画像分析フレームワークのほとんどは、病気の局所的な変化を定量化していない。 そこで本研究では,covid-19肺炎の定量化を支援する4領域肺分画法を提案する。 メソッド。 左肺と右肺を分離するセグメンテーションモデルがまず適用され、次いで上肺と下肺を分離する臨床的ランドマークであるカリナと左胸肺を検知するネットワークが使用される。 新型コロナウイルス19画像のセグメンテーション性能を向上させるため、5つのモデルを組み合わせたアンサンブル戦略を取り入れた。 肺浮腫(rale, 肺浮腫)の質をx線学的に評価し, 提案法の有用性について検討した。 結果だ 提案したアンサンブル戦略は,従来の方法よりも有意に高い0.900点を示した(0.854 0.889)。 分節4領域の平均強度は,rale系における肺不透明度の範囲と密度スコアに正の相関を示した。 結論だ CXRの深層学習モデルでは、COVID-19肺炎患者の肺不透明度の局所分布を正確に分類し定量化することができる。

Purpose. Imaging plays an important role in assessing severity of COVID 19 pneumonia. However, semantic interpretation of chest radiography (CXR) findings does not include quantitative description of radiographic opacities. Most current AI assisted CXR image analysis framework do not quantify for regional variations of disease. To address these, we proposed a four region lung segmentation method to assist accurate quantification of COVID 19 pneumonia. Methods. A segmentation model to separate left and right lung is firstly applied, and then a carina and left hilum detection network is used, which are the clinical landmarks to separate the upper and lower lungs. To improve the segmentation performance of COVID 19 images, ensemble strategy incorporating five models is exploited. Using each region, we evaluated the clinical relevance of the proposed method with the Radiographic Assessment of the Quality of Lung Edema (RALE). Results. The proposed ensemble strategy showed dice score of 0.900, which is significantly higher than conventional methods (0.854 0.889). Mean intensities of segmented four regions indicate positive correlation to the extent and density scores of pulmonary opacities under the RALE framework. Conclusion. A deep learning based model in CXR can accurately segment and quantify regional distribution of pulmonary opacities in patients with COVID 19 pneumonia.
翻訳日:2022-10-14 08:45:38 公開日:2020-09-26
# MicroAnalyzer:蛍光顕微鏡を用いた自動細菌解析のためのPythonツール

MicroAnalyzer: A Python Tool for Automated Bacterial Analysis with Fluorescence Microscopy ( http://arxiv.org/abs/2009.12684v1 )

ライセンス: Link先を確認
Jonathan Reiner, Guy Azran, Gal Hyams(参考訳) 蛍光顕微鏡は、蛍光タンパク質の局在と共局在を研究するために、細胞生物学者の間で広く用いられている方法である。 微生物細胞生物学者にとって、これらの研究には、細菌や蛍光クラスターの退屈で時間を要する手作業のセグメンテーションや、複数のプログラムを扱うことが含まれる。 ここでは、顕微鏡画像解析のためのエンドツーエンドプラットフォームを提供することにより、これらのタスクを自動化するMicroAnalyzerを紹介する。 このようなツールは存在するが、コストがかかるブラックボックスプログラムである。 microanalyzerはこれらのツールのオープンソース代替を提供し、高度なユーザによる柔軟性と拡張性を実現している。 MicroAnalyzerは、最先端のディープラーニングセグメンテーションモデルとアドホックな後処理とColicoordsを組み合わせた、正確なセルと蛍光クラスターのセグメンテーションを提供する。 これらの手法を用いることで、ニューラルネットワークのダイナミックな性質によって、制約や仮定の実験に素早く適応できるため、汎用的なアプローチよりもパフォーマンスが向上する。 他の既存のツールは実験の前提を考慮せず、特別な機器を必要とせずに蛍光クラスタの検出も行わない。 MicroAnalyzerの主な目標は、「顕微鏡からデータベースまで」細胞と蛍光画像解析の全プロセスを自動化することである。 この方法では、研究者たちは、粒度の大きい眼球運動ではなく、大きな画像に集中できる。

Fluorescence microscopy is a widely used method among cell biologists for studying the localization and co-localization of fluorescent protein. For microbial cell biologists, these studies often include tedious and time-consuming manual segmentation of bacteria and of the fluorescence clusters or working with multiple programs. Here, we present MicroAnalyzer - a tool that automates these tasks by providing an end-to-end platform for microscope image analysis. While such tools do exist, they are costly, black-boxed programs. Microanalyzer offers an open-source alternative to these tools, allowing flexibility and expandability by advanced users. MicroAnalyzer provides accurate cell and fluorescence cluster segmentation based on state-of-the-art deep-learning segmentation models, combined with ad-hoc post-processing and Colicoords - an open-source cell image analysis tool for calculating general cell and fluorescence measurements. Using these methods, it performs better than generic approaches since the dynamic nature of neural networks allows for a quick adaptation to experiment restrictions and assumptions. Other existing tools do not consider experiment assumptions, nor do they provide fluorescence cluster detection without the need for any specialized equipment. The key goal of MicroAnalyzer is to automate the entire process of cell and fluorescence image analysis "from microscope to database", meaning it does not require any further input from the researcher except for the initial deep-learning model training. In this fashion, it allows the researchers to concentrate on the bigger picture instead of granular, eye-straining labor
翻訳日:2022-10-14 08:45:15 公開日:2020-09-26
# ARPA:アルメニア語のパラフレーズ検出コーパスとモデル

ARPA: Armenian Paraphrase Detection Corpus and Models ( http://arxiv.org/abs/2009.12615v1 )

ライセンス: Link先を確認
Arthur Malajyan, Karen Avetisyan, Tsolak Ghukasyan(参考訳) 本研究では,アルメニア語のセンセーショナル・パラフレーズコーパスを生成するために,逆翻訳に基づく半自動手法を用いる。 最初の文のコレクションはアルメニア語から英語に翻訳され、2回翻訳され、語彙的には遠いが意味的に類似した文のペアとなる。 生成されたパラフレーズは手動でレビューされ、注釈付けされる。 メソッドトレインとテストデータセットを使用して、合計2360のパラフレーズを含む。 さらに、データセットはアルメニア語のパラフレーズを検出するためにBERTベースのモデルをトレーニングし、評価するために使用され、他の言語の最先端に匹敵する結果が得られる。

In this work, we employ a semi-automatic method based on back translation to generate a sentential paraphrase corpus for the Armenian language. The initial collection of sentences is translated from Armenian to English and back twice, resulting in pairs of lexically distant but semantically similar sentences. The generated paraphrases are then manually reviewed and annotated. Using the method train and test datasets are created, containing 2360 paraphrases in total. In addition, the datasets are used to train and evaluate BERTbased models for detecting paraphrase in Armenian, achieving results comparable to the state-of-the-art of other languages.
翻訳日:2022-10-14 08:43:34 公開日:2020-09-26
# ニューラルプルーフネット

Neural Proof Nets ( http://arxiv.org/abs/2009.12702v1 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Michael Moortgat, Richard Moot(参考訳) 線形論理と線形 {\lambda}-計算は自然言語形式と意味の研究において長い伝統を持っている。 線形論理の証明計算の中で、証明ネットは特に興味深く、従来の証明論的形式の官僚的複雑さによって妨げられない導出の魅力的な幾何学的表現を提供する。 セット理論学習の最近の進歩に基づき、シンクホーンネットワークに基づく証明ネットのニューラルバリアントを提案し、構文的プリミティブを抽出し、それらをアライメントする問題として解析を翻訳する。 本手法は,形式的かつ高効率なニューロシンボリック解析器を実現するバッチ効率でエンドツーエンドの微分可能アーキテクチャを誘導する。 そこで我々は,オランダ語における型論理的導出のデータセットである {\AE}Thel を用いて,原文を線形な {\lambda}-計算の証明と用語に精度70%の精度で正しく転写する手法を検証した。

Linear logic and the linear {\lambda}-calculus have a long standing tradition in the study of natural language form and meaning. Among the proof calculi of linear logic, proof nets are of particular interest, offering an attractive geometric representation of derivations that is unburdened by the bureaucratic complications of conventional prooftheoretic formats. Building on recent advances in set-theoretic learning, we propose a neural variant of proof nets based on Sinkhorn networks, which allows us to translate parsing as the problem of extracting syntactic primitives and permuting them into alignment. Our methodology induces a batch-efficient, end-to-end differentiable architecture that actualizes a formally grounded yet highly efficient neuro-symbolic parser. We test our approach on {\AE}Thel, a dataset of type-logical derivations for written Dutch, where it manages to correctly transcribe raw text sentences into proofs and terms of the linear {\lambda}-calculus with an accuracy of as high as 70%.
翻訳日:2022-10-14 08:37:30 公開日:2020-09-26
# 微分進化のためのパラメータ適応法における適応パラメータランドスケープの解析

Analyzing Adaptive Parameter Landscapes in Parameter Adaptation Methods for Differential Evolution ( http://arxiv.org/abs/2009.12531v1 )

ライセンス: Link先を確認
Ryoji Tanabe(参考訳) スケール係数とクロスオーバー率が微分進化(DE)の性能に大きく影響しているため,2つのパラメータに対するパラメータ適応法(PAM)はDコミュニティでよく研究されている。 PAMはDEの有効性を十分に改善できるが、PAMは理解が不十分である(例えば、PAMの動作原理)。 PAMを理解することの難しさの1つは、スケール係数とクロスオーバー率からなるパラメータ空間の不明瞭さである。 本稿では,DEMにおける適応パラメータランドスケープを解析し,この問題に対処する。 まず,パラメータ適応プロセスにおいてモーメントをキャプチャする適応パラメータランドスケープの概念を提案する。 反復ごとに、個体群の各個体は適応パラメータのランドスケープを持つ。 第2に,適応パラメータのランドスケープを1ステップのグレディ改善指標を用いて解析する手法を提案する。 第3に,提案手法を用いて適応パラメータのランドスケープについて検討する。 結果は、DEMにおけるPAMに関する洞察に富んだ情報を提供する。

Since the scale factor and the crossover rate significantly influence the performance of differential evolution (DE), parameter adaptation methods (PAMs) for the two parameters have been well studied in the DE community. Although PAMs can sufficiently improve the effectiveness of DE, PAMs are poorly understood (e.g., the working principle of PAMs). One of the difficulties in understanding PAMs comes from the unclarity of the parameter space that consists of the scale factor and the crossover rate. This paper addresses this issue by analyzing adaptive parameter landscapes in PAMs for DE. First, we propose a concept of an adaptive parameter landscape, which captures a moment in a parameter adaptation process. For each iteration, each individual in the population has its adaptive parameter landscape. Second, we propose a method of analyzing adaptive parameter landscapes using a 1-step-lookahead greedy improvement metric. Third, we examine adaptive parameter landscapes in PAMs by using the proposed method. Results provide insightful information about PAMs in DE.
翻訳日:2022-10-14 08:37:11 公開日:2020-09-26
# マルチペソナ・コラボレーティブ・フィルタリングによる説明可能な勧告

Explainable Recommendations via Attentive Multi-Persona Collaborative Filtering ( http://arxiv.org/abs/2010.07042v1 )

ライセンス: Link先を確認
Oren Barkan, Yonatan Fuchs, Avi Caciularu, Noam Koenigstein(参考訳) 推薦システムの主な課題は、ユーザを異質な味でモデル化し、説明可能なレコメンデーションを提供することである。 本稿では,両問題の統一解として,ニューラル・アテンテーティブ・マルチパーソナ協調フィルタリング(AMP-CF)モデルを提案する。 amp-cfはユーザを、ユーザの異なる好みやインライン化を識別し識別する、潜在的な'ペルソナ'(プロファイル)に分類する。 そして、開示されたペルソナを使用して、ユーザの最終推薦リストを生成し、説明する。 AMP-CFはユーザをペルソナの注意深い混合としてモデル化し、検討中の項目に基づいて変化する動的なユーザ表現を可能にする。 AMP-CFを映画、音楽、ビデオゲーム、ソーシャルネットワークの領域から5つの協調フィルタリングデータセット上で実証する。 追加の貢献として,利用者の履歴項目における「味」の分布からの距離に基づいて推薦リストの異なる項目を比較する新しい評価手法を提案する。 実験の結果,AMP-CFは他の最先端モデルと競合することが示された。 最後に、AMP-CFの推奨機能を説明するための定性的な結果を提供する。

Two main challenges in recommender systems are modeling users with heterogeneous taste, and providing explainable recommendations. In this paper, we propose the neural Attentive Multi-Persona Collaborative Filtering (AMP-CF) model as a unified solution for both problems. AMP-CF breaks down the user to several latent 'personas' (profiles) that identify and discern the different tastes and inclinations of the user. Then, the revealed personas are used to generate and explain the final recommendation list for the user. AMP-CF models users as an attentive mixture of personas, enabling a dynamic user representation that changes based on the item under consideration. We demonstrate AMP-CF on five collaborative filtering datasets from the domains of movies, music, video games and social networks. As an additional contribution, we propose a novel evaluation scheme for comparing the different items in a recommendation list based on the distance from the underlying distribution of "tastes" in the user's historical items. Experimental results show that AMP-CF is competitive with other state-of-the-art models. Finally, we provide qualitative results to showcase the ability of AMP-CF to explain its recommendations.
翻訳日:2022-10-14 08:36:56 公開日:2020-09-26
# 繰り返しデノイザにより正規化されるfMRI多重欠測値

fMRI Multiple Missing Values Imputation Regularized by a Recurrent Denoiser ( http://arxiv.org/abs/2009.12602v1 )

ライセンス: Link先を確認
David Calhas and Rui Henriques(参考訳) 機能的磁気共鳴イメージング(Feature Magnetic Resonance Imaging、fMRI)は、その科学的および臨床的応用により重要な神経イメージング技術である。 広く使われている画像モダリティと同様に、その品質を保証する必要があるが、人工物や準最適画像解像度の存在により、高い頻度で値が失われている。 本研究は,多変量信号データに対する欠落値の影響に着目した。 そのために,空間依存信号のインプテーションと時間依存信号の正規化という2つの主要なステップからなる新しいインプテーション法を提案する。 ディープラーニングアーキテクチャで使用される新しい層が提案され、複数のインプテーションのための連鎖方程式の概念を復活させた。 最後に、シグナルをチューニングするためにリカレント層が適用され、それが真のパターンをキャプチャする。 どちらの操作も最先端の代替品に対して堅牢性が向上する。

Functional Magnetic Resonance Imaging (fMRI) is a neuroimaging technique with pivotal importance due to its scientific and clinical applications. As with any widely used imaging modality, there is a need to ensure the quality of the same, with missing values being highly frequent due to the presence of artifacts or sub-optimal imaging resolutions. Our work focus on missing values imputation on multivariate signal data. To do so, a new imputation method is proposed consisting on two major steps: spatial-dependent signal imputation and time-dependent regularization of the imputed signal. A novel layer, to be used in deep learning architectures, is proposed in this work, bringing back the concept of chained equations for multiple imputation. Finally, a recurrent layer is applied to tune the signal, such that it captures its true patterns. Both operations yield an improved robustness against state-of-the-art alternatives.
翻訳日:2022-10-14 08:35:59 公開日:2020-09-26
# 障害適応制御のための補完的メタ強化学習

Complementary Meta-Reinforcement Learning for Fault-Adaptive Control ( http://arxiv.org/abs/2009.12634v1 )

ライセンス: Link先を確認
Ibrahim Ahmed, Marcos Quinones-Grueiro, Gautam Biswas(参考訳) 障害はすべてのシステムに固有です。 適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。 突然の故障と厳格な時間制約を持つシステムでは、制御がシステム変更に迅速に適応し、システム操作を維持することが不可欠である。 本稿では,制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。 このアプローチはモデルに依存しないメタラーニング(MAML)に基づいている。 コントローラは、システム障害下で学んだ以前のポリシーを補完する。 この"ライブラリ"は、新しいポリシーを初期化する新しい障害の後、システム上で評価される。 これはMAMLとは対照的に、コントローラが類似したシステムの分布からサンプリングした中間ポリシーを新たに導出し、新しいポリシーを初期化する。 本手法は強化学習プロセスのサンプル効率を向上させる。 急激な断層下での航空機の燃料輸送システムに対するアプローチを評価する。

Faults are endemic to all systems. Adaptive fault-tolerant control maintains degraded performance when faults occur as opposed to unsafe conditions or catastrophic events. In systems with abrupt faults and strict time constraints, it is imperative for control to adapt quickly to system changes to maintain system operations. We present a meta-reinforcement learning approach that quickly adapts its control policy to changing conditions. The approach builds upon model-agnostic meta learning (MAML). The controller maintains a complement of prior policies learned under system faults. This "library" is evaluated on a system after a new fault to initialize the new policy. This contrasts with MAML, where the controller derives intermediate policies anew, sampled from a distribution of similar systems, to initialize a new policy. Our approach improves sample efficiency of the reinforcement learning process. We evaluate our approach on an aircraft fuel transfer system under abrupt faults.
翻訳日:2022-10-14 08:35:46 公開日:2020-09-26
# 適応的非可逆確率勾配ランゲヴィンダイナミクス

Adaptive Non-reversible Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2009.12690v1 )

ライセンス: Link先を確認
Vikram Krishnamurthy and George Yin(参考訳) ランゲヴィン力学アルゴリズムの勾配に任意のスキュー対称行列を加えると、収束率が改善された非可逆拡散が生じることはよく知られている。 本稿では,スキュー対称行列の選択を適応的に最適化する勾配アルゴリズムを提案する。 得られたアルゴリズムは、スキュー対称行列に適応する確率勾配アルゴリズムと交差する非可逆拡散アルゴリズムを含む。 このアルゴリズムは古典的なランゲヴィンアルゴリズムと同じデータを使用する。 歪対称行列の選択の最適性に対して弱収束証明が与えられる。 アルゴリズムの収束率の向上はベイズ学習と追跡の例で数値的に説明される。

It is well known that adding any skew symmetric matrix to the gradient of Langevin dynamics algorithm results in a non-reversible diffusion with improved convergence rate. This paper presents a gradient algorithm to adaptively optimize the choice of the skew symmetric matrix. The resulting algorithm involves a non-reversible diffusion algorithm cross coupled with a stochastic gradient algorithm that adapts the skew symmetric matrix. The algorithm uses the same data as the classical Langevin algorithm. A weak convergence proof is given for the optimality of the choice of the skew symmetric matrix. The improved convergence rate of the algorithm is illustrated numerically in Bayesian learning and tracking examples.
翻訳日:2022-10-14 08:35:33 公開日:2020-09-26
# 分子特性予測のための不均一分子グラフニューラルネットワーク

Heterogeneous Molecular Graph Neural Networks for Predicting Molecule Properties ( http://arxiv.org/abs/2009.12710v1 )

ライセンス: Link先を確認
Zeren Shui, George Karypis(参考訳) 複雑な相互作用をモデル化する大きな可能性を秘めているため、グラフニューラルネットワーク(GNN)に基づく手法は分子の量子力学的性質を予測するために広く用いられている。 既存の方法の多くは分子を原子がノードとしてモデル化される分子グラフとして扱う。 分子内の他の原子との対的な相互作用をモデル化することで、それぞれの原子の化学環境を特徴づける。 これらの手法は大きな成功を収めるが、3つ以上の原子間の相互作用を考慮に入れた多体相互作用を、限られた量で明示的に行う。 本稿では,多体相互作用をモデル化するために,ノードとエッジが様々な種類の不均質分子グラフ(hmg)という新しい分子のグラフ表現を提案する。 HMGは複雑な幾何学的情報を運ぶ可能性がある。 化学予測問題にHMGに格納されている豊富な情報を活用するため,ニューラルネットワークを用いたヘテロジニアス分子グラフニューラルネットワーク(HMGNN)を構築した。 HMGNNは、グローバル分子表現と注意機構を予測プロセスに組み込んでいる。 HMGNNの予測は、原子座標の翻訳と回転、および原子指標の置換に不変である。 qm9データセットの12タスク中9タスクで最先端のパフォーマンスを実現する。

As they carry great potential for modeling complex interactions, graph neural network (GNN)-based methods have been widely used to predict quantum mechanical properties of molecules. Most of the existing methods treat molecules as molecular graphs in which atoms are modeled as nodes. They characterize each atom's chemical environment by modeling its pairwise interactions with other atoms in the molecule. Although these methods achieve a great success, limited amount of works explicitly take many-body interactions, i.e., interactions between three and more atoms, into consideration. In this paper, we introduce a novel graph representation of molecules, heterogeneous molecular graph (HMG) in which nodes and edges are of various types, to model many-body interactions. HMGs have the potential to carry complex geometric information. To leverage the rich information stored in HMGs for chemical prediction problems, we build heterogeneous molecular graph neural networks (HMGNN) on the basis of a neural message passing scheme. HMGNN incorporates global molecule representations and an attention mechanism into the prediction process. The predictions of HMGNN are invariant to translation and rotation of atom coordinates, and permutation of atom indices. Our model achieves state-of-the-art performance in 9 out of 12 tasks on the QM9 dataset.
翻訳日:2022-10-14 08:35:26 公開日:2020-09-26
# ECG分類のための表現学習におけるピースワイズマッチング層

Piece-wise Matching Layer in Representation Learning for ECG Classification ( http://arxiv.org/abs/2010.06510v1 )

ライセンス: Link先を確認
Behzad Ghazanfari, Fatemeh Afghah, Sixian Zhang(参考訳) 本稿では,心電図(ecg)分類のための表現学習法において,新しい層として断片的マッチング層を提案する。 時系列解析における表現学習手法の顕著な性能にもかかわらず、これらの手法には、複雑な手法の構造、解の一般化の欠如、専門知識の必要性、大規模トレーニングデータセットなど、いくつかの課題がある。 上記の課題のいくつかに対処するために,2つのレベルに基づいて動作する部分マッチング層を導入する。 第1段階では、各周期部分とその近傍に基づいて、形態的、統計的、周波数的特徴とそれらの比較形態を演算する。 第2のレベルでは、これらの機能は受容的フィールドシナリオに基づいた事前定義された変換関数によって変更される。 オフライン処理、インクリメンタル処理、固定スライディング受容場、イベントベースのトリガー受容場といったいくつかのシナリオは、受信フィールドの長さとメカニズムの選択に基づいて実装することができる。 本稿では,イベントトリガ戦術に基づく受容場を示すメカニズムとして動的時間ラッピングを提案する。 時系列解析における本手法の性能を評価するため,入力データがECG信号である2015年と2017年の2つのPhyloNetコンペティションの公開データセットに提案手法を適用した。 提案手法の性能を,専門家の知識,機械学習,深層学習,それらの組み合わせから,様々なチューニング手法と比較した。 提案手法は、2015年と2017年の2つの既知の完成度において、クラスや不整脈の可能性のある場所について事前知識に頼らずに、4%と7%程度の改善を行う。

This paper proposes piece-wise matching layer as a novel layer in representation learning methods for electrocardiogram (ECG) classification. Despite the remarkable performance of representation learning methods in the analysis of time series, there are still several challenges associated with these methods ranging from the complex structures of methods, the lack of generality of solutions, the need for expert knowledge, and large-scale training datasets. We introduce the piece-wise matching layer that works based on two levels to address some of the aforementioned challenges. At the first level, a set of morphological, statistical, and frequency features and comparative forms of them are computed based on each periodic part and its neighbors. At the second level, these features are modified by predefined transformation functions based on a receptive field scenario. Several scenarios of offline processing, incremental processing, fixed sliding receptive field, and event-based triggering receptive field can be implemented based on the choice of length and mechanism of indicating the receptive field. We propose dynamic time wrapping as a mechanism that indicates a receptive field based on event triggering tactics. To evaluate the performance of this method in time series analysis, we applied the proposed layer in two publicly available datasets of PhysioNet competitions in 2015 and 2017 where the input data is ECG signal. We compared the performance of our method against a variety of known tuned methods from expert knowledge, machine learning, deep learning methods, and the combination of them. The proposed approach improves the state of the art in two known completions 2015 and 2017 around 4% and 7% correspondingly while it does not rely on in advance knowledge of the classes or the possible places of arrhythmia.
翻訳日:2022-10-14 08:35:05 公開日:2020-09-26
# 小さなデータと大きな決定:小さなデータレジームにおけるモデル選択

Small Data, Big Decisions: Model Selection in the Small-Data Regime ( http://arxiv.org/abs/2009.12583v1 )

ライセンス: Link先を確認
Jorg Bornschein, Francesco Visin, Simon Osindero(参考訳) 非常に過度にパラメータ化されたニューラルネットワークは、奇妙なほど強力な一般化性能を示すことができる。 本稿では,モデルサイズの関数としての性能を典型的に考慮した,ほとんどの先行研究とは対照的に,トレーニングセットのサイズが桁違いに変化するため,一般化性能を実証的に検討する。 これらの体系的な実験は興味深く、潜在的に非常に有用な観察をもたらし、おそらくはより小さなサブセットでのトレーニングはより信頼性の高いモデル選択決定を導き、同時により少ない計算コストを享受することができる。 さらに,最近のニューラルネットワークアーキテクチャにおいて,共通データセットの最小記述長の推定が可能となり,occams-razorを考慮したモデル選択の方法が確立された。

Highly overparametrized neural networks can display curiously strong generalization performance - a phenomenon that has recently garnered a wealth of theoretical and empirical research in order to better understand it. In contrast to most previous work, which typically considers the performance as a function of the model size, in this paper we empirically study the generalization performance as the size of the training set varies over multiple orders of magnitude. These systematic experiments lead to some interesting and potentially very useful observations; perhaps most notably that training on smaller subsets of the data can lead to more reliable model selection decisions whilst simultaneously enjoying smaller computational costs. Our experiments furthermore allow us to estimate Minimum Description Lengths for common datasets given modern neural network architectures, thereby paving the way for principled model selection taking into account Occams-razor.
翻訳日:2022-10-14 08:28:15 公開日:2020-09-26
# 局所符号化によるインダクティブグラフ埋め込み

Inductive Graph Embeddings through Locality Encodings ( http://arxiv.org/abs/2009.12585v1 )

ライセンス: Link先を確認
Nurudin Alvarez-Gonzalez, Andreas Kaltenbrunner, Vicen\c{c} G\'omez(参考訳) 大規模ネットワークからの埋め込みの学習は、オープンな課題である。 既存の方法が圧倒的に多いにもかかわらず、ノード、エッジ、グラフに簡単に一般化できる方法でネットワーク構造をどのように利用するかは不明だ。 本研究では,ドメイン依存のノード/エッジ属性を使わずに大規模ネットワークにインダクティブネットワークを埋め込む問題について考察する。 学習アルゴリズムの基盤として,事前定義された局所符号化のセットを提案する。 特に、比較的短い距離と多数のノードに対して効率的に計算できるノードから異なる距離における次数周波数を考える。 興味深いことに、結果として得られる埋め込みは、ニューラルネットワークで追加機能として使用される場合、教師なしの設定、言語モデル学習、教師なしタスクの両方において、ネットワーク内の未認識または遠方の領域をまたいでうまく一般化する。 その単純さにもかかわらず、この手法はロール検出、リンク予測、ノード分類といったタスクにおける最先端の性能を達成し、大規模な非分散ネットワークに直接適用可能なインダクティブネットワーク埋め込み手法である。

Learning embeddings from large-scale networks is an open challenge. Despite the overwhelming number of existing methods, is is unclear how to exploit network structure in a way that generalizes easily to unseen nodes, edges or graphs. In this work, we look at the problem of finding inductive network embeddings in large networks without domain-dependent node/edge attributes. We propose to use a set of basic predefined local encodings as the basis of a learning algorithm. In particular, we consider the degree frequencies at different distances from a node, which can be computed efficiently for relatively short distances and a large number of nodes. Interestingly, the resulting embeddings generalize well across unseen or distant regions in the network, both in unsupervised settings, when combined with language model learning, as well as in supervised tasks, when used as additional features in a neural network. Despite its simplicity, this method achieves state-of-the-art performance in tasks such as role detection, link prediction and node classification, and represents an inductive network embedding method directly applicable to large unattributed networks.
翻訳日:2022-10-14 08:28:02 公開日:2020-09-26
# ガウス混合モデルの教師なし学習のための適応EM加速器

An Adaptive EM Accelerator for Unsupervised Learning of Gaussian Mixture Models ( http://arxiv.org/abs/2009.12703v1 )

ライセンス: Link先を確認
Truong Nguyen, Guangye Chen, and Luis Chacon(参考訳) 多変量データから有限混合モデルを教師なし学習するための適応期待最大化(EM)アルゴリズムのためのAnderson Acceleration(AA)スキームを提案する(Figueiredo and Jain 2002)。 提案アルゴリズムは、最適混合成分数を自律的に決定することができ、非加速バージョンよりもはるかに高速に最適解に収束する。 AAベースのアルゴリズムの成功は、単一のブレークスルーではなく、いくつかの発展に起因しています。 まず、最近提案されている単調性制御アルゴリズム(henderson and varahdan 2019)により、新しい単調性テストにより、オーバヘッドをほとんど持たないように拡張されたラバース関数(標準emアルゴリズムの重要な特徴)の単調性を保証する。 本研究では, ガウス重みと共分散行列の正定性を厳密に保ち, 観測されたデータセットの第2モーメントを正確に保存するために, AA のニブル戦略を提案する。 最後に、ギャップ統計を用いたk-meansクラスタリングアルゴリズムを用いて、初期コンポーネント数を過大に見積もることを避け、パフォーマンスを最大化する。 本研究では,既知成分数のガウス分布と粒子-セルシミュレーションから生成されたデータセットを混合した合成データセットを用いて,アルゴリズムの精度と効率を示す。 数値計算の結果, 混合成分の正確な数を知る場合, 最大60倍の非加速EMに対して, 部品適応性を有する数桁から数桁の速度向上を示す。

We propose an Anderson Acceleration (AA) scheme for the adaptive Expectation-Maximization (EM) algorithm for unsupervised learning a finite mixture model from multivariate data (Figueiredo and Jain 2002). The proposed algorithm is able to determine the optimal number of mixture components autonomously, and converges to the optimal solution much faster than its non-accelerated version. The success of the AA-based algorithm stems from several developments rather than a single breakthrough (and without these, our tests demonstrate that AA fails catastrophically). To begin, we ensure the monotonicity of the likelihood function (a the key feature of the standard EM algorithm) with a recently proposed monotonicity-control algorithm (Henderson and Varahdan 2019), enhanced by a novel monotonicity test with little overhead. We propose nimble strategies for AA to preserve the positive definiteness of the Gaussian weights and covariance matrices strictly, and to conserve up to the second moments of the observed data set exactly. Finally, we employ a K-means clustering algorithm using the gap statistic to avoid excessively overestimating the initial number of components, thereby maximizing performance. We demonstrate the accuracy and efficiency of the algorithm with several synthetic data sets that are mixtures of Gaussians distributions of known number of components, as well as data sets generated from particle-in-cell simulations. Our numerical results demonstrate speed-ups with respect to non-accelerated EM of up to 60X when the exact number of mixture components is known, and between a few and more than an order of magnitude with component adaptivity.
翻訳日:2022-10-14 08:26:24 公開日:2020-09-26
# 分類網の(Grad)CAM解釈性と説明可能性向上のための軽量手法

A light-weight method to foster the (Grad)CAM interpretability and explainability of classification networks ( http://arxiv.org/abs/2009.12546v1 )

ライセンス: Link先を確認
Alfred Sch\"ottl(参考訳) 本稿では,局所化分類ネットワークの説明可能性を向上させるための軽量手法について考察する。 本手法は,訓練過程中の(グラッド)CAMマップをトレーニング損失の修正により考慮し,付加的な構造要素を必要としない。 複数の指標によって測定された(Grad)CAM解釈性は、この方法で改善できることが示されている。 メソッドは組み込みシステムや標準のより深いアーキテクチャに適用できるので、基本的にはトレーニング中に2階微分を活用でき、追加のモデル層を必要としない。

We consider a light-weight method which allows to improve the explainability of localized classification networks. The method considers (Grad)CAM maps during the training process by modification of the training loss and does not require additional structural elements. It is demonstrated that the (Grad)CAM interpretability, as measured by several indicators, can be improved in this way. Since the method shall be applicable on embedded systems and on standard deeper architectures, it essentially takes advantage of second order derivatives during the training and does not require additional model layers.
翻訳日:2022-10-14 08:25:56 公開日:2020-09-26
# 線形進化強化学習

Lineage Evolution Reinforcement Learning ( http://arxiv.org/abs/2010.14616v1 )

ライセンス: Link先を確認
Zeyu Zhang, Guisheng Yin(参考訳) 本稿では,一般的なエージェント集団学習システムを提案し,その基盤として系統進化強化学習アルゴリズムを提案する。 線形進化強化学習は、一般エージェント集団学習システムに対応する派生アルゴリズムの一種である。 我々は、DQNとその関連変異体におけるエージェントを、集団の基本的なエージェントとみなし、遺伝的アルゴリズムにおける選択、突然変異、クロスオーバーモジュールを強化学習アルゴリズムに追加する。 エージェント進化の過程では、自然遺伝行動の特徴を参照し、エージェントの潜在的なパフォーマンスを維持するために系統因子を追加し、エージェントの性能を評価する際の現在のパフォーマンスと系統価値を包括的に検討する。 元の強化学習アルゴリズムのパラメータを変更することなく、系統進化強化学習は異なる強化学習アルゴリズムを最適化することができる。 実験により,アタリ2600のゲームにおいて,系統進化の考え方が元の強化学習アルゴリズムの性能を向上させることが示された。

We propose a general agent population learning system, and on this basis, we propose lineage evolution reinforcement learning algorithm. Lineage evolution reinforcement learning is a kind of derivative algorithm which accords with the general agent population learning system. We take the agents in DQN and its related variants as the basic agents in the population, and add the selection, mutation and crossover modules in the genetic algorithm to the reinforcement learning algorithm. In the process of agent evolution, we refer to the characteristics of natural genetic behavior, add lineage factor to ensure the retention of potential performance of agent, and comprehensively consider the current performance and lineage value when evaluating the performance of agent. Without changing the parameters of the original reinforcement learning algorithm, lineage evolution reinforcement learning can optimize different reinforcement learning algorithms. Our experiments show that the idea of evolution with lineage improves the performance of original reinforcement learning algorithm in some games in Atari 2600.
翻訳日:2022-10-14 08:19:52 公開日:2020-09-26
# クラスタリングに基づく教師なし生成関係抽出

Clustering-based Unsupervised Generative Relation Extraction ( http://arxiv.org/abs/2009.12681v1 )

ライセンス: Link先を確認
Chenhan Yuan, Ryan Rossi, Andrew Katz, and Hoda Eldardiry(参考訳) 本稿では,教師なし関係抽出の問題に焦点をあてる。 既存の確率的生成モデルに基づく関係抽出法は、文の特徴を抽出し、これらの特徴を入力として生成モデルを訓練する。 このモデルは、同様の関係をクラスタするために使われる。 しかし、これらの方法はトレーニング中に同じエンティティペアを持つ文間の相関を考慮せず、モデルのパフォーマンスに悪影響を及ぼす可能性がある。 そこで本研究では,「エンコーダ-デコーダ」アーキテクチャを活用し,自己教師付き学習を行い,エンコーダが関係情報を抽出できるようにするクラスタリング型非教師付き生成関係抽出(cure)フレームワークを提案する。 入力と同じエンティティペアを持つ複数の文が与えられた場合、その1つの文の依存グラフ上のエンティティペア間の最短経路を予測して自己教師付き学習を行う。 その後、訓練されたエンコーダを用いて関係情報を抽出する。 そして、対応する関係情報に基づいて、同一の関係を共有するエンティティペアをクラスタリングする。 各クラスタは、各クラスタのエンティティペアに対応する最短経路のワードに基づいて、いくつかの単語でラベル付けされる。 これらのクラスタラベルは、これらの関係クラスタの意味も記述している。 提案するフレームワーク (cure) とベースライン法で抽出された三重項を基礎知識ベースと比較する。 実験の結果,ニューヨーク・タイムズ(NYT)と国連並列コーパス(UNPC)の標準データセットにおける最先端モデルよりも優れた性能を示した。

This paper focuses on the problem of unsupervised relation extraction. Existing probabilistic generative model-based relation extraction methods work by extracting sentence features and using these features as inputs to train a generative model. This model is then used to cluster similar relations. However, these methods do not consider correlations between sentences with the same entity pair during training, which can negatively impact model performance. To address this issue, we propose a Clustering-based Unsupervised generative Relation Extraction (CURE) framework that leverages an "Encoder-Decoder" architecture to perform self-supervised learning so the encoder can extract relation information. Given multiple sentences with the same entity pair as inputs, self-supervised learning is deployed by predicting the shortest path between entity pairs on the dependency graph of one of the sentences. After that, we extract the relation information using the well-trained encoder. Then, entity pairs that share the same relation are clustered based on their corresponding relation information. Each cluster is labeled with a few words based on the words in the shortest paths corresponding to the entity pairs in each cluster. These cluster labels also describe the meaning of these relation clusters. We compare the triplets extracted by our proposed framework (CURE) and baseline methods with a ground-truth Knowledge Base. Experimental results show that our model performs better than state-of-the-art models on both New York Times (NYT) and United Nations Parallel Corpus (UNPC) standard datasets.
翻訳日:2022-10-14 08:19:27 公開日:2020-09-26
# 強化学習に基づくN-aryクロスセンス関係抽出

Reinforcement Learning-based N-ary Cross-Sentence Relation Extraction ( http://arxiv.org/abs/2009.12683v1 )

ライセンス: Link先を確認
Chenhan Yuan, Ryan Rossi, Andrew Katz, and Hoda Eldardiry(参考訳) n-項間の関係抽出のモデルでは、n 個の実体に言及する連続した文がこれらの n 個の実体の関係を記述していると仮定している。 しかし、この仮定はノイズの多いラベル付きデータを導入し、モデルの性能を損なう。 一方、ある非包括文は一つの関係を記述しており、これらの文はこの仮定ではラベル付けできない。 本稿では,この強い仮定を,第2問題に対処するため,より弱い監督仮定により緩和し,第1問題に対処するための新しい文分布推定器モデルを提案する。 ノイズデータの影響を軽減するために正しくラベル付けされた文を選択する推定器は、二段階エージェント強化学習モデルである。 さらに,注意機構とPCNNを併用した新しいユニバーサルリレーションシップ抽出器を提案し,連続文や非連続文を含む任意のタスクに展開できるようにした。 実験により,提案手法は雑音データの影響を低減し,ベースラインモデルと比較して一般のn-aryクロス文関係抽出タスクにおいて優れた性能が得られることを示す。

The models of n-ary cross sentence relation extraction based on distant supervision assume that consecutive sentences mentioning n entities describe the relation of these n entities. However, on one hand, this assumption introduces noisy labeled data and harms the models' performance. On the other hand, some non-consecutive sentences also describe one relation and these sentences cannot be labeled under this assumption. In this paper, we relax this strong assumption by a weaker distant supervision assumption to address the second issue and propose a novel sentence distribution estimator model to address the first problem. This estimator selects correctly labeled sentences to alleviate the effect of noisy data is a two-level agent reinforcement learning model. In addition, a novel universal relation extractor with a hybrid approach of attention mechanism and PCNN is proposed such that it can be deployed in any tasks, including consecutive and nonconsecutive sentences. Experiments demonstrate that the proposed model can reduce the impact of noisy data and achieve better performance on general n-ary cross sentence relation extraction task compared to baseline models.
翻訳日:2022-10-14 08:18:51 公開日:2020-09-26
# 微分的にプライベートで公平なディープラーニング:ラグランジュ的双対アプローチ

Differentially Private and Fair Deep Learning: A Lagrangian Dual Approach ( http://arxiv.org/abs/2009.12562v1 )

ライセンス: Link先を確認
Cuong Tran, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) データ駆動意思決定における重要な関心事は、結果が性別、民族、年齢を含む一部の人口集団と差別しないモデルを構築することである。 学習タスクにおける非差別性を保証するためには、敏感な属性の知識が不可欠であるが、実際には、法的および倫理的要件のためにこれらの属性は利用できない可能性がある。 そこで本研究では,個人の機密情報のプライバシーを保護しつつ,非差別的予測を学習できるモデルについて検討する。 この方法は、微分プライバシーの概念とラグランジアン双対性を用いて、機密属性のプライバシーを保証しながら公平性制約を許容するニューラルネットワークを設計する。 本稿では, 精度, プライバシー, 公平性の間の緊張関係を解析し, 実験により, 予測タスクにおけるモデルの有効性を示す。

A critical concern in data-driven decision making is to build models whose outcomes do not discriminate against some demographic groups, including gender, ethnicity, or age. To ensure non-discrimination in learning tasks, knowledge of the sensitive attributes is essential, while, in practice, these attributes may not be available due to legal and ethical requirements. To address this challenge, this paper studies a model that protects the privacy of the individuals sensitive information while also allowing it to learn non-discriminatory predictors. The method relies on the notion of differential privacy and the use of Lagrangian duality to design neural networks that can accommodate fairness constraints while guaranteeing the privacy of sensitive attributes. The paper analyses the tension between accuracy, privacy, and fairness and the experimental evaluation illustrates the benefits of the proposed model on several prediction tasks.
翻訳日:2022-10-14 08:18:30 公開日:2020-09-26
# 値反復のグラフニューラル誘導

Graph neural induction of value iteration ( http://arxiv.org/abs/2009.12604v1 )

ライセンス: Link先を確認
Andreea Deac, Pierre-Luc Bacon, Jian Tang(参考訳) 多くの強化学習タスクは、環境の内部モデルに基づく明示的な計画の恩恵を受けることができる。 これまでこのような計画コンポーネントは、価値反復の計算グラフと部分的に一致するニューラルネットワークを通じて組み込まれてきた。 このようなネットワークは、これまでは制約のある環境(グリッドワールドなど)に集中し、計画手順を間接的にモデル化してきた。 我々はこれらの制約を緩和し、任意の環境モデルにまたがって値反復(VI)アルゴリズムを実行するグラフニューラルネットワーク(GNN)を提案し、VIの中間ステップを直接監督する。 結果は、gnnが価値イテレーションを正確にモデル化でき、様々な分散テストで好適なメトリクスとポリシーを回収できることを示している。 これは,強化学習システムにおいて,指導力の強いGNNエグゼクタが有効であることを示している。

Many reinforcement learning tasks can benefit from explicit planning based on an internal model of the environment. Previously, such planning components have been incorporated through a neural network that partially aligns with the computational graph of value iteration. Such network have so far been focused on restrictive environments (e.g. grid-worlds), and modelled the planning procedure only indirectly. We relax these constraints, proposing a graph neural network (GNN) that executes the value iteration (VI) algorithm, across arbitrary environment models, with direct supervision on the intermediate steps of VI. The results indicate that GNNs are able to model value iteration accurately, recovering favourable metrics and policies across a variety of out-of-distribution tests. This suggests that GNN executors with strong supervision are a viable component within deep reinforcement learning systems.
翻訳日:2022-10-14 08:18:15 公開日:2020-09-26
# ディープコンテキスト化単語埋め込みを用いたメタファー検出

Metaphor Detection using Deep Contextualized Word Embeddings ( http://arxiv.org/abs/2009.12565v1 )

ライセンス: Link先を確認
Shashwat Aggarwal, Ramesh Singh(参考訳) メタファは自然言語においてユビキタスであり、その検出は、言語理解や感情分析など、多くの自然言語処理タスクにおいて重要な役割を果たす。 既存のメタファ検出のアプローチのほとんどは、複雑で手作りで微調整された機能パイプラインに依存しており、適用性を大幅に制限している。 本研究では, 単語の深層埋め込み, 双方向LSTM, マルチヘッドアテンション機構から構成され, 自動メタファ検出の課題に対処するエンド・ツー・エンド方式を提案する。 本手法は, 既存の手法と異なり, フレーズのメタファー性を検出するために, 入力特徴として生のテキスト列のみを必要とする。 提案手法の性能を2つのベンチマークデータセット(trofi,moh-x)のベースラインと比較した。 実験評価の結果,本手法の有効性が確認された。

Metaphors are ubiquitous in natural language, and their detection plays an essential role in many natural language processing tasks, such as language understanding, sentiment analysis, etc. Most existing approaches for metaphor detection rely on complex, hand-crafted and fine-tuned feature pipelines, which greatly limit their applicability. In this work, we present an end-to-end method composed of deep contextualized word embeddings, bidirectional LSTMs and multi-head attention mechanism to address the task of automatic metaphor detection. Our method, unlike many other existing approaches, requires only the raw text sequences as input features to detect the metaphoricity of a phrase. We compare the performance of our method against the existing baselines on two benchmark datasets, TroFi, and MOH-X respectively. Experimental evaluations confirm the effectiveness of our approach.
翻訳日:2022-10-14 08:17:18 公開日:2020-09-26
# 手書きテキストのためのアラビア語方言自動識別システム:調査

Automatic Arabic Dialect Identification Systems for Written Texts: A Survey ( http://arxiv.org/abs/2009.12622v1 )

ライセンス: Link先を確認
Maha J. Althobaiti(参考訳) アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。 アラビア語の方言識別は、機械翻訳、多言語音声合成、言語間テキスト生成など、様々な自然言語処理アプリケーションにおける第一歩である。 そのため、過去10年間でアラビア方言の識別の問題に対処する関心が高まっている。 本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。 まず問題とその課題を定義します。 次に,アラビア語方言識別課題に関する多くの側面を批判的に論じた。 そこで我々は、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。 また,提案するシステムの訓練に使用する特徴表現の特徴と技法について詳述する。 さらに、文献で研究されているアラビア語方言の分類、アラビア語方言の識別を行う様々なレベルのテキスト処理(例えば、トークン、文、文書レベル)、および評価ベンチマークコーパスを含む利用可能な注釈付き資源について述べる。 調査の終わりには、オープンな課題と課題が議論される。

Arabic dialect identification is a specific task of natural language processing, aiming to automatically predict the Arabic dialect of a given text. Arabic dialect identification is the first step in various natural language processing applications such as machine translation, multilingual text-to-speech synthesis, and cross-language text generation. Therefore, in the last decade, interest has increased in addressing the problem of Arabic dialect identification. In this paper, we present a comprehensive survey of Arabic dialect identification research in written texts. We first define the problem and its challenges. Then, the survey extensively discusses in a critical manner many aspects related to Arabic dialect identification task. So, we review the traditional machine learning methods, deep learning architectures, and complex learning approaches to Arabic dialect identification. We also detail the features and techniques for feature representations used to train the proposed systems. Moreover, we illustrate the taxonomy of Arabic dialects studied in the literature, the various levels of text processing at which Arabic dialect identification are conducted (e.g., token, sentence, and document level), as well as the available annotated resources, including evaluation benchmark corpora. Open challenges and issues are discussed at the end of the survey.
翻訳日:2022-10-14 08:17:04 公開日:2020-09-26