このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200130となっている論文です。

PDF登録状況(公開日: 20200130)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッドチャネルを用いた歩行者検出

Hybrid Channel Based Pedestrian Detection ( http://arxiv.org/abs/1912.12431v2 )

ライセンス: Link先を確認
Fiseha B. Tesema, Hong Wu, Mingjian Chen, Junpeng Lin, William Zhu, Kaizhu Huang(参考訳) 歩行者検出は畳み込みニューラルネットワーク(CNN)の助けを借りて大幅に改善されている。 CNNは入力画像から高レベルな特徴を学習できるが、CNNの特徴チャネル(フィーチャーマップ)の空間解像度が不十分なため、特に小さなケースでは有害な情報を失う可能性がある。 本稿では,手作り機能とCNN機能を組み合わせたRPN+BFフレームワークを拡張した新しい歩行者検出フレームワークを提案する。 RoIプールは、手作りのチャンネル(HOG+LUV、CheckerBoards、RotatedFiltersなど)とCNNのチャンネルの両方から機能を抽出するために使用される。 ハンドクラフトドチャネルは常にcnnチャネルよりも高い空間解像度を持つため、より詳細な情報を保持するために、ハンドクラフトドチャネルにより大きな出力解像度を持つroiプールを適用する。 アブレーション実験により,VGG-16ネットから抽出したCNN特徴よりも手作り特徴が検出精度が向上し,その組み合わせによる性能向上が達成された。 オリジナルのアノテーションと改良されたアノテーションを用いたcaltech pedestrian datasetの実験結果は,提案手法の有効性を示している。 我々のフレームワークでより高度なRPNを使用する場合、我々のアプローチはさらに改善され、両方のベンチマークで競合する結果が得られる。

Pedestrian detection has achieved great improvements with the help of Convolutional Neural Networks (CNNs). CNN can learn high-level features from input images, but the insufficient spatial resolution of CNN feature channels (feature maps) may cause a loss of information, which is harmful especially to small instances. In this paper, we propose a new pedestrian detection framework, which extends the successful RPN+BF framework to combine handcrafted features and CNN features. RoI-pooling is used to extract features from both handcrafted channels (e.g. HOG+LUV, CheckerBoards or RotatedFilters) and CNN channels. Since handcrafted channels always have higher spatial resolution than CNN channels, we apply RoI-pooling with larger output resolution to handcrafted channels to keep more detailed information. Our ablation experiments show that the developed handcrafted features can reach better detection accuracy than the CNN features extracted from the VGG-16 net, and a performance gain can be achieved by combining them. Experimental results on Caltech pedestrian dataset with the original annotations and the improved annotations demonstrate the effectiveness of the proposed approach. When using a more advanced RPN in our framework, our approach can be further improved and get competitive results on both benchmarks.
翻訳日:2023-01-17 12:53:00 公開日:2020-01-30
# 相互学習:個人再識別における教師なしドメイン適応のための擬似ラベルリファクトリー

Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification ( http://arxiv.org/abs/2001.01526v2 )

ライセンス: Link先を確認
Yixiao Ge, Dapeng Chen, Hongsheng Li(参考訳) 人物再識別(re-ID)は、異なるカメラで同一人物の画像を特定することを目的としている。 しかし、異なるデータセット間のドメインの多様性は、あるデータセットでトレーニングされたre-IDモデルを別のデータセットに適応させる上で、明らかな課題となる。 対象ドメイン上のクラスタリングアルゴリズムによって生成された擬似ラベルを最適化することにより、学習した知識をソースドメインから転送する。 彼らは最先端の性能を達成したが、クラスタリングによる避けられないラベルノイズは無視された。 このようなノイズの多い擬似ラベルは、ターゲットドメイン上の特徴表現をさらに改善するモデルの能力を実質的に阻害する。 雑音のある擬似ラベルの効果を軽減するために,教師なしのフレームワークであるMutual Mean-Teaching (MMT)を提案し,オフラインで洗練された硬質な擬似ラベルとオンラインで改良した軟質な擬似ラベルを用いて,対象ドメインからより良い特徴を学習することを提案する。 さらに,分類損失と三重項損失を併用して,個人再IDモデルにおける最適性能を実現することが一般的である。 しかし、従来の三重項損失は軟質なラベルでは機能しない。 この問題を解決するために,ソフト擬似三重項ラベルを用いた学習を支援するソフトソフトソフトマックス三重項損失法を提案する。 提案したMMTフレームワークは,マーケット・ツー・デューク,デューク・ツー・マーケット,マーケット・ツー・MSMT,デューク・トゥ・MSMTのドメイン適応タスクにおいて,14.4%,18.2%,13.1%,16.4%の大幅な改善を実現している。 コードはhttps://github.com/yxgeee/mmtで入手できる。

Person re-identification (re-ID) aims at identifying the same persons' images across different cameras. However, domain diversities between different datasets pose an evident challenge for adapting the re-ID model trained on one dataset to another one. State-of-the-art unsupervised domain adaptation methods for person re-ID transferred the learned knowledge from the source domain by optimizing with pseudo labels created by clustering algorithms on the target domain. Although they achieved state-of-the-art performances, the inevitable label noise caused by the clustering procedure was ignored. Such noisy pseudo labels substantially hinders the model's capability on further improving feature representations on the target domain. In order to mitigate the effects of noisy pseudo labels, we propose to softly refine the pseudo labels in the target domain by proposing an unsupervised framework, Mutual Mean-Teaching (MMT), to learn better features from the target domain via off-line refined hard pseudo labels and on-line refined soft pseudo labels in an alternative training manner. In addition, the common practice is to adopt both the classification loss and the triplet loss jointly for achieving optimal performances in person re-ID models. However, conventional triplet loss cannot work with softly refined labels. To solve this problem, a novel soft softmax-triplet loss is proposed to support learning with soft pseudo triplet labels for achieving the optimal domain adaptation performance. The proposed MMT framework achieves considerable improvements of 14.4%, 18.2%, 13.1% and 16.4% mAP on Market-to-Duke, Duke-to-Market, Market-to-MSMT and Duke-to-MSMT unsupervised domain adaptation tasks. Code is available at https://github.com/yxgeee/MMT.
翻訳日:2023-01-14 02:37:37 公開日:2020-01-30
# 深部展開グラディエントDescenceにおける学習ステップサイズの理論的解釈

Theoretical Interpretation of Learned Step Size in Deep-Unfolded Gradient Descent ( http://arxiv.org/abs/2001.05142v2 )

ライセンス: Link先を確認
Satoshi Takabe, Tadashi Wadayama(参考訳) deep unfoldingは、反復アルゴリズムをトレーニング可能なパラメータを持つディープネットワークアーキテクチャに展開する、有望なディープラーニング技術である。 勾配降下アルゴリズムの場合、学習過程の結果として、従来の理論から直観的でも解釈可能でもない学習された非定常ステップサイズパラメータで収束速度の加速度を観測することが多い。 本稿では,Du-Unfolded gradient descent (DUGD) の学習ステップサイズを理論的に解釈する。 まず、DUGDのトレーニングプロセスは平均二乗誤差損失だけでなく、収束率に関連するスペクトル半径も減少させることを示した。 次に、スペクトル半径の上限を最小化することで、チェビシェフ多項式に基づくステップサイズの列であるチェビシェフステップを自然に導くことを示す。 数値実験により,chebyshevステップがdugdで学習したステップサイズパラメータを定性的に再現できることが確認された。 さらに,chebyshevステップは学習パラメータや運動量項を使わずに,一階法の収束率の下限を特定の限界で達成することを示す。

Deep unfolding is a promising deep-learning technique in which an iterative algorithm is unrolled to a deep network architecture with trainable parameters. In the case of gradient descent algorithms, as a result of the training process, one often observes the acceleration of the convergence speed with learned non-constant step size parameters whose behavior is not intuitive nor interpretable from conventional theory. In this paper, we provide a theoretical interpretation of the learned step size of deep-unfolded gradient descent (DUGD). We first prove that the training process of DUGD reduces not only the mean squared error loss but also the spectral radius related to the convergence rate. Next, we show that minimizing the upper bound of the spectral radius naturally leads to the Chebyshev step which is a sequence of the step size based on Chebyshev polynomials. The numerical experiments confirm that the Chebyshev steps qualitatively reproduce the learned step size parameters in DUGD, which provides a plausible interpretation of the learned parameters. Additionally, we show that the Chebyshev steps achieve the lower bound of the convergence rate for the first-order method in a specific limit without learning parameters or momentum terms.
翻訳日:2023-01-11 06:04:54 公開日:2020-01-30
# P$^2$-GAN:シングルスタイル画像を用いた効率的なスタイル転送

P$^2$-GAN: Efficient Style Transfer Using Single Style Image ( http://arxiv.org/abs/2001.07466v2 )

ライセンス: Link先を確認
Zhentan Zheng, Jianyi Liu(参考訳) スタイル転送は、コンテンツ情報を保持しながら、所定の画像を別の芸術的スタイルに再レンダリングできる有用な画像合成技術である。 generative adversarial network (gan) は、従来のグラム行列ベースの手法よりもローカルスタイルパターンの表現能力を向上させるため、このタスクに広く採用されているフレームワークである。 しかし、以前のほとんどの方法は、モデルのトレーニングに十分な量の事前収集されたスタイルイメージに依存している。 本稿では,単一スタイルの画像からストロークスタイルを効率的に学習できる新しいPatch Permutation GAN(P$^2$-GAN)ネットワークを提案する。 パッチ置換を用いて、所定のスタイル画像から複数のトレーニングサンプルを生成する。 パッチワイズ画像と自然画像を同時にシームレスに処理できるパッチ判別器を設計する。 また,スタイル伝達品質を定量的に評価するための局所テクスチャ記述子に基づく基準を提案する。 実験結果から,本手法は多くの最先端手法と比較して,計算効率が向上し,単一画像からより高品質な再レンダリングを生成できることがわかった。

Style transfer is a useful image synthesis technique that can re-render given image into another artistic style while preserving its content information. Generative Adversarial Network (GAN) is a widely adopted framework toward this task for its better representation ability on local style patterns than the traditional Gram-matrix based methods. However, most previous methods rely on sufficient amount of pre-collected style images to train the model. In this paper, a novel Patch Permutation GAN (P$^2$-GAN) network that can efficiently learn the stroke style from a single style image is proposed. We use patch permutation to generate multiple training samples from the given style image. A patch discriminator that can simultaneously process patch-wise images and natural images seamlessly is designed. We also propose a local texture descriptor based criterion to quantitatively evaluate the style transfer quality. Experimental results showed that our method can produce finer quality re-renderings from single style image with improved computational efficiency compared with many state-of-the-arts methods.
翻訳日:2023-01-08 00:30:23 公開日:2020-01-30
# アクティビティ認識のための加速度計はデッドエンドか?

Are Accelerometers for Activity Recognition a Dead-end? ( http://arxiv.org/abs/2001.08111v2 )

ライセンス: Link先を確認
Catherine Tong, Shyam A. Tailor, Nicholas D. Lane(参考訳) 加速度計ベースの(そして他の慣性センサーによる)人間活動認識の研究(har)は行き詰まりだ。 このセンサは、センサーデータから日々のアクティビティを認識するために、HARのコアドメインを前進させる十分な情報を提供していません。 機能工学と機械学習モデルの改善に長く取り組んできたにもかかわらず、確実に認識できる活動はわずかに拡大し、初期のモデルと同じ欠陥の多くが現在も残っている。 加速度データに頼る代わりに、よりリッチな情報を持つモダリティを考えるべきです。 画像センシングハードウェアとモデリング技術の急速な進歩により、画像センサが広く普及すれば、さまざまな人間の活動にまたがって、正確で堅牢な推論の機会が生まれると信じています。 本稿では,人間の行動認識のデフォルトセンサとして加速度計の代わりに撮像器を用いる。 過去の研究を振り返ると,加速度計への依存が原因で,HARの進歩は停滞していた。 さらに,情報量の豊富さとコンピュータビジョンの著しい進歩を図示することで,活動認識のための画像の適合性についても論じる。 実現可能性分析により、デバイスにイメージとCNNをデプロイすることは、現代のモバイルハードウェアに重大な負担を与えないことがわかった。 全体として、私たちの研究は加速度計から離れる必要性を強調し、アクティビティ認識に画像認識を使用するさらなる調査を呼びかけています。

Accelerometer-based (and by extension other inertial sensors) research for Human Activity Recognition (HAR) is a dead-end. This sensor does not offer enough information for us to progress in the core domain of HAR - to recognize everyday activities from sensor data. Despite continued and prolonged efforts in improving feature engineering and machine learning models, the activities that we can recognize reliably have only expanded slightly and many of the same flaws of early models are still present today. Instead of relying on acceleration data, we should instead consider modalities with much richer information - a logical choice are images. With the rapid advance in image sensing hardware and modelling techniques, we believe that a widespread adoption of image sensors will open many opportunities for accurate and robust inference across a wide spectrum of human activities. In this paper, we make the case for imagers in place of accelerometers as the default sensor for human activity recognition. Our review of past works has led to the observation that progress in HAR had stalled, caused by our reliance on accelerometers. We further argue for the suitability of images for activity recognition by illustrating their richness of information and the marked progress in computer vision. Through a feasibility analysis, we find that deploying imagers and CNNs on device poses no substantial burden on modern mobile hardware. Overall, our work highlights the need to move away from accelerometers and calls for further exploration of using imagers for activity recognition.
翻訳日:2023-01-07 18:50:10 公開日:2020-01-30
# 梗塞心筋第2高調波画像からの線維性コラーゲンの評価のためのワンショット学習フレームワーク

A One-Shot Learning Framework for Assessment of Fibrillar Collagen from Second Harmonic Generation Images of an Infarcted Myocardium ( http://arxiv.org/abs/2001.08395v2 )

ライセンス: Link先を確認
Qun Liu, Supratik Mukhopadhyay, Maria Ximena Bastidas Rodriguez, Xing Fu, Sushant Sahu, David Burk, Manas Gartia(参考訳) 心筋梗塞 (mi) は、心臓発作を指す科学用語である。 本研究は,脳梗塞マウス心における2光子励起細胞自己蛍光とともに,高度に非対称な組立を示すコラーゲン繊維から高関連性第2高調波発生(SHG)を推定し,特にMI後早期の線維症を定量的に調査した。 我々は,高空間分解能のコラーゲンの2次元組立を,スペクトル特異性と感度で心組織構造を決定できる頑健なワンショット機械学習アルゴリズムを提案する。 早期の線維化度の検出、評価、正確な定量化は、さらなる進行を阻止し、患者の生存に必要な心臓移植の必要性を決定する治療薬の開発を促す。

Myocardial infarction (MI) is a scientific term that refers to heart attack. In this study, we infer highly relevant second harmonic generation (SHG) cues from collagen fibers exhibiting highly non-centrosymmetric assembly together with two-photon excited cellular autofluorescence in infarcted mouse heart to quantitatively probe fibrosis, especially targeted at an early stage after MI. We present a robust one-shot machine learning algorithm that enables determination of 2D assembly of collagen with high spatial resolution along with its structural arrangement in heart tissues post-MI with spectral specificity and sensitivity. Detection, evaluation, and precise quantification of fibrosis extent at early stage would guide one to develop treatment therapies that may prevent further progression and determine heart transplant needs for patient survival.
翻訳日:2023-01-07 12:56:58 公開日:2020-01-30
# ベクトル量子化潜在空間における表現学習による半教師あり把持検出

Semi-supervised Grasp Detection by Representation Learning in a Vector Quantized Latent Space ( http://arxiv.org/abs/2001.08477v3 )

ライセンス: Link先を確認
Mridul Mahajan, Tryambak Bhattacharjee, Arya Krishnan, Priya Shukla and G C Nandi(参考訳) ロボットが複雑な操作を行うためには,優れた把握能力を持つことが必要である。 しかし、視覚に基づくロボット把持検出は、十分なラベル付きデータの有効性によって妨げられている。 さらに,半教師付き学習手法による検出の把握は未検討である。 本稿では,ベクトル量子化変分オートエンコーダ(vq-vae)を用いて離散潜在空間をモデル化する,半教師あり学習に基づく把握検出手法を提案する。 我々の知る限りでは、変分オートエンコーダ(VAE)がロボットグリップ検出の分野に応用されたのはこれが初めてである。 VAEは、ラベル付きデータに制限があるにもかかわらず、コーネルグレーピングデータセット(CGD)を超えてモデルを一般化するのに役立つ。 この主張は、CGDでは利用できない画像上でモデルをテストすることで検証されている。 これに伴い、ベクトル量子化された潜在空間での回帰に役立つという直感をもって、VQ-VAEモデルで使用されるデコーダ構造を用いて、ジェネレーティブグラフピング畳み込みニューラルネットワーク(GGCNN)アーキテクチャを拡張した。 その後、このモデルは、ラベルのない画像を使用しない既存のアプローチよりも大幅にパフォーマンスが向上し、把握性が向上する。

For a robot to perform complex manipulation tasks, it is necessary for it to have a good grasping ability. However, vision based robotic grasp detection is hindered by the unavailability of sufficient labelled data. Furthermore, the application of semi-supervised learning techniques to grasp detection is under-explored. In this paper, a semi-supervised learning based grasp detection approach has been presented, which models a discrete latent space using a Vector Quantized Variational AutoEncoder (VQ-VAE). To the best of our knowledge, this is the first time a Variational AutoEncoder (VAE) has been applied in the domain of robotic grasp detection. The VAE helps the model in generalizing beyond the Cornell Grasping Dataset (CGD) despite having a limited amount of labelled data by also utilizing the unlabelled data. This claim has been validated by testing the model on images, which are not available in the CGD. Along with this, we augment the Generative Grasping Convolutional Neural Network (GGCNN) architecture with the decoder structure used in the VQ-VAE model with the intuition that it should help to regress in the vector-quantized latent space. Subsequently, the model performs significantly better than the existing approaches which do not make use of unlabelled images to improve the grasp.
翻訳日:2023-01-07 12:47:34 公開日:2020-01-30
# 高次グリオーマの正確な診断のための医用画像融合と翻訳の可視化

Visualisation of Medical Image Fusion and Translation for Accurate Diagnosis of High Grade Gliomas ( http://arxiv.org/abs/2001.09535v3 )

ライセンス: Link先を確認
Nishant Kumar, Nico Hoffmann, Matthias Kirsch and Stefan Gumhold(参考訳) 医用画像融合は2つ以上のモダリティを1つのビューに組み合わせ、医用画像翻訳は新しい画像を合成し、データ拡張を支援する。 これらの手法は,高悪性グリオーマの早期診断に有用である。 しかし、神経外科医は、術前の外科的決定を行う前に、融合と翻訳結果の信頼性を検証する堅牢な可視化ツールを要求するため、信頼できないかもしれない。 本稿では,2つの画像の同時確率分布を用いて,ソースからターゲット画像への情報伝達を推定することにより,ソースとターゲット画像対間の信頼度ヒートマップを計算する新しい手法を提案する。 可視化手法を用いていくつかの融合翻訳法を評価し,神経外科医がより詳細な臨床診断を行えるようにした。

The medical image fusion combines two or more modalities into a single view while medical image translation synthesizes new images and assists in data augmentation. Together, these methods help in faster diagnosis of high grade malignant gliomas. However, they might be untrustworthy due to which neurosurgeons demand a robust visualisation tool to verify the reliability of the fusion and translation results before they make pre-operative surgical decisions. In this paper, we propose a novel approach to compute a confidence heat map between the source-target image pair by estimating the information transfer from the source to the target image using the joint probability distribution of the two images. We evaluate several fusion and translation methods using our visualisation procedure and showcase its robustness in enabling neurosurgeons to make finer clinical decisions.
翻訳日:2023-01-06 19:34:55 公開日:2020-01-30
# 位置重要度を考慮した深さに基づく意味的シーン補完

Depth Based Semantic Scene Completion with Position Importance Aware Loss ( http://arxiv.org/abs/2001.10709v2 )

ライセンス: Link先を確認
Yu Liu, Jie Li, Xia Yuan, Chunxia Zhao, Roland Siegwart, Ian Reid, Cesar Cadena(参考訳) 意味シーン完成(ssc)とは、シーンの3d意味セグメンテーションを推論し、同時に3d形状を完了させるタスクを指す。 単一深度に基づくSSCのための新しいハイブリッドネットワークであるPALNetを提案する。 PALNetは2ストリームネットワークを用いて、詳細な深度情報を用いて2次元特徴と3次元特徴の両方を多段階から抽出し、シーンの幾何学的手がかりを効率的に捉える。 SSCの現在の方法では、シーンのすべての部分が同様にオブジェクトの内部に不必要に注意を向けている。 この問題に対処するために,ネットワークをトレーニング中に位置認識する位置認識損失(PA-Loss)を提案する。 特にPA-ロスは、シーン内の異なる位置の重要性を決定するために局所幾何学的異方性を考える。 オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。 2つのベンチマークデータセットの総合実験により,提案手法の有効性と優れた性能を示す。 モデルとビデオのデモは、https://github.com/UniLauX/PALNet.comで見ることができる。

Semantic Scene Completion (SSC) refers to the task of inferring the 3D semantic segmentation of a scene while simultaneously completing the 3D shapes. We propose PALNet, a novel hybrid network for SSC based on single depth. PALNet utilizes a two-stream network to extract both 2D and 3D features from multi-stages using fine-grained depth information to efficiently captures the context, as well as the geometric cues of the scene. Current methods for SSC treat all parts of the scene equally causing unnecessary attention to the interior of objects. To address this problem, we propose Position Aware Loss(PA-Loss) which is position importance aware while training the network. Specifically, PA-Loss considers Local Geometric Anisotropy to determine the importance of different positions within the scene. It is beneficial for recovering key details like the boundaries of objects and the corners of the scene. Comprehensive experiments on two benchmark datasets demonstrate the effectiveness of the proposed method and its superior performance. Models and Video demo can be found at: https://github.com/UniLauX/PALNet.
翻訳日:2023-01-05 21:21:41 公開日:2020-01-30
# リプシッツ推定下におけるNadaraya-Watsonカーネル回帰の上部境界

An Upper Bound of the Bias of Nadaraya-Watson Kernel Regression under Lipschitz Assumptions ( http://arxiv.org/abs/2001.10972v2 )

ライセンス: Link先を確認
Samuele Tosatto, Riad Akrour, Jan Peters(参考訳) nadaraya-watson kernel estimatorはその単純さのおかげで最も人気のある非パラメータ回帰技術である。 症状バイアスは1969年にローゼンブラットによって研究され、多くの関連文献で報告されている。 しかし、ローゼンブラットの解析は無限小帯域幅に対してのみ有効である。 対照的に,本論文では,帯域幅が有限であるバイアスの上界を提案する。 さらに、古典解析とは対照的に、回帰関数の不連続な一階微分を許容し、多次元領域の境界を拡張し、それが存在すれば回帰関数の境界に関する知識を含み、もしそれが知られているならばより密接な境界を得る。 この研究は、エラーに対する厳しい保証が必要な分野に潜在的な応用があると考えている。

The Nadaraya-Watson kernel estimator is among the most popular nonparameteric regression technique thanks to its simplicity. Its asymptotic bias has been studied by Rosenblatt in 1969 and has been reported in a number of related literature. However, Rosenblatt's analysis is only valid for infinitesimal bandwidth. In contrast, we propose in this paper an upper bound of the bias which holds for finite bandwidths. Moreover, contrarily to the classic analysis we allow for discontinuous first order derivative of the regression function, we extend our bounds for multidimensional domains and we include the knowledge of the bound of the regression function when it exists and if it is known, to obtain a tighter bound. We believe that this work has potential applications in those fields where some hard guarantees on the error are needed
翻訳日:2023-01-05 20:55:07 公開日:2020-01-30
# 量子ニューラルネットワークの閾値としての統計的テストと信頼区間

Statistical Tests and Confidential Intervals as Thresholds for Quantum Neural Networks ( http://arxiv.org/abs/2001.11844v1 )

ライセンス: Link先を確認
Do Ngoc Diep(参考訳) いくつかの基本的な量子ニューラルネットワークは、論文の著者である \cite{dndiep3} の最近の研究で解析され、構築された。 特にLSP(Least Quare Problem)とLRP(Linear Regression Problem)について議論した。 本稿では,最小二乗量子ニューラルネットワーク (LS-QNN) ,多項式補間量子ニューラルネットワーク (PI-QNN) ,多項式回帰量子ニューラルネットワーク (PR-QNN) およびカイ二乗量子ニューラルネットワーク (\chi^2$-QNN) の解析と構築を継続する。 対応するソリューションやテストは、対応するトレーニングルールのしきい値として使用します。

Some basic quantum neural networks were analyzed and constructed in the recent work of the author \cite{dndiep3}, published in International Journal of Theoretical Physics (2020). In particular the Least Quare Problem (LSP) and the Linear Regression Problem (LRP) was discussed. In this second paper we continue to analyze and construct the least square quantum neural network (LS-QNN), the polynomial interpolation quantum neural network (PI-QNN), the polynomial regression quantum neural network (PR-QNN) and chi-squared quantum neural network ($\chi^2$-QNN). We use the corresponding solution or tests as the threshold for the corresponding training rules.
翻訳日:2023-01-05 12:54:43 公開日:2020-01-30
# 機械学習ソフトウェアの文書化

Documentation of Machine Learning Software ( http://arxiv.org/abs/2001.11956v1 )

ライセンス: Link先を確認
Yalda Hashemi, Maleknaz Nayebi, Giuliano Antoniol(参考訳) 機械学習のソフトウェアドキュメンテーションは、ソフトウェア工学の研究で研究されたほとんどのドキュメントとは異なる。 これらのドキュメンテーションのユーザは、ソフトウェアの専門家ではないことが多い。 データサイエンス、特にさまざまな分野の機械学習への関心が高まり、プログラミングやソフトウェア工学に関する様々なレベルの知識を持つ科学者やエンジニアが惹きつけられた。 私たちの最終的な目標は、さまざまなレベルの専門知識を持つユーザのための機械学習ソフトウェアドキュメントの自動生成と適応です。 私たちは、問題の性質と引き金、およびドキュメントの進化プロセスにおけるユーザの専門知識レベルの影響を理解することに興味を持っています。 Stack Overflow Q/Aを調査して、マシンラーニング領域内のドキュメント関連Q/Aを分類して、問題のタイプとトリガ、およびドキュメントへの潜在的な変更要求を理解します。 結果は、自動ドキュメント生成のための最先端の技術の上に構築され、ソフトウェア機能の採用、要約、説明に拡張されることを意図しています。

Machine Learning software documentation is different from most of the documentations that were studied in software engineering research. Often, the users of these documentations are not software experts. The increasing interest in using data science and in particular, machine learning in different fields attracted scientists and engineers with various levels of knowledge about programming and software engineering. Our ultimate goal is automated generation and adaptation of machine learning software documents for users with different levels of expertise. We are interested in understanding the nature and triggers of the problems and the impact of the users' levels of expertise in the process of documentation evolution. We will investigate the Stack Overflow Q/As and classify the documentation related Q/As within the machine learning domain to understand the types and triggers of the problems as well as the potential change requests to the documentation. We intend to use the results for building on top of the state of the art techniques for automatic documentation generation and extending on the adoption, summarization, and explanation of software functionalities.
翻訳日:2023-01-05 12:48:56 公開日:2020-01-30
# 3次元生体試料の定量分析のための傾斜面と非凸面の半自動生成

Semi-Automatic Generation of Tight Binary Masks and Non-Convex Isosurfaces for Quantitative Analysis of 3D Biological Samples ( http://arxiv.org/abs/2001.11469v1 )

ライセンス: Link先を確認
Sourabh Bhide, Ralf Mikut, Maria Leptin, Johannes Stegmaier(参考訳) 現在のin vivo顕微鏡は、完全な生物の時空間イメージング(3d+t)を可能にし、細胞レベルでの発達に関する洞察を提供する。 撮像速度や画質は着実に向上しているが、完全に自動化されたセグメンテーションや分析手法は正確ではないことが多い。 これは特に大きな試料(100um1mm)と標本内部の深部を撮影するときに当てはまる。 ショウジョウバエの胚発生は、発達パラダイムとして広く用いられており、特に細胞輪郭をイメージする必要があるような課題の例を示している。 ショウジョウバエ胚の3d+t光シート顕微鏡画像の定量的解析における現在のボトルネックに対処するため,半自動的なオープンソースツール群を開発した。 提案手法は, 半自動マスキング法, 非凸3次元アイソサーフェスから2次元表現への自動投影法, 細胞セグメンテーションと追跡法を含む。

Current in vivo microscopy allows us detailed spatiotemporal imaging (3D+t) of complete organisms and offers insights into their development on the cellular level. Even though the imaging speed and quality is steadily improving, fully-automated segmentation and analysis methods are often not accurate enough. This is particularly true while imaging large samples (100um - 1mm) and deep inside the specimen. Drosophila embryogenesis, widely used as a developmental paradigm, presents an example for such a challenge, especially where cell outlines need to imaged - a general challenge in other systems as well. To deal with the current bottleneck in analyzing quantitatively the 3D+t light-sheet microscopy images of Drosophila embryos, we developed a collection of semi-automatic open-source tools. The presented methods include a semi-automatic masking procedure, automatic projection of non-convex 3D isosurfaces to 2D representations as well as cell segmentation and tracking.
翻訳日:2023-01-05 12:48:43 公開日:2020-01-30
# 脳結合解析におけるマトリックス変量回帰のためのスポーサリティ誘導型原子核推定器(SpINNEr)

A Sparsity Inducing Nuclear-Norm Estimator (SpINNEr) for Matrix-Variate Regression in Brain Connectivity Analysis ( http://arxiv.org/abs/2001.11548v1 )

ライセンス: Link先を確認
Damian Brzyski, Xixi Hu, Joaquin Goni, Beau Ances, Timothy W. Randolph, Jaroslaw Harezlak(参考訳) 古典スカラー応答回帰法は共変量をベクトルとして扱い、回帰係数の対応するベクトルを推定する。 しかし、医学的な応用においては、レグレッサーはしばしば多次元配列の形式である。 例えば、MRI画像を使用して、どの脳領域が健康的な結果と関連しているかを特定することに興味があるかもしれない。 二次元画像アレイのベクトル化は、画像の固有の空間構造を破壊し、計算的に難しいため、不十分なアプローチである。 我々は、回帰係数の行列を特定の最適化問題の解として定義する、正規化行列回帰(regularized matrix regression)という別のアプローチを提案する。 この方法は、核ノルム推定器(spinner)を誘導するスパーシティと呼ばれ、同時に回帰係数行列(核ノルムとラッソノルム)に2つのペナルティタイプを課す。 乗算器の交互方向法(ADMM)の具体的な実装は、高速で効率的な数値解法を構築するために用いられる。 シミュレーションの結果,SpINNErは応答関連項目(脳の機能的接続を表わす)が適切に接続されたコミュニティに配置された場合,他の手法よりも精度が高いことがわかった。 SpINNErは、ヒト脳におけるHIV関連結果と機能的接続との関係を調べるために用いられる。

Classical scalar-response regression methods treat covariates as a vector and estimate a corresponding vector of regression coefficients. In medical applications, however, regressors are often in a form of multi-dimensional arrays. For example, one may be interested in using MRI imaging to identify which brain regions are associated with a health outcome. Vectorizing the two-dimensional image arrays is an unsatisfactory approach since it destroys the inherent spatial structure of the images and can be computationally challenging. We present an alternative approach - regularized matrix regression - where the matrix of regression coefficients is defined as a solution to the specific optimization problem. The method, called SParsity Inducing Nuclear Norm EstimatoR (SpINNEr), simultaneously imposes two penalty types on the regression coefficient matrix---the nuclear norm and the lasso norm---to encourage a low rank matrix solution that also has entry-wise sparsity. A specific implementation of the alternating direction method of multipliers (ADMM) is used to build a fast and efficient numerical solver. Our simulations show that SpINNEr outperforms other methods in estimation accuracy when the response-related entries (representing the brain's functional connectivity) are arranged in well-connected communities. SpINNEr is applied to investigate associations between HIV-related outcomes and functional connectivity in the human brain.
翻訳日:2023-01-05 12:48:27 公開日:2020-01-30
# BUT Opensat 2019 音声認識システム

BUT Opensat 2019 Speech Recognition System ( http://arxiv.org/abs/2001.11360v1 )

ライセンス: Link先を確認
Martin Karafi\'at, Murali Karthick Baskar, Igor Sz\"oke, Hari Krishna Vydana, Karel Vesel\'y, Jan "Honza'' \v{C}ernock\'y(参考訳) 本稿では,低リソース言語と公共安全通信の2つの領域カテゴリにおいて,OpenSAT評価のために提出されたBUT自動音声認識システムについて述べる。 1つはトレーニングデータの欠如のため、様々なアーキテクチャと多言語アプローチが採用された。 この組み合わせは優れた性能をもたらした。 第2のドメインは、特定のチャンネル、ストレス下の話者、高レベルのノイズなどの極端な条件で記録するため、難しかった。 データ拡張プロセスは、合理的に優れたパフォーマンスを得るために避けられませんでした。

The paper describes the BUT Automatic Speech Recognition (ASR) systems submitted for OpenSAT evaluations under two domain categories such as low resourced languages and public safety communications. The first was challenging due to lack of training data, therefore various architectures and multilingual approaches were employed. The combination led to superior performance. The second domain was challenging due to recording in extreme conditions such as specific channel, speaker under stress and high levels of noise. Data augmentation process was inevitable to get reasonably good performance.
翻訳日:2023-01-05 12:47:42 公開日:2020-01-30
# 生成RNNとモンテカルロ木探索を用いた動的環境における経路計画

Path Planning in Dynamic Environments using Generative RNNs and Monte Carlo Tree Search ( http://arxiv.org/abs/2001.11597v1 )

ライセンス: Link先を確認
Stuart Eiffert, He Kong, Navid Pirmarzdashti and Salah Sukkarieh(参考訳) 群衆や交通などの動的環境におけるロボットの経路計画のための技術手法は、エージェントのための手作りの運動モデルに依存している。 これらのモデルは現実世界のシナリオにおいてエージェントの相互作用を反映しないことが多い。 この限界を克服するために,モンテカルロ木探索 (mcts) 内の生成的再帰ニューラルネットワークを用いた統合経路計画フレームワークを提案する。 このアプローチでは,行動空間を横断する計画において,社会的反応の学習モデルを用いて群集動態を予測する。 これは、計画されたロボット行動と、群衆のおそらくの反応との関係を学習するために、生成的RNNを使用した最近の研究を拡張します。 提案手法は,対話中の動き予測精度を大幅に向上し,より効果的な経路計画を可能にする。 本手法の性能は,歩行者群における衝突回避手法とシミュレーションで比較し,近傍個体の将来の状態を制御できることを示す。 また,本手法の有効性を検証するための予備実世界テストも実施する。

State of the art methods for robotic path planning in dynamic environments, such as crowds or traffic, rely on hand crafted motion models for agents. These models often do not reflect interactions of agents in real world scenarios. To overcome this limitation, this paper proposes an integrated path planning framework using generative Recurrent Neural Networks within a Monte Carlo Tree Search (MCTS). This approach uses a learnt model of social response to predict crowd dynamics during planning across the action space. This extends our recent work using generative RNNs to learn the relationship between planned robotic actions and the likely response of a crowd. We show that the proposed framework can considerably improve motion prediction accuracy during interactions, allowing more effective path planning. The performance of our method is compared in simulation with existing methods for collision avoidance in a crowd of pedestrians, demonstrating the ability to control future states of nearby individuals. We also conduct preliminary real world tests to validate the effectiveness of our method.
翻訳日:2023-01-05 12:40:11 公開日:2020-01-30
# 構造特徴に基づくグラフ自己適応プーリング

Structure-Feature based Graph Self-adaptive Pooling ( http://arxiv.org/abs/2002.00848v1 )

ライセンス: Link先を確認
Liang Zhang, Xudong Wang, Hongsheng Li, Guangming Zhu, Peiyi Shen, Ping Li, Xiaoyuan Lu, Syed Afaq Ali Shah, Mohammed Bennamoun(参考訳) 近年,グラフデータを扱う様々な手法が提案されている。 しかし、これらの手法のほとんどはグラフプーリングよりもグラフ特徴集計に重点を置いている。 さらに、既存のトップk選択グラフプーリング法にはいくつかの問題がある。 まず、プールされたグラフトポロジーを構築するため、現在のtop-k選択手法では、単一視点のみからノードの重要性を評価する。 第2に、未選択ノードの特徴情報は、プール処理中に直接失われるので、必然的にグラフの特徴情報が失われる。 To solve these problems mentioned above, we propose a novel graph self-adaptive pooling method with the following objectives: (1) to construct a reasonable pooled graph topology, structure and feature information of the graph are considered simultaneously, which provide additional veracity and objectivity in node selection; and (2) to make the pooled nodes contain sufficiently effective graph information, node feature information is aggregated before discarding the unimportant nodes; thus, the selected nodes contain information from neighbor nodes, which can enhance the use of features of the unselected nodes. 4つの異なるデータセットに対する実験結果から,本手法はグラフ分類に有効であり,最先端のグラフプーリング法より優れていることが示された。

Various methods to deal with graph data have been proposed in recent years. However, most of these methods focus on graph feature aggregation rather than graph pooling. Besides, the existing top-k selection graph pooling methods have a few problems. First, to construct the pooled graph topology, current top-k selection methods evaluate the importance of the node from a single perspective only, which is simplistic and unobjective. Second, the feature information of unselected nodes is directly lost during the pooling process, which inevitably leads to a massive loss of graph feature information. To solve these problems mentioned above, we propose a novel graph self-adaptive pooling method with the following objectives: (1) to construct a reasonable pooled graph topology, structure and feature information of the graph are considered simultaneously, which provide additional veracity and objectivity in node selection; and (2) to make the pooled nodes contain sufficiently effective graph information, node feature information is aggregated before discarding the unimportant nodes; thus, the selected nodes contain information from neighbor nodes, which can enhance the use of features of the unselected nodes. Experimental results on four different datasets demonstrate that our method is effective in graph classification and outperforms state-of-the-art graph pooling methods.
翻訳日:2023-01-05 12:39:33 公開日:2020-01-30
# 精度を超える:予測を用いたソーシャルネットワークにおけるホモフィリーの推定

Going beyond accuracy: estimating homophily in social networks using predictions ( http://arxiv.org/abs/2001.11171v1 )

ライセンス: Link先を確認
George Berry, Antonio Sirianni, Ingmar Weber, Jisun An, Michael Macy(参考訳) オンラインソーシャルネットワークでは、ノードカテゴリの予測を用いてホモフィリーや他の関係性の測定を行うのが一般的である。 しかし、オンラインのソーシャルネットワークデータは、しばしばノードに関する基本的な人口統計情報を欠いている。 研究者は、ホモフィリーの測度を推定するために予測ノード属性に頼る必要があるが、これらの測度の有効性についてはほとんど分かっていない。 ネットワーク内でのホモフィリ推定は、ディヤド予測問題とみなすことができ、ネットワーク内のダイアドレベルの残差がゼロに等しい場合、ホモフィリ推定は不偏であることを示す。 民族や性別を分類するための名前の使用のようなノードレベルの予測モデルは、一般にこの性質を持っておらず、ホモフィリーな推定に大きなバイアスをもたらす可能性がある。 バイアスはdyadsに沿ってエラー自己相関によって発生する。 重要なことは、ノードレベルの分類性能はホモフィリーの推定精度の信頼できる指標ではない。 ノードとdyadレベルでの予測を行う推定戦略を比較し、異なる設定で性能を評価する。 本稿では,標準ノードとdyadの分類戦略に勝る「エゴ代替」モデリング手法を提案する。 本稿では,ホモフィリーに着目しながら,ネットワーク内のダイアドに沿って予測を集約する他の関係測度に一般化する。 我々は、オンラインネットワークでホモフィリの研究を行うための研究設計を提案する。 この論文のコードはhttps://github.com/georgeberry/autocorr.com で入手できる。

In online social networks, it is common to use predictions of node categories to estimate measures of homophily and other relational properties. However, online social network data often lacks basic demographic information about the nodes. Researchers must rely on predicted node attributes to estimate measures of homophily, but little is known about the validity of these measures. We show that estimating homophily in a network can be viewed as a dyadic prediction problem, and that homophily estimates are unbiased when dyad-level residuals sum to zero in the network. Node-level prediction models, such as the use of names to classify ethnicity or gender, do not generally have this property and can introduce large biases into homophily estimates. Bias occurs due to error autocorrelation along dyads. Importantly, node-level classification performance is not a reliable indicator of estimation accuracy for homophily. We compare estimation strategies that make predictions at the node and dyad levels, evaluating performance in different settings. We propose a novel "ego-alter" modeling approach that outperforms standard node and dyad classification strategies. While this paper focuses on homophily, results generalize to other relational measures which aggregate predictions along the dyads in a network. We conclude with suggestions for research designs to study homophily in online networks. Code for this paper is available at https://github.com/georgeberry/autocorr.
翻訳日:2023-01-05 12:38:42 公開日:2020-01-30
# 画像検索のための効率的なバイナリコード生成のための最適特徴空間学習

Optimized Feature Space Learning for Generating Efficient Binary Codes for Image Retrieval ( http://arxiv.org/abs/2001.11400v1 )

ライセンス: Link先を確認
Abin Jose, Erik Stefan Ottlik, Christian Rohlfing, Jens-Rainer Ohm(参考訳) 本稿では,最小クラス内分散と最大クラス間分散を用いた低次元最適化特徴空間の学習手法を提案する。 本稿では,ニューラルネットワークから抽出した特徴ベクトルの高次元性の問題に,特徴空間のグローバル統計を手掛けて対処する。 線形判別分析(LDA)の古典的アプローチは、一般にシングルラベル画像に対して最適化された低次元特徴空間を生成するために用いられる。 そのため、LDAとCanonical correlation Analysis(CCA)の等価性を利用して、単一ラベル画像に最適化された特徴空間を生成し、CCAを用いて多ラベル画像に最適化された特徴空間を生成する。 提案手法は,CCAに基づくネットワークアーキテクチャにおいて特徴ベクトルとラベルベクトルのプロジェクションを関連付ける。 ニューラルネットワークは、相関係数を最大化する損失関数を最小化する。 生成した特徴ベクトルを、人気の反復量子化(ITQ)アプローチでバイナライズし、画像検索のために所望のビット長のバイナリコードを生成するアンサンブルネットワークを提案する。 平均精度の測定は、他の最先端のシングルラベル・マルチラベル画像検索データセットと競合する結果を示す。

In this paper we propose an approach for learning low dimensional optimized feature space with minimum intra-class variance and maximum inter-class variance. We address the problem of high-dimensionality of feature vectors extracted from neural networks by taking care of the global statistics of feature space. Classical approach of Linear Discriminant Analysis (LDA) is generally used for generating an optimized low dimensional feature space for single-labeled images. Since, image retrieval involves both multi-labeled and single-labeled images, we utilize the equivalence between LDA and Canonical Correlation Analysis (CCA) to generate an optimized feature space for single-labeled images and use CCA to generate an optimized feature space for multi-labeled images. Our approach correlates the projections of feature vectors with label vectors in our CCA based network architecture. The neural network minimize a loss function which maximizes the correlation coefficients. We binarize our generated feature vectors with the popular Iterative Quantization (ITQ) approach and also propose an ensemble network to generate binary codes of desired bit length for image retrieval. Our measurement of mean average precision shows competitive results on other state-of-the-art single-labeled and multi-labeled image retrieval datasets.
翻訳日:2023-01-05 12:38:01 公開日:2020-01-30
# 画像分割参照のためのデュアル畳み込みLSTMネットワーク

Dual Convolutional LSTM Network for Referring Image Segmentation ( http://arxiv.org/abs/2001.11561v1 )

ライセンス: Link先を確認
Linwei Ye, Zhi Liu, Yang Wang(参考訳) 画像分割について考察する。 これはコンピュータビジョンと自然言語理解の交点における問題である。 自然言語文の形で入力画像と参照表現が与えられた場合、目的は、言語クエリーによって参照される画像に対する関心の対象を分割することである。 そこで本研究では,この問題に対処する2つの畳み込みLSTM(ConvLSTM)ネットワークを提案する。 このモデルは、エンコーダネットワークとデコーダネットワークから成り、convlstmをエンコーダネットワークとデコーダネットワークの両方で使用し、空間的および逐次的な情報をキャプチャする。 エンコーダネットワークは、表現文中の各単語の視覚的および言語的特徴を抽出し、マルチモーダル相互作用においてより有意義な単語に焦点を当てる注意機構を採用する。 デコーダネットワークは、エンコーダネットワークが生成する機能を入力として複数のレベルで統合し、最終的な正確なセグメンテーションマスクを生成する。 4つの挑戦的データセットを用いた実験結果から,提案手法は他の最先端手法に比べて良好なセグメンテーション性能が得られた。

We consider referring image segmentation. It is a problem at the intersection of computer vision and natural language understanding. Given an input image and a referring expression in the form of a natural language sentence, the goal is to segment the object of interest in the image referred by the linguistic query. To this end, we propose a dual convolutional LSTM (ConvLSTM) network to tackle this problem. Our model consists of an encoder network and a decoder network, where ConvLSTM is used in both encoder and decoder networks to capture spatial and sequential information. The encoder network extracts visual and linguistic features for each word in the expression sentence, and adopts an attention mechanism to focus on words that are more informative in the multimodal interaction. The decoder network integrates the features generated by the encoder network at multiple levels as its input and produces the final precise segmentation mask. Experimental results on four challenging datasets demonstrate that the proposed network achieves superior segmentation performance compared with other state-of-the-art methods.
翻訳日:2023-01-05 12:30:17 公開日:2020-01-30
# マクロ特徴とCADモデルとのマッチングによるUAV自動位置決め

UAV Autonomous Localization using Macro-Features Matching with a CAD Model ( http://arxiv.org/abs/2001.11610v1 )

ライセンス: Link先を確認
Akkas Haque, Ahmed Elsaharti, Tarek Elderini, Mohamed Atef Elsaharty, and Jeremiah Neubert(参考訳) 自律型無人航空機(uavs)の分野の研究は近年著しく進展しており、主に商業、産業、軍事の多種多様な用途に関係している。 しかし、GPSを付加した環境でのUAVナビゲーションは、センサベースのアプローチによる最近の研究で取り組まれている課題であり続けている。 本稿では,マクロな特徴の検出とマッチングに依存する,オフライン,ポータブル,リアルタイムな室内UAVローカライゼーション手法を提案する。 提案システムは、機械学習、従来のコンピュータビジョン技術、および環境に関する既存の知識を活用している。 この研究の主な貢献は、UAVキャプチャー画像からマクロ特徴記述ベクトルをリアルタイムに作成することであり、同時にコンピュータ支援設計(CAD)モデルからオフラインの既存ベクトルと一致する。 その結果、CADモデル内のUAVローカライゼーションが高速になる。 提案システムの有効性と精度をシミュレーションおよび試作実験により評価した。 最終的な結果は、アルゴリズムの計算負担の低さと、GPSを用いた環境への展開の容易さを明らかにした。

Research in the field of autonomous Unmanned Aerial Vehicles (UAVs) has significantly advanced in recent years, mainly due to their relevance in a large variety of commercial, industrial, and military applications. However, UAV navigation in GPS-denied environments continues to be a challenging problem that has been tackled in recent research through sensor-based approaches. This paper presents a novel offline, portable, real-time in-door UAV localization technique that relies on macro-feature detection and matching. The proposed system leverages the support of machine learning, traditional computer vision techniques, and pre-existing knowledge of the environment. The main contribution of this work is the real-time creation of a macro-feature description vector from the UAV captured images which are simultaneously matched with an offline pre-existing vector from a Computer-Aided Design (CAD) model. This results in a quick UAV localization within the CAD model. The effectiveness and accuracy of the proposed system were evaluated through simulations and experimental prototype implementation. Final results reveal the algorithm's low computational burden as well as its ease of deployment in GPS-denied environments.
翻訳日:2023-01-05 12:29:36 公開日:2020-01-30
# 重み付きcspとして航空交通衝突に取り組む : 木こり法による実験

Tackling Air Traffic Conflicts as a Weighted CSP : Experiments with the Lumberjack Method ( http://arxiv.org/abs/2001.11390v1 )

ライセンス: Link先を確認
Thomas Chaboud, C\'edric Pralet, Nicolas Schmidt(参考訳) 本稿では,航空機の集合体に対して多数の軌道を発生させ,最も互換性のある航空機を効率よく選択する,航空交通紛争解決手法の拡張について述べる。 本稿では,様々なコンフリクト解決アルゴリズムをカプセル化したマルチマヌーブル版,特にオリジナルの "smart brute-force" 法と有名な toulbar2 csp ツールセットを提案する。 いくつかのベンチマークによる実験では、第1の方法は(実運用で実際に起こることを示す)少数の航空機を含む場合において非常に効率的であり、大量の操縦装置や軌道を探索できることを示しているが、航空機の数を7機以上に増やすと、その複雑さに乗っ取られる。 逆に、許容可能な時間内には、ToulBar2ツールセットはより多くの航空機を含む衝突を処理できるが、それぞれの軌道は少ない。

In this paper, we present an extension to an air traffic conflicts resolution method consisting in generating a large number of trajectories for a set of aircraft, and efficiently selecting the best compatible ones. We propose a multimanoeuvre version which encapsulates different conflict-solving algorithms, in particular an original "smart brute-force" method and the well-known ToulBar2 CSP toolset. Experiments on several benchmarks show that the first one is very efficient on cases involving few aircraft (representative of what actually happens in operations), allowing us to search through a large pool of manoeuvres and trajectories; however, this method is overtaken by its complexity when the number of aircraft increases to 7 and more. Conversely, within acceptable times, the ToulBar2 toolset can handle conflicts involving more aircraft, but with fewer possible trajectories for each.
翻訳日:2023-01-05 12:22:16 公開日:2020-01-30
# リアルタイム音色補間合成のための条件付きオートエンコーダ潜時空間

Conditioning Autoencoder Latent Spaces for Real-Time Timbre Interpolation and Synthesis ( http://arxiv.org/abs/2001.11296v1 )

ライセンス: Link先を確認
Joseph T Colonel, Sam Keene(参考訳) 音色生成のための標準オートエンコーダトポロジの性能を比較する。 オートエンコーダのボトルネックで使用されるアクティベーション関数が,トレーニングコーパスの埋め込みをいかに分散するかを示す。 ボトルネックにおけるシグモイドの活性化の選択は、漏れやすい整合線形単位の活性化よりも、より有界で均一に分散された埋め込みをもたらすことを示す。 本稿では,入力拡張と潜時空間条件の両方に使用する1ホット符号化クロマ特徴ベクトルを提案する。 これらのネットワークの性能を測定し,このクロマ条件ベクトルを用いて発生する潜伏埋め込みを特徴付ける。 pythonのオープンソースのリアルタイムな音色合成アルゴリズムを概説し、共有する。

We compare standard autoencoder topologies' performances for timbre generation. We demonstrate how different activation functions used in the autoencoder's bottleneck distributes a training corpus's embedding. We show that the choice of sigmoid activation in the bottleneck produces a more bounded and uniformly distributed embedding than a leaky rectified linear unit activation. We propose a one-hot encoded chroma feature vector for use in both input augmentation and latent space conditioning. We measure the performance of these networks, and characterize the latent embeddings that arise from the use of this chroma conditioning vector. An open source, real-time timbre synthesis algorithm in Python is outlined and shared.
翻訳日:2023-01-05 12:21:40 公開日:2020-01-30
# テキストアテンションタワーを用いた効率的なシーンテキスト検出

Efficient Scene Text Detection with Textual Attention Tower ( http://arxiv.org/abs/2002.03741v1 )

ライセンス: Link先を確認
Liang Zhang, Yufei Liu, Hang Xiao, Lu Yang, Guangming Zhu, Syed Afaq Shah, Mohammed Bennamoun, and Peiyi Shen(参考訳) シーンテキスト検出は長年にわたって注目され、様々なベンチマークで印象的なパフォーマンスを達成した。 本研究では,シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。 提案する機能融合機構により,より浅いネットワークを用いて計算複雑性を低減できる。 偽陽性検出を抑制するための自己注意機構が採用されている。 icdar 2013, icdar 2015, msra-td500などの公開ベンチマーク実験では, 提案手法がより少ないパラメータと少ない計算コストで, より良く, 同等の性能を達成できることが示されている。

Scene text detection has received attention for years and achieved an impressive performance across various benchmarks. In this work, we propose an efficient and accurate approach to detect multioriented text in scene images. The proposed feature fusion mechanism allows us to use a shallower network to reduce the computational complexity. A self-attention mechanism is adopted to suppress false positive detections. Experiments on public benchmarks including ICDAR 2013, ICDAR 2015 and MSRA-TD500 show that our proposed approach can achieve better or comparable performances with fewer parameters and less computational cost.
翻訳日:2023-01-05 12:21:31 公開日:2020-01-30
# 流れと融合による複数物体追跡

Multiple Object Tracking by Flowing and Fusing ( http://arxiv.org/abs/2001.11180v1 )

ライセンス: Link先を確認
Jimuyang Zhang, Sanping Zhou, Xin Chang, Fangbin Wan, Jinjun Wang, Yang Wu, Dong Huang(参考訳) Multi Object Tracking (MOT) のアプローチのほとんどは、2つのサブタスクの個々のターゲット特徴を計算する。 ビデオフレーム間のターゲット数が不確定であるため、両サブタスクはエンドツーエンドのディープニューラルネットワーク(DNN)で効率的にスケールアップすることが非常に困難である。 本稿では,フロー・フューズ・トラッカー (FFT) というエンドツーエンドのDNN追跡手法を設計し,上記の問題にターゲットフローとターゲットヒューズという2つの効率的な手法で対処する。 具体的には、ターゲットフローにおいて、FlowTracker DNNモジュールは、画素レベルの光学フローから、ターゲットワイズ動作の無期限数を学習する。 target fusingでは、fusetracker dnnモジュールがflowtrackerとframe-wise object detectionによって提案されたターゲットを洗練し、融合する。 FlowTrackerは複雑な目標運動パターンを探索でき、FuseTrackerはFlowTrackerや検出器からターゲットを洗練・融合できるので、いくつかのMOTベンチマークで最先端の結果が得られる。 オンラインMOTのアプローチとして、FFTは2DMOT15の46.3、MOT16の56.5、MOT17の56.5のトラッキングベンチマークを作成した。

Most of Multiple Object Tracking (MOT) approaches compute individual target features for two subtasks: estimating target-wise motions and conducting pair-wise Re-Identification (Re-ID). Because of the indefinite number of targets among video frames, both subtasks are very difficult to scale up efficiently in end-to-end Deep Neural Networks (DNNs). In this paper, we design an end-to-end DNN tracking approach, Flow-Fuse-Tracker (FFT), that addresses the above issues with two efficient techniques: target flowing and target fusing. Specifically, in target flowing, a FlowTracker DNN module learns the indefinite number of target-wise motions jointly from pixel-level optical flows. In target fusing, a FuseTracker DNN module refines and fuses targets proposed by FlowTracker and frame-wise object detection, instead of trusting either of the two inaccurate sources of target proposal. Because FlowTracker can explore complex target-wise motion patterns and FuseTracker can refine and fuse targets from FlowTracker and detectors, our approach can achieve the state-of-the-art results on several MOT benchmarks. As an online MOT approach, FFT produced the top MOTA of 46.3 on the 2DMOT15, 56.5 on the MOT16, and 56.5 on the MOT17 tracking benchmarks, surpassing all the online and offline methods in existing publications.
翻訳日:2023-01-05 12:21:21 公開日:2020-01-30
# 回転射影に基づく木点雲データの自動マーカーフリー登録

Automatic marker-free registration of tree point-cloud data based on rotating projection ( http://arxiv.org/abs/2001.11192v1 )

ライセンス: Link先を確認
Xiuxian Xu, Pei Wang, Xiaozheng Gan, Yaxin Li, Li Zhang, Qing Zhang, Mei Zhou, Yinghui Zhao, Xinwei Li(参考訳) 地上レーザースキャナ(TLS)を用いて取得したポイントクラウドデータは、デジタル林業研究において重要な役割を果たす。 複数のスキャンは、閉塞効果を克服し、完全な木構造情報を得るために一般的に使用される。 しかし,複雑な地形を有する森林に人工反射板を設置することは,登録の自動化と効率を低下させるプロセスである。 本研究では,1本の木を複数スキャンした点クラウドデータの自動登録法を提案する。 粗い登録では、各スキャンによって生成された点雲を球面上に投影して、複数のスキャンの初期位置を推定する2次元画像を生成する。 そして、これら一連の2次元画像から対応する特徴点対を抽出する。 微細な登録では、細かな変換パラメータを計算するために、対応する中央茎と分岐中心を抽出するために、ポイントクラウドデータスライシングとフィッティング法を用いる。 登録結果の精度を評価するために,隣接スキャンにおける対応する枝から中心点の距離を計算し,誤差評価のモデルを提案する。 正確な評価のために,2本の模擬木と実生木を用いて実験を行った。 提案手法の平均登録誤差はシミュレーション木点雲上で0.26m,実世界の木点雲上で0.05mであった。

Point-cloud data acquired using a terrestrial laser scanner (TLS) play an important role in digital forestry research. Multiple scans are generally used to overcome occlusion effects and obtain complete tree structural information. However, it is time-consuming and difficult to place artificial reflectors in a forest with complex terrain for marker-based registration, a process that reduces registration automation and efficiency. In this study, we propose an automatic coarse-to-fine method for the registration of point-cloud data from multiple scans of a single tree. In coarse registration, point clouds produced by each scan are projected onto a spherical surface to generate a series of two-dimensional (2D) images, which are used to estimate the initial positions of multiple scans. Corresponding feature-point pairs are then extracted from these series of 2D images. In fine registration, point-cloud data slicing and fitting methods are used to extract corresponding central stem and branch centers for use as tie points to calculate fine transformation parameters. To evaluate the accuracy of registration results, we propose a model of error evaluation via calculating the distances between center points from corresponding branches in adjacent scans. For accurate evaluation, we conducted experiments on two simulated trees and a real-world tree. Average registration errors of the proposed method were 0.26m around on simulated tree point clouds, and 0.05m around on real-world tree point cloud.
翻訳日:2023-01-05 12:20:53 公開日:2020-01-30
# 正規化Lpノルムを用いた太陽電池のき裂の微視的観察

Weakly Supervised Segmentation of Cracks on Solar Cells using Normalized Lp Norm ( http://arxiv.org/abs/2001.11248v1 )

ライセンス: Link先を確認
Martin Mayr, Mathis Hoffmann, Andreas Maier, Vincent Christlein(参考訳) 太陽光発電は世界のエネルギー消費を着実に増加させる中で最も重要な再生可能エネルギー源の1つである。 これにより、生産および運用中の高速でスケーラブルな自動品質管理に対する需要が高まる。 しかし、単結晶または多結晶太陽電池モジュールのel画像における亀裂の検出と分割は難しい課題である。 本研究では,画像レベルのアノテーションのみを用いて,太陽電池のel画像のひび割れを分節化可能な手法を得る,教師あり学習戦略を提案する。 ネットワークアクティベーションマップからセグメント化を導出するために,ResNet-50を改良した。 ネットワークのトレーニングには,サロゲートタスクとして欠陥分類を用いる。 この目的のために、正規化Lp正規化を適用して、アクティベーションマップを単一のスコアに集約して分類する。 さらに,正規化Lp層のパラメータ化がセグメント化性能に与える影響について検討した。 このアプローチは、与えられたタスクに有望な結果を示す。 しかし,本手法は,他の弱教師付きセグメンテーション問題も解決できる可能性があると考えられる。

Photovoltaic is one of the most important renewable energy sources for dealing with world-wide steadily increasing energy consumption. This raises the demand for fast and scalable automatic quality management during production and operation. However, the detection and segmentation of cracks on electroluminescence (EL) images of mono- or polycrystalline solar modules is a challenging task. In this work, we propose a weakly supervised learning strategy that only uses image-level annotations to obtain a method that is capable of segmenting cracks on EL images of solar cells. We use a modified ResNet-50 to derive a segmentation from network activation maps. We use defect classification as a surrogate task to train the network. To this end, we apply normalized Lp normalization to aggregate the activation maps into single scores for classification. In addition, we provide a study how different parameterizations of the normalized Lp layer affect the segmentation performance. This approach shows promising results for the given task. However, we think that the method has the potential to solve other weakly supervised segmentation problems as well.
翻訳日:2023-01-05 12:19:48 公開日:2020-01-30
# 二元分類における二重降下の解析的研究:損失の影響

Analytic Study of Double Descent in Binary Classification: The Impact of Loss ( http://arxiv.org/abs/2001.11572v1 )

ライセンス: Link先を確認
Ganesh Kini and Christos Thrampoulidis(参考訳) 広範な実証的証拠は、幅広い異なる学習方法とデータセットに対して、リスク曲線がモデルサイズの関数として二重日光(dd)トレンドを示すことを示している。 最近の論文 (Zeyu, Kammoun, Thrampoulidis, 2019) において、著者らは二元線形分類モデルを研究し、ロジスティック損失を伴う勾配降下(GD)のテスト誤差がDDとなることを示した。 本稿では,これらの結果を正方形損失でgdに拡張して補う。 DD現象は持続するが,ロジスティックな損失と比較していくつかの相違点が認められた。 これはDD曲線の重要な特徴(遷移しきい値やグローバルミニマなど)がトレーニングデータと学習アルゴリズムの両方に依存することを強調している。 さらに,DD曲線のトレーニングセットのサイズ依存性について検討した。 私たちはまず、ガウス的特徴の下のテストエラーに対して鋭い漸近性を導出することでdd曲線をプロットします。 単純なことだが、このモデルはddの特徴を原理的に研究し、より複雑な学習タスクで起こる関連する経験的知見を理論的にコーポレートする。

Extensive empirical evidence reveals that, for a wide range of different learning methods and datasets, the risk curve exhibits a double-descent (DD) trend as a function of the model size. In a recent paper [Zeyu,Kammoun,Thrampoulidis,2019] the authors studied binary linear classification models and showed that the test error of gradient descent (GD) with logistic loss undergoes a DD. In this paper, we complement these results by extending them to GD with square loss. We show that the DD phenomenon persists, but we also identify several differences compared to logistic loss. This emphasizes that crucial features of DD curves (such as their transition threshold and global minima) depend both on the training data and on the learning algorithm. We further study the dependence of DD curves on the size of the training set. Similar to our earlier work, our results are analytic: we plot the DD curves by first deriving sharp asymptotics for the test error under Gaussian features. Albeit simple, the models permit a principled study of DD features, the outcomes of which theoretically corroborate related empirical findings occurring in more complex learning tasks.
翻訳日:2023-01-05 12:13:43 公開日:2020-01-30
# 名前付きエンティティ認識のためのセルフアテンションに基づくbigruとカプセルネットワーク

Self-attention-based BiGRU and capsule network for named entity recognition ( http://arxiv.org/abs/2002.00735v1 )

ライセンス: Link先を確認
Jianfeng Deng and Lianglun Cheng and Zhuowei Wang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)のタスクの一つである。 従来の文字表現能力が弱く、ニューラルネットワーク手法では重要なシーケンス情報をキャプチャできないという問題を考慮している。 NERのための自己注意型双方向ゲートリカレントユニット(BiGRU)とカプセルネットワーク(CapsNet)を提案する。 このモデルは、変換器(BERT)事前学習モデルの双方向エンコーダ表現により文字ベクトルを生成する。 BiGRUはシーケンスコンテキストの特徴をキャプチャするために使用され、BiGRUの隠蔽層が捉えた情報に異なるフォーカスを与える自己認識機構が提案されている。 最後に、エンティティ認識にCapsNetを使うことを提案する。 モデルの認識性能を2つのデータセットで評価した。 実験の結果,モデルの性能は外部辞書情報に頼らずに向上した。

Named entity recognition(NER) is one of the tasks of natural language processing(NLP). In view of the problem that the traditional character representation ability is weak and the neural network method is unable to capture the important sequence information. An self-attention-based bidirectional gated recurrent unit(BiGRU) and capsule network(CapsNet) for NER is proposed. This model generates character vectors through bidirectional encoder representation of transformers(BERT) pre-trained model. BiGRU is used to capture sequence context features, and self-attention mechanism is proposed to give different focus on the information captured by hidden layer of BiGRU. Finally, we propose to use CapsNet for entity recognition. We evaluated the recognition performance of the model on two datasets. Experimental results show that the model has better performance without relying on external dictionary information.
翻訳日:2023-01-05 12:12:54 公開日:2020-01-30
# シーケンスモデルを用いた文字のケース予測のための効率的なアーキテクチャ

An Efficient Architecture for Predicting the Case of Characters using Sequence Models ( http://arxiv.org/abs/2002.00738v1 )

ライセンス: Link先を確認
Gopi Ramena, Divija Nagaraju, Sukumar Moharana, Debi Prasanna Mohanty, Naresh Purre(参考訳) クリーンテキストデータの破壊は、いくつかの自然言語処理アプリケーションにおいてボトルネックとなることが多い。 利用可能なデータは、しばしば適切なケース(uppercaseまたはlowercase)情報がない。 これは、ソーシャルメディア、メッセージングアプリケーション、その他のオンラインプラットフォームからテキストが取得されたときにしばしば発生する。 本稿では,Truecasingと呼ばれる文字の正しいケースを復元することで,この問題を解決する。 これにより、NLPパイプラインにおける複数の処理タスクの精度が向上する。 提案アーキテクチャは、畳み込みニューラルネットワーク(CNN)、双方向長短期記憶ネットワーク(LSTM)、条件付きランダムフィールド(CRF)を組み合わせたもので、明示的な特徴工学を伴わない文字レベルで機能する。 本研究では,従来の統計的および深層学習に基づくアプローチと比較する。 本手法は,f1 スコアが現在よりも 0.83 増加していることを示す。 truecasingはいくつかのアプリケーションの前処理ステップとして機能するため、F1スコアのすべてのインクリメントは、言語処理タスクを大幅に改善する。

The dearth of clean textual data often acts as a bottleneck in several natural language processing applications. The data available often lacks proper case (uppercase or lowercase) information. This often comes up when text is obtained from social media, messaging applications and other online platforms. This paper attempts to solve this problem by restoring the correct case of characters, commonly known as Truecasing. Doing so improves the accuracy of several processing tasks further down in the NLP pipeline. Our proposed architecture uses a combination of convolutional neural networks (CNN), bi-directional long short-term memory networks (LSTM) and conditional random fields (CRF), which work at a character level without any explicit feature engineering. In this study we compare our approach to previous statistical and deep learning based approaches. Our method shows an increment of 0.83 in F1 score over the current state of the art. Since truecasing acts as a preprocessing step in several applications, every increment in the F1 score leads to a significant improvement in the language processing tasks.
翻訳日:2023-01-05 12:12:43 公開日:2020-01-30
# LowResourceEval-2019:低リソース言語のための形態解析の共有タスク

LowResourceEval-2019: a shared task on morphological analysis for low-resource languages ( http://arxiv.org/abs/2001.11285v1 )

ライセンス: Link先を確認
Elena Klyachko and Alexey Sorokin and Natalia Krizhanovskaya and Andrew Krizhanovsky and Galina Ryazanskaya(参考訳) 本稿は,ロシアにおける言語形態素解析に関する最初の共通タスク,すなわち evenki, karelian, selkup, veps の結果について述べる。 問題の言語については、小さなコーパスのみが利用可能である。 タスクには、形態分析、単語フォーム生成、形態素セグメンテーションが含まれる。 4チームが共同作業に参加した。 その多くは、既存のルールベースのアプローチよりも優れた機械学習アプローチを使用している。 この記事は、共有タスク用に準備されたデータセットを記述し、参加者のソリューションの分析を含んでいる。 異なるフォーマットの言語コーパスがCONLL-Uフォーマットに変換された。 ユニバーサルフォーマットは、データセットを他の言語コープラと比較し、他のnlpタスクでの使用を容易にする。

The paper describes the results of the first shared task on morphological analysis for the languages of Russia, namely, Evenki, Karelian, Selkup, and Veps. For the languages in question, only small-sized corpora are available. The tasks include morphological analysis, word form generation and morpheme segmentation. Four teams participated in the shared task. Most of them use machine-learning approaches, outperforming the existing rule-based ones. The article describes the datasets prepared for the shared tasks and contains analysis of the participants' solutions. Language corpora having different formats were transformed into CONLL-U format. The universal format makes the datasets comparable to other language corpura and facilitates using them in other NLP tasks.
翻訳日:2023-01-05 12:11:50 公開日:2020-01-30
# Parseをしないで、Generate! タスク指向セマンティックパーシングのためのシーケンスアーキテクチャ

Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2001.11458v1 )

ライセンス: Link先を確認
Subendhu Rongali (University of Massachusetts Amherst), Luca Soldaini (Amazon Alexa Search), Emilio Monti (Amazon Alexa), Wael Hamza (Amazon Alexa AI)(参考訳) Amazon Alexa、Apple Siri、Google Assistantといったバーチャルアシスタントは、ユーザーが話す発話に対してどのアクションを実行するかを理解するために意味解析コンポーネントに依存することが多い。 伝統的に、ルールベースまたは統計的スロット補完システムは"単純な"クエリを解析するために使われてきた。 最近では、より複雑な発話を処理するためにshift-reduceパーサが提案されている。 これらのメソッドは強力だが、パース可能なクエリの種類に特定の制限を課している。 本研究では,単純なクエリと複雑なクエリの両方を扱うために,Sequence to SequenceモデルとPointer Generator Networkに基づく統一アーキテクチャを提案する。 他の作業とは異なり、我々のアプローチはセマンティックパーススキーマにいかなる制限も課さない。 さらに、実験により、3つの公開データセット(ATIS、SNIPS、Facebook TOP)上でのアートパフォーマンスの状態を達成し、以前のシステムよりも正確にマッチする精度が3.3%から7.7%向上した。 最後に,2つの内部データセットに対するアプローチの有効性を示す。

Virtual assistants such as Amazon Alexa, Apple Siri, and Google Assistant often rely on a semantic parsing component to understand which action(s) to execute for an utterance spoken by its users. Traditionally, rule-based or statistical slot-filling systems have been used to parse "simple" queries; that is, queries that contain a single action and can be decomposed into a set of non-overlapping entities. More recently, shift-reduce parsers have been proposed to process more complex utterances. These methods, while powerful, impose specific limitations on the type of queries that can be parsed; namely, they require a query to be representable as a parse tree. In this work, we propose a unified architecture based on Sequence to Sequence models and Pointer Generator Network to handle both simple and complex queries. Unlike other works, our approach does not impose any restriction on the semantic parse schema. Furthermore, experiments show that it achieves state of the art performance on three publicly available datasets (ATIS, SNIPS, Facebook TOP), relatively improving between 3.3% and 7.7% in exact match accuracy over previous systems. Finally, we show the effectiveness of our approach on two internal datasets.
翻訳日:2023-01-05 12:11:20 公開日:2020-01-30
# 任意ネットワークにおけるVNFの経路配置

Routing-Led Placement of VNFs in Arbitrary Networks ( http://arxiv.org/abs/2001.11565v1 )

ライセンス: Link先を確認
Joseph Billingsley, Ke Li, Wang Miao, Geyong Min, Nektarios Georgalas(参考訳) コンピューティングリソースの需要はますます増加し、数万のサーバによるハイパースケールなデータセントリックの作成につながった。 需要が高まるにつれて、高エネルギー消費の環境影響を損なうことなく高品質なサービスを提供できるように、新しい技術が組み込まれなければならない。 ネットワーク機能仮想化(nfv)のような仮想化技術は、仮想ネットワーク機能(vnfs)と呼ばれるコンポーネント部品を接続することでサービスを作成することができる。 VNFカメラは、VNFの配置と経路を最適化することで利用可能なデータセントレ資源を最大限活用し、エネルギーコストを最小化しつつ、高品質なサービスを維持するために使用することができる。 この問題に関する最近の研究は、vnfの配置とルーティングを二次的な関心事とみなしている。 この研究では、逆のアプローチであるルーティング型アプローチが好ましいと論じる。 そこで本研究では,最大16000変数の問題に対して,各部品を多種多様なトポロジで解析し,その性能を従来の配置に基づくアルゴリズムと比較する。 実験結果から,我々のルーティング型アルゴリズムは,データ中心トポロジの大規模問題に対して,より優れた,より高速な解が得られることが示された。

The ever increasing demand for computing resources has led to the creation of hyperscale datacentres with tens of thousands of servers. As demand continues to rise, new technologies must be incorporated to ensure high quality services can be provided without the damaging environmental impact of high energy consumption. Virtualisation technology such as network function virtualisation (NFV) allows for the creation of services by connecting component parts known as virtual network functions (VNFs). VNFs cam be used to maximally utilise available datacentre resources by optimising the placement and routes of VNFs, to maintain a high quality of service whilst minimising energy costs. Current research on this problem has focussed on placing VNFs and considered routing as a secondary concern. In this work we argue that the opposite approach, a routing-led approach is preferable. We propose a novel routing-led algorithm and analyse each of the component parts over a range of different topologies on problems with up to 16000 variables and compare its performance against a traditional placement based algorithm. Empirical results show that our routing-led algorithm can produce significantly better, faster solutions to large problem instances on a range of datacentre topologies.
翻訳日:2023-01-05 12:11:01 公開日:2020-01-30
# 因果発見と生存分析によるライフコースパターンの解明

Uncovering life-course patterns with causal discovery and survival analysis ( http://arxiv.org/abs/2001.11399v1 )

ライセンス: Link先を確認
Bojan Kostic, Romain Crastes dit Sourd, Stephane Hess, Joachim Scheiner, Christian Holz-Rau, Francisco C. Pereira(参考訳) 生命事象の選択と発生を因果的発見と生存分析を通じて確率論的観点からモデル化する新しいアプローチと探索的研究を提供する。 我々のアプローチは二段階問題として定式化されている。 上位レベルでは、因果発見ツールを使用してライフイベントグラフを構築します。 生活事象のペアについては,生存分析による時系列モデリングが時間依存遷移確率のモデルに適用される。 結婚、新車購入、出産、転居、離婚などの生活イベントや、年齢、国籍、子供の数、自動車の数、家所有など、生き残るための社会デコグラフィー的な属性が分析された。 このデータはドイツのドルトムントで実施された調査に端を発し、住宅や雇用の伝記、旅行行動、休暇旅行、社会経済的特徴に関する一連のふりかえり質問が含まれている。 ライフコースデータの解析には,これまで生存分析が用いられてきたが,バイレベルモデルが定式化されたのは今回が初めてである。 因果発見アルゴリズムを上位レベルに含めることで、まずライフコースイベント間の因果関係を特定し、次にイベント間の遷移率に影響を与える要因を理解することができる。 これは、因果関係がモデル結果に基づく専門家の解釈の対象となる、より古典的な選択モデルとは大きく異なる。

We provide a novel approach and an exploratory study for modelling life event choices and occurrence from a probabilistic perspective through causal discovery and survival analysis. Our approach is formulated as a bi-level problem. In the upper level, we build the life events graph, using causal discovery tools. In the lower level, for the pairs of life events, time-to-event modelling through survival analysis is applied to model time-dependent transition probabilities. Several life events were analysed, such as getting married, buying a new car, child birth, home relocation and divorce, together with the socio-demographic attributes for survival modelling, some of which are age, nationality, number of children, number of cars and home ownership. The data originates from a survey conducted in Dortmund, Germany, with the questionnaire containing a series of retrospective questions about residential and employment biography, travel behaviour and holiday trips, as well as socio-economic characteristic. Although survival analysis has been used in the past to analyse life-course data, this is the first time that a bi-level model has been formulated. The inclusion of a causal discovery algorithm in the upper-level allows us to first identify causal relationships between life-course events and then understand the factors that might influence transition rates between events. This is very different from more classic choice models where causal relationships are subject to expert interpretations based on model results.
翻訳日:2023-01-05 12:04:36 公開日:2020-01-30
# マルチチャネル音声強調のためのチャネル注意深度U-Net

Channel-Attention Dense U-Net for Multichannel Speech Enhancement ( http://arxiv.org/abs/2001.11542v1 )

ライセンス: Link先を確認
Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy(参考訳) 近年,深層学習が音声強調に注目されている。 最先端の深層学習方法は、時間周波数領域の混合に適用される比率/バイナリマスクを学習してタスクを実行し、クリーン音声を生成する。 シングルチャネル設定の性能は高いが、これらの手法の大部分はマルチチャネル設定の性能が低下している。 a) 利用可能な空間情報を十分に活用できないこと,及び b) 深層アーキテクチャをマルチチャンネルオーディオ処理に適さないブラックボックスとして扱うこと。 この論文はこれらの欠点に対処する。 a) スペクトログラムの大きさをマスキングするのではなく,複雑な比マスキングを利用することにより,さらに重要なこと b) ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入することにより。 本稿では,ネットワークの各層の特徴地図上に再帰的にチャネルアテンションユニットを適用することで,非線形ビームフォーミングを実現するチャネルアテンション密集u-netを提案する。 我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。

Supervised deep learning has gained significant attention for speech enhancement recently. The state-of-the-art deep learning methods perform the task by learning a ratio/binary mask that is applied to the mixture in the time-frequency domain to produce the clean speech. Despite the great performance in the single-channel setting, these frameworks lag in performance in the multichannel setting as the majority of these methods a) fail to exploit the available spatial information fully, and b) still treat the deep architecture as a black box which may not be well-suited for multichannel audio processing. This paper addresses these drawbacks, a) by utilizing complex ratio masking instead of masking on the magnitude of the spectrogram, and more importantly, b) by introducing a channel-attention mechanism inside the deep architecture to mimic beamforming. We propose Channel-Attention Dense U-Net, in which we apply the channel-attention unit recursively on feature maps at every layer of the network, enabling the network to perform non-linear beamforming. We demonstrate the superior performance of the network against the state-of-the-art approaches on the CHiME-3 dataset.
翻訳日:2023-01-05 12:03:52 公開日:2020-01-30
# 画像生成のためのadversarial code learning

Adversarial Code Learning for Image Generation ( http://arxiv.org/abs/2001.11539v1 )

ライセンス: Link先を確認
Jiangbo Yuan, Bing Wu, Wanying Ding, Qing Ping, and Zhendong Yu(参考訳) 本稿では,複数種類の深層モデルに対して,画像生成全体のパフォーマンスを向上させる"adversarial code learning"(acl)モジュールを提案する。 aclsは、ジェネレータの画素空間で後方分布モデリングを行う代わりに、以前のノイズを入力として、別の画像エンコーダ/参照ネットと潜在コードを共同学習することを目指している。 我々は、元のganとよく似ているが、再び学習を画像空間から事前コード空間と潜在コード空間にシフトさせる、敵対的学習プロセスで学習を行う。 ACLは、生成モデル設計において、ずっと柔軟性と可能性をもたらすポータブルモジュールである。 まず、オートエンコーダや標準分類モデルのような非生成モデルから適切な生成モデルに変換する柔軟性がある。 第二に、前のどの部分から有意義なコードや画像を生成することで、既存のGANのパフォーマンスを向上させる。 ACLモジュールを前述のフレームワークに組み込んで,合成,MNIST,CIFAR-10,CelebAデータセットの実験を行った。 我々のモデルは画像生成タスクの汎用性を示す重要な改善を達成している。

We introduce the "adversarial code learning" (ACL) module that improves overall image generation performance to several types of deep models. Instead of performing a posterior distribution modeling in the pixel spaces of generators, ACLs aim to jointly learn a latent code with another image encoder/inference net, with a prior noise as its input. We conduct the learning in an adversarial learning process, which bears a close resemblance to the original GAN but again shifts the learning from image spaces to prior and latent code spaces. ACL is a portable module that brings up much more flexibility and possibilities in generative model designs. First, it allows flexibility to convert non-generative models like Autoencoders and standard classification models to decent generative models. Second, it enhances existing GANs' performance by generating meaningful codes and images from any part of the prior. We have incorporated our ACL module with the aforementioned frameworks and have performed experiments on synthetic, MNIST, CIFAR-10, and CelebA datasets. Our models have achieved significant improvements which demonstrated the generality for image generation tasks.
翻訳日:2023-01-05 12:02:31 公開日:2020-01-30
# histomicsml2.0: 全スライド画像データのための高速インタラクティブ機械学習

HistomicsML2.0: Fast interactive machine learning for whole slide imaging data ( http://arxiv.org/abs/2001.11547v1 )

ライセンス: Link先を確認
Sanghoon Lee, Mohamed Amgad, Deepak R. Chittajallu, Matt McCormick, Brian P Pollack, Habiba Elfandy, Hagar Hussein, David A Gutman, Lee AD Cooper(参考訳) 全体スライド画像から定量的表現型情報を抽出することは,画像解析アルゴリズムの開発経験のない研究者にとって大きな課題である。 本稿では,機械学習の分類器を高速に学習し,全スライディング画像データセットの組織学的パターンを検出するソフトウェアを提案する。 HistomicsML2.0は、さまざまなアプリケーションに容易に適応可能な畳み込みネットワークを使用し、Webベースのユーザインターフェースを提供し、デプロイを簡単にするためのソフトウェアコンテナとして利用できる。

Extracting quantitative phenotypic information from whole-slide images presents significant challenges for investigators who are not experienced in developing image analysis algorithms. We present new software that enables rapid learn-by-example training of machine learning classifiers for detection of histologic patterns in whole-slide imaging datasets. HistomicsML2.0 uses convolutional networks to be readily adaptable to a variety of applications, provides a web-based user interface, and is available as a software container to simplify deployment.
翻訳日:2023-01-05 12:02:14 公開日:2020-01-30
# モーダル線形回帰のためのカーネル選択:最適カーネルとIRLSアルゴリズム

Kernel Selection for Modal Linear Regression: Optimal Kernel and IRLS Algorithm ( http://arxiv.org/abs/2001.11168v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) モーダル線形回帰(MLR)は、線形モデルとして条件モード予測器を得る方法である。 我々は、MLRのカーネル選択について、「どのカーネルがより小さなエラーを達成するか」と「どのカーネルが計算効率が高いか」という2つの観点から研究する。 まず,MLRパラメータの漸近平均2乗誤差を最小化するという意味で,Biweightカーネルが最適であることを示す。 この結果は,mlrの漸近的統計挙動の精巧な解析から得られた。 第二に、反復再重み付き最小二乗アルゴリズム(IRLS)が収束することを保証し、特にエパネチニコフ核を持つIRLSが有限個の反復で終了することを示すカーネルクラスを提供する。 シミュレーション研究は、Biweightカーネルの使用が優れた推定精度を提供し、Epanechnikovカーネルの使用が計算的に効率的であることを実証した。 その結果,既存の研究がガウスカーネルとそれに特化したモーダルEMアルゴリズムに固執するMLRを,カーネル選択のガイドラインを提供することで改善した。

Modal linear regression (MLR) is a method for obtaining a conditional mode predictor as a linear model. We study kernel selection for MLR from two perspectives: "which kernel achieves smaller error?" and "which kernel is computationally efficient?". First, we show that a Biweight kernel is optimal in the sense of minimizing an asymptotic mean squared error of a resulting MLR parameter. This result is derived from our refined analysis of an asymptotic statistical behavior of MLR. Secondly, we provide a kernel class for which iteratively reweighted least-squares algorithm (IRLS) is guaranteed to converge, and especially prove that IRLS with an Epanechnikov kernel terminates in a finite number of iterations. Simulation studies empirically verified that using a Biweight kernel provides good estimation accuracy and that using an Epanechnikov kernel is computationally efficient. Our results improve MLR of which existing studies often stick to a Gaussian kernel and modal EM algorithm specialized for it, by providing guidelines of kernel selection.
翻訳日:2023-01-05 12:02:07 公開日:2020-01-30
# 蒸留知識を学習する学生の探索

Search for Better Students to Learn Distilled Knowledge ( http://arxiv.org/abs/2001.11612v1 )

ライセンス: Link先を確認
Jindong Gu, Volker Tresp(参考訳) モデル圧縮技術としての知識蒸留が注目されている。 身なりの良い教師の知識は、小さな建築を持つ生徒に蒸留される。 小学生のアーキテクチャは、しばしば教師のものと似ていて、層数やチャンネル数が少ないか、あるいはその両方で選択される。 しかし、同じ数のFLOPやパラメータであっても、異なるアーキテクチャの学生は異なる一般化能力を得ることができる。 学生アーキテクチャの構成には集中的なネットワークアーキテクチャ工学が必要である。 本研究では,優れた学生アーキテクチャを手作業で設計する代わりに,最適な学生を自動検索することを提案する。 L1-ノルム最適化に基づき、教師ネットワークトポロジグラフからのサブグラフを学生として選択し、学生の出力と教師の出力とのKL差を最小限にすることを目的とする。 CIFAR10およびCIFAR100データセット上で提案手法を検証する。 実験の結果,学習した学生のアーキテクチャは手作業で指定したものよりも優れた性能が得られることがわかった。 また,見出された学生のアーキテクチャを視覚化し,理解する。

Knowledge Distillation, as a model compression technique, has received great attention. The knowledge of a well-performed teacher is distilled to a student with a small architecture. The architecture of the small student is often chosen to be similar to their teacher's, with fewer layers or fewer channels, or both. However, even with the same number of FLOPs or parameters, the students with different architecture can achieve different generalization ability. The configuration of a student architecture requires intensive network architecture engineering. In this work, instead of designing a good student architecture manually, we propose to search for the optimal student automatically. Based on L1-norm optimization, a subgraph from the teacher network topology graph is selected as a student, the goal of which is to minimize the KL-divergence between student's and teacher's outputs. We verify the proposal on CIFAR10 and CIFAR100 datasets. The empirical experiments show that the learned student architecture achieves better performance than ones specified manually. We also visualize and understand the architecture of the found student.
翻訳日:2023-01-05 11:55:57 公開日:2020-01-30
# SGP-DT:動的ターゲットに基づく意味的遺伝的プログラミング

SGP-DT: Semantic Genetic Programming Based on Dynamic Targets ( http://arxiv.org/abs/2001.11535v1 )

ライセンス: Link先を確認
Stefano Ruberto and Valerio Terragni and Jason H. Moore(参考訳) セマンティックGPは、遺伝的進化の間に意味認識をもたらす有望なアプローチである。 本稿では,探索問題を複数のGP実行に分割する動的ターゲット(SGP-DT)に基づくセマンティックGP手法を提案する。 各実行における進化は、残差エラーに基づいて新しい(動的)ターゲットによって導かれる。 最終解を得るために、SGP-DTは線形スケーリングを用いて各ランの解を組み合わせる。 SGP-DTは、古典的なクロスオーバーに依存しない子孫を生成するための新しい方法論を提示します。 このような方法論と線形スケーリングの相乗効果は、近似誤差の低い最終解と計算コストをもたらす。 8つの既知のデータセット上でsgp-dtを評価し,最先端進化手法である"epsilon}-lexicase"と比較した。 sgp-dtは、"epsilon}-lexicase"よりも平均23.19%小さい小さなrmse値を達成する。

Semantic GP is a promising approach that introduces semantic awareness during genetic evolution. This paper presents a new Semantic GP approach based on Dynamic Target (SGP-DT) that divides the search problem into multiple GP runs. The evolution in each run is guided by a new (dynamic) target based on the residual errors. To obtain the final solution, SGP-DT combines the solutions of each run using linear scaling. SGP-DT presents a new methodology to produce the offspring that does not rely on the classic crossover. The synergy between such a methodology and linear scaling yields to final solutions with low approximation error and computational cost. We evaluate SGP-DT on eight well-known data sets and compare with {\epsilon}-lexicase, a state-of-the-art evolutionary technique. SGP-DT achieves small RMSE values, on average 23.19% smaller than the one of {\epsilon}-lexicase.
翻訳日:2023-01-05 11:55:00 公開日:2020-01-30
# 確率化学反応ネットワークのための自動深層抽象化

Automated Deep Abstractions for Stochastic Chemical Reaction Networks ( http://arxiv.org/abs/2002.01889v1 )

ライセンス: Link先を確認
Tatjana Petrov and Denis Repin(参考訳) 低レベルの化学反応ネットワーク(CRN)モデルは、計算的に要求され、しばしば実際に分析することを禁ずる高次元の連続時間マルコフ連鎖(CTMC)を生じさせる。 最近提案された抽象化法は、このctmcを離散時間連続空間プロセスに置き換えるために、一定の時間間隔でサンプリングされたトレースを持つ混合密度ディープニューラルネットワークを訓練する(与えられたcrnをシミュレートするか、実験から時系列データとして得られる)。 このような抽象化の大きな利点は、トレーニングデータの統計的特徴を保ちながら、劇的に安価に実行できる計算モデルを生成することである。 一般に、抽象精度はトレーニングデータの量によって向上する。 しかし、CRNによっては、この手法の全体的な品質 -- 効率向上と抽象化の精度 -- は、階層タイプやそれらの間の接続といったハイパーパラメータによって与えられるニューラルネットワークアーキテクチャの選択にも依存する。 その結果、実際には、モデラーは、退屈で時間のかかる試行錯誤サイクルを通じて、所定のcrnごとに、適切なアーキテクチャを手動で見つけなければなりません。 本稿では,ニューラルネットワークアーキテクチャを学習し,抽象プロセスの遷移カーネルを学習することで,確率的CRNの深い抽象化をさらに自動化することを提案する。 アーキテクチャの自動検索は、この手法を任意のCRNに直接適用する。 本手法を実装し,マルチモーダル創発的表現型を持つ多数の代表crn上でその性能を示す。

Predicting stochastic cellular dynamics as emerging from the mechanistic models of molecular interactions is a long-standing challenge in systems biology: low-level chemical reaction network (CRN) models give raise to a highly-dimensional continuous-time Markov chain (CTMC) which is computationally demanding and often prohibitive to analyse in practice. A recently proposed abstraction method uses deep learning to replace this CTMC with a discrete-time continuous-space process, by training a mixture density deep neural network with traces sampled at regular time intervals (which can obtained either by simulating a given CRN or as time-series data from experiment). The major advantage of such abstraction is that it produces a computational model that is dramatically cheaper to execute, while preserving the statistical features of the training data. In general, the abstraction accuracy improves with the amount of training data. However, depending on a CRN, the overall quality of the method -- the efficiency gain and abstraction accuracy -- will also depend on the choice of neural network architecture given by hyper-parameters such as the layer types and connections between them. As a consequence, in practice, the modeller would have to take care of finding the suitable architecture manually, for each given CRN, through a tedious and time-consuming trial-and-error cycle. In this paper, we propose to further automatise deep abstractions for stochastic CRNs, through learning the optimal neural network architecture along with learning the transition kernel of the abstract process. Automated search of the architecture makes the method applicable directly to any given CRN, which is time-saving for deep learning experts and crucial for non-specialists. We implement the method and demonstrate its performance on a number of representative CRNs with multi-modal emergent phenotypes.
翻訳日:2023-01-05 11:54:11 公開日:2020-01-30
# 自動車の運動計画のための深層強化学習に関する調査

Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles ( http://arxiv.org/abs/2001.11231v1 )

ライセンス: Link先を確認
Szil\'ard Aradi(参考訳) 近年、センサー技術、V2X通信、安全性、セキュリティ、意思決定、制御、さらには法的および標準化規則などに関する学術的な研究が盛んに行われている。 古典的な制御設計アプローチの他に、人工知能と機械学習の手法はほとんど全ての分野に存在する。 もうひとつの研究は、戦略的決定、軌道計画、制御など、さまざまな階層の運動計画に焦点を当てている。 機械学習自体の幅広い技術が開発されており、本記事では深層強化学習(Dep Reinforcement Learning:DRL)について述べる。 本稿では,階層型動作計画問題について考察し,DRLの基礎について述べる。 このようなシステムを設計する主な要素は、環境のモデリング、モデリング抽象化、状態と知覚モデルの記述、適切な報酬、基盤となるニューラルネットワークの実現である。 本論文は,車両モデル,シミュレーション可能性,計算要件について述べる。 異なるレイヤと観測モデル、例えば連続的および離散的な状態表現、グリッドベース、カメラベースのソリューションに関する戦略的決定を示す。 本稿では,自動車追従,車線維持,軌跡追従,合流,高密度交通における運転など,さまざまなタスクと自律運転レベルによって体系化された最先端のソリューションを調査した。 最後に、オープン質問と今後の課題について論じる。

Academic research in the field of autonomous vehicles has reached high popularity in recent years related to several topics as sensor technologies, V2X communications, safety, security, decision making, control, and even legal and standardization rules. Besides classic control design approaches, Artificial Intelligence and Machine Learning methods are present in almost all of these fields. Another part of research focuses on different layers of Motion Planning, such as strategic decisions, trajectory planning, and control. A wide range of techniques in Machine Learning itself have been developed, and this article describes one of these fields, Deep Reinforcement Learning (DRL). The paper provides insight into the hierarchical motion planning problem and describes the basics of DRL. The main elements of designing such a system are the modeling of the environment, the modeling abstractions, the description of the state and the perception models, the appropriate rewarding, and the realization of the underlying neural network. The paper describes vehicle models, simulation possibilities and computational requirements. Strategic decisions on different layers and the observation models, e.g., continuous and discrete state representations, grid-based, and camera-based solutions are presented. The paper surveys the state-of-art solutions systematized by the different tasks and levels of autonomous driving, such as car-following, lane-keeping, trajectory following, merging, or driving in dense traffic. Finally, open questions and future challenges are discussed.
翻訳日:2023-01-05 11:53:17 公開日:2020-01-30
# どっちだ? 方向認識型グラフ埋め込み

Which way? Direction-Aware Attributed Graph Embedding ( http://arxiv.org/abs/2001.11297v1 )

ライセンス: Link先を確認
Zekarias T. Kefato, Nasrullah Sheikh, Alberto Montresor(参考訳) グラフ埋め込みアルゴリズムは、グラフの最も重要な性質を保存する低次元連続ベクトル空間におけるグラフを効率的に表現(エンコード)するために用いられる。 しばしば見落とされがちな側面は、グラフが向き付けられたかどうかである。 ほとんどの研究は、ノード分類に最適化された高品質な表現を学ぶために方向性を無視している。 一方,方向性を捉えた研究はリンク予測に効果があるが,他のタスクではうまく機能しない。 本研究は, ノードのエッジ, テキスト特徴, グラフコンテキストを保存した埋め込みを学習するための, 慎重に設計された多目的モデルに基づく, DIAGRAM と呼ばれる新しいテキスト富化方向認識アルゴリズムを提案する。 その結果,本アルゴリズムは,ある特性を他の特性と交換する必要がなく,複数のネットワーク解析タスクの高品質表現を協調的に学習する。 2つの一般的なデータセットを用いたリンク予測とネットワーク再構築実験において,ダイアグラムが6つの最先端ベースラインを有意に上回っていることを実証的に示す。 また、同じデータセットを使用してこれらのベースラインに対してノード分類実験で同等のパフォーマンスを達成する。

Graph embedding algorithms are used to efficiently represent (encode) a graph in a low-dimensional continuous vector space that preserves the most important properties of the graph. One aspect that is often overlooked is whether the graph is directed or not. Most studies ignore the directionality, so as to learn high-quality representations optimized for node classification. On the other hand, studies that capture directionality are usually effective on link prediction but do not perform well on other tasks. This preliminary study presents a novel text-enriched, direction-aware algorithm called DIAGRAM , based on a carefully designed multi-objective model to learn embeddings that preserve the direction of edges, textual features and graph context of nodes. As a result, our algorithm does not have to trade one property for another and jointly learns high-quality representations for multiple network analysis tasks. We empirically show that DIAGRAM significantly outperforms six state-of-the-art baselines, both direction-aware and oblivious ones,on link prediction and network reconstruction experiments using two popular datasets. It also achieves a comparable performance on node classification experiments against these baselines using the same datasets.
翻訳日:2023-01-05 11:52:56 公開日:2020-01-30
# 量子化による離散分布の学習

Learning Discrete Distributions by Dequantization ( http://arxiv.org/abs/2001.11235v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Taco S. Cohen, Jakub M. Tomczak(参考訳) メディアは一般にデジタルで保存され、したがって離散化される。 ディープラーニングで成功した多くの深層分布モデルは、連続確率変数の分布のような密度を学習する。 離散データに対するna\"ive optimizationは任意に高い確率につながり、代わりにデータポイントにノイズを追加するのが一般的である。 本稿では,既存の手法を特殊ケースとして捉えた解量化の汎用フレームワークを提案する。 我々は、重要度重み付き(iw)のデ量子化とr\'enyiのデ量子化という2つの新しいデ量子化目標を導出する。 さらに,よりフレキシブルなdequantization分布のためのautoregressive dequantization (ARD)を導入する。 実験により, iw と R'enyi の量子化は均一な量子化分布の性能を著しく向上することがわかった。 ARD は CIFAR10 上で 1次元当たり 3.06 ビットの負のログ化を実現している。

Media is generally stored digitally and is therefore discrete. Many successful deep distribution models in deep learning learn a density, i.e., the distribution of a continuous random variable. Na\"ive optimization on discrete data leads to arbitrarily high likelihoods, and instead, it has become standard practice to add noise to datapoints. In this paper, we present a general framework for dequantization that captures existing methods as a special case. We derive two new dequantization objectives: importance-weighted (iw) dequantization and R\'enyi dequantization. In addition, we introduce autoregressive dequantization (ARD) for more flexible dequantization distributions. Empirically we find that iw and R\'enyi dequantization considerably improve performance for uniform dequantization distributions. ARD achieves a negative log-likelihood of 3.06 bits per dimension on CIFAR10, which to the best of our knowledge is state-of-the-art among distribution models that do not require autoregressive inverses for sampling.
翻訳日:2023-01-05 11:46:31 公開日:2020-01-30
# 小型データセットのマルチクラス確率推定法

Better Multi-class Probability Estimates for Small Data Sets ( http://arxiv.org/abs/2001.11242v1 )

ライセンス: Link先を確認
Tuomo Alasalmi, Jaakko Suutala, Heli Koskim\"aki and Juha R\"oning(参考訳) 多くの分類アプリケーションは、良いクラス分離に加えて正確な確率推定を必要とするが、しばしば分類器は後者にのみ焦点をあてて設計される。 キャリブレーションは、後処理による確率推定を改善するプロセスであるが、一般的に使用されるキャリブレーションアルゴリズムは、小さなデータセットではうまく動作せず、分類タスクをバイナリと仮定する。 どちらも現実の応用性を制限するものだ。 従来導入されていたデータ生成とグループ化アルゴリズムは,小規模なデータセットによって生じる問題を緩和し,本論文では,他の制限を解消する多クラス問題にも適用可能であることを実証する。 実験により,提案手法を用いてキャリブレーション誤差を低減し,計算コストの増大を許容できることを示した。

Many classification applications require accurate probability estimates in addition to good class separation but often classifiers are designed focusing only on the latter. Calibration is the process of improving probability estimates by post-processing but commonly used calibration algorithms work poorly on small data sets and assume the classification task to be binary. Both of these restrictions limit their real-world applicability. Previously introduced Data Generation and Grouping algorithm alleviates the problem posed by small data sets and in this article, we will demonstrate that its application to multi-class problems is also possible which solves the other limitation. Our experiments show that calibration error can be decreased using the proposed approach and the additional computational cost is acceptable.
翻訳日:2023-01-05 11:46:05 公開日:2020-01-30
# NCVis:スケーラブルな可視化のためのノイズコントラストアプローチ

NCVis: Noise Contrastive Approach for Scalable Visualization ( http://arxiv.org/abs/2001.11411v1 )

ライセンス: Link先を確認
Aleksandr Artemenkov and Maxim Panov(参考訳) t-SNEのような次元還元によるデータ可視化の現代的な手法は、通常、大量の高次元データへの適用を禁じる性能上の問題がある。 本研究では,ノイズコントラッシブ推定の音響統計に基づく高性能次元低減手法であるNCVisを提案する。 NCVisは,他の手法の表現品質を保ちながら,速度の観点から最先端技術よりも優れていることを示す。 特に、提案したアプローチは、数分で100万以上のニュースの見出しの大規模なデータセットを前進させ、その基盤となる構造を可読性のある方法で提示する。 さらに、手書き桁の画像のようなより単純なデータセット上で、t-SNEのような古典的なメソッドと一致した結果を提供する。 このようなソフトウェアの利用は、大規模なデータ分析を大幅に単純化し、この分野への参入障壁を低くすることができると信じている。

Modern methods for data visualization via dimensionality reduction, such as t-SNE, usually have performance issues that prohibit their application to large amounts of high-dimensional data. In this work, we propose NCVis -- a high-performance dimensionality reduction method built on a sound statistical basis of noise contrastive estimation. We show that NCVis outperforms state-of-the-art techniques in terms of speed while preserving the representation quality of other methods. In particular, the proposed approach successfully proceeds a large dataset of more than 1 million news headlines in several minutes and presents the underlying structure in a human-readable way. Moreover, it provides results consistent with classical methods like t-SNE on more straightforward datasets like images of hand-written digits. We believe that the broader usage of such software can significantly simplify the large-scale data analysis and lower the entry barrier to this area.
翻訳日:2023-01-05 11:45:27 公開日:2020-01-30
# マルチヌーリ確率変数の濃度不等式

Concentration Inequalities for Multinoulli Random Variables ( http://arxiv.org/abs/2001.11595v1 )

ライセンス: Link先を確認
Jian Qian, Ronan Fruit, Matteo Pirotta, Alessandro Lazaric(参考訳) ディリクレおよび多項確率変数の濃度不等式について検討する。

We investigate concentration inequalities for Dirichlet and Multinomial random variables.
翻訳日:2023-01-05 11:44:22 公開日:2020-01-30
# 深層階計画認識のための方向認識, 学習可能, 付加的カーネルと敵ネットワーク

The Direction-Aware, Learnable, Additive Kernels and the Adversarial Network for Deep Floor Plan Recognition ( http://arxiv.org/abs/2001.11194v1 )

ライセンス: Link先を確認
Yuli Zhang, Yeyang He, Shaowen Zhu, Xinhan Di(参考訳) 本稿では,フロアプランレイアウトにおける要素認識のための新しい手法を提案する。 共通の形状を持つ要素の他に、円形室や傾斜壁などの不規則な形状の要素を識別することを目的としている。 さらに,フロアプランのセマンティックセグメンテーションにおけるノイズの低減が要求されている。 そこで本稿では,コンテキストモジュールと共通畳み込みブロックの両方を応用した,方向対応,学習可能な,付加的なカーネルを提案する。 共通形状と不規則形状の両方の要素の高性能化に応用する。 また,要素の精度をさらに向上させ,セマンティクスセグメンテーションのノイズを低減するために,識別器を2つ備えた逆ネットワークを提案する。 実験の結果,最先端手法に対する提案ネットワークの優位性と有効性が実証された。

This paper presents a new approach for the recognition of elements in floor plan layouts. Besides of elements with common shapes, we aim to recognize elements with irregular shapes such as circular rooms and inclined walls. Furthermore, the reduction of noise in the semantic segmentation of the floor plan is on demand. To this end, we propose direction-aware, learnable, additive kernels in the application of both the context module and common convolutional blocks. We apply them for high performance of elements with both common and irregular shapes. Besides, an adversarial network with two discriminators is proposed to further improve the accuracy of the elements and to reduce the noise of the semantic segmentation. Experimental results demonstrate the superiority and effectiveness of the proposed network over the state-of-the-art methods.
翻訳日:2023-01-05 11:43:45 公開日:2020-01-30
# 神経進化のためのフィットネスランドスケープに関する研究

A Study of Fitness Landscapes for Neuroevolution ( http://arxiv.org/abs/2001.11272v1 )

ライセンス: Link先を確認
Nuno M. Rodrigues, Sara Silva, Leonardo Vanneschi(参考訳) フィットネスランドスケープはメタヒューリスティックスのダイナミクスを研究する上で有用な概念である。 過去20年間で、遺伝的アルゴリズムや遺伝的プログラミングなど、いくつかの種類の進化的アルゴリズムの最適化能力の推定に成功している。 しかし、これまでのところ、未知のデータに対する機械学習アルゴリズムのパフォーマンスの研究には使用されておらず、神経進化には適用されていない。 本研究の目的は,これらのギャップを埋めること,神経進化に初めてフィットネスランドスケープを適用し,その手法の予測能力に関する有用な情報を推測することである。 より具体的には、畳み込みニューラルネットワークを生成するために文法に基づくアプローチを用い、3つの異なる突然変異のダイナミクスを研究して進化させる。 フィットネスの景観を特徴付けるため,頑丈さの自己相関とエントロピー尺度について検討した。 以上の結果から,これらの指標は神経進化的構成の最適化能力と一般化能力の両方を推定するのに適していることが示唆された。

Fitness landscapes are a useful concept to study the dynamics of meta-heuristics. In the last two decades, they have been applied with success to estimate the optimization power of several types of evolutionary algorithms, including genetic algorithms and genetic programming. However, so far they have never been used to study the performance of machine learning algorithms on unseen data, and they have never been applied to neuroevolution. This paper aims at filling both these gaps, applying for the first time fitness landscapes to neuroevolution and using them to infer useful information about the predictive ability of the method. More specifically, we use a grammar-based approach to generate convolutional neural networks, and we study the dynamics of three different mutations to evolve them. To characterize fitness landscapes, we study autocorrelation and entropic measure of ruggedness. The results show that these measures are appropriate for estimating both the optimization power and the generalization ability of the considered neuroevolution configurations.
翻訳日:2023-01-05 11:37:23 公開日:2020-01-30
# 臨床試験テキストにおけるデータマイニング:分類と質問応答のためのトランスフォーマー

Data Mining in Clinical Trial Text: Transformers for Classification and Question Answering Tasks ( http://arxiv.org/abs/2001.11268v1 )

ライセンス: Link先を確認
Lena Schmidt, Julie Weeds, Julian P. T. Higgins(参考訳) 本研究は,最近の自然言語処理の進歩を医学文献に基づくエビデンス合成に適用する。 興味のあるテキストには、英語および多言語文脈における臨床試験の要約が含まれる。 主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークによって特徴づけられる情報であるが、データ抽出はこれらの分野に限定されていない。 トランスフォーマーをベースとした最近のニューラルネットワークアーキテクチャは、文脈化された単語埋め込みと自己認識機構の使用により、伝達学習の能力を示し、普遍的な読解のような下流自然言語処理タスクのパフォーマンスが向上している。 本稿では,PICO文予測タスクにおける曖昧性に関連する問題の解決に寄与し,体系的レビュー自動化において,ハイパフォーマンスでフレキシブルなアーキテクチャをトレーニングするために,名前付きエンティティ認識システムのアノテーションがどのように使われているかを強調した。 さらに,PICOエンティティ抽出のためのトレーニングアノテーションの不足が,拡張によってどのように対処されるかを示す。 本論文のすべてのモデルは,体系的レビュー(semi)自動化を支援する目的で作成された。 彼らは高いF1スコアを達成し、バイオメディカル文献におけるデータマイニングを支援するためにトランスフォーマーベースの分類手法の適用可能性を示した。

This research on data extraction methods applies recent advances in natural language processing to evidence synthesis based on medical texts. Texts of interest include abstracts of clinical trials in English and in multilingual contexts. The main focus is on information characterized via the Population, Intervention, Comparator, and Outcome (PICO) framework, but data extraction is not limited to these fields. Recent neural network architectures based on transformers show capacities for transfer learning and increased performance on downstream natural language processing tasks such as universal reading comprehension, brought forward by this architecture's use of contextualized word embeddings and self-attention mechanisms. This paper contributes to solving problems related to ambiguity in PICO sentence prediction tasks, as well as highlighting how annotations for training named entity recognition systems are used to train a high-performing, but nevertheless flexible architecture for question answering in systematic review automation. Additionally, it demonstrates how the problem of insufficient amounts of training annotations for PICO entity extraction is tackled by augmentation. All models in this paper were created with the aim to support systematic review (semi)automation. They achieve high F1 scores, and demonstrate the feasibility of applying transformer-based classification methods to support data mining in the biomedical literature.
翻訳日:2023-01-05 11:36:47 公開日:2020-01-30
# 回帰におけるアクティブラーニングのためのグラフベースアプローチ

A Graph-Based Approach for Active Learning in Regression ( http://arxiv.org/abs/2001.11143v1 )

ライセンス: Link先を確認
Hongjing Zhang, S. S. Ravi, Ian Davidson(参考訳) アクティブラーニングは、ラベルのないプールから最も重要なデータポイントに注釈を付けることでラベル付けの労力を減らすことを目的としており、人間と機械の相互作用の一例である。 アクティブラーニングは分類問題やランキング問題のために広範囲に研究されてきたが、回帰問題については相対的に研究されていない。 回帰法の既存のアクティブラーニングのほとんどは、各アクティブラーニングイテレーションで学んだ回帰関数を使用して、クエリする次の情報ポイントを選択する。 これにより、ノイズラベルの扱い、パラメータの不確実性、初期バイアスのあるトレーニングデータの克服など、いくつかの課題が発生する。 代わりに,新しい2成分グラフ最適化問題として逐次およびバッチモードのアクティブレグレッションを定式化する機能重視アプローチを提案する。 ノイズフリーとノイズフリーの両方の環境で実験を行う。 ベンチマークデータセットにおける実験結果は,提案手法の有効性を示すものである。

Active learning aims to reduce labeling efforts by selectively asking humans to annotate the most important data points from an unlabeled pool and is an example of human-machine interaction. Though active learning has been extensively researched for classification and ranking problems, it is relatively understudied for regression problems. Most existing active learning for regression methods use the regression function learned at each active learning iteration to select the next informative point to query. This introduces several challenges such as handling noisy labels, parameter uncertainty and overcoming initially biased training data. Instead, we propose a feature-focused approach that formulates both sequential and batch-mode active regression as a novel bipartite graph optimization problem. We conduct experiments on both noise-free and noisy settings. Our experimental results on benchmark data sets demonstrate the effectiveness of our proposed approach.
翻訳日:2023-01-05 11:36:26 公開日:2020-01-30
# 多人数多人数垂直フェデレーション学習

Multi-Participant Multi-Class Vertical Federated Learning ( http://arxiv.org/abs/2001.11154v1 )

ライセンス: Link先を確認
Siwei Feng and Han Yu(参考訳) Federated Learning(FL)は、複数の参加者からローカルに保存されたデータを使って、集合機械学習モデルをトレーニングするためのプライバシー保護パラダイムである。 垂直連合学習(VFL)は、同じサンプルID空間を共有するが、異なる特徴空間を持つ参加者を扱い、ラベル情報は1人の参加者によって所有される。 VFLの現在の研究は2つの参加者しかサポートせず、主にバイナリクラスのロジスティック回帰問題に焦点を当てている。 本稿では,多人数VFL問題に対する多人数多人数垂直フェデレート学習(MMVFL)フレームワークを提案する。 MMVFLは、マルチビュー学習(MVL)の概念を拡張し、所有者から他のVFL参加者へのラベル共有をプライバシー保護の方法で行う。 MMVFLの有効性を示すために,MMVFLに特徴選択スキームを組み込んで,その性能を教師付き特徴選択とMVLに基づくアプローチと比較する。 実世界のデータセットを用いた実験結果から,MMVFLは複数のVFL参加者間でラベル情報を効果的に共有し,既存手法のマルチクラス分類性能と一致させることができることがわかった。

Federated learning (FL) is a privacy-preserving paradigm for training collective machine learning models with locally stored data from multiple participants. Vertical federated learning (VFL) deals with the case where participants sharing the same sample ID space but having different feature spaces, while label information is owned by one participant. Current studies of VFL only support two participants, and mostly focus on binaryclass logistic regression problems. In this paper, we propose the Multi-participant Multi-class Vertical Federated Learning (MMVFL) framework for multi-class VFL problems involving multiple parties. Extending the idea of multi-view learning (MVL), MMVFL enables label sharing from its owner to other VFL participants in a privacypreserving manner. To demonstrate the effectiveness of MMVFL, a feature selection scheme is incorporated into MMVFL to compare its performance against supervised feature selection and MVL-based approaches. Experiment results on real-world datasets show that MMVFL can effectively share label information among multiple VFL participants and match multi-class classification performance of existing approaches.
翻訳日:2023-01-05 11:36:11 公開日:2020-01-30
# 遺伝的アルゴリズムと弾性ネットを用いたハイブリッド2層特徴選択法

A Hybrid Two-layer Feature Selection Method Using GeneticAlgorithm and Elastic Net ( http://arxiv.org/abs/2001.11177v1 )

ライセンス: Link先を確認
Fatemeh Amini and Guiping Hu(参考訳) 特徴選択は、機械学習における重要な前処理ステップとして、高次元特徴空間データセットから代表予測器を決定することを目的としており、予測精度を向上させる。 しかし,観測回数と比較して特徴空間の次元性の増大は,計算効率や予測性能に関して,既存の特徴選択手法の多くに深刻な課題をもたらす。 本稿では,予測器の適切なサブセットを構築する際に,ラッパーと組込み手法を組み合わせたハイブリッドな2層特徴選択手法を提案する。 提案手法の第1層では,予測器数と予測誤差の低減を目的とした予測器の最適部分集合を探索するラッパーとしてGAが採用されている。 メタヒューリスティックなアプローチの1つとして、GAはその計算効率から選択されるが、GAは最適性を保証しない。 この問題に対処するために,提案手法に第2層を追加し,残余/無関係予測器を除去し,予測精度を向上させる。 正則化過程におけるペナルティ項の調整と時間効率の柔軟性から、第2層では弾性ネット(en)が組込み方式として選択されている。 このハイブリッド2層アプローチは、NAM集団のMaize遺伝データセットに適用され、予測値と観測値の比率の異なるデータセットの複数のサブセットで構成されている。 その結果,提案モデルの有効性が確認された。

Feature selection, as a critical pre-processing step for machine learning, aims at determining representative predictors from a high-dimensional feature space dataset to improve the prediction accuracy. However, the increase in feature space dimensionality, comparing to the number of observations, poses a severe challenge to many existing feature selection methods with respect to computational efficiency and prediction performance. This paper presents a new hybrid two-layer feature selection approach that combines a wrapper and an embedded method in constructing an appropriate subset of predictors. In the first layer of the proposed method, the Genetic Algorithm(GA) has been adopted as a wrapper to search for the optimal subset of predictors, which aims to reduce the number of predictors and the prediction error. As one of the meta-heuristic approaches, GA is selected due to its computational efficiency; however, GAs do not guarantee the optimality. To address this issue, a second layer is added to the proposed method to eliminate any remaining redundant/irrelevant predictors to improve the prediction accuracy. Elastic Net(EN) has been selected as the embedded method in the second layer because of its flexibility in adjusting the penalty terms in regularization process and time efficiency. This hybrid two-layer approach has been applied on a Maize genetic dataset from NAM population, which consists of multiple subsets of datasets with different ratio of the number of predictors to the number of observations. The numerical results confirm the superiority of the proposed model.
翻訳日:2023-01-05 11:35:35 公開日:2020-01-30
# ベイズ最適化を用いたブラックボックス・サリエンシマップ生成

Black-Box Saliency Map Generation Using Bayesian Optimisation ( http://arxiv.org/abs/2001.11366v1 )

ライセンス: Link先を確認
Mamuku Mokuwe, Michael Burke, Anna Sergeevna Bosman(参考訳) 正当性マップはコンピュータビジョンにおいて、モデルが特定の予測を生成するために使っている入力領域の直感的な解釈を提供するためにしばしば用いられる。 サリエンシーマップ生成に対する多くのアプローチが利用可能であるが、そのほとんどはモデルパラメータへのアクセスを必要とする。 本研究は,ベイズ最適化サンプリング法を用いて,モデルパラメータへのアクセスが不要なブラックボックスモデルに対するサリエンシマップ生成手法を提案する。 このアプローチは、特定の(ブラックボックス)モデルの予測に責任を持つグローバルサルエントイメージ領域を見つけることを目的としている。 これは、画像の正常な領域をブラックボックスモデルにローカライズしようとする摂動モデルに対するサンプリングベースのアプローチによって達成される。 その結果,提案手法はグリッド型摂動法よりも優れており,モデルパラメータへのアクセスを必要とする勾配型手法と同様であることがわかった。

Saliency maps are often used in computer vision to provide intuitive interpretations of what input regions a model has used to produce a specific prediction. A number of approaches to saliency map generation are available, but most require access to model parameters. This work proposes an approach for saliency map generation for black-box models, where no access to model parameters is available, using a Bayesian optimisation sampling method. The approach aims to find the global salient image region responsible for a particular (black-box) model's prediction. This is achieved by a sampling-based approach to model perturbations that seeks to localise salient regions of an image to the black-box model. Results show that the proposed approach to saliency map generation outperforms grid-based perturbation approaches, and performs similarly to gradient-based approaches which require access to model parameters.
翻訳日:2023-01-05 11:28:27 公開日:2020-01-30
# TensorFlow ResNetにおける非決定性

Non-Determinism in TensorFlow ResNets ( http://arxiv.org/abs/2001.11396v1 )

ライセンス: Link先を確認
Miguel Morin, Matthew Willetts(参考訳) TensorFlowのGPU上の画像分類のためのResNetのトレーニングにおける確率性は、ネットワークの重みとバイアスの初期化や与えられたミニバッチのシーケンスよりも、GPUの非決定性に支配されている。 テストセット精度の標準偏差は固定種子で0.02であり、異なる種子を持つ0.027と比較すると、resnetモデルの標準偏差の約74\%は非決定的である。 テストセットの損失の場合、標準偏差の比率は80\%以上である。 これらの結果は、GPUのランダム性から、実行中の結果のかなりの変化が生じるため、ディープラーニングモデルのより堅牢な評価戦略を要求する。

We show that the stochasticity in training ResNets for image classification on GPUs in TensorFlow is dominated by the non-determinism from GPUs, rather than by the initialisation of the weights and biases of the network or by the sequence of minibatches given. The standard deviation of test set accuracy is 0.02 with fixed seeds, compared to 0.027 with different seeds---nearly 74\% of the standard deviation of a ResNet model is non-deterministic. For test set loss the ratio of standard deviations is more than 80\%. These results call for more robust evaluation strategies of deep learning models, as a significant amount of the variation in results across runs can arise simply from GPU randomness.
翻訳日:2023-01-05 11:28:04 公開日:2020-01-30
# 単位四元数上の四元値再帰射影ニューラルネットワーク

Quaternion-Valued Recurrent Projection Neural Networks on Unit Quaternions ( http://arxiv.org/abs/2001.11846v1 )

ライセンス: Link先を確認
Marcos Eduardo Valle and Rodolfo Anibal Lobo(参考訳) 四元値ニューラルネットワークを含む超複素値ニューラルネットワークは、多次元データを単一の実体として扱うことができる。 本稿では,QRPNN(Courternion-valued Recurrent projection Neural Network)を提案する。 簡単に言えば、QRPNNは、非局所射影学習と四元数値反復相関ニューラルネットワーク(QRCNN)を組み合わせることで得られる。 我々はQRPNNがQRCNNのクロストーク問題を克服していることを示す。 したがって、連想記憶を実装するのに適している。 さらに、計算実験により、QRPNNは対応するQRCNNよりも容量と耐雑音性が高いことが明らかとなった。

Hypercomplex-valued neural networks, including quaternion-valued neural networks, can treat multi-dimensional data as a single entity. In this paper, we present the quaternion-valued recurrent projection neural networks (QRPNNs). Briefly, QRPNNs are obtained by combining the non-local projection learning with the quaternion-valued recurrent correlation neural network (QRCNNs). We show that QRPNNs overcome the cross-talk problem of QRCNNs. Thus, they are appropriate to implement associative memories. Furthermore, computational experiments reveal that QRPNNs exhibit greater storage capacity and noise tolerance than their corresponding QRCNNs.
翻訳日:2023-01-05 11:27:45 公開日:2020-01-30
# 事前訓練された言語モデルはフレーズに気付くか? 文法誘導のための単純だが強いベースライン

Are Pre-trained Language Models Aware of Phrases? Simple but Strong Baselines for Grammar Induction ( http://arxiv.org/abs/2002.00737v1 )

ライセンス: Link先を確認
Taeuk Kim, Jihun Choi, Daniel Edmiston, and Sang-goo Lee(参考訳) 近年,自然言語処理における事前学習型言語モデル(LM)の成功と普及により,言語の内部動作を理解する努力が増加している。 このような関心に則って,事前学習されたLMが選挙区の統語的概念をどの程度捉えているかを調べるための新しい手法を提案する。 本手法は,事前学習したLMから選択木を学習せずに抽出する有効な方法である。 さらに,先行学習したLMが文中の副詞句を正しく区切りする上で,他のアプローチよりも優れていることなど,誘導木における興味深い発見を報告する。

With the recent success and popularity of pre-trained language models (LMs) in natural language processing, there has been a rise in efforts to understand their inner workings. In line with such interest, we propose a novel method that assists us in investigating the extent to which pre-trained LMs capture the syntactic notion of constituency. Our method provides an effective way of extracting constituency trees from the pre-trained LMs without training. In addition, we report intriguing findings in the induced trees, including the fact that pre-trained LMs outperform other approaches in correctly demarcating adverb phrases in sentences.
翻訳日:2023-01-05 11:27:35 公開日:2020-01-30
# Fase-AL -- アクティブラーニングを支援するアンサンブルの適応的高速化

Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for Supporting Active Learning ( http://arxiv.org/abs/2001.11466v1 )

ライセンス: Link先を確認
Agust\'in Alejandro Ortiz-D\'iaz, Fabiano Baldo, Laura Mar\'ia Palomino Mari\~no and Alberto Verdecia Cabrera(参考訳) データストリームをマイニングするための分類アルゴリズムは近年広く研究されている。 しかし、これらのアルゴリズムの多くはラベル付きインスタンスを必要とする教師付き学習のために設計されている。 それでもデータのラベル付けは高価で時間を要する。 このため、モデル性能を著しく損なうことなくラベル付けプロセスのコストを削減するための代替学習パラダイムが提案されている。 アクティブラーニングはこれらのパラダイムの1つであり、その主な目的は、適切な精度のレベルを達成するラベル付きサンプルの最小数を要求する分類モデルを構築することである。 そこで本研究では,Active Learningを用いて非ラベルのインスタンスで分類モデルを生成するFASE-ALアルゴリズムを提案する。 FASE-ALはFASE(Fast Adaptive Stacking of Ensembles)アルゴリズムに基づいている。 FASEは、入力データストリームがコンセプトドリフトを持つときにモデルを検出し、適応するアンサンブルアルゴリズムである。 FASE-ALは本研究で発見された4つの活動的学習戦略と比較した。 実験には実データと合成データベースが使われた。 このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。

Classification algorithms to mine data stream have been extensively studied in recent years. However, a lot of these algorithms are designed for supervised learning which requires labeled instances. Nevertheless, the labeling of the data is costly and time-consuming. Because of this, alternative learning paradigms have been proposed to reduce the cost of the labeling process without significant loss of model performance. Active learning is one of these paradigms, whose main objective is to build classification models that request the lowest possible number of labeled examples achieving adequate levels of accuracy. Therefore, this work presents the FASE-AL algorithm which induces classification models with non-labeled instances using Active Learning. FASE-AL is based on the algorithm Fast Adaptive Stacking of Ensembles (FASE). FASE is an ensemble algorithm that detects and adapts the model when the input data stream has concept drift. FASE-AL was compared with four different strategies of active learning found in the literature. Real and synthetic databases were used in the experiments. The algorithm achieves promising results in terms of the percentage of correctly classified instances.
翻訳日:2023-01-05 11:26:29 公開日:2020-01-30
# 回帰のための輸送ガウス過程

Transport Gaussian Processes for Regression ( http://arxiv.org/abs/2001.11473v1 )

ライセンス: Link先を確認
Gonzalo Rios(参考訳) ガウス過程 (GP) は非パラメトリックな生成モデルであり、ベイズ的推論に魅力的なモデリング特性を持ち、ノイズ観測によって非線形関係をモデル化でき、訓練と推論のための閉形式表現を持ち、解釈可能なハイパーパラメータによって支配される。 しかし、GPモデルはガウシアン性(ガウシアン性)に依存しており、例えば観測が境界づけられている場合や極値依存がある場合、物理学、金融学、社会科学において自然現象である。 beyond-gaussian stochastic process はgpコミュニティの注目を集めているが、原理的な定義と厳密な扱いはまだ欠けている。 本研究では,gps,warped gps,student-tプロセスなどの確率過程を単一の統一的手法で構築する手法を提案する。 また,回帰問題における提案モデルの学習と推論のための公式とアルゴリズムを提供する。 提案手法は,各層が生成した確率過程上で特定の特性を変化させるレイヤベースモデルに着想を得たものである。 これにより、他のより表現力のある確率過程に先立って標準ガウスホワイトノイズを前進させることができ、その場合、辺とコプラはガウスでなくてもよいが、GPの魅力は保たれる。 実世界データを用いた実験により,提案モデルを検証する。

Gaussian process (GP) priors are non-parametric generative models with appealing modelling properties for Bayesian inference: they can model non-linear relationships through noisy observations, have closed-form expressions for training and inference, and are governed by interpretable hyperparameters. However, GP models rely on Gaussianity, an assumption that does not hold in several real-world scenarios, e.g., when observations are bounded or have extreme-value dependencies, a natural phenomenon in physics, finance and social sciences. Although beyond-Gaussian stochastic processes have caught the attention of the GP community, a principled definition and rigorous treatment is still lacking. In this regard, we propose a methodology to construct stochastic processes, which include GPs, warped GPs, Student-t processes and several others under a single unified approach. We also provide formulas and algorithms for training and inference of the proposed models in the regression problem. Our approach is inspired by layers-based models, where each proposed layer changes a specific property over the generated stochastic process. That, in turn, allows us to push-forward a standard Gaussian white noise prior towards other more expressive stochastic processes, for which marginals and copulas need not be Gaussian, while retaining the appealing properties of GPs. We validate the proposed model through experiments with real-world data.
翻訳日:2023-01-05 11:26:07 公開日:2020-01-30