このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20201125)

# 確率的勾配降下に対するカラス・エオディーサンプリング

Carath\'eodory Sampling for Stochastic Gradient Descent ( http://arxiv.org/abs/2006.01819v2 )

ライセンス: Link先を確認
Francesco Cosentino, Harald Oberhauser, Alessandro Abate(参考訳) 多くの問題は、大規模なデータセット上で経験的リスク関数を最適化する必要がある。 各降下ステップの完全な勾配を計算する勾配降下法はそのようなデータセットにスケールしない。 確率勾配 Descent (SGD) の様々な風味は、高分散に苦しむデータセットのランダムに選択されたサブサンプルに対して小さな和で近似することで、全勾配を計算する高価な和に取って代わる。 そこで本研究では,tchakaloff と carath\'eodory による測度還元に関する古典的結果に触発された異なるアプローチを提案する。 これらの結果により、実験的な測度を、はるかに小さい支持を持つが期待される勾配のような統計を保存できる、注意深く構築された別の確率測度に置き換えることができる。 これをスケーラブルなアルゴリズムに変換するために、まず、測定値の削減を行う降下ステップを適応的に選択し、次に、測定値の削減を非常に安価に行えるようにブロック座標Descentと組み合わせる。 これにより、結果のメソッドは高次元空間にスケーラブルになる。 最後に,実験的な検証と比較を行う。

Many problems require to optimize empirical risk functions over large data sets. Gradient descent methods that calculate the full gradient in every descent step do not scale to such datasets. Various flavours of Stochastic Gradient Descent (SGD) replace the expensive summation that computes the full gradient by approximating it with a small sum over a randomly selected subsample of the data set that in turn suffers from a high variance. We present a different approach that is inspired by classical results of Tchakaloff and Carath\'eodory about measure reduction. These results allow to replace an empirical measure with another, carefully constructed probability measure that has a much smaller support, but can preserve certain statistics such as the expected gradient. To turn this into scalable algorithms we firstly, adaptively select the descent steps where the measure reduction is carried out; secondly, we combine this with Block Coordinate Descent so that measure reduction can be done very cheaply. This makes the resulting methods scalable to high-dimensional spaces. Finally, we provide an experimental validation and comparison.
翻訳日:2022-11-26 00:02:47 公開日:2020-11-25
# 機能的コネクトミクスを用いた神経精神病分類 -神経画像伝達学習課題におけるコネクトミクスの意義-

Neuropsychiatric Disease Classification Using Functional Connectomics -- Results of the Connectomics in NeuroImaging Transfer Learning Challenge ( http://arxiv.org/abs/2006.03611v2 )

ライセンス: Link先を確認
Markus D. Schirmer, Archana Venkataraman, Islem Rekik, Minjeong Kim, Stewart H. Mostofsky, Mary Beth Nebel, Keri Rosch, Karen Seymour, Deana Crocetti, Hassna Irzan, Michael H\"utel, Sebastien Ourselin, Neil Marlow, Andrew Melbourne, Egor Levchenko, Shuo Zhou, Mwiza Kunda, Haiping Lu, Nicha C. Dvornek, Juntang Zhuang, Gideon Pinto, Sandip Samal, Jennings Zhang, Jorge L. Bernal-Rusiel, Rudolph Pienaar, Ai Wern Chung(参考訳) 大規模でオープンソースのコンソーシアムデータセットは、脳コネクトミクスにおける新しい強力で強力な機械学習アプローチの開発を促した。 しかし、重要な疑問が残る:私たちは生物学的に関連があり、脳に関する一般化可能な情報を捉えているのだろうか? そこで我々は,MICCAI 2019と共同で開催されたCNI-TLC(Connectomics in NeuroImaging Transfer Learning Challenge)という科学的課題を組織した。 CNI-TLCは,(1)青年期のコホート内における注意欠陥・多動性障害(ADHD)の診断,(2)ADHDモデルと関連する自閉症スペクトラム障害(ASD)患者のコホートへの移動の2つの分類課題を含む。 臨床診断と合わせて,3つの標準セルアトラスで平均240回の安静状態fmri時系列が,訓練および検証のために放出された(120の神経型制御と120のadhd)。 また、年齢、性別、IQ、手書きの人口統計情報も提供した。 被験者100名(ニューロタイプコントロール50名,ADHD25名,ADHD併用ASD25名)を試験に使用した。 モデルは、オープンソースのイメージ分析プラットフォームであるChRISを通じて、Dockerイメージとして標準化されたフォーマットで提出された。 包括的アプローチを用いて、16の異なるメトリクスに基づいてメソッドをランク付けした。 最終順位は、すべての尺度で各参加者のランク積を用いて算出された。 さらに,各手法のキャリブレーション曲線を評価した。 5人の被験者が評価のためにモデルを提出し、1人はADHDとASDの分類において他のすべての方法より優れていた。 しかし, 機能的コネクトミクスの臨床的翻訳に到達するためには, さらなる改良が必要である。 我々はCNI-TLCを、コネクトロミクス分野の新しい分類手法の開発と検証のための公開リソースとして維持している。

Large, open-source consortium datasets have spurred the development of new and increasingly powerful machine learning approaches in brain connectomics. However, one key question remains: are we capturing biologically relevant and generalizable information about the brain, or are we simply overfitting to the data? To answer this, we organized a scientific challenge, the Connectomics in NeuroImaging Transfer Learning Challenge (CNI-TLC), held in conjunction with MICCAI 2019. CNI-TLC included two classification tasks: (1) diagnosis of Attention-Deficit/Hyperactivity Disorder (ADHD) within a pre-adolescent cohort; and (2) transference of the ADHD model to a related cohort of Autism Spectrum Disorder (ASD) patients with an ADHD comorbidity. In total, 240 resting-state fMRI time series averaged according to three standard parcellation atlases, along with clinical diagnosis, were released for training and validation (120 neurotypical controls and 120 ADHD). We also provided demographic information of age, sex, IQ, and handedness. A second set of 100 subjects (50 neurotypical controls, 25 ADHD, and 25 ASD with ADHD comorbidity) was used for testing. Models were submitted in a standardized format as Docker images through ChRIS, an open-source image analysis platform. Utilizing an inclusive approach, we ranked the methods based on 16 different metrics. The final rank was calculated using the rank product for each participant across all measures. Furthermore, we assessed the calibration curves of each method. Five participants submitted their model for evaluation, with one outperforming all other methods in both ADHD and ASD classification. However, further improvements are needed to reach the clinical translation of functional connectomics. We are keeping the CNI-TLC open as a publicly available resource for developing and validating new classification methodologies in the field of connectomics.
翻訳日:2022-11-25 04:28:03 公開日:2020-11-25
# DeepGG:ディープグラフ・ジェネレータ

DeepGG: a Deep Graph Generator ( http://arxiv.org/abs/2006.04159v2 )

ライセンス: Link先を確認
Julian Stier and Michael Granitzer(参考訳) グラフの学習分布は、自動薬物発見、分子設計、複雑なネットワーク分析などに利用できる。 本稿では,ディープステートマシンの考え方に基づくグラフ生成モデル学習のための改良フレームワークを提案する。 状態遷移の決定を学ぶには、ステートマシンのメモリとしてグラフとノードの埋め込み技術を使う。 解析はランダムグラフ生成器の分布を学習し,どの特性が学習可能か,どのようにグラフの原分布が表現されるのかを統計的に検証した。 状態マシンの設計は特定の分布を好むことを示す。 最大150頂点までのグラフのモデルが学習される。 コードとパラメータは、結果の再現のために公開されています。

Learning distributions of graphs can be used for automatic drug discovery, molecular design, complex network analysis, and much more. We present an improved framework for learning generative models of graphs based on the idea of deep state machines. To learn state transition decisions we use a set of graph and node embedding techniques as memory of the state machine. Our analysis is based on learning the distribution of random graph generators for which we provide statistical tests to determine which properties can be learned and how well the original distribution of graphs is represented. We show that the design of the state machine favors specific distributions. Models of graphs of size up to 150 vertices are learned. Code and parameters are publicly available to reproduce our results.
翻訳日:2022-11-24 07:37:52 公開日:2020-11-25
# 音楽音声合成のための深部生成モデル

Deep generative models for musical audio synthesis ( http://arxiv.org/abs/2006.06426v2 )

ライセンス: Link先を確認
M. Huzaifah and L. Wyse(参考訳) 音響モデリングは、パラメトリック制御下で音を生成するアルゴリズムを開発するプロセスである。 歴史的に開発されたアプローチとしては、音の生成と伝播の物理のモデル化、音響的特徴を捉えるための信号生成と処理要素の組み立て、録音された音声サンプルのコレクションの操作などがある。 それぞれのアプローチは、特定のアプリケーションに対して高品質な合成と相互作用を達成できたが、それらはすべて労働集約的であり、それぞれに任意の制御戦略を設計するための独自の課題がある。 最近の音声合成のための生成的ディープラーニングシステムは、トレーニングしたデータによって定義された任意の音空間を横断するモデルを学ぶことができる。 さらに、機械学習システムはこれらのモデルの制御とナビゲーション戦略を設計するための新しい技術を提供している。 本稿では,音モデルの実践を変える深層学習の展開について概観する。

Sound modelling is the process of developing algorithms that generate sound under parametric control. There are a few distinct approaches that have been developed historically including modelling the physics of sound production and propagation, assembling signal generating and processing elements to capture acoustic features, and manipulating collections of recorded audio samples. While each of these approaches has been able to achieve high-quality synthesis and interaction for specific applications, they are all labour-intensive and each comes with its own challenges for designing arbitrary control strategies. Recent generative deep learning systems for audio synthesis are able to learn models that can traverse arbitrary spaces of sound defined by the data they train on. Furthermore, machine learning systems are providing new techniques for designing control and navigation strategies for these models. This paper is a review of developments in deep learning that are changing the practice of sound modelling.
翻訳日:2022-11-23 05:14:39 公開日:2020-11-25
# OGAN:訓練を継続する敵対的攻撃でディープフェイクを破壊

OGAN: Disrupting Deepfakes with an Adversarial Attack that Survives Training ( http://arxiv.org/abs/2006.12247v2 )

ライセンス: Link先を確認
Eran Segalis, Eran Galili(参考訳) 近年のオートエンコーダや生成モデルの発展は、いわゆる「ディープフェイク」を生成するための効果的なビデオ偽造法を生み出している。 緩和研究は、主に製造後のディープフェイクの検出に焦点を合わせ、予防に焦点をあてている。 これらの取り組みを補完するため,我々は,その自動エンコーダのトレーニングセットにその逆画像が含まれているか否かに関わらず,顔スワッピングオートエンコーダを妨害する新たなタイプの攻撃(トレーニング耐性攻撃)を導入することで補完する。 我々は,顔スワッピングオートエンコーダの出力に空間的時間歪みを導入し,トレーニング耐性に最適化された新しい攻撃であるOscillating GAN(OGAN)攻撃を提案する。 OGANを実装するために、我々は2段階最適化問題を構築し、ジェネレータとフェイススワッピングモデルインスタンスを相互にトレーニングする。 具体的には、各入力画像と目標歪みとをペアにして、逆画像を生成するジェネレータに供給する。 この画像は、フェーススワッピングオートエンコーダが適用されるときの歪みを示す。 我々は,繰り返し最適化プロセスを用いて,ジェネレータとフェイススワッピングモデルを同時に訓練することにより,最適化問題を解決する。 次に、以前公表したDistorting Attackを分析し、トレーニング耐性を示すが、提案したOGANより優れている。 最後に、FaceSwapの一般的な実装を用いて、両方の攻撃を検証し、敵攻撃が訓練されていない顔を含む、異なるターゲットモデルとターゲットフェイスを移動したことを示す。 より広範に、これらの結果は、幅広い領域に適用可能な、訓練耐性の敵攻撃の存在を示している。

Recent advances in autoencoders and generative models have given rise to effective video forgery methods, used for generating so-called "deepfakes". Mitigation research is mostly focused on post-factum deepfake detection and not on prevention. We complement these efforts by introducing a novel class of adversarial attacks---training-resistant attacks---which can disrupt face-swapping autoencoders whether or not its adversarial images have been included in the training set of said autoencoders. We propose the Oscillating GAN (OGAN) attack, a novel attack optimized to be training-resistant, which introduces spatial-temporal distortions to the output of face-swapping autoencoders. To implement OGAN, we construct a bilevel optimization problem, where we train a generator and a face-swapping model instance against each other. Specifically, we pair each input image with a target distortion, and feed them into a generator that produces an adversarial image. This image will exhibit the distortion when a face-swapping autoencoder is applied to it. We solve the optimization problem by training the generator and the face-swapping model simultaneously using an iterative process of alternating optimization. Next, we analyze the previously published Distorting Attack and show it is training-resistant, though it is outperformed by our suggested OGAN. Finally, we validate both attacks using a popular implementation of FaceSwap, and show that they transfer across different target models and target faces, including faces the adversarial attacks were not trained on. More broadly, these results demonstrate the existence of training-resistant adversarial attacks, potentially applicable to a wide range of domains.
翻訳日:2022-11-19 19:16:21 公開日:2020-11-25
# 変形性畳み込みを用いた光場画像超解像

Light Field Image Super-Resolution Using Deformable Convolution ( http://arxiv.org/abs/2007.03535v4 )

ライセンス: Link先を確認
Yingqian Wang, Jungang Yang, Longguang Wang, Xinyi Ying, Tianhao Wu, Wei An, Yulan Guo(参考訳) 光場(LF)カメラは複数の視点からシーンを記録することができ、画像超解像(SR)に有益な角情報をもたらす。 しかし,lf画像間の差異から,角情報を取り込むことは困難である。 本稿では、LF画像SRの差分問題に対処する変形可能な畳み込みネットワーク(LF-DFnet)を提案する。 具体的には,特徴レベルアライメントのための角変形可能なアライメントモジュール (ADAM) を設計する。 さらに,ADAMに基づいて,中心視特徴と各側面視特徴との間の双方向のアライメントを行うための収集・分散手法を提案する。 本手法では,角情報を各ビューの特徴にうまく組み込んでエンコードすることで,すべてのLF画像のSR再構成に有効である。 さらに,sr性能を評価するためのベースライン調整可能なlfデータセットを開発した。 公開データと自己開発データの両方を用いた実験により,本手法の優位性を実証した。 lf-dfnetはより忠実な精細な高解像度画像を生成し、最先端の再構成精度を実現する。 さらに, LF-DFnetは, 文献的にはあまり扱われていない異質な変動に対して, より堅牢である。

Light field (LF) cameras can record scenes from multiple perspectives, and thus introduce beneficial angular information for image super-resolution (SR). However, it is challenging to incorporate angular information due to disparities among LF images. In this paper, we propose a deformable convolution network (i.e., LF-DFnet) to handle the disparity problem for LF image SR. Specifically, we design an angular deformable alignment module (ADAM) for feature-level alignment. Based on ADAM, we further propose a collect-and-distribute approach to perform bidirectional alignment between the center-view feature and each side-view feature. Using our approach, angular information can be well incorporated and encoded into features of each view, which benefits the SR reconstruction of all LF images. Moreover, we develop a baseline-adjustable LF dataset to evaluate SR performance under different disparity variations. Experiments on both public and our self-developed datasets have demonstrated the superiority of our method. Our LF-DFnet can generate high-resolution images with more faithful details and achieve state-of-the-art reconstruction accuracy. Besides, our LF-DFnet is more robust to disparity variations, which has not been well addressed in literature.
翻訳日:2022-11-12 20:29:06 公開日:2020-11-25
# AutoAssign:Dense Object Detectionのための微分ラベルアサインメント

AutoAssign: Differentiable Label Assignment for Dense Object Detection ( http://arxiv.org/abs/2007.03496v3 )

ライセンス: Link先を確認
Benjin Zhu, Jianfeng Wang, Zhengkai Jiang, Fuhang Zong, Songtao Liu, Zeming Li, Jian Sun(参考訳) オブジェクト検出のための正/負のサンプルを決定することはラベル割り当てとして知られている。 ここではAutoAssignというアンカーフリー検出器を紹介する。 人間の知識をほとんど必要とせず、完全に微分可能な重み付け機構によって外観認識を達成する。 学習中,データの事前分布を満足し,カテゴリ特性に適応するために,センター重み付けを行い,カテゴリ固有の事前分布を調整する。 オブジェクトの出現に適応するために、各インスタンスの特定の割り当て戦略を調整するために信頼度重み付けが提案されている。 2つの重み付けモジュールは結合され、各位置の信頼度を調整するために正と負の重みが生成される。 MS COCOの大規模実験により,本手法は様々なバックボーンを持つ大きなマージンによるサンプリング戦略を着実に上回っていることがわかった。 さらに、最良のモデルは52.1%のapを達成し、既存の1段階検出器を上回っています。 さらに、PASCAL VOC、Objects365、WiderFaceといった他のデータセットの実験では、AutoAssignの幅広い適用性を示している。

Determining positive/negative samples for object detection is known as label assignment. Here we present an anchor-free detector named AutoAssign. It requires little human knowledge and achieves appearance-aware through a fully differentiable weighting mechanism. During training, to both satisfy the prior distribution of data and adapt to category characteristics, we present Center Weighting to adjust the category-specific prior distributions. To adapt to object appearances, Confidence Weighting is proposed to adjust the specific assign strategy of each instance. The two weighting modules are then combined to generate positive and negative weights to adjust each location's confidence. Extensive experiments on the MS COCO show that our method steadily surpasses other best sampling strategies by large margins with various backbones. Moreover, our best model achieves 52.1% AP, outperforming all existing one-stage detectors. Besides, experiments on other datasets, e.g., PASCAL VOC, Objects365, and WiderFace, demonstrate the broad applicability of AutoAssign.
翻訳日:2022-11-12 19:58:26 公開日:2020-11-25
# 差分スコアマッチングによる生成モデルの効率的な学習

Efficient Learning of Generative Models via Finite-Difference Score Matching ( http://arxiv.org/abs/2007.03317v2 )

ライセンス: Link先を確認
Tianyu Pang, Kun Xu, Chongxuan Li, Yang Song, Stefano Ermon, Jun Zhu(参考訳) いくつかの機械学習アプリケーションは、トレーニング中に高階微分(例えば勾配勾配)を最適化することを含む。 生成モデリングの典型的な例として、スコアマッチング(SM)はヘッセンのトレースを最適化する。 計算効率を向上させるために,方向微分の観点からSM目標とその変種を書き換え,有限差分(FD)で任意の方向微分を効率的に近似する汎用戦略を提案する。 我々の近似は関数評価のみを含み、並列に実行でき、勾配計算は行わない。 これにより、計算コストを削減し、数値安定性も向上する。 SM目的の変種をFD形式に書き換えることで2つのインスタンス化を行う。 実験により,本手法はより計算効率が高く,勾配に基づく結果に匹敵する結果が得られることを示した。

Several machine learning applications involve the optimization of higher-order derivatives (e.g., gradients of gradients) during training, which can be expensive in respect to memory and computation even with automatic differentiation. As a typical example in generative modeling, score matching (SM) involves the optimization of the trace of a Hessian. To improve computing efficiency, we rewrite the SM objective and its variants in terms of directional derivatives, and present a generic strategy to efficiently approximate any-order directional derivative with finite difference (FD). Our approximation only involves function evaluations, which can be executed in parallel, and no gradient computations. Thus, it reduces the total computational cost while also improving numerical stability. We provide two instantiations by reformulating variants of SM objectives into the FD forms. Empirically, we demonstrate that our methods produce results comparable to the gradient-based counterparts while being much more computationally efficient.
翻訳日:2022-11-12 18:58:27 公開日:2020-11-25
# 深部確率的特徴量追跡

Deep Probabilistic Feature-metric Tracking ( http://arxiv.org/abs/2008.13504v2 )

ライセンス: Link先を確認
Binbin Xu, Andrew J. Davison, and Stefan Leutenegger(参考訳) RGB-D画像からの複雑な画像アライメントは、特に困難な照明条件や幅広いベースライン設定下で、現実世界のアプリケーションにとって重要な問題である。 本稿では,Gauss-Newtonを用いて最小化可能な2次元制約の深い確率的特徴量残差を,粗大な最適化フレームワークで定式化する,畳み込みニューラルネットワーク(CNN)により予測される画素単位の深部特徴量不確実性マップと深部特徴量不確実性マップを学習する新しいフレームワークを提案する。 さらに,ネットワークはより高速で信頼性の高いコンバージェンスに対する深い初期ポーズを予測している。 最適化ステップは微分可能であり、エンドツーエンドでトレーニングするためにアンロールされる。 確率論的性質から,本手法は他の残基と容易に対応でき,ICPと組み合わせることができる。 実験により,TUM RGB-Dデータセットと3次元剛性物体追跡データセットの最先端性能を示す。 さらに,本手法のロバスト性と収束を定性的に示す。

Dense image alignment from RGB-D images remains a critical issue for real-world applications, especially under challenging lighting conditions and in a wide baseline setting. In this paper, we propose a new framework to learn a pixel-wise deep feature map and a deep feature-metric uncertainty map predicted by a Convolutional Neural Network (CNN), which together formulate a deep probabilistic feature-metric residual of the two-view constraint that can be minimised using Gauss-Newton in a coarse-to-fine optimisation framework. Furthermore, our network predicts a deep initial pose for faster and more reliable convergence. The optimisation steps are differentiable and unrolled to train in an end-to-end fashion. Due to its probabilistic essence, our approach can easily couple with other residuals, where we show a combination with ICP. Experimental results demonstrate state-of-the-art performances on the TUM RGB-D dataset and the 3D rigid object tracking dataset. We further demonstrate our method's robustness and convergence qualitatively.
翻訳日:2022-10-23 07:27:05 公開日:2020-11-25
# GIF:生成可能な解釈可能な顔

GIF: Generative Interpretable Faces ( http://arxiv.org/abs/2009.00149v2 )

ライセンス: Link先を確認
Partha Ghosh, Pravir Singh Gupta, Roy Uziel, Anurag Ranjan, Michael Black, Timo Bolkart(参考訳) 写実的な可視化と表現力のある人間の顔のアニメーションは、長年の課題だった。 3d顔モデリングはパラメトリックな制御を提供するが、非現実的な画像を生成する一方で、gans(generative adversarial networks)のような生成型2dモデルは、フォトリアリスティックな顔画像を出力するが、明示的な制御は欠如している。 最近の手法は、教師なしの方法で異なる因子をアンタングルしようとするか、事前訓練されたモデルに制御ポストホックを追加することによって、部分的な制御を得る。 しかし、無条件のGANは後に解離しにくい因子を絡み合わせることがある。 我々は、生成過程における乱れを促すために、事前定義された制御パラメータに生成モデルを条件付けする。 具体的には3次元顔モデルFLAMEにStyleGAN2を付加する。 FLAMEパラメータの条件付けは不満足な結果をもたらすが、レンダリングされたFLAME幾何や測光の詳細の条件付けはうまく機能する。 これにより、FLAMEのパラメトリック制御を提供するGIF(Generative Interpretable Faces)という2次元顔モデルを生成することができる。 ここでは、解釈とは異なるパラメータの意味をいう。 形状、ポーズ、表現、外観、照明のパラメータ、および追加のスタイルベクトルのFLAMEパラメータが与えられた場合、GIFはフォトリアリスティックな顔画像を生成する。 AMTに基づく知覚的研究を行い、GIFの条件付けにどれだけの効果があるかを定量的に定性的に評価する。 コード、データ、トレーニングされたモデルは、http://gif.is.tue.mpg.deで研究目的で公開されている。

Photo-realistic visualization and animation of expressive human faces have been a long standing challenge. 3D face modeling methods provide parametric control but generates unrealistic images, on the other hand, generative 2D models like GANs (Generative Adversarial Networks) output photo-realistic face images, but lack explicit control. Recent methods gain partial control, either by attempting to disentangle different factors in an unsupervised manner, or by adding control post hoc to a pre-trained model. Unconditional GANs, however, may entangle factors that are hard to undo later. We condition our generative model on pre-defined control parameters to encourage disentanglement in the generation process. Specifically, we condition StyleGAN2 on FLAME, a generative 3D face model. While conditioning on FLAME parameters yields unsatisfactory results, we find that conditioning on rendered FLAME geometry and photometric details works well. This gives us a generative 2D face model named GIF (Generative Interpretable Faces) that offers FLAME's parametric control. Here, interpretable refers to the semantic meaning of different parameters. Given FLAME parameters for shape, pose, expressions, parameters for appearance, lighting, and an additional style vector, GIF outputs photo-realistic face images. We perform an AMT based perceptual study to quantitatively and qualitatively evaluate how well GIF follows its conditioning. The code, data, and trained model are publicly available for research purposes at http://gif.is.tue.mpg.de.
翻訳日:2022-10-23 06:36:48 公開日:2020-11-25
# 配列ボード表現を使わずに forsyth-edwards 記法文字列の自動更新アルゴリズム

An Algorithm for Automatically Updating a Forsyth-Edwards Notation String Without an Array Board Representation ( http://arxiv.org/abs/2009.03193v2 )

ライセンス: Link先を確認
Azlan Iqbal(参考訳) 本稿では,ボードの中間配列表現を必要とせずに,任意の移動を行った後,forsyth-edwards notation (fen) チェスボード文字列を正しく更新するアルゴリズムを提案する。 特にこれは、チェス、特定のチェスの変種、そしておそらく同等の位置表現を持つ類似のボードゲームと関係のあるソフトウェアに関連している。 性能が配列の使用と同等か劣る場合であっても、アルゴリズムは、同じことを達成するための正確で実行可能な代替手段を提供するか、配列と組み合わせて追加処理やサイド処理が必要となる場合があります。 さらに、最終的な結果(すなわち更新されたFEN文字列)は、エクスポートのために最初にFEN文字列に変換する必要がある中間配列とは異なり、すぐに他の内部モジュールや外部プログラムにエクスポートできる。 このアルゴリズムは、視覚的なボードを完全に表現できる配列ベースのモジュールが存在しない場合に特に有用である。 本稿では, キャスティング, エンパタント, ポーンプロモーションを含む様々な位置を与えられたアルゴリズムの正しさを示す例を示す。

We present an algorithm that correctly updates the Forsyth-Edwards Notation (FEN) chessboard character string after any move is made without the need for an intermediary array representation of the board. In particular, this relates to software that have to do with chess, certain chess variants and possibly even similar board games with comparable position representation. Even when performance may be equal or inferior to using arrays, the algorithm still provides an accurate and viable alternative to accomplishing the same thing, or when there may be a need for additional or side processing in conjunction with arrays. Furthermore, the end result (i.e. an updated FEN string) is immediately ready for export to any other internal module or external program, unlike with an intermediary array which needs to be first converted into a FEN string for export purposes. The algorithm is especially useful when there are no existing array-based modules to represent a visual board as it can do without them entirely. We provide examples that demonstrate the correctness of the algorithm given a variety of positions involving castling, en passant and pawn promotion.
翻訳日:2022-10-22 19:54:01 公開日:2020-11-25
# 階層型ルーフライン性能解析によるディープラーニング応用

Hierarchical Roofline Performance Analysis for Deep Learning Applications ( http://arxiv.org/abs/2009.05257v4 )

ライセンス: Link先を確認
Charlene Yang, Yunsong Wang, Steven Farrell, Thorsten Kurth, Samuel Williams(参考訳) 本稿では,NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データ収集手法を提案する。 さまざまなデータ精度の広範なサポートとTensor CoreサポートのためのEmpirical Roofline Toolkitの拡張について論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。 この手法は、NVIDIA GPU上のメモリ階層全体にわたって、Roofline分析のための自動マシンキャラクタリゼーションとアプリケーションキャラクタリゼーションを可能にし、気候画像セグメンテーションに使用される複雑なディープラーニングアプリケーションによって検証される。 TensorFlowとPyTorchの2つのバージョンを使用して、この方法論の使用と有効性を実証しています。 アプリケーションがどのようにgpu上の計算とメモリの機能を利用するか、そして2つのディープラーニングフレームワークで実装とパフォーマンスがどう異なるかが注目される。

This paper presents a practical methodology for collecting performance data necessary to conduct hierarchical Roofline analysis on NVIDIA GPUs. It discusses the extension of the Empirical Roofline Toolkit for broader support of a range of data precisions and Tensor Core support and introduces a Nsight Compute based method to accurately collect application performance information. This methodology allows for automated machine characterization and application characterization for Roofline analysis across the entire memory hierarchy on NVIDIA GPUs, and it is validated by a complex deep learning application used for climate image segmentation. We use two versions of the code, in TensorFlow and PyTorch respectively, to demonstrate the use and effectiveness of this methodology. We highlight how the application utilizes the compute and memory capabilities on the GPU and how the implementation and performance differ in two deep learning frameworks.
翻訳日:2022-10-19 22:17:36 公開日:2020-11-25
# 多視点行動認識のための協調的注意機構

Collaborative Attention Mechanism for Multi-View Action Recognition ( http://arxiv.org/abs/2009.06599v2 )

ライセンス: Link先を確認
Yue Bai, Zhiqiang Tao, Lichen Wang, Sheng Li, Yu Yin and Yun Fu(参考訳) 多視点行動認識(MVAR)は、異なる視点からの相補的時間情報を活用して学習性能を向上させる。 MVARでは、情報的なビュー固有の表現が不可欠である。 注意は、時間的データに基づく差別的手がかりを発見する効果的な戦略として広く採用されている。 しかし,既存のMVAR手法の多くは,注目空間における相互支援情報に基づいて潜在パターンを掘り下げる可能性を無視して,個々の視点を個別に表現するためにのみ注意を払っている。 そこで本稿では,MVAR問題を解決するための協調的注意機構(CAM)を提案する。 提案したCAMは,多視点間の注意差を検出し,フレームレベルの情報を適応的に統合して相互に利益をもたらす。 具体的には、長い短期記憶(LSTM)をMAR(Mutual-Aid RNN)に拡張し、マルチビュー協調プロセスを実現する。 CAMはビュー固有の注意パターンの利点を生かして、他のビューを案内し、自分自身で探すのが難しい潜在的な情報を発見する。 注目情報を活用する新しい手法を開拓し、多視点表現学習を強化する。 4つのアクションデータセットに関する大規模な実験では、提案されたCAMが各ビューに対してより良い結果を得るとともに、マルチビューのパフォーマンスも向上している。

Multi-view action recognition (MVAR) leverages complementary temporal information from different views to improve the learning performance. Obtaining informative view-specific representation plays an essential role in MVAR. Attention has been widely adopted as an effective strategy for discovering discriminative cues underlying temporal data. However, most existing MVAR methods only utilize attention to extract representation for each view individually, ignoring the potential to dig latent patterns based on mutual-support information in attention space. To this end, we propose a collaborative attention mechanism (CAM) for solving the MVAR problem in this paper. The proposed CAM detects the attention differences among multi-view, and adaptively integrates frame-level information to benefit each other. Specifically, we extend the long short-term memory (LSTM) to a Mutual-Aid RNN (MAR) to achieve the multi-view collaboration process. CAM takes advantages of view-specific attention pattern to guide another view and discover potential information which is hard to be explored by itself. It paves a novel way to leverage attention information and enhances the multi-view representation learning. Extensive experiments on four action datasets illustrate the proposed CAM achieves better results for each view and also boosts multi-view performance.
翻訳日:2022-10-18 12:43:58 公開日:2020-11-25
# EI-MTD:敵攻撃に対するエッジインテリジェンスのためのターゲット防御

EI-MTD:Moving Target Defense for Edge Intelligence against Adversarial Attacks ( http://arxiv.org/abs/2009.10537v3 )

ライセンス: Link先を確認
Yaguan Qian, Qiqi Shao, Jiamin Wang, Xiang Lin, Yankai Guo, Zhaoquan Gu, Bin Wang, Chunming Wu(参考訳) エッジインテリジェンスのブームにより、敵の攻撃に対する脆弱性が緊急問題となっている。 いわゆる敵対的な例は、エッジノードのディープラーニングモデルを騙して、誤って分類することができる。 転送性の性質から、敵は局所的な代用モデルを用いて容易にブラックボックス攻撃を行うことができる。 それにもかかわらず、エッジノードのリソースの制限は、クラウドデータセンタで実行するような複雑な防御メカニズムを提供できない。 この課題を克服するために,EI-MTDという動的防御機構を提案する。 まず、クラウドデータセンター上の複雑な教師モデルから微分知識蒸留により、小さなサイズのロバストなメンバーモデルを得る。 次に,ベイジアン・スタックルバーグゲームに基づく動的スケジューリングポリシーを,サービス対象モデルの選択に適用する。 このダイナミックディフェンスは、ブラックボックス攻撃の最適な代替モデルを選択する敵を阻止することができる。 実験の結果,この動的スケジューリングは,ブラックボックス設定下での敵対的攻撃に対して効果的にエッジインテリジェンスを保護できることがわかった。

With the boom of edge intelligence, its vulnerability to adversarial attacks becomes an urgent problem. The so-called adversarial example can fool a deep learning model on the edge node to misclassify. Due to the property of transferability, the adversary can easily make a black-box attack using a local substitute model. Nevertheless, the limitation of resource of edge nodes cannot afford a complicated defense mechanism as doing on the cloud data center. To overcome the challenge, we propose a dynamic defense mechanism, namely EI-MTD. It first obtains robust member models with small size through differential knowledge distillation from a complicated teacher model on the cloud data center. Then, a dynamic scheduling policy based on a Bayesian Stackelberg game is applied to the choice of a target model for service. This dynamic defense can prohibit the adversary from selecting an optimal substitute model for black-box attacks. Our experimental result shows that this dynamic scheduling can effectively protect edge intelligence against adversarial attacks under the black-box setting.
翻訳日:2022-10-16 20:45:10 公開日:2020-11-25
# ソフトテンセグリティロボットの行動レパートリー

Behavioral Repertoires for Soft Tensegrity Robots ( http://arxiv.org/abs/2009.10864v2 )

ライセンス: Link先を確認
Kyle Doney, Aikaterini Petridou, Jacob Karaul, Ali Khan, Geoffrey Liu and John Rieffel(参考訳) モバイルソフトロボットは、都市探索や救助から惑星探査まで幅広い分野に魅力的な応用を提供している。 ソフトロボット制御の批判的課題は、ソフトマテリアルによって課される非線形動力学がしばしば直観的ではなく、モデル化や予測が難しい複雑な行動を引き起こすことである。 その結果、移動ソフトロボットのほとんどの動作は、経験的な試行錯誤と手作業によって発見される。 2つめの課題は、ソフト素材は高い忠実度でシミュレートするのが困難であることです。 本研究では,ロボット力学の事前知識がなく,人間の介入が最小限である行動レパートリーを自律的に生成する物理ソフトな緊張ロボット上で,モデルフリーで動作する品質多様性アルゴリズムを用いる。 結果として得られた行動レパートリーは、様々なタスクに有用なユニークな機関車の歩行の多様性を示す。 これらの結果は、現実の自動化を通じて、移動ソフトロボットの行動能力を高めるためのロードマップを提供するのに役立つ。

Mobile soft robots offer compelling applications in fields ranging from urban search and rescue to planetary exploration. A critical challenge of soft robotic control is that the nonlinear dynamics imposed by soft materials often result in complex behaviors that are counterintuitive and hard to model or predict. As a consequence, most behaviors for mobile soft robots are discovered through empirical trial and error and hand-tuning. A second challenge is that soft materials are difficult to simulate with high fidelity -- leading to a significant reality gap when trying to discover or optimize new behaviors. In this work we employ a Quality Diversity Algorithm running model-free on a physical soft tensegrity robot that autonomously generates a behavioral repertoire with no a priori knowledge of the robot dynamics, and minimal human intervention. The resulting behavior repertoire displays a diversity of unique locomotive gaits useful for a variety of tasks. These results help provide a road map for increasing the behavioral capabilities of mobile soft robots through real-world automation.
翻訳日:2022-10-15 16:28:16 公開日:2020-11-25
# 非平衡流に対する熱力学的安定度とガリレオ不変偏微分方程式の学習

Learning Thermodynamically Stable and Galilean Invariant Partial Differential Equations for Non-equilibrium Flows ( http://arxiv.org/abs/2009.13415v2 )

ライセンス: Link先を確認
Juntao Huang, Zhiting Ma, Yizhou Zhou, Wen-An Yong(参考訳) 本研究では,非可逆熱力学の保存散逸形式に基づく解釈可能・熱力学的安定・ガリレオ不変偏微分方程式(PDE)の学習法を開発した。 1次元の非平衡流れの制御方程式として、学習されたpdesは完全連結ニューラルネットワークによってパラメータ化され、保存散逸原理を自動で満たす。 特に、双曲的バランスの法則とガリレオ不変量である。 トレーニングデータは、スムーズな初期データを持つ運動モデルから生成される。 数値計算の結果,学習したPDEはクヌーズン数で高い精度を達成できることが示唆された。 驚くべきことに、学習されたダイナミクスは、ランダムにサンプリングされた不連続な初期データと、滑らかな初期データのみで訓練されているsodの衝撃管問題によって、満足のいく結果を与えることができる。

In this work, we develop a method for learning interpretable, thermodynamically stable and Galilean invariant partial differential equations (PDEs) based on the Conservation-dissipation Formalism of irreversible thermodynamics. As governing equations for non-equilibrium flows in one dimension, the learned PDEs are parameterized by fully-connected neural networks and satisfy the conservation-dissipation principle automatically. In particular, they are hyperbolic balance laws and Galilean invariant. The training data are generated from a kinetic model with smooth initial data. Numerical results indicate that the learned PDEs can achieve good accuracy in a wide range of Knudsen numbers. Remarkably, the learned dynamics can give satisfactory results with randomly sampled discontinuous initial data and Sod's shock tube problem although it is trained only with smooth initial data.
翻訳日:2022-10-13 22:49:24 公開日:2020-11-25
# 分散マルチタスクラッソを用いた時空間MEG/EEG画像の統計的制御

Statistical control for spatio-temporal MEG/EEG source imaging with desparsified multi-task Lasso ( http://arxiv.org/abs/2009.14310v2 )

ライセンス: Link先を確認
J\'er\^ome-Alexis Chevalier, Alexandre Gramfort, Joseph Salmon, Bertrand Thirion(参考訳) 脳の領域が認知タスクや特定の臨床条件で活性化される場所や場所を検出することは、脳磁図(MEG)や脳波(EEG)のような非侵襲的なテクニックの約束である。 この問題は、ソースローカライゼーション(source localization)またはソースイメージング(source imaging)と呼ばれ、しかしながら、高次元の統計的推測問題を引き起こす。 回帰問題に対処するためにスパルシティー促進正規化が提案されているが、偽検出の統計的制御を確実にする方法はまだ不明である。 さらに、M/EEGソースイメージングは時空間データと自己相関ノイズを扱う必要がある。 これに対処するため、分散化されたlasso estimator(高次元線形モデル用に調整された推定子)は、スパーシティと中程度の特徴相関仮定の下でガウス分布を漸近的に追従する。 分離されたマルチタスクラッソ (d-MTLasso) と呼ぶ。 我々は,d-MTLassoと空間的に制約されたクラスタリングを組み合わせることで,データ次元を小さくし,クラスタリングの任意の選択を緩和するアンサンブルを組み合わせ,その結果の推定をクラスタ化デパーシファイドマルチタスクラッソ(ecd-MTLasso)のアンサンブルと呼ぶ。 現在の手順に関して、ecd-mtlassoの2つの利点は、 一 統計上の保証、及び 二 空間的特異性を感度と交換することができ、強力な適応的方法が導かれる。 現実的なヘッドジオメトリに関する広範囲なシミュレーションや、様々な meg データセットでの実証的な結果からは、ecd-mtlasso の高回復性能とその主な実用的メリットが示されている。

Detecting where and when brain regions activate in a cognitive task or in a given clinical condition is the promise of non-invasive techniques like magnetoencephalography (MEG) or electroencephalography (EEG). This problem, referred to as source localization, or source imaging, poses however a high-dimensional statistical inference challenge. While sparsity promoting regularizations have been proposed to address the regression problem, it remains unclear how to ensure statistical control of false detections. Moreover, M/EEG source imaging requires to work with spatio-temporal data and autocorrelated noise. To deal with this, we adapt the desparsified Lasso estimator -- an estimator tailored for high dimensional linear model that asymptotically follows a Gaussian distribution under sparsity and moderate feature correlation assumptions -- to temporal data corrupted with autocorrelated noise. We call it the desparsified multi-task Lasso (d-MTLasso). We combine d-MTLasso with spatially constrained clustering to reduce data dimension and with ensembling to mitigate the arbitrary choice of clustering; the resulting estimator is called ensemble of clustered desparsified multi-task Lasso (ecd-MTLasso). With respect to the current procedures, the two advantages of ecd-MTLasso are that i)it offers statistical guarantees and ii)it allows to trade spatial specificity for sensitivity, leading to a powerful adaptive method. Extensive simulations on realistic head geometries, as well as empirical results on various MEG datasets, demonstrate the high recovery performance of ecd-MTLasso and its primary practical benefit: offer a statistically principled way to threshold MEG/EEG source maps.
翻訳日:2022-10-13 06:02:20 公開日:2020-11-25
# DASGIL: 意味的および幾何学的画像に基づく局所化のためのドメイン適応

DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based Localization ( http://arxiv.org/abs/2010.00573v2 )

ライセンス: Link先を確認
Hanjiang Hu, Zhijian Qiao, Ming Cheng, Zhe Liu and Hesheng Wang(参考訳) 環境の変化による視覚的長期化は、季節や照明のばらつきなどによる自律運転や移動ロボットの課題である。 ローカライゼーションのための画像検索は、この問題に対する効率的かつ効果的な解決策である。 本稿では,視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する,新しいマルチタスクアーキテクチャを提案する。 人間の努力なしに高品質な地上の真理を利用するために, 仮想KITTIデータセットから実世界のKITTIデータセットへのドメイン適応を実現するために, 対戦訓練に有効なマルチスケール特徴判別器を提案する。 提案手法は拡張されたcmu-seasonsデータセットとoxford robotcarデータセット上で検証され,課題環境下での検索ベースラインと大規模位置認識において,その性能が最先端のベースラインを上回る重要な比較実験を行った。

Long-Term visual localization under changing environments is a challenging problem in autonomous driving and mobile robotics due to season, illumination variance, etc. Image retrieval for localization is an efficient and effective solution to the problem. In this paper, we propose a novel multi-task architecture to fuse the geometric and semantic information into the multi-scale latent embedding representation for visual place recognition. To use the high-quality ground truths without any human effort, the effective multi-scale feature discriminator is proposed for adversarial training to achieve the domain adaptation from synthetic virtual KITTI dataset to real-world KITTI dataset. The proposed approach is validated on the Extended CMU-Seasons dataset and Oxford RobotCar dataset through a series of crucial comparison experiments, where our performance outperforms state-of-the-art baselines for retrieval-based localization and large-scale place recognition under the challenging environment.
翻訳日:2022-10-12 08:18:38 公開日:2020-11-25
# アクティブチューニング

Active Tuning ( http://arxiv.org/abs/2010.03958v2 )

ライセンス: Link先を確認
Sebastian Otte, Matthias Karlbauer, Martin V. Butz(参考訳) 我々は、リカレントニューラルネットワーク(RNN)の内部ダイナミクスを高速に最適化するための新しいパラダイムであるActive Tuningを紹介する。 従来のシーケンス対シーケンスマッピング方式とは対照的に、Active TuningはRNNの繰り返し神経活動を入力ストリームから切り離し、展開する時間勾配信号を使用して内部ダイナミクスをデータストリームにチューニングする。 その結果、モデル出力は、内部隠れダイナミクスと自身の予測の閉ループフィードバックのみに依存し、その隠れ状態は、信号観測とモデル出力との差を時間を通じてバックプロパゲーションすることによって生じる時間勾配によって継続的に適応される。 このようにして、Active Tuningは、最初に学習された時間パターンに基づいて、シグナルを活発に、間接的に推測し、最も確実な隠れ状態列を観測に適合させる。 本稿では,複数の重畳された正弦波,カオス的二重振り子,時空間波動など,時系列予測ベンチマークにおけるアクティブチューニングの有効性を示す。 アクティブチューニングは、すべての評価されたモデルの堅牢性、正確性、一般化能力を一貫して改善する。 さらに、信号予測とノイズ除去のために訓練されたネットワークは、アクティブチューニングの助けを借りて、より広い範囲のノイズ条件に適用することができる。 したがって、有能な時系列予測子を与えられたアクティブチューニングは、追加のトレーニングを必要とせずに、オンライン信号フィルタリング、ノイズ除去、再構成能力を高める。

We introduce Active Tuning, a novel paradigm for optimizing the internal dynamics of recurrent neural networks (RNNs) on the fly. In contrast to the conventional sequence-to-sequence mapping scheme, Active Tuning decouples the RNN's recurrent neural activities from the input stream, using the unfolding temporal gradient signal to tune the internal dynamics into the data stream. As a consequence, the model output depends only on its internal hidden dynamics and the closed-loop feedback of its own predictions; its hidden state is continuously adapted by means of the temporal gradient resulting from backpropagating the discrepancy between the signal observations and the model outputs through time. In this way, Active Tuning infers the signal actively but indirectly based on the originally learned temporal patterns, fitting the most plausible hidden state sequence into the observations. We demonstrate the effectiveness of Active Tuning on several time series prediction benchmarks, including multiple super-imposed sine waves, a chaotic double pendulum, and spatiotemporal wave dynamics. Active Tuning consistently improves the robustness, accuracy, and generalization abilities of all evaluated models. Moreover, networks trained for signal prediction and denoising can be successfully applied to a much larger range of noise conditions with the help of Active Tuning. Thus, given a capable time series predictor, Active Tuning enhances its online signal filtering, denoising, and reconstruction abilities without the need for additional training.
翻訳日:2022-10-12 02:09:16 公開日:2020-11-25
# 生成モデルによる人間の動き予測

Generative Model-Enhanced Human Motion Prediction ( http://arxiv.org/abs/2010.11699v3 )

ライセンス: Link先を確認
Anthony Bourached, Ryan-Rhys Griffiths, Robert Gray, Ashwani Jha, Parashkev Nachev(参考訳) 人間の運動を予測するタスクは、行動の自然な不均一性と構成性によって複雑であり、分散(ood)まで分布シフトへの堅牢性が必要となる。 本稿では、Human3.6MとCMUのモーションキャプチャーデータセットに基づく新しいOoDベンチマークを定式化し、生成モデルで拡張することで、OoD障害に対する識別アーキテクチャを強化するためのハイブリッドフレームワークを導入する。 現状の判別モデルに適用した場合,提案手法は分散性能を犠牲にすることなくoodロバスト性が向上し,理論的にモデル解釈性が向上することを示す。 人間の運動予測器はoodの課題を念頭に置いて構築されるべきであり、多様な識別アーキテクチャを極度の分布シフトに強固にするための拡張可能な汎用フレームワークを提供する。 コードはhttps://github.com/bouracha/OoDMotion.comで入手できる。

The task of predicting human motion is complicated by the natural heterogeneity and compositionality of actions, necessitating robustness to distributional shifts as far as out-of-distribution (OoD). Here we formulate a new OoD benchmark based on the Human3.6M and CMU motion capture datasets, and introduce a hybrid framework for hardening discriminative architectures to OoD failure by augmenting them with a generative model. When applied to current state-of-the-art discriminative models, we show that the proposed approach improves OoD robustness without sacrificing in-distribution performance, and can theoretically facilitate model interpretability. We suggest human motion predictors ought to be constructed with OoD challenges in mind, and provide an extensible general framework for hardening diverse discriminative architectures to extreme distributional shift. The code is available at https://github.com/bouracha/OoDMotion.
翻訳日:2022-10-10 22:08:50 公開日:2020-11-25
# ブラインド超解像における交互最適化の展開

Unfolding the Alternating Optimization for Blind Super Resolution ( http://arxiv.org/abs/2010.02631v4 )

ライセンス: Link先を確認
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang and Tieniu Tan(参考訳) 従来の方法では、ブラインド超解像(SR)問題を2つの逐次ステップに分解する: \textit{i}) 与えられた低解像度(LR)画像からぼやけたカーネルを推定する。 この2段階のソリューションは、2つの独立に訓練されたモデルを含む。 第1ステップの小さな推定誤差は、第2ステップのパフォーマンス低下を引き起こす可能性がある。 一方,最初のステップではLR画像からの限られた情報しか利用できないため,高精度なボケカーネルの予測が困難である。 これらの問題に対して,これら2つのステップを別々に考えるのではなく,1つのモデルでぼかしカーネルを推定し,sr画像を復元する交互最適化アルゴリズムを採用する。 具体的には、2つの畳み込みニューラルモジュール、すなわち \textit{Restorer} と \textit{Estimator} を設計する。 \textit{Restorer}は予測されたカーネルに基づいてSRイメージを復元し、\textit{Estimator}は復元されたSRイメージの助けを借りてボケカーネルを推定する。 これら2つのモジュールを交換し、このプロセスを展開してエンドツーエンドのトレーニング可能なネットワークを形成します。 このようにして、 \textit{Estimator} は LR 画像と SR 画像の両方からの情報を利用する。 より重要なことに、 \textit{restorer} は基底核の代わりに \textit{estimator} によって推定されるカーネルで訓練されるので、 \textit{restorer} は \textit{estimator} の推定誤差に耐性がある。 合成データセットと実世界の画像の大規模な実験により、我々のモデルは最先端の手法を大きく上回り、はるかに高速でより視覚的に有利な結果が得られることが示された。 ソースコードはhttps://github.com/greatlog/DAN.gitで入手できる。

Previous methods decompose blind super resolution (SR) problem into two sequential steps: \textit{i}) estimating blur kernel from given low-resolution (LR) image and \textit{ii}) restoring SR image based on estimated kernel. This two-step solution involves two independently trained models, which may not be well compatible with each other. Small estimation error of the first step could cause severe performance drop of the second one. While on the other hand, the first step can only utilize limited information from LR image, which makes it difficult to predict highly accurate blur kernel. Towards these issues, instead of considering these two steps separately, we adopt an alternating optimization algorithm, which can estimate blur kernel and restore SR image in a single model. Specifically, we design two convolutional neural modules, namely \textit{Restorer} and \textit{Estimator}. \textit{Restorer} restores SR image based on predicted kernel, and \textit{Estimator} estimates blur kernel with the help of restored SR image. We alternate these two modules repeatedly and unfold this process to form an end-to-end trainable network. In this way, \textit{Estimator} utilizes information from both LR and SR images, which makes the estimation of blur kernel easier. More importantly, \textit{Restorer} is trained with the kernel estimated by \textit{Estimator}, instead of ground-truth kernel, thus \textit{Restorer} could be more tolerant to the estimation error of \textit{Estimator}. Extensive experiments on synthetic datasets and real-world images show that our model can largely outperform state-of-the-art methods and produce more visually favorable results at much higher speed. The source code is available at https://github.com/greatlog/DAN.git.
翻訳日:2022-10-10 07:22:26 公開日:2020-11-25
# 機械学習技術を用いた想像音声の解釈

Interpreting Imagined Speech Waves with Machine Learning techniques ( http://arxiv.org/abs/2010.03360v2 )

ライセンス: Link先を確認
Abhiram Singh, Ashwin Gumaste(参考訳) 本研究は,Human-Computer Interface (HCI) の新たな設計に使用できるImagined Speech (IS)信号の復号化の可能性を検討する。 脳波信号を生成するプロセスは未知であるため、様々な特徴抽出法と異なるニューラルネットワーク(NN)モデルを用いて、データの分布を近似し、IS信号を分類する。 実験結果に基づき,アンサンブルと共分散行列変換を用いたフィードフォワードnnモデルが,他の既存手法と比較して高い性能を示した。 比較のために3つの公開データセットが使用された。 2つのデータセットで長文と短文をデコードする場合の平均分類精度は,restと想定された状態の間で80%,96%,80%であった。 これらの結果は、is脳信号と(静止状態中に発生する)脳信号とを区別できることを示している。 実験結果から,is信号の復号化には単語長と複雑さが有効であること,コンピュータインタラクションのためのis信号を用いたbciシステムの設計が可能であることを示唆する。 これらのアイデアと成果は、日常生活における人間とコンピュータの相互作用に使用できる商用レベルのbciシステムの開発に方向性を与えている。

This work explores the possibility of decoding Imagined Speech (IS) signals which can be used to create a new design of Human-Computer Interface (HCI). Since the underlying process generating EEG signals is unknown, various feature extraction methods, along with different neural network (NN) models, are used to approximate data distribution and classify IS signals. Based on the experimental results, feed-forward NN model with ensemble and covariance matrix transformed features showed the highest performance in comparison to other existing methods. For comparison, three publicly available datasets were used. We report a mean classification accuracy of 80% between rest and imagined state, 96% and 80% for decoding long and short words on two datasets. These results show that it is possible to differentiate brain signals (generated during rest state) from the IS brain signals. Based on the experimental results, we suggest that the word length and complexity can be used to decode IS signals with high accuracy, and a BCI system can be designed with IS signals for computer interaction. These ideas, and results give direction for the development of a commercial level IS based BCI system, which can be used for human-computer interaction in daily life.
翻訳日:2022-10-10 00:35:10 公開日:2020-11-25
# 多次元ガウス化による情報理論対策

Information Theory Measures via Multidimensional Gaussianization ( http://arxiv.org/abs/2010.03807v2 )

ライセンス: Link先を確認
Valero Laparra, J. Emmanuel Johnson, Gustau Camps-Valls, Raul Santos-Rodr\'iguez, Jesus Malo(参考訳) 情報理論は、データやシステムの不確実性、依存、関連性を測定するための優れたフレームワークである。 自然に多変量データを扱うことができ、異種データ型を扱うことができ、測定値は物理単位で解釈できる。 しかし、多次元データから情報を取得することは次元性の呪いによる難題であるため、広くは採用されていない。 本稿では,多変量ガウス化変換に基づく情報を間接的に計算する方法を提案する。 本提案は,多変量密度推定の難しさを,特定の深層ニューラルネットワークとして解釈可能な,扱いやすい(マージナル)演算と単純な線形変換の組み合わせに還元することで軽減する。 本稿では,全相関,エントロピー,相互情報,kullback-leiblerの発散を推定するためのgaussianizationに基づく手法を提案する。 異なる多変量分布から生成された合成データの精度を示す最近の推定値と比較する。 将来の方法論を分析するテストベッドを提供するために、ツールとデータセットを公開しました。 その結果,提案手法は特に高次元シナリオにおいて従来の推定値よりも優れており,神経科学,地球科学,コンピュータビジョン,機械学習などの興味深い知見が得られた。

Information theory is an outstanding framework to measure uncertainty, dependence and relevance in data and systems. It has several desirable properties for real world applications: it naturally deals with multivariate data, it can handle heterogeneous data types, and the measures can be interpreted in physical units. However, it has not been adopted by a wider audience because obtaining information from multidimensional data is a challenging problem due to the curse of dimensionality. Here we propose an indirect way of computing information based on a multivariate Gaussianization transform. Our proposal mitigates the difficulty of multivariate density estimation by reducing it to a composition of tractable (marginal) operations and simple linear transformations, which can be interpreted as a particular deep neural network. We introduce specific Gaussianization-based methodologies to estimate total correlation, entropy, mutual information and Kullback-Leibler divergence. We compare them to recent estimators showing the accuracy on synthetic data generated from different multivariate distributions. We made the tools and datasets publicly available to provide a test-bed to analyze future methodologies. Results show that our proposal is superior to previous estimators particularly in high-dimensional scenarios; and that it leads to interesting insights in neuroscience, geoscience, computer vision, and machine learning.
翻訳日:2022-10-09 11:31:57 公開日:2020-11-25
# 光学系最適化のためのパラメータ化強化学習

Parameterized Reinforcement Learning for Optical System Optimization ( http://arxiv.org/abs/2010.05769v2 )

ライセンス: Link先を確認
Heribert Wankerl and Maike L. Stern and Ali Mahdavi and Christoph Eichler and Elmar W. Lang(参考訳) 光特性を指定した多層光学系の設計は、複数の離散的かつ連続的なパラメータによって結果が決定される逆設計問題である。 特に,多層スタックを記述するための設計パラメータとして,各層の誘電体材料と厚さ,および各層の総層数について考察する。 このような離散パラメータと連続パラメータの組み合わせは、しばしば最適システム設計の計算コストの高い探索を必要とする困難な最適化問題である。 したがって、ほとんどの方法はシステムの層の最適厚さを決定するだけである。 層材料と層数を組み込むため,マルコフ決定過程において連続する層の積み重ねをパラメータ化作用として考慮する手法を提案する。 本稿では,政策最適化が容易な指数変換型報酬信号を提案し,近年のQ-ラーニングを逆設計最適化に適用する。 提案手法は, 人的専門家と, 達成した光学特性に関するナイーブ強化学習アルゴリズムより優れていることを示す。 さらに、学習されたQ値には、多層光学系の光学特性に関する情報が含まれており、物理的解釈や何f解析が可能である。

Designing a multi-layer optical system with designated optical characteristics is an inverse design problem in which the resulting design is determined by several discrete and continuous parameters. In particular, we consider three design parameters to describe a multi-layer stack: Each layer's dielectric material and thickness as well as the total number of layers. Such a combination of both, discrete and continuous parameters is a challenging optimization problem that often requires a computationally expensive search for an optimal system design. Hence, most methods merely determine the optimal thicknesses of the system's layers. To incorporate layer material and the total number of layers as well, we propose a method that considers the stacking of consecutive layers as parameterized actions in a Markov decision process. We propose an exponentially transformed reward signal that eases policy optimization and adapt a recent variant of Q-learning for inverse design optimization. We demonstrate that our method outperforms human experts and a naive reinforcement learning algorithm concerning the achieved optical characteristics. Moreover, the learned Q-values contain information about the optical properties of multi-layer optical systems, thereby allowing physical interpretation or what-if analysis.
翻訳日:2022-10-09 05:05:59 公開日:2020-11-25
# 地球をgaussianizingする:地球データ分析のための多次元情報尺度

Gaussianizing the Earth: Multidimensional Information Measures for Earth Data Analysis ( http://arxiv.org/abs/2010.06476v2 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Valero Laparra, Maria Piles, Gustau Camps-Valls(参考訳) 情報理論は不確実性と冗長性を特徴付けることができるため、地球系データの解析に優れた枠組みであり、普遍的に解釈可能である。 しかし、時空間データは高次元で不均一であり、非線形特性を持つため、正確な情報内容推定は困難である。 本稿では,次元に頑健で統計的保証があり,適用が容易な確率密度推定に多変量ガウス化を適用する。 さらに、この手法により、多変量密度(情報、エントロピー、総相関、相互情報)を特徴付ける情報理論的な尺度を推定できる。 様々な地球系データ解析問題において,情報理論の手法が適用可能であることを示す。 まず, レーダー後方散乱強度を共同でガウス化する方法を示し, ハイパースペクトルデータを合成し, 空中光学画像中の情報内容の定量化を行う。 また,agro-ecosystemsにおける土壌の植生状態を記述する複数の変数の情報内容の定量化を行い,干ばつなどの極端な状況下での共有情報を最大化する時間尺度について検討した。 最後に, リモートセンシング製品における空間と時間次元の相対的情報量を測定し, 降水, 感熱, 蒸発などのキー変数の長期記録を含むモデルシミュレーションを行った。 提案手法の有効性を確認し,その妥当性を確認した。 実装されたアルゴリズムと情報理論のコードとデモが提供される。

Information theory is an excellent framework for analyzing Earth system data because it allows us to characterize uncertainty and redundancy, and is universally interpretable. However, accurately estimating information content is challenging because spatio-temporal data is high-dimensional, heterogeneous and has non-linear characteristics. In this paper, we apply multivariate Gaussianization for probability density estimation which is robust to dimensionality, comes with statistical guarantees, and is easy to apply. In addition, this methodology allows us to estimate information-theoretic measures to characterize multivariate densities: information, entropy, total correlation, and mutual information. We demonstrate how information theory measures can be applied in various Earth system data analysis problems. First we show how the method can be used to jointly Gaussianize radar backscattering intensities, synthesize hyperspectral data, and quantify of information content in aerial optical images. We also quantify the information content of several variables describing the soil-vegetation status in agro-ecosystems, and investigate the temporal scales that maximize their shared information under extreme events such as droughts. Finally, we measure the relative information content of space and time dimensions in remote sensing products and model simulations involving long records of key variables such as precipitation, sensible heat and evaporation. Results confirm the validity of the method, for which we anticipate a wide use and adoption. Code and demos of the implemented algorithms and information-theory measures are provided.
翻訳日:2022-10-08 00:33:56 公開日:2020-11-25
# ネステッドリーマン多様体によるハイ次元ベイズ最適化

High-Dimensional Bayesian Optimization via Nested Riemannian Manifolds ( http://arxiv.org/abs/2010.10904v3 )

ライセンス: Link先を確認
No\'emie Jaquier and Leonel Rozo(参考訳) 近年、サンプル効率が必須となる様々なアプリケーションでベイズ最適化(BO)が成功しているが、その性能は高次元パラメータ空間を特徴とする設定で著しく損なわれる可能性がある。 このような問題におけるBOのサンプル効率を維持するための解決策は、その定式化にドメイン知識を導入することである。 本稿では,様々な領域でしばしば発生する非ユークリッド探索空間の幾何学を利用して,構造保存写像を学習し,低次元潜在空間におけるBOの獲得関数を最適化する。 リーマン多様体理論に基づいて構築された我々のアプローチは、ネスト多様体の埋め込みを共同で学習する幾何学的ガウス過程と、潜在空間における目的関数の表現を特徴付ける。 提案手法は,いくつかのベンチマーク人工景観においてテストし,他の高次元BO手法よりも高い性能を示すだけでなく,幾何認識のBO法とは対照的に目的関数を一貫して最適化することを示した。

Despite the recent success of Bayesian optimization (BO) in a variety of applications where sample efficiency is imperative, its performance may be seriously compromised in settings characterized by high-dimensional parameter spaces. A solution to preserve the sample efficiency of BO in such problems is to introduce domain knowledge into its formulation. In this paper, we propose to exploit the geometry of non-Euclidean search spaces, which often arise in a variety of domains, to learn structure-preserving mappings and optimize the acquisition function of BO in low-dimensional latent spaces. Our approach, built on Riemannian manifolds theory, features geometry-aware Gaussian processes that jointly learn a nested-manifold embedding and a representation of the objective function in the latent space. We test our approach in several benchmark artificial landscapes and report that it not only outperforms other high-dimensional BO approaches in several settings, but consistently optimizes the objective functions, as opposed to geometry-unaware BO methods.
翻訳日:2022-10-05 00:54:54 公開日:2020-11-25
# 量子変形型ニューラルネットワーク

Quantum Deformed Neural Networks ( http://arxiv.org/abs/2010.11189v2 )

ライセンス: Link先を確認
Roberto Bondesan, Max Welling(参考訳) 量子コンピュータ上で効率的に動作するように設計された新しい量子ニューラルネットワーク層を開発したが、入力状態の絡み合い方で制限された場合、古典的コンピュータ上でシミュレートすることができる。 まず,量子位相推定を用いた量子コンピュータ上で,古典的ニューラルネットワークアーキテクチャ(完全連結あるいは畳み込み)がどのように実行できるかを問う。 その後、古典層を量子設計に変形し、活性化と重みを量子重ね合わせする。 完全なモデルは量子コンピュータによって提供される指数関数的なスピードアップを必要とするが、制限された設計のクラスは、まだ量子機能を使用する興味深い新しい古典的ネットワーク層を表している。 これらの量子変形ニューラルネットワークは、画像などの通常のデータ上でトレーニングや実行が可能であり、古典的には標準アーキテクチャよりも適度に改善されている。

We develop a new quantum neural network layer designed to run efficiently on a quantum computer but that can be simulated on a classical computer when restricted in the way it entangles input states. We first ask how a classical neural network architecture, both fully connected or convolutional, can be executed on a quantum computer using quantum phase estimation. We then deform the classical layer into a quantum design which entangles activations and weights into quantum superpositions. While the full model would need the exponential speedups delivered by a quantum computer, a restricted class of designs represent interesting new classical network layers that still use quantum features. We show that these quantum deformed neural networks can be trained and executed on normal data such as images, and even classically deliver modest improvements over standard architectures.
翻訳日:2022-10-05 00:53:39 公開日:2020-11-25
# 選好識別のための新しい機械学習手法

A Novel Machine Learning Method for Preference Identification ( http://arxiv.org/abs/2010.13517v2 )

ライセンス: Link先を確認
Azlan Iqbal(参考訳) ドメイン内の人間の好みや味は通常、高い確率で識別または予測することが難しい。 チェス問題の構成の領域では、同じことが真である。 従来の機械学習のアプローチでは、コンピュータが大量のデータを処理し、ニューラルネットワーク内の「重み」を継続的に調整して、例えば2つのオブジェクトを区別する能力に重点が置かれている。 チェスの構成とは対照的に、あるものを構成するものとそうでないものの間に明確な区別はない。 本稿では,従来の「いいね」と「嫌われ」の合成データベースから学習可能な計算手法を提案する。 この方法は、各構成の開始位置のForsyth-Edwards Notation (FEN)に関連する単純な「変化因子」と、両方のデータベースからのサンプルペアの統計解析を繰り返す。 著者自身のチェス問題集を用いてテストした結果,提案手法は,平均的に70%以上の好まれる楽曲がコレクションの上位半分に収まるように,新規かつ未発見の作文群を分類できることが判明した。 これにより、より早く好きなものを見つける可能性が高いため、解決者側でかなりの時間とエネルギーを節約できる。 この方法は、チェス固有のルールに頼らず、単に一つのオブジェクトから次のオブジェクトへの表現において十分な量化可能な「変更」を行うため、画像処理のような他の領域にも適用できる。

Human preference or taste within any domain is usually a difficult thing to identify or predict with high probability. In the domain of chess problem composition, the same is true. Traditional machine learning approaches tend to focus on the ability of computers to process massive amounts of data and continuously adjust 'weights' within an artificial neural network to better distinguish between say, two groups of objects. Contrasted with chess compositions, there is no clear distinction between what constitutes one and what does not; even less so between a good one and a poor one. We propose a computational method that is able to learn from existing databases of 'liked' and 'disliked' compositions such that a new and unseen collection can be sorted with increased probability of matching a solver's preferences. The method uses a simple 'change factor' relating to the Forsyth-Edwards Notation (FEN) of each composition's starting position, coupled with repeated statistical analysis of sample pairs from both databases. Tested using the author's own collections of computer-generated chess problems, the experimental results showed that the method was able to sort a new and unseen collection of compositions such that, on average, over 70% of the preferred compositions were in the top half of the collection. This saves significant time and energy on the part of solvers as they are likely to find more of what they like sooner. The method may even be applicable to other domains such as image processing because it does not rely on any chess-specific rules but rather just a sufficient and quantifiable 'change' in representation from one object to the next.
翻訳日:2022-10-04 05:31:41 公開日:2020-11-25
# 概念中心共通感覚のための事前学習型テキスト・テキスト変換器

Pre-training Text-to-Text Transformers for Concept-centric Common Sense ( http://arxiv.org/abs/2011.07956v2 )

ライセンス: Link先を確認
Wangchunshu Zhou, Dong-Ho Lee, Ravi Kiran Selvam, Seyeon Lee, Bill Yuchen Lin, Xiang Ren(参考訳) 事前学習された言語モデル(PTLM)は、自然言語理解(NLU)と生成(NLG)タスクにおいて、目覚ましい結果を得た。 しかしながら、マスクドトークン予測(bert型ptlm)やマスク付きスパンインフィルディング(t5型ptlm)といった現在の事前トレーニング対象は、日常的な概念に関するリレーショナルコモンセンスの知識を明示的にモデル化していない。 本稿では,PTLMを概念中心のコモンセンス知識で強化するために,テキストから共通感覚を学習するための生成的目的とコントラスト的目的の両方を提案し,PTLMを段階的に事前学習するための中間的自己教師型学習タスクとして利用する(下流データセットにおけるタスク特化微調整前)。 さらに,生産的かつコントラスト的な目的を統一し,相互に強化できる共同事前学習フレームワークを開発する。 実験の結果,概念認識型言語モデル (CALM) は,外部知識グラフに頼らずに事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことで,NLUタスクとNLGタスクの両方でより優れた性能が得られることがわかった。 比較的小さなコーパスを数ステップで段階的に事前学習しただけで、CALMはベースライン法を一貫したマージンで上回り、より大きなPTLMに匹敵する性能を示し、CALMはPTLMの常識的推論能力を改善するための汎用的なプラグアンドプレイ法として機能することを示唆している。

Pre-trained language models (PTLM) have achieved impressive results in a range of natural language understanding (NLU) and generation (NLG) tasks. However, current pre-training objectives such as masked token prediction (for BERT-style PTLMs) and masked span infilling (for T5-style PTLMs) do not explicitly model the relational commonsense knowledge about everyday concepts, which is crucial to many downstream tasks that need common sense to understand or generate. To augment PTLMs with concept-centric commonsense knowledge, in this paper, we propose both generative and contrastive objectives for learning common sense from the text, and use them as intermediate self-supervised learning tasks for incrementally pre-training PTLMs (before task-specific fine-tuning on downstream datasets). Furthermore, we develop a joint pre-training framework to unify generative and contrastive objectives so that they can mutually reinforce each other. Extensive experimental results show that our method, concept-aware language model (CALM), can pack more commonsense knowledge into the parameters of a pre-trained text-to-text transformer without relying on external knowledge graphs, yielding better performance on both NLU and NLG tasks. We show that while only incrementally pre-trained on a relatively small corpus for a few steps, CALM outperforms baseline methods by a consistent margin and even comparable with some larger PTLMs, which suggests that CALM can serve as a general, plug-and-play method for improving the commonsense reasoning ability of a PTLM.
翻訳日:2022-10-03 11:51:53 公開日:2020-11-25
# ジェネレーティブ・トモグラフィーの再構成

Generative Tomography Reconstruction ( http://arxiv.org/abs/2010.14933v2 )

ライセンス: Link先を確認
Matteo Ronchetti, Davide Bacciu(参考訳) そこで本研究では,ノイズの高い音像を直接復調にマッピングする,トモグラフィ再構成のためのエンドツーエンドの微分可能なアーキテクチャを提案する。 既存のアプローチと比較して、エンドツーエンドアーキテクチャは、パラメータと時間が少なく、より正確なリコンストラクションを生成します。 また,ノイズに富む音像から現実的な再構成をサンプリングできる生成モデルを提案する。 この生成モデルは、物理モデルを考慮して、再構築のアーティファクトとエラーを低減できる反復プロセスの中で、事前として使用できる。

We propose an end-to-end differentiable architecture for tomography reconstruction that directly maps a noisy sinogram into a denoised reconstruction. Compared to existing approaches our end-to-end architecture produces more accurate reconstructions while using less parameters and time. We also propose a generative model that, given a noisy sinogram, can sample realistic reconstructions. This generative model can be used as prior inside an iterative process that, by taking into consideration the physical model, can reduce artifacts and errors in the reconstructions.
翻訳日:2022-10-02 18:46:40 公開日:2020-11-25
# 線形時変環境におけるメタラーニングによるシステム同定

System Identification via Meta-Learning in Linear Time-Varying Environments ( http://arxiv.org/abs/2010.14664v2 )

ライセンス: Link先を確認
Sen Lin, Hang Wang and Junshan Zhang(参考訳) システム同定は強化学習、制御理論、信号処理において根本的な問題であり、線形時変(ltv)システムにおいても、対応するサンプル複雑性の非漸近解析は困難かつ不可解である。 この課題に対処するため,各ブロック内でモデルパラメータが一定でありながらブロックからブロックへ変化するLTVシステム用のエピソードブロックモデルを開発した。 異なるブロックにまたがるモデルパラメータが関連しているという観測に基づいて、各エピソディックブロックを学習タスクとして扱い、オフラインメタラーニングとオンライン適応という2つのステップを使用して、多くのブロックでメタラーニングを実行し、システム識別を行う。 メタラーニングに基づくシステム同定の性能の包括的非漸近的解析を行う。 各ブロックにおけるサンプル相関と小さなサンプルサイズに根ざした技術的課題に対処するため、ブロック間の任意のモデル相関構造のために、オフラインメタラーニングのための2スケールの小さなボールアプローチを考案した。 次に,オンライン適応の有限時間誤差を線形確率近似の最近の進歩と相関したサンプルを用いて定量化する。

System identification is a fundamental problem in reinforcement learning, control theory and signal processing, and the non-asymptotic analysis of the corresponding sample complexity is challenging and elusive, even for linear time-varying (LTV) systems. To tackle this challenge, we develop an episodic block model for the LTV system where the model parameters remain constant within each block but change from block to block. Based on the observation that the model parameters across different blocks are related, we treat each episodic block as a learning task and then run meta-learning over many blocks for system identification, using two steps, namely offline meta-learning and online adaptation. We carry out a comprehensive non-asymptotic analysis of the performance of meta-learning based system identification. To deal with the technical challenges rooted in the sample correlation and small sample sizes in each block, we devise a new two-scale martingale small-ball approach for offline meta-learning, for arbitrary model correlation structure across blocks. We then quantify the finite time error of online adaptation by leveraging recent advances in linear stochastic approximation with correlated samples.
翻訳日:2022-10-02 13:25:32 公開日:2020-11-25
# 合理最適化による非線形モデルのスパース信号再構成

Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational Optimization ( http://arxiv.org/abs/2010.15427v2 )

ライセンス: Link先を確認
Arthur Marmin and Marc Castella and Jean-Christophe Pesquet and Laurent Duval(参考訳) 非線形歪みにより劣化し,限られたサンプリングレートで得られたスパース信号を再構成する手法を提案する。 本手法は,データ適合項とペナルティ項の和の非凸最小化として再構成問題を定式化する。 近似された局所解を求める従来のほとんどの研究とは対照的に、我々は得られた挑戦的非凸問題に対する大域的解を求める。 我々のグローバルアプローチは、多項式最適化のいわゆるラッサーレ緩和に依存している。 ここで特に、区分有理関数の場合には、$\ell_0$ ペナリゼーション関数の幅広い非凸完全かつ連続的な緩和に対応することができる。 さらに,最適化問題の複雑性についても検討する。 問題の構造を用いて効率よく計算負荷を緩和する方法が示されている。 最後に,大域的最適性と信号再構成の両面から,本手法の利点を数値シミュレーションで示す。

We propose a method to reconstruct sparse signals degraded by a nonlinear distortion and acquired at a limited sampling rate. Our method formulates the reconstruction problem as a nonconvex minimization of the sum of a data fitting term and a penalization term. In contrast with most previous works which settle for approximated local solutions, we seek for a global solution to the obtained challenging nonconvex problem. Our global approach relies on the so-called Lasserre relaxation of polynomial optimization. We here specifically include in our approach the case of piecewise rational functions, which makes it possible to address a wide class of nonconvex exact and continuous relaxations of the $\ell_0$ penalization function. Additionally, we study the complexity of the optimization problem. It is shown how to use the structure of the problem to lighten the computational burden efficiently. Finally, numerical simulations illustrate the benefits of our method in terms of both global optimality and signal reconstruction.
翻訳日:2022-10-02 00:05:22 公開日:2020-11-25
# スケールアテンションネットワークを用いた脳腫瘍自動分割

Automatic Brain Tumor Segmentation with Scale Attention Network ( http://arxiv.org/abs/2011.03188v3 )

ライセンス: Link先を確認
Yading Yuan(参考訳) 脳腫瘍の自動セグメンテーションは、正確な腫瘍検出、診断、予後、治療計画、評価のための定量的イメージングバイオマーカーを抽出するために必要なステップである。 Multimodal Brain tumor Segmentation Challenge 2020 (BraTS 2020)は、マルチパラメトリック磁気共鳴イメージング(mpMRI)における異なる自動アルゴリズムを比較する共通プラットフォームを提供する。 1)脳腫瘍セグメンテーションMRIスキャン 2)術前mriによる全生存率(os)の予測 3)治療関連効果と真腫瘍再発の鑑別 4)セグメンテーションにおける不確実性の評価。 我々は,エンコーダ・デコーダアーキテクチャに基づく完全自動セグメンテーションネットワークを開発することで,画像セグメンテーションチャレンジに参加する。 異なるスケールの情報をよりよく統合するために,異なるスケールで機能マップから高レベルなセマンティクスに低レベルの詳細を組み込む動的スケールアテンション機構を提案する。 当フレームワークはBraTS 2020の369症例を対象にトレーニングを行い,平均Dice similarity Coefficient (DSC) は0.8828, 0.8433, 0.8177, 95% Hausdorff distance (mm) は5.2176, 17.9697, 13.4298で, 全腫瘍, 腫瘍コア, 造影腫瘍の166症例でそれぞれ5.2176, 17.9697, 13.4298であり,BraTS 2020の693件のうち3位にランクインした。

Automatic segmentation of brain tumors is an essential but challenging step for extracting quantitative imaging biomarkers for accurate tumor detection, diagnosis, prognosis, treatment planning and assessment. Multimodal Brain Tumor Segmentation Challenge 2020 (BraTS 2020) provides a common platform for comparing different automatic algorithms on multi-parametric Magnetic Resonance Imaging (mpMRI) in tasks of 1) Brain tumor segmentation MRI scans; 2) Prediction of patient overall survival (OS) from pre-operative MRI scans; 3) Distinction of true tumor recurrence from treatment related effects and 4) Evaluation of uncertainty measures in segmentation. We participate the image segmentation challenge by developing a fully automatic segmentation network based on encoder-decoder architecture. In order to better integrate information across different scales, we propose a dynamic scale attention mechanism that incorporates low-level details with high-level semantics from feature maps at different scales. Our framework was trained using the 369 challenge training cases provided by BraTS 2020, and achieved an average Dice Similarity Coefficient (DSC) of 0.8828, 0.8433 and 0.8177, as well as 95% Hausdorff distance (in millimeter) of 5.2176, 17.9697 and 13.4298 on 166 testing cases for whole tumor, tumor core and enhanced tumor, respectively, which ranked itself as the 3rd place among 693 registrations in the BraTS 2020 challenge.
翻訳日:2022-09-29 05:16:18 公開日:2020-11-25
# virtual goniometer : 骨・骨の3次元モデルにおける新しい角度計測法

The Virtual Goniometer: A new method for measuring angles on 3D models of fragmentary bone and lithics ( http://arxiv.org/abs/2011.04898v2 )

ライセンス: Link先を確認
Katrina Yezzi-Woodley, Jeff Calder, Peter J. Olver, Annie Melton, Paige Cody, Thomas Huffstutler, Alexander Terwilliger, Martha Tappen, Reed Coil, Gilbert Tostevin(参考訳) 接触ゴニメーターは、測定器具、測定対象物、測定対象者との物理的相互作用による多くの欠点にもかかわらず、石器学的および動物考古学的分析において一般的に用いられる道具である。 しかし、シンプルで効率的な代替手段が欠けているため、様々な分野の研究者がコンタクトゴニメーターを今日まで使い続けている。 本稿では,物体の3次元モデル上で仮想的に角度測定を行う仮想ゴニメータと呼ばれる新しいゴニメータ法を提案する。 仮想ゴニメーターは、高速なデータ収集と、手動ゴニメーターによって物理的にアクセスできない多くの角度の測定を可能にする。 マニュアルと仮想ゴニメータのサーバ内変動を比較し,仮想ゴニメータがはるかに一貫性と信頼性があることを確認した。 さらに、仮想ゴニメーターは、複数のユーザの間でも正確な角度測定の再現が可能であり、ゴニメトリに基づく研究の再現性に重要である。 仮想ゴニメーターは、オープンソースのメッシュ処理パッケージであるmeshlabとblenderのプラグインとして利用可能であり、考古学的手法を改善し、人類学的疑問に対処するためのゴニオメトリの可能性を探る研究者に簡単にアクセスすることができる。

The contact goniometer is a commonly used tool in lithic and zooarchaeological analysis, despite suffering from a number of shortcomings due to the physical interaction between the measuring implement, the object being measured, and the individual taking the measurements. However, lacking a simple and efficient alternative, researchers in a variety of fields continue to use the contact goniometer to this day. In this paper, we present a new goniometric method that we call the virtual goniometer, which takes angle measurements virtually on a 3D model of an object. The virtual goniometer allows for rapid data collection, and for the measurement of many angles that cannot be physically accessed by a manual goniometer. We compare the intra-observer variability of the manual and virtual goniometers, and find that the virtual goniometer is far more consistent and reliable. Furthermore, the virtual goniometer allows for precise replication of angle measurements, even among multiple users, which is important for reproducibility of goniometric-based research. The virtual goniometer is available as a plug-in in the open source mesh processing packages Meshlab and Blender, making it easily accessible to researchers exploring the potential for goniometry to improve archaeological methods and address anthropological questions.
翻訳日:2022-09-27 08:33:28 公開日:2020-11-25
# 光学活性および濁った散乱媒体の光学特性推定のためのニューラルネットワーク

Neural network for estimation of optical characteristics of optically active and turbid scattering media ( http://arxiv.org/abs/2011.06934v2 )

ライセンス: Link先を確認
Ali Alavi(参考訳) 医用画像における品質劣化の原因の1つとして,特に光コヒーレンストモグラフィ(OCT)は,光子が予測可能な経路を取らず,多くの散乱事象が有効経路長に影響を与え,偏光の偏光を変化させるような濁った生体媒体である。 この本質的な問題は、干渉法が高分解能であっても撮像誤差を引き起こす。 この問題に対処し、この問題の本質的なランダム性を考慮するために、過去数十年の間にOCTのモンテカルロシミュレーションを含むいくつかの手法が提案された。 このアプローチのシミュレーションでは、基礎となる物理的構造とoctイメージングとを1対1で比較できるでしょう。 その目的は、実践者に基盤構造をよりよく理解することであったが、OCT画像の精度と画像品質を高めるための包括的なアプローチを提供することに欠けており、イメージング手法がどう失敗するかの一連の例を提供するだけだった。 この問題を緩和し,ハードウェアを変更することなく医用画像を改善するための新しいアプローチを示すために,モンテカルロシミュレーションとディープニューラルネットワークを組み合わせた新しいパイプラインを導入する。

One native source of quality deterioration in medical imaging, and especially in our case optical coherence tomography (OCT), is the turbid biological media in which photon does not take a predictable path and many scattering events would influence the effective path length and change the polarization of polarized light. This inherent problem would cause imaging errors even in the case of high resolution of interferometric methods. To address this problem and considering the inherent random nature of this problem, in the last decades some methods including Monte Carlo simulation for OCT was proposed. In this approach simulation would give us a one on one comparison of underlying physical structure and its OCT imaging counterpart. Although its goal was to give the practitioners a better understanding of underlying structure, it lacks in providing a comprehensive approach to increase the accuracy and imaging quality of OCT imaging and would only provide a set of examples on how imaging method might falter. To mitigate this problem and to demonstrate a new approach to improve the medical imaging without changing any hardware, we introduce a new pipeline consisting of Monte Carlo simulation followed by a deep neural network.
翻訳日:2022-09-26 07:53:43 公開日:2020-11-25
# 量子化深層ニューラルネットワークの微調整改善のためのフィルタプリプルーニング

Filter Pre-Pruning for Improved Fine-tuning of Quantized Deep Neural Networks ( http://arxiv.org/abs/2011.06751v2 )

ライセンス: Link先を確認
Jun Nishikawa, Ryoji Ikegaya(参考訳) Deep Neural Networks(DNN)には多くのパラメータとアクティベーションデータがあり、いずれも実装に費用がかかる。 DNNのサイズを小さくする方法の1つは、重みとアクティベーションの低ビット式を用いて事前訓練されたモデルを定量化し、微調整により精度の低下を回復することである。 しかし、一般に低ビット表現を用いたニューラルネットワークのトレーニングは困難である。 1つの理由は、DNNの中間層における重みが広いダイナミックレンジであるため、広ダイナミックレンジを数ビットに量子化すると、ステップサイズが大きくなり、量子化誤差が大きくなり、最終的に精度が大幅に低下するからである。 そこで本研究では,追加の学習パラメータやハイパーパラメータを使わずに,以下の3つのコントリビューションを行う。 まず,上記の問題を引き起こすバッチ正規化が,量子化dnnの微調整を阻害する原因について解析する。 第2に、これらの結果に基づいて、推定結果に極力影響を与えずにDNNの微調整を妨害するフィルタを除去するPruning for Quantization (PfQ)と呼ばれる新しいプルーニング手法を提案する。 第3に,提案手法(PfQ)を用いた量子化DNNの微調整ワークフローを提案する。 既知のモデルとデータセットを用いた実験により,提案手法は,微調整を含む従来の量子化法と類似したモデルサイズで高い性能が得られることを確認した。

Deep Neural Networks(DNNs) have many parameters and activation data, and these both are expensive to implement. One method to reduce the size of the DNN is to quantize the pre-trained model by using a low-bit expression for weights and activations, using fine-tuning to recover the drop in accuracy. However, it is generally difficult to train neural networks which use low-bit expressions. One reason is that the weights in the middle layer of the DNN have a wide dynamic range and so when quantizing the wide dynamic range into a few bits, the step size becomes large, which leads to a large quantization error and finally a large degradation in accuracy. To solve this problem, this paper makes the following three contributions without using any additional learning parameters and hyper-parameters. First, we analyze how batch normalization, which causes the aforementioned problem, disturbs the fine-tuning of the quantized DNN. Second, based on these results, we propose a new pruning method called Pruning for Quantization (PfQ) which removes the filters that disturb the fine-tuning of the DNN while not affecting the inferred result as far as possible. Third, we propose a workflow of fine-tuning for quantized DNNs using the proposed pruning method(PfQ). Experiments using well-known models and datasets confirmed that the proposed method achieves higher performance with a similar model size than conventional quantization methods including fine-tuning.
翻訳日:2022-09-26 00:11:20 公開日:2020-11-25
# FedEval: フェデレーション学習のための総合評価モデルを備えたベンチマークシステム

FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning ( http://arxiv.org/abs/2011.09655v2 )

ライセンス: Link先を確認
Di Chai and Leye Wang and Kai Chen and Qiang Yang(参考訳) プライバシ保護機械学習(ML)の革新的なソリューションとして、フェデレーション学習(FL)は研究や産業分野から注目を集めている。 過去数年間に提案された新しい技術はFL領域を進化させてきたが、残念なことにこれらの研究で示された評価結果は整合性に乏しく、不整合性評価指標と共通プラットフォームが欠如しているため、ほぼ同等ではない。 本稿では,flシステムのための包括的評価フレームワークを提案する。 具体的には、まずACTPRモデルを紹介し、正確性、コミュニケーション、時間効率、プライバシー、ロバストネスなどのFL評価では除外できない5つの指標を定義します。 次に,既存の作品を一貫した実験条件下で体系的に評価・比較できるベンチマークシステムfedevalを設計・実装する。 次に、最も広く使われている2つのflメカニズムであるfeedsgdとfedavg間の詳細なベンチマーク研究を行う。 ベンチマークの結果,fesgd と fedavg はともに actpr モデル下での利点とデメリットを持っていることがわかった。 例えば、FedSGDは独立で同一に分散された(非IID)データ問題の影響を受けていないが、FedAvgは実験で最大9%の精度の低下に悩まされている。 一方、FedAvgは時間消費と通信に関してFedSGDよりも効率的である。 最後に,FL領域の研究者にとって非常に有益であるテイクアウト結論の集合を発掘する。

As an innovative solution for privacy-preserving machine learning (ML), federated learning (FL) is attracting much attention from research and industry areas. While new technologies proposed in the past few years do evolve the FL area, unfortunately, the evaluation results presented in these works fall short in integrity and are hardly comparable because of the inconsistent evaluation metrics and the lack of a common platform. In this paper, we propose a comprehensive evaluation framework for FL systems. Specifically, we first introduce the ACTPR model, which defines five metrics that cannot be excluded in FL evaluation, including Accuracy, Communication, Time efficiency, Privacy, and Robustness. Then we design and implement a benchmarking system called FedEval, which enables the systematic evaluation and comparison of existing works under consistent experimental conditions. We then provide an in-depth benchmarking study between the two most widely-used FL mechanisms, FedSGD and FedAvg. The benchmarking results show that FedSGD and FedAvg both have advantages and disadvantages under the ACTPR model. For example, FedSGD is barely influenced by the none independent and identically distributed (non-IID) data problem, but FedAvg suffers from a decline in accuracy of up to 9% in our experiments. On the other hand, FedAvg is more efficient than FedSGD regarding time consumption and communication. Lastly, we excavate a set of take-away conclusions, which are very helpful for researchers in the FL area.
翻訳日:2022-09-23 22:01:11 公開日:2020-11-25
# 生体分子ネットワークの検証実験の設計

Design of Experiments for Verifying Biomolecular Networks ( http://arxiv.org/abs/2011.10575v2 )

ライセンス: Link先を確認
Ruby Sedgwick, John Goertz, Molly Stevens, Ruth Misener, Mark van der Wilk(参考訳) メカニスティック(非機械学習)モデルを用いて生体分子ネットワークを設計する、分子生物学と合成生物学のトレンドが増えている。 一旦設計されると、理論ネットワークが真のシステムを正しくモデル化するために、実験結果によって検証される必要がある。 しかし、これらの実験は高価で時間がかかる。 本稿では,これらのネットワークを効率的に検証するための実験手法を提案する。 ガウス過程は実験結果と設計された応答との差の確率モデルを構築するために使用され、次にベイズ最適化戦略を用いて次のサンプル点を選択する。 異なる設計基準を比較し, 表面上のこの相違点とその不確かさを定量化する計量に基づいて, 停止基準を策定する。 バイオケミカルプロセスのコンピュータモデルからのシミュレーションデータに関する戦略を検証した。

There is a growing trend in molecular and synthetic biology of using mechanistic (non machine learning) models to design biomolecular networks. Once designed, these networks need to be validated by experimental results to ensure the theoretical network correctly models the true system. However, these experiments can be expensive and time consuming. We propose a design of experiments approach for validating these networks efficiently. Gaussian processes are used to construct a probabilistic model of the discrepancy between experimental results and the designed response, then a Bayesian optimization strategy used to select the next sample points. We compare different design criteria and develop a stopping criterion based on a metric that quantifies this discrepancy over the whole surface, and its uncertainty. We test our strategy on simulated data from computer models of biochemical processes.
翻訳日:2022-09-23 05:40:41 公開日:2020-11-25
# ヒンディー語混成テキストにおける言語識別のための入力表現の評価

Evaluating Input Representation for Language Identification in Hindi-English Code Mixed Text ( http://arxiv.org/abs/2011.11263v2 )

ライセンス: Link先を確認
Ramchandra Joshi, Raviraj Joshi(参考訳) 自然言語処理(NLP)技術は近年主流になりつつある。 これらの進歩のほとんどは、単一の言語の処理に起因する。 最近では、ソーシャルメディアプラットフォームの広範な成長に伴い、コード混合テキストに焦点が移っている。 コード混合テキストは、複数の言語で書かれたテキストを含む。 人々は自然に地元の言語と英語のようなグローバル言語を結合する傾向がある。 このようなテキストを処理するには、現在のNLP技術では不十分である。 最初のステップとして、テキスト内の単語の言語を特定するために、テキストが処理される。 本研究では,ヒンズー語と英語の混合テキストに対するコード混合文の言語識別に焦点をあてる。 言語識別タスクはトークン分類タスクとして定式化される。 教師付き設定では、文中の各単語は関連する言語ラベルを有する。 この課題に対して,異なるディープラーニングモデルと入力表現の組み合わせを評価した。 主に、文字、サブワード、単語の埋め込みは、CNNやLSTMベースのモデルと組み合わせて検討される。 lstmモデルと共にサブワード表現が最良の結果を与えることを示す。 一般にサブワード表現は、他の入力表現よりもかなりよく機能する。 標準SAIL ICON 2017テストセットの単一層LSTMモデルを用いて,94.52%の精度を報告した。

Natural language processing (NLP) techniques have become mainstream in the recent decade. Most of these advances are attributed to the processing of a single language. More recently, with the extensive growth of social media platforms focus has shifted to code-mixed text. The code-mixed text comprises text written in more than one language. People naturally tend to combine local language with global languages like English. To process such texts, current NLP techniques are not sufficient. As a first step, the text is processed to identify the language of the words in the text. In this work, we focus on language identification in code-mixed sentences for Hindi-English mixed text. The task of language identification is formulated as a token classification task. In the supervised setting, each word in the sentence has an associated language label. We evaluate different deep learning models and input representation combinations for this task. Mainly, character, sub-word, and word embeddings are considered in combination with CNN and LSTM based models. We show that sub-word representation along with the LSTM model gives the best results. In general sub-word representations perform significantly better than other input representations. We report the best accuracy of 94.52% using a single layer LSTM model on the standard SAIL ICON 2017 test set.
翻訳日:2022-09-22 01:18:56 公開日:2020-11-25
# 非教師付きボリュームベースMR-CT合成によるMRI上側頭葉の3次元分割

Three-dimensional Segmentation of the Scoliotic Spine from MRI using Unsupervised Volume-based MR-CT Synthesis ( http://arxiv.org/abs/2011.14005v1 )

ライセンス: Link先を確認
Enamundram M. V. Naga Karthik, Catherine Laporte, Farida Cheriet(参考訳) MRI画像からの椎骨分割は難しい課題である。 生体の軟部組織を強調するモダリティの性質により、MR画像の骨を検出するのに共通のしきい値付けアルゴリズムは効果がない。 一方, 骨と周辺領域のコントラストが高いため, CT画像から骨を分離することが比較的容易である。 そのため, 単純しきい値を用いた椎骨分割法において, MR領域とCT領域の相互モダリティ合成を行う。 しかし,このことは,特に側頭症患者ではまれなMR-CTデータの有用性を暗黙的に仮定している。 本稿では,完全教師なし,完全3次元(3次元)クロスモダリティ合成法を提案する。 3D CycleGANモデルはMR領域とCT領域にまたがるボリューム・ツー・ボリューム変換のために訓練される。 次に, 合成CTボリュームに大津しきい値法を適用し, 脊椎骨のセグメンテーションを容易にする。 結果として生じるセグメンテーションは、脊椎の3次元モデルを再構成するために使用される。 術前X線検査で得られた各椎骨と分節椎体の表面のランドマーク点間の平均距離を計算し,3例の側頭葉骨28例について検討した。 その結果、平均誤差は3.41$\pm$ 1.06mmとなった。 質的,定量的な結果から,無害なデータから無害な方法で訓練した後に,有意なセグメンテーションと脊柱の3次元再構築が可能であると結論付けた。

Vertebral bone segmentation from magnetic resonance (MR) images is a challenging task. Due to the inherent nature of the modality to emphasize soft tissues of the body, common thresholding algorithms are ineffective in detecting bones in MR images. On the other hand, it is relatively easier to segment bones from CT images because of the high contrast between bones and the surrounding regions. For this reason, we perform a cross-modality synthesis between MR and CT domains for simple thresholding-based segmentation of the vertebral bones. However, this implicitly assumes the availability of paired MR-CT data, which is rare, especially in the case of scoliotic patients. In this paper, we present a completely unsupervised, fully three-dimensional (3D) cross-modality synthesis method for segmenting scoliotic spines. A 3D CycleGAN model is trained for an unpaired volume-to-volume translation across MR and CT domains. Then, the Otsu thresholding algorithm is applied to the synthesized CT volumes for easy segmentation of the vertebral bones. The resulting segmentation is used to reconstruct a 3D model of the spine. We validate our method on 28 scoliotic vertebrae in 3 patients by computing the point-to-surface mean distance between the landmark points for each vertebra obtained from pre-operative X-rays and the surface of the segmented vertebra. Our study results in a mean error of 3.41 $\pm$ 1.06 mm. Based on qualitative and quantitative results, we conclude that our method is able to obtain a good segmentation and 3D reconstruction of scoliotic spines, all after training from unpaired data in an unsupervised manner.
翻訳日:2022-09-21 04:04:42 公開日:2020-11-25
# 勾配アルゴリズムによる平滑なオンライン凸最適化におけるレバレッジ予測

Leveraging Predictions in Smoothed Online Convex Optimization via Gradient-based Algorithms ( http://arxiv.org/abs/2011.12539v1 )

ライセンス: Link先を確認
Yingying Li and Na Li(参考訳) 我々は,オンライン凸最適化と時間変動ステージコスト,追加切替コストについて検討する。 スイッチングコストはすべてのステージにカップリングをもたらすため、オンラインパフォーマンスを改善するためにマルチステップ(長期)予測が組み込まれている。 しかし、長期的な予測は品質の低下に苦しむ傾向がある。 したがって、重要な疑問は、長期予測エラーがオンラインのパフォーマンスに与える影響をどうやって減らせるかである。 この問題に対処するために、勾配に基づくオンラインアルゴリズムReceding Horizon Inexact Gradient (RHIG)を導入し、環境の時間的変動と予測誤差の観点から動的後悔によってその性能を解析する。 rhig氏は、長期的にの悪い予測によって誤解されるのを避けるため、最大で$w$-step-aheadの予測しか考えていない。 後悔の限界によって提案される$w$の最適選択は、環境の変動と予測精度とのトレードオフに依存する。 さらに,rhigを定評ある確率的予測誤差モデルに適用し,相関予測誤差下での期待後悔と集中限界を与える。 最後に,2次追跡問題に対するRHIGの性能を数値的に検証する。

We consider online convex optimization with time-varying stage costs and additional switching costs. Since the switching costs introduce coupling across all stages, multi-step-ahead (long-term) predictions are incorporated to improve the online performance. However, longer-term predictions tend to suffer from lower quality. Thus, a critical question is: how to reduce the impact of long-term prediction errors on the online performance? To address this question, we introduce a gradient-based online algorithm, Receding Horizon Inexact Gradient (RHIG), and analyze its performance by dynamic regrets in terms of the temporal variation of the environment and the prediction errors. RHIG only considers at most $W$-step-ahead predictions to avoid being misled by worse predictions in the longer term. The optimal choice of $W$ suggested by our regret bounds depends on the tradeoff between the variation of the environment and the prediction accuracy. Additionally, we apply RHIG to a well-established stochastic prediction error model and provide expected regret and concentration bounds under correlated prediction errors. Lastly, we numerically test the performance of RHIG on quadrotor tracking problems.
翻訳日:2022-09-21 04:04:08 公開日:2020-11-25
# FBWave:エッジ上のテキスト音声ストリーミングのための効率的でスケーラブルなニューラルヴォコーダ

FBWave: Efficient and Scalable Neural Vocoders for Streaming Text-To-Speech on the Edge ( http://arxiv.org/abs/2011.12985v1 )

ライセンス: Link先を確認
Bichen Wu, Qing He, Peizhao Zhang, Thilo Koehler, Kurt Keutzer, Peter Vajda(参考訳) 今日では、エッジベースのテキスト音声(TTS)の恩恵を受けるアプリケーションがますます増えている。 しかし、既存のttsモデルの多くは計算コストが高く、同じくらい多様な計算能力を持つ多様なエッジデバイスにデプロイできるほど柔軟ではない。 そこで本研究では,異なるエッジデバイスに対して最適なパフォーマンス効率のトレードオフを実現する,効率的でスケーラブルなニューラルネットワークボコーダのファミリであるfbwaveを提案する。 fbwaveは、自己回帰モデルと非自己回帰モデルの利点を組み合わせたハイブリッドフローベースの生成モデルである。 高品質なオーディオを生成し、推論中に高い計算効率を維持しながらストリーミングをサポートする。 実験の結果,FBWave は WaveRNN と同様の音質を実現でき,MAC を 40 倍削減できることがわかった。 FBWaveのより効率的な変種は最大109倍のMACを達成できるが、音質は許容できる。 オーディオデモはhttps://bichenwu09.github.io/vocoder_demosで見ることができる。

Nowadays more and more applications can benefit from edge-based text-to-speech (TTS). However, most existing TTS models are too computationally expensive and are not flexible enough to be deployed on the diverse variety of edge devices with their equally diverse computational capacities. To address this, we propose FBWave, a family of efficient and scalable neural vocoders that can achieve optimal performance-efficiency trade-offs for different edge devices. FBWave is a hybrid flow-based generative model that combines the advantages of autoregressive and non-autoregressive models. It produces high quality audio and supports streaming during inference while remaining highly computationally efficient. Our experiments show that FBWave can achieve similar audio quality to WaveRNN while reducing MACs by 40x. More efficient variants of FBWave can achieve up to 109x fewer MACs while still delivering acceptable audio quality. Audio demos are available at https://bichenwu09.github.io/vocoder_demos.
翻訳日:2022-09-21 04:03:37 公開日:2020-11-25
# 自由エネルギー最小化:モデリング、推論、学習、最適化のための統一フレームワーク

Free Energy Minimization: A Unified Framework for Modelling, Inference, Learning,and Optimization ( http://arxiv.org/abs/2011.14963v1 )

ライセンス: Link先を確認
Sharu Theresa Jose, Osvaldo Simeone(参考訳) これらの講義ノートの目的は、最大エントロピーモデリング、一般化ベイズ推論、潜在変数による学習、一般化の統計的学習分析、局所最適化の定義に基づく統一的な枠組みとして、自由エネルギー最小化の問題を検討することである。 自由エネルギーの最小化は、ここで、そして歴史的に、熱力学の原理として初めて導入された。 その後、フェンシェル双対性の文脈で数学的に記述される。 最後に、モデリング、推論、学習、最適化に関するアプリケーションが基本的な原則から始まっている。

The goal of these lecture notes is to review the problem of free energy minimization as a unified framework underlying the definition of maximum entropy modelling, generalized Bayesian inference, learning with latent variables, statistical learning analysis of generalization,and local optimization. Free energy minimization is first introduced, here and historically, as a thermodynamic principle. Then, it is described mathematically in the context of Fenchel duality. Finally, the mentioned applications to modelling, inference, learning, and optimization are covered starting from basic principles.
翻訳日:2022-09-21 04:03:21 公開日:2020-11-25
# 燃焼騒音特性と機械学習を用いた極低温ロケット推力室の熱音響不安定の早期検出

Early Detection of Thermoacoustic Instabilities in a Cryogenic Rocket Thrust Chamber using Combustion Noise Features and Machine Learning ( http://arxiv.org/abs/2011.14985v1 )

ライセンス: Link先を確認
G\"unther Waxenegger-Wilfing, Ushnish Sengupta, Jan Martin, Wolfgang Armbruster, Justin Hardi, Matthew Juniper, Michael Oschwald(参考訳) 燃焼不安定性は、高いエネルギー放出速度と構造限界に近い操作のため、ロケット推力室において特に問題となる。 過去数十年間、高振幅燃焼不安定性の予測は進歩してきたが、信頼できる予測能力は与えられていない。 信頼性の高い早期警報信号は、アクティブ燃焼制御システムの主要な要件である。 本稿では,熱音響不安定性早期検出のためのデータ駆動手法を提案する。 動的圧力センサデータの時系列から特性燃焼特性を計算するために, 再帰量化解析を用いる。 再発率などの機能は、サポートベクタマシンをトレーニングして、数百ミリ秒前に不安定の開始を検出するために使用される。 提案手法の性能について, 代表的なLOX/H$_2$研究スラスタチャンバーからの実験データを用いて検討した。 ほとんどの場合、この方法はトレーニングに使用されないテストデータで2種類の熱音響不安定性をタイムリーに予測することができる。 結果は最先端の早期警告指標と比較される。

Combustion instabilities are particularly problematic for rocket thrust chambers because of their high energy release rates and their operation close to the structural limits. In the last decades, progress has been made in predicting high amplitude combustion instabilities but still, no reliable prediction ability is given. Reliable early warning signals are the main requirement for active combustion control systems. In this paper, we present a data-driven method for the early detection of thermoacoustic instabilities. Recurrence quantification analysis is used to calculate characteristic combustion features from short-length time series of dynamic pressure sensor data. Features like the recurrence rate are used to train support vector machines to detect the onset of an instability a few hundred milliseconds in advance. The performance of the proposed method is investigated on experimental data from a representative LOX/H$_2$ research thrust chamber. In most cases, the method is able to timely predict two types of thermoacoustic instabilities on test data not used for training. The results are compared with state-of-the-art early warning indicators.
翻訳日:2022-09-21 04:03:12 公開日:2020-11-25
# 分子集合の注意に基づく学習

Attention-Based Learning on Molecular Ensembles ( http://arxiv.org/abs/2011.12820v1 )

ライセンス: Link先を確認
Kangway V. Chuang, Michael J. Keiser(参考訳) 小分子リガンドの3次元形状と立体配座は生体分子認識に重要であるが、3dジオメトリのエンコーディングはリガンドベースの仮想スクリーニングアプローチを改良していない。 本稿では,小分子コンフォメーションアンサンブル上で直接動作し,小分子の重要なコンフォメーションポーズを識別する,エンドツーエンドのディープラーニングアプローチについて述べる。 ネットワークは2段階の表現学習を 活用しています 1)個々のコンフォーメータはまず,グラフニューラルネットワークを用いて空間グラフとして符号化される。 2) サンプルコンフォメーションアンサンブルは個々のインスタンスを集約するアテンション機構を用いて集合として表現される。 ビアリル配位子の二元配位に基づく単純なタスクにおいて,このアプローチが実現可能であることを実証し,分子幾何に基づくタスクにおいて,注意に基づくプーリングがどのようにキーコンフォメーションポーズを解明できるかを示す。 本研究は,小分子型仮想スクリーニングのための集合型学習手法のさらなる展開について述べる。

The three-dimensional shape and conformation of small-molecule ligands are critical for biomolecular recognition, yet encoding 3D geometry has not improved ligand-based virtual screening approaches. We describe an end-to-end deep learning approach that operates directly on small-molecule conformational ensembles and identifies key conformational poses of small-molecules. Our networks leverage two levels of representation learning: 1) individual conformers are first encoded as spatial graphs using a graph neural network, and 2) sampled conformational ensembles are represented as sets using an attention mechanism to aggregate over individual instances. We demonstrate the feasibility of this approach on a simple task based on bidentate coordination of biaryl ligands, and show how attention-based pooling can elucidate key conformational poses in tasks based on molecular geometry. This work illustrates how set-based learning approaches may be further developed for small molecule-based virtual screening.
翻訳日:2022-09-21 03:59:14 公開日:2020-11-25
# 研究者が初めて 幅広い影響を述べたように

Like a Researcher Stating Broader Impact For the Very First Time ( http://arxiv.org/abs/2011.13032v1 )

ライセンス: Link先を確認
Grace Abuhamad and Claudel Rheault(参考訳) 今年のカンファレンスのすべての提出に伴う、より広範な影響の声明を要求するため、NeurIPSプログラムチェアは、AI研究の基盤となる部分の一部に倫理を課した。 他の分野からの先例や、ニューロピスコミュニティ内の認識が高まる一方で、論文は、個々の研究者が新しい要求に対してどのように反応したかという疑問に答えようとしている。 我々は,今後のNeurIPSカンファレンスの要件であるべき,より広範な影響要件の次のイテレーションについて,調査結果と考察を提示する。

In requiring that a statement of broader impact accompany all submissions for this year's conference, the NeurIPS program chairs made ethics part of the stake in groundbreaking AI research. While there is precedent from other fields and increasing awareness within the NeurIPS community, this paper seeks to answer the question of how individual researchers reacted to the new requirement, including not just their views, but also their experience in drafting and their reflections after paper acceptances. We present survey results and considerations to inform the next iteration of the broader impact requirement should it remain a requirement for future NeurIPS conferences.
翻訳日:2022-09-21 03:58:35 公開日:2020-11-25
# 畳み込みスパース符号化による視線追跡データからのnystagmusパターンの抽出

Extraction of Nystagmus Patterns from Eye-Tracker Data with Convolutional Sparse Coding ( http://arxiv.org/abs/2011.14962v1 )

ライセンス: Link先を確認
Cl\'ement Lalanne (CGB, CMLA), Maxence Rateaux (CGB), Laurent Oudre (L2TI), Matthieu Robert (CGB), Thomas Moreau (PARIETAL)(参考訳) 視線追跡記録から得られたNystagmus波形の解析は,この病的運動の臨床的解釈に不可欠である。 この分析を自動化するための大きな問題は、興味のシグナルと混ざった自然な目の動きと目まみれの人工物の存在である。 本稿では,nystagmus波形を自動ハイライトし,自然運動と病理運動を分離する畳み込み辞書学習に基づく手法を提案する。 本手法が実際にパターン回復率を向上できることをシミュレートした信号を提示し,このアルゴリズムの性能を示す臨床例を示す。

The analysis of the Nystagmus waveforms from eye-tracking records is crucial for the clinicial interpretation of this pathological movement. A major issue to automatize this analysis is the presence of natural eye movements and eye blink artefacts that are mixed with the signal of interest. We propose a method based on Convolutional Dictionary Learning that is able to automaticcaly highlight the Nystagmus waveforms, separating the natural motion from the pathological movements. We show on simulated signals that our method can indeed improve the pattern recovery rate and provide clinical examples to illustrate how this algorithm performs.
翻訳日:2022-09-21 03:58:23 公開日:2020-11-25
# 分子特性予測のためのベイズグラフニューラルネットワーク

Bayesian Graph Neural Networks for Molecular Property Prediction ( http://arxiv.org/abs/2012.02089v1 )

ライセンス: Link先を確認
George Lamb, Brooks Paige(参考訳) 分子特性予測のためのグラフニューラルネットワークは、しばしばデータによって過小評価され、テスト時に新しい足場に一般化できない。 潜在的な解決策はベイズ学習であり、モデルパラメータの不確かさを捉えることができる。 本研究は、qm9回帰データセットを用いて、有向mpnnに適用するベイズ法をベンチマークする。 読み出しパラメータとメッセージパッシングパラメータの両方で不確実性を捕捉すると、下流分子探索タスクにおける予測精度、キャリブレーション、性能が向上することがわかった。

Graph neural networks for molecular property prediction are frequently underspecified by data and fail to generalise to new scaffolds at test time. A potential solution is Bayesian learning, which can capture our uncertainty in the model parameters. This study benchmarks a set of Bayesian methods applied to a directed MPNN, using the QM9 regression dataset. We find that capturing uncertainty in both readout and message passing parameters yields enhanced predictive accuracy, calibration, and performance on a downstream molecular search task.
翻訳日:2022-09-21 03:58:12 公開日:2020-11-25
# デバイス間通信のための深層学習に基づくリソース割り当て

Deep Learning-based Resource Allocation For Device-to-Device Communication ( http://arxiv.org/abs/2011.12757v1 )

ライセンス: Link先を確認
Woongsup Lee and Robert Schober(参考訳) 本稿では、デバイス間通信(d2d)を用いたマルチチャネルセルラーシステムにおけるリソース割り当ての最適化のためのディープラーニング(dl)フレームワークを提案する。 これにより、両整数変数であるd2dユーザのチャネル割り当てと離散送信電力レベルを最適化し、セルラーユーザのqos(quality-of-service)を維持しつつ、全体的なスペクトル効率を最大化する。 チャネル状態情報(CSI)の可用性に応じて、2つの異なる構成が検討されている。 1)完全csiによる集中運転、及び 2) 部分的なCSIによる分散動作では, 後者の場合, フィードバックチャネルの容量に応じてCSIを符号化する。 各チャネル実現のためのリソース割り当て問題を解く代わりに、任意のチャネル条件に対する最適なリソース割り当て戦略をディープニューラルネットワーク(DNN)モデルで近似するDLフレームワークが提案されている。 さらに,教師付きおよび教師なし学習手法とローカルCSI共有戦略を組み合わせて,セルラーユーザのQoS制約を強制し,いくつかの基底構造ラベルに基づいて整数最適化変数を効率的に処理しながら,ほぼ最適性能を実現するための新たなトレーニング戦略を提案する。 シミュレーションの結果,提案手法のリアルタイム性能を裏付ける計算時間が少なく,ほぼ最適性能が達成できることが確認された。 さらに, 資源配分戦略だけでなく, CSI符号化戦略もDNNを用いて効率的に決定できることを示した。 さらに,提案するDLフレームワークは,設計目的の異なる通信システムに容易に拡張可能であることを示す。

In this paper, a deep learning (DL) framework for the optimization of the resource allocation in multi-channel cellular systems with device-to-device (D2D) communication is proposed. Thereby, the channel assignment and discrete transmit power levels of the D2D users, which are both integer variables, are optimized to maximize the overall spectral efficiency whilst maintaining the quality-of-service (QoS) of the cellular users. Depending on the availability of channel state information (CSI), two different configurations are considered, namely 1) centralized operation with full CSI and 2) distributed operation with partial CSI, where in the latter case, the CSI is encoded according to the capacity of the feedback channel. Instead of solving the resulting resource allocation problem for each channel realization, a DL framework is proposed, where the optimal resource allocation strategy for arbitrary channel conditions is approximated by deep neural network (DNN) models. Furthermore, we propose a new training strategy that combines supervised and unsupervised learning methods and a local CSI sharing strategy to achieve near-optimal performance while enforcing the QoS constraints of the cellular users and efficiently handling the integer optimization variables based on a few ground-truth labels. Our simulation results confirm that near-optimal performance can be attained with low computation time, which underlines the real-time capability of the proposed scheme. Moreover, our results show that not only the resource allocation strategy but also the CSI encoding strategy can be efficiently determined using a DNN. Furthermore, we show that the proposed DL framework can be easily extended to communications systems with different design objectives.
翻訳日:2022-09-21 03:50:46 公開日:2020-11-25
# MTCRNN:指向型音声テクスチャ合成のためのマルチスケールRNN

MTCRNN: A multi-scale RNN for directed audio texture synthesis ( http://arxiv.org/abs/2011.12596v1 )

ライセンス: Link先を確認
M. Huzaifah, L. Wyse(参考訳) オーディオテクスチャは環境音のサブセットであり、しばしば適切な時間枠内で安定した統計特性を持つと定義されるが、局所的に非構造化されることがある。 雨、風、エンジンなどの日常的な音を含んでいる。 これらの複雑な音が複数の時間スケールでパターンを含んでいることを考えると、従来の手法でモデル化するのは困難である。 本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。 モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。

Audio textures are a subset of environmental sounds, often defined as having stable statistical characteristics within an adequately large window of time but may be unstructured locally. They include common everyday sounds such as from rain, wind, and engines. Given that these complex sounds contain patterns on multiple timescales, they are a challenge to model with traditional methods. We introduce a novel modelling approach for textures, combining recurrent neural networks trained at different levels of abstraction with a conditioning strategy that allows for user-directed synthesis. We demonstrate the model's performance on a variety of datasets, examine its performance on various metrics, and discuss some potential applications.
翻訳日:2022-09-21 03:50:20 公開日:2020-11-25
# がん細胞株における薬物応答予測のための学習曲線

Learning Curves for Drug Response Prediction in Cancer Cell Lines ( http://arxiv.org/abs/2011.12466v1 )

ライセンス: Link先を確認
Alexander Partin (1 and 2), Thomas Brettin (2 and 3), Yvonne A. Evrard (4), Yitan Zhu (1 and 2), Hyunseung Yoo (1 and 2), Fangfang Xia (1 and 2), Songhao Jiang (7), Austin Clyde (1 and 7), Maulik Shukla (1 and 2), Michael Fonstein (5), James H. Doroshow (6), Rick Stevens (3 and 7) ((1) Division of Data Science and Learning, Argonne National Laboratory, Argonne, IL, USA, (2) University of Chicago Consortium for Advanced Science and Engineering, University of Chicago, Chicago, IL, USA, (3) Computing, Environment and Life Sciences, Argonne National Laboratory, Lemont, IL, USA, (4) Frederick National Laboratory for Cancer Research, Leidos Biomedical Research, Inc. Frederick, MD, USA, (5) Biosciences Division, Argonne National Laboratory, Lemont, IL, USA, (6) Division of Cancer Therapeutics and Diagnosis, National Cancer Institute, Bethesda, MD, USA, (7) Department of Computer Science, The University of Chicago, Chicago, IL, USA)(参考訳) 細胞株の薬剤感受性データの大きさに触発された研究者は、進行がん治療に対する薬物反応を予測する機械学習(ML)モデルを開発している。 薬物感受性研究がデータ生成を続けるにつれて、提案する予測器がより多くのトレーニングデータで一般化性能をさらに向上できるかどうかが問題となる。 2つのニューラルネットワーク(NN)と2つの勾配促進決定木(GBDT)モデルの4つの薬物スクリーニングデータセットで訓練されたデータスケーリング特性の評価と比較に経験的学習曲線を利用する。 学習曲線はパワーローモデルに正確に適合し、これらの予測器のデータスケーリング挙動を評価するためのフレームワークを提供する。 これらの曲線は、全てのデータセットの予測性能やトレーニングサイズにおいて、単一のモデルが支配的でないことを示している。 遺伝子発現および分子ドラッグディスクリプタが別々のサブネットに入力されるマルチインプットNN(mNN)は、入力層に対して細胞および薬物の特徴が連結された単一インプットNN(sNN)より優れる。 対照的に、ハイパーパラメータチューニングを備えたGBDTは、両方のNNが2つのデータセットのトレーニングサイズよりも低い範囲のトレーニングサイズで、mNNはより高いトレーニングサイズで、優れたパフォーマンスを示す。 さらに, この曲線の軌跡から, 試料径の増大により, 両NNの予測スコアがさらに向上することが示唆された。 これらの観察は、予測器を評価するために学習曲線を使うことの利点を示し、データスケーリングの全体的な特徴についてより広い視点を提供する。 入出力法則曲線は前向きのパフォーマンス指標を提供し、将来の実験の設計において実験生物学者や計算科学者を導くための共同設計ツールとして機能する。

Motivated by the size of cell line drug sensitivity data, researchers have been developing machine learning (ML) models for predicting drug response to advance cancer treatment. As drug sensitivity studies continue generating data, a common question is whether the proposed predictors can further improve the generalization performance with more training data. We utilize empirical learning curves for evaluating and comparing the data scaling properties of two neural networks (NNs) and two gradient boosting decision tree (GBDT) models trained on four drug screening datasets. The learning curves are accurately fitted to a power law model, providing a framework for assessing the data scaling behavior of these predictors. The curves demonstrate that no single model dominates in terms of prediction performance across all datasets and training sizes, suggesting that the shape of these curves depends on the unique model-dataset pair. The multi-input NN (mNN), in which gene expressions and molecular drug descriptors are input into separate subnetworks, outperforms a single-input NN (sNN), where the cell and drug features are concatenated for the input layer. In contrast, a GBDT with hyperparameter tuning exhibits superior performance as compared with both NNs at the lower range of training sizes for two of the datasets, whereas the mNN performs better at the higher range of training sizes. Moreover, the trajectory of the curves suggests that increasing the sample size is expected to further improve prediction scores of both NNs. These observations demonstrate the benefit of using learning curves to evaluate predictors, providing a broader perspective on the overall data scaling characteristics. The fitted power law curves provide a forward-looking performance metric and can serve as a co-design tool to guide experimental biologists and computational scientists in the design of future experiments.
翻訳日:2022-09-21 03:50:11 公開日:2020-11-25
# モバイルエッジネットワークにおける複数連携学習サービス資源共有に向けて

Toward Multiple Federated Learning Services Resource Sharing in Mobile Edge Networks ( http://arxiv.org/abs/2011.12469v1 )

ライセンス: Link先を確認
Minh N. H. Nguyen, Nguyen H. Tran, Yan Kyaw Tun, Zhu Han, Choong Seon Hong(参考訳) フェデレーション学習(federated learning)は、共有予測モデルを共有デバイス上でローカルに保持しながら、協調的にトレーニングするための新しい学習手法である。 本稿では,マルチアクセスエッジコンピューティングサーバにおける複数のフェデレーション学習サービスの新たなモデルについて検討する。 したがって、各モバイルデバイスにおける学習サービス間のcpuリソースの共有と、学習情報を交換するモバイルデバイス間での通信リソースの割り当てを考慮すべきである。 さらに、異なる学習サービスの収束性能は、正確に決定する必要があるハイパーラーニング率パラメータに依存する。 そこで我々は,モバイル機器のエネルギー消費と学習時間全体について,共同資源最適化とハイパーラーニング率制御の問題,すなわちMS-FEDLを提案する。 ブロック座標降下法に基づく集中型アルゴリズムと,ms-fedl問題を解決する分散型jp-miadmmアルゴリズムを設計する。 中央集権的なアプローチとは異なり、分散化されたアプローチでは多くのイテレーションが必要になりますが、各学習サービスは、学習サービス情報を明らかにすることなく、ローカルリソースと学習プロセスを独立して管理することができます。 シミュレーションの結果,提案アルゴリズムの収束性能と提案アルゴリズムの優れた性能が,ヒューリスティック戦略と比較して証明された。

Federated Learning is a new learning scheme for collaborative training a shared prediction model while keeping data locally on participating devices. In this paper, we study a new model of multiple federated learning services at the multi-access edge computing server. Accordingly, the sharing of CPU resources among learning services at each mobile device for the local training process and allocating communication resources among mobile devices for exchanging learning information must be considered. Furthermore, the convergence performance of different learning services depends on the hyper-learning rate parameter that needs to be precisely decided. Towards this end, we propose a joint resource optimization and hyper-learning rate control problem, namely MS-FEDL, regarding the energy consumption of mobile devices and overall learning time. We design a centralized algorithm based on the block coordinate descent method and a decentralized JP-miADMM algorithm for solving the MS-FEDL problem. Different from the centralized approach, the decentralized approach requires many iterations to obtain but it allows each learning service to independently manage the local resource and learning process without revealing the learning service information. Our simulation results demonstrate the convergence performance of our proposed algorithms and the superior performance of our proposed algorithms compared to the heuristic strategy.
翻訳日:2022-09-21 03:49:39 公開日:2020-11-25
# 複数の調査データを用いたサハラ以南のアフリカ諸国における新生児死亡予測

Prediction of neonatal mortality in Sub-Saharan African countries using data-level linkage of multiple surveys ( http://arxiv.org/abs/2011.12707v1 )

ライセンス: Link先を確認
Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Komminist Weldemariam(参考訳) 発展途上国における子供の死亡率や家族計画の中止といった重要な問題に対処するための既存のデータセットは、データ駆動アプローチには不可欠ではない。 これは部分的には、場所、時間、モダリティのバリエーションにまたがるデータ収集努力の相違によるものである。 一方、小さなデータ問題に対する最先端の手法は、画像のモダリティに限られる。 本研究では,サハラ以南のアフリカ諸国において,新生児死亡の予測性能の向上とドメイン間の説明可能性向上のために,不整合性調査のデータレベルリンクを提案した。

Existing datasets available to address crucial problems, such as child mortality and family planning discontinuation in developing countries, are not ample for data-driven approaches. This is partly due to disjoint data collection efforts employed across locations, times, and variations of modalities. On the other hand, state-of-the-art methods for small data problem are confined to image modalities. In this work, we proposed a data-level linkage of disjoint surveys across Sub-Saharan African countries to improve prediction performance of neonatal death and provide cross-domain explainability.
翻訳日:2022-09-21 03:47:42 公開日:2020-11-25
# 大規模脳構造マッピングのための畳み込みニューラルネットワーク

Convolutional Neural Networks for cytoarchitectonic brain mapping at large scale ( http://arxiv.org/abs/2011.12857v1 )

ライセンス: Link先を確認
Christian Schiffer, Hannah Spitzer, Kai Kiwitz, Nina Unger, Konrad Wagstyl, Alan C. Evans, Stefan Harmeling, Katrin Amunts, Timo Dickscheid(参考訳) 人間の脳アトラスは、異なるレベルの脳組織を特徴付けるデータのための空間参照システムを提供する。 細胞構造は脳の微細構造の基本原理であり、神経細胞の配列と構成の地域的差異は接続性と機能の変化の指標である。 自動走査法と観察者非依存法は、細胞構造的領域を確実に同定し、脳分離の再現可能なモデルを達成するための必須条件である。 興味のある単一領域の分析から、多数の全脳セクションの高スループットスキャンに移行する際には、時間が重要な要素となる。 本稿では,ヒト死後脳の多数の細胞体染色組織学的領域における細胞構造的領域をマッピングするための新しいワークフローを提案する。 これはDeep Convolutional Neural Network (CNN)に基づいており、アノテーション付きの一対のセクションイメージに基づいてトレーニングされており、その間に多数の注釈のないセクションがある。 モデルは、オブザーバ非依存のマッピングに基づいて、すべての欠落したアノテーションを高い精度で作成することを学びます。 新しいワークフローは、セクションの3D再構成を必要とせず、組織学的アーティファクトに対して堅牢である。 大規模なデータセットを複数のテラバイト単位で効率的に処理する。 ワークフローはWebインターフェースに統合され、ディープラーニングやバッチコンピューティングの専門知識のないアクセスを可能にした。 細胞構造的マッピングにディープニューラルネットワークを適用することで、脳領域の高解像度モデルを可能にする新たな視点が開かれる。

Human brain atlases provide spatial reference systems for data characterizing brain organization at different levels, coming from different brains. Cytoarchitecture is a basic principle of the microstructural organization of the brain, as regional differences in the arrangement and composition of neuronal cells are indicators of changes in connectivity and function. Automated scanning procedures and observer-independent methods are prerequisites to reliably identify cytoarchitectonic areas, and to achieve reproducible models of brain segregation. Time becomes a key factor when moving from the analysis of single regions of interest towards high-throughput scanning of large series of whole-brain sections. Here we present a new workflow for mapping cytoarchitectonic areas in large series of cell-body stained histological sections of human postmortem brains. It is based on a Deep Convolutional Neural Network (CNN), which is trained on a pair of section images with annotations, with a large number of un-annotated sections in between. The model learns to create all missing annotations in between with high accuracy, and faster than our previous workflow based on observer-independent mapping. The new workflow does not require preceding 3D-reconstruction of sections, and is robust against histological artefacts. It processes large data sets with sizes in the order of multiple Terabytes efficiently. The workflow was integrated into a web interface, to allow access without expertise in deep learning and batch computing. Applying deep neural networks for cytoarchitectonic mapping opens new perspectives to enable high-resolution models of brain areas, introducing CNNs to identify borders of brain areas.
翻訳日:2022-09-21 03:41:16 公開日:2020-11-25
# StyleUV: 多様性と高忠実度UVマップ生成モデル

StyleUV: Diverse and High-fidelity UV Map Generative Model ( http://arxiv.org/abs/2011.12893v1 )

ライセンス: Link先を確認
Myunggi Lee, Wonwoong Cho, Moonheum Kim, David Inouye, Nojun Kwak(参考訳) 近年,3次元形態モデル(3DMM)による野生の3次元顔の再構築が盛んである。 多くの先行研究は、より堅牢で正確な幾何学を推定することに焦点を当てているが、テクスチャモデルの品質向上には比較的注意が払われている。 一方,GAN (Generative Adversarial Networks) の出現により,現実的な2次元画像の再構築に大きな進展が見られた。 近年の研究では、豊富な高品質なUVマップで訓練されたGANが、既存の方法よりも優れた高忠実なテクスチャを生成できることが示されている。 しかし、このような高品質な紫外線マップの取得は、高額であり、精巧なプロセスを必要とするため困難である。 本研究では,高品質なUVマップを訓練に必要とせず,多様なリアルなUVマップを生成することを学習する新しいUVマップ生成モデルを提案する。 提案するフレームワークは,ganと微分可能なレンダラの組み合わせを活用することで,wildイメージ(uvマップは不要)のみでトレーニングすることができる。 定量的および定性的な評価は,提案したテクスチャモデルが既存手法よりも多様性が高く,忠実度の高いテクスチャを生成することを示す。

Reconstructing 3D human faces in the wild with the 3D Morphable Model (3DMM) has become popular in recent years. While most prior work focuses on estimating more robust and accurate geometry, relatively little attention has been paid to improving the quality of the texture model. Meanwhile, with the advent of Generative Adversarial Networks (GANs), there has been great progress in reconstructing realistic 2D images. Recent work demonstrates that GANs trained with abundant high-quality UV maps can produce high-fidelity textures superior to those produced by existing methods. However, acquiring such high-quality UV maps is difficult because they are expensive to acquire, requiring laborious processes to refine. In this work, we present a novel UV map generative model that learns to generate diverse and realistic synthetic UV maps without requiring high-quality UV maps for training. Our proposed framework can be trained solely with in-the-wild images (i.e., UV maps are not required) by leveraging a combination of GANs and a differentiable renderer. Both quantitative and qualitative evaluations demonstrate that our proposed texture model produces more diverse and higher fidelity textures compared to existing methods.
翻訳日:2022-09-21 03:40:51 公開日:2020-11-25
# 脳波分類における時間的相関バイアスを軽減する正しいブロック設計実験

Correct block-design experiments mitigate temporal correlation bias in EEG classification ( http://arxiv.org/abs/2012.03849v1 )

ライセンス: Link先を確認
Simone Palazzo, Concetto Spampinato, Joseph Schmidt, Isaak Kavasidis, Daniela Giordano, Mubarak Shah(参考訳) [1]では、[2]はすべての脳波データに存在する時間的相関とブロック設計の使用のためのみ視覚刺激に対する脳波応答を分類することができたと論じられている。 ここで、[1]の主な主張は大幅に過大に述べられ、他の分析は間違った方法論選択によって深刻な欠陥があることを示している。 逆の主張を検証するために,データ集合 [2] における最先端手法の性能を [2] よりも低いが,40 クラスで約50% の分類精度に達するまで評価した。 次に,脳波の時間的相関が分類精度に与える影響を,[1]の急激な設計実験を再現する実験と,被験者が空白画面を表示している間にブロック間のデータを調べる実験の2つの実験条件で検討する。 どちらの場合でも、分類精度は[1]報告とは対照的に偶然であり、時間的相関が分類精度に不可分に寄与していることを示している。 代わりに、時間的相関を誘導することによって故意にデータを汚染する場合のみ、結果を[1]で再現することができる。 これは、Li らによってもたらされる。 [1] は、それらのデータが時間的相関と低信号-雑音比によって強く汚染されていることを示す。 我々は、Li らが al である理由を論じる。 [1] 脳波データにおけるそのような高い相関は、その非慣習的な実験設計と、基本的な認知神経科学設計の推奨に違反する設定であり、第一に、そして第一に、実験の継続時間を制限するものである。 本稿では,ブロック設計の問題点と落とし穴」の主張を[1]で論じる。 最後に,機械学習の概念の誤解,憶測,誤解を招く主張など,多くの過度に単純化された言明,矛盾,誤解を考察して,論文を締めくくる。

It is argued in [1] that [2] was able to classify EEG responses to visual stimuli solely because of the temporal correlation that exists in all EEG data and the use of a block design. We here show that the main claim in [1] is drastically overstated and their other analyses are seriously flawed by wrong methodological choices. To validate our counter-claims, we evaluate the performance of state-of-the-art methods on the dataset in [2] reaching about 50% classification accuracy over 40 classes, lower than in [2], but still significant. We then investigate the influence of EEG temporal correlation on classification accuracy by testing the same models in two additional experimental settings: one that replicates [1]'s rapid-design experiment, and another one that examines the data between blocks while subjects are shown a blank screen. In both cases, classification accuracy is at or near chance, in contrast to what [1] reports, indicating a negligible contribution of temporal correlation to classification accuracy. We, instead, are able to replicate the results in [1] only when intentionally contaminating our data by inducing a temporal correlation. This suggests that what Li et al. [1] demonstrate is that their data are strongly contaminated by temporal correlation and low signal-to-noise ratio. We argue that the reason why Li et al. [1] observe such high correlation in EEG data is their unconventional experimental design and settings that violate the basic cognitive neuroscience design recommendations, first and foremost the one of limiting the experiments' duration, as instead done in [2]. Our analyses in this paper refute the claims of the "perils and pitfalls of block-design" in [1]. Finally, we conclude the paper by examining a number of other oversimplistic statements, inconsistencies, misinterpretation of machine learning concepts, speculations and misleading claims in [1].
翻訳日:2022-09-21 03:39:55 公開日:2020-11-25
# ダイバー検出のための深部物体検出装置の解析

An Analysis of Deep Object Detectors For Diver Detection ( http://arxiv.org/abs/2012.05701v1 )

ライセンス: Link先を確認
Karin de Langis, Michael Fulton, Junaed Sattar(参考訳) ダイバー追跡などの人間とロボットのコラボレーション機能をサポートするためにダイバー検出モデルの選択と利用という最終目標は、ダイバー検出のための大規模なディープニューラルネットワークを徹底的に分析することにある。 まず、ビデオから派生したダイバーの約10万5000枚の注釈付き画像のデータセットを作成することから始めます。 このデータセットを使用して、Mobilenetを使ったSSD、Faster R-CNN、YOLOなど、さまざまな最先端のディープニューラルネットワークをトレーニングする。 これらの単一フレーム検出器とともに、時間情報と単一フレーム画像情報を用いて、ビデオストリーム内のオブジェクト検出用に設計されたネットワークを訓練する。 これらのネットワークを, 典型的な精度と効率の指標, 検出の時間的安定性について評価した。 最後に、これらの検出器の故障を分析し、最も一般的な障害シナリオを指摘する。 本結果から,ロボットのリアルタイムアプリケーションにはSSDやTiny-YOLOv4を推奨し,ビデオオブジェクト検出手法のさらなる検討を推奨する。

With the end goal of selecting and using diver detection models to support human-robot collaboration capabilities such as diver following, we thoroughly analyze a large set of deep neural networks for diver detection. We begin by producing a dataset of approximately 105,000 annotated images of divers sourced from videos -- one of the largest and most varied diver detection datasets ever created. Using this dataset, we train a variety of state-of-the-art deep neural networks for object detection, including SSD with Mobilenet, Faster R-CNN, and YOLO. Along with these single-frame detectors, we also train networks designed for detection of objects in a video stream, using temporal information as well as single-frame image information. We evaluate these networks on typical accuracy and efficiency metrics, as well as on the temporal stability of their detections. Finally, we analyze the failures of these detectors, pointing out the most common scenarios of failure. Based on our results, we recommend SSDs or Tiny-YOLOv4 for real-time applications on robots and recommend further investigation of video object detection methods.
翻訳日:2022-09-21 03:39:21 公開日:2020-11-25
# IoTネットワークにおけるフェデレーションエッジインテリジェンスのためのリソース効率の最適化

Optimizing Resource-Efficiency for Federated Edge Intelligence in IoT Networks ( http://arxiv.org/abs/2011.12691v1 )

ライセンス: Link先を確認
Yong Xiao and Yingyu Li and Guangming Shi and H. Vincent Poor(参考訳) 本稿では,エッジサーバの集合が,多テクノロジ対応IoTネットワークからアップロードされたデータセットに基づいて,フェデレーション学習(FL)を用いて共有モデルを学習するエッジインテリジェンスベースのIoTネットワークについて検討する。 iotネットワークのデータアップロード性能とエッジサーバの計算能力は、flモデルトレーニングプロセスに影響を与えるために互いに絡み合っている。 フェデレーションエッジインテリジェンス(FEI)と呼ばれる新しいフレームワークを提案する。エッジサーバはIoTネットワークのエネルギーコストとローカルデータ処理能力に応じて必要なデータサンプル数を評価でき、満足度の高いモデルをトレーニングするのに十分なデータ量のみを要求することができる。 広範に使用されている2つのIoTソリューション – ライセンスバンドIoT(5G NB-IoTなど)と未ライセンスバンドIoT(Wi-Fi,ZigBee,5G NR-Uなど) – がそれぞれのIoTデバイスで利用可能である場合,データアップロードのエネルギーコストを評価する。 我々は、IoTネットワーク全体のコスト最小化問題は分離可能であり、サブプロブレムのセットに分割することができ、それぞれが個々のエッジサーバで解決可能であることを証明した。 また,エッジサーバの計算負荷を,データセットのサイズ,ローカルバッチサイズ,ローカルトレーニングパス数という3つのキーパラメータの組み合わせで定量化するマッピング関数を導入する。 最後に、IoTネットワークのエネルギーコストとエッジサーバの平均計算資源利用を共同で最適化する、ADMM(Optern Direction Method of Multipliers)ベースのアプローチを採用する。 提案アルゴリズムがIoTネットワークのトポロジ的情報を漏洩したり開示したりしないことを示す。 シミュレーションの結果,提案フレームワークはIoTネットワークとエッジサーバのリソース効率を大幅に向上し,モデル収束性能を犠牲にするだけでよいことがわかった。

This paper studies an edge intelligence-based IoT network in which a set of edge servers learn a shared model using federated learning (FL) based on the datasets uploaded from a multi-technology-supported IoT network. The data uploading performance of IoT network and the computational capacity of edge servers are entangled with each other in influencing the FL model training process. We propose a novel framework, called federated edge intelligence (FEI), that allows edge servers to evaluate the required number of data samples according to the energy cost of the IoT network as well as their local data processing capacity and only request the amount of data that is sufficient for training a satisfactory model. We evaluate the energy cost for data uploading when two widely-used IoT solutions: licensed band IoT (e.g., 5G NB-IoT) and unlicensed band IoT (e.g., Wi-Fi, ZigBee, and 5G NR-U) are available to each IoT device. We prove that the cost minimization problem of the entire IoT network is separable and can be divided into a set of subproblems, each of which can be solved by an individual edge server. We also introduce a mapping function to quantify the computational load of edge servers under different combinations of three key parameters: size of the dataset, local batch size, and number of local training passes. Finally, we adopt an Alternative Direction Method of Multipliers (ADMM)-based approach to jointly optimize energy cost of the IoT network and average computing resource utilization of edge servers. We prove that our proposed algorithm does not cause any data leakage nor disclose any topological information of the IoT network. Simulation results show that our proposed framework significantly improves the resource efficiency of the IoT network and edge servers with only a limited sacrifice on the model convergence performance.
翻訳日:2022-09-21 03:39:04 公開日:2020-11-25
# GANは電子ダンス音楽のジャンルを創出できるのか? --ジャンルあいまいさ損失ganを用いた新しいリズムパターンの生成

Can GAN originate new electronic dance music genres? -- Generating novel rhythm patterns using GAN with Genre Ambiguity Loss ( http://arxiv.org/abs/2011.13062v1 )

ライセンス: Link先を確認
Nao Tokui(参考訳) ディープラーニングの導入以来、研究者はディープラーニングを用いたコンテンツ生成システムを提案し、音楽を含む説得力のあるコンテンツや芸術的なアウトプットを生成する能力があることを証明してきた。 しかし、これらの深層学習ベースのシステムは、新しい創造性を生み出すのではなく、人間が生み出したものに内在するパターンを模倣し、再現していると主張することができる。 本稿では,音楽生成,特に電子ダンス音楽のリズムパターンに注目し,学習データセットにない興味深いパターンである新しいリズムをディープラーニングで生成できるかどうかを考察する。 我々は、GAN(Generative Adversarial Networks)のフレームワークを拡張し、フレームワークに新たな分類器を追加することで、データセット固有の分布から分岐することを奨励する。 提案するganは,音楽のリズムのように聞こえるが,トレーニングデータセットのどのジャンルにも属さないリズムパターンを生成できることを示す。 ソースコード、リズムパターンの生成、および人気のあるデジタルオーディオワークステーションソフトウェアのための補足プラグインソフトウェアは、当社のウェブサイトで利用可能です。

Since the introduction of deep learning, researchers have proposed content generation systems using deep learning and proved that they are competent to generate convincing content and artistic output, including music. However, one can argue that these deep learning-based systems imitate and reproduce the patterns inherent within what humans have created, instead of generating something new and creative. This paper focuses on music generation, especially rhythm patterns of electronic dance music, and discusses if we can use deep learning to generate novel rhythms, interesting patterns not found in the training dataset. We extend the framework of Generative Adversarial Networks(GAN) and encourage it to diverge from the dataset's inherent distributions by adding additional classifiers to the framework. The paper shows that our proposed GAN can generate rhythm patterns that sound like music rhythms but do not belong to any genres in the training dataset. The source code, generated rhythm patterns, and a supplementary plugin software for a popular Digital Audio Workstation software are available on our website.
翻訳日:2022-09-21 03:32:37 公開日:2020-11-25
# DeRF:分解された放射場

DeRF: Decomposed Radiance Fields ( http://arxiv.org/abs/2011.12490v1 )

ライセンス: Link先を確認
Daniel Rebain, Wei Jiang, Soroosh Yazdani, Ke Li, Kwang Moo Yi, Andrea Tagliasacchi(参考訳) neural radiance fields(nerf)の登場により、ニューラルネットワークは人間の目を騙すクオリティで3dシーンの新しいビューをレンダリングできるようになった。 しかし、これらの画像の生成は非常に計算集約的であり、現実的なシナリオにおける適用性を制限する。 本稿では,この問題を緩和できる空間分解に基づく手法を提案する。 重要なのは、より大きな(より深い、あるいはより広い)ネットワークを採用することのリターンが減少していることです。 そこで我々は,シーンを空間的に分解し,分割された各部分に小さなネットワークを割り当てることを提案する。 一緒に働くと、これらのネットワークはシーン全体をレンダリングできる。 これにより、分解された部品の数に関係なく、ほぼ一定時間で推測できる。 さらに,Voronoiの空間分解は,効率よくGPUに優しいレンダリングのためのPainter's Algorithmと互換性があることが示唆された。 実世界のシーンでは,提案手法はNeRFよりも3倍,PSNRでは1.0~dB(同一の推論コスト)の効率向上を実現している。

With the advent of Neural Radiance Fields (NeRF), neural networks can now render novel views of a 3D scene with quality that fools the human eye. Yet, generating these images is very computationally intensive, limiting their applicability in practical scenarios. In this paper, we propose a technique based on spatial decomposition capable of mitigating this issue. Our key observation is that there are diminishing returns in employing larger (deeper and/or wider) networks. Hence, we propose to spatially decompose a scene and dedicate smaller networks for each decomposed part. When working together, these networks can render the whole scene. This allows us near-constant inference time regardless of the number of decomposed parts. Moreover, we show that a Voronoi spatial decomposition is preferable for this purpose, as it is provably compatible with the Painter's Algorithm for efficient and GPU-friendly rendering. Our experiments show that for real-world scenes, our method provides up to 3x more efficient inference than NeRF (with the same rendering quality), or an improvement of up to 1.0~dB in PSNR (for the same inference cost).
翻訳日:2022-09-21 03:31:44 公開日:2020-11-25
# Rank-One Network: 画像復元のための効果的なフレームワーク

Rank-One Network: An Effective Framework for Image Restoration ( http://arxiv.org/abs/2011.12610v1 )

ライセンス: Link先を確認
Shangqi Gao and Xiahai Zhuang(参考訳) 画像の主ランク1(RO)成分は、画像の自己相似性を表し、画像復元の重要な特性である。 しかしながら、腐敗した画像のro成分は、画像のデノイジングの手順によって減じることができる。 画像復元において,RO特性を活用すべきであり,デシメーションを回避すべきである。 そこで本研究では,RO分解とRO再構成という2つのモジュールからなる新しいフレームワークを提案する。 ro分解により、腐敗した画像をro成分と残留成分に分解する。 これにより、画像又は残像にRO投影を順次印加してRO成分を抽出する。 ro投影は、ニューラルネットワークに基づいて、画像の最も近いro成分を抽出する。 RO再構成は、RO成分と残留成分からそれぞれ重要な情報を再構成し、この再構成情報からイメージを復元することを目的としている。 ノイズフリー画像スーパーレゾリューション(sr)、リアル画像sr、グレースケール画像デノージング、カラー画像デノージングの4つのタスクにおける実験結果から、この手法は画像復元に効果的で効率的なことを示し、リアル画像srおよびカラー画像デノージングに優れた性能を提供する。

The principal rank-one (RO) components of an image represent the self-similarity of the image, which is an important property for image restoration. However, the RO components of a corrupted image could be decimated by the procedure of image denoising. We suggest that the RO property should be utilized and the decimation should be avoided in image restoration. To achieve this, we propose a new framework comprised of two modules, i.e., the RO decomposition and RO reconstruction. The RO decomposition is developed to decompose a corrupted image into the RO components and residual. This is achieved by successively applying RO projections to the image or its residuals to extract the RO components. The RO projections, based on neural networks, extract the closest RO component of an image. The RO reconstruction is aimed to reconstruct the important information, respectively from the RO components and residual, as well as to restore the image from this reconstructed information. Experimental results on four tasks, i.e., noise-free image super-resolution (SR), realistic image SR, gray-scale image denoising, and color image denoising, show that the method is effective and efficient for image restoration, and it delivers superior performance for realistic image SR and color image denoising.
翻訳日:2022-09-21 03:31:28 公開日:2020-11-25
# 色定量化のための品質指標の評価

Evaluation of quality measures for color quantization ( http://arxiv.org/abs/2011.12652v1 )

ライセンス: Link先を確認
Giuliana Ramella(参考訳) 画像品質評価は画像処理における課題の1つである。 また、多くのメソッドの整形、実装、最適化、テストにおいて中心的な役割を果たす。 既存の画質評価手法は, 一般的な劣化型で劣化した画像に着目したが, 色定量化にはほとんど注意が払われていなかった。 これは、色に基づくタスクがより効率的に色数で達成される場合、前処理ステップとして色量子化評価を必要とする幅広いアプリケーションが存在するにもかかわらずである。 本稿では、よく知られた9つのフルリファレンス画像品質評価尺度の定量的性能評価を提案し、実施する。 カラー量子化劣化のための2つの公用および主観評価された画像品質データベースを用いて評価を行い、その適切な組み合わせや部分を検討する。 その結果,主観的人間格付けと相関関係の深い品質指標が示され,各データベースに類似した傾向を維持しつつ,選択した画像品質データベースにより,色量化のための品質指標の統計的性能の評価が著しく影響していることが示唆された。 個々のデータベースと統合によって得られたデータベースの両方で検出された強い類似性は、統合プロセスを検証し、各データベースの定量的パフォーマンス評価を、他のデータベースのパフォーマンスの指標として考慮する能力を提供する。 実験結果は,色定量化に適した品質尺度の選択と将来の雇用改善に有効である。

Visual quality evaluation is one of the challenging basic problems in image processing. It also plays a central role in the shaping, implementation, optimization, and testing of many methods. The existing image quality assessment methods focused on images corrupted by common degradation types while little attention was paid to color quantization. This in spite there is a wide range of applications requiring color quantization assessment being used as a preprocessing step when color-based tasks are more efficiently accomplished on a reduced number of colors. In this paper, we propose and carry-out a quantitative performance evaluation of nine well-known and commonly used full-reference image quality assessment measures. The evaluation is done by using two publicly available and subjectively rated image quality databases for color quantization degradation and by considering suitable combinations or subparts of them. The results indicate the quality measures that have closer performances in terms of their correlation to the subjective human rating and show that the evaluation of the statistical performance of the quality measures for color quantization is significantly impacted by the selected image quality database while maintaining a similar trend on each database. The detected strong similarity both on individual databases and on databases obtained by integration provides the ability to validate the integration process and to consider the quantitative performance evaluation on each database as an indicator for performance on the other databases. The experimental results are useful to address the choice of suitable quality measures for color quantization and to improve their future employment.
翻訳日:2022-09-21 03:31:06 公開日:2020-11-25
# 3次元点雲圧縮における基準知覚品質モデルとレート制御への応用

Reduced Reference Perceptual Quality Model and Application to Rate Control for 3D Point Cloud Compression ( http://arxiv.org/abs/2011.12688v1 )

ライセンス: Link先を確認
Qi Liu, Hui Yuan, Raouf Hamzaoui, Honglei Su, Junhui Hou, Huan Yang(参考訳) レート歪み最適化では、ビットレートの制約を受ける再構成品質尺度を最大化してエンコーダ設定を決定する。 このアプローチの主な課題の1つは、低い計算コストで計算でき、知覚的品質とよく相関する品質指標を定義することである。 これら2つの基準を満たすいくつかの品質基準が画像とビデオのために開発されたが、3Dポイントの雲にはそのような指標は存在しない。 本稿では,V-PCC幾何学およびカラー量子化パラメータを持つ線形知覚品質モデルを提案し,元の3Dポイントクラウドから抽出した2つの特徴から係数を容易に計算可能なビデオベースポイントクラウド圧縮(V-PCC)標準の制限に対処する。 400個の圧縮3dポイントクラウドを用いた主観的品質テストでは,提案モデルが平均評価値とよく相関し,ピアマンランクとピアソンズ線形相関係数の点で,最先端の完全参照客観的尺度を上回った。 さらに,同一の目標ビットレートに対して,提案モデルに基づくレートゆらぎ最適化は,ポイント・ツー・ポイントの客観的品質指標を用いた排他的探索に基づくレートゆらぎ最適化よりも高い知覚品質を示すことを示す。

In rate-distortion optimization, the encoder settings are determined by maximizing a reconstruction quality measure subject to a constraint on the bit rate. One of the main challenges of this approach is to define a quality measure that can be computed with low computational cost and which correlates well with perceptual quality. While several quality measures that fulfil these two criteria have been developed for images and video, no such one exists for 3D point clouds. We address this limitation for the video-based point cloud compression (V-PCC) standard by proposing a linear perceptual quality model whose variables are the V-PCC geometry and color quantization parameters and whose coefficients can easily be computed from two features extracted from the original 3D point cloud. Subjective quality tests with 400 compressed 3D point clouds show that the proposed model correlates well with the mean opinion score, outperforming state-of-the-art full reference objective measures in terms of Spearman rank-order and Pearsons linear correlation coefficient. Moreover, we show that for the same target bit rate, ratedistortion optimization based on the proposed model offers higher perceptual quality than rate-distortion optimization based on exhaustive search with a point-to-point objective quality metric.
翻訳日:2022-09-21 03:30:43 公開日:2020-11-25
# ラベル変動を用いた潜在幾何グラフのランク付け深層学習一般化

Ranking Deep Learning Generalization using Label Variation in Latent Geometry Graphs ( http://arxiv.org/abs/2011.12737v1 )

ライセンス: Link先を確認
Carlos Lassance, Louis B\'ethune, Myriam Bontonou, Mounia Hamidouche, Vincent Gripon(参考訳) 検証セットに頼らずにディープニューラルネットワーク(dnn)の一般化性能を測定することは難しい作業である。 本研究では,訓練されたDNNアーキテクチャの潜在空間を表現するために,Latent Geometry Graphs (LGG) の利用を提案する。 このようなグラフは、考慮されたDNNの特定の層で同様の潜在表現をもたらすサンプルを接続することによって得られる。 次にLGGの異なるクラスの標本がいかに強く結びついているかを調べることで一般化スコアを得る。 このスコアは、NeurIPS 2020 Predicting Generalization in Deep Learning (PGDL)コンペで3位にランクインしました。

Measuring the generalization performance of a Deep Neural Network (DNN) without relying on a validation set is a difficult task. In this work, we propose exploiting Latent Geometry Graphs (LGGs) to represent the latent spaces of trained DNN architectures. Such graphs are obtained by connecting samples that yield similar latent representations at a given layer of the considered DNN. We then obtain a generalization score by looking at how strongly connected are samples of distinct classes in LGGs. This score allowed us to rank 3rd on the NeurIPS 2020 Predicting Generalization in Deep Learning (PGDL) competition.
翻訳日:2022-09-21 03:23:53 公開日:2020-11-25
# RetroGNN:De Novoドラッグデザインのためのグラフニューラルネットワークによる再合成の近似

RetroGNN: Approximating Retrosynthesis by Graph Neural Networks for De Novo Drug Design ( http://arxiv.org/abs/2011.13042v1 )

ライセンス: Link先を確認
Cheng-Hao Liu, Maksym Korablyov, Stanis{\l}aw Jastrz\k{e}bski, Pawe{\l} W{\l}odarczyk-Pruszy\'nski, Yoshua Bengio, Marwin H. S. Segler(参考訳) de novo分子の生成は、しばしば化学的に実現不可能な分子を生じる。 この問題を緩和するための自然なアイデアは、合成アクセシビリティーのプロキシを使ってより容易に合成可能な分子に探索過程を偏らせることである。 しかし、現在利用可能なプロキシを使用することで、非常に非現実的な化合物が得られる。 本稿では,再合成計画ソフトウェアの出力を近似するためにディープグラフニューラルネットワークを訓練する可能性とその探索過程の偏りについて検討する。 本手法は抗菌性を有する薬物様分子を探索するベンチマークを用いて評価する。 亜鉛データベースから500万以上の既存の分子を列挙するよりも、優れた薬物的性質を維持しつつ抗生物質になりやすいと予測される分子が、容易に合成可能であることが分かりました。 重要なのは、我々のディープニューラルネットワークは、レトロシンセシス計画ソフトウェアを使って10^5ドルのスピードアップを達成しながら、分子を合成する難しいフィルターをうまく排除できることです。

De novo molecule generation often results in chemically unfeasible molecules. A natural idea to mitigate this problem is to bias the search process towards more easily synthesizable molecules using a proxy for synthetic accessibility. However, using currently available proxies still results in highly unrealistic compounds. We investigate the feasibility of training deep graph neural networks to approximate the outputs of a retrosynthesis planning software, and their use to bias the search process. We evaluate our method on a benchmark involving searching for drug-like molecules with antibiotic properties. Compared to enumerating over five million existing molecules from the ZINC database, our approach finds molecules predicted to be more likely to be antibiotics while maintaining good drug-like properties and being easily synthesizable. Importantly, our deep neural network can successfully filter out hard to synthesize molecules while achieving a $10^5$ times speed-up over using the retrosynthesis planning software.
翻訳日:2022-09-21 03:23:41 公開日:2020-11-25
# 拡張データを活用したロバスト表現と不変表現の学習のための一貫性損失としての2乗$\ell_2$ norm

Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data to Learn Robust and Invariant Representations ( http://arxiv.org/abs/2011.13052v1 )

ライセンス: Link先を確認
Haohan Wang, Zeyi Huang, Xindi Wu, Eric P. Xing(参考訳) データ拡張は、ニューラルネットワークの堅牢性を改善するための最も一般的なテクニックの1つである。 モデルを原サンプルと増補サンプルで直接訓練することに加え、原サンプルと増補サンプルの埋め込み/表現の距離を規則化する手法が数多く導入されている。 本稿では,これら様々な規則化の選択について検討し,埋め込みをどのように規則化するべきかの理解を深める。 我々の分析は、正規化の理想的な選択は様々な仮定に対応することを示唆している。 不変性テストでは、非正規化アプローチは等しく高い精度にもかかわらず不変性の概念を学ぶのに限られるため、モデルが精度駆動的な設定よりも広い文脈で使用される場合、正規化は重要であると論じる。 最後に、我々が識別した一般的なアプローチ($\ell_2$ norm正規化拡張の2乗)は、3つの異なるタスクよりも非常に複雑で、1つのタスクのために特別に設計された最近のメソッドよりも優れていることも示します。

Data augmentation is one of the most popular techniques for improving the robustness of neural networks. In addition to directly training the model with original samples and augmented samples, a torrent of methods regularizing the distance between embeddings/representations of the original samples and their augmented counterparts have been introduced. In this paper, we explore these various regularization choices, seeking to provide a general understanding of how we should regularize the embeddings. Our analysis suggests the ideal choices of regularization correspond to various assumptions. With an invariance test, we argue that regularization is important if the model is to be used in a broader context than the accuracy-driven setting because non-regularized approaches are limited in learning the concept of invariance, despite equally high accuracy. Finally, we also show that the generic approach we identified (squared $\ell_2$ norm regularized augmentation) outperforms several recent methods, which are each specially designed for one task and significantly more complicated than ours, over three different tasks.
翻訳日:2022-09-21 03:23:22 公開日:2020-11-25
# BinPlay: 生成的再生継続学習のためのバイナリ潜在オートエンコーダ

BinPlay: A Binary Latent Autoencoder for Generative Replay Continual Learning ( http://arxiv.org/abs/2011.14960v1 )

ライセンス: Link先を確認
Kamil Deja, Pawe{\l} Wawrzy\'nski, Daniel Marczak, Wojciech Masarczyk, Tomasz Trzci\'nski(参考訳) ニューラルネットワークの連続学習のためのトレーニングサンプルをリハーサルするために,バイナリ潜在空間オートエンコーダアーキテクチャを導入する。 学習したサンプルを忘れずに新しいデータでモデルの知識を拡張する能力は、継続的な学習の基本的な要件である。 既存のソリューションは、トレーニングデータの増加に耐えられないメモリから過去のデータを再生するか、トレーニングデータを超えて一般化するように訓練された生成モデルで過去のサンプルを再構築することで対処する。 本稿では,両世界のベストを尽くし,ビンプレイと呼ばれる新しい生成リハーサルアプローチを提案する。 その主な目的は、過去のサンプルの品質保存エンコーディングを、オートエンコーダのバイナリ潜在空間に住む予め計算されたバイナリコードに変換することである。 トレーニングサンプルの時系列インデックスのみを事前計算するための公式をパラメータ化するので、オートエンコーダは、リハーサルされたサンプルのバイナリ埋め込みをメモリに保持することなく、オンザフライで計算することができる。 3つのベンチマークデータセットの評価は、BinPlayと競合する生成的再生方法の2倍の精度向上を示す。

We introduce a binary latent space autoencoder architecture to rehearse training samples for the continual learning of neural networks. The ability to extend the knowledge of a model with new data without forgetting previously learned samples is a fundamental requirement in continual learning. Existing solutions address it by either replaying past data from memory, which is unsustainable with growing training data, or by reconstructing past samples with generative models that are trained to generalize beyond training data and, hence, miss important details of individual samples. In this paper, we take the best of both worlds and introduce a novel generative rehearsal approach called BinPlay. Its main objective is to find a quality-preserving encoding of past samples into precomputed binary codes living in the autoencoder's binary latent space. Since we parametrize the formula for precomputing the codes only on the chronological indices of the training samples, the autoencoder is able to compute the binary embeddings of rehearsed samples on the fly without the need to keep them in memory. Evaluation on three benchmark datasets shows up to a twofold accuracy improvement of BinPlay versus competing generative replay methods.
翻訳日:2022-09-21 03:23:01 公開日:2020-11-25
# rrcn:オンラインデートのためのランダム畳み込みネットワークによる相互推薦手法

RRCN: A Reinforced Random Convolutional Network based Reciprocal Recommendation Approach for Online Dating ( http://arxiv.org/abs/2011.12586v1 )

ライセンス: Link先を確認
Linhao Luo, Liqi Yang, Ju Xin, Yixiang Fang, Xiaofeng Zhang, Xiaofei Yang, Kai Chen, Zhiyuan Zhang, Kai Liu(参考訳) 近年,特にオンラインデートアプリケーションにおける相互推薦が研究の注目を集めている。 従来のレコメンデーション問題とは違って,相互選好とユーザの相互選好の同時一致を目的としたレコメンデーションである。 直感的には、お互いの好みは、ユーザが好むか嫌いないくつかの重要な属性に影響される可能性がある。 一方,ユーザの属性とその属性との相互作用は,属性選択において重要である。 そこで本論文では,これらの観測結果に動機づけられ,相互推薦課題に対する新しい強化型ランダム畳み込みネットワーク(rrcn)手法を提案する。 特に,非隣接特徴をランダムに畳み込み,それらの相互作用情報をキャプチャし,キー属性の特徴埋め込みを学習して最終推薦を行う,新しいランダムcnnコンポーネントを提案する。 さらに,ランダムcnnコンポーネントと統合する強化学習に基づく戦略をデザインし,主属性の候補セットを形成するために有意な属性を選択する。 提案したRCNを,2つの実世界のデータセットのベースラインと最先端のアプローチの両方に対して評価し,多くの評価基準で比較したアプローチに対してRCNの優位性を実証した。

Recently, the reciprocal recommendation, especially for online dating applications, has attracted more and more research attention. Different from conventional recommendation problems, the reciprocal recommendation aims to simultaneously best match users' mutual preferences. Intuitively, the mutual preferences might be affected by a few key attributes that users like or dislike. Meanwhile, the interactions between users' attributes and their key attributes are also important for key attributes selection. Motivated by these observations, in this paper we propose a novel reinforced random convolutional network (RRCN) approach for the reciprocal recommendation task. In particular, we technically propose a novel random CNN component that can randomly convolute non-adjacent features to capture their interaction information and learn feature embeddings of key attributes to make the final recommendation. Moreover, we design a reinforcement learning based strategy to integrate with the random CNN component to select salient attributes to form the candidate set of key attributes. We evaluate the proposed RRCN against a number of both baselines and the state-of-the-art approaches on two real-world datasets, and the promising results have demonstrated the superiority of RRCN against the compared approaches in terms of a number of evaluation criteria.
翻訳日:2022-09-21 03:21:32 公開日:2020-11-25
# Relation3DMOT:ビューアグリゲーションによる3次元多物体追跡の深部親和性向上

Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking from View Aggregation ( http://arxiv.org/abs/2011.12850v1 )

ライセンス: Link先を確認
Can Chen, Luca Zanotti Fragonara and Antonios Tsourdos(参考訳) 自律システムは、安全な動き計画のために3d空間内の周囲の物体をローカライズし追跡する必要がある。 その結果、3D多物体追跡(MOT)は自律ナビゲーションにおいて重要な役割を担っている。 ほとんどのmotメソッドは、オブジェクト検出とデータアソシエーション処理を含むトラッキングバイ検出パイプラインを使用する。 しかし,3次元空間におけるオブジェクトのローカライズには信頼性の欠如があるため,追跡のための2次元RGBシーケンス内のオブジェクトを検出する手法が多数存在する。 さらに、異なるフレームにおける時間的一貫性のある検出のための識別的特徴を学習することは依然として困難であり、アフィニティ行列は通常、異なるフレーム内の検出対象間の特徴的相互作用を考慮せずに独立したオブジェクト特徴から学習される。 これらの問題を解決するために,まず2d rgb像と3d点像の両方から抽出した2dと3dの外観特徴を融合するジョイント特徴抽出器を用い,隣り合うフレーム内の各2つのオブジェクト間の相関をよりよく活用する新しい畳み込み演算「relationconv」を提案し,さらなるデータ関連付けのために深い親和性行列を学習する。 提案手法は,KITTI追跡ベンチマークにおける最先端性能を実現する。

Autonomous systems need to localize and track surrounding objects in 3D space for safe motion planning. As a result, 3D multi-object tracking (MOT) plays a vital role in autonomous navigation. Most MOT methods use a tracking-by-detection pipeline, which includes object detection and data association processing. However, many approaches detect objects in 2D RGB sequences for tracking, which is lack of reliability when localizing objects in 3D space. Furthermore, it is still challenging to learn discriminative features for temporally-consistent detection in different frames, and the affinity matrix is normally learned from independent object features without considering the feature interaction between detected objects in the different frames. To settle these problems, We firstly employ a joint feature extractor to fuse the 2D and 3D appearance features captured from both 2D RGB images and 3D point clouds respectively, and then propose a novel convolutional operation, named RelationConv, to better exploit the correlation between each pair of objects in the adjacent frames, and learn a deep affinity matrix for further data association. We finally provide extensive evaluation to reveal that our proposed model achieves state-of-the-art performance on KITTI tracking benchmark.
翻訳日:2022-09-21 03:15:05 公開日:2020-11-25
# 一般化された焦点損失V2:Dense Object Detectionのための信頼性の高い位置化品質推定学習

Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection ( http://arxiv.org/abs/2011.12885v1 )

ライセンス: Link先を確認
Xiang Li, Wenhai Wang, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang(参考訳) 局所的品質推定(lqe)は、非最大抑制処理に有利な正確なランキングスコアを提供し、検出性能を向上させることができるため、近年の高密度物体検出器の発展において重要かつ普及している。 一般的な手法として、ほとんどの既存の手法は、オブジェクト分類やバウンディングボックス回帰と共有されるバニラ畳み込み特徴を通してLQEスコアを予測する。 本稿では,境界ボックスの4つのパラメータの学習分布に基づいて,LQEを実行するための全く新しい,異なる視点を探求する。 境界ボックス分布はgflv1にインスパイアされて「一般分布」として導入され、予測された境界ボックスの不確かさをよく記述している。 そのような性質は、有界箱の分布統計を、その実位置化品質と強く相関させる。 具体的には、鋭いピークを持つ有界箱分布は、通常、高い局所化品質に対応する。 分布統計と実際の局在品質との密接な相関を利用して,gflv1に基づく信頼性の高いlqeのための,かなり軽量な分布誘導型品質予測器(dgqp)を開発し,gflv2を生成する。 我々の知る限り、LQEを促進するために非常に関連性の高い統計的表現を用いたオブジェクト検出の最初の試みである。 広範な実験により本手法の有効性が実証された。 特に GFLV2 (ResNet-101) は 14.6 FPS で 46.2 AP を達成し、トレーニングと推論の両方の効率を犠牲にすることなく、COCO {\tt test-dev} 上の絶対 2.6 AP で最先端の ATSS ベースライン (43.6 AP で 14.6 FPS) を突破した。 コードはhttps://github.com/implus/gfocalv2で入手できる。

Localization Quality Estimation (LQE) is crucial and popular in the recent advancement of dense object detectors since it can provide accurate ranking scores that benefit the Non-Maximum Suppression processing and improve detection performance. As a common practice, most existing methods predict LQE scores through vanilla convolutional features shared with object classification or bounding box regression. In this paper, we explore a completely novel and different perspective to perform LQE -- based on the learned distributions of the four parameters of the bounding box. The bounding box distributions are inspired and introduced as "General Distribution" in GFLV1, which describes the uncertainty of the predicted bounding boxes well. Such a property makes the distribution statistics of a bounding box highly correlated to its real localization quality. Specifically, a bounding box distribution with a sharp peak usually corresponds to high localization quality, and vice versa. By leveraging the close correlation between distribution statistics and the real localization quality, we develop a considerably lightweight Distribution-Guided Quality Predictor (DGQP) for reliable LQE based on GFLV1, thus producing GFLV2. To our best knowledge, it is the first attempt in object detection to use a highly relevant, statistical representation to facilitate LQE. Extensive experiments demonstrate the effectiveness of our method. Notably, GFLV2 (ResNet-101) achieves 46.2 AP at 14.6 FPS, surpassing the previous state-of-the-art ATSS baseline (43.6 AP at 14.6 FPS) by absolute 2.6 AP on COCO {\tt test-dev}, without sacrificing the efficiency both in training and inference. Code will be available at https://github.com/implus/GFocalV2.
翻訳日:2022-09-21 03:14:22 公開日:2020-11-25
# Grafit: 粗いラベルによるきめ細かい画像表現の学習

Grafit: Learning fine-grained image representations with coarse labels ( http://arxiv.org/abs/2011.12982v1 )

ライセンス: Link先を確認
Hugo Touvron, Alexandre Sablayrolles, Matthijs Douze, Matthieu Cord, Herv\'e J\'egou(参考訳) 本稿では,トレーニングラベルが提供するものよりも細かい表現を学習する問題に取り組む。 これにより、粗いラベルのみを付記したコレクション内の画像のきめ細かいカテゴリ検索が可能になる。 我々のネットワークは、近距離-neighbor分類器の目的と、自己教師付き学習に触発されたインスタンス損失で学習される。 粗いラベルと下位の細粒度の潜在空間を併用することで,カテゴリーレベルの検索手法の精度を大幅に向上させる。 我々の戦略は、列車で利用できるものよりも細かい粒度で画像を検索または分類するための競合するすべての手法より優れています。 さらに、詳細なデータセットへの学習タスクの転送精度も向上し、iNaturalist-2018のような5つの公開ベンチマーク上で、新たな最先端技術を確立する。

This paper tackles the problem of learning a finer representation than the one provided by training labels. This enables fine-grained category retrieval of images in a collection annotated with coarse labels only. Our network is learned with a nearest-neighbor classifier objective, and an instance loss inspired by self-supervised learning. By jointly leveraging the coarse labels and the underlying fine-grained latent space, it significantly improves the accuracy of category-level retrieval methods. Our strategy outperforms all competing methods for retrieving or classifying images at a finer granularity than that available at train time. It also improves the accuracy for transfer learning tasks to fine-grained datasets, thereby establishing the new state of the art on five public benchmarks, like iNaturalist-2018.
翻訳日:2022-09-21 03:13:09 公開日:2020-11-25
# 時間的情報は対照的な自己教師付き学習に役立つか?

Can Temporal Information Help with Contrastive Self-Supervised Learning? ( http://arxiv.org/abs/2011.13046v1 )

ライセンス: Link先を確認
Yutong Bai, Haoqi Fan, Ishan Misra, Ganesh Venkatesh, Yongyi Lu, Yuyin Zhou, Qihang Yu, Vikas Chandra, Alan Yuille(参考訳) 時間的情報を活用することは,映像理解モデルの開発に不可欠であると考えられる。 しかし、最近成功したインスタンス識別に基づくコントラスト型自己教師学習(CSL)フレームワークに時間的情報を適切に組み込む方法は不明である。 直感的な解法として、時間拡張を直接適用することは、一般的にはビデオCSLを損なうことさえない。 この反直感的な観察は、時間的知識のより良い統合のために、既存のビデオCSLフレームワークを再設計する動機となります。 そこで本研究では,ビデオcsl強化のための汎用パラダイムとして,時間対応型コントラスト型自己教師付き学習タコを提案する。 具体的には、TaCoは、強力なデータ拡張だけでなく、ビデオ理解のための追加の自己監督を構成するために、時間変換のセットを選択する。 豊富な時間変換を持つインスタンスを相互に対比し、これら変換を自己教師付き信号として学習することにより、TaCoは教師なしのビデオ表現学習を大幅に強化することができる。 例えば、TaCoは、バックボーンとCSLアプローチのリストよりも下流の分類タスクを一貫して改善している。 我々の最良のモデルは85.1% (ucf-101) と51.6% (hmdb-51) のtop-1精度を達成し、これは以前の状態と比べて3%と2.4%の改善である。

Leveraging temporal information has been regarded as essential for developing video understanding models. However, how to properly incorporate temporal information into the recent successful instance discrimination based contrastive self-supervised learning (CSL) framework remains unclear. As an intuitive solution, we find that directly applying temporal augmentations does not help, or even impair video CSL in general. This counter-intuitive observation motivates us to re-design existing video CSL frameworks, for better integration of temporal knowledge. To this end, we present Temporal-aware Contrastive self-supervised learningTaCo, as a general paradigm to enhance video CSL. Specifically, TaCo selects a set of temporal transformations not only as strong data augmentation but also to constitute extra self-supervision for video understanding. By jointly contrasting instances with enriched temporal transformations and learning these transformations as self-supervised signals, TaCo can significantly enhance unsupervised video representation learning. For instance, TaCo demonstrates consistent improvement in downstream classification tasks over a list of backbones and CSL approaches. Our best model achieves 85.1% (UCF-101) and 51.6% (HMDB-51) top-1 accuracy, which is a 3% and 2.4% relative improvement over the previous state-of-the-art.
翻訳日:2022-09-21 03:12:45 公開日:2020-11-25
# 人物再同定のためのマルチドメイン対応特徴一般化

Multi-Domain Adversarial Feature Generalization for Person Re-Identification ( http://arxiv.org/abs/2011.12563v1 )

ライセンス: Link先を確認
Shan Lin, Chang-Tsun Li, Alex C. Kot(参考訳) 近年,単一のラベル付きデータセットに適用された高度なトレーニング手法の助けを借りて,完全教師付き人物識別(Person Re-ID)の性能が大幅に向上している。 しかし、単一のデータセットでトレーニングされたこれらのモデルは、異なるカメラネットワークのビデオに適用すると、パフォーマンスが大幅に低下する。 Person Re-IDシステムをより実用的でスケーラブルにするために、ターゲットドメインからのラベル付きデータを使わずに高性能なクロスデータセットドメイン適応法が提案されている。 しかし、これらのアプローチはトレーニングプロセス中にターゲットドメインのラベルのないデータを必要とするため、実用的ではない。 他のデータセット上で事前トレーニングされた実践的Person Re-IDシステムは、十分な画像やビデオが収集され、事前トレーニングされたモデルがチューニングされるまで待つことなく、新しいサイトへのデプロイ直後に実行を開始する必要がある。 そこで本稿では,マルチデータセット領域一般化問題として,人物再同定を再構成する。 本稿では,複数のラベル付きデータセットから普遍的ドメイン不変特徴表現を学習し,unseenカメラシステムへ一般化するマルチデータセット特徴一般化ネットワーク(mmfa-aae)を提案する。 このネットワークは、複数のドメインにまたがる分布の整合を最大平均離散度(MMD)尺度で一般化されたドメイン不変潜在特徴表現を学習するための対角的自動エンコーダに基づいている。 大規模実験により提案手法の有効性が示された。 我々のMMFA-AAEアプローチは、ドメイン一般化Person Re-ID手法のほとんどを上回るだけでなく、最先端の教師付き手法や教師なしドメイン適応手法を大きく上回っている。

With the assistance of sophisticated training methods applied to single labeled datasets, the performance of fully-supervised person re-identification (Person Re-ID) has been improved significantly in recent years. However, these models trained on a single dataset usually suffer from considerable performance degradation when applied to videos of a different camera network. To make Person Re-ID systems more practical and scalable, several cross-dataset domain adaptation methods have been proposed, which achieve high performance without the labeled data from the target domain. However, these approaches still require the unlabeled data of the target domain during the training process, making them impractical. A practical Person Re-ID system pre-trained on other datasets should start running immediately after deployment on a new site without having to wait until sufficient images or videos are collected and the pre-trained model is tuned. To serve this purpose, in this paper, we reformulate person re-identification as a multi-dataset domain generalization problem. We propose a multi-dataset feature generalization network (MMFA-AAE), which is capable of learning a universal domain-invariant feature representation from multiple labeled datasets and generalizing it to `unseen' camera systems. The network is based on an adversarial auto-encoder to learn a generalized domain-invariant latent feature representation with the Maximum Mean Discrepancy (MMD) measure to align the distributions across multiple domains. Extensive experiments demonstrate the effectiveness of the proposed method. Our MMFA-AAE approach not only outperforms most of the domain generalization Person Re-ID methods, but also surpasses many state-of-the-art supervised methods and unsupervised domain adaptation methods by a large margin.
翻訳日:2022-09-21 03:06:32 公開日:2020-11-25
# 直交埋め込みとクラスター埋め込みによる意味セグメンテーションにおける教師なし領域適応

Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings ( http://arxiv.org/abs/2011.12616v1 )

ライセンス: Link先を確認
Marco Toldo, Umberto Michieli, Pietro Zanuttigh(参考訳) 深層学習フレームワークはセマンティックセグメンテーションの顕著な進歩を可能にしたが、畳み込みネットワークのデータ飢えの性質は、ラベル付きドメインからラベルなしドメインへ学習知識を伝達できる適応技術への需要を急速に高めた。 本稿では,特徴分布の異なるセマンティックモードを抽出し,同一クラスの特徴を密に分離したクラスタにグループ化する特徴クラスタリング手法に基づく,効果的なUnsupervised Domain Adaptation (UDA) 戦略を提案する。 さらに,識別的クラスタリング性能を高めるための2つの新たな学習目標を紹介した。直交性喪失力は,個々の表現を直交に分割し,スパーシビリティ損失は,アクティブな特徴チャネルのクラスワイドを減少させる。 これらのモジュールの合同効果は、特徴空間の構造を正則化することである。 人工現実シナリオにおける広範囲な評価は、最先端の性能を達成することを示す。

Deep learning frameworks allowed for a remarkable advancement in semantic segmentation, but the data hungry nature of convolutional networks has rapidly raised the demand for adaptation techniques able to transfer learned knowledge from label-abundant domains to unlabeled ones. In this paper we propose an effective Unsupervised Domain Adaptation (UDA) strategy, based on a feature clustering method that captures the different semantic modes of the feature distribution and groups features of the same class into tight and well-separated clusters. Furthermore, we introduce two novel learning objectives to enhance the discriminative clustering performance: an orthogonality loss forces spaced out individual representations to be orthogonal, while a sparsity loss reduces class-wise the number of active feature channels. The joint effect of these modules is to regularize the structure of the feature space. Extensive evaluations in the synthetic-to-real scenario show that we achieve state-of-the-art performance.
翻訳日:2022-09-21 03:06:02 公開日:2020-11-25
# 外観に基づく行動認識の最近の進歩

Recent Progress in Appearance-based Action Recognition ( http://arxiv.org/abs/2011.12619v1 )

ライセンス: Link先を確認
Jack Humphreys, Zhe Chen, and Dacheng Tao(参考訳) 映像中の様々な人間の行動を識別するタスクとして定式化されている行動認識は、様々なアプリケーションにおいて重要であることから、コンピュータビジョン研究者の関心が高まりつつある。 近年、出現に基づく手法は、正確な行動認識に有望な進歩を遂げている。 一般に、これらの手法は主に空間的および時間的視覚情報を効果的にモデル化するために様々なスキームを適用してタスクを遂行する。 外観に基づく行動認識の現在の進歩をよりよく理解するために,この領域における最近の成果を包括的にレビューする。 特に,複数の関連研究論文を要約し,概ね4つのカテゴリに分けて概説する。 得られたカテゴリには、2次元畳み込み法、3次元畳み込み法、動き表現に基づく方法、文脈表現に基づく方法が含まれる。 各カテゴリの代表的手法を総合的に分析し議論する。 実験結果は、最先端のアルゴリズムをよりよく説明するために要約される。 分類から得られた今後の研究の重要領域を特定して結論付ける。

Action recognition, which is formulated as a task to identify various human actions in a video, has attracted increasing interest from computer vision researchers due to its importance in various applications. Recently, appearance-based methods have achieved promising progress towards accurate action recognition. In general, these methods mainly fulfill the task by applying various schemes to model spatial and temporal visual information effectively. To better understand the current progress of appearance-based action recognition, we provide a comprehensive review of recent achievements in this area. In particular, we summarise and discuss several dozens of related research papers, which can be roughly divided into four categories according to different appearance modelling strategies. The obtained categories include 2D convolutional methods, 3D convolutional methods, motion representation-based methods, and context representation-based methods. We analyse and discuss representative methods from each category, comprehensively. Empirical results are also summarised to better illustrate cutting-edge algorithms. We conclude by identifying important areas for future research gleaned from our categorisation.
翻訳日:2022-09-21 03:05:46 公開日:2020-11-25
# PGL:3次元医用画像分割のための事前指導型局所自己教師型学習

PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2011.12640v1 )

ライセンス: Link先を確認
Yutong Xie, Jianpeng Zhang, Zehui Liao, Yong Xia, and Chunhua Shen(参考訳) 画像セグメンテーションにおける深層学習の成功は、膨大な量の濃密な注釈付きトレーニングデータに大きく依存していると広く認識されているが、特に3次元医用画像に必要とされる膨大な労力と専門知識のため入手が困難である。 自己教師付き学習(SSL)はこの問題に対処する大きな可能性を示しているが、ほとんどのSSLアプローチは画像レベルのグローバルな一貫性にのみ焦点をあてているが、セグメンテーションのような密集した予測タスクのための構造情報を取得する上で重要な役割を果たす局所的な一貫性を無視している。 本稿では,潜在特徴空間における局所的な局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。 具体的には、同じ画像の異なる拡張ビューを生成する空間変換を用いて、2つのビュー間の位置関係を推定し、同じローカル領域の特徴マップを2つのビューで抽出する。 次に,特徴写像間のボクセル的差を最小限に抑えるため,局所的な一貫性損失を構築する。 このように、我々のPGLモデルは、局所領域の独特な表現を学習し、したがって構造情報を保持できる。 この機能は下流のセグメンテーションタスクに役立ちます。 11種類のヒト主要臓器と2つの腫瘍をカバーする4つのctデータセットについて広範な評価を行った。 その結果、事前学習したPGLモデルを用いてダウンストリームネットワークを初期化すると、ランダム初期化とグローバル一貫性モデルによる初期化の両方よりも大幅に性能が向上することが示された。 コードと事前トレーニングされたウェイトは、以下の通りである。

It has been widely recognized that the success of deep learning in image segmentation relies overwhelmingly on a myriad amount of densely annotated training data, which, however, are difficult to obtain due to the tremendous labor and expertise required, particularly for annotating 3D medical images. Although self-supervised learning (SSL) has shown great potential to address this issue, most SSL approaches focus only on image-level global consistency, but ignore the local consistency which plays a pivotal role in capturing structural information for dense prediction tasks such as segmentation. In this paper, we propose a PriorGuided Local (PGL) self-supervised model that learns the region-wise local consistency in the latent feature space. Specifically, we use the spatial transformations, which produce different augmented views of the same image, as a prior to deduce the location relation between two views, which is then used to align the feature maps of the same local region but being extracted on two views. Next, we construct a local consistency loss to minimize the voxel-wise discrepancy between the aligned feature maps. Thus, our PGL model learns the distinctive representations of local regions, and hence is able to retain structural information. This ability is conducive to downstream segmentation tasks. We conducted an extensive evaluation on four public computerized tomography (CT) datasets that cover 11 kinds of major human organs and two tumors. The results indicate that using pre-trained PGL model to initialize a downstream network leads to a substantial performance improvement over both random initialization and the initialization with global consistency-based models. Code and pre-trained weights will be made available at: https://git.io/PGL.
翻訳日:2022-09-21 03:05:31 公開日:2020-11-25
# 可視光を用いた顔認識に対する敵対的攻撃

Adversarial Attack on Facial Recognition using Visible Light ( http://arxiv.org/abs/2011.12680v1 )

ライセンス: Link先を確認
Morgan Frearson, Kien Nguyen(参考訳) 人間の識別と物体検出におけるディープラーニングの利用は、監視業界でますます普及している。 これらのシステムは、高い精度で人体や顔を特定するように訓練されている。 しかし、これらシステムを敵の攻撃と呼ばれる異なる手法で騙す試みは成功している。 本稿では,顔認識システムにおける可視光を用いた対向攻撃の最終報告を示す。 この研究の関連性は、ディープニューラルネットワークの物理的欠点を利用することである。 これらのシステムの弱点の実証は、将来オブジェクト認識のトレーニングモデルを改善するためにこの研究が使われることを期待している。 結果が集められると、プロジェクトの目的が結果に合うように調整された。 このため、まずまず赤外光を用いた対向攻撃を探索し、その後、可視光攻撃に順応する。 赤外線光と顔認識に関する研究概要が内在する。 現状の詳細な分析と今後のプロジェクトの推奨事項について紹介する。 遭遇した課題を評価し、最終的な解決策を提供する。 最終的な結果は、光を用いた認識システムを効果的に騙す能力を示す。

The use of deep learning for human identification and object detection is becoming ever more prevalent in the surveillance industry. These systems have been trained to identify human body's or faces with a high degree of accuracy. However, there have been successful attempts to fool these systems with different techniques called adversarial attacks. This paper presents a final report for an adversarial attack using visible light on facial recognition systems. The relevance of this research is to exploit the physical downfalls of deep neural networks. This demonstration of weakness within these systems are in hopes that this research will be used in the future to improve the training models for object recognition. As results were gathered the project objectives were adjusted to fit the outcomes. Because of this the following paper initially explores an adversarial attack using infrared light before readjusting to a visible light attack. A research outline on infrared light and facial recognition are presented within. A detailed analyzation of the current findings and possible future recommendations of the project are presented. The challenges encountered are evaluated and a final solution is delivered. The projects final outcome exhibits the ability to effectively fool recognition systems using light.
翻訳日:2022-09-21 03:04:06 公開日:2020-11-25
# 目標認識支援のためのトランスファー学習--ディープラーニングと他の機械学習アプローチの比較

Transfer Learning for Aided Target Recognition: Comparing Deep Learning to other Machine Learning Approaches ( http://arxiv.org/abs/2011.12762v1 )

ライセンス: Link先を確認
Samuel Rivera, Olga Mendoza-Schrock, Ashley Diehl(参考訳) センサデータからオブジェクトを分類する問題であるAided target recognition (AiTR)は、産業や防衛分野のアプリケーションにおいて重要な問題である。 分類アルゴリズムは改善を続けているが、多くの場合、利用可能な以上のトレーニングデータを必要とするか、トレーニングセットに表示されていない設定にうまく移行しない。 これらの問題は転送学習(tl)によって軽減され、よく理解されたソースドメインで得られる知識は対象の関心領域に移される。 このコンテキストでは、ターゲットドメインはラベルの低いデータセット、異なるセンサー、あるいは識別するまったく新しいクラスのセットを表すことができる。 分類のためのTLは、数十年にわたって機械学習(ML)研究の活発な領域であったが、ディープラーニングフレームワーク内の伝達学習は、比較的新しい研究領域である。 ディープラーニング(DL)は、最近の現実世界の問題に対して、例外的なモデリングの柔軟性と精度を提供するが、DLと他のMLアーキテクチャを使用した場合の転送メリットについて、オープンな疑問が残る。 私たちのゴールは、DLフレームワーク内の転送学習と、転送タスクとデータセットをまたいだ他のMLアプローチを比較することで、この欠点に対処することにあります。 私たちの主な貢献は 1)遺伝子発現や衛星画像を含むいくつかの伝達課題および領域におけるdlおよびmlアルゴリズムの実証的解析 2) 目標認識支援のためのtlの限界と仮定 - dl と ml 全般について - について議論する。 我々はDL転送の今後の方向性について議論した。

Aided target recognition (AiTR), the problem of classifying objects from sensor data, is an important problem with applications across industry and defense. While classification algorithms continue to improve, they often require more training data than is available or they do not transfer well to settings not represented in the training set. These problems are mitigated by transfer learning (TL), where knowledge gained in a well-understood source domain is transferred to a target domain of interest. In this context, the target domain could represents a poorly-labeled dataset, a different sensor, or an altogether new set of classes to identify. While TL for classification has been an active area of machine learning (ML) research for decades, transfer learning within a deep learning framework remains a relatively new area of research. Although deep learning (DL) provides exceptional modeling flexibility and accuracy on recent real world problems, open questions remain regarding how much transfer benefit is gained by using DL versus other ML architectures. Our goal is to address this shortcoming by comparing transfer learning within a DL framework to other ML approaches across transfer tasks and datasets. Our main contributions are: 1) an empirical analysis of DL and ML algorithms on several transfer tasks and domains including gene expressions and satellite imagery, and 2) a discussion of the limitations and assumptions of TL for aided target recognition -- both for DL and ML in general. We close with a discussion of future directions for DL transfer.
翻訳日:2022-09-21 03:03:31 公開日:2020-11-25
# CRACT:ロバストな視覚追跡のためのカスケード回帰アライメント

CRACT: Cascaded Regression-Align-Classification for Robust Visual Tracking ( http://arxiv.org/abs/2011.12483v1 )

ライセンス: Link先を確認
Heng Fan, Haibin Ling(参考訳) 高品質なオブジェクト提案は、地域提案ネットワーク(RPN)を利用した視覚追跡アルゴリズムにおいて重要である。 これらの提案のリファインメントは、通常、ボックス回帰とパラレルな分類によって、追跡性能を高めるために広く採用されている。 しかし、複雑な動的背景を扱う際にはまだ問題が発生する。 そこで本研究では,改良された提案改良モジュールであるCascaded Regression-Align-Classification (CRAC)を導入する。 まず,ボックスレグレッションからのオフセットが提案機能改善のガイダンスとなることを観測し,ボックスレグレッション,機能アライメント,ボックス分類のカスケードとしてcracを設計した。 鍵となるのは、アライメントステップを通じてボックスの回帰と分類をブリッジすることであり、ロバスト性を改善した提案分類のためのより正確な特徴をもたらす。 オブジェクトの外観の変動に対処するために,オフラインで信頼性の高い微粒化テンプレートとオンラインのリッチな背景情報を活用するボックス分類のための識別識別コンポーネントを導入する。 さらに、ローカルおよびグローバルな提案方法の両方を活用することでCRACの恩恵を受けるピラミッドRoIAlignを提案する。 推論の間、追跡はすべての洗練された提案をランク付けし、最良の提案を選択することで進行する。 OTB-2015, UAV123, NfS, VOT-2018, TrackingNet, GOT-10k, LaSOTを含む7つのベンチマークの実験において、私たちのCRACTは最先端の競合相手と比較して非常に有望な結果を示し、リアルタイムで実行しています。

High quality object proposals are crucial in visual tracking algorithms that utilize region proposal network (RPN). Refinement of these proposals, typically by box regression and classification in parallel, has been popularly adopted to boost tracking performance. However, it still meets problems when dealing with complex and dynamic background. Thus motivated, in this paper we introduce an improved proposal refinement module, Cascaded Regression-Align-Classification (CRAC), which yields new state-of-the-art performances on many benchmarks. First, having observed that the offsets from box regression can serve as guidance for proposal feature refinement, we design CRAC as a cascade of box regression, feature alignment and box classification. The key is to bridge box regression and classification via an alignment step, which leads to more accurate features for proposal classification with improved robustness. To address the variation in object appearance, we introduce an identification-discrimination component for box classification, which leverages offline reliable fine-grained template and online rich background information to distinguish the target from background. Moreover, we present pyramid RoIAlign that benefits CRAC by exploiting both the local and global cues of proposals. During inference, tracking proceeds by ranking all refined proposals and selecting the best one. In experiments on seven benchmarks including OTB-2015, UAV123, NfS, VOT-2018, TrackingNet, GOT-10k and LaSOT, our CRACT exhibits very promising results in comparison with state-of-the-art competitors and runs in real-time.
翻訳日:2022-09-21 02:57:25 公開日:2020-11-25
# 強度不均一な赤外画像に対する多機能能動輪郭分割モデル

Multi-feature driven active contour segmentation model for infrared image with intensity inhomogeneity ( http://arxiv.org/abs/2011.12492v1 )

ライセンス: Link先を確認
Qinyan Huang and Weiwen Zhou and Minjie Wan and Xin Chen and Qian Chen and Guohua Gu(参考訳) 赤外線画像のセグメンテーションは、歩行者の監視、車両の計数、セキュリティ監視など、多くの都市防衛用途において不可欠である。 能動輪郭モデル(ACM)は現在最も広く使われている画像セグメント化ツールの1つであるが、既存の手法では画像の局所的またはグローバルな特徴情報のみを用いてエネルギー関数を最小化し、IR画像に偽のセグメンテーションを生じさせる。 本稿では,高次不均一な赤外線画像を扱うための多機能能動輪郭分割モデルを提案する。 まず、グローバル平均グレイ情報によって算出されたグローバル情報と、局所エントロピー、局所標準偏差、勾配情報によって算出された局所多機能情報とを組み合わせて、特に符号付き圧力(SPF)関数を構築する。 次に,局所範囲で計算した適応重み係数を用いて,前述した大域的項と局所的項を調整する。 次に、SPF関数はさらなる進化のためにレベルセット定式化(LSF)に置換される。 最後に、有限個の反復を経てlsfが収束し、対応する収束結果からir画像分割結果が得られる。 実験の結果,irテスト画像の精度と重ね合わせ率において,提案手法が最先端モデルを上回ることがわかった。

Infrared (IR) image segmentation is essential in many urban defence applications, such as pedestrian surveillance, vehicle counting, security monitoring, etc. Active contour model (ACM) is one of the most widely used image segmentation tools at present, but the existing methods only utilize the local or global single feature information of image to minimize the energy function, which is easy to cause false segmentations in IR images. In this paper, we propose a multi-feature driven active contour segmentation model to handle IR images with intensity inhomogeneity. Firstly, an especially-designed signed pressure force (SPF) function is constructed by combining the global information calculated by global average gray information and the local multi-feature information calculated by local entropy, local standard deviation and gradient information. Then, we draw upon adaptive weight coefficient calculated by local range to adjust the afore-mentioned global term and local term. Next, the SPF function is substituted into the level set formulation (LSF) for further evolution. Finally, the LSF converges after a finite number of iterations, and the IR image segmentation result is obtained from the corresponding convergence result. Experimental results demonstrate that the presented method outperforms the state-of-the-art models in terms of precision rate and overlapping rate in IR test images.
翻訳日:2022-09-21 02:56:38 公開日:2020-11-25
# Matchのテーマ:ビジュアルに説明可能な画像分類

Match Them Up: Visually Explainable Few-shot Image Classification ( http://arxiv.org/abs/2011.12527v1 )

ライセンス: Link先を確認
Bowen Wang, Liangzhi Li, Manisha Verma, Yuta Nakashima, Ryo Kawasaki, Hajime Nagahara(参考訳) FSL(Few-shot Learning)アプローチは、通常、トレーニング済みの知識がベース(見えない)カテゴリから得られ、新規(見えない)カテゴリに十分に移行できるという仮定に基づいている。 しかし、特に後者については保証はない。 この問題は、ほとんどのFSL法における推論プロセスの未知の性質につながり、いくつかの危険に敏感な領域でその応用を妨げている。 本稿では、バックボーンモデルからの視覚表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。 重み付き表現は最小限の識別可能な特徴のみを含み、可視化された重みはFSLプロセスのヒントとなる。 最後に、識別器は、サポートセットとクエリセット内の各ペアのイメージの表現を比較します。 最高得点のペアは、分類結果を決定する。 実験の結果,本手法は3つのメインストリームデータセットにおいて,精度と説明性が良好であることが判明した。

Few-shot learning (FSL) approaches are usually based on an assumption that the pre-trained knowledge can be obtained from base (seen) categories and can be well transferred to novel (unseen) categories. However, there is no guarantee, especially for the latter part. This issue leads to the unknown nature of the inference process in most FSL methods, which hampers its application in some risk-sensitive areas. In this paper, we reveal a new way to perform FSL for image classification, using visual representations from the backbone model and weights generated by a newly-emerged explainable classifier. The weighted representations only include a minimum number of distinguishable features and the visualized weights can serve as an informative hint for the FSL process. Finally, a discriminator will compare the representations of each pair of the images in the support set and the query set. Pairs with the highest scores will decide the classification results. Experimental results prove that the proposed method can achieve both good accuracy and satisfactory explainability on three mainstream datasets.
翻訳日:2022-09-21 02:55:10 公開日:2020-11-25
# 時空間対応による参照型ビデオカラー化

Reference-Based Video Colorization with Spatiotemporal Correspondence ( http://arxiv.org/abs/2011.12528v1 )

ライセンス: Link先を確認
Naofumi Akimoto, Akio Hayakawa, Andrew Shin, Takuya Narihira(参考訳) 時空間対応型参照型ビデオカラー化フレームワークを提案する。 参照ベース手法は、ユーザが入力したカラーフレームを参照するグレースケールフレームをカラー化する。 既存の手法では、空間における非局所的な意味的対応から生じる、オブジェクト間の色漏れと平均色の発生に苦しむ。 この問題に対処するために,参照フレーム上の領域からのみ色を時間的対応によって制限する。 マスクを時間的対応としてプロパガンダし、オフザシェルフのインスタンス追跡による高性能セグメンテーションと、様々な種類のオブジェクトを追跡するための新しい高密度トラッキングという2つの補完的な追跡手法を用いる。 色を参照するために時間的関連領域を制限することで、ビデオ全体を通して忠実な色を伝播する。 実験により,本手法は最先端手法よりも定量的,定性的に優れていることが示された。

We propose a novel reference-based video colorization framework with spatiotemporal correspondence. Reference-based methods colorize grayscale frames referencing a user input color frame. Existing methods suffer from the color leakage between objects and the emergence of average colors, derived from non-local semantic correspondence in space. To address this issue, we warp colors only from the regions on the reference frame restricted by correspondence in time. We propagate masks as temporal correspondences, using two complementary tracking approaches: off-the-shelf instance tracking for high performance segmentation, and newly proposed dense tracking to track various types of objects. By restricting temporally-related regions for referencing colors, our approach propagates faithful colors throughout the video. Experiments demonstrate that our method outperforms state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-09-21 02:54:52 公開日:2020-11-25
# マルチチャネル融合特徴と信頼度応答マップによるロバスト相関追跡

Robust Correlation Tracking via Multi-channel Fused Features and Reliable Response Map ( http://arxiv.org/abs/2011.12550v1 )

ライセンス: Link先を確認
Xizhe Xue and Ying Li and Qiang Shen(参考訳) オブジェクトがどのように変化しているかを効率的に学習する能力から、相関フィルタはオブジェクトを高速に追跡するのに優れた性能を示した。 効果的な機能の設計とモデルドリフトの処理は、オンラインビジュアルトラッキングの2つの重要な側面である。 本稿では,2つのアイデアに基づいて,ロバストな相関追跡アルゴリズム(RCT)を提案することにより,これらの課題に対処する。まず,追跡対象の勾配と色情報をより自然に記述するための特徴を融合する手法を提案し,その特徴を背景認識相関フィルタに導入して応答マップを得る。 第二に、応答マップにおけるノイズを著しく低減し、従ってモデルドリフトの問題を緩和する新しい戦略を提案する。 複数のトラッキングベンチマークで行ったシステム比較評価は,提案手法の有効性を示す。

Benefiting from its ability to efficiently learn how an object is changing, correlation filters have recently demonstrated excellent performance for rapidly tracking objects. Designing effective features and handling model drifts are two important aspects for online visual tracking. This paper tackles these challenges by proposing a robust correlation tracking algorithm (RCT) based on two ideas: First, we propose a method to fuse features in order to more naturally describe the gradient and color information of the tracked object, and introduce the fused features into a background aware correlation filter to obtain the response map. Second, we present a novel strategy to significantly reduce noise in the response map and therefore ease the problem of model drift. Systematic comparative evaluations performed over multiple tracking benchmarks demonstrate the efficacy of the proposed approach.
翻訳日:2022-09-21 02:54:39 公開日:2020-11-25
# 人工知能による世界中の幸福度の測定

Measuring Happiness Around the World Through Artificial Intelligence ( http://arxiv.org/abs/2011.12548v1 )

ライセンス: Link先を確認
Rustem Ozakar, Rafet Efe Gazanfer and Y. Sinan Hanay(参考訳) 本研究では、偏見のない感情検知器、人工知能(AI)を用いて、各国の幸福度を分析する。 これまで研究者は、富、健康、安全など、幸福に影響する多くの要因を提案してきた。 これらの要因はすべて関連しているように思われるが、これらの解釈の方法に関する社会学者間の明確なコンセンサスはなく、これらのユーティリティのコストを見積もるモデルにはいくつかの仮定が含まれている。 社会科学の研究者たちは、世論調査と異なる統計手法を通じて、社会における幸福度の決定とそれに関連する要因の探索に取り組んでいる。 私たちの研究では、人工知能を用いて、この問題に対して異なる比較的偏見のないアプローチを導入しています。 AIを使用することで、何が人を幸せにするかを前提にせず、公開のストリートビデオから収集された人々の顔から感情を検出するためにAIに任せます。 世界中の8つの都市における幸福度をインターネット上の映像から分析した結果,幸福度に関して統計的に有意な差はないことがわかった。

In this work, we analyze the happiness levels of countries using an unbiased emotion detector, artificial intelligence (AI). To date, researchers proposed many factors that may affect happiness such as wealth, health and safety. Even though these factors all seem relevant, there is no clear consensus between sociologists on how to interpret these, and the models to estimate the cost of these utilities include some assumptions. Researchers in social sciences have been working on determination of the happiness levels in society and exploration of the factors correlated with it through polls and different statistical methods. In our work, by using artificial intelligence, we introduce a different and relatively unbiased approach to this problem. By using AI, we make no assumption about what makes a person happy, and leave the decision to AI to detect the emotions from the faces of people collected from publicly available street footages. We analyzed the happiness levels in eight different cities around the world through available footage on the Internet and found out that there is no statistically significant difference between countries in terms of happiness.
翻訳日:2022-09-21 02:47:54 公開日:2020-11-25
# coldgan: 生成型adversarial networkによるコールドスタートユーザのレコメンデーションの解決

ColdGAN: Resolving Cold Start User Recommendation by using Generative Adversarial Networks ( http://arxiv.org/abs/2011.12566v1 )

ライセンス: Link先を確認
Po-Lin Lai, Chih-Yun Chen, Liang-Wei Lo, Chien-Chin Chen(参考訳) 新たなユーザコールドスタート問題を緩和することは、オンラインサービスプロバイダが意思決定におけるユーザエクスペリエンスに影響を与えるためのレコメンデーションシステムにおいて、究極的には、特定のサービスを使用するユーザの意図に影響を及ぼす可能性がある。 これまでの研究では、ユーザやアイテムからのさまざまなサイド情報を活用するが、プライバシの懸念から実用的でない場合もある。 本稿では,この問題を解決するために側情報を使用しないエンドツーエンドのGANモデルであるColdGANを提案する。 提案モデルの主なアイデアは,コールドスタート分布を考慮した経験者の評価分布を学習するネットワークを訓練することである。 さらに、ユーザの好みをコールドスタート状態に戻すための時間ベースの関数を設計する。 実世界の2つのデータセットに対する広範な実験により,提案手法は最先端のレコメンデータと比較して性能を著しく向上することを示した。

Mitigating the new user cold-start problem has been critical in the recommendation system for online service providers to influence user experience in decision making which can ultimately affect the intention of users to use a particular service. Previous studies leveraged various side information from users and items; however, it may be impractical due to privacy concerns. In this paper, we present ColdGAN, an end-to-end GAN based model with no use of side information to resolve this problem. The main idea of the proposed model is to train a network that learns the rating distributions of experienced users given their cold-start distributions. We further design a time-based function to restore the preferences of users to cold-start states. With extensive experiments on two real-world datasets, the results show that our proposed method achieves significantly improved performance compared with the state-of-the-art recommenders.
翻訳日:2022-09-21 02:47:37 公開日:2020-11-25
# オントロジー・リユース・アプローチの風景

The Landscape of Ontology Reuse Approaches ( http://arxiv.org/abs/2011.12599v1 )

ライセンス: Link先を確認
Valentina Anita Carriero, Marilena Daquino, Aldo Gangemi, Andrea Giovanni Nuzzolese, Silvio Peroni, Valentina Presutti, Francesca Tomasi(参考訳) オントロジの再利用は相互運用性を育み、知識の再利用を促進することを目的としている。 いくつかのアプローチは、通常、新しいプロジェクトのブートストラップ時にオントロジーエンジニアによって評価される。 しかし、現在のプラクティスは、推奨行動の定義を妨げる主観的なケースバイケースの決定によって動機づけられることが多い。 この章では、オントロジー再利用戦略を決定する際の開発者の意思決定プロセスを支援する効果的なソリューションは、これまで存在しないと論じています。 目的は2つある。 (一)オントロジの再利用に関する現在のアプローチを調査し、モチベーション、戦略、利益、限界を提示する。 (二)二つの代表的アプローチを分析し、そのメリットを議論すること。

Ontology reuse aims to foster interoperability and facilitate knowledge reuse. Several approaches are typically evaluated by ontology engineers when bootstrapping a new project. However, current practices are often motivated by subjective, case-by-case decisions, which hamper the definition of a recommended behaviour. In this chapter we argue that to date there are no effective solutions for supporting developers' decision-making process when deciding on an ontology reuse strategy. The objective is twofold: (i) to survey current approaches to ontology reuse, presenting motivations, strategies, benefits and limits, and (ii) to analyse two representative approaches and discuss their merits.
翻訳日:2022-09-21 02:47:21 公開日:2020-11-25
# ケーブルツリー配線 --様々な事前制約を伴う実世界のスケジューリング問題に対するベンチマーク解法

Cable Tree Wiring -- Benchmarking Solvers on a Real-World Scheduling Problem with a Variety of Precedence Constraints ( http://arxiv.org/abs/2011.12862v1 )

ライセンス: Link先を確認
Jana Koehler, Joseph B\"urgler, Urs Fontana, Etienne Fux, Florian Herzog, Marc Pouly, Sophia Saller, Anastasia Salyaeva, Peter Scheiblechner, Kai Waelti(参考訳) ケーブルツリーは、異なる製品部品間でエネルギーと情報を伝達するために工業製品に使用される。 今日まで、それらはほとんど人間によって組み立てられ、複雑なロボットマシンを使用して自動化された製造ソリューションはごくわずかである。 これらの機械の場合、配線計画は、その機械に追従するケーブルプラグ操作の配線シーケンスに変換されなければならない。 本稿では,ケーブルツリーの所定のレイアウトに対して最適な配線シーケンスを導出する問題を考察し,定式化する。 我々は,このケーブルツリー配線問題 (CTW) を,最先端制約プログラミング (CP) や最適化モジュロ理論 (OMT) ,混合整数プログラミング (MIP) の解法によって解決可能なツアー依存エッジコストとともに,原子,軟質原子,および偏在性優先制約を用いた旅行セールスマン問題としてモデル化する研究を要約する。 さらに,ctw問題を結合タスクスケジューリング問題のソフトバージョンと見なすことができることを示した。 問題に対する様々なモデリングのバリエーションについて議論し、NP硬度を証明し、278インスタンスのベンチマークセット上でCP, OMT, MIPソルバを実証的に比較する。 すべてのモデルとインスタンスデータの完全なベンチマークセットはgithubで利用可能であり、MiniZinc Challenge 2020に含められている。

Cable trees are used in industrial products to transmit energy and information between different product parts. To this date, they are mostly assembled by humans and only few automated manufacturing solutions exist using complex robotic machines. For these machines, the wiring plan has to be translated into a wiring sequence of cable plugging operations to be followed by the machine. In this paper, we study and formalize the problem of deriving the optimal wiring sequence for a given layout of a cable tree. We summarize our investigations to model this cable tree wiring Problem (CTW) as a traveling salesman problem with atomic, soft atomic, and disjunctive precedence constraints as well as tour-dependent edge costs such that it can be solved by state-of-the-art constraint programming (CP), Optimization Modulo Theories (OMT), and mixed-integer programming (MIP) solvers. It is further shown, how the CTW problem can be viewed as a soft version of the coupled tasks scheduling problem. We discuss various modeling variants for the problem, prove its NP-hardness, and empirically compare CP, OMT, and MIP solvers on a benchmark set of 278 instances. The complete benchmark set with all models and instance data is available on github and is accepted for inclusion in the MiniZinc challenge 2020.
翻訳日:2022-09-21 02:47:04 公開日:2020-11-25
# 欧州のAI戦略:我々は本当に社会的善を育むのか?

European Strategy on AI: Are we truly fostering social good? ( http://arxiv.org/abs/2011.12863v1 )

ライセンス: Link先を確認
Francesca Foffano, Teresa Scantamburlo, Atia Cort\'es, and Chiara Bissolo(参考訳) 人工知能(AI)はすでに私たちの日常生活の一部であり、未来の経済や社会の形を定義する上で重要な役割を果たしています。 2018年、欧州委員会はAI戦略を導入し、今後数年で中国や米国などの世界各国と競争できるが、欧州の価値観と基本的権利の尊重に依存している。 その結果、ほとんどの加盟国は欧州の協調計画に取り組むために独自の国家戦略を公表した。 本稿では,欧州諸国が人工知能の分野にどのようにアプローチしているか,その公約とリスクを,その国家的AI戦略のレンズを通して検討する。 特に、ヨーロッパ諸国がAIに投資している状況や、その計画が社会全体の利益にどの程度貢献できるかを検討することを目的とする。 欧州15戦略における投資計画の質的分析の主な成果を報告する。

Artificial intelligence (AI) is already part of our daily lives and is playing a key role in defining the economic and social shape of the future. In 2018, the European Commission introduced its AI strategy able to compete in the next years with world powers such as China and US, but relying on the respect of European values and fundamental rights. As a result, most of the Member States have published their own National Strategy with the aim to work on a coordinated plan for Europe. In this paper, we present an ongoing study on how European countries are approaching the field of Artificial Intelligence, with its promises and risks, through the lens of their national AI strategies. In particular, we aim to investigate how European countries are investing in AI and to what extent the stated plans can contribute to the benefit of the whole society. This paper reports the main findings of a qualitative analysis of the investment plans reported in 15 European National Strategies
翻訳日:2022-09-21 02:46:36 公開日:2020-11-25
# ディープニューラルネットワークにおける完全接続層に対する低レイテンシcmosハードウェアアクセラレーション

Low Latency CMOS Hardware Acceleration for Fully Connected Layers in Deep Neural Networks ( http://arxiv.org/abs/2011.12839v1 )

ライセンス: Link先を確認
Nick Iliev and Amit Ranjan Trivedi(参考訳) ディープニューラルネットワーク(DNN)における完全連結層(FC)層のための新しい低レイテンシCMOSハードウェアアクセラレータを提案する。 FCアクセラレータFC-ACCLは、行列ベクトル乗算のための1288x8または16x16の処理要素(PE)と、128の乗算累積(MAC)ユニットを128の高帯域メモリ(HBM)ユニットに統合し、予め訓練された重量を記憶する。 CMOS ASIC実装のマイクロアーキテクチャの詳細を提示し、AlexNetとVGG 16のDNN用ハードウェアアクセラレータと比較した。 4096-1000 FC8 層のシミュレーション処理遅延を比較すると、FC-ACCL は 48.4 GOPS (100 MHzクロック) を達成することができ、最近の FC8 層加速器では 28.8 GOPS と 150 MHz クロックが出力される。 我々は,カラム・ロー・カラム・スケジュールを1サイクルで保持し,読み出すためのHBMユニットを十分に活用し,対応するMACおよびPEユニットでこれらの重みを処理するための最大並列データパスを実装することで,この大幅な改善を実現した。 重量16x16タイルの128 x 16 PEへのスケールアップでは、圧縮を使用する代替のEIEソリューションと比較して、AlexNetでは60%、VGG16では3%の遅延を削減できる。

We present a novel low latency CMOS hardware accelerator for fully connected (FC) layers in deep neural networks (DNNs). The FC accelerator, FC-ACCL, is based on 128 8x8 or 16x16 processing elements (PEs) for matrix-vector multiplication, and 128 multiply-accumulate (MAC) units integrated with 128 High Bandwidth Memory (HBM) units for storing the pretrained weights. Micro-architectural details for CMOS ASIC implementations are presented and simulated performance is compared to recent hardware accelerators for DNNs for AlexNet and VGG 16. When comparing simulated processing latency for a 4096-1000 FC8 layer, our FC-ACCL is able to achieve 48.4 GOPS (with a 100 MHz clock) which improves on a recent FC8 layer accelerator quoted at 28.8 GOPS with a 150 MHz clock. We have achieved this considerable improvement by fully utilizing the HBM units for storing and reading out column-specific FClayer weights in 1 cycle with a novel colum-row-column schedule, and implementing a maximally parallel datapath for processing these weights with the corresponding MAC and PE units. When up-scaled to 128 16x16 PEs, for 16x16 tiles of weights, the design can reduce latency for the large FC6 layer by 60 % in AlexNet and by 3 % in VGG16 when compared to an alternative EIE solution which uses compression.
翻訳日:2022-09-21 02:46:21 公開日:2020-11-25
# MRIにおける教師なし脳異常検出のための簡易統計的手法は深層学習法と競合する

Simple statistical methods for unsupervised brain anomaly detection on MRI are competitive to deep learning methods ( http://arxiv.org/abs/2011.12735v1 )

ライセンス: Link先を確認
Victor Saase, Holger Wenz, Thomas Ganslandt, Christoph Groden, M\'at\'e E. Maros(参考訳) 磁気共鳴画像(MRI)の統計的分析は、放射線医が見逃される可能性が低い病態を検出するのに役立つ。 深層学習(DL)は、脳異常検出のための複雑な空間データモデリングにおいて有望である。 しかし、DLモデルは、大量の高品質なトレーニングデータを必要とし、設計とトレーニングが困難であり、スキャンプロトコルやハードウェアの微妙な変更に敏感である。 本稿では,voxel-wise (baseline and covariance)モデルや空間パターンを用いた線形投影法などの単純な統計手法により,教師なしの病理診断においてdl等価な(3次元畳み込みオートエンコーダ)性能が得られることを示す。 すべての方法(n=395)を訓練し, 健常例と病理例の頭部mriデータを用いて, (n=44) 比較を行った。 これらの簡単な手法は、小さな病変の検出においてより正確であり、訓練や理解が容易であることを示す。 この方法はAUCおよび平均精度を用いて定量的に比較し,脳萎縮,腫瘍(小転移)および運動人工物を含む臨床症例について質的に評価した。 以上の結果から,dl メソッドは有用であるが,より単純な方法よりも性能が大幅に向上し,利用を正当化できることを示した。 したがって、単純な統計手法はベンチマークのベースラインを提供するべきである。 ソースコードとトレーニングされたモデルはgithubで入手できる(https://github.com/vsaase/simplebad)。

Statistical analysis of magnetic resonance imaging (MRI) can help radiologists to detect pathologies that are otherwise likely to be missed. Deep learning (DL) has shown promise in modeling complex spatial data for brain anomaly detection. However, DL models have major deficiencies: they need large amounts of high-quality training data, are difficult to design and train and are sensitive to subtle changes in scanning protocols and hardware. Here, we show that also simple statistical methods such as voxel-wise (baseline and covariance) models and a linear projection method using spatial patterns can achieve DL-equivalent (3D convolutional autoencoder) performance in unsupervised pathology detection. All methods were trained (N=395) and compared (N=44) on a novel, expert-curated multiparametric (8 sequences) head MRI dataset of healthy and pathological cases, respectively. We show that these simple methods can be more accurate in detecting small lesions and are considerably easier to train and comprehend. The methods were quantitatively compared using AUC and average precision and evaluated qualitatively on clinical use cases comprising brain atrophy, tumors (small metastases) and movement artefacts. Our results demonstrate that while DL methods may be useful, they should show a sufficiently large performance improvement over simpler methods to justify their usage. Thus, simple statistical methods should provide the baseline for benchmarks. Source code and trained models are available on GitHub (https://github.com/vsaase/simpleBAD).
翻訳日:2022-09-21 02:40:07 公開日:2020-11-25
# 逆行訓練と二重バッチ正規化によるニューラルネットワークの診断性能と臨床使用性の向上

Advancing diagnostic performance and clinical usability of neural networks via adversarial training and dual batch normalization ( http://arxiv.org/abs/2011.13011v1 )

ライセンス: Link先を確認
Tianyu Han, Sven Nebelung, Federico Pedersoli, Markus Zimmermann, Maximilian Schulze-Hagen, Michael Ho, Christoph Haarburger, Fabian Kiessling, Christiane Kuhl, Volkmar Schulz, Daniel Truhn(参考訳) 臨床における診断支援システムの実現には,機械学習モデルの意思決定プロセスの解明が不可欠である。 そこで本研究では, 敵が訓練したモデルが, 通常のモデルと比較して, 病理検出の有用性を著しく向上させることを実証する。 6名の経験豊富な放射線科医に,x線,ct,磁気共鳴画像のデータセットにおけるサリエンシーマップの解釈可能性を評価させた。 両バッチ正規化の適用によりさらに改善が期待できる敵モデルに対して,重要な改良が得られた。 逆向きに訓練されたモデルに対する以前の研究とは対照的に、そのようなモデルの精度は、十分に大きなデータセットと二重バッチノルムトレーニングを使用する場合の標準モデルに等しいことがわかった。 転移性を確保するため,22,433個のx線を外部テストセットで検証した。 これらの結果から, 臨床解釈性に優れた技術結果を達成するためには, 実画像と実画像の異なる経路が必要であることが示唆された。

Unmasking the decision-making process of machine learning models is essential for implementing diagnostic support systems in clinical practice. Here, we demonstrate that adversarially trained models can significantly enhance the usability of pathology detection as compared to their standard counterparts. We let six experienced radiologists rate the interpretability of saliency maps in datasets of X-rays, computed tomography, and magnetic resonance imaging scans. Significant improvements were found for our adversarial models, which could be further improved by the application of dual batch normalization. Contrary to previous research on adversarially trained models, we found that the accuracy of such models was equal to standard models when sufficiently large datasets and dual batch norm training were used. To ensure transferability, we additionally validated our results on an external test set of 22,433 X-rays. These findings elucidate that different paths for adversarial and real images are needed during training to achieve state of the art results with superior clinical interpretability.
翻訳日:2022-09-21 02:38:39 公開日:2020-11-25
# 胸部X線画像を用いたCOVID-19検出における画像強調法の効果の検討

Exploring the Effect of Image Enhancement Techniques on COVID-19 Detection using Chest X-rays Images ( http://arxiv.org/abs/2012.02238v1 )

ライセンス: Link先を確認
Tawsifur Rahman, Amith Khandakar, Yazan Qiblawey, Anas Tahir, Serkan Kiranyaz, Saad Bin Abul Kashem, Mohammad Tariqul Islam, Somaya Al Maadeed, Susu M Zughaier, Muhammad Salman Khan, Muhammad E. H. Chowdhury(参考訳) 新型コロナウイルス感染症(COVID-19)の信頼性・迅速検出にコンピュータで支援する診断は、新型コロナウイルスの感染拡大防止や医療インフラの負担軽減に欠かせないものとなっている。 胸部x線(cxr)イメージングは安価で簡単にアクセスでき、高速でポータブルであるため、他の撮像技術よりもいくつかの利点がある。 本稿では,様々な画像強調技術の効果について検討し,それぞれが検出性能に与える影響について述べる。 我々はCOVQU-20と呼ばれる最大規模のX線データセットをコンパイルした。 私たちの知る限りでは、これは最大の新型コロナウイルス陽性データベースです。 グラウンドガラスの不透明度は、COVID-19肺炎患者で報告される一般的な症状であり、3616のCOVID-19、6012の非新型コロナウイルス性肺不透明度、8851の正常な胸部X線画像を用いてこのデータセットを作成した。 画像強調技術として, ヒストグラム等化法, コントラスト適応ヒストグラム等化法, 画像補完法, ガンマ補正法, バランスコントラスト等化法の5種類を用いた。 本研究では,6種類の畳み込みニューラルネットワーク(CNN)について検討した。 ガンマ補正技術は、標準および分枝肺cxr画像からのcovid-19検出における他の強化技術よりも優れている。 CXR画像のガンマ補正による新型コロナウイルス検出における精度、精度、感度、f1スコア、特異度はそれぞれ96.29%、96.28%、96.29%、96.28%、96.27%であった。 精度,精度,感度,F1スコア,特異度はそれぞれ95.11 %,94.55 %,94.56 %,94.53 %,95.59 %であった。 非常に高い、かつ同等のパフォーマンスを持つ提案手法は、胸部X線画像を用いた高速で堅牢なCOVID-19検出を促進する。

The use of computer-aided diagnosis in the reliable and fast detection of coronavirus disease (COVID-19) has become a necessity to prevent the spread of the virus during the pandemic to ease the burden on the medical infrastructure. Chest X-ray (CXR) imaging has several advantages over other imaging techniques as it is cheap, easily accessible, fast and portable. This paper explores the effect of various popular image enhancement techniques and states the effect of each of them on the detection performance. We have compiled the largest X-ray dataset called COVQU-20, consisting of 18,479 normal, non-COVID lung opacity and COVID-19 CXR images. To the best of our knowledge, this is the largest public COVID positive database. Ground glass opacity is the common symptom reported in COVID-19 pneumonia patients and so a mixture of 3616 COVID-19, 6012 non-COVID lung opacity, and 8851 normal chest X-ray images were used to create this dataset. Five different image enhancement techniques: histogram equalization, contrast limited adaptive histogram equalization, image complement, gamma correction, and Balance Contrast Enhancement Technique were used to improve COVID-19 detection accuracy. Six different Convolutional Neural Networks (CNNs) were investigated in this study. Gamma correction technique outperforms other enhancement techniques in detecting COVID-19 from standard and segmented lung CXR images. The accuracy, precision, sensitivity, f1-score, and specificity in the detection of COVID-19 with gamma correction on CXR images were 96.29%, 96.28%, 96.29%, 96.28% and 96.27% respectively. The accuracy, precision, sensitivity, F1-score, and specificity were 95.11 %, 94.55 %, 94.56 %, 94.53 % and 95.59 % respectively for segmented lung images. The proposed approach with very high and comparable performance will boost the fast and robust COVID-19 detection using chest X-ray images.
翻訳日:2022-09-21 02:37:55 公開日:2020-11-25
# 拡張のための学習:情報参照会話のための疑似関係フィードバック選択の強化

Learning to Expand: Reinforced Pseudo-relevance Feedback Selection for Information-seeking Conversations ( http://arxiv.org/abs/2011.12771v1 )

ライセンス: Link先を確認
Haojie Pan, Cen Chen, Minghui Qiu, Liu Yang, Feng Ji, Jun Huang, Haiqing Chen(参考訳) 情報参照会話のためのインテリジェントなパーソナルアシスタントシステムは、現実のアプリケーション、特にeコマース企業で人気が高まっている。 このような会話システムにおける研究の発展に伴い、擬似関連フィードバック(PRF)は、外部文書からの関連信号を組み込むことの有効性を実証した。 しかし、既存の研究はヒューリスティックなルールに基づいているか、重い手動ラベリングを必要とする。 本研究では,PRF選択を学習課題として扱うとともに,人間のアノテーションを使わずにエンドツーエンドで学習できる強化学習手法を提案する。 具体的には、応答候補を強化するために有用なPRF用語を抽出する強化セレクタと、PRF強化応答をランク付けするためのBERTベースの応答ランクラを提案する。 ランク付け器の性能は、セレクタが有用なPRF項を抽出し、タスク性能を高めるための報酬として機能する。 標準ベンチマークと商用データセットの両方の広範な実験は、他の軟質または硬質選択法と比較して、強化prf項セレクタが優れていることを示している。 定性的なケーススタディと定量的解析はともに,反応候補を拡大するために有意義なprf条件を選択できるだけでなく,様々な評価指標のベースライン法と比較した最良の結果が得られることを示した。 また、既存のオンラインランキングシステムよりも大幅に改善された電子商取引企業におけるオンライン生産に本手法を投入した。

Intelligent personal assistant systems for information-seeking conversations are increasingly popular in real-world applications, especially for e-commerce companies. With the development of research in such conversation systems, the pseudo-relevance feedback (PRF) has demonstrated its effectiveness in incorporating relevance signals from external documents. However, the existing studies are either based on heuristic rules or require heavy manual labeling. In this work, we treat the PRF selection as a learning task and proposed a reinforced learning based method that can be trained in an end-to-end manner without any human annotations. More specifically, we proposed a reinforced selector to extract useful PRF terms to enhance response candidates and a BERT based response ranker to rank the PRF-enhanced responses. The performance of the ranker serves as rewards to guide the selector to extract useful PRF terms, and thus boost the task performance. Extensive experiments on both standard benchmark and commercial datasets show the superiority of our reinforced PRF term selector compared with other potential soft or hard selection methods. Both qualitative case studies and quantitative analysis show that our model can not only select meaningful PRF terms to expand response candidates but also achieve the best results compared with all the baseline methods on a variety of evaluation metrics. We have also deployed our method on online production in an e-commerce company, which shows a significant improvement over the existing online ranking system.
翻訳日:2022-09-21 02:36:32 公開日:2020-11-25
# プライバシー保護に向けた連合学習の進展--連合学習から分割学習へ

Advancements of federated learning towards privacy preservation: from federated learning to split learning ( http://arxiv.org/abs/2011.14818v1 )

ライセンス: Link先を確認
Chandra Thapa and M.A.P. Chamikara and Seyit A. Camtepe(参考訳) 分散コラボレーティブ機械学習(DCML)パラダイムにおいて、フェデレーテッド・ラーニング(FL)は、健康、金融、業界 4.0 やスマート車といった最新のイノベーションの応用により、最近多くの注目を集めた。 FLはプライバシ・バイ・デザインを提供する。 携帯電話など、複数の分散クライアント(200から数百万まで)上で、生データを他の参加者と共有することなく、機械学習モデルを協調的にトレーニングする。 実際のシナリオでは、すべてのクライアントは十分なコンピューティングリソース(例えば、モノのインターネット)を持っておらず、機械学習モデルは数百万のパラメータを持ち、トレーニング/テストが主要な関心事(例えばライバル)である間、サーバとクライアントの間のプライバシを持っている。 この場合、FLは不十分であり、分割学習(SL)が導入される。 SLは、モデルを複数の部分に分割し、クライアントとサーバに分散し、各モデルのパーツをトレーニング/テストすることで、完全なモデルのトレーニング/テストを実現します。 slでは、参加者はデータとモデル部分の両方を他の当事者と共有せず、通常、より小さなネットワーク部分はデータが存在しているクライアントに割り当てられる。 近年、FLとSLのハイブリッドは、FL(より速いトレーニング/テスト時間)とSL(モデル分割とトレーニング)の両方の利点を高めるために、分割学習と呼ばれる。 FLからSLへの発展とSLの重要性を考慮すると、この章はSLとその変種を広範囲にカバーするように設計されている。 カバー範囲には、基本、既存の発見、差分プライバシー、オープン問題、コード実装などのプライバシー対策との統合が含まれる。

In the distributed collaborative machine learning (DCML) paradigm, federated learning (FL) recently attracted much attention due to its applications in health, finance, and the latest innovations such as industry 4.0 and smart vehicles. FL provides privacy-by-design. It trains a machine learning model collaboratively over several distributed clients (ranging from two to millions) such as mobile phones, without sharing their raw data with any other participant. In practical scenarios, all clients do not have sufficient computing resources (e.g., Internet of Things), the machine learning model has millions of parameters, and its privacy between the server and the clients while training/testing is a prime concern (e.g., rival parties). In this regard, FL is not sufficient, so split learning (SL) is introduced. SL is reliable in these scenarios as it splits a model into multiple portions, distributes them among clients and server, and trains/tests their respective model portions to accomplish the full model training/testing. In SL, the participants do not share both data and their model portions to any other parties, and usually, a smaller network portion is assigned to the clients where data resides. Recently, a hybrid of FL and SL, called splitfed learning, is introduced to elevate the benefits of both FL (faster training/testing time) and SL (model split and training). Following the developments from FL to SL, and considering the importance of SL, this chapter is designed to provide extensive coverage in SL and its variants. The coverage includes fundamentals, existing findings, integration with privacy measures such as differential privacy, open problems, and code implementation.
翻訳日:2022-09-21 02:30:25 公開日:2020-11-25
# 等尺-対凸設定における表面距離のミニマックス推定とミニマックス多様体学習

Minimax Estimation of Distances on a Surface and Minimax Manifold Learning in the Isometric-to-Convex Setting ( http://arxiv.org/abs/2011.12478v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Phong Alain Chau(参考訳) まず、滑らかな表面上の固有距離を推定する問題を考察する。 表面の再構成により,よりシャープな推定値が得られることを示すとともに,その目的のために有界デラウネー錯体の利用について議論する。 さらに,結果の近似率は情報理論(minimax)的な意味で最適であることを示した。 次に、多様体学習に目を向け、代わりに再構成面上で距離が計算されるイソマップの変種が、等尺多様体の埋め込み問題に対して極小最適であると主張する。

We start by considering the problem of estimating intrinsic distances on a smooth surface. We show that sharper estimates can be obtained via a reconstruction of the surface, and discuss the use of the tangential Delaunay complex for that purpose. We further show that the resulting approximation rate is in fact optimal in an information-theoretic (minimax) sense. We then turn to manifold learning and argue that a variant of Isomap where the distances are instead computed on a reconstructed surface is minimax optimal for the problem of isometric manifold embedding.
翻訳日:2022-09-21 02:29:30 公開日:2020-11-25
# 関数型データを用いた近代的多重インプテーション

Modern Multiple Imputation with Functional Data ( http://arxiv.org/abs/2011.12509v1 )

ライセンス: Link先を確認
Aniruddha Rajendra Rao, Matthew Reimherr(参考訳) 本研究は,関数モデルを疎結合かつ不規則にサンプリングした関数データに適合させる問題を考える。 これは、より複雑な非線形モデルの適合において大きな課題に直面している最先端の手法の限界を克服する。 現在、これらのモデルの多くは、曲線ごとの観測点数をサンプルサイズで十分に増加させない限り、一貫して推定できないが、より現代的な多重インプテーション法を用いた修正アプローチが一般により良い推定を得られることを数値的に示している。 また,イット・ミスフォレスト (it missforest) とイット・ローカル・リニア・フォレスト (it local linear forest) を結合した新しいインプテーション手法を提案し,その性能をイット・ペース (it pace) および他の多変量多重インプテーション法と比較した。 この研究は、ペンシルバニア州パスから健康への電子健康記録(EHR)が大量のデータを収集し、高度に可変なサンプリングを可能にする喫煙停止に関する縦断的研究によって動機付けられている。 このアプローチを説明するために, 逆流と拡張期血圧の関係を考察する。 また,提案手法を検証するために,様々なレベルの疎性を持つシミュレーション手法についても検討する。

This work considers the problem of fitting functional models with sparsely and irregularly sampled functional data. It overcomes the limitations of the state-of-the-art methods, which face major challenges in the fitting of more complex non-linear models. Currently, many of these models cannot be consistently estimated unless the number of observed points per curve grows sufficiently quickly with the sample size, whereas, we show numerically that a modified approach with more modern multiple imputation methods can produce better estimates in general. We also propose a new imputation approach that combines the ideas of {\it MissForest} with {\it Local Linear Forest} and compare their performance with {\it PACE} and several other multivariate multiple imputation methods. This work is motivated by a longitudinal study on smoking cessation, in which the Electronic Health Records (EHR) from Penn State PaTH to Health allow for the collection of a great deal of data, with highly variable sampling. To illustrate our approach, we explore the relation between relapse and diastolic blood pressure. We also consider a variety of simulation schemes with varying levels of sparsity to validate our methods.
翻訳日:2022-09-21 02:29:19 公開日:2020-11-25
# 対称性を考慮した3次元分子設計

Symmetry-Aware Actor-Critic for 3D Molecular Design ( http://arxiv.org/abs/2011.12747v1 )

ライセンス: Link先を確認
Gregor N. C. Simm, Robert Pinsler, G\'abor Cs\'anyi and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 深部強化学習(RL)を用いた分子設計の自動化は,新規物質の探索を大幅に加速させる可能性がある。 グラフ表現を設計分子に活用する最近の進歩にもかかわらず、そのような手法は3次元(3D)情報の欠如によって根本的に制限されている。 これを踏まえて,従来の手法では実現不可能な分子構造を生成できる3次元分子設計のための新たなアクタ-クリティックアーキテクチャを提案する。 これは、球面調和級数展開に基づく回転共変状態-作用表現を通じて設計プロセスの対称性を活用することで達成される。 いくつかの3次元分子設計タスクに対するアプローチの利点を実証し、そのような対称性で構築することで、生成分子の一般化と品質が大幅に向上することを示した。

Automating molecular design using deep reinforcement learning (RL) has the potential to greatly accelerate the search for novel materials. Despite recent progress on leveraging graph representations to design molecules, such methods are fundamentally limited by the lack of three-dimensional (3D) information. In light of this, we propose a novel actor-critic architecture for 3D molecular design that can generate molecular structures unattainable with previous approaches. This is achieved by exploiting the symmetries of the design process through a rotationally covariant state-action representation based on a spherical harmonics series expansion. We demonstrate the benefits of our approach on several 3D molecular design tasks, where we find that building in such symmetries significantly improves generalization and the quality of generated molecules.
翻訳日:2022-09-21 02:28:54 公開日:2020-11-25
# 網膜血管セグメンテーションにおけるエンコーダデコーダネットワークの有効性

The Unreasonable Effectiveness of Encoder-Decoder Networks for Retinal Vessel Segmentation ( http://arxiv.org/abs/2011.12643v1 )

ライセンス: Link先を確認
Bj\"orn Browatzki, J\"orn-Philipp Lies, Christian Wallraven(参考訳) 本稿では,複数の画像スケールにおける大規模パッチの抽出に依存する網膜画像における血管分割のためのエンコーダ・デコーダフレームワークを提案する。 3つの基底画像データセットの実験により、このアプローチが最先端の成果を達成し、0.8m未満のパラメータ数を持つ単純で効率的な完全畳み込みネットワークで実装できることが示されている。 さらに、このフレームワークは、VLightと呼ばれ、特定のトレーニングイメージへの過度な適合を回避し、異なるデータセットにまたがって適切に一般化し、堅牢性、正確性、高解像度のファウンダス画像に対する低い推論時間を必要とする現実世界のアプリケーションに非常に適していることを示す。

We propose an encoder-decoder framework for the segmentation of blood vessels in retinal images that relies on the extraction of large-scale patches at multiple image-scales during training. Experiments on three fundus image datasets demonstrate that this approach achieves state-of-the-art results and can be implemented using a simple and efficient fully-convolutional network with a parameter count of less than 0.8M. Furthermore, we show that this framework - called VLight - avoids overfitting to specific training images and generalizes well across different datasets, which makes it highly suitable for real-world applications where robustness, accuracy as well as low inference time on high-resolution fundus images is required.
翻訳日:2022-09-21 02:27:54 公開日:2020-11-25
# 3次元再構成のための注意意識型コストボリュームピラミッドベースマルチビューステレオネットワーク

Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for 3D Reconstruction ( http://arxiv.org/abs/2011.12722v1 )

ライセンス: Link先を確認
Anzhu Yu, Wenyue Guo, Bing Liu, Xin Chen, Xin Wang, Xuefeng Cao, Bingchuan Jiang(参考訳) マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオネットワークを提案する。 従来の学習に基づく再構成手法はかなりうまく行ったが、そのほとんどは平面の深度仮説を固定した平面スイープ体積を用いて固定解像度で深度マップを推定しており、これは所望の精度で高解像度の深度マップを作成できない。 本稿では,高分解能深度を実現するための粗粒度推定手法を提案する。 この戦略は粗いレベルでの深度マップを推定する一方、より細かいレベルでの深度マップは、ピクセルワイドの深度残差を持つ前のレベルからのアップサンプリングされた深度マップとみなす。 そこで,我々は,事前情報による深度探索範囲を狭め,画素単位の深度残差から新たなコストボリュームを構築し,深度マップの改良を行う。 そして、全てのパラメータが異なるレベル間で共有されるので、最終深度マップを反復的に達成することができる。 各レベルにおいて、奥行き推定タスクの長距離依存性をキャプチャする特徴抽出ブロックに自己注意層を導入し、従来の作業で用いた分散法の代わりに類似度測定を用いてコストボリュームを生成する。 DTUベンチマークデータセットと最近リリースされたBlendedMVSデータセットの両方で実験が行われた。 その結果,我々のモデルは最先端技術(SOTA)の手法よりも優れていることがわかった。 このプロジェクトのコードベースはhttps://github.com/ArthasMil/AACVP-MVSNetにある。

We present an efficient multi-view stereo (MVS) network for 3D reconstruction from multiview images. While previous learning based reconstruction approaches performed quite well, most of them estimate depth maps at a fixed resolution using plane sweep volumes with a fixed depth hypothesis at each plane, which requires densely sampled planes for desired accuracy and therefore is difficult to achieve high resolution depth maps. In this paper we introduce a coarseto-fine depth inference strategy to achieve high resolution depth. This strategy estimates the depth map at coarsest level, while the depth maps at finer levels are considered as the upsampled depth map from previous level with pixel-wise depth residual. Thus, we narrow the depth searching range with priori information from previous level and construct new cost volumes from the pixel-wise depth residual to perform depth map refinement. Then the final depth map could be achieved iteratively since all the parameters are shared between different levels. At each level, the self-attention layer is introduced to the feature extraction block for capturing the long range dependencies for depth inference task, and the cost volume is generated using similarity measurement instead of the variance based methods used in previous work. Experiments were conducted on both the DTU benchmark dataset and recently released BlendedMVS dataset. The results demonstrated that our model could outperform most state-of-the-arts (SOTA) methods. The codebase of this project is at https://github.com/ArthasMil/AACVP-MVSNet.
翻訳日:2022-09-21 02:27:41 公開日:2020-11-25
# a.i.-based gleason grading による前立腺癌特異的死亡予測

Predicting Prostate Cancer-Specific Mortality with A.I.-based Gleason Grading ( http://arxiv.org/abs/2012.05197v1 )

ライセンス: Link先を確認
Ellery Wulczyn, Kunal Nagpal, Matthew Symonds, Melissa Moran, Markus Plass, Robert Reihs, Farah Nader, Fraser Tan, Yuannan Cai, Trissia Brown, Isabelle Flament-Auvigne, Mahul B. Amin, Martin C. Stumpe, Heimo Muller, Peter Regitnig, Andreas Holzinger, Greg S. Corrado, Lily H. Peng, Po-Hsuan Cameron Chen, David F. Steiner, Kurt Zatloukal, Yun Liu, Craig H. Mermel(参考訳) 前立腺癌のグリーソン・グレーティングは重要な予後因子であるが、特に非専門医の病理学者の間では再現性に乏しい。 人工知能(a.i.)ツールは、専門家の病理学者と同等にグリーソンを格付けすることを示したが、a.i.格付けがより良い予後に繋がるかどうかは、まだ疑問である。 そこで本研究では,a.i.ベースのグリアソン・グレーティングにより前立腺癌特異的死亡率を予測するシステムを開発し,その後5~25年間の経過(中間値13。 a.i.のリスクスコアは前立腺癌特異的死亡率0.84(95%ci 0.80-0.87)のc-インデックスを生み出した。 これらのリスクスコアを病理学グレードグループ (gg) に類似するリスクグループに分類すると、a.i. は 0.82 (95%ci 0.78-0.85) のc-インデックスを持つ。 元の病理所見(n=1,517)におけるGG症例のサブセットでは,A.I.のC指標はそれぞれ0.87と0.85であり,GGでは0.79(95%CI 0.71-0.86)であった。 これらはそれぞれ 0.08 (95%CI 0.01-0.15) と 0.07 (95%CI 0.00-0.14) の改善を示す。 以上の結果から,A.I.を基盤としたGleasonグレーディングは,効果的なリスク階層化と疾患管理の改善のためのさらなる評価の保証につながる可能性が示唆された。

Gleason grading of prostate cancer is an important prognostic factor but suffers from poor reproducibility, particularly among non-subspecialist pathologists. Although artificial intelligence (A.I.) tools have demonstrated Gleason grading on-par with expert pathologists, it remains an open question whether A.I. grading translates to better prognostication. In this study, we developed a system to predict prostate-cancer specific mortality via A.I.-based Gleason grading and subsequently evaluated its ability to risk-stratify patients on an independent retrospective cohort of 2,807 prostatectomy cases from a single European center with 5-25 years of follow-up (median: 13, interquartile range 9-17). The A.I.'s risk scores produced a C-index of 0.84 (95%CI 0.80-0.87) for prostate cancer-specific mortality. Upon discretizing these risk scores into risk groups analogous to pathologist Grade Groups (GG), the A.I. had a C-index of 0.82 (95%CI 0.78-0.85). On the subset of cases with a GG in the original pathology report (n=1,517), the A.I.'s C-indices were 0.87 and 0.85 for continuous and discrete grading, respectively, compared to 0.79 (95%CI 0.71-0.86) for GG obtained from the reports. These represent improvements of 0.08 (95%CI 0.01-0.15) and 0.07 (95%CI 0.00-0.14) respectively. Our results suggest that A.I.-based Gleason grading can lead to effective risk-stratification and warrants further evaluation for improving disease management.
翻訳日:2022-09-21 02:21:36 公開日:2020-11-25
# 視覚的感情適応のための感情セマンティックス保存と特徴適応型サイクロン

Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual Emotion Adaptation ( http://arxiv.org/abs/2011.12470v1 )

ライセンス: Link先を確認
Sicheng Zhao, Xuanbai Chen, Xiangyu Yue, Chuang Lin, Pengfei Xu, Ravi Krishna, Jufeng Yang, Guiguang Ding, Alberto L. Sangiovanni-Vincentelli, Kurt Keutzer(参考訳) 大規模ラベル付きトレーニングデータのおかげで、ディープニューラルネットワーク(DNN)は多くのビジョンやマルチメディアタスクで顕著に成功している。 しかし、ドメインシフトが存在するため、よく訓練されたdnnの学習知識はラベルが少ない新しいドメインやデータセットにうまく一般化することはできない。 unsupervised domain adaptation (uda)は、あるラベル付きソースドメインでトレーニングされたモデルを別のラベル付きターゲットドメインに転送する問題を研究している。 本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。 具体的には、cycleemotiongan++と呼ばれる、新しいエンドツーエンドのサイクル一貫性のある敵対モデルを設計する。 まず、複数スケールの構造化サイクルコンシスタンス損失によるcycleganの改善により、画素レベルでソースドメインとターゲットドメインを調整可能な適応ドメインを生成する。 画像翻訳の際には,画像の感情ラベルを保存するための動的感情的セマンティック一貫性損失を提案する。 次に、適合ドメインと対象ドメインを機能レベルでアライメントした、適合ドメイン上で転送可能なタスク分類器をトレーニングする。 分布学習のためのFlickr-LDL と Twitter-LDL のデータセットと感情分類のための ArtPhoto & FI のデータセットについて広範な UDA 実験を行った。 提案したCycleEmotionGAN++は,最先端のUDAアプローチと比較して,大幅な改善を実現している。

Thanks to large-scale labeled training data, deep neural networks (DNNs) have obtained remarkable success in many vision and multimedia tasks. However, because of the presence of domain shift, the learned knowledge of the well-trained DNNs cannot be well generalized to new domains or datasets that have few labels. Unsupervised domain adaptation (UDA) studies the problem of transferring models trained on one labeled source domain to another unlabeled target domain. In this paper, we focus on UDA in visual emotion analysis for both emotion distribution learning and dominant emotion classification. Specifically, we design a novel end-to-end cycle-consistent adversarial model, termed CycleEmotionGAN++. First, we generate an adapted domain to align the source and target domains on the pixel-level by improving CycleGAN with a multi-scale structured cycle-consistency loss. During the image translation, we propose a dynamic emotional semantic consistency loss to preserve the emotion labels of the source images. Second, we train a transferable task classifier on the adapted domain with feature-level alignment between the adapted and target domains. We conduct extensive UDA experiments on the Flickr-LDL & Twitter-LDL datasets for distribution learning and ArtPhoto & FI datasets for emotion classification. The results demonstrate the significant improvements yielded by the proposed CycleEmotionGAN++ as compared to state-of-the-art UDA approaches.
翻訳日:2022-09-21 02:21:05 公開日:2020-11-25
# 人間の反応時間モデルとしての時間予測

Anytime Prediction as a Model of Human Reaction Time ( http://arxiv.org/abs/2011.12859v1 )

ライセンス: Link先を確認
Omkar Kumbhar, Elena Sizikova, Najib Majaj, Denis G. Pelli(参考訳) 今日のニューラルネットワークは、人間と同様に物体を認識することが多く、それゆえ人間の認識プロセスのモデルとして機能する可能性がある。 しかし、そのようなネットワークの多くは、一定の計算努力の後に答えを提供するが、人間の反応時間は、例えば、刺激とタスクの性質によって、0.2秒から10秒まで変化する。 難易度がヒトの反応時間に及ぼす影響をモデル化するために,早期抽出型分類器を用いて任意の時間予測を行う分類ネットワークを検討した。 付加ガウス雑音におけるCIFAR-10画像の分類における人間とMSDNetの精度を比較すると、ネットワーク等価入力ノイズSDは人間よりも15倍高く、ネットワークの効率はわずか0.6\%であることがわかった。 適切なノイズが2人の観測者(人間とネットワーク)を同じ精度範囲に導く場合、それらは持続時間やフラップ、すなわち非常に類似した速度-精度トレードオフに依存する。 任意の時間分類(すなわち早期終了)は、認識タスクにおける人間の反応時間の有望なモデルであると結論づける。

Neural networks today often recognize objects as well as people do, and thus might serve as models of the human recognition process. However, most such networks provide their answer after a fixed computational effort, whereas human reaction time varies, e.g. from 0.2 to 10 s, depending on the properties of stimulus and task. To model the effect of difficulty on human reaction time, we considered a classification network that uses early-exit classifiers to make anytime predictions. Comparing human and MSDNet accuracy in classifying CIFAR-10 images in added Gaussian noise, we find that the network equivalent input noise SD is 15 times higher than human, and that human efficiency is only 0.6\% that of the network. When appropriate amounts of noise are present to bring the two observers (human and network) into the same accuracy range, they show very similar dependence on duration or FLOPS, i.e. very similar speed-accuracy tradeoff. We conclude that Anytime classification (i.e. early exits) is a promising model for human reaction time in recognition tasks.
翻訳日:2022-09-21 02:20:46 公開日:2020-11-25
# DRACO:弱めに監視された高密度再構築と物体の正準化

DRACO: Weakly Supervised Dense Reconstruction And Canonicalization of Objects ( http://arxiv.org/abs/2011.12912v1 )

ライセンス: Link先を確認
Rahul Sajnani, AadilMehdi Sanchawala, Krishna Murthy Jatavallabhula, Srinath Sridhar, K. Madhava Krishna(参考訳) DRACO(Dense Reconstruction and Canonicalization of Object shape of one or more RGB image)を提案する。 座標空間における3次元物体の形状を、スケール、回転、翻訳パラメータとして推定する正準形状再構成は、多数のロボット応用を約束する新しいパラダイムである。 従来のアプローチでは、密集した密集した3d監督に頼るか、あるいはまばらな正準表現しか生成せず、現実世界の適用性を制限するかのどちらかだった。 DRACOは、列車時のカメラポーズとセマンティックキーポイントの形で、弱い監督のみを使用して、密集した正準化を行う。 推論中、DRACOは、オブジェクトの1つ以上のRGB画像のみを使用して、標準座標空間内の高密度なオブジェクト中心の深度マップを予測する。 標準形状の復元とポーズ推定に関する大規模な実験は、DRACOが完全に監督された手法よりも競争力があるか優れていることを示している。

We present DRACO, a method for Dense Reconstruction And Canonicalization of Object shape from one or more RGB images. Canonical shape reconstruction, estimating 3D object shape in a coordinate space canonicalized for scale, rotation, and translation parameters, is an emerging paradigm that holds promise for a multitude of robotic applications. Prior approaches either rely on painstakingly gathered dense 3D supervision, or produce only sparse canonical representations, limiting real-world applicability. DRACO performs dense canonicalization using only weak supervision in the form of camera poses and semantic keypoints at train time. During inference, DRACO predicts dense object-centric depth maps in a canonical coordinate-space, solely using one or more RGB images of an object. Extensive experiments on canonical shape reconstruction and pose estimation show that DRACO is competitive or superior to fully-supervised methods.
翻訳日:2022-09-21 02:20:10 公開日:2020-11-25
# aw_nas: モジュール化され拡張可能なnasフレームワーク

aw_nas: A Modularized and Extensible NAS framework ( http://arxiv.org/abs/2012.10388v1 )

ライセンス: Link先を確認
Xuefei Ning, Changcheng Tang, Wenshuo Li, Songyi Yang, Tianchen Zhao, Niansong Zhang, Tianyi Lu, Shuang Liang, Huazhong Yang, Yu Wang(参考訳) Neural Architecture Search (NAS)は、ニューラルネットワークアーキテクチャを自動で発見する能力のために、広く注目を集めている。 aw_nasは様々なnasアルゴリズムをモジュール化したオープンソースのpythonフレームワークである。 現在、aw_nasは様々なタイプのnasアルゴリズムの結果を再現するために使うことができる。 また、モジュール化設計のため、awnas(分類、検出、テキストモデリング、フォールトトレランス、逆ロバスト性、ハードウェア効率など)を使った様々なアプリケーションに対して、様々なnasアルゴリズムを単に試すことができる。 コードとドキュメントはhttps://github.com/walkerning/aw_nasで入手できる。

Neural Architecture Search (NAS) has received extensive attention due to its capability to discover neural network architectures in an automated manner. aw_nas is an open-source Python framework implementing various NAS algorithms in a modularized manner. Currently, aw_nas can be used to reproduce the results of mainstream NAS algorithms of various types. Also, due to the modularized design, one can simply experiment with different NAS algorithms for various applications with awnas (e.g., classification, detection, text modeling, fault tolerance, adversarial robustness, hardware efficiency, and etc.). Codes and documentation are available at https://github.com/walkerning/aw_nas.
翻訳日:2022-09-21 02:19:52 公開日:2020-11-25
# CellSegmenter:モジュラ画像の教師なし表現学習とインスタンスセグメンテーション

CellSegmenter: unsupervised representation learning and instance segmentation of modular images ( http://arxiv.org/abs/2011.12482v1 )

ライセンス: Link先を確認
Luca D'Alessio and Mehrtash Babadi(参考訳) 我々は,教師なし表現学習とインスタンスセグメンテーションタスクのための構造的深層生成モデルであるcellsegmenterとamortized inference frameworkを提案する。 提案した推論アルゴリズムは、再帰的な機構を伴わずに畳み込み並列化され、遠方の非閉塞物体を独立に処理しながら物体の閉塞を解消することができる。 これは、任意の数のインスタンスに外挿を許可しながら、非常に高速なトレーニング時間をもたらす。 さらに,少ない局所化オブジェクトと低複雑度背景を持つシーンの再構成を促進する透明な後進正規化戦略についても紹介する。 提案手法を,構造化背景を持つ難解な合成マルチMNISTデータセット上で評価し,数百の学習エポックでほぼ完全な精度を実現する。 最後に、細胞核イメージングデータセットで得られたセグメンテーション結果を示し、多数のインスタンスを含む現実的なユースケースを処理しながら、高品質セグメンテーションを提供する方法の能力を示す。

We introduce CellSegmenter, a structured deep generative model and an amortized inference framework for unsupervised representation learning and instance segmentation tasks. The proposed inference algorithm is convolutional and parallelized, without any recurrent mechanisms, and is able to resolve object-object occlusion while simultaneously treating distant non-occluding objects independently. This leads to extremely fast training times while allowing extrapolation to arbitrary number of instances. We further introduce a transparent posterior regularization strategy that encourages scene reconstructions with fewest localized objects and a low-complexity background. We evaluate our method on a challenging synthetic multi-MNIST dataset with a structured background and achieve nearly perfect accuracy with only a few hundred training epochs. Finally, we show segmentation results obtained for a cell nuclei imaging dataset, demonstrating the ability of our method to provide high-quality segmentations while also handling realistic use cases involving large number of instances.
翻訳日:2022-09-21 02:12:20 公開日:2020-11-25
# フレーム予測のためのU-Netスタイルスキップ接続を用いた時間オートエンコーダ

Temporal Autoencoder with U-Net Style Skip-Connections for Frame Prediction ( http://arxiv.org/abs/2011.12661v1 )

ライセンス: Link先を確認
Jay Santokhi, Pankaj Daga, Joned Sarwar, Anna Jordan, Emil Hewage(参考訳) 都市全体の移動行動を予測する持続可能な新しいソリューションを見つけることは、都市が複雑化し人口が増加することを考えると、常に増加する問題である。 本稿では,畳み込み型lstmを用いてu-netスタイルのスキップ接続を用いた時間的自動エンコーダを作成し,リカレントと従来のコンピュータビジョン技術とを組み合わせることにより,与えられた都市の位相的詳細を損なうことなく,異なるスケールで時空間的依存関係をキャプチャするトラヒックフレーム予測手法を提案する。 循環学習率の活用も提案され、標準的アプローチよりも少ない期間で低ロススコアを達成し、トレーニング効率を向上させる。

Finding sustainable and novel solutions to predict city-wide mobility behaviour is an ever-growing problem given increased urban complexity and growing populations. This paper seeks to address this by describing a traffic frame prediction approach that uses Convolutional LSTMs to create a Temporal Autoencoder with U-Net style skip-connections that marry together recurrent and traditional computer vision techniques to capture spatio-temporal dependencies at different scales without losing topological details of a given city. Utilisation of Cyclical Learning Rates is also presented, improving training efficiency by achieving lower loss scores in fewer epochs than standard approaches.
翻訳日:2022-09-21 02:11:33 公開日:2020-11-25
# Deep Convolutional Neural Networks: 基礎、選択された改善、およびいくつかの最近の応用に関する調査

Deep Convolutional Neural Networks: A survey of the foundations, selected improvements, and some current applications ( http://arxiv.org/abs/2011.12960v1 )

ライセンス: Link先を確認
Lars Lien Ankile, Morgan Feet Heggland, Kjartan Krange(参考訳) 機械学習の世界には、様々な利点と応用の様々な方法が存在する。 本稿では、畳み込みニューラルネットワーク(convolutional neural networks:cnns)について述べる。 CNNは、畳み込みと呼ばれる特別な線形演算を使用するディープニューラルネットワークである。 この操作はcnnのキーと特徴的な要素を表しており、そのためこの方法の論文の焦点となる。 議論は、畳み込みとCNNの根底にある理論的基盤から始まる。 次に、より広い範囲の関数クラスを推定するために、メソッドを適用できるいくつかの改善と拡張について論じる。 本論文は, 局所連結層を用いることで, ネットワークの翻訳への不変性を低減し, タイル付き畳み込みにより, 標準的な畳み込みよりも複雑な不変性を学習する, という2つの方法について検討する。 さらに、高速フーリエ変換を用いることで、畳み込みの計算効率を向上させることができる。 本論文は, 実用上非常に効果的であることが証明された畳み込みの2つの応用について述べる。 まず、YOLOアーキテクチャは画像オブジェクト分類のためのアートニューラルネットワークの状態であり、画像内のオブジェクトのまわりのバウンディングボックスを正確に予測する。 第2に、マンモグラフィにおける腫瘍の検出はcnnを用いて行われ、感度が.3%未満の実際の医師よりも7.2%高い特異性を達成する。 最後に、異なる分野の人間を上回るテクノロジーの発明は、簡潔に議論される特定の倫理的および規制的な疑問を提起する。

Within the world of machine learning there exists a wide range of different methods with respective advantages and applications. This paper seeks to present and discuss one such method, namely Convolutional Neural Networks (CNNs). CNNs are deep neural networks that use a special linear operation called convolution. This operation represents a key and distinctive element of CNNs, and will therefore be the focus of this method paper. The discussion starts with the theoretical foundations that underlie convolutions and CNNs. Then, the discussion proceeds to discuss some improvements and augmentations that can be made to adapt the method to estimate a wider set of function classes. The paper mainly investigates two ways of improving the method: by using locally connected layers, which can make the network less invariant to translation, and tiled convolution, which allows for the learning of more complex invariances than standard convolution. Furthermore, the use of the Fast Fourier Transform can improve the computational efficiency of convolution. Subsequently, this paper discusses two applications of convolution that have proven to be very effective in practice. First, the YOLO architecture is a state of the art neural network for image object classification, which accurately predicts bounding boxes around objects in images. Second, tumor detection in mammography may be performed using CNNs, accomplishing 7.2% higher specificity than actual doctors with only .3% less sensitivity. Finally, the invention of technology that outperforms humans in different fields also raises certain ethical and regulatory questions that are briefly discussed.
翻訳日:2022-09-21 02:10:00 公開日:2020-11-25
# 教師なしFewショット画像生成のための拡張補間オートエンコーダ

Augmentation-Interpolative AutoEncoders for Unsupervised Few-Shot Image Generation ( http://arxiv.org/abs/2011.13026v1 )

ライセンス: Link先を確認
Davis Wertheimer, Omid Poursaeed and Bharath Hariharan(参考訳) 少数の例から新しい領域に一般化する画像生成モデルの構築を目指している。 そこで本研究では,従来の画像生成装置の一般化特性について検討し,高度に制約されたデータでトレーニングした場合でも,オートエンコーダが新しい領域に極めてよく一般化できることを確かめる。 我々は,この知見を活かして,ロバストで教師なしの少数ショット画像生成アルゴリズムを作成し,データ拡張からの画像復元に基づく新しいトレーニング手順を導入する。 補間補間オートエンコーダは,少数の参照画像から新たなオブジェクトの現実的なイメージを合成し,先行する補間モデルと教師付き少数ショット画像生成器の両方よりも優れる。 我々の手順はシンプルで軽量で、広く一般化されており、訓練中にカテゴリラベルやその他の監督を必要としない。

We aim to build image generation models that generalize to new domains from few examples. To this end, we first investigate the generalization properties of classic image generators, and discover that autoencoders generalize extremely well to new domains, even when trained on highly constrained data. We leverage this insight to produce a robust, unsupervised few-shot image generation algorithm, and introduce a novel training procedure based on recovering an image from data augmentations. Our Augmentation-Interpolative AutoEncoders synthesize realistic images of novel objects from only a few reference images, and outperform both prior interpolative models and supervised few-shot image generators. Our procedure is simple and lightweight, generalizes broadly, and requires no category labels or other supervision during training.
翻訳日:2022-09-21 02:09:38 公開日:2020-11-25
# ディープニューラルネットワークを用いた因果推論

Causal inference using deep neural networks ( http://arxiv.org/abs/2011.12508v1 )

ライセンス: Link先を確認
Ye Yuan, Xueying Ding, Ziv Bar-Joseph(参考訳) 観測データからの因果推論は多くの科学分野において中心的な問題である。 本稿では,入力ベクトルを1組の入力に対してイメージライクな表現に変換することで因果相互作用を推論する汎用的なディープラーニングフレームワークを提案する。 トレーニングデータセットが与えられると、まず正規化された経験的確率密度分布(nepdf)行列を構築する。 次に、因果予測のためにNEPDFで畳み込みニューラルネットワーク(CNN)を訓練する。 提案手法を複数のシミュレーションおよび実世界のデータを用いて検証し,それ以前の因果推論手法と比較した。 このように、この手法は一般に、非常に大きなデータセットを効率的に処理でき、以前のメソッドを改善します。

Causal inference from observation data is a core problem in many scientific fields. Here we present a general supervised deep learning framework that infers causal interactions by transforming the input vectors to an image-like representation for every pair of inputs. Given a training dataset we first construct a normalized empirical probability density distribution (NEPDF) matrix. We then train a convolutional neural network (CNN) on NEPDFs for causality predictions. We tested the method on several different simulated and real world data and compared it to prior methods for causal inference. As we show, the method is general, can efficiently handle very large datasets and improves upon prior methods.
翻訳日:2022-09-21 02:03:40 公開日:2020-11-25
# 一貫性認識と非一貫性認識グラフに基づくマルチビュークラスタリング

Consistency-aware and Inconsistency-aware Graph-based Multi-view Clustering ( http://arxiv.org/abs/2011.12532v1 )

ライセンス: Link先を確認
Mitsuhiko Horie and Hiroyuki Kasai(参考訳) 機械学習アプリケーションでは、マルチビューデータに頻繁に遭遇するため、マルチビューデータ分析の人気が高まっている。 マルチビューデータのクラスタリングには単純だが有望なアプローチとしてマルチビュークラスタリング(MVC)がある。 既存の手法の中で,グラフベースのマルチビュークラスタリング(GMVC)は,統一行列と呼ばれる共有グラフ行列を利用することで,最先端のパフォーマンスを実現する。 しかし、GMVCを含む既存の手法では、入力グラフ行列の不整合部分に明示的に対応していない。 その結果、許容できないクラスタリング性能に悪影響を及ぼす。 そこで本稿では,複数ビューにまたがる一貫した不整合部分を含むGMVC法を提案する。 この提案はCI-GMVCに指定されている。 実世界のデータセットの数値評価は,提案したCI-GMVCの有効性を示す。

Multi-view data analysis has gained increasing popularity because multi-view data are frequently encountered in machine learning applications. A simple but promising approach for clustering of multi-view data is multi-view clustering (MVC), which has been developed extensively to classify given subjects into some clustered groups by learning latent common features that are shared across multi-view data. Among existing approaches, graph-based multi-view clustering (GMVC) achieves state-of-the-art performance by leveraging a shared graph matrix called the unified matrix. However, existing methods including GMVC do not explicitly address inconsistent parts of input graph matrices. Consequently, they are adversely affected by unacceptable clustering performance. To this end, this paper proposes a new GMVC method that incorporates consistent and inconsistent parts lying across multiple views. This proposal is designated as CI-GMVC. Numerical evaluations of real-world datasets demonstrate the effectiveness of the proposed CI-GMVC.
翻訳日:2022-09-21 02:03:31 公開日:2020-11-25
# スパース単純射影を持つwaserstein k-means

Wasserstein k-means with sparse simplex projection ( http://arxiv.org/abs/2011.12542v1 )

ライセンス: Link先を確認
Takumi Fukunaga, Hiroyuki Kasai(参考訳) 本稿では、ワッサーシュタイン距離計算を削減し、スパース単純射影を利用することにより、ヒストグラムデータに対するより高速なワッサーシュタイン$k$-meansアルゴリズムを提案する。 我々は、データサンプル、セントロイド、地価行列を縮小し、クラスタリング品質を損なうことなく最適な輸送問題を解決するために使用される計算をかなり削減する。 さらに, クラスタリング品質の劣化を低く抑えつつ, 低値データサンプルを除去し, スパース・シンプレックス・プロジェクションを活用し, 計算複雑性を動的に低減した。 提案アルゴリズムは,wasserstein $k$-means または sspw $k$-means を用いた sparse simplex projection として設計した。 wasserstein $k$-meansアルゴリズムによる実世界のデータセットに対するsspw $k$-meansの有効性を比較検討した数値評価

This paper presents a proposal of a faster Wasserstein $k$-means algorithm for histogram data by reducing Wasserstein distance computations and exploiting sparse simplex projection. We shrink data samples, centroids, and the ground cost matrix, which leads to considerable reduction of the computations used to solve optimal transport problems without loss of clustering quality. Furthermore, we dynamically reduced the computational complexity by removing lower-valued data samples and harnessing sparse simplex projection while keeping the degradation of clustering quality lower. We designate this proposed algorithm as sparse simplex projection based Wasserstein $k$-means, or SSPW $k$-means. Numerical evaluations conducted with comparison to results obtained using Wasserstein $k$-means algorithm demonstrate the effectiveness of the proposed SSPW $k$-means for real-world datasets
翻訳日:2022-09-21 02:03:15 公開日:2020-11-25
# スパース動的値推定によるシーン特異性の向上

Enhanced Scene Specificity with Sparse Dynamic Value Estimation ( http://arxiv.org/abs/2011.12574v1 )

ライセンス: Link先を確認
Jaskirat Singh and Liang Zheng(参考訳) 多段階強化学習は、rlエージェントを同じタスクから複数のシーン/レベルにまたがって訓練することを含み、多くの一般化アプリケーションで必須となっている。 しかし、複数のシーンを組み込むことで、ポリシー勾配計算のサンプル分散が増加し、しばしば従来の手法(例えばPPO、A3C)の直接適用による最適以下の性能が向上する。 分散低減のための一つの戦略は、各シーンをマークフ決定過程(MDP)とみなし、状態(s)とMDP(M)の両方に依存する結合値関数を学ぶことである。 しかし、エージェントは通常、マルチシーンRLの列車/テスト時間における基盤レベルを知らないため、これは簡単ではない。 最近、Singh et al。 [1] は、真の結合値関数分布をガウス混合モデル(GMM)としてモデル化する動的値推定手法を提案した。 本稿では,エージェントが状態空間のほとんどを探索した後,スパースクラスタ割り当てを段階的に強制することにより,真のシーン固有値関数と予測動的推定値との誤差をさらに低減できることを示す。 結果として得られたエージェントは、openai procgen環境全体で最終報酬スコアが大幅に向上するだけでなく、ゲームレベルを完了しながらナビゲーション効率が向上する。

Multi-scene reinforcement learning involves training the RL agent across multiple scenes / levels from the same task, and has become essential for many generalization applications. However, the inclusion of multiple scenes leads to an increase in sample variance for policy gradient computations, often resulting in suboptimal performance with the direct application of traditional methods (e.g. PPO, A3C). One strategy for variance reduction is to consider each scene as a distinct Markov decision process (MDP) and learn a joint value function dependent on both state (s) and MDP (M). However, this is non-trivial as the agent is usually unaware of the underlying level at train / test times in multi-scene RL. Recently, Singh et al. [1] tried to address this by proposing a dynamic value estimation approach that models the true joint value function distribution as a Gaussian mixture model (GMM). In this paper, we argue that the error between the true scene-specific value function and the predicted dynamic estimate can be further reduced by progressively enforcing sparse cluster assignments once the agent has explored most of the state space. The resulting agents not only show significant improvements in the final reward score across a range of OpenAI ProcGen environments, but also exhibit increased navigation efficiency while completing a game level.
翻訳日:2022-09-21 02:02:36 公開日:2020-11-25
# 直交制約を持つ深い制約付きカーネルマシンにおける不等角表現の教師なし学習

Unsupervised learning of disentangled representations in deep restricted kernel machines with orthogonality constraints ( http://arxiv.org/abs/2011.12659v1 )

ライセンス: Link先を確認
Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) 本稿では,不連続データ表現の教師なし学習のための深層カーネル法 constr-drkm を提案する。 そこで本研究では,カーネルPCA用のカーネルマシンを,非依存変数の直交制約により拡張し,不整合を促進させるとともに,まず安定化目標を定義することなく最適化を実現することを提案する。 2次ペナルティ最適化アルゴリズムに基づくエンドツーエンドのトレーニング手順をウォームスタートで評価した後,提案手法の有効性を定量的に評価した。 4つのベンチマークデータセットで、この手法は、トレーニングポイントがほとんどない場合、多くのアンタングルメント指標において、$\beta$-VAEと同等に動作するが、ランダムネスやハイパーパラメータの選択には、$\beta$-VAEよりも敏感ではない。 また,Constr-DRKMのトレーニングアルゴリズムを決定論的に初期化し,再現性を大幅に向上させる。 最後に,提案手法におけるレイヤ数の役割を実証的に評価・検討し,各レイヤにおける各主要コンポーネントの影響を調べ,下位レイヤのコンポーネントがデータ分散の広範なトレンドを捉える局所的特徴検出器として振る舞うことを示すとともに,より深いレイヤのコンポーネントが以前のレイヤから学んだ表現を使い,より正確に高レベルな特徴を再現することを示す。

We introduce Constr-DRKM, a deep kernel method for the unsupervised learning of disentangled data representations. We propose augmenting the original deep restricted kernel machine formulation for kernel PCA by orthogonality constraints on the latent variables to promote disentanglement and to make it possible to carry out optimization without first defining a stabilized objective. After illustrating an end-to-end training procedure based on a quadratic penalty optimization algorithm with warm start, we quantitatively evaluate the proposed method's effectiveness in disentangled feature learning. We demonstrate on four benchmark datasets that this approach performs similarly overall to $\beta$-VAE on a number of disentanglement metrics when few training points are available, while being less sensitive to randomness and hyperparameter selection than $\beta$-VAE. We also present a deterministic initialization of Constr-DRKM's training algorithm that significantly improves the reproducibility of the results. Finally, we empirically evaluate and discuss the role of the number of layers in the proposed methodology, examining the influence of each principal component in every layer and showing that components in lower layers act as local feature detectors capturing the broad trends of the data distribution, while components in deeper layers use the representation learned by previous layers and more accurately reproduce higher-level features.
翻訳日:2022-09-21 02:01:37 公開日:2020-11-25
# Delaunay三角測量と統合したPCAによる顔認識

Face recognition using PCA integrated with Delaunay triangulation ( http://arxiv.org/abs/2011.12786v1 )

ライセンス: Link先を確認
Kavan Adeshara and Vinayak Elangovan(参考訳) 顔認識は、顔の特徴に基づいてユーザーを識別する生体認証に最も使用される。 このシステムは、多くのビジネスで使われ、スマートフォンや監視カメラなどの多くのデバイスで採用されているため、需要が高い。 しかし、このユーザ検証手法ではよく見られる問題は、その正確性である。 システムの欠陥を改善するために、多くのアプローチとアルゴリズムが実験されている。 本研究では,2つの異なる手法を組み合わせたアルゴリズムを開発した。 線形代数と計算幾何学の概念を用いて,Dlaunay Triangulationと主成分分析の統合を検証し,顔のランドマーク点の集合を三角測量し,得られた画像の固有面を求める。 このアルゴリズムを従来のpcaと比較し、効果的な認識率を提供するために異なる顔ランドマークポイントを含むことを論じている。

Face Recognition is most used for biometric user authentication that identifies a user based on his or her facial features. The system is in high demand, as it is used by many businesses and employed in many devices such as smartphones and surveillance cameras. However, one frequent problem that is still observed in this user-verification method is its accuracy rate. Numerous approaches and algorithms have been experimented to improve the stated flaw of the system. This research develops one such algorithm that utilizes a combination of two different approaches. Using the concepts from Linear Algebra and computational geometry, the research examines the integration of Principal Component Analysis with Delaunay Triangulation; the method triangulates a set of face landmark points and obtains eigenfaces of the provided images. It compares the algorithm with traditional PCA and discusses the inclusion of different face landmark points to deliver an effective recognition rate.
翻訳日:2022-09-21 01:54:52 公開日:2020-11-25
# 点雲解析のためのニューラルネットワークの校正

Recalibration of Neural Networks for Point Cloud Analysis ( http://arxiv.org/abs/2011.12888v1 )

ライセンス: Link先を確認
Ignacio Sarasua, Sebastian Poelsterl, Christian Wachinger(参考訳) 空間的およびチャネル再調整はコンピュータビジョンにおいて強力な概念となっている。 長距離依存関係をキャプチャする能力は、特にcnnのようなローカル機能を抽出するネットワークにとって有用である。 画像解析には再校正が広く研究されているが、形状表現には使われていない。 本研究では,深層ニューラルネットワークの3次元点雲に対する再校正モジュールを提案する。 本研究では,複数の局所的近傍の機能を階層的に結合することにより,グローバルディスクリプタを構築する3dポイントクラウド解析のために,任意のネットワークに追加可能な再校正ブロックを提案する。 アプローチを検証する実験を2セット実施しています。 まず、提案モジュールを3Dポイントクラウド分析のための3つの最先端ネットワーク、PointNet++、DGCNN、RCCNNに組み込むことで、提案モジュールの利点と汎用性を実証する。 modelnet40のオブジェクト分類とshapenetのオブジェクト部分セグメンテーションの2つのタスクで各ネットワークを評価した。 その結果,modelnet40の精度は,ベースライン法と比較して最大1%向上した。 第2の実験では,アルツハイマー病(AD)診断における再校正ブロックの効果について検討した。 提案手法は,ADを診断するための精度が2%向上し,時間-時間分析によるAD発症予測のためのコンセンサス指数が2.3%向上したことを示す。 結論として、再校正はポイントクラウドアーキテクチャの精度を改善し、パラメータの数を最小限に増やすだけである。

Spatial and channel re-calibration have become powerful concepts in computer vision. Their ability to capture long-range dependencies is especially useful for those networks that extract local features, such as CNNs. While re-calibration has been widely studied for image analysis, it has not yet been used on shape representations. In this work, we introduce re-calibration modules on deep neural networks for 3D point clouds. We propose a set of re-calibration blocks that extend Squeeze and Excitation blocks and that can be added to any network for 3D point cloud analysis that builds a global descriptor by hierarchically combining features from multiple local neighborhoods. We run two sets of experiments to validate our approach. First, we demonstrate the benefit and versatility of our proposed modules by incorporating them into three state-of-the-art networks for 3D point cloud analysis: PointNet++, DGCNN, and RSCNN. We evaluate each network on two tasks: object classification on ModelNet40, and object part segmentation on ShapeNet. Our results show an improvement of up to 1% in accuracy for ModelNet40 compared to the baseline method. In the second set of experiments, we investigate the benefits of re-calibration blocks on Alzheimer's Disease (AD) diagnosis. Our results demonstrate that our proposed methods yield a 2% increase in accuracy for diagnosing AD and a 2.3% increase in concordance index for predicting AD onset with time-to-event analysis. Concluding, re-calibration improves the accuracy of point cloud architectures, while only minimally increasing the number of parameters.
翻訳日:2022-09-21 01:54:24 公開日:2020-11-25
# より良いアライメント, 減衰バイアス, 解釈可能性向上のための分散表現の幾何学

The Geometry of Distributed Representations for Better Alignment, Attenuated Bias, and Improved Interpretability ( http://arxiv.org/abs/2011.12465v1 )

ライセンス: Link先を確認
Sunipa Dev(参考訳) 単語、テキスト、画像、知識グラフ、その他の構造化データの高次元表現は、機械学習とデータマイニングの異なるパラダイムで一般的に使用される。 これらの表現は解釈可能性の度合いが異なり、効率的な分散表現は次元マッピングへの特徴の喪失の犠牲となる。 これは、これらの埋め込み空間において概念を捉える方法には難解性が存在することを意味する。 その影響は多くの表現やタスクで見られ、特に問題となるのは、基礎となるデータから学んだ社会バイアスが、未知の次元や部分空間で捉えられ、隠されている言語表現である。 その結果、無効な関係(異なる人種や、善と悪の極的な概念との結びつき)が表現によって作られ、伝播し、それらが使われる様々なタスクにおいて不公平な結果をもたらす。 この研究は、これらの表現の透明性と解釈可能性に関連するこれらの問題に対処する。 主な焦点は、言語表現における社会的に偏った関連の検出、定量化、緩和である。

High-dimensional representations for words, text, images, knowledge graphs and other structured data are commonly used in different paradigms of machine learning and data mining. These representations have different degrees of interpretability, with efficient distributed representations coming at the cost of the loss of feature to dimension mapping. This implies that there is obfuscation in the way concepts are captured in these embedding spaces. Its effects are seen in many representations and tasks, one particularly problematic one being in language representations where the societal biases, learned from underlying data, are captured and occluded in unknown dimensions and subspaces. As a result, invalid associations (such as different races and their association with a polar notion of good versus bad) are made and propagated by the representations, leading to unfair outcomes in different tasks where they are used. This work addresses some of these problems pertaining to the transparency and interpretability of such representations. A primary focus is the detection, quantification, and mitigation of socially biased associations in language representation.
翻訳日:2022-09-21 01:53:42 公開日:2020-11-25
# MOBAゲームにおける人間レベルのパフォーマンス向上のための指導的学習--王の名誉を事例として

Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings ( http://arxiv.org/abs/2011.12582v1 )

ライセンス: Link先を確認
Deheng Ye, Guibin Chen, Peilin Zhao, Fuhao Qiu, Bo Yuan, Wen Zhang, Sheng Chen, Mingfei Sun, Xiaoqian Li, Siqin Li, Jing Liang, Zhenjie Lian, Bei Shi, Liang Wang, Tengfei Shi, Qiang Fu, Wei Yang, Lanxiao Huang(参考訳) マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームにおいて人間レベルのパフォーマンスを実現する,教師付き学習ベース人工知能(AI)プログラムであるJueWu-SLを提案する。 従来の試みとは異なり、マクロ戦略とMOBAゲームプレイのマイクロマネジメントを、教師付きとエンドツーエンドの方法でニューラルネットワークに統合する。 現在最も人気のあるMOBAであるHonor of KingsでテストされているAIは、標準的な5v5ゲームでハイキングプレイヤーのレベルで競争力を発揮する。

We present JueWu-SL, the first supervised-learning-based artificial intelligence (AI) program that achieves human-level performance in playing multiplayer online battle arena (MOBA) games. Unlike prior attempts, we integrate the macro-strategy and the micromanagement of MOBA-game-playing into neural networks in a supervised and end-to-end manner. Tested on Honor of Kings, the most popular MOBA at present, our AI performs competitively at the level of High King players in standard 5v5 games.
翻訳日:2022-09-21 01:53:26 公開日:2020-11-25
# AIをエッジに持ち込む - ディープラーニングの視点から

Bringing AI To Edge: From Deep Learning's Perspective ( http://arxiv.org/abs/2011.14808v1 )

ライセンス: Link先を確認
Di Liu, Hao Kong, Xiangzhong Luo, Weichen Liu, Ravi Subramaniam(参考訳) エッジコンピューティングと人工知能(AI)、特に近年のディープラーニングは、エッジインテリジェンスと呼ばれる新しいシステムを構築するために徐々に交差している。 しかし、エッジインテリジェンスシステムの開発にはいくつかの課題があり、これらの課題の1つは計算集約型ディープラーニングアルゴリズムと低能力エッジシステムとの間の‘textit{computational gap’である。 計算のギャップのため、多くのエッジインテリジェンスシステムは、期待される性能要件を満たせない。 このギャップを埋めるために、近年、軽量ディープラーニングモデル、ネットワーク圧縮、効率的なニューラルネットワーク探索など、多くのディープラーニング技術と最適化手法が提案されている。 いくつかのレビューや調査は、この大きな文献を部分的にカバーしているが、エッジインテリジェンスの実装に不可欠なディープラーニング技術の全側面を議論するための体系的で包括的なレビューが欠けている。 エッジシステムに適用可能なさまざまな方法が集中的に提案されているため、エッジコンピューティングエンジニアやコミュニティは、エッジインテリジェンスに有用な最先端のディープラーニング技術を知って、エッジインテリジェンスシステムの開発を促進することができるだろう。 本稿では,手作りモデル,モデル圧縮,ハードウェア対応ニューラルアーキテクチャ探索,適応型ディープラーニングモデルなど,エッジインテリジェンスシステムに有用な代表的かつ最新のディープラーニング技術について検討する。 最後に,観測と簡単な実験に基づき,今後の方向性について考察する。

Edge computing and artificial intelligence (AI), especially deep learning for nowadays, are gradually intersecting to build a novel system, called edge intelligence. However, the development of edge intelligence systems encounters some challenges, and one of these challenges is the \textit{computational gap} between computation-intensive deep learning algorithms and less-capable edge systems. Due to the computational gap, many edge intelligence systems cannot meet the expected performance requirements. To bridge the gap, a plethora of deep learning techniques and optimization methods are proposed in the past years: light-weight deep learning models, network compression, and efficient neural architecture search. Although some reviews or surveys have partially covered this large body of literature, we lack a systematic and comprehensive review to discuss all aspects of these deep learning techniques which are critical for edge intelligence implementation. As various and diverse methods which are applicable to edge systems are proposed intensively, a holistic review would enable edge computing engineers and community to know the state-of-the-art deep learning techniques which are instrumental for edge intelligence and to facilitate the development of edge intelligence systems. This paper surveys the representative and latest deep learning techniques that are useful for edge intelligence systems, including hand-crafted models, model compression, hardware-aware neural architecture search and adaptive deep learning models. Finally, based on observations and simple experiments we conducted, we discuss some future directions.
翻訳日:2022-09-21 01:52:34 公開日:2020-11-25
# DeepTriage: クラウドサービスにおけるインシデントの自動転送支援

DeepTriage: Automated Transfer Assistance for Incidents in Cloud Services ( http://arxiv.org/abs/2012.03665v1 )

ライセンス: Link先を確認
Phuong Pham, Vivek Jain, Lukas Dauterman, Justin Ormont, Navendu Jain(参考訳) クラウドサービスが成長し、高い収益を生み出しているため、これらのサービスのダウンタイムコストは非常に高くなっています。 損失とサービスのダウンタイムを減らすために、重要な主要なステップは、適切な責任のあるチームにサービスインシデントを割り当てるプロセスであるインシデントトリアージを実行することです。 不正な割り当ては、追加のインシデントリルーティングを危険にさらし、その時間を10倍に短縮する。 しかし,大規模クラウドサービスにおける自動インシデントトリアージは,(1)多数のチームからの高度に不均衡なインシデント分布,(2)入力データやデータソースの多種多様なフォーマット,(3)製品レベルの要件を満たすスケーリング,(4)マシンラーニングレコメンデーションの利用に対するエンジニアの信頼獲得など,多くの課題に直面している。 これらの課題に対処するため、我々は、複数の機械学習技術 - 勾配強調分類器、クラスタリング方法、ディープニューラルネットワーク - を組み合わせたインテリジェントインシデント転送サービスであるdeeptriageを、責任あるチームにインシデントをトリアージするよう推奨するアンサンブルに導入する。 Microsoft Azureの実際のインシデントに関する実験結果は、当社のサービスが82.9%のF1スコアを達成したことを示している。 影響の大きいインシデントに対して、DeepTriageはF1スコアを76.3%から91.3%に引き上げた。 私たちは、すべてのクラウドサービスのインシデントルーティングを処理するために、DeepTriageをスケールするためにベストプラクティスと最先端のフレームワークを適用しました。 deeptriageは2017年10月からazureにデプロイされており、毎日何千ものチームが使用している。

As cloud services are growing and generating high revenues, the cost of downtime in these services is becoming significantly expensive. To reduce loss and service downtime, a critical primary step is to execute incident triage, the process of assigning a service incident to the correct responsible team, in a timely manner. An incorrect assignment risks additional incident reroutings and increases its time to mitigate by 10x. However, automated incident triage in large cloud services faces many challenges: (1) a highly imbalanced incident distribution from a large number of teams, (2) wide variety in formats of input data or data sources, (3) scaling to meet production-grade requirements, and (4) gaining engineers' trust in using machine learning recommendations. To address these challenges, we introduce DeepTriage, an intelligent incident transfer service combining multiple machine learning techniques - gradient boosted classifiers, clustering methods, and deep neural networks - in an ensemble to recommend the responsible team to triage an incident. Experimental results on real incidents in Microsoft Azure show that our service achieves 82.9% F1 score. For highly impacted incidents, DeepTriage achieves F1 score from 76.3% - 91.3%. We have applied best practices and state-of-the-art frameworks to scale DeepTriage to handle incident routing for all cloud services. DeepTriage has been deployed in Azure since October 2017 and is used by thousands of teams daily.
翻訳日:2022-09-21 01:45:23 公開日:2020-11-25
# 対話確率的ポリシー最適化のための希薄な準最適専門家デモ

Diluted Near-Optimal Expert Demonstrations for Guiding Dialogue Stochastic Policy Optimisation ( http://arxiv.org/abs/2012.04687v1 )

ライセンス: Link先を確認
Thibault Cordier, Tanguy Urvoy, Lina M. Rojas-Barahona, Fabrice Lef\`evre(参考訳) 学習対話エージェントは、ユーザとのインタラクションからその動作を推測することができる。 これらの相互作用は、人間と機械の会話から取ることができる。 しかし、人間の相互作用は乏しくコストがかかるため、ほとんど相互作用から学ぶことは不可欠である。 学習プロセスを高速化する一つの解決策は、専門家の助けを借りてエージェントの探索を導くことである。 本稿では,指導専門家がほぼ最適手工芸政策である対話政策の模倣学習戦略について述べる。 これらの戦略を,q-learningとactor-criticに基づく最先端強化学習手法に取り入れる。 特に,学習方針と専門家のシームレスなハイブリッド化を可能にするランダム化探索政策を提案する。 私たちの実験では、ハイブリダイゼーション戦略がいくつかのベースラインを上回っており、実際の人間に直面すると学習を加速できることを示した。

A learning dialogue agent can infer its behaviour from interactions with the users. These interactions can be taken from either human-to-human or human-machine conversations. However, human interactions are scarce and costly, making learning from few interactions essential. One solution to speedup the learning process is to guide the agent's exploration with the help of an expert. We present in this paper several imitation learning strategies for dialogue policy where the guiding expert is a near-optimal handcrafted policy. We incorporate these strategies with state-of-the-art reinforcement learning methods based on Q-learning and actor-critic. We notably propose a randomised exploration policy which allows for a seamless hybridisation of the learned policy and the expert. Our experiments show that our hybridisation strategy outperforms several baselines, and that it can accelerate the learning when facing real humans.
翻訳日:2022-09-21 01:44:57 公開日:2020-11-25
# SurFree:高速サロゲートフリーのブラックボックス攻撃

SurFree: a fast surrogate-free black-box attack ( http://arxiv.org/abs/2011.12807v1 )

ライセンス: Link先を確認
Thibault Maho, Teddy Furon, Erwan Le Merrer(参考訳) 機械学習の分類器は、回避攻撃の影響を受けやすい。 逆の例はわずかに修正された入力で、後に誤分類される。 ここ数年、敵を偽装するため、ブラックボックス攻撃がターゲット分類器に送信するクエリ数が大幅に減少しているのを目撃している。 これは特にブラックボックスのスコアベースの設定に関係しており、攻撃者は予測される最高の確率にアクセスすることができる。 本稿では,ブラックボックス決定に基づく攻撃(トップ1ラベルのみ利用可能)という,最も困難な設定におけるクエリ量を大幅に削減する幾何学的アプローチであるSurFreeを提案する。 我々はまず、HSJA、QEBA、GeoDAといった最近の攻撃がすべて、コストのかかるグラデーションサロゲート推定を実行している点を強調した。 サーフリーはこれらを回避し、分類器決定境界の幾何学的性質の正確な表示によって導かれる様々な方向に沿って慎重な試行に焦点を当てることを提案する。 我々はこの幾何学的アプローチを,前回の攻撃と一級市民としてのクエリの量を比較する前に動機づける。 高いクエリ予算で競争力を保ちながら、低クエリ量(数百から数千)下でより高速な歪み減衰を示す。

Machine learning classifiers are critically prone to evasion attacks. Adversarial examples are slightly modified inputs that are then misclassified, while remaining perceptively close to their originals. Last couple of years have witnessed a striking decrease in the amount of queries a black box attack submits to the target classifier, in order to forge adversarials. This particularly concerns the black-box score-based setup, where the attacker has access to top predicted probabilites: the amount of queries went from to millions of to less than a thousand. This paper presents SurFree, a geometrical approach that achieves a similar drastic reduction in the amount of queries in the hardest setup: black box decision-based attacks (only the top-1 label is available). We first highlight that the most recent attacks in that setup, HSJA, QEBA and GeoDA all perform costly gradient surrogate estimations. SurFree proposes to bypass these, by instead focusing on careful trials along diverse directions, guided by precise indications of geometrical properties of the classifier decision boundaries. We motivate this geometric approach before performing a head-to-head comparison with previous attacks with the amount of queries as a first class citizen. We exhibit a faster distortion decay under low query amounts (few hundreds to a thousand), while remaining competitive at higher query budgets.
翻訳日:2022-09-21 01:44:46 公開日:2020-11-25
# 新型コロナウイルス検出のための人工知能-最先端のレビュー

Artificial Intelligence for COVID-19 Detection -- A state-of-the-art review ( http://arxiv.org/abs/2012.06310v1 )

ライセンス: Link先を確認
Parsa Sarosh, Shabir A. Parah, Romany F Mansur, G. M. Bhat(参考訳) 新型コロナウイルス(covid-19)の出現は、科学界の適切な管理のために多くの努力を必要としている。 パンデミックによって引き起こされる壊滅的な被害に直面した場合に、緊急の臨床的反応が必要である。 これらの取り組みには、スクリーニング、治療、ワクチン開発、接触追跡、生存予測の改善のための技術革新が含まれる。 深層学習 (DL) と人工知能 (AI) の使用は、上記すべての領域で求められる。 本研究の目的は、新型コロナウイルスの総合的な管理、特に新型コロナウイルスの検出・分類におけるディープラーニングと人工知能の役割を概観することである。 dlモデルは、患者のctスキャンやx線画像などの臨床症状を分析し、病態を予測するために開発された。 DLモデルは、COVID-19肺炎の検出、COVID-19、Community-Acquired Pneumonia (CAP)、ウイルスおよび細菌性肺炎、および正常な状態の分類と識別を目的としている。 さらに、肺の患部を分別し、感染量を定量化し、損傷の程度をよりよく理解するために洗練されたモデルを構築することもできる。 多くのモデルは、vgg19、resnet50、alexnetのような事前学習されたモデルの助けを借りて独立に開発された。 モデル開発とは別に、医療アプリケーションでしばしば発生する不十分なデータサンプルの課題に対処するために、データ前処理と拡張も行われている。 世界的緊急事態による課題に対処するために,DLとAIを効果的に実装できることを評価することができる。

The emergence of COVID-19 has necessitated many efforts by the scientific community for its proper management. An urgent clinical reaction is required in the face of the unending devastation being caused by the pandemic. These efforts include technological innovations for improvement in screening, treatment, vaccine development, contact tracing and, survival prediction. The use of Deep Learning (DL) and Artificial Intelligence (AI) can be sought in all of the above-mentioned spheres. This paper aims to review the role of Deep Learning and Artificial intelligence in various aspects of the overall COVID-19 management and particularly for COVID-19 detection and classification. The DL models are developed to analyze clinical modalities like CT scans and X-Ray images of patients and predict their pathological condition. A DL model aims to detect the COVID-19 pneumonia, classify and distinguish between COVID-19, Community-Acquired Pneumonia (CAP), Viral and Bacterial pneumonia, and normal conditions. Furthermore, sophisticated models can be built to segment the affected area in the lungs and quantify the infection volume for a better understanding of the extent of damage. Many models have been developed either independently or with the help of pre-trained models like VGG19, ResNet50, and AlexNet leveraging the concept of transfer learning. Apart from model development, data preprocessing and augmentation are also performed to cope with the challenge of insufficient data samples often encountered in medical applications. It can be evaluated that DL and AI can be effectively implemented to withstand the challenges posed by the global emergency
翻訳日:2022-09-21 01:43:51 公開日:2020-11-25