このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210104となっている論文です。

PDF登録状況(公開日: 20210104)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 量子回路設計の探索 [全文訳有]

Quantum Circuit Design Search ( http://arxiv.org/abs/2012.04046v2 )

ライセンス: CC BY 4.0
Mohammad Pirhooshyaran, Tamas Terlaky(参考訳) 本稿では、パラメータ化量子回路の設計のための探索戦略について述べる。 本稿では,データセット上のマルチラベル分類などの特定のタスクに対して,量子回路を自動設計する意思決定者として,ランダム探索,フィッツテストの生存,古典およびハイブリッド量子古典コントローラによる強化学習,ベイズ最適化などの最適化手法を提案する。 我々は,ハンドデザインとトレーサビリティの面での効率のよい非自明な回路アーキテクチャを導入する。 さらに,量子回路への初期データの再アップロードを,より汎用的な設計を求めるオプションとして導入する。 提案したIrisデータセットのアーキテクチャのいくつかは、文献で確立されたパラメータ化量子回路設計と比較して、より良い結果が得られることを示す。 さらに, 未知のデータセットガラス上でのこれらの構造のトレーニング可能性について検討した。 提案する設計が本質的により訓練可能であるという事実を裏付けるglassデータセットの分類のベンチマークよりも有意義な利点を報告する。

This article explores search strategies for the design of parameterized quantum circuits. We propose several optimization approaches including random search plus survival of the fittest, reinforcement learning both with classical and hybrid quantum classical controllers and Bayesian optimization as decision makers to design a quantum circuit in an automated way for a specific task such as multi-labeled classification over a dataset. We introduce nontrivial circuit architectures that are arduous to be hand-designed and efficient in terms of trainability. In addition, we introduce reuploading of initial data into quantum circuits as an option to find more general designs. We numerically show that some of the suggested architectures for the Iris dataset accomplish better results compared to the established parameterized quantum circuit designs in the literature. In addition, we investigate the trainability of these structures on the unseen dataset Glass. We report meaningful advantages over the benchmarks for the classification of the Glass dataset which supports the fact that the suggested designs are inherently more trainable.
翻訳日:2021-05-18 06:53:32 公開日:2021-01-04
# (参考訳) 点に基づくx線画像における骨折検出と位置推定のための新しい窓損失関数 [全文訳有]

A New Window Loss Function for Bone Fracture Detection and Localization in X-ray Images with Point-based Annotation ( http://arxiv.org/abs/2012.04066v2 )

ライセンス: CC BY 4.0
Xinyu Zhang, Yirui Wang, Chi-Tung Cheng, Le Lu, Adam P. Harrison, Jing Xiao, Chien-Hung Liao, Shun Miao(参考訳) 医療画像を用いたコンピュータ支援診断には物体検出法が広く採用されている。 異常な発見は通常、境界ボックスによって記述されるオブジェクトとして扱われる。 しかし、骨骨折などの多くの病理所見は、かなりの例、形状、境界の曖昧さのため、境界ボックスによって明確に定義できない。 これにより、バウンディングボックスアノテーションとその関連する損失は、非常に不適切なものになる。 本研究では,x線画像に対する新しい骨折検出法を提案する。対象範囲や境界の明確さのない異常発見に適した労力効率と柔軟なアノテーションスキームに基づいて,x線画像の骨折検出手法を提案する。 本手法は,局所的な病理情報をマークするために,単純で直感的で情報に富んだポイントベースのアノテーションプロトコルを用いる。 点(s)を経由したアノテートされたフラクチャースケールの不確実性に対処するため、アノテーションを、正、負、不確実な領域を持つ下および上界を用いた画素単位の監視に変換する。 その後、不確実領域外の予測のみを罰する新しいウィンドウロスが提案されている。 骨盤X線像4410例に対して,本法を広範囲に評価した。 実験の結果,AUROCは0.983,FROCは89.6%であり,従来の最先端画像分類や物体検出基準よりも優れていることがわかった。

Object detection methods are widely adopted for computer-aided diagnosis using medical images. Anomalous findings are usually treated as objects that are described by bounding boxes. Yet, many pathological findings, e.g., bone fractures, cannot be clearly defined by bounding boxes, owing to considerable instance, shape and boundary ambiguities. This makes bounding box annotations, and their associated losses, highly ill-suited. In this work, we propose a new bone fracture detection method for X-ray images, based on a labor effective and flexible annotation scheme suitable for abnormal findings with no clear object-level spatial extents or boundaries. Our method employs a simple, intuitive, and informative point-based annotation protocol to mark localized pathology information. To address the uncertainty in the fracture scales annotated via point(s), we convert the annotations into pixel-wise supervision that uses lower and upper bounds with positive, negative, and uncertain regions. A novel Window Loss is subsequently proposed to only penalize the predictions outside of the uncertain regions. Our method has been extensively evaluated on 4410 pelvic X-ray images of unique patients. Experiments demonstrate that our method outperforms previous state-of-the-art image classification and object detection baselines by healthy margins, with an AUROC of 0.983 and FROC score of 89.6%.
翻訳日:2021-05-18 05:57:24 公開日:2021-01-04
# シミュレーション駆動エンジン設計を高速化する新しい機械学習に基づく最適化アルゴリズム(activo)

A novel machine learning-based optimization algorithm (ActivO) for accelerating simulation-driven engine design ( http://arxiv.org/abs/2012.04649v2 )

ライセンス: Link先を確認
Opeoluwa Owoyele, Pinaki Pal(参考訳) 機械学習アルゴリズムのアンサンブルを用いた新しい設計最適化手法(ActivO)を提案する。 提案手法は,弱い学習者と強い学習者の予測をアクティブな学習ループ内で活用するサロゲートに基づくスキームである。 弱い学習者は設計空間内の有望な領域を探索するために使用され、強い学習者は有望な領域内の最適位置を正確に決定するために使用される。 設計イテレーション毎に、弱い学習者予測のフィットネスが高い領域内で評価ポイントをランダムに選択することで探索を行う。 また、強学習者を代理として用いることで得られる大域的最適度を評価し、最も有望な領域が特定されれば、迅速な収束を可能にする。 まず,25の局所最適値と1つの大域最適値を持つコサイン混合関数において,ActivOの性能を他の5つのオプティマイザと比較した。 第2の問題は、圧縮着火内燃機関(IC)の特定の燃料消費を最小限に抑えつつ、気筒内圧力と排気に関する所望の制約に固執することであった。 提案手法の有効性は,エンジン最適化のために内燃機関のコミュニティで広く利用されている遺伝的アルゴリズムと比較され, ActivOはグローバルな最適点に到達するために必要な機能評価の数を削減し, 設計までの時間を80%削減することを示した。 さらに、エンジン設計パラメータの最適化は、運用可能性と許容される汚染物質排出を維持しながら、エネルギー消費量の約1.9%の節約につながる。

A novel design optimization approach (ActivO) that employs an ensemble of machine learning algorithms is presented. The proposed approach is a surrogate-based scheme, where the predictions of a weak leaner and a strong learner are utilized within an active learning loop. The weak learner is used to identify promising regions within the design space to explore, while the strong learner is used to determine the exact location of the optimum within promising regions. For each design iteration, exploration is done by randomly selecting evaluation points within regions where the weak learner-predicted fitness is high. The global optimum obtained by using the strong learner as a surrogate is also evaluated to enable rapid convergence once the most promising region has been identified. First, the performance of ActivO was compared against five other optimizers on a cosine mixture function with 25 local optima and one global optimum. In the second problem, the objective was to minimize indicated specific fuel consumption of a compression-ignition internal combustion (IC) engine while adhering to desired constraints associated with in-cylinder pressure and emissions. Here, the efficacy of the proposed approach is compared to that of a genetic algorithm, which is widely used within the internal combustion engine community for engine optimization, showing that ActivO reduces the number of function evaluations needed to reach the global optimum, and thereby time-to-design by 80%. Furthermore, the optimization of engine design parameters leads to savings of around 1.9% in energy consumption, while maintaining operability and acceptable pollutant emissions.
翻訳日:2021-05-16 21:03:49 公開日:2021-01-04
# 文脈認識補助指導による画像キャプション

Image Captioning with Context-Aware Auxiliary Guidance ( http://arxiv.org/abs/2012.05545v2 )

ライセンス: Link先を確認
Zeliang Song, Xiaofei Zhou, Zhendong Mao, Jianlong Tan(参考訳) 画像キャプションは、画像の自然言語記述を生成することを目的としたコンピュータビジョンタスクである。 最近の研究は、現在の予測のために前回生成された単語に大きく依存するエンコーダ・デコーダ・フレームワークに従っている。 このような手法は、将来予測される情報を効果的に活用して完全な意味論を学ぶことはできない。 本稿では,キャプションモデルを用いてグローバルコンテキストを認識できるcaag(context-aware auxiliary guidance)機構を提案する。 キャプションモデルでは、CAAGは、現在の世代を再現するために、グローバル予測の有用な情報に選択的に集中するセマンティックアテンションを実行する。 提案手法の適応性を検証するため,CAAGを3つの一般的なキャプタに適用し,Microsoft COCOイメージキャプタリングベンチマークにおける競合性能を実現する。 132.2 CIDEr-D score on Karpathy と 130.7 CIDEr-D (c40) score on official online evaluation server。

Image captioning is a challenging computer vision task, which aims to generate a natural language description of an image. Most recent researches follow the encoder-decoder framework which depends heavily on the previous generated words for the current prediction. Such methods can not effectively take advantage of the future predicted information to learn complete semantics. In this paper, we propose Context-Aware Auxiliary Guidance (CAAG) mechanism that can guide the captioning model to perceive global contexts. Upon the captioning model, CAAG performs semantic attention that selectively concentrates on useful information of the global predictions to reproduce the current generation. To validate the adaptability of the method, we apply CAAG to three popular captioners and our proposal achieves competitive performance on the challenging Microsoft COCO image captioning benchmark, e.g. 132.2 CIDEr-D score on Karpathy split and 130.7 CIDEr-D (c40) score on official online evaluation server.
翻訳日:2021-05-15 06:38:39 公開日:2021-01-04
# (参考訳) SpAtten: カスケードトークンとヘッドプルーニングによる効率的なスパースアテンションアーキテクチャ [全文訳有]

SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning ( http://arxiv.org/abs/2012.09852v2 )

ライセンス: CC BY 4.0
Hanrui Wang and Zhekai Zhang and Song Han(参考訳) 自然言語処理(NLP)アプリケーションでは注目のメカニズムがますます普及しており、畳み込みや繰り返しのアーキテクチャよりも優れたパフォーマンスを示している。 しかし、CPUやGPUのような汎用プラットフォームは、複雑なデータ移動と演算強度の低いため、注意推論を行う際に非効率である。 さらに、既存のNNアクセラレータは主に畳み込みモデルやリカレントモデルの最適化に重点を置いており、注意を効率的に支援することはできない。 本稿では,トークンスパース性,頭部スパース性,量子化の機会を活かし,注意力計算とメモリアクセスを削減した効率的なアルゴリズムアーキテクチャコデザインであるs spattenを提案する。 人間言語の冗長性の高さに触発されて,文中の重要でないトークンを削り取るために,新しいカスケードトークンの刈り取りを提案する。 また,不要な頭部を除去するカスケードヘッドプルーニングを提案する。 注意機構に訓練可能な重みがないため、カスケードプルーニングは、基本的に重量プルーニングと異なり、プルーニングされたトークンとヘッドがフライで選択される。 ハードウェア上でそれらを効率的にサポートするために,トークンと頭部重大スコアを高いスループットでランク付けする新しいトップkエンジンを設計する。 さらに、まずMSBのみをフェッチし、その計算を実行するプログレッシブ量子化を提案し、信頼度が低ければLSBをフェッチし、アテンション出力を再計算し、メモリ削減のためのトレーディング計算を行う。 30のベンチマークにおいて、SpAttenは平均してDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネをA3アクセラレータ、MNNFastアクセラレータ、TITAN Xp GPU、Xeon CPUで達成している。

The attention mechanism is becoming increasingly popular in Natural Language Processing (NLP) applications, showing superior performance than convolutional and recurrent architectures. However, general-purpose platforms such as CPUs and GPUs are inefficient when performing attention inference due to complicated data movement and low arithmetic intensity. Moreover, existing NN accelerators mainly focus on optimizing convolutional or recurrent models, and cannot efficiently support attention. In this paper, we present SpAtten, an efficient algorithm-architectu re co-design that leverages token sparsity, head sparsity, and quantization opportunities to reduce the attention computation and memory access. Inspired by the high redundancy of human languages, we propose the novel cascade token pruning to prune away unimportant tokens in the sentence. We also propose cascade head pruning to remove unessential heads. Cascade pruning is fundamentally different from weight pruning since there is no trainable weight in the attention mechanism, and the pruned tokens and heads are selected on the fly. To efficiently support them on hardware, we design a novel top-k engine to rank token and head importance scores with high throughput. Furthermore, we propose progressive quantization that first fetches MSBs only and performs the computation; if the confidence is low, it fetches LSBs and recomputes the attention outputs, trading computation for memory reduction. Extensive experiments on 30 benchmarks show that, on average, SpAtten reduces DRAM access by 10.0x with no accuracy loss, and achieves 1.6x, 3.0x, 162x, 347x speedup, and 1,4x, 3.2x, 1193x, 4059x energy savings over A3 accelerator, MNNFast accelerator, TITAN Xp GPU, Xeon CPU, respectively.
翻訳日:2021-05-02 12:39:26 公開日:2021-01-04
# 深層学習と高調波発生

Deep learning and high harmonic generation ( http://arxiv.org/abs/2012.10328v2 )

ライセンス: Link先を確認
M. Lytova and M. Spanner and I. Tamblyn(参考訳) 機械学習を用いて,高調波発生(hhg)シナリオに適用した場合,様々な深層ニューラルネットワーク(nn)の有用性を検討する。 まず、ランダムに生成されたパラメータ(レーザーパルス強度、核間距離、分子配向)の集合に基づいて、二原子系および三原子系の低次元モデルから時間依存双極子およびhhg放出スペクトルを予測するためにnnsを訓練する。 トレーニングされたネットワークは,システムのHHGスペクトルを高速に生成するための有用なツールである。 同様に、我々は、HHGスペクトルまたは双極子加速度データに基づいて分子パラメータを決定するためにNNを訓練した。 これらのタイプのネットワークは、システムの物理パラメータを回復するためにhhgスペクトルを反転させる分光器として使用できる。 次に,トランスファー学習をネットワークに適用し,トレーニングセットに新たなテストケースを追加するだけで,ネットワークの適用範囲を拡大できることを実証する。 最後に、分子をdiまたは三原子、対称または非対称の型で分類するために使用できるnnを示す。 実験データを用いたトレーニングの展望により、これらのnnトポロジーはhhg実験に組み込むことができる新しい分光ツールセットを提供する。

Using machine learning, we explore the utility of various deep neural networks (NN) when applied to high harmonic generation (HHG) scenarios. First, we train the NNs to predict the time-dependent dipole and spectra of HHG emission from reduced-dimensionali ty models of di- and triatomic systems based of on sets of randomly generated parameters (laser pulse intensity, internuclear distance, and molecular orientation). These networks, once trained, are useful tools to rapidly generate the HHG spectra of our systems. Similarly, we have trained the NNs to solve the inverse problem - to determine the molecular parameters based on HHG spectra or dipole acceleration data. These types of networks could then be used as spectroscopic tools to invert HHG spectra in order to recover the underlying physical parameters of a system. Next, we demonstrate that transfer learning can be applied to our networks to expand the range of applicability of the networks with only a small number of new test cases added to our training sets. Finally, we demonstrate NNs that can be used to classify molecules by type: di- or triatomic, symmetric or asymmetric, wherein we can even rely on fairly simple fully connected neural networks. With outlooks toward training with experimental data, these NN topologies offer a novel set of spectroscopic tools that could be incorporated into HHG experiments.
翻訳日:2021-05-01 17:57:53 公開日:2021-01-04
# (参考訳) 誰でもサインできるのか? 2次元ポーズによる手話ビデオ生成の検討 [全文訳有]

Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D Poses ( http://arxiv.org/abs/2012.10941v2 )

ライセンス: CC BY 4.0
Lucas Ventura, Amanda Duarte, Xavier Giro-i-Nieto(参考訳) 最近の研究は、手話のための人間の関節の2D/3D座標で表される人間のポーズの生成に対処している。 モーション転送のためのディープラーニングの最先端技術を用いて,アメリカの手話データセットhow2signを用いて,手話を実行する手話映像を2次元ポーズスケルトンで生成する。 筆者らは,手作業の細部が不足しているため,手話の適切なビデオを生成するには,現在のモデルでは不十分であることを示す。

Recent work have addressed the generation of human poses represented by 2D/3D coordinates of human joints for sign language. We use the state of the art in Deep Learning for motion transfer and evaluate them on How2Sign, an American Sign Language dataset, to generate videos of signers performing sign language given a 2D pose skeleton. We evaluate the generated videos quantitatively and qualitatively showing that the current models are not enough to generated adequate videos for Sign Language due to lack of detail in hands.
翻訳日:2021-05-01 07:56:10 公開日:2021-01-04
# 制御デトキシ化によるニューラルネットワークの深部空間トロイの木馬攻撃

Deep Feature Space Trojan Attack of Neural Networks by Controlled Detoxification ( http://arxiv.org/abs/2012.11212v2 )

ライセンス: Link先を確認
Siyuan Cheng, Yingqi Liu, Shiqing Ma, Xiangyu Zhang(参考訳) トロイの木馬(バックドア)攻撃はディープニューラルネットワークに対する敵攻撃の一種であり、攻撃者は悪意のあるデータに基づいて訓練・規制されたモデルを提供する。 バックドアは、通常の入力がトリガーと呼ばれる特定のパターンでスタンプされたときに起動され、誤分類を引き起こす。 既存のトロイの木馬攻撃の多くは、入力空間パッチ/オブジェクト(例えば、固体色のポリゴン)またはinstagramフィルタのような単純な入力変換である。 これらの単純なトリガーは、最近のバックドア検出アルゴリズムに影響を受けやすい。 提案手法は, 有効性, ステルス性, 制御性, 堅牢性, 信頼性の5つの特徴を持つ, 宇宙トロイの木馬攻撃である。 我々は、imagenetを含む様々なデータセット上で9つの画像分類器に関する広範囲な実験を行い、これらの特性を実証し、攻撃が最先端の防御を回避できることを実証する。

Trojan (backdoor) attack is a form of adversarial attack on deep neural networks where the attacker provides victims with a model trained/retrained on malicious data. The backdoor can be activated when a normal input is stamped with a certain pattern called trigger, causing misclassification. Many existing trojan attacks have their triggers being input space patches/objects (e.g., a polygon with solid color) or simple input transformations such as Instagram filters. These simple triggers are susceptible to recent backdoor detection algorithms. We propose a novel deep feature space trojan attack with five characteristics: effectiveness, stealthiness, controllability, robustness and reliance on deep features. We conduct extensive experiments on 9 image classifiers on various datasets including ImageNet to demonstrate these properties and show that our attack can evade state-of-the-art defense.
翻訳日:2021-04-27 06:44:16 公開日:2021-01-04
# ネットワークメカニズムの実証分類

Empirically Classifying Network Mechanisms ( http://arxiv.org/abs/2012.15863v2 )

ライセンス: Link先を確認
Ryan E. Langendorf and Matthew G. Burgess(参考訳) ネットワークモデルは、多くの物理的、生物学的、社会的分野にわたる相互接続システムの研究に使用される。 このようなモデルはしばしば特定のネットワーク生成機構を仮定し、データに適合するとシステムがどのように機能するかを記述するメカニズム固有のパラメータの見積もりを生成する。 例えば、ソーシャルネットワークモデルでは、新しい個人が既存のコネクションの数に比例する確率で他人とつながり("preferential attachment")を仮定し、同じ資格を持つ有名人と無名の個人間の相互作用の違いを推定する。 しかし、仮定されたメカニズムの関連性をテストする手段がなければ、そのようなモデルの結論は誤解を招く可能性がある。 本稿では,任意のネットワークデータを機械的に分類できる単純な経験的手法を提案する。 提案手法は,経験的ネットワークと,ユーザが提案するメカニズムからネットワークをモデル化し,各ネットワークを高い精度で分類する。 我々は、最も広く研究されている5つのネットワークメカニズムに対して、373の実証ネットワークをテストし、ほとんどの(228)がこれらのメカニズムと異なることを突き止めた。 これにより、いくつかの経験的ネットワークが機構の混合から生じる可能性が高まる。 異なる混合物が機能的に等価なネットワークを生成できるため、混合物はしばしば識別できない。 複数の機構によって制御されるそのようなシステムでは、我々の手法は依然として正確にサンプル外機能特性を予測できる。

Network models are used to study interconnected systems across many physical, biological, and social disciplines. Such models often assume a particular network-generating mechanism, which when fit to data produces estimates of mechanism-specific parameters that describe how systems function. For instance, a social network model might assume new individuals connect to others with probability proportional to their number of pre-existing connections ('preferential attachment'), and then estimate the disparity in interactions between famous and obscure individuals with similar qualifications. However, without a means of testing the relevance of the assumed mechanism, conclusions from such models could be misleading. Here we introduce a simple empirical approach which can mechanistically classify arbitrary network data. Our approach compares empirical networks to model networks from a user-provided candidate set of mechanisms, and classifies each network--with high accuracy--as originating from either one of the mechanisms or none of them. We tested 373 empirical networks against five of the most widely studied network mechanisms and found that most (228) were unlike any of these mechanisms. This raises the possibility that some empirical networks arise from mixtures of mechanisms. We show that mixtures are often unidentifiable because different mixtures can produce functionally equivalent networks. In such systems, which are governed by multiple mechanisms, our approach can still accurately predict out-of-sample functional properties.
翻訳日:2021-04-26 07:13:55 公開日:2021-01-04
# ハードケースによる自己教師型事前トレーニングによる視覚表現の改善

Self-supervised Pre-training with Hard Examples Improves Visual Representations ( http://arxiv.org/abs/2012.13493v2 )

ライセンス: Link先を確認
Chunyuan Li, Xiujun Li, Lei Zhang, Baolin Peng, Mingyuan Zhou, Jianfeng Gao(参考訳) 自己教師付き事前学習(ssp)は、ランダムな画像変換を用いて視覚表現学習のためのトレーニングデータを生成する。 本稿では,既存のSSP手法を擬似ラベル予測学習として統合したモデリングフレームワークを提案する。 次に,擬似ラベルがランダムな画像変換によって生成されたものよりも予測が難しい訓練例を生成するための新しいデータ拡張手法を提案する。 具体的には、adversarial trainingとcutmixを使用して、moco-v2とdeepcluster-v2の拡張ビューとして使用するためのハードサンプル(hexa)を作成しました。 実験では,imagenet上でモデルを事前学習し,複数の公開ベンチマークで評価した。 評価の結果,この2つのアルゴリズムは,従来のアルゴリズムよりも優れており,タスクの監督が制限されるような幅広いタスクにおいて,新たな最先端を実現することができた。 これらの結果は、厳密な例が事前訓練されたモデルの一般化に有効であることを示す。

Self-supervised pre-training (SSP) employs random image transformations to generate training data for visual representation learning. In this paper, we first present a modeling framework that unifies existing SSP methods as learning to predict pseudo-labels. Then, we propose new data augmentation methods of generating training examples whose pseudo-labels are harder to predict than those generated via random image transformations. Specifically, we use adversarial training and CutMix to create hard examples (HEXA) to be used as augmented views for MoCo-v2 and DeepCluster-v2, leading to two variants HEXA_{MoCo} and HEXA_{DCluster}, respectively. In our experiments, we pre-train models on ImageNet and evaluate them on multiple public benchmarks. Our evaluation shows that the two new algorithm variants outperform their original counterparts, and achieve new state-of-the-art on a wide range of tasks where limited task supervision is available for fine-tuning. These results verify that hard examples are instrumental in improving the generalization of the pre-trained models.
翻訳日:2021-04-25 04:39:35 公開日:2021-01-04
# POPO:悲観的なオフラインポリシー最適化

POPO: Pessimistic Offline Policy Optimization ( http://arxiv.org/abs/2012.13682v2 )

ライセンス: Link先を確認
Qiang He, Xinwen Hou(参考訳) オフライン強化学習(英: offline reinforcement learning, rl)は、環境との相互作用なしに、大規模な事前記録されたデータセットからのポリシーを最適化することを目的としている。 この設定は、多種多様なプレコンパイルデータセットを利用して、コスト、リスク、アクティブな探索なしにポリシーを得る、という約束を提供する。 しかし、一般的には、q-learningやactor-criticに基づくオフポリシーアルゴリズムは、静的データセットから学習する場合、パフォーマンスが悪くなる。 本研究では,オフライン設定において,オフラインでrlメソッドが学習できない理由について検討し,強ポリシーを得るために悲観的オフラインポリシー最適化(popo)と呼ばれる新しいオフラインrlアルゴリズムを提案する。 我々はPOPOが驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールし、ベンチマークタスクでいくつかの最先端のオフラインRLアルゴリズムを比較したり、性能を上げたりすることを発見した。

Offline reinforcement learning (RL), also known as batch RL, aims to optimize policy from a large pre-recorded dataset without interaction with the environment. This setting offers the promise of utilizing diverse, pre-collected datasets to obtain policies without costly, risky, active exploration. However, commonly used off-policy algorithms based on Q-learning or actor-critic perform poorly when learning from a static dataset. In this work, we study why off-policy RL methods fail to learn in offline setting from the value function view, and we propose a novel offline RL algorithm that we call Pessimistic Offline Policy Optimization (POPO), which learns a pessimistic value function to get a strong policy. We find that POPO performs surprisingly well and scales to tasks with high-dimensional state and action space, comparing or outperforming several state-of-the-art offline RL algorithms on benchmark tasks.
翻訳日:2021-04-25 01:14:08 公開日:2021-01-04
# 角度同期問題の不均一な設定への拡張

An extension of the angular synchronization problem to the heterogeneous setting ( http://arxiv.org/abs/2012.14932v2 )

ライセンス: Link先を確認
Mihai Cucuringu and Hemant Tyagi(参考訳) G = ([n], E)$ が与えられたとき、古典的な角度同期問題は未知のアングル $\theta_1,\dots,\the ta_n$ を $(\theta_i - \theta_j) \mod 2\pi$ という形のノイズの多い対の値の集まりから、それぞれ $\{i,j\} \in E$ を復元する。 この問題は、コンピュータビジョン、分散ネットワークの時間同期、選好関係からのランキングなど、さまざまなアプリケーションで発生します。 本稿では、$k$未知の角度群$\theta_{l,1}, \dots,\theta_{l,n}$, for $l=1,\dots,k$ の集合への一般化を考える。 それぞれの ${i,j\} \in E$ に対して、未知の $\ell \in \{1,2,\ldots,k\}$ に対して $\theta_{\ell,i} - \theta_{\ell,j}$ という形のノイズ対の測定が与えられる。 これは角同期問題から多角群の不均一な設定への自然な拡張と見なすことができ、そこでの測定グラフは未知のエッジ分離分解$G = G_1 \cup G_2 \ldots \cup G_k$, ここでは、$G_i$'sは各群に対応するエッジの部分グラフを表す。 本稿では, この問題に対する確率的生成モデルと, サンプリング間隔と雑音の両方に対する堅牢性の観点から, 詳細な理論的解析を行うスペクトルアルゴリズムを提案する。 理論的知見は,様々なパラメータ条件下でのアルゴリズムの有効性を示す,総合的な数値実験によって補完される。 最後に,グラフ実現問題に対するバイ同期化の適用について考察し,検討したすべての実験において最終的な回復精度を向上させることが示されるように,グラフのサブグラフである $G_i$, $i=1,\ldots,k$ を探索する反復グラフ解離手順を提案する。

Given an undirected measurement graph $G = ([n], E)$, the classical angular synchronization problem consists of recovering unknown angles $\theta_1,\dots,\the ta_n$ from a collection of noisy pairwise measurements of the form $(\theta_i - \theta_j) \mod 2\pi$, for each $\{i,j\} \in E$. This problem arises in a variety of applications, including computer vision, time synchronization of distributed networks, and ranking from preference relationships. In this paper, we consider a generalization to the setting where there exist $k$ unknown groups of angles $\theta_{l,1}, \dots,\theta_{l,n}$, for $l=1,\dots,k$. For each $ \{i,j\} \in E$, we are given noisy pairwise measurements of the form $\theta_{\ell,i} - \theta_{\ell,j}$ for an unknown $\ell \in \{1,2,\ldots,k\}$. This can be thought of as a natural extension of the angular synchronization problem to the heterogeneous setting of multiple groups of angles, where the measurement graph has an unknown edge-disjoint decomposition $G = G_1 \cup G_2 \ldots \cup G_k$, where the $G_i$'s denote the subgraphs of edges corresponding to each group. We propose a probabilistic generative model for this problem, along with a spectral algorithm for which we provide a detailed theoretical analysis in terms of robustness against both sampling sparsity and noise. The theoretical findings are complemented by a comprehensive set of numerical experiments, showcasing the efficacy of our algorithm under various parameter regimes. Finally, we consider an application of bi-synchronization to the graph realization problem, and provide along the way an iterative graph disentangling procedure that uncovers the subgraphs $G_i$, $i=1,\ldots,k$ which is of independent interest, as it is shown to improve the final recovery accuracy across all the experiments considered.
翻訳日:2021-04-18 20:41:22 公開日:2021-01-04
# 解剖学的脳バリアセグメンテーションのための組立ResUnet

Ensembled ResUnet for Anatomical Brain Barriers Segmentation ( http://arxiv.org/abs/2012.14567v2 )

ライセンス: Link先を確認
Munan Ning, Cheng Bian, Chenglang Yuan, Kai Ma, Yefeng Zheng(参考訳) 脳構造の高精度分割はグリオーマや放射線治療計画に有用である。 しかし、異なるモダリティの視覚的および解剖学的差異により、脳構造の正確なセグメンテーションが困難になる。 この問題に対処するために、我々はまずディープエンコーダと浅層デコーダを備えた残差ブロックベースのU字型ネットワークを構築し、フレームワークの性能と効率をトレードオフできる。 次に,異なる前景と背景クラス間のクラス不均衡の問題に対処するために,Tversky損失を導入する。 最後に,モデルアンサンブル戦略を用いて,異常値の除去とさらなる性能向上を図る。

Accuracy segmentation of brain structures could be helpful for glioma and radiotherapy planning. However, due to the visual and anatomical differences between different modalities, the accurate segmentation of brain structures becomes challenging. To address this problem, we first construct a residual block based U-shape network with a deep encoder and shallow decoder, which can trade off the framework performance and efficiency. Then, we introduce the Tversky loss to address the issue of the class imbalance between different foreground and the background classes. Finally, a model ensemble strategy is utilized to remove outliers and further boost performance.
翻訳日:2021-04-18 20:30:59 公開日:2021-01-04
# (参考訳) ディープトランスファー学習を用いたネットワークトラフィックモニタリングに向けて [全文訳有]

Towards Network Traffic Monitoring Using Deep Transfer Learning ( http://arxiv.org/abs/2101.00731v1 )

ライセンス: CC BY 4.0
Harsh Dhillon, Anwar Haque(参考訳) ネットワークトラフィックは世界中で増加傾向にある。 現代のネットワークインフラストラクチャは、古典的ネットワーク侵入検出手法を効率の悪いものにし、巨大なネットワークトラフィックの流入を分類する。 本稿では,様々な深層学習手法を用いて,ネットワーク侵入検知システム(NIDS)の構築に向けた最新のアプローチを提案する。 提案手法をさらに改良し,実世界の環境において有効にするために,本手法では,本手法で学習した知識を,豊富な計算資源とデータ資源を持つソースドメインから,両リソースの少ないターゲットドメインに転送する深層移動学習手法を用いる。 提案手法では,ソース領域で98.30%の分類精度,ターゲット領域で98.43%の分類精度が向上し,unsw-15データセットを用いた分類速度が向上した。 本研究は,ネットワーク分類を行うための大規模深層学習モデルの構築を可能にし,実世界対象領域に展開することで,リソースのアクセシビリティに制限があるにも関わらず,その分類性能を維持でき,分類速度を向上できることを実証する。

Network traffic is growing at an outpaced speed globally. The modern network infrastructure makes classic network intrusion detection methods inefficient to classify an inflow of vast network traffic. This paper aims to present a modern approach towards building a network intrusion detection system (NIDS) by using various deep learning methods. To further improve our proposed scheme and make it effective in real-world settings, we use deep transfer learning techniques where we transfer the knowledge learned by our model in a source domain with plentiful computational and data resources to a target domain with sparse availability of both the resources. Our proposed method achieved 98.30% classification accuracy score in the source domain and an improved 98.43% classification accuracy score in the target domain with a boost in the classification speed using UNSW-15 dataset. This study demonstrates that deep transfer learning techniques make it possible to construct large deep learning models to perform network classification, which can be deployed in the real world target domains where they can maintain their classification performance and improve their classification speed despite the limited accessibility of resources.
翻訳日:2021-04-12 09:01:19 公開日:2021-01-04
# (参考訳) 教師なしディープニューラルネットワークによる制約下での最適学習 [全文訳有]

Learning to Optimize Under Constraints with Unsupervised Deep Neural Networks ( http://arxiv.org/abs/2101.00744v1 )

ライセンス: CC BY 4.0
Seyedrazieh Bayati, Faramarz Jabbarvaziri(参考訳) 本稿では,一般的な制約付き連続最適化問題の解法を学ぶための機械学習(ML)手法を提案する。 我々の知る限り、最適化を学習し、制約のない最適化問題に焦点を合わせ、制約された問題に対処する一般的な手法は、簡単には一般化できない。 このアプローチは、問題のパラメータが絶えず変化し、パラメータ更新毎に最適化タスクを解決する必要がある最適化タスクで非常に有用である。 このような問題において、勾配降下法や内点法のような最適化アルゴリズムの計算複雑性は、リアルタイムアプリケーションにおける準最適設計を妨げる。 本稿では,主計算負荷をオフライン学習フェーズに回帰することで,制約付き最適化問題をリアルタイムに解くための教師なしディープラーニング(DL)ソリューションを提案する。 本論文の主な貢献は、汎用最適化タスクのためのdl生成解に等式と不等式制約を課す方法を提案することである。

In this paper, we propose a machine learning (ML) method to learn how to solve a generic constrained continuous optimization problem. To the best of our knowledge, the generic methods that learn to optimize, focus on unconstrained optimization problems and those dealing with constrained problems are not easy-to-generalize. This approach is quite useful in optimization tasks where the problem's parameters constantly change and require resolving the optimization task per parameter update. In such problems, the computational complexity of optimization algorithms such as gradient descent or interior point method preclude near-optimal designs in real-time applications. In this paper, we propose an unsupervised deep learning (DL) solution for solving constrained optimization problems in real-time by relegating the main computation load to offline training phase. This paper's main contribution is proposing a method for enforcing the equality and inequality constraints to the DL-generated solutions for generic optimization tasks.
翻訳日:2021-04-12 08:45:37 公開日:2021-01-04
# (参考訳) DSXplore:スライディングチャネル畳み込みによる畳み込みニューラルネットワークの最適化 [全文訳有]

DSXplore: Optimizing Convolutional Neural Networks via Sliding-Channel Convolutions ( http://arxiv.org/abs/2101.00745v1 )

ライセンス: CC BY 4.0
Yuke Wang, Boyuan Feng, Yufei Ding(参考訳) 畳み込みニューラルネットワーク(CNN)の鍵となる進歩として、モデル精度を維持しながらCNNの計算とパラメータサイズを削減する最も一般的な手法の1つとして、深層的に分離可能な畳み込み(DSC)がある。 また、計算能力やメモリに乏しいモバイルデバイスのような幅広いアプリケーションに対して、計算集約型およびメモリ集約型cnnの適用性を改善することにも大きな影響を与える。 しかし、dscsにおけるこれまでの研究は、既存のdsc設計の限られた組み合わせに重点を置いているため、より良い精度と高い計算/パラメータ削減を達成する可能性の高い設計を探求する機会を欠いている。 さらに、既製の畳み込み実装は限定的な計算スキームを提供するため、異なる畳み込みパターンを持つDSCをサポートしていない。 この目的のために我々は,CNN上でDSCを探索するための最初の最適化設計であるDSXploreを紹介する。 具体的には、アルゴリズムレベルでは、DSXploreは、精度性能と計算とメモリコストの削減のバランスをとるために、入力チャネルオーバーラップを特徴とする、新しいファクタライズドカーネル -- スライドチャネル畳み込み(SCC)を組み込んでいる。 SCCはまた、調整可能なカーネルパラメータを導入することで、設計の探索に膨大なスペースを提供する。 さらに,実装レベルでは,入力中心の後方設計やチャネル循環最適化など,SCC用に最適化されたGPU実装を実行する。 主流のcnn間で異なるデータセットに対する集中的な実験は、標準畳み込みと既存のdscsに対する精度と計算/パラメータのバランスにおけるdsxploreの利点を示している。

As the key advancement of the convolutional neural networks (CNNs), depthwise separable convolutions (DSCs) are becoming one of the most popular techniques to reduce the computations and parameters size of CNNs meanwhile maintaining the model accuracy. It also brings profound impact to improve the applicability of the compute- and memory-intensive CNNs to a broad range of applications, such as mobile devices, which are generally short of computation power and memory. However, previous research in DSCs are largely focusing on compositing the limited existing DSC designs, thus, missing the opportunities to explore more potential designs that can achieve better accuracy and higher computation/paramete r reduction. Besides, the off-the-shelf convolution implementations offer limited computing schemes, therefore, lacking support for DSCs with different convolution patterns. To this end, we introduce, DSXplore, the first optimized design for exploring DSCs on CNNs. Specifically, at the algorithm level, DSXplore incorporates a novel factorized kernel -- sliding-channel convolution (SCC), featured with input-channel overlapping to balance the accuracy performance and the reduction of computation and memory cost. SCC also offers enormous space for design exploration by introducing adjustable kernel parameters. Further, at the implementation level, we carry out an optimized GPU-implementation tailored for SCC by leveraging several key techniques, such as the input-centric backward design and the channel-cyclic optimization. Intensive experiments on different datasets across mainstream CNNs show the advantages of DSXplore in balancing accuracy and computation/paramete r reduction over the standard convolution and the existing DSCs.
翻訳日:2021-04-12 08:40:21 公開日:2021-01-04
# (参考訳) 勾配上のL2ノルム上のL1最小化 [全文訳有]

Minimizing L1 over L2 norms on the gradient ( http://arxiv.org/abs/2101.00809v1 )

ライセンス: CC BY 4.0
Chao Wang, Min Tao, Chen-Nee Chuah, James Nagy, Yifei Lou(参考訳) 本稿では,画像用勾配のl1/l2最小化について検討する。 いくつかの最近の研究により、L1/L2はL0ノルムを近似して疎性を促進する際にL1ノルムよりも優れていることが示されている。 したがって、画像勾配にl1/l2を適用することは、画像勾配のスパーシティを強制する古典的な全変動(勾配上のl1ノルム)よりも良いと仮定する。 この仮説を検証するために,L1/L2のL1に対する優位性に関する実証的な証拠を,低周波測定から断片的定値信号の復元に用いた。 数値解析により,乗算器の交互方向法 (ADMM) の逐次収束性を証明できる特定の分割方式を設計する。 実験的に,低周波計測による画像回復のためのL1/L2および他の非凸正則化の可視的改善とMRIとCTの2つの医学的応用を示した。 すべての数値結果は,提案手法の有効性を示す。

In this paper, we study the L1/L2 minimization on the gradient for imaging applications. Several recent works have demonstrated that L1/L2 is better than the L1 norm when approximating the L0 norm to promote sparsity. Consequently, we postulate that applying L1/L2 on the gradient is better than the classic total variation (the L1 norm on the gradient) to enforce the sparsity of the image gradient. To verify our hypothesis, we consider a constrained formulation to reveal empirical evidence on the superiority of L1/L2 over L1 when recovering piecewise constant signals from low-frequency measurements. Numerically, we design a specific splitting scheme, under which we can prove the subsequential convergence for the alternating direction method of multipliers (ADMM). Experimentally, we demonstrate visible improvements of L1/L2 over L1 and other nonconvex regularizations for image recovery from low-frequency measurements and two medical applications of MRI and CT reconstruction. All the numerical results show the efficiency of our proposed approach.
翻訳日:2021-04-12 07:17:07 公開日:2021-01-04
# (参考訳) マイクロアレイデータのためのアンサンブル分類器を用いた新しいバイオインスパイアハイブリッドマルチフィルタラッパー遺伝子選択法 [全文訳有]

A Novel Bio-Inspired Hybrid Multi-Filter Wrapper Gene Selection Method with Ensemble Classifier for Microarray Data ( http://arxiv.org/abs/2101.00819v1 )

ライセンス: CC BY 4.0
Babak Nouri-Moghaddam, Mehdi Ghazanfari, Mohammad Fathian(参考訳) マイクロアレイ技術はDNA発現データを収集するための最も重要なツールの1つとして知られている。 この技術により、研究者は病気の種類とその起源を調査し、調査することができる。 しかしながら、マイクロアレイデータは、小さなサンプルサイズ、かなりの数の遺伝子、不均衡なデータなどの課題としばしば関連づけられる。 分類モデルが非効率になります そこで,マルチフィルタと適応型カオス型多目的フォレスト最適化アルゴリズム(ac-mofoa)に基づく新しいハイブリッドソリューションを提案し,遺伝子選択問題を解き,アンサンブル分類器を構築する。 提案手法では、データセットの次元を減らすために、5つのフィルタ法を組み合わせて冗長で無関係な遺伝子を除去する。 そこで,非支配的ソート,群集距離,カオス理論,適応演算子の概念に基づくAC-MOFOAを提案する。 AC-MOFOAは,データセット次元の削減,KELMの最適化,分類精度の向上を目的としたラッパー手法である。 次に、AC-MOFOA結果を用いてアンサンブル分類器モデルを示し、マイクロアレイデータの分類を行う。 提案アルゴリズムの性能を9つの公開マイクロアレイデータセットで評価し, 選択された遺伝子数, 分類効率, 実行時間, 時間複雑性, および5つのハイブリッドマルチオブジェクト法によるハイパーボリュームインジケータ基準と比較した。 その結果,提案手法は,データセットの次元を小さくすることで,ほとんどのデータセットにおけるKELMの精度を向上し,他の多目的手法と比較して類似あるいは優れた性能が得られることがわかった。 さらに,従来のアンサンブル法と比較して,マイクロアレイデータの分類精度と一般化性の向上が期待できる。

Microarray technology is known as one of the most important tools for collecting DNA expression data. This technology allows researchers to investigate and examine types of diseases and their origins. However, microarray data are often associated with challenges such as small sample size, a significant number of genes, imbalanced data, etc. that make classification models inefficient. Thus, a new hybrid solution based on multi-filter and adaptive chaotic multi-objective forest optimization algorithm (AC-MOFOA) is presented to solve the gene selection problem and construct the Ensemble Classifier. In the proposed solution, to reduce the dataset's dimensions, a multi-filter model uses a combination of five filter methods to remove redundant and irrelevant genes. Then, an AC-MOFOA based on the concepts of non-dominated sorting, crowding distance, chaos theory, and adaptive operators is presented. AC-MOFOA as a wrapper method aimed at reducing dataset dimensions, optimizing KELM, and increasing the accuracy of the classification, simultaneously. Next, in this method, an ensemble classifier model is presented using AC-MOFOA results to classify microarray data. The performance of the proposed algorithm was evaluated on nine public microarray datasets, and its results were compared in terms of the number of selected genes, classification efficiency, execution time, time complexity, and hypervolume indicator criterion with five hybrid multi-objective methods. According to the results, the proposed hybrid method could increase the accuracy of the KELM in most datasets by reducing the dataset's dimensions and achieve similar or superior performance compared to other multi-objective methods. Furthermore, the proposed Ensemble Classifier model could provide better classification accuracy and generalizability in microarray data compared to conventional ensemble methods.
翻訳日:2021-04-12 06:54:17 公開日:2021-01-04
# (参考訳) アライメントとエッジ検出による絵画への関心の中心の同定:Luc Tuymansの作品の事例研究 [全文訳有]

Identifying centres of interest in paintings using alignment and edge detection: Case studies on works by Luc Tuymans ( http://arxiv.org/abs/2101.00858v1 )

ライセンス: CC BY 4.0
Sinem Aslan, Luc Steels(参考訳) アーティストがオリジナルイメージから絵画へ移行する、創造的なプロセスとは何か? コンピュータビジョンとパターン認識の手法を用いてこの過程を検証できるだろうか? ここでは、アーティストが原画に適用する変換の一部をアルゴリズム的に分解して、意味を持つ絵画の焦点領域である関心の中心を確立するための最初の予備的なステップを設定します。 本研究は,まず,絵画をベースとした原画から最小部分を切り離し,その画をこの源泉と整列させ,興味の中心を特定するための微差を調査し,その役割を理解しようとする比較手法を提案する。 本稿では,エッジに関するマイクロディファレンスにのみ焦点をあてる。 アーティストが絵画に興味を持つ場所と方法の研究は、キュレーター、美術史家、視聴者、美術教育者にとって貴重なものであり、アーティストが自身の芸術的手法を理解し、洗練するのを手助けするかもしれない。

What is the creative process through which an artist goes from an original image to a painting? Can we examine this process using techniques from computer vision and pattern recognition? Here we set the first preliminary steps to algorithmically deconstruct some of the transformations that an artist applies to an original image in order to establish centres of interest, which are focal areas of a painting that carry meaning. We introduce a comparative methodology that first cuts out the minimal segment from the original image on which the painting is based, then aligns the painting with this source, investigates micro-differences to identify centres of interest and attempts to understand their role. In this paper we focus exclusively on micro-differences with respect to edges. We believe that research into where and how artists create centres of interest in paintings is valuable for curators, art historians, viewers, and art educators, and might even help artists to understand and refine their own artistic method.
翻訳日:2021-04-12 06:24:42 公開日:2021-01-04
# (参考訳) 決定木分類器の公正な訓練 [全文訳有]

Fair Training of Decision Tree Classifiers ( http://arxiv.org/abs/2101.00909v1 )

ライセンス: CC BY 4.0
Francesco Ranzato, Caterina Urban, Marco Zanella(参考訳) 本研究では,決定木アンサンブルの個々フェアネスを形式的に検証する問題と,精度と個々フェアネスを最大化する木モデルの訓練について検討する。 本手法では, 正当性検証と正当性意識訓練の両方が, 対向機械学習における入力摂動下での標準頑健性の変種である分類モデルの安定性に依拠している。 本手法は,決定木の安定性特性に関するアサーションを自動推論できる静的プログラム解析のための確立された手法である。 本手法は, 判定木に対する対人訓練ツールを用いて, フェアネス認識学習法を実装し, フェアネス特性の評価に用いる基準データセットを用いて実験的に評価した。 実験結果から,本手法は個体の公正度が高い木モデルを訓練することができることがわかった。 自然の最先端のCARTの木と無作為な森林。 さらに、副産物として、これらの公正決定木は著しくコンパクトであることが判明し、そのフェアネス特性の解釈可能性を高めた。

We study the problem of formally verifying individual fairness of decision tree ensembles, as well as training tree models which maximize both accuracy and individual fairness. In our approach, fairness verification and fairness-aware training both rely on a notion of stability of a classification model, which is a variant of standard robustness under input perturbations used in adversarial machine learning. Our verification and training methods leverage abstract interpretation, a well established technique for static program analysis which is able to automatically infer assertions about stability properties of decision trees. By relying on a tool for adversarial training of decision trees, our fairness-aware learning method has been implemented and experimentally evaluated on the reference datasets used to assess fairness properties. The experimental results show that our approach is able to train tree models exhibiting a high degree of individual fairness w.r.t. the natural state-of-the-art CART trees and random forests. Moreover, as a by-product, these fair decision trees turn out to be significantly compact, thus enhancing the interpretability of their fairness properties.
翻訳日:2021-04-12 06:10:02 公開日:2021-01-04
# (参考訳) salient object subitizing による弱教師付き塩分検出 [全文訳有]

Weakly-Supervised Saliency Detection via Salient Object Subitizing ( http://arxiv.org/abs/2101.00932v1 )

ライセンス: CC BY 4.0
Xiaoyang Zheng, Xin Tan, Jie Zhou, Lizhuang Ma, Rynson W.H. Lau(参考訳) salient object detectionは、最も視覚的に異なるオブジェクトを検出し、対応するマスクを生成することを目的としている。 ピクセルレベルのアノテーションのコストが高いため、イメージタグは通常、弱い監視手段として使用される。 しかし、イメージタグはオブジェクトの1つのクラスにアノテートするためにのみ使用できる。 本稿では,クラス非依存であるため,弱い監督として塩分サブイタライジングを導入する。 これにより、画像の健全なオブジェクトが1つ以上のクラスから得られるような、塩分濃度検出の特性に調整することができる。 そこで本稿では,SSM (Saliency Subitizing Module) とSUM (Saliency Updating Module) の2つのモジュールからなるモデルを提案する。 SSMはサブティナイズ情報を用いて初期唾液マスクを生成することを学ぶが、教師なしの方法やランダムなシードは必要とせず、SUMは生成した唾液マスクを反復的に洗練する。 5つのベンチマークデータセットに対して広範な実験を行う。 実験結果から,本手法は他の弱教師付き手法よりも優れ,完全教師付き手法と相容れない性能を示した。

Salient object detection aims at detecting the most visually distinct objects and producing the corresponding masks. As the cost of pixel-level annotations is high, image tags are usually used as weak supervisions. However, an image tag can only be used to annotate one class of objects. In this paper, we introduce saliency subitizing as the weak supervision since it is class-agnostic. This allows the supervision to be aligned with the property of saliency detection, where the salient objects of an image could be from more than one class. To this end, we propose a model with two modules, Saliency Subitizing Module (SSM) and Saliency Updating Module (SUM). While SSM learns to generate the initial saliency masks using the subitizing information, without the need for any unsupervised methods or some random seeds, SUM helps iteratively refine the generated saliency masks. We conduct extensive experiments on five benchmark datasets. The experimental results show that our method outperforms other weakly-supervised methods and even performs comparably to some fully-supervised methods.
翻訳日:2021-04-12 05:52:47 公開日:2021-01-04
# (参考訳) VGG-XGBoost法とFuzzy Clustering-Level Set法によるCT画像の肺病変の分類と分類 [全文訳有]

Classification and Segmentation of Pulmonary Lesions in CT images using a combined VGG-XGBoost method, and an integrated Fuzzy Clustering-Level Set technique ( http://arxiv.org/abs/2101.00948v1 )

ライセンス: CC BY-SA 4.0
Niloofar Akhavan Javan, Ali Jebreili, Babak Mozafari, Morteza Hosseinioun(参考訳) 肺がんは最も致命的な病気の1つであり、多くの人が毎年この病気で死亡していることから、早期発見と診断が重要であり、がんの増殖と拡散を防いでいる。 がんが早期に診断されると、患者の命が救われる。 しかし、現在の肺疾患の診断は、この分野の専門家を必要とする時間を要する人的資源によって行われる。 また、人間の診断には高いレベルの誤りがある。 我々の目標は、肺病変を高精度に検出・分類し、CTスキャン画像に分類するシステムを開発することである。 提案手法では,まずCTスキャン画像から特徴を自動的に抽出し,抽出した特徴をEnsemble Gradient Boosting法により分類する。 最後に、CTスキャン画像に病変がある場合、ファジィクラスタリングやレベルセットを含む[1]に基づくハイブリッド法を用いて、病変をセグメント化する。 肺病変のCTスキャン画像を含むデータセットを収集した。 対象地域はマシュハドの患者であった。 収集されたサンプルは専門家によってタグ付けされた。 このデータセットをトレーニングとテストに使用しました。 最後に、このデータセットの精度96%を達成できたのです。 このシステムは、医師が肺病変を診断し、起こりうる間違いを防ぐのに役立つ。

Given that lung cancer is one of the deadliest diseases, and many die from the disease every year, early detection and diagnosis of this disease are valuable, preventing cancer from growing and spreading. So if cancer is diagnosed in the early stage, the patient's life will be saved. However, the current pulmonary disease diagnosis is made by human resources, which is time-consuming and requires a specialist in this field. Also, there is a high level of errors in human diagnosis. Our goal is to develop a system that can detect and classify lung lesions with high accuracy and segment them in CT-scan images. In the proposed method, first, features are extracted automatically from the CT-scan image; then, the extracted features are classified by Ensemble Gradient Boosting methods. Finally, if there is a lesion in the CT-scan image, using a hybrid method based on [1], including Fuzzy Clustering and Level Set, the lesion is segmented. We collected a dataset, including CT-scan images of pulmonary lesions. The target community was the patients in Mashhad. The collected samples were then tagged by a specialist. We used this dataset for training and testing our models. Finally, we were able to achieve an accuracy of 96% for this dataset. This system can help physicians to diagnose pulmonary lesions and prevent possible mistakes.
翻訳日:2021-04-12 05:35:45 公開日:2021-01-04
# (参考訳) GANの誘導:条件付き画像生成のための条件付き事前訓練GANの制御方法 [全文訳有]

Guiding GANs: How to control non-conditional pre-trained GANs for conditional image generation ( http://arxiv.org/abs/2101.00990v1 )

ライセンス: CC BY 4.0
Manel Mateos, Alejandro Gonz\'alez, Xavier Sevillano(参考訳) Generative Adversarial Networks(GAN)は、ランダム入力から画像などの人工データを生成するために共同で訓練された2つのニューラルネットワーク(ジェネレータと識別器)のアレンジである。 これらの生成された画像の品質は、最近そのようなレベルに達し、マシンと人間の両方が、実例で偽造を誤認する可能性がある。 しかし、GANの生成元によって実行されるプロセスには、特定のクラスのサブカテゴリから画像を生成するようにネットワークに条件付けしたい場合、いくつかの制限がある。 最近のアプローチでは、画像意味セグメンテーションやテキスト記述など、トレーニングプロセスの前に追加情報を導入することで、この \textit{conditional generation}に対処している。 これらのテクニックは成功しても、望まれるサブカテゴリを事前に定義し、GANをスクラッチからトレーニングするために、それらを表す大きなラベル付きイメージデータセットを収集する必要がある。 本稿では,一般的な非条件付きGANを条件付きGANとして振舞うための,新しい代替手法を提案する。 ganを再トレーニングする代わりに、このアプローチでは、エンコーダネットワークをミックスして、非条件ganのジェネレータネットワークに供給される高次元のランダム入力ベクトルを生成し、特定のサブカテゴリから画像を生成する。 実験では,条件付きGANをスクラッチからトレーニングした場合と比較して,わずか数百の画像でエンコーダを訓練した後,非条件付きGANに匹敵する品質の人工的な画像を生成することができ,処理を大幅に高速化し,新たなサブカテゴリをシームレスに追加することができる。

Generative Adversarial Networks (GANs) are an arrange of two neural networks -- the generator and the discriminator -- that are jointly trained to generate artificial data, such as images, from random inputs. The quality of these generated images has recently reached such levels that can often lead both machines and humans into mistaking fake for real examples. However, the process performed by the generator of the GAN has some limitations when we want to condition the network to generate images from subcategories of a specific class. Some recent approaches tackle this \textit{conditional generation} by introducing extra information prior to the training process, such as image semantic segmentation or textual descriptions. While successful, these techniques still require defining beforehand the desired subcategories and collecting large labeled image datasets representing them to train the GAN from scratch. In this paper we present a novel and alternative method for guiding generic non-conditional GANs to behave as conditional GANs. Instead of re-training the GAN, our approach adds into the mix an encoder network to generate the high-dimensional random input vectors that are fed to the generator network of a non-conditional GAN to make it generate images from a specific subcategory. In our experiments, when compared to training a conditional GAN from scratch, our guided GAN is able to generate artificial images of perceived quality comparable to that of non-conditional GANs after training the encoder on just a few hundreds of images, which substantially accelerates the process and enables adding new subcategories seamlessly.
翻訳日:2021-04-12 05:23:42 公開日:2021-01-04
# (参考訳) 時空間予測のための説明器付き条件付き局所フィルタ [全文訳有]

Conditional Local Filters with Explainers for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2101.01000v1 )

ライセンス: CC BY 4.0
Haitao Lin, Zhangyang Gao, Lirong Wu, Stan. Z. Li(参考訳) 時空間予測は、時空間力学における高非線形性や、空間領域、特に地球物理学、交通流などの分野における複雑な依存性や位置特性パターンに起因する。 本研究では,空間依存を捉えるために,新しいグラフに基づく有向畳み込みを提案する。 可変局所パターンをモデル化するために,接空間に基づく座標の局所表現上の関数によってパラメータ化された有向グラフ上の畳み込みのための条件付き局所フィルタを提案する。 このフィルタは、時間間隔の異なるパターンの解釈可能性のために確立された説明器を用いて、時間ダイナミクスをモデル化するためのリカレントニューラルネットワーク(RNN)アーキテクチャに組み込まれている。 提案手法は,道路網の交通流,地表面温度,風速,疫病拡散といった実世界のデータセットを用いて評価し,最先端の性能を向上した。

Spatio-temporal prediction is challenging attributing to the high nonlinearity in temporal dynamics as well as complex dependency and location-characteriz ed pattern in spatial domains, especially in fields like geophysics, traffic flow, etc. In this work, a novel graph-based directed convolution is proposed to capture the spatial dependency. To model the variable local pattern, we propose conditional local filters for convolution on the directed graph, parameterized by the functions on local representation of coordinate based on tangent space. The filter is embedded in a Recurrent Neural Network (RNN) architecture for modeling the temporal dynamics with an explainer established for interpretability of different time intervals' pattern. The methods are evaluated on real-world datasets including road network traffic flow, earth surface temperature \& wind flows and disease spread datasets, achieving the state-of-the-art performance with improvements.
翻訳日:2021-04-12 05:11:56 公開日:2021-01-04
# (参考訳) 逆生成制限ボルツマンマシンを用いた高速アンサンブル学習 [全文訳有]

Fast Ensemble Learning Using Adversarially-Genera ted Restricted Boltzmann Machines ( http://arxiv.org/abs/2101.01042v1 )

ライセンス: CC BY 4.0
Gustavo H. de Rosa, Mateus Roder, Jo\~ao P. Papa(参考訳) 機械学習は、画像分類から自動運転、自然言語処理まで、過去数年間にわたって幅広いタスクに応用されてきた。 制限ボルツマン機械(rbm)は近年注目を集め、データ確率分布をモデル化するエネルギーベースの構造に依存している。 とはいえ、このようなテクニックは逆境操作、すなわちわずかに、あるいは大きく修正されたデータに影響を受けやすい。 敵対的問題を克服する別の方法として、データ分散をモデル化し、元のものと類似した逆データを生成するGAN(Generative Adversarial Networks)がある。 そこで本研究では,事前学習した重み行列がGAN入力として機能するAdversarial Learningを用いて,RBMを人工的に生成することを提案する。 さらに,新しいモデルの訓練の負担を軽減するため,共用量の行列をサンプリングしてアンサンブルに組み合わせることを提案する。 実験結果は,画像再構成および画像分類課題における提案手法の適合性を示し,大量のrbmの事前学習に代わる人工的なアンサンブルについて述べる。

Machine Learning has been applied in a wide range of tasks throughout the last years, ranging from image classification to autonomous driving and natural language processing. Restricted Boltzmann Machine (RBM) has received recent attention and relies on an energy-based structure to model data probability distributions. Notwithstanding, such a technique is susceptible to adversarial manipulation, i.e., slightly or profoundly modified data. An alternative to overcome the adversarial problem lies in the Generative Adversarial Networks (GAN), capable of modeling data distributions and generating adversarial data that resemble the original ones. Therefore, this work proposes to artificially generate RBMs using Adversarial Learning, where pre-trained weight matrices serve as the GAN inputs. Furthermore, it proposes to sample copious amounts of matrices and combine them into ensembles, alleviating the burden of training new models'. Experimental results demonstrate the suitability of the proposed approach under image reconstruction and image classification tasks, and describe how artificial-based ensembles are alternatives to pre-training vast amounts of RBMs.
翻訳日:2021-04-12 04:44:58 公開日:2021-01-04
# (参考訳) 関数的制約を伴う凸最適化問題の解法の比較 [全文訳有]

Comparing different subgradient methods for solving convex optimization problems with functional constraints ( http://arxiv.org/abs/2101.01045v1 )

ライセンス: CC BY 4.0
Thi Lan Dinh and Ngoc Hoang Anh Mai(参考訳) すべての$r> 1$に対して、複雑性 $\mathcal{O}(\varepsilon^{-2})$ と $\mathcal{O}(\varepsilon^{-2r})$ の標準凸最適化問題に対する双対劣次法と原始双対劣次法を提供する。 彼らは最近の[arXiv:2009.12769, 2020, pp]におけるMetel-Takedaの業績に基づいている。 1-12] and boyd's method in [lecture notes of ee364b, stanford university, spring 2013-14, pp。 1-39]. 本手法の効率は,他の手法との比較において数値的に説明される。

We provide a dual subgradient method and a primal-dual subgradient method for standard convex optimization problems with complexity $\mathcal{O}(\varepsilon^{-2})$ and $\mathcal{O}(\varepsilon^{-2r})$, for all $r> 1$, respectively. They are based on recent Metel-Takeda's work in [arXiv:2009.12769, 2020, pp. 1-12] and Boyd's method in [Lecture notes of EE364b, Stanford University, Spring 2013-14, pp. 1-39]. The efficiency of our methods is numerically illustrated in a comparison to the others.
翻訳日:2021-04-12 04:37:29 公開日:2021-01-04
# (参考訳) マルチアーマッドバンドにおける悲しみ [全文訳有]

Be Greedy in Multi-Armed Bandits ( http://arxiv.org/abs/2101.01086v1 )

ライセンス: CC BY 4.0
Matthieu Jedor, Jonathan Lou\"edec, Vianney Perchet(参考訳) グリーディアルゴリズムは、各ラウンドの局所最適選択を不注意に受け取り、探索および/または情報収集の利点を無視する、シーケンシャルな決定問題の最も単純なヒューリスティックである。 理論的には、例えば、標準的な多腕バンディット問題において(時間軸に関して)線形な後悔さえも、パフォーマンスが悪かったことが知られている。 一方、このヒューリスティックは実際かなりうまく機能し、非常に特定の線形文脈的およびベイズ的バンディットモデルにおいて、部分線型、あるいは近似的、後悔的境界さえも持つ。 我々は,最近の研究成果に基づいて,腕数は比較的多く,単純な欲望アルゴリズムが理論上,実際上,高い競争性能を享受するバンディットの設定を調査した。 まず、Greedyアルゴリズムの後悔に基づく一般的な最悪のケースを提供する。 いくつかのアームのサブサンプリングと組み合わせると、連続、無限、多腕のバンディット問題において、ほぼ最適の最悪の後悔境界を検証することが証明される。 さらに、短い時間スパンに対して、欲望の理論的相対的準最適性も減少する。 結果として、多くの興味深い問題と関連する地平線に対して、理論的な保証、実用的性能、計算の負担の間の最良の妥協は、確実に欲望のヒューリスティックに従うことであると主張する。 我々は,中程度に長い地平線でも最新技術と比較して大幅な改善を示す多くの数値実験によって,我々の主張を支持している。

The Greedy algorithm is the simplest heuristic in sequential decision problem that carelessly takes the locally optimal choice at each round, disregarding any advantages of exploring and/or information gathering. Theoretically, it is known to sometimes have poor performances, for instance even a linear regret (with respect to the time horizon) in the standard multi-armed bandit problem. On the other hand, this heuristic performs reasonably well in practice and it even has sublinear, and even near-optimal, regret bounds in some very specific linear contextual and Bayesian bandit models. We build on a recent line of work and investigate bandit settings where the number of arms is relatively large and where simple greedy algorithms enjoy highly competitive performance, both in theory and in practice. We first provide a generic worst-case bound on the regret of the Greedy algorithm. When combined with some arms subsampling, we prove that it verifies near-optimal worst-case regret bounds in continuous, infinite and many-armed bandit problems. Moreover, for shorter time spans, the theoretical relative suboptimality of Greedy is even reduced. As a consequence, we subversively claim that for many interesting problems and associated horizons, the best compromise between theoretical guarantees, practical performances and computational burden is definitely to follow the greedy heuristic. We support our claim by many numerical experiments that show significant improvements compared to the state-of-the-art, even for moderately long time horizon.
翻訳日:2021-04-12 03:45:08 公開日:2021-01-04
# (参考訳) ブロードバンドの多層化にむけて [全文訳有]

Etat de l'art sur l'application des bandits multi-bras ( http://arxiv.org/abs/2101.00001v1 )

ライセンス: CC BY 4.0
Djallel Bouneffouf(参考訳) マルチアームのバンディットは、既に学習済みの知識を同時に学習し、活用する利点を提供する。 この能力により、このアプローチは、患者の損失を最小限に抑えながら、異なる実験的な治療の効果を調査している臨床試験から、ネットワークの遅延を最小限にするアダプティブルーティングまで、さまざまな領域で適用することができる。 本稿では,実生活シナリオへの帯域幅の適用に関する最近の成果を概観し,各分野の技術を要約する。 epsilon-greedy, upper confidence bound (ucb) や thompson sampling (ts) など、この問題を解決するために異なる手法が提案されている。 我々は、このアルゴリズムが探査のさまざまな問題を解決するためにどのように適応されたかを示す。

The Multi-armed bandit offer the advantage to learn and exploit the already learnt knowledge at the same time. This capability allows this approach to be applied in different domains, going from clinical trials where the goal is investigating the effects of different experimental treatments while minimizing patient losses, to adaptive routing where the goal is to minimize the delays in a network. This article provides a review of the recent results on applying bandit to real-life scenario and summarize the state of the art for each of these fields. Different techniques has been proposed to solve this problem setting, like epsilon-greedy, Upper confident bound (UCB) and Thompson Sampling (TS). We are showing here how this algorithms were adapted to solve the different problems of exploration exploitation.
翻訳日:2021-04-12 03:05:54 公開日:2021-01-04
# (参考訳) 再帰的ネットワークモデルを用いたソフトアクチュエータの高帯域非線形制御 [全文訳有]

High-bandwidth nonlinear control for soft actuators with recursive network models ( http://arxiv.org/abs/2101.01139v1 )

ライセンス: CC BY 4.0
Sarah Aguasvivas Manzano, Patricia Xu, Khoi Ly, Robert Shepherd, Nikolaus Correll(参考訳) 本稿では,前方出力予測とNewton-Raphsonを用いたオンライン最適化のために,擬似再帰層を組み合わせたソフトアクチュエータの高帯域幅,軽量,非線形出力追跡手法を提案する。 この手法により、従来のRNNモデルと比較してモデルサイズを縮小し、制御ループ周波数を増大させることができる。 柔らかい位置センサを備えた単一軟質アクチュエータの試作実験結果から,参照空間軌道の効率的な追跡と機械的・電磁的障害の拒絶が示唆された。 これらは、1.8mmのルート平均2乗経路追跡誤差(RMSE)が完全連結(FC)サブストラクチャを使用しており、1.62mmはゲートリカレントユニット(GRU)を使い、2.11mmは長期メモリ(LSTM)ユニットで、3つのタスクで平均化されている。 これらのモデルの中で最も高いフラッシュメモリ要件は2.22kBであり、コントローラとアクチュエータの同時配置を可能にする。

We present a high-bandwidth, lightweight, and nonlinear output tracking technique for soft actuators that combines parsimonious recursive layers for forward output predictions and online optimization using Newton-Raphson. This technique allows for reduced model sizes and increased control loop frequencies when compared with conventional RNN models. Experimental results of this controller prototype on a single soft actuator with soft positional sensors indicate effective tracking of referenced spatial trajectories and rejection of mechanical and electromagnetic disturbances. These are evidenced by root mean squared path tracking errors (RMSE) of 1.8mm using a fully connected (FC) substructure, 1.62mm using a gated recurrent unit (GRU) and 2.11mm using a long short term memory (LSTM) unit, all averaged over three tasks. Among these models, the highest flash memory requirement is 2.22kB enabling co-location of controller and actuator.
翻訳日:2021-04-12 02:04:57 公開日:2021-01-04
# (参考訳) 低解像度ラベルからの高分解能土地被覆変化:2021年IEEE GRSSデータフュージョンコンテストの簡易ベースライン [全文訳有]

High-resolution land cover change from low-resolution labels: Simple baselines for the 2021 IEEE GRSS Data Fusion Contest ( http://arxiv.org/abs/2101.01154v1 )

ライセンス: CC BY 4.0
Nikolay Malkin, Caleb Robinson, Nebojsa Jojic(参考訳) 2021年IEEE GRSSデータフュージョンコンテストにおいて,土地被覆変化検出のための簡単なアルゴリズムを提案する。 コンテストの課題は、複数の解像度の画像とラベルデータに基づいて、メリーランド州メリーランドにある研究エリアの高解像度(1m/ピクセル)土地被覆変更マップを作成することである。 このタスクのベースラインモデルについて検討し、さらなる研究の方向性について論じる。 https://dfc2021.blob .core.windows.net/co mpetition-data/dfc20 21_index.txt データと、これらのベースラインの実装のためのhttps://github.com/c alebrob6/dfc2021-msd -baselineを参照。

We present simple algorithms for land cover change detection in the 2021 IEEE GRSS Data Fusion Contest. The task of the contest is to create high-resolution (1m / pixel) land cover change maps of a study area in Maryland, USA, given multi-resolution imagery and label data. We study several baseline models for this task and discuss directions for further research. See https://dfc2021.blob .core.windows.net/co mpetition-data/dfc20 21_index.txt for the data and https://github.com/c alebrob6/dfc2021-msd -baseline for an implementation of these baselines.
翻訳日:2021-04-12 01:55:14 公開日:2021-01-04
# (参考訳) 同時ローカライズとマッピングのためのハイブリッド学習器 [全文訳有]

A Hybrid Learner for Simultaneous Localization and Mapping ( http://arxiv.org/abs/2101.01158v1 )

ライセンス: CC BY 4.0
Thangarajah Akilan and Edna Johnson and Japneet Sandhu and Ritika Chadha and Gaurav Taluja(参考訳) 同時ローカライゼーション・マッピング(slam)は、位置座標と物理環境の正確なマッピングに基づいて、移動プラットフォームの動的運動経路を予測するために用いられる。 SLAMは拡張現実(AR)、自動運転車、Vizに大きな可能性を秘めている。 自動運転車、ドローン、自律ナビゲーションロボット(ANR)。 本研究は,特徴融合を超越したハイブリッド学習モデルを導入し,ベースラインSLAMアルゴリズムの性能向上に向けたマルチモーダルウェイトミシン戦略を実行する。 SLAMのフロントエンド特徴抽出器の重量増強は、異なるディープネットワークのトップ層の突然変異によって行われる。 同時に、独立に訓練されたモデルからの軌道予測は、位置の詳細を洗練するために集約される。 このように,ハイブリッド学習フレームワークによる早期・後期融合技術の統合により,SLAMモデルの翻訳・回転誤差を最小化する。 本研究では,resnet18,resnet34,r esnet50,resnet101,vg g16,vgg19,alexnetなど,著名なディープラーニング(dl)アーキテクチャを実験的解析に活用する。 複合学習者(HL)は, 早期・後期の融合戦略を用いた一助的アプローチやマルチモーダルアプローチよりも有意に優れた結果が得られることを示す。 したがって、この研究で得られたアポロスケープのデータセットは、SLAMの論文に融合技術で使われていないため、この研究はユニークで洞察力に富んでいる。

Simultaneous localization and mapping (SLAM) is used to predict the dynamic motion path of a moving platform based on the location coordinates and the precise mapping of the physical environment. SLAM has great potential in augmented reality (AR), autonomous vehicles, viz. self-driving cars, drones, Autonomous navigation robots (ANR). This work introduces a hybrid learning model that explores beyond feature fusion and conducts a multimodal weight sewing strategy towards improving the performance of a baseline SLAM algorithm. It carries out weight enhancement of the front end feature extractor of the SLAM via mutation of different deep networks' top layers. At the same time, the trajectory predictions from independently trained models are amalgamated to refine the location detail. Thus, the integration of the aforesaid early and late fusion techniques under a hybrid learning framework minimizes the translation and rotation errors of the SLAM model. This study exploits some well-known deep learning (DL) architectures, including ResNet18, ResNet34, ResNet50, ResNet101, VGG16, VGG19, and AlexNet for experimental analysis. An extensive experimental analysis proves that hybrid learner (HL) achieves significantly better results than the unimodal approaches and multimodal approaches with early or late fusion strategies. Hence, it is found that the Apolloscape dataset taken in this work has never been used in the literature under SLAM with fusion techniques, which makes this work unique and insightful.
翻訳日:2021-04-12 01:46:04 公開日:2021-01-04
# (参考訳) 細胞質内精子注入術におけるセマンティックビデオセグメンテーション [全文訳有]

Semantic Video Segmentation for Intracytoplasmic Sperm Injection Procedures ( http://arxiv.org/abs/2101.01207v1 )

ライセンス: CC BY 4.0
Peter He, Raksha Jain, J\'er\^ome Chambost, C\'eline Jacques, Cristina Hickman(参考訳) 細胞質内精子注入法 (ICSI) 解析のための最初の深層学習モデルを提案する。 ICSIプロシージャビデオのデータセットを用いて、深いニューラルネットワークを使用して、0.962の平均IoUを達成するビデオ内のキーオブジェクトをセグメント化し、単一のGPU上で平均3.793ピクセルの画素誤差を達成するニードル先端を14FPSでローカライズする。 さらに、データセットのヒューマンアノテータ間のバリエーションを分析し、モデルのパフォーマンスが人間のエキスパートに匹敵するものであることを見出します。

We present the first deep learning model for the analysis of intracytoplasmic sperm injection (ICSI) procedures. Using a dataset of ICSI procedure videos, we train a deep neural network to segment key objects in the videos achieving a mean IoU of 0.962, and to localize the needle tip achieving a mean pixel error of 3.793 pixels at 14 FPS on a single GPU. We further analyze the variation between the dataset's human annotators and find the model's performance to be comparable to human experts.
翻訳日:2021-04-12 00:34:06 公開日:2021-01-04
# (参考訳) 動的グラフの埋め込みに関する調査

A Survey on Embedding Dynamic Graphs ( http://arxiv.org/abs/2101.01229v1 )

ライセンス: CC BY 4.0
Claudio D. T. Barros (1), Matheus R. F. Mendon\c{c}a (1), Alex B. Vieira (2), Artur Ziviani (1) ((1) National Laboratory for Scientific Computing (LNCC), Petr\'opolis, RJ, Brazil, (2) Federal University of Juiz de Fora (UFJF), Juiz de Fora, MG, Brazil)(参考訳) 低次元ベクトル空間に静的グラフを埋め込むことは、ノード分類、リンク予測、グラフ視覚化といったアプリケーションをサポートするネットワーク分析と推論において重要な役割を果たす。 しかし、多くの実世界のネットワークは、トポロジカル進化、特徴進化、拡散を含む動的挙動を示す。 そのため,時間領域モデリングや時間的特徴,埋め込みする時間的粒度といった新たな課題に直面し,時間とともにネットワーク表現を学習するために動的グラフを埋め込む方法が提案されている。 本稿では,動的グラフの埋め込みを概観し,その基礎と最近の進歩を論じる。 本稿では,動的グラフ埋め込みの形式的定義について,問題の設定に着目し,動的グラフ埋め込み入出力の新しい分類法を提案する。 さらに,埋め込み,トポロジカル進化による分類,特徴進化,ネットワーク上のプロセスなどによって包含される異なる動的動作についても検討する。 その後,既存の手法について述べるとともに,行列分解やテンソル分解から深層学習,ランダムウォーク,時間的点過程まで,アルゴリズム的手法に基づく動的グラフ埋め込み手法の分類法を提案する。 また, 動的リンク予測, 異常検出, 拡散予測など, 主な応用法を明らかにするとともに, この分野における有望な研究方向についても述べる。

Embedding static graphs in low-dimensional vector spaces plays a key role in network analytics and inference, supporting applications like node classification, link prediction, and graph visualization. However, many real-world networks present dynamic behavior, including topological evolution, feature evolution, and diffusion. Therefore, several methods for embedding dynamic graphs have been proposed to learn network representations over time, facing novel challenges, such as time-domain modeling, temporal features to be captured, and the temporal granularity to be embedded. In this survey, we overview dynamic graph embedding, discussing its fundamentals and the recent advances developed so far. We introduce the formal definition of dynamic graph embedding, focusing on the problem setting and introducing a novel taxonomy for dynamic graph embedding input and output. We further explore different dynamic behaviors that may be encompassed by embeddings, classifying by topological evolution, feature evolution, and processes on networks. Afterward, we describe existing techniques and propose a taxonomy for dynamic graph embedding techniques based on algorithmic approaches, from matrix and tensor factorization to deep learning, random walks, and temporal point processes. We also elucidate main applications, including dynamic link prediction, anomaly detection, and diffusion prediction, and we further state some promising research directions in the area.
翻訳日:2021-04-12 00:10:56 公開日:2021-01-04
# (参考訳) 連続グルコースモニタリング予測 [全文訳有]

Continuous Glucose Monitoring Prediction ( http://arxiv.org/abs/2101.02557v1 )

ライセンス: CC BY 4.0
Julia Ann Jose, Trae Waggoner, Sudarsan Manikandan(参考訳) 糖尿病は世界で最も致命的な病気の1つであり、世界の成人人口の約10%に影響を及ぼす。 幸いなことに、強力な新技術は糖尿病患者の一貫性と信頼性のある治療計画を可能にしている。 主要な開発は連続血糖モニタリング(CGM)と呼ばれるシステムである。 本総説では,糖尿病患者から得られたcgmデータを用いて開発した3種類の連続食事検出アルゴリズムについて検討する。 この解析から,これらの手法を用いて初期食事予測アルゴリズムも開発された。

Diabetes is one of the deadliest diseases in the world and affects nearly 10 percent of the global adult population. Fortunately, powerful new technologies allow for a consistent and reliable treatment plan for people with diabetes. One major development is a system called continuous blood glucose monitoring (CGM). In this review, we look at three different continuous meal detection algorithms that were developed using given CGM data from patients with diabetes. From this analysis, an initial meal prediction algorithm was also developed utilizing these methods.
翻訳日:2021-04-12 00:09:47 公開日:2021-01-04
# (参考訳) ランダム化テンソルネットワーク分解と分散テンソル計算を用いたビッグデータプライバシ保護 [全文訳有]

Protecting Big Data Privacy Using Randomized Tensor Network Decomposition and Dispersed Tensor Computation ( http://arxiv.org/abs/2101.04194v1 )

ライセンス: CC BY 4.0
Jenn-Bing Ong, Wee-Keong Ng, Ivan Tjuawinata, Chao Li, Jielin Yang, Sai None Myne, Huaxiong Wang, Kwok-Yan Lam, C.-C. Jay Kuo(参考訳) データプライバシは、クラウド/フォグ上のデータストレージ、共有、計算を安全にアウトソースする組織や企業にとって重要な問題である。 しかし、データ暗号化はキー管理と分散の点で複雑であり、既存のセキュアな計算技術は計算/通信コストの点で高価であるため、ビッグデータ計算にはスケールしない。 テンソルネットワークの分解と分散テンソル計算は、次元削減と大規模最適化のために信号処理や機械学習に広く利用されている。 しかし、ビッグデータプライバシ保護のための分散テンソルネットワークの可能性はこれまで検討されておらず、これが現在の研究の動機となっている。 我々の第一の直感は、テンソルネットワーク表現は数学的に非一様であり、リンク不能であり、解釈不能である;テンソルネットワーク表現は、圧縮および分散/分散計算のための多線形演算の範囲を自然にサポートしている。 そこで我々は,ビッグデータをランダム化テンソルネットワーク表現に分解し,1次元から3次元のデータテンソルのプライバシー漏洩を分析するランダム化アルゴリズムを提案する。 ランダム化は、分解前のテンソルブロックに適用される制御された摂動に基づいている。 分散テンソル表現は、メタデータプライバシを備えた複数のクラウド/フォグ/サーバ/デバイスに分散される。これは、分散信頼と管理の両方を提供し、ビッグデータストレージ、通信、共有、計算をシームレスにセキュアにする。 実験により,提案手法はビッグデータの匿名化に役立ち,ビッグデータのストレージや計算に効率的であることが判明した。

Data privacy is an important issue for organizations and enterprises to securely outsource data storage, sharing, and computation on clouds / fogs. However, data encryption is complicated in terms of the key management and distribution; existing secure computation techniques are expensive in terms of computational / communication cost and therefore do not scale to big data computation. Tensor network decomposition and distributed tensor computation have been widely used in signal processing and machine learning for dimensionality reduction and large-scale optimization. However, the potential of distributed tensor networks for big data privacy preservation have not been considered before, this motivates the current study. Our primary intuition is that tensor network representations are mathematically non-unique, unlinkable, and uninterpretable; tensor network representations naturally support a range of multilinear operations for compressed and distributed / dispersed computation. Therefore, we propose randomized algorithms to decompose big data into randomized tensor network representations and analyze the privacy leakage for 1D to 3D data tensors. The randomness mainly comes from the complex structural information commonly found in big data; randomization is based on controlled perturbation applied to the tensor blocks prior to decomposition. The distributed tensor representations are dispersed on multiple clouds / fogs or servers / devices with metadata privacy, this provides both distributed trust and management to seamlessly secure big data storage, communication, sharing, and computation. Experiments show that the proposed randomization techniques are helpful for big data anonymization and efficient for big data storage and computation.
翻訳日:2021-04-12 00:05:20 公開日:2021-01-04
# (参考訳) ロバストな最大エントロピー挙動クローニング [全文訳有]

Robust Maximum Entropy Behavior Cloning ( http://arxiv.org/abs/2101.01251v1 )

ライセンス: CC BY 4.0
Mostafa Hussein, Brendan Crowe, Marek Petrik and Momotaz Begum(参考訳) 模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。 既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう? これにより、意思決定性能が低下する可能性がある。 本稿では,敵の実証を自律的に検出し,データセットから排除するデモからポリシーを直接生成する,新しい枠組みを提案する。 同時に、それはサンプルであり、時間効率が良く、シミュレータを必要としない。 このような対向デモをモデル化するために,モデルのエントロピーを利用して各デモに重みを割り当てるmin-max問題を提案する。 これにより、正しいデモや、正しいデモの混合物だけを使って、行動を学ぶことができます。

Imitation learning (IL) algorithms use expert demonstrations to learn a specific task. Most of the existing approaches assume that all expert demonstrations are reliable and trustworthy, but what if there exist some adversarial demonstrations among the given data-set? This may result in poor decision-making performance. We propose a novel general frame-work to directly generate a policy from demonstrations that autonomously detect the adversarial demonstrations and exclude them from the data set. At the same time, it's sample, time-efficient, and does not require a simulator. To model such adversarial demonstration we propose a min-max problem that leverages the entropy of the model to assign weights for each demonstration. This allows us to learn the behavior using only the correct demonstrations or a mixture of correct demonstrations.
翻訳日:2021-04-11 23:23:09 公開日:2021-01-04
# ストーリーの概要:カスケードイベントからのきめ細かい制御可能なストーリー生成

Outline to Story: Fine-grained Controllable Story Generation from Cascaded Events ( http://arxiv.org/abs/2101.00822v1 )

ライセンス: Link先を確認
Le Fang, Tao Zeng, Chaochun Liu, Liefeng Bo, Wen Dong, Changyou Chen(参考訳) 大規模な事前訓練された言語モデルは、特に何千もの単語で一貫した長文を生成する場合に、スリルのある生成能力を示している。 しかし、これらのモデルのユーザは、文のプレフィックスまたは生成されたテキストの特定のグローバルな側面のみを制御できる。 きめ細かい制御性を同時に達成し、最先端の無条件テキスト生成能力を維持することは困難である。 本稿ではまず,ケースド・イベントから複数パラグラフ・ストーリーを生成する長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。 その後の段落生成を導く輪郭イベントの連続。 次に、最先端のキーワード抽出技術によって構築された将来のベンチマークのための専用データセットを作成します。 最後に,o2sタスクの極めて単純かつ強固なベースライン手法を提案する。これは単純な言語モデリング目的を用いて,アウトラインストーリーペアの拡張シーケンス上で事前学習された言語モデルを微調整する。 提案手法は,拡張シーケンスを構築するためのデリミタとして,いくつかの特別なトークンを除いて,新しいパラメータを導入せず,アーキテクチャの変更も行わない。 様々なデータセットに対する大規模な実験により、我々のモデルによる現状の条件付きストーリー生成性能が示され、きめ細かい制御性とユーザフレキシビリティが向上した。 私たちの論文は、モデルの提案と“ストーリーのアウトライン”のタスクのためのデータセット作成に関する私たちの知識で最初のもののひとつです。 我々の研究は、制御入力が短いテキストで表現されるオープンドメイン長文のきめ細かい制御可能な生成に関する研究の関心をインスタンス化する。

Large-scale pretrained language models have shown thrilling generation capabilities, especially when they generate consistent long text in thousands of words with ease. However, users of these models can only control the prefix of sentences or certain global aspects of generated text. It is challenging to simultaneously achieve fine-grained controllability and preserve the state-of-the-art unconditional text generation capability. In this paper, we first propose a new task named "Outline to Story" (O2S) as a test bed for fine-grained controllable generation of long text, which generates a multi-paragraph story from cascaded events, i.e. a sequence of outline events that guide subsequent paragraph generation. We then create dedicate datasets for future benchmarks, built by state-of-the-art keyword extraction techniques. Finally, we propose an extremely simple yet strong baseline method for the O2S task, which fine tunes pre-trained language models on augmented sequences of outline-story pairs with simple language modeling objective. Our method does not introduce any new parameters or perform any architecture modification, except several special tokens as delimiters to build augmented sequences. Extensive experiments on various datasets demonstrate state-of-the-art conditional story generation performance with our model, achieving better fine-grained controllability and user flexibility. Our paper is among the first ones by our knowledge to propose a model and to create datasets for the task of "outline to story". Our work also instantiates research interest of fine-grained controllable generation of open-domain long text, where controlling inputs are represented by short text.
翻訳日:2021-04-11 23:06:33 公開日:2021-01-04
# 制御可能なストーリー生成のためのトランスベース条件変動オートエンコーダ

Transformer-based Conditional Variational Autoencoder for Controllable Story Generation ( http://arxiv.org/abs/2101.00828v1 )

ライセンス: Link先を確認
Le Fang, Tao Zeng, Chaochun Liu, Liefeng Bo, Wen Dong, Changyou Chen(参考訳) オープンドメイン長文のための未探索のアプリケーションであるニューラルストーリー生成のための大規模潜伏変数モデル(LVM)を、生成効率と制御性という2つのスレッドで目的として検討する。 LVM、特に変分オートエンコーダ(VAE)は、柔軟な分布潜在表現を利用して、効果的かつ制御可能な生成を実現している。 近年、トランスフォーマーとその変種は明示的な潜在表現学習を伴わずに顕著な効果を発揮しており、生成時の制御性に欠ける。 本稿では, トランスフォーマーの時代に潜在変数モデル, 本質的に表現学習のパワーを復活させ, 最先端の生成効率を損なうことなく制御性を高めることを提唱する。 具体的には、遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し、条件付き変分オートエンコーダ(CVAE)を構築する。 エンコーダ、デコーダ、変分後段といったモデルコンポーネントはすべて、事前学習された言語モデルの上に構築されています。 実験では,その表現学習能力と制御性とともに,最先端の条件生成能力を示す。

We investigate large-scale latent variable models (LVMs) for neural story generation -- an under-explored application for open-domain long text -- with objectives in two threads: generation effectiveness and controllability. LVMs, especially the variational autoencoder (VAE), have achieved both effective and controllable generation through exploiting flexible distributional latent representations. Recently, Transformers and its variants have achieved remarkable effectiveness without explicit latent representation learning, thus lack satisfying controllability in generation. In this paper, we advocate to revive latent variable modeling, essentially the power of representation learning, in the era of Transformers to enhance controllability without hurting state-of-the-art generation effectiveness. Specifically, we integrate latent representation vectors with a Transformer-based pre-trained architecture to build conditional variational autoencoder (CVAE). Model components such as encoder, decoder and the variational posterior are all built on top of pre-trained language models -- GPT2 specifically in this paper. Experiments demonstrate state-of-the-art conditional generation ability of our model, as well as its excellent representation learning capability and controllability.
翻訳日:2021-04-11 23:06:05 公開日:2021-01-04
# 因子分析、確率的主成分分析、変分推論、変分オートエンコーダ:チュートリアルとサーベイ

Factor Analysis, Probabilistic Principal Component Analysis, Variational Inference, and Variational Autoencoder: Tutorial and Survey ( http://arxiv.org/abs/2101.00734v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本稿では、因子分析、確率主成分分析(pca)、変分推論、変分オートエンコーダ(vae)に関するチュートリアルおよび調査論文について述べる。 これらの手法は密接な関係があり、次元の減少と生成モデルである。 彼らは、すべてのデータポイントが低次元の潜在因子から生成されるか、または引き起こされると仮定する。 潜在空間の分布のパラメータを学習することにより、次元性低減のために対応する低次元因子が見つかる。 確率的かつ生成的な振る舞いのために、これらのモデルはデータ空間における新しいデータポイントの生成にも使用できる。 本稿では,まず,パラメータを学習するためのエビデンス下界(ELBO)と期待最大化(EM)を導出する変分推論から始める。 次に、因子分析を導入し、その結合分布と辺縁分布を導出し、そのEMステップを解明する。 確率的PCAは因子分析の特別な場合として説明され、その閉形式解が導出される。 最後に、vaeは、エンコーダ、デコーダ、および潜在空間からのサンプリングが導入される場所を説明する。 EMとバックプロパゲーションの両方を用いたVAEトレーニングについて説明する。

This is a tutorial and survey paper on factor analysis, probabilistic Principal Component Analysis (PCA), variational inference, and Variational Autoencoder (VAE). These methods, which are tightly related, are dimensionality reduction and generative models. They asssume that every data point is generated from or caused by a low-dimensional latent factor. By learning the parameters of distribution of latent space, the corresponding low-dimensional factors are found for the sake of dimensionality reduction. For their stochastic and generative behaviour, these models can also be used for generation of new data points in the data space. In this paper, we first start with variational inference where we derive the Evidence Lower Bound (ELBO) and Expectation Maximization (EM) for learning the parameters. Then, we introduce factor analysis, derive its joint and marginal distributions, and work out its EM steps. Probabilistic PCA is then explained, as a special case of factor analysis, and its closed-form solutions are derived. Finally, VAE is explained where the encoder, decoder and sampling from the latent space are introduced. Training VAE using both EM and backpropagation are explained.
翻訳日:2021-04-11 23:05:06 公開日:2021-01-04
# 排除スパンは相互参照解決に役に立たないのか? いいえ、まったく

Are Eliminated Spans Useless for Coreference Resolution? Not at all ( http://arxiv.org/abs/2101.00737v1 )

ライセンス: Link先を確認
Xin Tan, Longyin Zhang and Guodong Zhou(参考訳) 共同参照検出と共参照解決のために、これまでに様々なニューラルベース手法が提案されている。 しかし、コア参照解決に関する既存の研究は主にフィルタされた参照表現に依存している。 本稿では,データの利用率の向上と,削除したスパンが完全に無益であるかどうか,あるいはコア参照解決の性能をどの程度向上できるかを検討することを目的とする。 そこで本稿では,表現強化のためのポインタネットワークを用いて,参照に高い関連性を持つスパンをうまく活用する参照表現精錬戦略を提案する。 特に、エンティティクラスタ間の多様性を促進するために、この作業で追加の損失項を利用しています。 文書レベルのCoNLL-2012 共有タスク英語データセットによる実験結果から,スパンの除去は極めて効果的であり,従来のコア参照解決技術と比較した場合の競合的な結果が得られることがわかった。

Various neural-based methods have been proposed so far for joint mention detection and coreference resolution. However, existing works on coreference resolution are mainly dependent on filtered mention representation, while other spans are largely neglected. In this paper, we aim at increasing the utilization rate of data and investigating whether those eliminated spans are totally useless, or to what extent they can improve the performance of coreference resolution. To achieve this, we propose a mention representation refining strategy where spans highly related to mentions are well leveraged using a pointer network for representation enhancing. Notably, we utilize an additional loss term in this work to encourage the diversity between entity clusters. Experimental results on the document-level CoNLL-2012 Shared Task English dataset show that eliminated spans are indeed much effective and our approach can achieve competitive results when compared with previous state-of-the-art in coreference resolution.
翻訳日:2021-04-11 23:04:46 公開日:2021-01-04
# エージェントの読み書きをトレーニングする方法

How to Train Your Agent to Read and Write ( http://arxiv.org/abs/2101.00916v1 )

ライセンス: Link先を確認
Li Liu, Mengge He, Guanghui Xu, Mingkui Tan, Qi Wu(参考訳) 研究論文の読み書きは、資格のある研究者が習得すべき最も特権のある能力の1つである。 しかし、新しい研究者 (\eg{students}) がこの能力を完全に {grasp} するのは難しい。 知的なエージェントを訓練して、人びとが論文を読んだり要約したり、あるいは新しい論文を書くための潜在的な知識の手がかりを発見して利用したりできたら、面白いだろう。 要約(\emph{i.e.)に焦点を当てた既存の作品もある。 参照) 与えられたテキストまたは生成(\emph{i.e.)の知識。 書記) 与えられた知識に基づくテキストであり、同時に読み書きする能力は、まだ開発中である。 典型的には、エージェントは与えられたテキスト資料から得た知識を十分に理解し、正確で流動的なノベル段落を生成する必要がある。 本稿では,入力段落から知識グラフ(KG)を抽出し,潜在的な知識を発見するための \textit{Reader} と,新規段落を生成する graph-to-text \textit{Writer} と,生成された段落を3つの異なる側面からレビューする \textit{Reviewer} から構成されるDeep ReAder-Writer (DRAW) ネットワークを提案する。 我々のDRAWネットワークは, AGENDAおよびM-AGENDAデータセット上で, ベースラインや最先端のいくつかの手法よりも優れていた。 私たちのコードと補足はhttps://github.com/m enggehe/DRAW.comで公開されています。

Reading and writing research papers is one of the most privileged abilities that a qualified researcher should master. However, it is difficult for new researchers (\eg{students}) to fully {grasp} this ability. It would be fascinating if we could train an intelligent agent to help people read and summarize papers, and perhaps even discover and exploit the potential knowledge clues to write novel papers. Although there have been existing works focusing on summarizing (\emph{i.e.}, reading) the knowledge in a given text or generating (\emph{i.e.}, writing) a text based on the given knowledge, the ability of simultaneously reading and writing is still under development. Typically, this requires an agent to fully understand the knowledge from the given text materials and generate correct and fluent novel paragraphs, which is very challenging in practice. In this paper, we propose a Deep ReAder-Writer (DRAW) network, which consists of a \textit{Reader} that can extract knowledge graphs (KGs) from input paragraphs and discover potential knowledge, a graph-to-text \textit{Writer} that generates a novel paragraph, and a \textit{Reviewer} that reviews the generated paragraph from three different aspects. Extensive experiments show that our DRAW network outperforms considered baselines and several state-of-the-art methods on AGENDA and M-AGENDA datasets. Our code and supplementary are released at https://github.com/m enggehe/DRAW.
翻訳日:2021-04-11 23:04:13 公開日:2021-01-04
# 3次元畳み込みニューラルネットワークを用いた監視ビデオからの異常認識

Anomaly Recognition from surveillance videos using 3D Convolutional Neural Networks ( http://arxiv.org/abs/2101.01073v1 )

ライセンス: Link先を確認
R. Maqsood, UI. Bajwa, G. Saleem, Rana H. Raza, MW. Anwar(参考訳) 異常なアクティビティ認識は、通常のストリームから変化するパターンやイベントを識別する。 監視パラダイムでは、これらのイベントは乱用から戦闘、道路事故、密猟などまで様々である。 異常な事象が発生しにくいため,監視ビデオからの異常な活動認識は困難な研究課題である。 一般的に報告されたアプローチは、手作りとディープラーニングに基づくものに分類される。 報告された研究の多くは二項分類、すなわち二項分類に関するものである。 監視ビデオからの異常検出 しかし、これらの報告されたアプローチは他の異常事象に対処しなかった。 乱用、喧嘩、交通事故、銃撃、盗み、破壊、強盗など。 監視ビデオから そこで本稿では,実世界の異なる異常をビデオから認識するための効果的な枠組みを提案する。 この研究は、中央フロリダ大学犯罪ビデオデータセットで訓練された深部3次元畳み込みネットワーク(3D ConvNets)を用いて、時空間の特徴を学習するためのシンプルで効果的なアプローチを提供する。 まず, UCF Crimeデータセットのフレームレベルラベルを提供し, より効率的に時空間特徴を抽出するために, 微調整3D ConvNetsを提案する。 提案した研究の発見は,1)UCF犯罪ビデオフィードに相互に関連付ける特異性,検出性,定量性のある特徴がある。2) マルチクラス学習は,データセットのフレームレベル情報を効果的に学習することにより,3D ConvNetの能力の一般化を向上し,空間拡張を適用することで,より良い結果の面で活用することができる。

Anomalous activity recognition deals with identifying the patterns and events that vary from the normal stream. In a surveillance paradigm, these events range from abuse to fighting and road accidents to snatching, etc. Due to the sparse occurrence of anomalous events, anomalous activity recognition from surveillance videos is a challenging research task. The approaches reported can be generally categorized as handcrafted and deep learning-based. Most of the reported studies address binary classification i.e. anomaly detection from surveillance videos. But these reported approaches did not address other anomalous events e.g. abuse, fight, road accidents, shooting, stealing, vandalism, and robbery, etc. from surveillance videos. Therefore, this paper aims to provide an effective framework for the recognition of different real-world anomalies from videos. This study provides a simple, yet effective approach for learning spatiotemporal features using deep 3-dimensional convolutional networks (3D ConvNets) trained on the University of Central Florida (UCF) Crime video dataset. Firstly, the frame-level labels of the UCF Crime dataset are provided, and then to extract anomalous spatiotemporal features more efficiently a fine-tuned 3D ConvNets is proposed. Findings of the proposed study are twofold 1)There exist specific, detectable, and quantifiable features in UCF Crime video feed that associate with each other 2) Multiclass learning can improve generalizing competencies of the 3D ConvNets by effectively learning frame-level information of dataset and can be leveraged in terms of better results by applying spatial augmentation.
翻訳日:2021-04-11 23:03:48 公開日:2021-01-04
# ディープフェイクはどこに見える? 視線追跡による合成顔検出

Where Do Deep Fakes Look? Synthetic Face Detection via Gaze Tracking ( http://arxiv.org/abs/2101.01165v1 )

ライセンス: Link先を確認
Ilke Demir and Umur A. Ciftci(参考訳) AIの民主化の最近の取り組みに続き、ディープフェイクジェネレータはますます普及し、アクセスしやすくなり、ディストピア的なシナリオが信頼の社会的侵食に繋がった。 生物学的信号のような特定の領域は、生成的アプローチによってまだ偽造されていない実ビデオの真正性シグネチャを活用できる検出方法に注意を向けた。 本稿では,まず,ディープフェイクが異なる目と視線の特徴をいくつか提案する。 第二に、これらの特徴をシグネチャにコンパイルし、幾何学的、視覚的、計量的、時間的、スペクトル的なバリエーションを定式化して、リアルビデオとフェイクビデオを比較し、比較する。 第3に,本手法をディープニューラルネットワークによるディープフェイク検出問題に一般化し,野生の動画をフェイクあるいはリアルに分類する。 我々は、FaceForensics++で89.79\%、Deep Fakesで80.0\%、CelebDFで88.35\%の精度で、いくつかのディープフェイクデータセットに対するアプローチを評価した。 我々は,異なる特徴,アーキテクチャ,シーケンス持続時間,処理後アーティファクトを含むアブレーション研究を行う。 その結果,提案する視線シグネチャを使わずに複雑なネットワークアーキテクチャよりも6.29\%精度が向上した。

Following the recent initiatives for the democratization of AI, deep fake generators have become increasingly popular and accessible, causing dystopian scenarios towards social erosion of trust. A particular domain, such as biological signals, attracted attention towards detection methods that are capable of exploiting authenticity signatures in real videos that are not yet faked by generative approaches. In this paper, we first propose several prominent eye and gaze features that deep fakes exhibit differently. Second, we compile those features into signatures and analyze and compare those of real and fake videos, formulating geometric, visual, metric, temporal, and spectral variations. Third, we generalize this formulation to deep fake detection problem by a deep neural network, to classify any video in the wild as fake or real. We evaluate our approach on several deep fake datasets, achieving 89.79\% accuracy on FaceForensics++, 80.0\% on Deep Fakes (in the wild), and 88.35\% on CelebDF datasets. We conduct ablation studies involving different features, architectures, sequence durations, and post-processing artifacts. Our analysis concludes with 6.29\% improved accuracy over complex network architectures without the proposed gaze signatures.
翻訳日:2021-04-11 23:03:22 公開日:2021-01-04
# 推測による学習:人物再同定のための多段階擬似ラベル改良

Learn by Guessing: Multi-Step Pseudo-Label Refinement for Person Re-Identification ( http://arxiv.org/abs/2101.01215v1 )

ライセンス: Link先を確認
Tiago de C. G. Pereira and Teofilo E. de Campos(参考訳) Unsupervised Domain Adaptation (UDA) method for person Re-Identification (Re-ID) は、データの限界分布をモデル化するために対象のドメインサンプルに依存する。 対象ドメインラベルの欠如に対処するため、UDA法はラベル付きソースサンプルとラベルなしターゲットサンプルの情報を活用する。 有望なアプローチは、クラスタリングメソッドなど、パイプラインの一部として教師なし学習を使用することに依存する。 クラスタの品質は明らかにメソッドのパフォーマンスにおいて重要な役割を果たすが、この点は見過ごされている。 本研究では,最も優れたクラスタを選択し,それらのクラスタがクラスラベルを知らずにクラス分割に近づくように改良する,多段階の擬似ラベル改善手法を提案する。 本手法は,クラスタ選択戦略とカメラベース正規化手法を備えており,複数のカメラをRe-IDに使用することで生じる領域内変動を低減する。 これにより、dukemtmc-market1501( source-target)で最先端のuda結果が得られる。 ターゲットドメイン(DukeMTMC)には8つの異なるカメラがあるため、Market1501-DukeMTMCデータセットでは、UDA Re-IDの最先端を3.4%上回りました。 さらに、カメラベースの正規化手法は、訓練収束に必要なイテレーション数を大幅に削減する。

Unsupervised Domain Adaptation (UDA) methods for person Re-Identification (Re-ID) rely on target domain samples to model the marginal distribution of the data. To deal with the lack of target domain labels, UDA methods leverage information from labeled source samples and unlabeled target samples. A promising approach relies on the use of unsupervised learning as part of the pipeline, such as clustering methods. The quality of the clusters clearly plays a major role in methods performance, but this point has been overlooked. In this work, we propose a multi-step pseudo-label refinement method to select the best possible clusters and keep improving them so that these clusters become closer to the class divisions without knowledge of the class labels. Our refinement method includes a cluster selection strategy and a camera-based normalization method which reduces the within-domain variations caused by the use of multiple cameras in person Re-ID. This allows our method to reach state-of-the-art UDA results on DukeMTMC-Market1501 (source-target). We surpass state-of-the-art for UDA Re-ID by 3.4% on Market1501-DukeMTMC datasets, which is a more challenging adaptation setup because the target domain (DukeMTMC) has eight distinct cameras. Furthermore, the camera-based normalization method causes a significant reduction in the number of iterations required for training convergence.
翻訳日:2021-04-11 23:03:00 公開日:2021-01-04
# 動的有向重み付きグラフに対する表現学習による乗客移動予測

Passenger Mobility Prediction via Representation Learning for Dynamic Directed and Weighted Graph ( http://arxiv.org/abs/2101.00752v1 )

ライセンス: Link先を確認
Yuandong Wang and Hongzhi Yin and Tong Chen and Chunyang Liu and Ben Wang and Tianyu Wo and Jie Xu(参考訳) 近年、乗客の利便性が大幅に向上し、配車サービスの普及が進んでいる。 交通流量の制御や経路計画の効率化には,各地域における乗客需要のタイムリーな予測が不可欠である。 空間パターンと時間パターンの両方が乗客需要予測に欠かせないため、関連する研究は純粋な時系列から歴史的な乗客需要データをモデル化するためのグラフ構造化データへと進化し、異なるリレーショナルエッジ(例えば、起源-運命関係、地理的距離など)を介して地域ノードを接続することで、各タイムスロット毎にスナップショットグラフを構築している。 従って、時空間的な旅客需要記録は、構築されたグラフに動的パターンを自然に含み、エッジは、2つの接続された領域間の旅客需要の方向と体積(すなわち重量)に関する重要な情報をエンコードする。 しかし、既存のグラフベースのソリューションは、動的、指向的、重み付けされた(DDW)グラフの3つの重要な側面を同時に考慮することができない。 そこで本稿では,gallat (graph prediction with all attention) を解として,新たな時空間グラフ注目ネットワークを提案する。 Gallatでは、DDWグラフのこれらの3つの固有の特性を包括的に組み込むことで、3つの注意層を構築し、すべての歴史的時間帯における異なる領域間の時空間依存性をフルに把握する。 さらに、モデルはサブタスクを使用して事前訓練を行い、より迅速に正確な結果を得ることができる。 提案モデルを実世界のデータセット上で評価し,gallatが最先端のアプローチを上回ることを示した。

In recent years, ride-hailing services have been increasingly prevalent as they provide huge convenience for passengers. As a fundamental problem, the timely prediction of passenger demands in different regions is vital for effective traffic flow control and route planning. As both spatial and temporal patterns are indispensable passenger demand prediction, relevant research has evolved from pure time series to graph-structured data for modeling historical passenger demand data, where a snapshot graph is constructed for each time slot by connecting region nodes via different relational edges (e.g., origin-destination relationship, geographical distance, etc.). Consequently, the spatiotemporal passenger demand records naturally carry dynamic patterns in the constructed graphs, where the edges also encode important information about the directions and volume (i.e., weights) of passenger demands between two connected regions. However, existing graph-based solutions fail to simultaneously consider those three crucial aspects of dynamic, directed, and weighted (DDW) graphs, leading to limited expressiveness when learning graph representations for passenger demand prediction. Therefore, we propose a novel spatiotemporal graph attention network, namely Gallat (Graph prediction with all attention) as a solution. In Gallat, by comprehensively incorporating those three intrinsic properties of DDW graphs, we build three attention layers to fully capture the spatiotemporal dependencies among different regions across all historical time slots. Moreover, the model employs a subtask to conduct pretraining so that it can obtain accurate results more quickly. We evaluate the proposed model on real-world datasets, and our experimental results demonstrate that Gallat outperforms the state-of-the-art approaches.
翻訳日:2021-04-11 23:02:37 公開日:2021-01-04
# 新型コロナウイルスパンデミックに対するワクチンおよびテストキット配置の確率的最適化

Stochastic Optimization for Vaccine and Testing Kit Allocation for the COVID-19 Pandemic ( http://arxiv.org/abs/2101.01204v1 )

ライセンス: Link先を確認
Lawrence Thul, Warren Powell(参考訳) SARS-CoV-2ウイルスによるパンデミックは、世界的な健康危機に対処するために資源を分配する際の意思決定戦略に多くの欠陥を露呈している。 本稿では,各種資源の配分戦略を改善するために,強化学習と最適化を活用する。 特に、世界の不確実な状態(アクティブラーニング)について学習するために、テストキットの送信先を決定する必要がある問題について考察し、その上で、新しい情報を用いて、状態に関する信念を構築し、リソースを割り当てる場所を決定する。 我々は,世界の状況について完全な知識を持たずにワクチン割当決定を行うための,調整可能なルックアヘッドポリシーと組み合わされた一般モデルを提案する。 ルックアヘッド政策は、実際には現在の戦略と類似している可能性が高い人口ベースの筋電図政策と比較される。 各ワクチン割り当てポリシーは、アクティブな学習を行うためのテストキット割り当てポリシーと連携して機能する。 シミュレーションの結果、最適化に基づくルックアヘッド決定戦略は、提示されたミオピックポリシーよりも優れていることが示された。

The pandemic caused by the SARS-CoV-2 virus has exposed many flaws in the decision-making strategies used to distribute resources to combat global health crises. In this paper, we leverage reinforcement learning and optimization to improve upon the allocation strategies for various resources. In particular, we consider a problem where a central controller must decide where to send testing kits to learn about the uncertain states of the world (active learning); then, use the new information to construct beliefs about the states and decide where to allocate resources. We propose a general model coupled with a tunable lookahead policy for making vaccine allocation decisions without perfect knowledge about the state of the world. The lookahead policy is compared to a population-based myopic policy which is more likely to be similar to the present strategies in practice. Each vaccine allocation policy works in conjunction with a testing kit allocation policy to perform active learning. Our simulation results demonstrate that an optimization-based lookahead decision making strategy will outperform the presented myopic policy.
翻訳日:2021-04-11 23:02:06 公開日:2021-01-04
# フェデレートラーニングに基づくリスク意識決定による群集センシングプラットフォームにおけるフェイクタスクの影響軽減

Federated Learning-Based Risk-Aware Decision toMitigate Fake Task Impacts on CrowdsensingPlatform s ( http://arxiv.org/abs/2101.01266v1 )

ライセンス: Link先を確認
Zhiyan Chen, Murat Simsek, Burak Kantarci(参考訳) モバイルクラウドセンシング(MCS)は、多数のモバイルスマートデバイスに埋め込まれたセンサを活用することで、分散および非専用センシングの概念を活用する。 しかし、MCSのオープン性と分散性は、様々な脆弱性や対処すべき課題をもたらす。 mcsプラットフォームに偽のセンシングタスクを提出する悪意のあるユーザは、多数の参加者のデバイスからリソースを消費しようとしているかもしれません。 本稿では,複数の独立検出デバイスと集約エンティティを含む偽のタスクを識別するために,水平フェデレーション学習に基づく新しい手法を提案する。 検出デバイスは、機械学習(ML)モジュールと関連するトレーニングデータセットを備えた各デバイスと並行して動作するようにデプロイされる。 さらに、アグリゲーションモジュールは、個々のデバイスから予測結果を収集し、予測損失を最小化する目的で最終決定を決定する。 損失測定は、誤分類に関して失われたタスク値を考慮し、最終決定は、リスクをユーティリティ損失の関数として定式化するリスク認識アプローチを利用する。 実験の結果,リスク認識アグリゲーション機能を用いたフェデレーション学習駆動非正規タスク検出により,従来の集中型フレームワークの検出性能が向上することが示された。 さらに,提案手法により,検出性能の向上と実用性低下を実現することができる。 このスキームは、デバイスに分散した小さなトレーニングデータセットを使用して100%検出精度を達成できる一方で、従来のアプローチよりも8%以上の検出改善を実現している。

Mobile crowdsensing (MCS) leverages distributed and non-dedicated sensing concepts by utilizing sensors imbedded in a large number of mobile smart devices. However, the openness and distributed nature of MCS leads to various vulnerabilities and consequent challenges to address. A malicious user submitting fake sensing tasks to an MCS platform may be attempting to consume resources from any number of participants' devices; as well as attempting to clog the MCS server. In this paper, a novel approach that is based on horizontal federated learning is proposed to identify fake tasks that contain a number of independent detection devices and an aggregation entity. Detection devices are deployed to operate in parallel with each device equipped with a machine learning (ML) module, and an associated training dataset. Furthermore, the aggregation module collects the prediction results from individual devices and determines the final decision with the objective of minimizing the prediction loss. Loss measurement considers the lost task values with respect to misclassification, where the final decision utilizes a risk-aware approach where the risk is formulated as a function of the utility loss. Experimental results demonstrate that using federated learning-driven illegitimate task detection with a risk aware aggregation function improves the detection performance of the traditional centralized framework. Furthermore, the higher performance of detection and lower loss of utility can be achieved by the proposed framework. This scheme can even achieve 100%detection accuracy using small training datasets distributed across devices, while achieving slightly over an 8% increase in detection improvement over traditional approaches.
翻訳日:2021-04-11 23:01:47 公開日:2021-01-04
# 応答面推定におけるガウス関数

Gaussian Function On Response Surface Estimation ( http://arxiv.org/abs/2101.00772v1 )

ライセンス: Link先を確認
Mohammadhossein Toutiaee, John Miller(参考訳) メタモデリング手法を用いて2次元のブラックボックス機械学習モデル(機能とサンプル)を解釈する新しいフレームワークを提案し,その基盤となる機械学習モデルの出力と入力の関係について検討する。 メタモデルは、興味のある領域のデータサンプルでコンピュータ実験を実行することによって、訓練された複雑なモデルによって生成されたデータから推定することができる。 我々は、ガウス過程を代理として、複素モデルの応答面を捕捉し、その過程に2つの要素を組み込む: 先行共分散関数によって支配される定常ガウス過程Zによってモデル化される補間値と、基礎モデルの既知のトレンドをキャプチャする平均関数 mu である。 変数重要パラメータthetaの最適化手順は、可能性関数を最大化する。 このテータは、個々の変数とターゲット応答の相関に対応する。 仮定済みのモデルは経験的な観測に依存するため不要である。 実験は、予測されたサンプルの定量的評価を通じて解釈可能なモデルの可能性を示す。

We propose a new framework for 2-D interpreting (features and samples) black-box machine learning models via a metamodeling technique, by which we study the output and input relationships of the underlying machine learning model. The metamodel can be estimated from data generated via a trained complex model by running the computer experiment on samples of data in the region of interest. We utilize a Gaussian process as a surrogate to capture the response surface of a complex model, in which we incorporate two parts in the process: interpolated values that are modeled by a stationary Gaussian process Z governed by a prior covariance function, and a mean function mu that captures the known trends in the underlying model. The optimization procedure for the variable importance parameter theta is to maximize the likelihood function. This theta corresponds to the correlation of individual variables with the target response. There is no need for any pre-assumed models since it depends on empirical observations. Experiments demonstrate the potential of the interpretable model through quantitative assessment of the predicted samples.
翻訳日:2021-04-11 23:01:24 公開日:2021-01-04
# smartdeal: 効率的な推論とトレーニングのためのディープネットワーク重み付けの再モデリング

SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training ( http://arxiv.org/abs/2101.01163v1 )

ライセンス: Link先を確認
Xiaohan Chen, Yang Zhao, Yue Wang, Pengfei Xu, Haoran You, Chaojian Li, Yonggan Fu, Yingyan Lin, Zhangyang Wang(参考訳) ディープニューラルネットワーク(DNN)のレコード破りのパフォーマンスには、重いパラメータ化が伴い、ストレージの外部動的ランダムアクセスメモリ(DRAM)が発生する。 DRAMアクセスの禁止されたエネルギは、リソース制限されたデバイスにDNNをデプロイするのは簡単ではない。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost calculation, to a aggressively boost the storage and energy efficiency for inference and training。 SDの中核は構造的制約のある新しい重量分解であり、ハードウェア効率のポテンシャルを解き放つために慎重に設計されている。 具体的には、各重みテンソルを小さな基底行列の積として分解し、非零点を2のパワーに量子化する大きな構造的スパース係数行列とする。 結果として得られるスパースと量子化されたDNNは、データ移動と重み記憶のエネルギーを大幅に削減し、スパースビット演算と費用対価計算によって元の重みを回復するために最小限のオーバーヘッドを発生させる。 推論以外にも、私たちはエネルギー効率のトレーニングを受け入れるために、SD構造を維持しながらトレーニングで生じるユニークな障害に対処する革新的な技術を導入しています。 また、SD構造を完全に活用して実エネルギー効率と遅延を改善する専用ハードウェアアクセラレータを設計する。 複数のタスク、モデル、データセットをそれぞれ異なる設定で実験します。 その結果,1)実ハードウェア実装による評価では,SDは最大2.44倍のエネルギー効率を達成し,2)トレーニングにおいてSDは10.56倍,4.48倍のストレージとトレーニングエネルギを減少させ,最先端のトレーニングベースラインに比べて精度の低下は無視できることがわかった。 ソースコードはオンラインで入手できます。

The record-breaking performance of deep neural networks (DNNs) comes with heavy parameterization, leading to external dynamic random-access memory (DRAM) for storage. The prohibitive energy of DRAM accesses makes it non-trivial to deploy DNN on resource-constrained devices, calling for minimizing the weight and data movements to improve the energy efficiency. We present SmartDeal (SD), an algorithm framework to trade higher-cost memory storage/access for lower-cost computation, in order to aggressively boost the storage and energy efficiency, for both inference and training. The core of SD is a novel weight decomposition with structural constraints, carefully crafted to unleash the hardware efficiency potential. Specifically, we decompose each weight tensor as the product of a small basis matrix and a large structurally sparse coefficient matrix whose non-zeros are quantized to power-of-2. The resulting sparse and quantized DNNs enjoy greatly reduced energy for data movement and weight storage, incurring minimal overhead to recover the original weights thanks to the sparse bit-operations and cost-favorable computations. Beyond inference, we take another leap to embrace energy-efficient training, introducing innovative techniques to address the unique roadblocks arising in training while preserving the SD structures. We also design a dedicated hardware accelerator to fully utilize the SD structure to improve the real energy efficiency and latency. We conduct experiments on both multiple tasks, models and datasets in different settings. Results show that: 1) applied to inference, SD achieves up to 2.44x energy efficiency as evaluated via real hardware implementations; 2) applied to training, SD leads to 10.56x and 4.48x reduction in the storage and training energy, with negligible accuracy loss compared to state-of-the-art training baselines. Our source codes are available online.
翻訳日:2021-04-11 23:01:10 公開日:2021-01-04
# ニューラルアーキテクチャ探索のための一般化レイテンシ性能推定法

Generalized Latency Performance Estimation for Once-For-All Neural Architecture Search ( http://arxiv.org/abs/2101.00732v1 )

ライセンス: Link先を確認
Muhtadyuzzaman Syed and Arvind Akpuram Srinivasan(参考訳) ニューラルネットワーク検索(NAS)は、検索空間、探索戦略、パフォーマンス推定戦略を定義するディープニューラルネットワークアーキテクチャのマニュアル開発を合理化することで、機械学習の自動化を可能にする。 畳み込みニューラルネットワーク(CNN)モデルのマルチプラットフォーム展開の必要性を解決するため、Imped-For-All(OFA)はトレーニングと検索を分離して、さまざまな精度とレイテンシのトレードオフに制約のあるサブネットワークのワンショットモデルを提供することを提案した。 ofaの検索性能推定戦略は,単一のハードウェアレイテンシルックアップテーブルによって,事前構築にかなりの時間と手作業を要するため,異なるハードウェアデプロイメントプラットフォームの汎用性が極めて不足していることが判明した。 本稿では,ヘテロジニアスなハードウェアサポートの必要性に対処し,ルックアップテーブルのオーバーヘッドを削減するために,ニューラルネットワークアーキテクチャのレイテンシ予測器を構築するためのフレームワークを実証する。 本稿では、特定のハードウェアとNAS検索空間でトレーニングされたベースモデルを用いた微調整と、コア数、RAMサイズ、メモリ帯域幅などのGPUハードウェアパラメータでモデルをトレーニングするGPU一般化という2つの一般化可能性戦略を紹介する。 これにより、ProxylessNASと比較して50%以上低いRMSE損失を達成できる待ち時間予測モデルが提供されます。 また,これらのレイテンシ予測器の使用が,特定の場合において,ルックアップテーブルのベースラインアプローチのnas性能に適合することを示した。

Neural Architecture Search (NAS) has enabled the possibility of automated machine learning by streamlining the manual development of deep neural network architectures defining a search space, search strategy, and performance estimation strategy. To solve the need for multi-platform deployment of Convolutional Neural Network (CNN) models, Once-For-All (OFA) proposed to decouple Training and Search to deliver a one-shot model of sub-networks that are constrained to various accuracy-latency tradeoffs. We find that the performance estimation strategy for OFA's search severely lacks generalizability of different hardware deployment platforms due to single hardware latency lookup tables that require significant amount of time and manual effort to build beforehand. In this work, we demonstrate the framework for building latency predictors for neural network architectures to address the need for heterogeneous hardware support and reduce the overhead of lookup tables altogether. We introduce two generalizability strategies which include fine-tuning using a base model trained on a specific hardware and NAS search space, and GPU-generalization which trains a model on GPU hardware parameters such as Number of Cores, RAM Size, and Memory Bandwidth. With this, we provide a family of latency prediction models that achieve over 50% lower RMSE loss as compared to with ProxylessNAS. We also show that the use of these latency predictors match the NAS performance of the lookup table baseline approach if not exceeding it in certain cases.
翻訳日:2021-04-11 23:00:35 公開日:2021-01-04
# オブジェクト検出器の摂食:半隣のマスクによる敵攻撃

Fooling Object Detectors: Adversarial Attacks by Half-Neighbor Masks ( http://arxiv.org/abs/2101.00989v1 )

ライセンス: Link先を確認
Yanghao Zhang, Fu Wang and Wenjie Ruan(参考訳) 深層学習に基づく分類器に対する敵攻撃は多数存在するが、対象検出システムへの攻撃方法はほとんど研究されていない。 本稿では,厳密な制約下で異なる種類の検出器を騙すための強い摂動を発生させるハーフナイバーマスク付き投射勾配降下 (hnm-pgd) に基づく攻撃を提案する。 また,提案したHNM-PGD攻撃を,トップ1%にランクインしたCIKM 2020 AnalytiCup Competitionに応用した。 コードをhttps://github.com/Y anghaoZYH/HNM-PGDでリリースします。

Although there are a great number of adversarial attacks on deep learning based classifiers, how to attack object detection systems has been rarely studied. In this paper, we propose a Half-Neighbor Masked Projected Gradient Descent (HNM-PGD) based attack, which can generate strong perturbation to fool different kinds of detectors under strict constraints. We also applied the proposed HNM-PGD attack in the CIKM 2020 AnalytiCup Competition, which was ranked within the top 1% on the leaderboard. We release the code at https://github.com/Y anghaoZYH/HNM-PGD.
翻訳日:2021-04-11 23:00:09 公開日:2021-01-04
# 深層学習によるパッチ状イオン化の再構築

Reconstructing Patchy Reionization with Deep Learning ( http://arxiv.org/abs/2101.01214v1 )

ライセンス: Link先を確認
Eric Guzman and Joel Meyers(参考訳) 次世代宇宙マイクロ波背景調査(cmb)から予測される精度は、宇宙論に特徴的な新しい洞察をもたらす。 cmbの二次異方性は、それらがエンコードする宇宙情報と、それらが一次揺らぎの観測を阻害する役割の両方によって、今後の調査で重要性が増すだろう。 二次推定器は一次CMBを歪ませ、二次異方性を生成する分野を再構築するための標準ツールとなっている。 現在のデータによるレンズの再構築には成功したが、次のcmb調査で期待される感度でレンズの再構築や他の効果に最適である。 本稿では,2次cmb異方性源である重力レンズとパッチ状再イオン化の同時再構成が可能な畳み込みニューラルネットワークresunet-cmbについて述べる。 本稿では,ResUNet-CMBネットワークが2次推定器の低雑音レベルにおいて著しく優れており,2次推定器の簡単な適用により生じるパッチ状再イオン化再構成に対するレンズリングによる偏差には属さないことを示す。

The precision anticipated from next-generation cosmic microwave background (CMB) surveys will create opportunities for characteristically new insights into cosmology. Secondary anisotropies of the CMB will have an increased importance in forthcoming surveys, due both to the cosmological information they encode and the role they play in obscuring our view of the primary fluctuations. Quadratic estimators have become the standard tools for reconstructing the fields that distort the primary CMB and produce secondary anisotropies. While successful for lensing reconstruction with current data, quadratic estimators will be sub-optimal for the reconstruction of lensing and other effects at the expected sensitivity of the upcoming CMB surveys. In this paper we describe a convolutional neural network, ResUNet-CMB, that is capable of the simultaneous reconstruction of two sources of secondary CMB anisotropies, gravitational lensing and patchy reionization. We show that the ResUNet-CMB network significantly outperforms the quadratic estimator at low noise levels and is not subject to the lensing-induced bias on the patchy reionization reconstruction that would be present with a straightforward application of the quadratic estimator.
翻訳日:2021-04-11 22:59:36 公開日:2021-01-04
# 低照度画像に様々な光を流す: 任意参照による多レベル強調

Shed Various Lights on a Low-Light Image: Multi-Level Enhancement Guided by Arbitrary References ( http://arxiv.org/abs/2101.00813v1 )

ライセンス: Link先を確認
Ya'nan Wang, Zhuqing Jiang, Chang Liu, Kai Li, Aidong Men, Haiying Wang(参考訳) 低照度画像強調は,アプリケーションシナリオやユーザの審美性によってNORMAL-lightの定義が異なるため,一対多マッピングを実現することが示唆された。 しかし、既存の方法の多くは主観性を無視し、特定の明るさで結果を生成する。 本稿では,輝度基準として異なる画像を選択することで,様々な要件を満たすことができるマルチレベル低照度画像強調のためのニューラルネットワークを提案する。 スタイル転送に触発されて,潜在空間内の2つの低結合特徴成分に分解し,低照度画像からのコンテンツ成分と参照画像からの輝度成分の結合性を実現する。 このようにして、ネットワークは、明るさの違いを学習する代わりに、一連の画像ペアからシーン不変および輝度固有情報を抽出する。 また、色歪を緩和するために明るさ以外の情報が最大に保存される。 その結果,既存手法に対するネットワークの能力と優位性が示された。

It is suggested that low-light image enhancement realizes one-to-many mapping since we have different definitions of NORMAL-light given application scenarios or users' aesthetic. However, most existing methods ignore subjectivity of the task, and simply produce one result with fixed brightness. This paper proposes a neural network for multi-level low-light image enhancement, which is user-friendly to meet various requirements by selecting different images as brightness reference. Inspired by style transfer, our method decomposes an image into two low-coupling feature components in the latent space, which allows the concatenation feasibility of the content components from low-light images and the luminance components from reference images. In such a way, the network learns to extract scene-invariant and brightness-specific information from a set of image pairs instead of learning brightness differences. Moreover, information except for the brightness is preserved to the greatest extent to alleviate color distortion. Extensive results show strong capacity and superiority of our network against existing methods.
翻訳日:2021-04-11 22:59:05 公開日:2021-01-04
# ローカルブラックボックス攻撃:クエリ効率の良いアプローチ

Local Black-box Adversarial Attacks: A Query Efficient Approach ( http://arxiv.org/abs/2101.01032v1 )

ライセンス: Link先を確認
Tao Xiang, Hangcheng Liu, Shangwei Guo, Tianwei Zhang, Xiaofeng Liao(参考訳) 敵対的攻撃は、セキュリティに敏感なシナリオにおけるディープニューラルネットワークの適用を脅かしている。 既存のブラックボックス攻撃のほとんどは、ターゲットモデルと何度も対話し、グローバルな摂動を生み出すことで騙す。 しかし、グローバルな摂動はスムーズで重要でない背景を変えるため、摂動をより容易に認識できるだけでなく、クエリのオーバーヘッドも増大させる。 本稿では,ブラックボックス攻撃における限られたクエリ内でのみクリーンな例の識別領域を乱す新しい枠組みを提案する。 我々のフレームワークは2種類の転送可能性に基づいて構築されている。 1つ目はモデル解釈の転送可能性である。 この性質に基づき、局所摂動に対して、与えられたクリーンな例の識別領域を容易に特定する。 2つ目は、逆の例の転送可能性である。 クエリ効率を改善するために、ローカルなプリ摂動を生成するのに役立ちます。 識別領域を同定し,事前摂動を行った後,対象モデルに対して2種類のブラックボックス攻撃手法,すなわち勾配推定とランダム探索を照会することにより,事前摂動例から最終逆例を生成する。 我々は,ブラックボックス摂動時のクエリ効率が,高い攻撃成功率で大幅に向上することを示すために,広範な実験を行った。 実験の結果,システム設定の違いにより,攻撃は最先端のブラックボックス攻撃よりも優れていた。

Adversarial attacks have threatened the application of deep neural networks in security-sensitive scenarios. Most existing black-box attacks fool the target model by interacting with it many times and producing global perturbations. However, global perturbations change the smooth and insignificant background, which not only makes the perturbation more easily be perceived but also increases the query overhead. In this paper, we propose a novel framework to perturb the discriminative areas of clean examples only within limited queries in black-box attacks. Our framework is constructed based on two types of transferability. The first one is the transferability of model interpretations. Based on this property, we identify the discriminative areas of a given clean example easily for local perturbations. The second is the transferability of adversarial examples. It helps us to produce a local pre-perturbation for improving query efficiency. After identifying the discriminative areas and pre-perturbing, we generate the final adversarial examples from the pre-perturbed example by querying the targeted model with two kinds of black-box attack techniques, i.e., gradient estimation and random search. We conduct extensive experiments to show that our framework can significantly improve the query efficiency during black-box perturbing with a high attack success rate. Experimental results show that our attacks outperform state-of-the-art black-box attacks under various system settings.
翻訳日:2021-04-11 22:58:23 公開日:2021-01-04
# リスク感性・ロバスト制御設計のためのデリバティブフリーポリシー最適化:暗黙の正規化とサンプル複雑度

Derivative-Free Policy Optimization for Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity ( http://arxiv.org/abs/2101.01041v1 )

ライセンス: Link先を確認
Kaiqing Zhang, Xiangyuan Zhang, Bin Hu, Tamer Ba\c{s}ar(参考訳) 直接政策探索は、現代強化学習(RL)におけるワークホースの1つであり、その継続的制御タスクへの応用が近年注目を集めている。 本研究では,線形リスク感性とロバスト性を有する制御器を学習するための政策勾配法(PG法)の収束理論について検討する。 特に,システムトラジェクトリをサンプリングすることで,微分自由な手法で実装可能なPG法を開発し,リスク感受性とロバスト性制御の2つの基本的設定 – 有限ホライズン線型指数二次ガウス問題と有限ホライズン線形2次外乱減衰問題 – の解として,大域収束とサンプル複雑性の両立を図った。 副産物として,マルチエージェント強化学習 (marl) のベースラインとなる非凸-非凸ミニマックス最適化問題であるゼロサム線形-四次動的ゲームを解くためのpg法の大域収束に関する最初のサンプル複雑性を提供する。 このアルゴリズムの特徴の一つは、学習段階において、制御器の頑健さ/リスク感度の一定レベルを保ち、暗黙の正規化特性と呼ばれ、安全クリティカルな制御システムにおいて必須の要件であるということである。

Direct policy search serves as one of the workhorses in modern reinforcement learning (RL), and its applications in continuous control tasks have recently attracted increasing attention. In this work, we investigate the convergence theory of policy gradient (PG) methods for learning the linear risk-sensitive and robust controller. In particular, we develop PG methods that can be implemented in a derivative-free fashion by sampling system trajectories, and establish both global convergence and sample complexity results in the solutions of two fundamental settings in risk-sensitive and robust control: the finite-horizon linear exponential quadratic Gaussian, and the finite-horizon linear-quadratic disturbance attenuation problems. As a by-product, our results also provide the first sample complexity for the global convergence of PG methods on solving zero-sum linear-quadratic dynamic games, a nonconvex-nonconcave minimax optimization problem that serves as a baseline setting in multi-agent reinforcement learning (MARL) with continuous spaces. One feature of our algorithms is that during the learning phase, a certain level of robustness/risk-sens itivity of the controller is preserved, which we termed as the implicit regularization property, and is an essential requirement in safety-critical control systems.
翻訳日:2021-04-11 22:57:49 公開日:2021-01-04
# ロバストな機械学習システム - 課題,現状,展望,今後の展望

Robust Machine Learning Systems: Challenges, Current Trends, Perspectives, and the Road Ahead ( http://arxiv.org/abs/2101.02559v1 )

ライセンス: Link先を確認
Muhammad Shafique, Mahum Naseer, Theocharis Theocharides, Christos Kyrkou, Onur Mutlu, Lois Orosa, Jungwook Choi(参考訳) 機械学習(ML)技術は、強力な意思決定能力のため、スマートサイバー物理システム(CPS)とIoT(Internet-of-Thin gs)によって急速に採用されている。 しかし、ハードウェアレベルでもソフトウェアレベルでも、さまざまなセキュリティや信頼性の脅威に対して脆弱であり、精度を損なう。 これらの脅威は、リソース(例えば、計算、メモリ、電力/エネルギー)の制約が厳しい新興のエッジMLデバイスで増大し、そのため、コストのかかるセキュリティと信頼性対策は採用できない。 セキュリティ、信頼性、脆弱性軽減技術は、ネットワークセキュリティ対策からハードウェア保護まで、トレーニングされたmlモデルの形式的検証への関心が高まっている。 This paper summarizes the prominent vulnerabilities of modern ML systems, highlights successful defenses and mitigation techniques against these vulnerabilities, both at the cloud (i.e., during the ML training phase) and edge (i.e., during the ML inference stage), discusses the implications of a resource-constrained design on the reliability and security of the system, identifies verification methodologies to ensure correct system behavior, and describes open research challenges for building secure and reliable ML systems at both the edge and the cloud.

Machine Learning (ML) techniques have been rapidly adopted by smart Cyber-Physical Systems (CPS) and Internet-of-Things (IoT) due to their powerful decision-making capabilities. However, they are vulnerable to various security and reliability threats, at both hardware and software levels, that compromise their accuracy. These threats get aggravated in emerging edge ML devices that have stringent constraints in terms of resources (e.g., compute, memory, power/energy), and that therefore cannot employ costly security and reliability measures. Security, reliability, and vulnerability mitigation techniques span from network security measures to hardware protection, with an increased interest towards formal verification of trained ML models. This paper summarizes the prominent vulnerabilities of modern ML systems, highlights successful defenses and mitigation techniques against these vulnerabilities, both at the cloud (i.e., during the ML training phase) and edge (i.e., during the ML inference stage), discusses the implications of a resource-constrained design on the reliability and security of the system, identifies verification methodologies to ensure correct system behavior, and describes open research challenges for building secure and reliable ML systems at both the edge and the cloud.
翻訳日:2021-04-11 22:57:22 公開日:2021-01-04
# 検索と読み: オープンドメイン質問応答に関する包括的調査

Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering ( http://arxiv.org/abs/2101.00774v1 )

ライセンス: Link先を確認
Fengbin Zhu, Wenqiang Lei, Chao Wang, Jianming Zheng, Soujanya Poria, Tat-Seng Chua(参考訳) Open- Domain Question Answering (OpenQA) は、自然言語処理(NLP)において重要な課題であり、大規模非構造化文書に基づく自然言語形式での回答を目指している。 近年、特にneural machine reading comprehension(mrc)と統合される技術において、openqaに関する研究文献が急増している。 これらの研究は、ベンチマークデータセットの新たな高さまでパフォーマンスが向上しているが、QAシステムに関する既存の調査では、ほとんど取り上げられていない。 本稿では,神経mrc技術を組み込んだシステムに着目し,openqaの最新研究動向を概観する。 具体的には,OpenQAシステムの起源と開発の見直しから始める。 次に,‘retriever-reader’と呼ばれる現代的なopenqaアーキテクチャを紹介し,このアーキテクチャに従うさまざまなシステムと,各コンポーネントで採用されている特定の技術を分析します。 次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。 我々の研究が、最近の進歩とOpenQA研究のオープンな課題を研究者に知らせ、この分野のさらなる進歩を促すことを願っている。

Open-domain Question Answering (OpenQA) is an important task in Natural Language Processing (NLP), which aims to answer a question in the form of natural language based on large-scale unstructured documents. Recently, there has been a surge in the amount of research literature on OpenQA, particularly on techniques that integrate with neural Machine Reading Comprehension (MRC). While these research works have advanced performance to new heights on benchmark datasets, they have been rarely covered in existing surveys on QA systems. In this work, we review the latest research trends in OpenQA, with particular attention to systems that incorporate neural MRC techniques. Specifically, we begin with revisiting the origin and development of OpenQA systems. We then introduce modern OpenQA architecture named ``Retriever-Reader 7;' and analyze the various systems that follow this architecture as well as the specific techniques adopted in each of the components. We then discuss key challenges to developing OpenQA systems and offer an analysis of benchmarks that are commonly used. We hope our work would enable researchers to be informed of the recent advancement and also the open challenges in OpenQA research, so as to stimulate further progress in this field.
翻訳日:2021-04-11 22:56:49 公開日:2021-01-04
# 一般ゲームにおける戦略的特徴

Strategic Features for General Games ( http://arxiv.org/abs/2101.00843v1 )

ライセンス: Link先を確認
Cameron Browne and Dennis J. N. J. Soemers and Eric Piette(参考訳) 本稿では,デジタル形式で多数のボードゲームを自動学習し,評価することを必要とする現在進行中の研究プロジェクトについて述べる。 任意のジオメトリでプレイする任意のゲームに対して,MCTSプレイアウトをバイアスするなど,関連する機能を決定するためのアプローチについて述べる。 このアプローチの利点は、効率的な実装、学習した知識を新しい文脈に移す可能性、人間の理解可能な言葉で特徴に埋め込まれた戦略的知識を説明する可能性などです。

This short paper describes an ongoing research project that requires the automated self-play learning and evaluation of a large number of board games in digital form. We describe the approach we are taking to determine relevant features, for biasing MCTS playouts for arbitrary games played on arbitrary geometries. Benefits of our approach include efficient implementation, the potential to transfer learnt knowledge to new contexts, and the potential to explain strategic knowledge embedded in features in human-comprehensible terms.
翻訳日:2021-04-11 22:56:30 公開日:2021-01-04
# グローバルおよびローカルコンテキストモデリングによる低光度画像強調

Low Light Image Enhancement via Global and Local Context Modeling ( http://arxiv.org/abs/2101.00850v1 )

ライセンス: Link先を確認
Aditya Arora, Muhammad Haris, Syed Waqas Zamir, Munawar Hayat, Fahad Shahbaz Khan, Ling Shao, Ming-Hsuan Yang(参考訳) 低照度条件下で撮影された画像は視認性が悪く、コントラストや色鮮度が欠如している。 従来のアプローチと比較して、深層畳み込みニューラルネットワーク(cnns)は画像の強化にうまく機能する。 しかし、既存のデータ駆動のディープモデルは、固定固定プリミティブにのみ依存しているため、様々な空間スケールのコンテキストを利用して低照度画像の強調に対処することはできない。 これらの文脈は、例えば、局所的および大域的コントラスト、明るさと色補正といった、局所的および大域的な空間的範囲からの手がかりを必要とするいくつかの画像強調タスクを推測するために重要である。 そこで本研究では,低光度画像強調のためのコンテキスト対応深層ネットワークを提案する。 まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。 第二に、比較的大きな受容場で局所的なコンテキストをキャプチャする密度の高い残留ブロックを導入する。 提案手法をMIT-Adobe FiveK, LoL, SIDの3つの挑戦的データセットを用いて評価した。 これらすべてのデータセットにおいて,本手法は,標準画像忠実度指標の観点から,最先端技術に対して好適に機能する。 特に、MIT-Adobe FiveKデータセットの最高のパフォーマンス手法と比較して、我々のアルゴリズムはPSNRを23.04dBから24.45dBに改善する。

Images captured under low-light conditions manifest poor visibility, lack contrast and color vividness. Compared to conventional approaches, deep convolutional neural networks (CNNs) perform well in enhancing images. However, being solely reliant on confined fixed primitives to model dependencies, existing data-driven deep models do not exploit the contexts at various spatial scales to address low-light image enhancement. These contexts can be crucial towards inferring several image enhancement tasks, e.g., local and global contrast, brightness and color corrections; which requires cues from both local and global spatial extent. To this end, we introduce a context-aware deep network for low-light image enhancement. First, it features a global context module that models spatial correlations to find complementary cues over full spatial domain. Second, it introduces a dense residual block that captures local context with a relatively large receptive field. We evaluate the proposed approach using three challenging datasets: MIT-Adobe FiveK, LoL, and SID. On all these datasets, our method performs favorably against the state-of-the-arts in terms of standard image fidelity metrics. In particular, compared to the best performing method on the MIT-Adobe FiveK dataset, our algorithm improves PSNR from 23.04 dB to 24.45 dB.
翻訳日:2021-04-11 22:56:22 公開日:2021-01-04
# global2local: ビデオアクションセグメンテーションのための効率的な構造探索

Global2Local: Efficient Structure Search for Video Action Segmentation ( http://arxiv.org/abs/2101.00910v1 )

ライセンス: Link先を確認
Shang-Hua Gao, Qi Han, Zhong-Yu Li, Pai Peng, Liang Wang, Ming-Ming Cheng(参考訳) モデルの時間受容場は、アクションセグメンテーションにおいて重要な役割を果たす。 大きな受容野はビデオクリップ間の長期的な関係を促進し、小さな受容野は局所的な詳細を捉えるのに役立つ。 既存の手法は、層に手書きの受容場を持つモデルを構築する。 手作りのパターンを置き換えるための受容的場の組み合わせを効果的に探せるか? そこで本研究では,グローバル・ローカル検索手法を用いて,より優れた受容場の組み合わせを求める。 検索手法は,グローバル検索と局所検索の両方を利用して,より洗練された受容場の組み合わせパターンを得る。 グローバル検索は、人間がデザインしたパターン以外の粗い組み合わせを見つける。 グローバル検索に加えて, 組み合わせを効果的に洗練するために, 反復的局所探索法を期待して提案する。 我々のグローバル・ローカル検索は、既存のアクションセグメンテーション手法にプラグインして最先端のパフォーマンスを実現することができる。

Temporal receptive fields of models play an important role in action segmentation. Large receptive fields facilitate the long-term relations among video clips while small receptive fields help capture the local details. Existing methods construct models with hand-designed receptive fields in layers. Can we effectively search for receptive field combinations to replace hand-designed patterns? To answer this question, we propose to find better receptive field combinations through a global-to-local search scheme. Our search scheme exploits both global search to find the coarse combinations and local search to get the refined receptive field combination patterns further. The global search finds possible coarse combinations other than human-designed patterns. On top of the global search, we propose an expectation guided iterative local search scheme to refine combinations effectively. Our global-to-local search can be plugged into existing action segmentation methods to achieve state-of-the-art performance.
翻訳日:2021-04-11 22:56:02 公開日:2021-01-04
# spotpatch: 移動物体検出のためのパラメータ効率の高い転送学習

SpotPatch: Parameter-Efficient Transfer Learning for Mobile Object Detection ( http://arxiv.org/abs/2101.01260v1 )

ライセンス: Link先を確認
Keren Ye, Adriana Kovashka, Mark Sandler, Menglong Zhu, Andrew Howard, Marco Fornoni(参考訳) ディープラーニングベースのオブジェクト検出器は、さまざまなタスクを解決するために一般的にモバイルデバイスにデプロイされる。 最大精度では、各検出器は通常、1つの特定のタスクを解くために訓練され、完全に独立したパラメータセットが付属する。 これは高いパフォーマンスを保証するが、各モデルを別々にダウンロードして保存する必要があるため、非常に非効率である。 タスク固有の検出器は、共有の重みのセットとして訓練され、表現できるか、そして、タスクごとに非常に小さな重みのセットとして表現できるのか? 本論文の主な貢献は次のとおりである。 1) 対象検出問題に対するパラメータ効率変換学習技術の最初の体系的研究; 2) 学習すべき課題の難易度に依存する大きさのモデルパッチを学習する手法を提案し、そのアプローチを10種類の異なる対象検出タスクに対して検証する。 提案手法は従来提案した手法と同様の精度で,よりコンパクトである。

Deep learning based object detectors are commonly deployed on mobile devices to solve a variety of tasks. For maximum accuracy, each detector is usually trained to solve one single specific task, and comes with a completely independent set of parameters. While this guarantees high performance, it is also highly inefficient, as each model has to be separately downloaded and stored. In this paper we address the question: can task-specific detectors be trained and represented as a shared set of weights, plus a very small set of additional weights for each task? The main contributions of this paper are the following: 1) we perform the first systematic study of parameter-efficient transfer learning techniques for object detection problems; 2) we propose a technique to learn a model patch with a size that is dependent on the difficulty of the task to be learned, and validate our approach on 10 different object detection tasks. Our approach achieves similar accuracy as previously proposed approaches, while being significantly more compact.
翻訳日:2021-04-11 22:55:43 公開日:2021-01-04
# 深層畳み込みニューラルネットワークによるパターン伝達による下絵と幽霊絵の復元 : 美術研究者のためのデジタルツール

Recovery of underdrawings and ghost-paintings via style transfer by deep convolutional neural networks: A digital tool for art scholars ( http://arxiv.org/abs/2101.10807v1 )

ライセンス: Link先を確認
Anthony Bourached, George Cann, Ryan-Rhys Griffiths, David G. Stork(参考訳) 本稿では,美術油絵における下絵の可視化とゴーストペイントの改善問題に対する畳み込みニューラルネットワーク方式の応用について述べる。 このような下絵や隠された絵は、通常、グレースケールのイメージを生み出すX線や赤外線技術によって明らかにされ、色や完全なスタイルの情報がない。 過去の下絵における色推定法は、ゴーストペイントにおける顔料の物理X線分光画像に基づいており、高価で時間を要するため、ほとんどの保存スタジオでは利用できない設備を必要とする。 我々のアルゴリズムはそのような高価な物理画像装置を必要としない。 パブロ・ピカソ(pablo picasso)とレオナルド(leonardo)の作品に適用された概念実証システムは、ゴーストペイントの自然なセグメンテーションを尊重する色とデザインを明らかにする。 計算された画像は、他の方法では利用できないアーティストと関連する作品についての洞察を提供すると考えている。 以上の結果から,より大きな絵画のコーパスをベースとしたトレーニングが,アーティストの作品にさらに近いカラースキームやデザインを提示する可能性が示唆された。 これらの理由から,本手法の洗練は,美術保全,環境保全,美術分析に広く活用されるべきである。

We describe the application of convolutional neural network style transfer to the problem of improved visualization of underdrawings and ghost-paintings in fine art oil paintings. Such underdrawings and hidden paintings are typically revealed by x-ray or infrared techniques which yield images that are grayscale, and thus devoid of color and full style information. Past methods for inferring color in underdrawings have been based on physical x-ray fluorescence spectral imaging of pigments in ghost-paintings and are thus expensive, time consuming, and require equipment not available in most conservation studios. Our algorithmic methods do not need such expensive physical imaging devices. Our proof-of-concept system, applied to works by Pablo Picasso and Leonardo, reveal colors and designs that respect the natural segmentation in the ghost-painting. We believe the computed images provide insight into the artist and associated oeuvre not available by other means. Our results strongly suggest that future applications based on larger corpora of paintings for training will display color schemes and designs that even more closely resemble works of the artist. For these reasons refinements to our methods should find wide use in art conservation, connoisseurship, and art analysis.
翻訳日:2021-04-11 22:55:24 公開日:2021-01-04
# CRSLab:会話レコメンダシステム構築のためのオープンソースツールキット

CRSLab: An Open-Source Toolkit for Building Conversational Recommender System ( http://arxiv.org/abs/2101.00939v1 )

ライセンス: Link先を確認
Kun Zhou, Xiaolei Wang, Yuanhang Zhou, Chenzhan Shang, Yuan Cheng, Wayne Xin Zhao, Yaliang Li, Ji-Rong Wen(参考訳) 近年,会話推薦システム (CRS) が研究コミュニティで注目されている。 しかし、CRSに関する既存の研究は、シナリオ、ゴール、技術、統一された標準化された実装、比較が欠如している。 この課題に取り組むために,我々はcrssを開発するための高度に分離されたモジュールで統一された拡張可能なフレームワークを提供するオープンソースのcrsツールキットcrslabを提案する。 このフレームワークに基づき,共通に使用されている6つのcrsデータセットを収集し,グラフニューラルネットワークや事前学習モデルなどの最近の技術を含む18のモデルを実装した。 さらに,本ツールキットは,各種CRS手法のテストおよび比較を行うための,一連の自動評価プロトコルとヒューマンマシンインタラクションインタフェースを提供する。 プロジェクトとドキュメントはhttps://github.com/R UCAIBox/CRSLabで公開されている。

In recent years, conversational recommender system (CRS) has received much attention in the research community. However, existing studies on CRS vary in scenarios, goals and techniques, lacking unified, standardized implementation or comparison. To tackle this challenge, we propose an open-source CRS toolkit CRSLab, which provides a unified and extensible framework with highly-decoupled modules to develop CRSs. Based on this framework, we collect 6 commonly-used human-annotated CRS datasets and implement 18 models that include recent techniques such as graph neural network and pre-training models. Besides, our toolkit provides a series of automatic evaluation protocols and a human-machine interaction interface to test and compare different CRS methods. The project and documents are released at https://github.com/R UCAIBox/CRSLab.
翻訳日:2021-04-11 22:55:02 公開日:2021-01-04
# 深層学習における周波数原理

Frequency Principle in Deep Learning Beyond Gradient-descent-bas ed Training ( http://arxiv.org/abs/2101.00747v1 )

ライセンス: Link先を確認
Yuheng Ma, Zhi-Qin John Xu, Jiwei Zhang(参考訳) 最近、周波数パースペクティブは深層学習の理解を前進させる。 ディープニューラルネットワーク(DNN)が低周波数から高周波数のターゲット関数、すなわち周波数原理(F-Principle)に適合することが実証的および理論的に広く証明されている。 F-PrincipleはDNNの強度と弱さに光を当て、理論研究、実証研究、効率的なDNN構造の設計など、その後の一連の研究を刺激している。 グラデーション・ディフレッシュ・トレーニングにおけるF原理の検討 勾配差に基づく訓練がF原理の必要条件であるかどうかは不明である。 本稿では,F-Principle が非段階的ディフレッシブ・トレーニングによる DNN のトレーニングプロセスに安定して存在し,例えば,共役勾配やBFGS などの勾配情報を用いた最適化アルゴリズムや,パウエル法や粒子群最適化のような勾配情報を持たないアルゴリズムを含むことを示す。 これらの経験的研究は、F原理の普遍性を示し、F原理のさらなる研究のヒントを与える。

Frequency perspective recently makes progress in understanding deep learning. It has been widely verified in both empirical and theoretical studies that deep neural networks (DNNs) often fit the target function from low to high frequency, namely Frequency Principle (F-Principle). F-Principle sheds light on the strength and the weakness of DNNs and inspires a series of subsequent works, including theoretical studies, empirical studies and the design of efficient DNN structures etc. Previous works examine the F-Principle in gradient-descent-bas ed training. It remains unclear whether gradient-descent-bas ed training is a necessary condition for the F-Principle. In this paper, we show that the F-Principle exists stably in the training process of DNNs with non-gradient-descent -based training, including optimization algorithms with gradient information, such as conjugate gradient and BFGS, and algorithms without gradient information, such as Powell's method and Particle Swarm Optimization. These empirical studies show the universality of the F-Principle and provide hints for further study of F-Principle.
翻訳日:2021-04-11 22:54:49 公開日:2021-01-04
# 局所特徴属性のベースラインについて

On Baselines for Local Feature Attributions ( http://arxiv.org/abs/2101.00905v1 )

ライセンス: Link先を確認
Johannes Haug, Stefan Z\"urn, Peter El-Jiz, Gjergji Kasneci(参考訳) ニューラルネットのような高性能な予測モデルは通常ブラックボックスとして動作し、解釈可能性に関する深刻な懸念を引き起こす。 局所的特徴帰属法はブラックボックスモデルの説明に役立つため、予測の信頼性と公平性を評価する強力なツールである。 この目的のために、ほとんどの帰属モデルは、入力特徴の重要性と、しばしばベースラインと呼ばれる参照値を比較する。 最近の研究では、ベースラインが特徴属性の品質に大きな影響を与えることが示されている。 しかし、実際には、ゼロベクトルのような単純化されたベースラインをしばしば見つける。 本稿では,ベースラインが特徴属性の識別能力を大きく変えることを実証的に示す。 我々は,最近の画像データ研究を補完し,表付きデータセットの分析を行う。 さらに,ベースライン法の新しい分類法を提案する。 本研究は,一般的な帰属モデルのベースラインに対する感度を実証し,表データに対する可視的ベースライン法に関するより深い議論の基盤となった。

High-performing predictive models, such as neural nets, usually operate as black boxes, which raises serious concerns about their interpretability. Local feature attribution methods help to explain black box models and are therefore a powerful tool for assessing the reliability and fairness of predictions. To this end, most attribution models compare the importance of input features with a reference value, often called baseline. Recent studies show that the baseline can heavily impact the quality of feature attributions. Yet, we frequently find simplistic baselines, such as the zero vector, in practice. In this paper, we show empirically that baselines can significantly alter the discriminative power of feature attributions. We conduct our analysis on tabular data sets, thus complementing recent works on image data. Besides, we propose a new taxonomy of baseline methods. Our experimental study illustrates the sensitivity of popular attribution models to the baseline, thus laying the foundation for a more in-depth discussion on sensible baseline methods for tabular data.
翻訳日:2021-04-11 22:54:31 公開日:2021-01-04
# スーパーネットにおけるテンソル化部分グラフ探索

Tensorizing Subgraph Search in the Supernet ( http://arxiv.org/abs/2101.01078v1 )

ライセンス: Link先を確認
Hansi Yang and Quanming Yao and James Kwok(参考訳) 近年,コンピュータビジョン(cv)と自然言語処理(nlp)タスクのための優れたアーキテクチャを探索することで,ニューラルネットワーク検索(nas)において,2つのノードを接続可能な特殊なグラフ,すなわちスーパーネットがその能力を発揮している。 本稿では,このような離散的アーキテクチャの設計が,知識グラフ(kgs)における論理連鎖推論やヘテロジニアス情報ネットワーク(hins)におけるメタパス発見など,多くの重要な学習タスクにも現れることを発見した。 したがって,我々はスーパーネット探索問題をより広い視野で一般化する動機がある。 しかし、スーパーネットトポロジーはタスクに依存し、多様であるため、既存の作品はどれも有効ではない。 この問題に対処するために,スーパーネットのテンソル化,すなわち,サブグラフ探索問題をテンソル定式化により統一し,スーパーネット内のトポロジーをテンソルネットワークで符号化する。 さらに,探索問題を解くための確率的目的と決定論的目的の両方を認める効率的なアルゴリズムを提案する。 最後に,多様な学習課題,すなわちCVのアーキテクチャ設計,KGの論理推論,HINのメタパス探索について広範な実験を行った。 実験結果から,本手法が優れた性能とアーキテクチャをもたらすことが示された。

Recently, a special kind of graph, i.e., supernet, which allows two nodes connected by multi-choice edges, has exhibited its power in neural architecture search (NAS) by searching for better architectures for computer vision (CV) and natural language processing (NLP) tasks. In this paper, we discover that the design of such discrete architectures also appears in many other important learning tasks, e.g., logical chain inference in knowledge graphs (KGs) and meta-path discovery in heterogeneous information networks (HINs). Thus, we are motivated to generalize the supernet search problem on a broader horizon. However, none of the existing works are effective since the supernet topology is highly task-dependent and diverse. To address this issue, we propose to tensorize the supernet, i.e., unify the subgraph search problems by a tensor formulation and encode the topology inside the supernet by a tensor network. We further propose an efficient algorithm that admits both stochastic and deterministic objectives to solve the search problem. Finally, we perform extensive experiments on diverse learning tasks, i.e., architecture design for CV, logic inference for KG, and meta-path discovery for HIN. Empirical results demonstrate that our method leads to better performance and architectures.
翻訳日:2021-04-11 22:53:53 公開日:2021-01-04
# 連合学習と産業用モノのインターネットの融合:調査

Fusion of Federated Learning and Industrial Internet of Things: A Survey ( http://arxiv.org/abs/2101.00798v1 )

ライセンス: Link先を確認
Parimala M and Swarna Priya R M and Quoc-Viet Pham and Kapal Dev and Praveen Kumar Reddy Maddikunta and Thippa Reddy Gadekallu and Thien Huynh-The(参考訳) industrial internet of things (iiot) は、産業 4.0という概念の新しいパラダイムを定め、新しい産業時代への洞察を与えている。 現在、スマートマシンとスマートファクトリは、インテリジェンス獲得に機械学習/ディープラーニングベースのモデルを使用している。 しかし、データをクラウドやエンドデバイスに保存し、通信することは、プライバシの保護に問題を引き起こす。 この問題に対処するために、フェデレートドラーニング(FL)技術は、現在研究者によってIIoTで実装されており、安全で正確で堅牢で偏りのないモデルを提供している。 IIoTにおけるFLの統合により、エッジデバイス上の学習モデルの分布がFLとより一般的になったため、ローカルなセンシティブなデータが交換されないことが保証される。 したがって、暗号化された通知とパラメータのみを中央サーバに通信する。 本稿では,プライバシ,リソース,データ管理の観点から,flとiotの統合について概説する。 調査は、IIoTの特徴と流通とFLの基礎を明確にすることから始まる。 データプライバシ保護とデバイス上での学習を実現するためにIIoTとFLを統合する動機を要約する。 次に、セキュアIIoTにおけるFLのための機械学習、ディープラーニング、ブロックチェーン技術の使用の可能性について論じる。 さらに,ヘテロジニアスデータと巨大なデータを扱う方法を分析し,要約する。 データとリソース管理に関する総合的なバックグラウンドが提示され、続いて医療と自動車産業におけるIIoTとFLの応用が紹介される。 最後に、今後の研究の課題、いくつかの可能な解決策、潜在的な方向性について光を当てた。

Industrial Internet of Things (IIoT) lays a new paradigm for the concept of Industry 4.0 and paves an insight for new industrial era. Nowadays smart machines and smart factories use machine learning/deep learning based models for incurring intelligence. However, storing and communicating the data to the cloud and end device leads to issues in preserving privacy. In order to address this issue, federated learning (FL) technology is implemented in IIoT by the researchers nowadays to provide safe, accurate, robust and unbiased models. Integrating FL in IIoT ensures that no local sensitive data is exchanged, as the distribution of learning models over the edge devices has become more common with FL. Therefore, only the encrypted notifications and parameters are communicated to the central server. In this paper, we provide a thorough overview on integrating FL with IIoT in terms of privacy, resource and data management. The survey starts by articulating IIoT characteristics and fundamentals of distributive and FL. The motivation behind integrating IIoT and FL for achieving data privacy preservation and on-device learning are summarized. Then we discuss the potential of using machine learning, deep learning and blockchain techniques for FL in secure IIoT. Further we analyze and summarize the ways to handle the heterogeneous and huge data. Comprehensive background on data and resource management are then presented, followed by applications of IIoT with FL in healthcare and automobile industry. Finally, we shed light on challenges, some possible solutions and potential directions for future research.
翻訳日:2021-04-11 22:53:13 公開日:2021-01-04
# サンプリングとギャップ挿入によるプラガブル学習インデックス法

A Pluggable Learned Index Method via Sampling and Gap Insertion ( http://arxiv.org/abs/2101.00808v1 )

ライセンス: Link先を確認
Yaliang Li, Daoyuan Chen, Bolin Ding, Kai Zeng, Jingren Zhou(参考訳) データベースインデックスは、データ検索を促進し、現実世界のシステムにおける幅広いアプリケーションに役立つ。 近年,隠れて有用なデータ分布を学習し,そのような情報を索引の学習に組み込むことで,有望な性能向上を実現するために,学習指標と呼ばれる新しい指標群が提案されている。 しかし、学習インデックスの「学習」プロセスはまだ未熟である。 本稿では,索引学習目標を定量化する形式的機械学習フレームワークを提案し,学習指標の学習効率と学習効率を向上させるための2つの汎用的およびプラグ可能な手法について検討する。 形式的学習目的の指導により,提案手法を組み込んだインデックスを効率的に学習し,結果駆動ギャップ挿入手法によってもたらされる一般化能力を高めた正確なインデックスを学習できる。 本研究では,実世界のデータセットに関する広範囲な実験を行い,インデックス学習目的の観点から,複数の索引付け手法を比較した。 その結果,異なるシナリオに適したインデックスを設計するためのフレームワークが提案されている。 さらに, 提案手法の有効性を実証し, 非劣化インデクシング性能を維持しつつ, 最大78倍の高速化を実現する。 最後に、gap挿入手法により、最大1.59倍のクエリスピードアップで、既存の学習インデックスメソッドの静的および動的インデックス化性能を向上できることを示す。 さらなる研究のために、コードと処理データをリリースし、マシンラーニングとデータベースの両方の観点から、学習されたインデックスのさらなる探索を可能にします。

Database indexes facilitate data retrieval and benefit broad applications in real-world systems. Recently, a new family of index, named learned index, is proposed to learn hidden yet useful data distribution and incorporate such information into the learning of indexes, which leads to promising performance improvements. However, the "learning" process of learned indexes is still under-explored. In this paper, we propose a formal machine learning based framework to quantify the index learning objective, and study two general and pluggable techniques to enhance the learning efficiency and learning effectiveness for learned indexes. With the guidance of the formal learning objective, we can efficiently learn index by incorporating the proposed sampling technique, and learn precise index with enhanced generalization ability brought by the proposed result-driven gap insertion technique. We conduct extensive experiments on real-world datasets and compare several indexing methods from the perspective of the index learning objective. The results show the ability of the proposed framework to help to design suitable indexes for different scenarios. Further, we demonstrate the effectiveness of the proposed sampling technique, which achieves up to 78x construction speedup while maintaining non-degraded indexing performance. Finally, we show the gap insertion technique can enhance both the static and dynamic indexing performances of existing learned index methods with up to 1.59x query speedup. We will release our codes and processed data for further study, which can enable more exploration of learned indexes from both the perspectives of machine learning and database.
翻訳日:2021-04-11 22:52:49 公開日:2021-01-04
# 深部Q-Networkアルゴリズムによる2視点からのプッシュグレーピング協調手法

A Pushing-Grasping Collaborative Method Based on Deep Q-Network Algorithm in Dual Perspectives ( http://arxiv.org/abs/2101.00829v1 )

ライセンス: Link先を確認
Peng Gang, Liao Jinhu, Guan Shangbin(参考訳) 2dカメラを用いた従来のマニピュレータの把持法をめざすと、集合や被覆の場面に直面すると、集合や被覆として現れる非構造的なシーンでは、単一の視点からクラスターシーンにおいてオブジェクトを正確に認識できず、マニピュレータが環境をよりよく把握することができないため、うまく動作できない。 本稿では,デュアル・パースペクティブにおける深層qネットワークに基づく新しいプッシュ・グラッピング協調手法を提案する。 本手法では,2視点からオブジェクトのRGB画像と点雲の情報を得るためのRGB-Dカメラを備えた改良されたディープQネットワークアルゴリズムを採用し,トレーニングされたマニピュレータがより複雑なグルーピングシーンで良好なシーンを把握できるように,プッシュとグルーピング動作を組み合わせた。 さらに、深部Qネットワークの報酬関数を改善し、深部Qネットワークの収束を高速化する分別報酬関数を提案する。 我々は,V-REPシミュレーション環境において,異なるモデルを訓練し,異なる手法を試行し,提案手法は迅速に収束し,未構造化シーンにおける物体の把握の成功率は83.5%に達すると結論付けた。 また、マニピュレータが一度も把握したことのない場面に新しい物体が現れるときの一般化能力や性能を示す。

Aiming at the traditional grasping method for manipulators based on 2D camera, when faced with the scene of gathering or covering, it can hardly perform well in unstructured scenes that appear as gathering and covering, for the reason that can't recognize objects accurately in cluster scenes from a single perspective and the manipulators can't make the environment better for grasping. In this case, a novel method of pushing-grasping collaborative based on the deep Q-network in dual perspectives is proposed in this paper. This method adopts an improved deep Q network algorithm, with an RGB-D camera to obtain the information of objects' RGB images and point clouds from two perspectives, and combines the pushing and grasping actions so that the trained manipulator can make the scenes better for grasping so that it can perform well in more complicated grasping scenes. What's more, we improved the reward function of the deep Q-network and propose the piecewise reward function to speed up the convergence of the deep Q-network. We trained different models and tried different methods in the V-REP simulation environment, and it concluded that the method proposed in this paper converges quickly and the success rate of grasping objects in unstructured scenes raises up to 83.5%. Besides, it shows the generalization ability and well performance when novel objects appear in the scenes that the manipulator has never grasped before.
翻訳日:2021-04-11 22:52:29 公開日:2021-01-04
# リリース時間と完了時間の合計による単一マシンスケジューリング問題を解決するための学習

Learning to solve the single machine scheduling problem with release times and sum of completion times ( http://arxiv.org/abs/2101.01082v1 )

ライセンス: Link先を確認
Axel Parmentier and Vincent T'Kindt(参考訳) 本稿では,機械学習分野とスケジューリング理論による新しいヒューリスティックアルゴリズム埋め込み手法によるハード・シングル・マシンスケジューリング問題の解法に着目する。 これらのヒューリスティックスは、難題のインスタンスを最適性に解決されたより単純なインスタンスに変換する。 得られたスケジュールは元の問題に変換される。 計算実験によれば、それらは最先端のヒューリスティック、特に大規模インスタンスと競合している。

In this paper, we focus on the solution of a hard single machine scheduling problem by new heuristic algorithms embedding techniques from machine learning field and scheduling theory. These heuristics transform an instance of the hard problem into an instance of a simpler one solved to optimality. The obtained schedule is then transposed to the original problem. Computational experiments show that they are competitive with state-of-the-art heuristics, notably on large instances.
翻訳日:2021-04-11 22:52:02 公開日:2021-01-04
# コミュニティ検出と不均一割当てページランクに基づくゾンビアカウント検出

Zombie Account Detection Based on Community Detection and Uneven Assignation PageRank ( http://arxiv.org/abs/2101.00922v1 )

ライセンス: Link先を確認
Qiu Yaowen, Li Yin, Lu Yanchang(参考訳) ソーシャルメディアでは、ゾンビの可能性があるアカウントが大量に存在し、それが世論に悪影響を及ぼす可能性がある。 伝統的に、PageRankアルゴリズムはゾンビアカウントの検出に使われている。 しかし、隣接行列や隣接リストを格納するために大きなRAMを必要とするような問題があり、大きなグラフには重要度がほぼゼロになる可能性がある。 最初の問題は、ソーシャルメディアの構造がグラフを分割可能にするため、コミュニティ検出アルゴリズムであるLouvainを用いて、グラフ全体を1,002部分グラフに分解する。 0.58のモジュラリティは、結果が効果的であることを示している。 第2の問題を解決するために,各コミュニティにおけるノードの重要性を計算するために,不均一な割当ページランクアルゴリズムを実施した。 そして、ゾンビアカウントと通常のアカウントを区別するために閾値を設定する。 その結果、データセット内の約20%のアカウントがゾンビアカウントであり、北京、上海、広州など中国のティアワン都市に集中していることがわかった。 将来的には、ゾンビアカウントの検出に半教師付き学習を用いた分類アルゴリズムが用いられるようになる。

In the social media, there are a large amount of potential zombie accounts which may has negative impact on the public opinion. In tradition, PageRank algorithm is used to detect zombie accounts. However, problems such as it requires a large RAM to store adjacent matrix or adjacent list and the value of importance may approximately to zero for large graph exist. To solve the first problem, since the structure of social media makes the graph divisible, we conducted a community detection algorithm Louvain to decompose the whole graph into 1,002 subgraphs. The modularity of 0.58 shows the result is effective. To solve the second problem, we performed the uneven assignation PageRank algorithm to calculate the importance of node in each community. Then, a threshold is set to distinguish the zombie account and normal accounts. The result shows that about 20% accounts in the dataset are zombie accounts and they center in tier-one cities in China such as Beijing, Shanghai, and Guangzhou. In the future, a classification algorithm with semi-supervised learning can be used to detect zombie accounts.
翻訳日:2021-04-11 22:51:47 公開日:2021-01-04
# wearmask:covid-19向けサーバーレスエッジコンピューティングによるブラウザ内顔マスクの高速検出

WearMask: Fast In-browser Face Mask Detection with Serverless Edge Computing for COVID-19 ( http://arxiv.org/abs/2101.00784v1 )

ライセンス: Link先を確認
Zekun Wang, Pengwei Wang, Peter C. Louis, Lee E. Wheless, Yuankai Huo(参考訳) 新型コロナウイルス(COVID-19)の流行は、米国で重要な医療課題となっている。 疾病予防管理センター(cdc)によると、covid-19の感染は、呼吸、話、せき、またはくしゃみ時に発生する呼吸液滴によって優先的に伝達される。 マスクを着用することは、呼吸器感染症の80%を遮断する最重要かつ効果的で便利な方法である。 そのため, 病院, 空港, 出版交通機関, スポーツ会場, 小売店の効果的な監視を行うために, 多くのマスク検出・監視システムが開発されている。 しかし、現在の商用マスク検出システムは、一般に特定のソフトウェアやハードウェアにバンドルされており、公共のアクセス性を妨げる。 本稿では,webブラウザをインストールすることなく,webブラウザを使用したインターネット接続を持つ任意の共通デバイス(携帯電話,タブレット,コンピュータなど)にデプロイ可能な,webベースの効率的なマスク認識(wearmask)という,ブラウザ内サーバレスエッジコンピューティングベースのフェイスマスク検出ソリューションを提案する。 サーバーレスエッジコンピューティング設計は、ハードウェアコスト(例えば、特定のデバイスやクラウドコンピューティングサーバ)を最小化する。 提案手法は,(1)ディープラーニングモデル(yolo),(2)高性能ニューラルネットワーク推論計算フレームワーク(ncnn),(3)スタックベース仮想マシン(webassembly)を統合する包括的エッジコンピューティングフレームワークを提供する。 エンドユーザにとって,このwebベースのソリューションは,(1)デバイス制限とプライバシリスクを最小限にしたサーバレスエッジコンピューティング設計,(2)インストールフリーデプロイメント,(3)低コンピューティング要件,(4)高い検出速度というメリットがあります。 当社のWearMaskアプリケーションはfacemask-detection.c omで公開されています。

The COVID-19 epidemic has been a significant healthcare challenge in the United States. According to the Centers for Disease Control and Prevention (CDC), COVID-19 infection is transmitted predominately by respiratory droplets generated when people breathe, talk, cough, or sneeze. Wearing a mask is the primary, effective, and convenient method of blocking 80% of all respiratory infections. Therefore, many face mask detection and monitoring systems have been developed to provide effective supervision for hospitals, airports, publication transportation, sports venues, and retail locations. However, the current commercial face mask detection systems are typically bundled with specific software or hardware, impeding public accessibility. In this paper, we propose an in-browser serverless edge-computing based face mask detection solution, called Web-based efficient AI recognition of masks (WearMask), which can be deployed on any common devices (e.g., cell phones, tablets, computers) that have internet connections using web browsers, without installing any software. The serverless edge-computing design minimizes the extra hardware costs (e.g., specific devices or cloud computing servers). The contribution of the proposed method is to provide a holistic edge-computing framework of integrating (1) deep learning models (YOLO), (2) high-performance neural network inference computing framework (NCNN), and (3) a stack-based virtual machine (WebAssembly). For end-users, our web-based solution has advantages of (1) serverless edge-computing design with minimal device limitation and privacy risk, (2) installation free deployment, (3) low computing requirements, and (4) high detection speed. Our WearMask application has been launched with public access at facemask-detection.c om.
翻訳日:2021-04-11 22:51:33 公開日:2021-01-04
# 深層学習とコンピュータグラフィックスに基づく単発フリンジ投影プロファイロメトリー

Single-shot fringe projection profilometry based on Deep Learning and Computer Graphics ( http://arxiv.org/abs/2101.00814v1 )

ライセンス: Link先を確認
Fanzhou Wang, Chenxing Wang, Qingze Guan(参考訳) 近年、複数の研究が深層学習を用いて投影プロファイロメトリー(FPP)を応用している。 しかし、実際のシステムから大量のデータを取得してトレーニングすることは依然として難しい問題であり、ネットワーク設計と最適化はまだ検討に値する。 本稿では,コンピュータグラフィックスを用いて仮想fppシステムを構築し,所望のデータセットを簡便かつ簡便に生成する。 まず、仮想fppシステムの構築方法を詳細に記述し、その後、仮想fppシステムを現実に近いものに設定するための重要な要素を解析する。 また、1つの縁画像から深度画像を正確に推定することを目的として、復元された全体および詳細情報の質を高めるために新しい損失関数を設計する。 そして、U-Netとpix2pixという2つの代表ネットワークを複数の面で比較する。 実際の実験は、仮想システムからのデータによって訓練されたネットワークの精度と一般化と、設計された損失を証明し、本手法の応用可能性を示している。

Multiple works have applied deep learning to fringe projection profilometry (FPP) in recent years. However, to obtain a large amount of data from actual systems for training is still a tricky problem, and moreover, the network design and optimization still worth exploring. In this paper, we introduce computer graphics to build virtual FPP systems in order to generate the desired datasets conveniently and simply. The way of constructing a virtual FPP system is described in detail firstly, and then some key factors to set the virtual FPP system much close to the reality are analyzed. With the aim of accurately estimating the depth image from only one fringe image, we also design a new loss function to enhance the quality of the overall and detailed information restored. And two representative networks, U-Net and pix2pix, are compared in multiple aspects. The real experiments prove the good accuracy and generalization of the network trained by the data from our virtual systems and the designed loss, implying the potential of our method for applications.
翻訳日:2021-04-11 22:51:03 公開日:2021-01-04
# hypermorph: 画像登録のためのamortized hyperparameter learning

HyperMorph: Amortized Hyperparameter Learning for Image Registration ( http://arxiv.org/abs/2101.01035v1 )

ライセンス: Link先を確認
Andrew Hoopes, Malte Hoffmann, Bruce Fischl, John Guttag, Adrian V. Dalca(参考訳) 学習中に重要な登録ハイパーパラメータをチューニングする必要をなくした,変形可能な画像登録のための学習ベースの戦略であるhypermorphを提案する。 古典的登録法は、2つの画像間の空間対応を探索する最適化問題を解く一方、学習に基づく手法はトレーニングデータセットを利用してこれらの対応を生成する関数を学習する。 どちらの手法でも結果の質はハイパーパラメータの選択に大きく依存する。 残念なことに、ハイパーパラメータチューニングは時間がかかり、通常、様々なハイパーパラメータ値を持つ多くの異なるモデルをトレーニングする。 この非効率性に対処するため,画像登録のための補正ハイパーパラメータ学習を導入し,変形場に対するハイパーパラメータの影響を学習する新しい手法を提案する。 提案フレームワークは,入力ハイパーパラメータを取り込むハイパーネットワークを学習し,登録ネットワークを変調し,そのハイパーパラメータ値の最適変形場を生成する。 実際、この戦略は、テスト時に連続的な間隔からハイパーパラメータ値の迅速かつきめ細かい発見を可能にする、単一のリッチなモデルを訓練する。 提案手法は,既存の探索手法よりもはるかに高速に複数のハイパーパラメータを最適化し,計算負荷と人的負担の低減と柔軟性の向上につながることを実証する。 これはまた、初期化に対する堅牢性の向上や、登録タスクやデータセット、さらには単一の解剖学的領域に特有の最適なハイパーパラメータ値を迅速に識別する能力など、いくつかの重要なメリットがあることも示しています。 私たちのコードはhttp://voxelmorph.mi t.edu.で公開されています。

We present HyperMorph, a learning-based strategy for deformable image registration that removes the need to tune important registration hyperparameters during training. Classical registration methods solve an optimization problem to find a set of spatial correspondences between two images, while learning-based methods leverage a training dataset to learn a function that generates these correspondences. The quality of the results for both types of techniques depends greatly on the choice of hyperparameters. Unfortunately, hyperparameter tuning is time-consuming and typically involves training many separate models with various hyperparameter values, potentially leading to suboptimal results. To address this inefficiency, we introduce amortized hyperparameter learning for image registration, a novel strategy to learn the effects of hyperparameters on deformation fields. The proposed framework learns a hypernetwork that takes in an input hyperparameter and modulates a registration network to produce the optimal deformation field for that hyperparameter value. In effect, this strategy trains a single, rich model that enables rapid, fine-grained discovery of hyperparameter values from a continuous interval at test-time. We demonstrate that this approach can be used to optimize multiple hyperparameters considerably faster than existing search strategies, leading to a reduced computational and human burden and increased flexibility. We also show that this has several important benefits, including increased robustness to initialization and the ability to rapidly identify optimal hyperparameter values specific to a registration task, dataset, or even a single anatomical region - all without retraining the HyperMorph model. Our code is publicly available at http://voxelmorph.mi t.edu.
翻訳日:2021-04-11 22:50:47 公開日:2021-01-04
# オンラインソーシャルネットワークにおける情報発信源検出のための伝搬モデルと震源推定器のスキーム:研究の10年を振り返って

Schemes of Propagation Models and Source Estimators for Rumor Source Detection in Online Social Networks: A Short Survey of a Decade of Research ( http://arxiv.org/abs/2101.00753v1 )

ライセンス: Link先を確認
Rong Jin and Weili Wu(参考訳) 近年,様々な噂拡散モデルが,オンラインソーシャルネットワークの噂ソース調査の検出に利用されてきた。 拡散モデルは、ネットワークにおけるソース検出において非常に重要かつ挑戦可能な要素であると考えられるが、研究は少ない。 本稿では,10年前の情報伝達のパターンをモデル化するカスケード型,流行型,学習型の3つの代表的なスキームの概要と,10年前の情報発信源推定器の3つの主要なスキームについて述べる。

Recent years have seen various rumor diffusion models being assumed in detection of rumor source research of the online social network. Diffusion model is arguably considered as a very important and challengeable factor for source detection in networks but it is less studied. This paper provides an overview of three representative schemes of Independent Cascade-based, Epidemic-based, and Learning-based to model the patterns of rumor propagation as well as three major schemes of estimators for rumor sources since its inception a decade ago.
翻訳日:2021-04-11 22:50:13 公開日:2021-01-04
# グラフ畳み込みネットワークにおける低周波情報を超えて

Beyond Low-frequency Information in Graph Convolutional Networks ( http://arxiv.org/abs/2101.00797v1 )

ライセンス: Link先を確認
Deyu Bo and Xiao Wang and Chuan Shi and Huawei Shen(参考訳) グラフニューラルネットワーク(GNN)は様々なネットワーク関連タスクに有効であることが証明されている。 既存のgnnの多くは、ノードの特徴の低周波信号を利用するのが一般的であり、これは1つの基本的な疑問を生じさせる。 本稿では,まず,低周波信号と高周波信号の役割を実験的に検討し,低周波信号の探索は異なるシナリオで有効なノード表現の学習から遠ざかっていることを示す。 GNNにおける低周波情報以外の情報を適応的に学習する方法 よくインフォームドされた回答は、GNNが適応性を高めるのに役立つ。 本稿では、この課題に取り組み、メッセージパッシングの過程で異なる信号を適応的に統合するセルフゲーティング機構を備えた新しい周波数適応グラフ畳み込みネットワーク(FAGCN)を提案する。 より深く理解するために,学習ノード表現における低周波信号と高周波信号の役割を理論的に解析し,fagcnが異なる種類のネットワークでうまく機能する理由を説明している。 6つの実世界のネットワークに関する大規模な実験は、FAGCNが過度にスムースな問題を緩和するだけでなく、最先端技術よりも有利であることを示した。

Graph neural networks (GNNs) have been proven to be effective in various network-related tasks. Most existing GNNs usually exploit the low-frequency signals of node features, which gives rise to one fundamental question: is the low-frequency information all we need in the real world applications? In this paper, we first present an experimental investigation assessing the roles of low-frequency and high-frequency signals, where the results clearly show that exploring low-frequency signal only is distant from learning an effective node representation in different scenarios. How can we adaptively learn more information beyond low-frequency information in GNNs? A well-informed answer can help GNNs enhance the adaptability. We tackle this challenge and propose a novel Frequency Adaptation Graph Convolutional Networks (FAGCN) with a self-gating mechanism, which can adaptively integrate different signals in the process of message passing. For a deeper understanding, we theoretically analyze the roles of low-frequency signals and high-frequency signals on learning node representations, which further explains why FAGCN can perform well on different types of networks. Extensive experiments on six real-world networks validate that FAGCN not only alleviates the over-smoothing problem, but also has advantages over the state-of-the-arts.
翻訳日:2021-04-11 22:50:04 公開日:2021-01-04
# Echelon:False Alarmsを減らすための生検用マルウェアの2層マルウェア検出

Echelon: Two-Tier Malware Detection for Raw Executables to Reduce False Alarms ( http://arxiv.org/abs/2101.01015v1 )

ライセンス: Link先を確認
Anandharaju Durai Raju, Ke Wang(参考訳) 既存のマルウェア検出アプローチは、単一階層の分類アプローチによる偽陽性率(fpr)と真陽性率(tpr)との単純なトレードオフに苦しむ。 マルウェア検出の実際的な意味は、FPRはTPRが高いまま、確実に低いレベルに保たなければならないことである。 そこで本研究では,手作り機能を必要としない生のバイトデータから「エケロン」と呼ばれる2階層学習を提案する。 第1層は所定の目標レベルでFPRをロックする一方、第2層はロックされたFPRを維持しながらTPRを改善する。 エケロンの中核は、より強力な第2層モデルを構築するための第1層モデルの隠れ層の活性化情報を抽出することにある。 echelonは、既存のcnnベースのモデルを両方の層で適用可能にするフレームワークである。 第1層と第2層のマルウェア検出モデル ` `Malconv" を適用して,エケロンの評価実験を行った。

Existing malware detection approaches suffer from a simplistic trade-off between false positive rate (FPR) and true positive rate (TPR) due to a single tier classification approach, where the two measures adversely affect one another. The practical implication for malware detection is that FPR must be kept at an acceptably low level while TPR remains high. To this end, we propose a two-tiered learning, called ``Echelon", from raw byte data with no need for hand-crafted features. The first tier locks FPR at a specified target level, whereas the second tier improves TPR while maintaining the locked FPR. The core of Echelon lies at extracting activation information of the hidden layers of first tier model for constructing a stronger second tier model. Echelon is a framework in that it allows any existing CNN based model to be adapted in both tiers. We present experimental results of evaluating Echelon by adapting the state-of-the-art malware detection model ``Malconv" in the first and second tiers.
翻訳日:2021-04-11 22:49:43 公開日:2021-01-04
# BARTを用いた雑音多目的物の多目的最適化

Using BART for Multiobjective Optimization of Noisy Multiple Objectives ( http://arxiv.org/abs/2101.02558v1 )

ライセンス: Link先を確認
Akira Horiguchi and Thomas J. Santner and Ying Sun and Matthew T. Pratola(参考訳) 業界の4.0エコシステムのエネルギー負荷を軽減する技術は、しばしば多目的最適化問題を解決する必要がある。 しかし、実験データの収集は、しばしば高価か時間を要する。 このような場合、統計的手法は有用である。 本稿では,非パラメトリックモデルであるベイズ加法回帰木 (bart) を用いたpareto front (pf) とpareto set (ps) 推定法を提案する。 BART法の性能を解析的テスト関数を用いたGP法と比較し,有意義な優位性を示す。 最後に,BARTをベースとした手法を産業用4.0エンジニアリング問題に適用する。

Techniques to reduce the energy burden of an Industry 4.0 ecosystem often require solving a multiobjective optimization problem. However, collecting experimental data can often be either expensive or time-consuming. In such cases, statistical methods can be helpful. This article proposes Pareto Front (PF) and Pareto Set (PS) estimation methods using Bayesian Additive Regression Trees (BART), which is a non-parametric model whose assumptions are typically less restrictive than popular alternatives, such as Gaussian Processes. The performance of our BART-based method is compared to a GP-based method using analytic test functions, demonstrating convincing advantages. Finally, our BART-based methodology is applied to a motivating Industry 4.0 engineering problem.
翻訳日:2021-04-11 22:49:04 公開日:2021-01-04
# 輸送情報bregmanダイバージェンス

Transport information Bregman divergences ( http://arxiv.org/abs/2101.01162v1 )

ライセンス: Link先を確認
Wuchen Li(参考訳) 我々は,$l^2$--wasserstein計量を組み込んだ確率密度空間におけるブレグマンの発散について検討する。 輸送系ブレグマンの発散のいくつかの性質と双対性が提供される。 特に、l^2$--wasserstein空間における負のボルツマン-シャノンエントロピーのブレグマンの発散により、輸送kullback-leibler (kl) の発散が導かれる。 また,一次元確率密度とガウス族に対する輸送kl発散の解析式と一般化も導出する。

We study Bregman divergences in probability density space embedded with the $L^2$--Wasserstein metric. Several properties and dualities of transport Bregman divergences are provided. In particular, we derive the transport Kullback--Leibler (KL) divergence by a Bregman divergence of negative Boltzmann--Shannon entropy in $L^2$--Wasserstein space. We also derive analytical formulas and generalizations of transport KL divergence for one-dimensional probability densities and Gaussian families.
翻訳日:2021-04-11 22:48:53 公開日:2021-01-04
# 不均一フェデレーション学習のためのデバイスサンプリング:理論,アルゴリズム,実装

Device Sampling for Heterogeneous Federated Learning: Theory, Algorithms, and Implementation ( http://arxiv.org/abs/2101.00787v1 )

ライセンス: Link先を確認
Su Wang, Mengyuan Lee, Seyyedali Hosseinalipour, Roberto Morabito, Mung Chiang, and Christopher G. Brinton(参考訳) 従来のフェデレートラーニング(FedL)アーキテクチャは、サーバによって定期的に集約されたローカルモデルをトレーニングすることで、機械学習(ML)をワーカーデバイスに分散させる。 しかし、FedLは現代の無線ネットワークの2つの重要な特徴を無視している: (i) ネットワークには異種通信/計算資源が含まれ、 (ii) デバイスのローカルデータ分布にかなりの重複がある可能性がある。 本研究では,デバイス対デバイス(d2d)オフロードを補完するインテリジェントデバイスサンプリングにより,これらの要因を共同で考慮する新しい最適化手法を開発した。 本最適化の目的は,ネットワークトポロジとデバイス機能に制約のあるFedLトレーニング精度を最大化するために,サンプルノードとデータオフロード構成の最適な組み合わせを選択することである。 D2Dオフロードサブプロブレムの理論解析は、新しいFedL収束境界と効率的な逐次凸最適化器をもたらす。 本研究では,グラフ畳み込みネットワーク(gcns)に基づくサンプリング手法を開発し,ネットワーク属性とサンプルノードの関係を学習し,feder精度を最大化するオフロードを行う。 実世界のデータセットの評価とIoTテストベッドからのネットワーク測定により,従来のFedLよりも5%未満のデバイスをサンプリングしながら,トレーニング済みモデル精度と必要なリソース利用率の両方で大幅に向上することが判明した。

The conventional federated learning (FedL) architecture distributes machine learning (ML) across worker devices by having them train local models that are periodically aggregated by a server. FedL ignores two important characteristics of contemporary wireless networks, however: (i) the network may contain heterogeneous communication/comput ation resources, while (ii) there may be significant overlaps in devices' local data distributions. In this work, we develop a novel optimization methodology that jointly accounts for these factors via intelligent device sampling complemented by device-to-device (D2D) offloading. Our optimization aims to select the best combination of sampled nodes and data offloading configuration to maximize FedL training accuracy subject to realistic constraints on the network topology and device capabilities. Theoretical analysis of the D2D offloading subproblem leads to new FedL convergence bounds and an efficient sequential convex optimizer. Using this result, we develop a sampling methodology based on graph convolutional networks (GCNs) which learns the relationship between network attributes, sampled nodes, and resulting offloading that maximizes FedL accuracy. Through evaluation on real-world datasets and network measurements from our IoT testbed, we find that our methodology while sampling less than 5% of all devices outperforms conventional FedL substantially both in terms of trained model accuracy and required resource utilization.
翻訳日:2021-04-11 22:48:22 公開日:2021-01-04
# 異なるプライベートなメカニズムを学習する

Learning Differentially Private Mechanisms ( http://arxiv.org/abs/2101.00961v1 )

ライセンス: Link先を確認
Subhajit Roy, Justin Hsu, Aws Albarghouthi(参考訳) 差分プライバシー(differial privacy)は、データプライバシーの形式的数学的定義であり、学術、産業、政府で注目を集めている。 微分プライベートアルゴリズムを正しく構築するタスクは非自明であり、基本的なアルゴリズムでは誤りを犯している。 現在、既存の非プライベートプログラムを微分プライベートバージョンに変換するための自動サポートはない。 本稿では,与えられた非プライベートプログラムの正確かつ差分プライベートバージョンを自動的に学習する手法を提案する。 提案手法は, サンプル入力を慎重に選択し, 問題を連続最適化に還元し, 結果をシンボリック表現にマッピングする手法と組み合わせて, この難解なプログラム合成問題を解く方法を示す。 本手法は, 差分プライバシー文献から基礎的アルゴリズムを学習し, 自然なプログラム合成ベースラインを著しく上回っていることを示す。

Differential privacy is a formal, mathematical definition of data privacy that has gained traction in academia, industry, and government. The task of correctly constructing differentially private algorithms is non-trivial, and mistakes have been made in foundational algorithms. Currently, there is no automated support for converting an existing, non-private program into a differentially private version. In this paper, we propose a technique for automatically learning an accurate and differentially private version of a given non-private program. We show how to solve this difficult program synthesis problem via a combination of techniques: carefully picking representative example inputs, reducing the problem to continuous optimization, and mapping the results back to symbolic expressions. We demonstrate that our approach is able to learn foundational algorithms from the differential privacy literature and significantly outperforms natural program synthesis baselines.
翻訳日:2021-04-11 22:47:58 公開日:2021-01-04
# ハイブリッドFEM-NNモデル:有限要素法と人工ニューラルネットワークの組み合わせ

Hybrid FEM-NN models: Combining artificial neural networks with the finite element method ( http://arxiv.org/abs/2101.00962v1 )

ライセンス: Link先を確認
Sebastian K. Mitusch, Simon W. Funke, Miroslav Kuchta(参考訳) 本稿では,ニューラルネットワークと物理原理制約を組み合わせた偏微分方程式(PDE)の手法を提案する。 このアプローチでは、PDEを損失関数の一部とする最適化の強い制約として尊重しながら、ニューラルネットワークをトレーニングすることができる。 得られたモデルは有限要素法(FEM)によって空間内で離散化される。 この手法は、定常PDEと非線型PDEの両方に適用される。 本稿では,既存のFEMフレームワークFEniCSとそのアルゴリズム微分ツールであるdolfin-adjointの拡張として実装する方法について述べる。 一連の例を通じて、観測から係数と欠落したpde演算子を回復するアプローチの能力を示す。 さらに,提案手法は物理情報ニューラルネットワークと標準PDE制約最適化の代替手法と比較した。 最後に, 深部ニューラルネットワークを用いた複雑な心臓細胞モデル問題に対する検討を行った。

We present a methodology combining neural networks with physical principle constraints in the form of partial differential equations (PDEs). The approach allows to train neural networks while respecting the PDEs as a strong constraint in the optimisation as apposed to making them part of the loss function. The resulting models are discretised in space by the finite element method (FEM). The methodology applies to both stationary and transient as well as linear/nonlinear PDEs. We describe how the methodology can be implemented as an extension of the existing FEM framework FEniCS and its algorithmic differentiation tool dolfin-adjoint. Through series of examples we demonstrate capabilities of the approach to recover coefficients and missing PDE operators from observations. Further, the proposed method is compared with alternative methodologies, namely, physics informed neural networks and standard PDE-constrained optimisation. Finally, we demonstrate the method on a complex cardiac cell model problem using deep neural networks.
翻訳日:2021-04-11 22:47:43 公開日:2021-01-04
# Wasserstein Barycentersは計算にNPハードである

Wasserstein barycenters are NP-hard to compute ( http://arxiv.org/abs/2101.01100v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Enric Boix-Adsera(参考訳) Wasserstein Barycenters (a.k.a.) の計算の問題点 データサイエンスにおける多くの応用により、最適なトランスポートバリセンタ)が近年注目されている。 任意の固定次元に多項式時間アルゴリズムが存在するが、すべての既知のランタイムはその次元で指数関数的に苦しむ。 この指数依存が多項式依存に対して即効性を持つかどうかは、明らかな問題である。 この論文は、P=NP がなければ、答えは No であることを示す。 これは、最適な輸送計算では起こらないワッサースタイン・バリセン計算の「次元の曲線」を明らかにする。 さらに,wasserstein barycentersの計算の難しさは,近似計算,一見単純な問題,そして他の最適輸送指標における確率分布の平均化にまで及んでいる。

The problem of computing Wasserstein barycenters (a.k.a. Optimal Transport barycenters) has attracted considerable recent attention due to many applications in data science. While there exist polynomial-time algorithms in any fixed dimension, all known runtimes suffer exponentially in the dimension. It is an open question whether this exponential dependence is improvable to a polynomial dependence. This paper proves that unless P=NP, the answer is no. This uncovers a "curse of dimensionality" for Wasserstein barycenter computation which does not occur for Optimal Transport computation. Moreover, our hardness results for computing Wasserstein barycenters extend to approximate computation, to seemingly simple cases of the problem, and to averaging probability distributions in other Optimal Transport metrics.
翻訳日:2021-04-11 22:47:31 公開日:2021-01-04
# 微分プログラミングによる確率量子ダイナミクスの制御

Control of Stochastic Quantum Dynamics with Differentiable Programming ( http://arxiv.org/abs/2101.01190v1 )

ライセンス: Link先を確認
Frank Sch\"afer, Pavel Sekatski, Martin Koppenh\"ofer, Christoph Bruder, Michal Kloc(参考訳) 量子系の確率力学の制御は、量子情報処理やメトロロジーといった分野において不可欠である。 しかし、効率的な制御戦略を設計するための一般的な準備済みのアプローチは存在しない。 本稿では,微分可能プログラミングに基づく制御スキームの自動設計のためのフレームワーク (\partial \mathrm{p}$) を提案する。 この手法をホモダイン検出を受ける量子ビットの状態形成と安定化に適用する。 この目的のために、損失関数が目標状態からの距離を定量化する最適化問題として制御タスクを定式化し、ニューラルネットワーク(NN)をコントローラとして使用する。 系の時間進化は確率微分方程式(SDE)によって制御される。 効率のよいトレーニングを実現するため,共役感度法を用いて損失関数からSDEソルバを介して勾配情報を逆伝搬する。 最初の例として、制御器に量子状態を与え、勾配を得るための異なる方法に焦点を当てる。 第2の例として、ホモダイン検出信号をコントローラに直接供給する。 ホモダイン電流の瞬時値は、避けられない光子数変動で覆われたシステムの実際の状態に関する非常に限られた情報のみを含む。 その結果、信号と雑音の比が低いにもかかわらず、平均忠実度が約85%の目標状態へのキュービットの準備と安定化をコントローラに教えることができる。 また、NNが発見したソリューションを手作りの制御戦略と比較する。

Controlling stochastic dynamics of a quantum system is an indispensable task in fields such as quantum information processing and metrology. Yet, there is no general ready-made approach to design efficient control strategies. Here, we propose a framework for the automated design of control schemes based on differentiable programming ($\partial \mathrm{P}$). We apply this approach to state preparation and stabilization of a qubit subjected to homodyne detection. To this end, we formulate the control task as an optimization problem where the loss function quantifies the distance from the target state and we employ neural networks (NNs) as controllers. The system's time evolution is governed by a stochastic differential equation (SDE). To implement efficient training, we backpropagate the gradient information from the loss function through the SDE solver using adjoint sensitivity methods. As a first example, we feed the quantum state to the controller and focus on different methods to obtain gradients. As a second example, we directly feed the homodyne detection signal to the controller. The instantaneous value of the homodyne current contains only very limited information on the actual state of the system, covered in unavoidable photon-number fluctuations. Despite the resulting poor signal-to-noise ratio, we can train our controller to prepare and stabilize the qubit to a target state with a mean fidelity around 85%. We also compare the solutions found by the NN to a hand-crafted control strategy.
翻訳日:2021-04-11 22:46:58 公開日:2021-01-04