このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210331となっている論文です。

PDF登録状況(公開日: 20210331)

TitleAuthorsAbstract論文公表日・翻訳日
# ベイズ階層回帰モデルに対する近似交叉平均推定

Approximate Cross-validated Mean Estimates for Bayesian Hierarchical Regression Models ( http://arxiv.org/abs/2011.14238v2 )

ライセンス: Link先を確認
Amy X. Zhang, Le Bao, Michael J. Daniels(参考訳) 本稿では,ベイズ階層回帰モデル(BHRM)のクロスバリデーション予測手法を提案する。 ベイズ階層モデルは、複雑な依存構造をモデル化し確率論的不確実性推定を提供する能力で人気があるが、実行には計算コストがかかる。 したがって、BHRMの予測性能を評価するためのクロスバリデーション(CV)は一般的ではない。 提案手法は,各クロスバリデーション・フォールドに対する計算コスト推定手法の再実行を回避し,大規模BHRMに対してCVをより実現可能にする。 差分共分散パラメータを条件に、CV問題を確率に基づくサンプリングから、単純で親しみやすい最適化問題にシフトする。 多くの場合、これは完全なCVに相当する見積もりを生成する。 理論的な結果を提供し,公開データやシミュレーションでの有効性を実証する。

We introduce a novel procedure for obtaining cross-validated predictive estimates for Bayesian hierarchical regression models (BHRMs). Bayesian hierarchical models are popular for their ability to model complex dependence structures and provide probabilistic uncertainty estimates, but can be computationally expensive to run. Cross-validation (CV) is therefore not a common practice to evaluate the predictive performance of BHRMs. Our method circumvents the need to re-run computationally costly estimation methods for each cross-validation fold and makes CV more feasible for large BHRMs. By conditioning on the variance-covariance parameters, we shift the CV problem from probability-based sampling to a simple and familiar optimization problem. In many cases, this produces estimates which are equivalent to full CV. We provide theoretical results and demonstrate its efficacy on publicly available data and in simulations.
翻訳日:2021-06-07 09:06:15 公開日:2021-03-31
# データフリーモデル抽出

Data-Free Model Extraction ( http://arxiv.org/abs/2011.14779v2 )

ライセンス: Link先を確認
Jean-Baptiste Truong, Pratyush Maini, Robert J. Walls, Nicolas Papernot(参考訳) 現在のモデル抽出攻撃は、敵が被害者モデルのトレーニングに使用されるプロプライエタリなデータに似た特性を持つサロゲートデータセットにアクセスすることを前提としている。 この要件は、データセットの取得を困難にしたり、希少なトレーニングを受けたりといった、既存のモデル抽出テクニックを価値あるモデルに使用することを妨げる。 一方,代用データセットを必要としないデータフリーモデル抽出手法を提案する。 提案手法は,データフリーな知識伝達領域の手法をモデル抽出に適用する。 本研究の一環として,抽出したモデルが被害者モデルの正確なレプリカであることを保証する上で,損失の選択が重要であることを明らかにする。 さらに,ブラックボックス設定で被害者モデルへのアクセスが制限されていることによる問題にも対処する。 例えば、モデルのロジットを確率予測から近似勾配に復元する。 提案手法は, SVHN と CIFAR-10 データセットに対して, それぞれ2M と 20M のクエリに対して, 0.99x と 0.92 の精度で, 精度の高いデータフリーモデル抽出手法を実現する。

Current model extraction attacks assume that the adversary has access to a surrogate dataset with characteristics similar to the proprietary data used to train the victim model. This requirement precludes the use of existing model extraction techniques on valuable models, such as those trained on rare or hard to acquire datasets. In contrast, we propose data-free model extraction methods that do not require a surrogate dataset. Our approach adapts techniques from the area of data-free knowledge transfer for model extraction. As part of our study, we identify that the choice of loss is critical to ensuring that the extracted model is an accurate replica of the victim model. Furthermore, we address difficulties arising from the adversary's limited access to the victim model in a black-box setting. For example, we recover the model's logits from its probability predictions to approximate gradients. We find that the proposed data-free model extraction approach achieves high-accuracy with reasonable query complexity -- 0.99x and 0.92x the victim model accuracy on SVHN and CIFAR-10 datasets given 2M and 20M queries respectively.
翻訳日:2021-06-06 14:40:53 公開日:2021-03-31
# (参考訳) siamese trackersにおける非対称特徴マップの融合学習 [全文訳有]

Learning to Fuse Asymmetric Feature Maps in Siamese Trackers ( http://arxiv.org/abs/2012.02776v2 )

ライセンス: CC BY 4.0
Wencheng Han, Xingping Dong, Fahad Shahbaz Khan, Ling Shao, Jianbing Shen(参考訳) siameseベースのトラッカーは最近、ビジュアルトラッキングで有望なパフォーマンスを達成している。 最近のシャム語ベースのトラッカーは、通常、深さ方向の相互相関(dw-xcorr)を使用して、2つの特徴地図(ターゲットと探索領域)からマルチチャネル相関情報を取得する。 しかし、DW-XCorrはシームズをベースとした追跡においていくつかの制限がある。 さらに、DW-XCorrは手作りのパラメータフリーモジュールであり、大規模なデータでのオフライン学習の恩恵を受けられない。 本研究では,非対称畳み込み (ACM) と呼ばれる学習可能なモジュールを提案する。 単一の特徴写像を畳み込みカーネルとみなすDW-XCorrとその前身(XCorr)とは異なり、我々のACMは連結化された特徴写像上の畳み込み操作を2つの数学的に等価な演算に分解する。 私たちのACMは、バウンディングボックスサイズなどの有用な事前情報を標準視覚機能に組み込むことができます。 さらに、ACMはDW-XCorror XCorrに基づいて既存のSiameseトラッカーに容易に統合できる。 一般化能力を示すために、ACMをSiamFC、SiamRPN++、SiamBANの3つの代表的なトラッカーに統合する。 提案手法は6つの追跡ベンチマークにおいて既存の手法よりも優れている。 lasotテストセットでは、acmベースのトラッカーはベースラインよりも成功率(auc)で5.8%の大幅な改善が得られます。

Recently, Siamese-based trackers have achieved promising performance in visual tracking. Most recent Siamese-based trackers typically employ a depth-wise cross-correlation (DW-XCorr) to obtain multi-channel correlation information from the two feature maps (target and search region). However, DW-XCorr has several limitations within Siamese-based tracking: it can easily be fooled by distractors, has fewer activated channels, and provides weak discrimination of object boundaries. Further, DW-XCorr is a handcrafted parameter-free module and cannot fully benefit from offline learning on large-scale data. We propose a learnable module, called the asymmetric convolution (ACM), which learns to better capture the semantic correlation information in offline training on large-scale data. Different from DW-XCorr and its predecessor(XCorr), which regard a single feature map as the convolution kernel, our ACM decomposes the convolution operation on a concatenated feature map into two mathematically equivalent operations, thereby avoiding the need for the feature maps to be of the same size (width and height)during concatenation. Our ACM can incorporate useful prior information, such as bounding-box size, with standard visual features. Furthermore, ACM can easily be integrated into existing Siamese trackers based on DW-XCorror XCorr. To demonstrate its generalization ability, we integrate ACM into three representative trackers: SiamFC, SiamRPN++, and SiamBAN. Our experiments reveal the benefits of the proposed ACM, which outperforms existing methods on six tracking benchmarks. On the LaSOT test set, our ACM-based tracker obtains a significant improvement of 5.8% in terms of success (AUC), over the baseline.
翻訳日:2021-05-23 00:40:14 公開日:2021-03-31
# RPT:データ準備の民主化に必要なのはリレーショナル・プレトレーニング・トランスフォーマー

RPT: Relational Pre-trained Transformer Is Almost All You Need towards Democratizing Data Preparation ( http://arxiv.org/abs/2012.02469v2 )

ライセンス: Link先を確認
Nan Tang, Ju Fan, Fangyi Li, Jianhong Tu, Xiaoyong Du, Guoliang Li, Sam Madden, Mourad Ouzzani(参考訳) AIは、データサイエンティスト、実践家、そして群衆労働者に負担を与える、人間にとって簡単なデータ準備作業を自動化するのに役立つだろうか? RPTは、タプルからXモデル(Xはタプル、トークン、ラベル、JSONなど)のための自動エンコーダです。 RPTは、入力タプルを破損させ、元のタプルを再構築するモデルを学ぶことで、タプルからタプルまでのモデルのために事前訓練される。 このアーキテクチャは、双方向エンコーダ(BERTに類似)と左から右への自己回帰デコーダ(GPTに類似)で構成されるトランスフォーマーベースの神経翻訳アーキテクチャを採用し、BERTとGPTの両方を一般化する。 事前トレーニングされたrptは、データクリーニング、自動補完、スキーママッチングなど、いくつかの一般的なデータ準備タスクをすでにサポートしている。 それでも、rptは、値の正規化、データ変換、データアノテーションなど、幅広いデータ準備タスクで微調整することができる。 rptを補完するために,エンティティ解決のための協調学習や,情報抽出のためのnlp質問応答学習など,いくつかのアピール手法についても検討した。 さらに、データ準備の分野を前進させる一連の研究機会を特定する。

Can AI help automate human-easy but computer-hard data preparation tasks that burden data scientists, practitioners, and crowd workers? We answer this question by presenting RPT, a denoising auto-encoder for tuple-to-X models (X could be tuple, token, label, JSON, and so on). RPT is pre-trained for a tuple-to-tuple model by corrupting the input tuple and then learning a model to reconstruct the original tuple. It adopts a Transformer-based neural translation architecture that consists of a bidirectional encoder (similar to BERT) and a left-to-right autoregressive decoder (similar to GPT), leading to a generalization of both BERT and GPT. The pre-trained RPT can already support several common data preparation tasks such as data cleaning, auto-completion and schema matching. Better still, RPT can be fine-tuned on a wide range of data preparation tasks, such as value normalization, data transformation, data annotation, etc. To complement RPT, we also discuss several appealing techniques such as collaborative training and few-shot learning for entity resolution, and few-shot learning and NLP question-answering for information extraction. In addition, we identify a series of research opportunities to advance the field of data preparation.
翻訳日:2021-05-22 20:33:14 公開日:2021-03-31
# (参考訳) 風力発電環境モニタリングのためのマルチターゲット正常行動モデル [全文訳有]

Multi-target normal behaviour models for wind farm condition monitoring ( http://arxiv.org/abs/2012.03074v2 )

ライセンス: CC BY-SA 4.0
Angela Meyer(参考訳) 大きな風力タービンや風力発電所の遠隔地への傾向は、運用コストを削減し、計画外のダウンタイムを回避するための自動状態監視戦略の需要を刺激する。 正常動作モデリングは、タービンのscadaデータに基づいて正常動作から異常な逸脱を検出するために導入された。 タービンサブシステムの正常な振る舞いに関する機械学習モデルが、この目的のためにウィンドファームマネージャによって開発されている。 しかし、これらのモデルは追跡され、維持され、頻繁に更新される必要がある。 本研究は、風力タービンの正常な挙動を捉えるための新しいアプローチとして、マルチターゲットモデルを検討する。 本稿では,多目的回帰手法の概要を述べるとともに,その適用と風力タービン条件モニタリングのメリットを動機付け,その性能評価を行う。 マルチターゲットモデルでは, 精度を損なうことなく, 実用的条件モニタリングのコストと労力を削減できるため, 単一ターゲットモデルと比較して有利であることがわかった。 今後の研究についても概説する。

The trend towards larger wind turbines and remote locations of wind farms fuels the demand for automated condition monitoring strategies that can reduce the operating cost and avoid unplanned downtime. Normal behaviour modelling has been introduced to detect anomalous deviations from normal operation based on the turbine's SCADA data. A growing number of machine learning models of the normal behaviour of turbine subsystems are being developed by wind farm managers to this end. However, these models need to be kept track of, be maintained and require frequent updates. This research explores multi-target models as a new approach to capturing a wind turbine's normal behaviour. We present an overview of multi-target regression methods, motivate their application and benefits in wind turbine condition monitoring, and assess their performance in a wind farm case study. We find that multi-target models are advantageous in comparison to single-target modelling in that they can reduce the cost and effort of practical condition monitoring without compromising on the accuracy. We also outline some areas of future research.
翻訳日:2021-05-22 15:38:04 公開日:2021-03-31
# 有限ニューラルネットワークの解析:神経接核理論を信頼できるか?

Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel Theory? ( http://arxiv.org/abs/2012.04477v2 )

ライセンス: Link先を確認
Mariia Seleznova and Gitta Kutyniok(参考訳) 神経接核(neural tangent kernel, ntk)理論は、勾配降下下での無限大深層ニューラルネットワーク(dnn)のダイナミクスを研究するために広く用いられている。 しかし、無限幅ネットワークの結果は、真の有限幅ネットワークの挙動に関するヒントを与えてくれるだろうか? 本稿では,完全連結 relu および sigmoid dnn に対して ntk 理論が実際に有効である場合に経験的に検討する。 ネットワークがNTK体制にあるか否かは、ランダム初期化のハイパーパラメータとネットワークの深さに依存する。 特に、NTK理論は、ネットワークの層を伝播するにつれて勾配が爆発するように初期化された十分に深いネットワークの挙動を説明していない:カーネルは初期化時にランダムであり、この場合、NTK理論とは対照的にトレーニング中に大きく変化する。 一方、勾配が消える場合、DNNはNTK体制にあるが、深さとともに急速に訓練不能になる。 また、DNNの一般化特性、特にネットワークの出力関数の分散をNTK理論を用いて研究し、その限界について議論する枠組みについても述べる。

Neural Tangent Kernel (NTK) theory is widely used to study the dynamics of infinitely-wide deep neural networks (DNNs) under gradient descent. But do the results for infinitely-wide networks give us hints about the behavior of real finite-width ones? In this paper, we study empirically when NTK theory is valid in practice for fully-connected ReLU and sigmoid DNNs. We find out that whether a network is in the NTK regime depends on the hyperparameters of random initialization and the network's depth. In particular, NTK theory does not explain the behavior of sufficiently deep networks initialized so that their gradients explode as they propagate through the network's layers: the kernel is random at initialization and changes significantly during training in this case, contrary to NTK theory. On the other hand, in the case of vanishing gradients, DNNs are in the the NTK regime but become untrainable rapidly with depth. We also describe a framework to study generalization properties of DNNs, in particular the variance of network's output function, by means of NTK theory and discuss its limits.
翻訳日:2021-05-16 21:45:00 公開日:2021-03-31
# 人間と物体の相互作用検出のための空間条件付きグラフ

Spatially Conditioned Graphs for Detecting Human-Object Interactions ( http://arxiv.org/abs/2012.06060v2 )

ライセンス: Link先を確認
Frederic Z. Zhang, Dylan Campbell, Stephen Gould(参考訳) グラフィカルニューラルネットワークを用いて画像中の物体間相互作用を検出する問題に対処する。 従来の手法とは異なり、各ノードがそれぞれの近隣ノードに同じメッセージを送信している場合、各ノード間のメッセージの空間的関係を条件として、同一ノードの隣ノードに異なるメッセージを送信することを提案する。 そこで本稿では,マルチブランチ構造下での空間条件の適用方法について検討する。 広範な実験を通じて,隣接構造,メッセージ,洗練されたグラフ特徴の計算における空間的条件付けの利点を実証する。 特に,境界ボックスの品質が向上するにつれて,その粗い外観特徴が空間情報に比べて相互作用の曖昧さに比較的寄与することが実証的に示される。 本手法はHICO-DETで31.33%,V-COCOで54.2%のmAPを達成し,微調整検出で最先端のmAPを実現する。

We address the problem of detecting human-object interactions in images using graphical neural networks. Unlike conventional methods, where nodes send scaled but otherwise identical messages to each of their neighbours, we propose to condition messages between pairs of nodes on their spatial relationships, resulting in different messages going to neighbours of the same node. To this end, we explore various ways of applying spatial conditioning under a multi-branch structure. Through extensive experimentation we demonstrate the advantages of spatial conditioning for the computation of the adjacency structure, messages and the refined graph features. In particular, we empirically show that as the quality of the bounding boxes increases, their coarse appearance features contribute relatively less to the disambiguation of interactions compared to the spatial information. Our method achieves an mAP of 31.33% on HICO-DET and 54.2% on V-COCO, significantly outperforming state-of-the-art on fine-tuned detections.
翻訳日:2021-05-11 03:14:49 公開日:2021-03-31
# KOALAnet: Kernel-Oriented Adaptive Local Adjustment を用いたブラインド超解法

KOALAnet: Blind Super-Resolution using Kernel-Oriented Adaptive Local Adjustment ( http://arxiv.org/abs/2012.08103v3 )

ライセンス: Link先を確認
Soo Ye Kim, Hyeonjun Sim, Munchurl Kim(参考訳) ブラインド超解像(SR)法は、未知の劣化を含む低解像度画像から高品質の高解像度画像を生成することを目的としている。 しかし、自然画像には様々な種類や量のぼやけがあり、カメラ固有の劣化特性に起因するものもあれば、美的目的のために意図的なものもある(例)。 ボケ効果)。 後者の場合、SR法では除去するブラーをアンタングルし、そのままにしておくことが非常に困難になる。 本論文では,実画像における空間変化のぼかし特性に適応するために,空間変化の劣化と復元のカーネルを共同で学習するKoALAnetという,SR特徴のカーネル指向適応型局所調整(KOALA)に基づく新しいブラインドSRフレームワークを提案する。 本稿では, ランダム化劣化処理により得られたLR画像のブラインドSR法よりも優れており, また, 意図的ぼやけを伴わない芸術写真に対して, アウト・オブ・フォーカス領域と混在する画像の処理を効果的に行うことにより, 最も自然な結果が得られることを示す。

Blind super-resolution (SR) methods aim to generate a high quality high resolution image from a low resolution image containing unknown degradations. However, natural images contain various types and amounts of blur: some may be due to the inherent degradation characteristics of the camera, but some may even be intentional, for aesthetic purposes (e.g. Bokeh effect). In the case of the latter, it becomes highly difficult for SR methods to disentangle the blur to remove, and that to leave as is. In this paper, we propose a novel blind SR framework based on kernel-oriented adaptive local adjustment (KOALA) of SR features, called KOALAnet, which jointly learns spatially-variant degradation and restoration kernels in order to adapt to the spatially-variant blur characteristics in real images. Our KOALAnet outperforms recent blind SR methods for synthesized LR images obtained with randomized degradations, and we further show that the proposed KOALAnet produces the most natural results for artistic photographs with intentional blur, which are not over-sharpened, by effectively handling images mixed with in-focus and out-of-focus areas.
翻訳日:2021-05-07 05:24:42 公開日:2021-03-31
# (参考訳) 機械学習のためのデータセットセキュリティ:データ中毒、バックドア攻撃、防御

Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses ( http://arxiv.org/abs/2012.10544v4 )

ライセンス: CC BY 4.0
Micah Goldblum, Dimitris Tsipras, Chulin Xie, Xinyun Chen, Avi Schwarzschild, Dawn Song, Aleksander Madry, Bo Li, Tom Goldstein(参考訳) 機械学習システムの規模が拡大するにつれて、トレーニングデータ要件も必要になるため、トレーニングデータのキュレーションを自動化し、アウトソースして、最先端のパフォーマンスを実現する必要がある。 データ収集プロセスに対する信頼性の高い人間の監督の欠如は、組織をセキュリティ上の脆弱性に晒す。 この研究の目的は、幅広いデータセットの脆弱性とエクスプロイト、これらの脅威に対する防御のアプローチ、そしてこの分野におけるオープンな問題の集合を体系的に分類し、議論することである。 様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。

As machine learning systems grow in scale, so do their training data requirements, forcing practitioners to automate and outsource the curation of training data in order to achieve state-of-the-art performance. The absence of trustworthy human supervision over the data collection process exposes organizations to security vulnerabilities; training data can be manipulated to control and degrade the downstream behaviors of learned models. The goal of this work is to systematically categorize and discuss a wide range of dataset vulnerabilities and exploits, approaches for defending against these threats, and an array of open problems in this space. In addition to describing various poisoning and backdoor threat models and the relationships among them, we develop their unified taxonomy.
翻訳日:2021-05-01 18:57:49 公開日:2021-03-31
# 大規模顔認識のための3次元GAN

A 3D GAN for Improved Large-pose Facial Recognition ( http://arxiv.org/abs/2012.10545v2 )

ライセンス: Link先を確認
Richard T. Marriott, Sami Romdhani and Liming Chen(参考訳) 深層畳み込みニューラルネットワークを用いた顔認識は、顔画像の大きなデータセットの可用性に依存している。 アイデンティティの多くの例が必要であり、各アイデンティティに対して、ネットワークがクラス内変動に対する堅牢性を学ぶために、さまざまな画像が必要である。 実際には、このようなデータセットは、特に適切なポーズのバリエーションを含むデータセットを得るのが困難である。 GAN(Generative Adversarial Networks)は、現実的な合成画像を生成する能力により、この問題に対する潜在的な解決策を提供する。 しかし、近年の研究では、アイデンティティからポーズを離す方法が不十分であることが示されている。 本研究では,ganの生成器に3次元モーファブルモデルを導入して,野生画像から非線形テクスチャモデルを学ぶ。 これにより、新しい合成アイデンティティの生成とポーズ、照明、表現の操作が、アイデンティティを損なうことなく可能になる。 我々の合成データは,CFPデータセットとCPLFWデータセットの性能評価により,顔認識ネットワークのトレーニング強化に使用される。

Facial recognition using deep convolutional neural networks relies on the availability of large datasets of face images. Many examples of identities are needed, and for each identity, a large variety of images are needed in order for the network to learn robustness to intra-class variation. In practice, such datasets are difficult to obtain, particularly those containing adequate variation of pose. Generative Adversarial Networks (GANs) provide a potential solution to this problem due to their ability to generate realistic, synthetic images. However, recent studies have shown that current methods of disentangling pose from identity are inadequate. In this work we incorporate a 3D morphable model into the generator of a GAN in order to learn a nonlinear texture model from in-the-wild images. This allows generation of new, synthetic identities, and manipulation of pose, illumination and expression without compromising the identity. Our synthesised data is used to augment training of facial recognition networks with performance evaluated on the challenging CFP and CPLFW datasets.
翻訳日:2021-05-01 18:09:22 公開日:2021-03-31
# 強化学習における制約ハンジングのための動的ペナルティ関数アプローチ

A Dynamic Penalty Function Approach for Constraints-Handling in Reinforcement Learning ( http://arxiv.org/abs/2012.11790v2 )

ライセンス: Link先を確認
Haeun Yoo, Victor M. Zavala, Jay H. Lee(参考訳) 強化学習(RL)は,高次元状態/動作空間と確率的不確実性を含む逐次最適化問題を解く効果的な方法として注目されている。 そのような問題の多くは不等式制約によって表される制約を含む。 本研究では,制約付き最適制御問題の解法にRLを用いることに焦点をあてる。 ほとんどのRL応用研究は、報酬関数に制約を違反するソフトペナルティ項を追加することで不等式制約に対処してきた。 しかしながら、ニューラルネットワークを訓練して値(またはq)関数を学ぶ一方で、課せられる大きなペナルティによって制約境界における関数値の急激な変化によって生じる計算問題に遭遇することができる。 この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。 そこで本研究では,反復エピソードが進行するにつれて,ペナルティ係数が徐々に,体系的に増加する動的ペナルティ(DP)アプローチを提案する。 まず,制約違反を防止するために,一様関数,線形関数,dp関数を加えた場合の値関数を表現するニューラルネットワークの能力について検討する。 dp関数を用いたディープqネットワーク (dqn) アルゴリズムで訓練したエージェントを, 車両制御問題において他の一定のペナルティ関数を持つエージェントと比較した。 その結果,提案手法はニューラルネットワークの近似精度を向上し,解に近い場合により高速に収束できることがわかった。

Reinforcement learning (RL) is attracting attention as an effective way to solve sequential optimization problems that involve high dimensional state/action space and stochastic uncertainties. Many such problems involve constraints expressed by inequality constraints. This study focuses on using RL to solve constrained optimal control problems. Most RL application studies have dealt with inequality constraints by adding soft penalty terms for violating the constraints to the reward function. However, while training neural networks to learn the value (or Q) function, one can run into computational issues caused by the sharp change in the function value at the constraint boundary due to the large penalty imposed. This difficulty during training can lead to convergence problems and ultimately lead to poor closed-loop performance. To address this issue, this study proposes a dynamic penalty (DP) approach where the penalty factor is gradually and systematically increased during training as the iteration episodes proceed. We first examine the ability of a neural network to represent a value function when uniform, linear, or DP functions are added to prevent constraint violation. The agent trained by a Deep Q Network (DQN) algorithm with the DP function approach was compared with agents with other constant penalty functions in a simple vehicle control problem. Results show that the proposed approach can improve the neural network approximation accuracy and provide faster convergence when close to a solution.
翻訳日:2021-04-26 07:15:52 公開日:2021-03-31
# (参考訳) EC-GAN:半スーパービジョンアルゴリズムとGANを用いた低サンプル分類 [全文訳有]

EC-GAN: Low-Sample Classification using Semi-Supervised Algorithms and GANs ( http://arxiv.org/abs/2012.15864v2 )

ライセンス: CC BY 4.0
Ayaan Haque(参考訳) ラベル付きデータによる分類などの画像解析タスクを可能にするため,半教師付き学習が注目されている。 半教師付き分類にGAN(Generative Adversarial Networks)を用いる一般的なアルゴリズムは、分類と識別のための単一のアーキテクチャを共有している。 しかし、これは各タスクの別々のデータ分散にモデルが収束する必要があるため、全体的なパフォーマンスが低下する可能性がある。 半教師付き学習の進歩はあったが、少ない対応は小さな教師付きタスクであり、ラベルなしのデータでさえ利用できず、持続不可能である。 そこで我々は,GANと半教師付きアルゴリズムを用いて,完全教師付き体制における分類を改善する新しいGANモデルであるEC-GANを提案する。 本手法はGANを利用して,教師付き分類を補完する人工データを生成する。 具体的には、識別器とアーキテクチャを共有するのとは対照的に、外部分類器、すなわちEC-GANをGANのジェネレータにアタッチする。 実験の結果,EC-GANの性能は共有アーキテクチャ法と同等であり,標準データ拡張と正規化に基づくアプローチよりもはるかに優れており,小型で現実的なデータセット上で有効であることがわかった。

Semi-supervised learning has been gaining attention as it allows for performing image analysis tasks such as classification with limited labeled data. Some popular algorithms using Generative Adversarial Networks (GANs) for semi-supervised classification share a single architecture for classification and discrimination. However, this may require a model to converge to a separate data distribution for each task, which may reduce overall performance. While progress in semi-supervised learning has been made, less addressed are small-scale, fully-supervised tasks where even unlabeled data is unavailable and unattainable. We therefore, propose a novel GAN model namely External Classifier GAN (EC-GAN), that utilizes GANs and semi-supervised algorithms to improve classification in fully-supervised regimes. Our method leverages a GAN to generate artificial data used to supplement supervised classification. More specifically, we attach an external classifier, hence the name EC-GAN, to the GAN's generator, as opposed to sharing an architecture with the discriminator. Our experiments demonstrate that EC-GAN's performance is comparable to the shared architecture method, far superior to the standard data augmentation and regularization-based approach, and effective on a small, realistic dataset.
翻訳日:2021-04-25 03:28:53 公開日:2021-03-31
# neighbor2neighbor:シングルノイズ画像からの自己教師ありデノイジング

Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images ( http://arxiv.org/abs/2101.02824v3 )

ライセンス: Link先を確認
Tao Huang, Songjiang Li, Xu Jia, Huchuan Lu and Jianzhuang Liu(参考訳) 過去数年間、画像のノイズ化はニューラルネットワークの急速な発展から多くの恩恵を受けてきた。 しかし、監督のために大量のノイズクリーン画像対を必要とするため、これらのモデルの利用は制限される。 単一のノイズ画像のみを用いた画像デノイジングモデルをトレーニングする試みはいくつかあったが、既存の自己教師ありデノイジングアプローチは、非効率なネットワークトレーニング、有用な情報の喪失、ノイズモデリングへの依存に苦しむ。 本稿では,ノイズの多い画像のみを用いた実効画像復調モデルの訓練を行うため,Neighbor2Neighborという非常に単純な手法を提案する。 まず,訓練画像対の生成のためにランダムに隣接したサブサンプラーを提案する。 具体的には、ネットワークを訓練するために使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像であり、ペア画像のピクセルが隣り合わせで、非常に類似した外観を持つという要件を満たす。 第2に、第1段階で生成されたサブサンプリングされたトレーニングペアに雑音ネットワークをトレーニングし、提案するレギュラライザをパフォーマンス向上のための追加損失として訓練する。 提案するneighbor2neighborフレームワークは,ネットワークアーキテクチャ設計における最先端の監視ネットワークの進歩を享受することができる。 さらに,騒音分布の仮定に重依存することを回避する。 本稿では,SRGB空間におけるノイズ分布の異なる合成実験や,生RGB空間におけるデノナイジングベンチマークデータセットを用いた実世界の実験など,理論的な観点からのアプローチを説明し,さらなる検証を行う。

In the last few years, image denoising has benefited a lot from the fast development of neural networks. However, the requirement of large amounts of noisy-clean image pairs for supervision limits the wide use of these models. Although there have been a few attempts in training an image denoising model with only single noisy images, existing self-supervised denoising approaches suffer from inefficient network training, loss of useful information, or dependence on noise modeling. In this paper, we present a very simple yet effective method named Neighbor2Neighbor to train an effective image denoising model with only noisy images. Firstly, a random neighbor sub-sampler is proposed for the generation of training image pairs. In detail, input and target used to train a network are images sub-sampled from the same noisy image, satisfying the requirement that paired pixels of paired images are neighbors and have very similar appearance with each other. Secondly, a denoising network is trained on sub-sampled training pairs generated in the first stage, with a proposed regularizer as additional loss for better performance. The proposed Neighbor2Neighbor framework is able to enjoy the progress of state-of-the-art supervised denoising networks in network architecture design. Moreover, it avoids heavy dependence on the assumption of the noise distribution. We explain our approach from a theoretical perspective and further validate it through extensive experiments, including synthetic experiments with different noise distributions in sRGB space and real-world experiments on a denoising benchmark dataset in raw-RGB space.
翻訳日:2021-04-10 05:03:45 公開日:2021-03-31
# (参考訳) トピックスケーリング: 共同ドキュメントスケーリング - 時間特有のトピックを学ぶためのトピックモデルアプローチ [全文訳有]

Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn Time-Specific Topics ( http://arxiv.org/abs/2104.01117v1 )

ライセンス: CC BY 4.0
Sami Diaf and Ulrich Fritsche(参考訳) 本稿では,文書位置の尺度に関して時間に基づくトピックを学習する2段階アルゴリズムを導入し,学習トピックを同じ文書スケールでランク付けするトピックスケーリングの概念を導入することによって,シーケンシャルコーパスを研究する新しい手法を提案する。 第1段階では、poissonベースのドキュメントスケーリング手法であるwordfishを使用してドキュメントを分類し、第2段階では依存変数としてドキュメントの位置を推定し、教師付き潜在ディリクレ割り当てを通じて関連するトピックを学習する。 このノベルティはテキストマイニングの2つの革新をもたらし、そのスケールが潜在変数である文書の位置を説明し、推定されたトピックをコーパス内で発生し、その進化を追跡するために文書スケールでランク付けする。 この帰納的アプローチは、各政党が学習規模の一端を占めることを明らかにし、その政党の任期に従う交換可能な移行が行われる。 本手法は,サンプル内文書の位置をトピックスコアから推定する上で高い精度を示すとともに,学習したトピックの数を増やし,潜在的にネストした階層的なトピック構造を広げることで,類似文書を区別する隠れトピックを明らかにする。 Topic Scalingは、他の人気のあるトピックモデルと比較して、トピックの進化を学ぶための時間周波数を指定せずに、ドキュメントの類似性に関するトピックを学習し、ダイナミックなトピックモデルよりも広範なトピックパターンをキャプチャし、普通のディリクレの割り当てよりも解釈可能なアウトプットを得る。

This paper proposes a new methodology to study sequential corpora by implementing a two-stage algorithm that learns time-based topics with respect to a scale of document positions and introduces the concept of Topic Scaling which ranks learned topics within the same document scale. The first stage ranks documents using Wordfish, a Poisson-based document scaling method, to estimate document positions that serve, in the second stage, as a dependent variable to learn relevant topics via a supervised Latent Dirichlet Allocation. This novelty brings two innovations in text mining as it explains document positions, whose scale is a latent variable, and ranks the inferred topics on the document scale to match their occurrences within the corpus and track their evolution. Tested on the U.S. State Of The Union two-party addresses, this inductive approach reveals that each party dominates one end of the learned scale with interchangeable transitions that follow the parties' term of office. Besides a demonstrated high accuracy in predicting in-sample documents' positions from topic scores, this method reveals further hidden topics that differentiate similar documents by increasing the number of learned topics to unfold potential nested hierarchical topic structures. Compared to other popular topic models, Topic Scaling learns topics with respect to document similarities without specifying a time frequency to learn topic evolution, thus capturing broader topic patterns than dynamic topic models and yielding more interpretable outputs than a plain latent Dirichlet allocation.
翻訳日:2021-04-06 03:31:12 公開日:2021-03-31
# HAConvGNN:Jupyter Notebooksにおけるコードドキュメンテーション生成のための階層的注意に基づく畳み込みグラフニューラルネットワーク

HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural Network for Code Documentation Generation in Jupyter Notebooks ( http://arxiv.org/abs/2104.01002v1 )

ライセンス: Link先を確認
Xuye Liu, Dakuo Wang, April Wang, Lingfei Wu(参考訳) 多くのデータサイエンティストはjupyter notebookを使ってコードを実験し、結果を視覚化し、理論や解釈を文書化する。 ノートブックにおけるコードドキュメント生成CDGタスクは関連しているが、ソフトウェア工学におけるコード要約タスクとは異なっている。 本研究の目的は,複数のコードセルを分離したASTグラフ構造として符号化することでCDGの課題を解決することであり,Seq2Seqネットワークの拡張を目的とした階層型アテンションベースのConvGNNコンポーネントを提案する。 公開されているKaggleノートブックでデータセットを構築し、ベースラインモデル(Code2SeqやGraph2Seqなど)に対してモデル(HAConvGNN)を評価します。

Many data scientists use Jupyter notebook to experiment code, visualize results, and document rationales or interpretations. The code documentation generation CDG task in notebooks is related but different from the code summarization task in software engineering, as one documentation (markdown cell) may consist of a text (informative summary or indicative rationale) for multiple code cells. Our work aims to solve the CDG task by encoding the multiple code cells as separated AST graph structures, for which we propose a hierarchical attention-based ConvGNN component to augment the Seq2Seq network. We build a dataset with publicly available Kaggle notebooks and evaluate our model (HAConvGNN) against baseline models (e.g., Code2Seq or Graph2Seq).
翻訳日:2021-04-05 13:40:30 公開日:2021-03-31
# (参考訳) フィッティングエレファント [全文訳有]

Fitting Elephants ( http://arxiv.org/abs/2104.00526v1 )

ライセンス: CC BY 4.0
Partha P Mitra(参考訳) 教科書の知恵はスムーズな関数の適合を提唱し、ノイズの多いデータの補間が一般化の低下につながることを示唆している。 関連するヒューリスティックは、フィッティングパラメータが測定値より小さいことである(オッカムのラザー)。 驚くべきことに、現代の機械学習(ML)アプローチ、cf。 deep nets (dnns) はノイズの多いデータを補間しながらもうまく一般化する。 これは統計的に一貫性のある補間(SCI)によって理解される。 ビッグデータを最適に一般化するデータ補間技術。 本稿では、kNN(k-nearest neighbors)に特異な重み関数を付加する、重み付き補間近接隣人(wiNN)アルゴリズムを用いてSCIを解明する。 これは、データの補間がビッグデータにとって有効なML戦略であることを示している。 SCIは自然現象をモデル化する2つの方法の関係を明確にしている: 理論物理学の有理論的アプローチ(強い先行)と、データよりも多くのパラメータを持つ現代のMLの経験主義的アプローチ(弱い先行)である。 SCIは、純粋に経験的なアプローチがうまく予測できることを示している。 しかし、データ補間は理論的洞察を提供しておらず、トレーニングデータ要件は禁止される可能性がある。 複雑な動物の脳はこれらの極端の間にあり、多くのパラメータを持つが、控えめな訓練データを持ち、以前の構造は種固有のメソスケール回路にコードされている。 したがって、現代のmlは、物理的理論と動物の脳とは異なる認識論的アプローチを提供する。

Textbook wisdom advocates for smooth function fits and implies that interpolation of noisy data should lead to poor generalization. A related heuristic is that fitting parameters should be fewer than measurements (Occam's Razor). Surprisingly, contemporary machine learning (ML) approaches, cf. deep nets (DNNs), generalize well despite interpolating noisy data. This may be understood via Statistically Consistent Interpolation (SCI), i.e. data interpolation techniques that generalize optimally for big data. In this article we elucidate SCI using the weighted interpolating nearest neighbors (wiNN) algorithm, which adds singular weight functions to kNN (k-nearest neighbors). This shows that data interpolation can be a valid ML strategy for big data. SCI clarifies the relation between two ways of modeling natural phenomena: the rationalist approach (strong priors) of theoretical physics with few parameters and the empiricist (weak priors) approach of modern ML with more parameters than data. SCI shows that the purely empirical approach can successfully predict. However data interpolation does not provide theoretical insights, and the training data requirements may be prohibitive. Complex animal brains are between these extremes, with many parameters, but modest training data, and with prior structure encoded in species-specific mesoscale circuitry. Thus, modern ML provides a distinct epistemological approach different both from physical theories and animal brains.
翻訳日:2021-04-03 10:54:26 公開日:2021-03-31
# (参考訳) 地下二相流における拘束場開発最適化のための深部強化学習 [全文訳有]

Deep Reinforcement Learning for Constrained Field Development Optimization in Subsurface Two-phase Flow ( http://arxiv.org/abs/2104.00527v1 )

ライセンス: CC BY 4.0
Yusuf Nasir, Jincong He, Chaoshun Hu, Shusei Tanaka, Kainan Wang and XianHuan Wen(参考訳) 本稿では,貯留層と岩石・流体特性の基本的な記述を最小の計算コストで考慮し,最適な開発計画を提供できる深層強化学習型人工知能エージェントを提案する。 畳み込みニューラルネットワークからなる人工知能エージェントは、決定された逐次フィールド開発計画プロセスの次の段階において、貯水池モデルの所定の状態、制約及び経済状態から取るべき最適決定(ドリル・ド・ドリル及び適切な位置)までのマッピングを提供する。 貯水池モデルの状態は、二相流の制御方程式に現れるパラメータを用いて定義される。 このような能力を持つ人工知能エージェントを訓練するために、深層強化学習と呼ばれるフィードバックループトレーニングプロセスが使用される。 トレーニングには、様々な貯水池モデル記述(構造、岩石、流体特性)、運用上の制約、経済条件を含む数百万のフローシミュレーションが含まれる。 貯水池モデル、運用制約、経済条件を定義するパラメータは、定義された適用範囲からランダムにサンプリングされる。 人工知能エージェントのトレーニングを強化するために、いくつかのアルゴリズム処理が導入されている。 適切なトレーニングの後、人工知能エージェントは、定義された適用範囲内の新しいシナリオのために即座に最適化されたフィールド開発計画を提供する。 このアプローチは、特定のフィールド開発シナリオの解決策を見つけるために一般的に使用される従来の最適化アルゴリズム(例えば、パーティクルスワム最適化、遺伝的アルゴリズム)よりも利点があり、一般的に異なるシナリオに一般化できない。

We present a deep reinforcement learning-based artificial intelligence agent that could provide optimized development plans given a basic description of the reservoir and rock/fluid properties with minimal computational cost. This artificial intelligence agent, comprising of a convolutional neural network, provides a mapping from a given state of the reservoir model, constraints, and economic condition to the optimal decision (drill/do not drill and well location) to be taken in the next stage of the defined sequential field development planning process. The state of the reservoir model is defined using parameters that appear in the governing equations of the two-phase flow. A feedback loop training process referred to as deep reinforcement learning is used to train an artificial intelligence agent with such a capability. The training entails millions of flow simulations with varying reservoir model descriptions (structural, rock and fluid properties), operational constraints, and economic conditions. The parameters that define the reservoir model, operational constraints, and economic conditions are randomly sampled from a defined range of applicability. Several algorithmic treatments are introduced to enhance the training of the artificial intelligence agent. After appropriate training, the artificial intelligence agent provides an optimized field development plan instantly for new scenarios within the defined range of applicability. This approach has advantages over traditional optimization algorithms (e.g., particle swarm optimization, genetic algorithm) that are generally used to find a solution for a specific field development scenario and typically not generalizable to different scenarios.
翻訳日:2021-04-03 10:33:56 公開日:2021-03-31
# (参考訳) DIVERSE:正確な薬物応答予測のためのベイズデータ統合学習 [全文訳有]

DIVERSE: bayesian Data IntegratiVE learning for precise drug ResponSE prediction ( http://arxiv.org/abs/2104.00520v1 )

ライセンス: CC BY 4.0
Bet\"ul G\"uven\c{c} Paltun, Samuel Kaski and Hiroshi Mamitsuka(参考訳) マルチオミクスデータから予測バイオマーカーを検出することは、精密医療、複雑な疾患の診断の改善、治療の改善に重要である。 これは、細胞線の多様性と膨大なコストによって困難にされる、実質的な実験的な努力を必要とする。 効果的な解決策は、ゲノム、分子、環境情報を含む様々なオミクスデータの上に計算モデルを構築することである。 しかし、異なる種類のデータの中から情報的かつ信頼性の高いデータソースを選択することは難しい問題である。 本稿では, 細胞系, 薬物, 遺伝子相互作用のデータから薬物応答を予測するために, ベイズの重要性重み付きトリアンドバイオマトリックス因子分解(diverse3 or diverse2)の枠組みを提案する。 DIVERSEは、ステップワイズでデータソースを体系的に統合し、各追加データセットの重要性を検証します。 より具体的には、5つの異なるデータセットを逐次統合するが、これらは全て以前のバイオインフォマティクス法で組み合わせられていない。 経験的実験では、より単純な行列内予測よりも、実際のユースケースの設定に近く、より困難である行列外予測において、クロスバリデーション下での3つの最先端アプローチを含む、他の5つの方法よりも、多様性が明らかに優れていることが示されている。 さらに、新薬発見のケーススタディにより、DIVERSEの性能上の利点がさらに証明された。

Detecting predictive biomarkers from multi-omics data is important for precision medicine, to improve diagnostics of complex diseases and for better treatments. This needs substantial experimental efforts that are made difficult by the heterogeneity of cell lines and huge cost. An effective solution is to build a computational model over the diverse omics data, including genomic, molecular, and environmental information. However, choosing informative and reliable data sources from among the different types of data is a challenging problem. We propose DIVERSE, a framework of Bayesian importance-weighted tri- and bi-matrix factorization(DIVERS E3 or DIVERSE2) to predict drug responses from data of cell lines, drugs, and gene interactions. DIVERSE integrates the data sources systematically, in a step-wise manner, examining the importance of each added data set in turn. More specifically, we sequentially integrate five different data sets, which have not all been combined in earlier bioinformatic methods for predicting drug responses. Empirical experiments show that DIVERSE clearly outperformed five other methods including three state-of-the-art approaches, under cross-validation, particularly in out-of-matrix prediction, which is closer to the setting of real use cases and more challenging than simpler in-matrix prediction. Additionally, case studies for discovering new drugs further confirmed the performance advantage of DIVERSE.
翻訳日:2021-04-03 10:13:47 公開日:2021-03-31
# (参考訳) fapis: 数ショットアンカーフリーの部分ベースのインスタンスセグナー [全文訳有]

FAPIS: A Few-shot Anchor-free Part-based Instance Segmenter ( http://arxiv.org/abs/2104.00073v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Sinisa Todorovic(参考訳) 本稿では、トレーニングとテストイメージセットが同じオブジェクトクラスを共有しない、インスタンスセグメンテーションについて述べる。 我々は、新しいマイナショットアンカーフリー部分ベースのインスタンスセグメンタfapiを指定、評価する。 私たちの重要な新規性は、トレーニング対象クラス間で共有される潜在オブジェクト部分の明示的なモデリングです。 我々は,前景境界ボックスの位置のスコア付けと後退を目的とした新しいアンカーフリー物体検出器を特定し,各ボックス内の潜在部分の相対的重要度を推定する。 また,検出されたバウンディングボックス毎に最終インスタンスセグメンテーションの潜在部分のデライン化と重み付けを行う新しいネットワークを指定する。 ベンチマークCOCO-20iデータセットによる評価は,その技術状況を大きく上回っていることを示す。

This paper is about few-shot instance segmentation, where training and test image sets do not share the same object classes. We specify and evaluate a new few-shot anchor-free part-based instance segmenter FAPIS. Our key novelty is in explicit modeling of latent object parts shared across training object classes, which is expected to facilitate our few-shot learning on new classes in testing. We specify a new anchor-free object detector aimed at scoring and regressing locations of foreground bounding boxes, as well as estimating relative importance of latent parts within each box. Also, we specify a new network for delineating and weighting latent parts for the final instance segmentation within every detected bounding box. Our evaluation on the benchmark COCO-20i dataset demonstrates that we significantly outperform the state of the art.
翻訳日:2021-04-03 09:57:12 公開日:2021-03-31
# (参考訳) マルチ人工知能駆動インテリジェントサーフェスを用いた超信頼性屋内ミリ波通信 [全文訳有]

Ultra-Reliable Indoor Millimeter Wave Communications using Multiple Artificial Intelligence-Powered Intelligent Surfaces ( http://arxiv.org/abs/2104.00075v1 )

ライセンス: CC BY 4.0
Mehdi Naderi Soorki, Walid Saad, Mehdi Bennis, Choong Seon Hong(参考訳) 本稿では,複数の人工知能 (AI) に対応した再構成可能な知的表面 (RIS) を用いた超信頼性ミリ波通信を実現するための新しい枠組みを提案する。 複数のAIベースのRISを使用することで、mWアクセスポイント(AP)から送信される信号の伝搬方向を変更することができ、特にNLoS領域のカバレッジを向上させることができる。 しかし、mWリンクを超える確率的遮断の可能性のため、mWAPビームとRIS位相シフトを協調的に最適化するインテリジェントコントローラを設計することは大変な作業である。 この点において、まず、予測ビットレートを最大化し、mmwリンクブロックのリスクを緩和するために、パラメトリックリスクに敏感なエピソディックリターンを提案する。 そして、リスク感受性のエピソード回帰のポリシー勾配の閉形式近似を解析的に導出する。 次に,mmW AP と RIS のジョイントビームフォーミングの問題,および mmW RIS の位相シフト制御を,エージェントが mmW AP と RIS である協調マルチエージェント環境において同一のペイオフ確率ゲームとしてモデル化する。 mmW APとRISのポリシーを制御するために、2つの集中型および分散型コントローラが提案されている。 最適解を直接見つけるために、これらのコントローラのパラメトリック関数形式ポリシーは、ディープリカレントニューラルネットワーク(RNN)を用いてモデル化される。 シミュレーションの結果、最適とRNNベースのコントローラのポリシーの誤差は1.5%未満であることが示されている。 さらに、深いRNNベースのコントローラから得られる達成可能な速度のばらつきは、リスク-逆ベースラインのばらつきよりも60%少ない。

In this paper, a novel framework for guaranteeing ultra-reliable millimeter wave (mmW) communications using multiple artificial intelligence (AI)-enabled reconfigurable intelligent surfaces (RISs) is proposed. The use of multiple AI-powered RISs allows changing the propagation direction of the signals transmitted from a mmW access point (AP) thereby improving coverage particularly for non-line-of-sight (NLoS) areas. However, due to the possibility of highly stochastic blockage over mmW links, designing an intelligent controller to jointly optimize the mmW AP beam and RIS phase shifts is a daunting task. In this regard, first, a parametric risk-sensitive episodic return is proposed to maximize the expected bit rate and mitigate the risk of mmW link blockage. Then, a closed-form approximation of the policy gradient of the risk-sensitive episodic return is analytically derived. Next, the problem of joint beamforming for mmW AP and phase shift control for mmW RISs is modeled as an identical payoff stochastic game within a cooperative multi-agent environment, in which the agents are the mmW AP and the RISs. Two centralized and distributed controllers are proposed to control the policies of the mmW AP and RISs. To directly find an optimal solution, the parametric functional-form policies for these controllers are modeled using deep recurrent neural networks (RNNs). Simulation results show that the error between policies of the optimal and the RNN-based controllers is less than 1.5%. Moreover, the variance of the achievable rates resulting from the deep RNN-based controllers is 60% less than the variance of the risk-averse baseline.
翻訳日:2021-04-03 09:40:28 公開日:2021-03-31
# (参考訳) ハイブリッド単眼視覚SLAM法における学習特徴記述子の比較評価 [全文訳有]

A comparative evaluation of learned feature descriptors on hybrid monocular visual SLAM methods ( http://arxiv.org/abs/2104.00085v1 )

ライセンス: CC BY 4.0
Hudson M. S. Bruno and Esther L. Colombini(参考訳) 古典的な視覚同時ローカライゼーション・マッピング(vslam)アルゴリズムは、ロボットの動きや環境が難しい場合、簡単に失敗に導くことができる。 VSLAMアルゴリズムの強化にDeep Neural Networksを用いることで、我々は最近、ハイブリッド手法と呼ばれる有望な結果を得た。 本稿では,ハイブリッド型単眼vslam法の性能と学習特徴記述子の性能を比較した。 そこで本研究では,異なる環境下でのアルゴリズムの堅牢性,カメラモーション,カメラセンサノイズを評価するための一連の実験を提案する。 KITTIとEuroc MAVデータセットで実施された実験は、学習された特徴記述子がより堅牢なVSLAMシステムを作成することができることを確認した。

Classical Visual Simultaneous Localization and Mapping (VSLAM) algorithms can be easily induced to fail when either the robot's motion or the environment is too challenging. The use of Deep Neural Networks to enhance VSLAM algorithms has recently achieved promising results, which we call hybrid methods. In this paper, we compare the performance of hybrid monocular VSLAM methods with different learned feature descriptors. To this end, we propose a set of experiments to evaluate the robustness of the algorithms under different environments, camera motion, and camera sensor noise. Experiments conducted on KITTI and Euroc MAV datasets confirm that learned feature descriptors can create more robust VSLAM systems.
翻訳日:2021-04-03 09:15:46 公開日:2021-03-31
# (参考訳) 市民科学、人工知能、計算研究 [全文訳有]

Imagine All the People: Citizen Science, Artificial Intelligence, and Computational Research ( http://arxiv.org/abs/2104.00093v1 )

ライセンス: CC BY 4.0
Lea A. Shanley, Lucy Fortson, Tanya Berger-Wolf, Kevin Crowston, and Pietro Michelucci(参考訳) 機械学習、人工知能、ディープラーニングは過去10年間で大幅に進歩している。 それでも、人間は創造性、直観、文脈と抽象、分析的問題解決、異常事象の検出といったユニークな能力を持っている。 科学と社会の課題に挑戦するためには、人間と機械の相補的な能力が必要です。 連邦政府は、市民科学の司法的統合と、人工知能(AI)、IoT(Internet of Things)、クラウド戦略によるクラウドソーシングによって、複数の面での優先事項を加速することができる。

Machine learning, artificial intelligence, and deep learning have advanced significantly over the past decade. Nonetheless, humans possess unique abilities such as creativity, intuition, context and abstraction, analytic problem solving, and detecting unusual events. To successfully tackle pressing scientific and societal challenges, we need the complementary capabilities of both humans and machines. The Federal Government could accelerate its priorities on multiple fronts through judicious integration of citizen science and crowdsourcing with artificial intelligence (AI), Internet of Things (IoT), and cloud strategies.
翻訳日:2021-04-03 09:05:23 公開日:2021-03-31
# (参考訳) 高齢者・介護者のためのスマートテクノロジーの現状と将来 [全文訳有]

Taking Stock of the Present and Future of Smart Technologies for Older Adults and Caregivers ( http://arxiv.org/abs/2104.00096v1 )

ライセンス: CC BY 4.0
Christina N. Harrington, Ben Jelen, Amanda Lazar, Aqueasha Martin-Hammond, Alisha Pradhan, Blaine Reeder, and Katie Siek(参考訳) テクノロジーは、年齢が上がるにつれて高齢者を援助し、介護資源を調整し、資源へのアクセスを通じて未成年のニーズを満たす機会を持つ。 現在、高齢者は生活を支えるために消費者技術を使用しているが、これらの技術が常に利用できるとは限らない。 実際、業界は高齢者をターゲットとするスマートホームテクノロジーを作ろうとしてきたが、これらのソリューションは技術的な側面に重点を置いており、短命であることが多い。 本稿では,初期アイデアから製品開発,デプロイメントに至るまで,デザインプロセスに関わる高齢者を提唱する。 我々は、連邦政府が出資した研究者や業界が、年齢に関するステレオタイプに対処し、彼らのニーズを考慮しつつ、補償された、多様な成人アドバイザリーボードを作ることを奨励する。 私たちは、リソースを置き換えるのではなく、リソースを増強する人工知能システムを構想しています。 高齢者は、社会的、感情的、身体的な支援のために、介護者ネットワークやコミュニティ組織に依存している。 社会技術的なスマートシステムは高齢者のニーズを特定するのに役立つが、手頃な研究インフラの欠如と消費者技術への発見の翻訳は、多様な高齢者のためのデザインの不平等を持続させる。 さらに、スマートセンシングシステムの構築と、高齢者や介護者が利用できる理解しやすく行動可能なデータの作成との間には、断絶がある。 最終的には、すべての利害関係者に対して革新的で実践的な研究を促進するために、高齢者、介護者、コミュニティ組織、研究者を繋ぐ、米国全体で協調した研究努力を提唱します。

Technology has the opportunity to assist older adults as they age in place, coordinate caregiving resources, and meet unmet needs through access to resources. Currently, older adults use consumer technologies to support everyday life, however these technologies are not always accessible or as useful as they can be. Indeed, industry has attempted to create smart home technologies with older adults as a target user group, however these solutions are often more focused on the technical aspects and are short lived. In this paper, we advocate for older adults being involved in the design process - from initial ideation to product development to deployment. We encourage federally funded researchers and industry to create compensated, diverse older adult advisory boards to address stereotypes about aging while ensuring their needs are considered. We envision artificial intelligence systems that augment resources instead of replacing them - especially in under-resourced communities. Older adults rely on their caregiver networks and community organizations for social, emotional, and physical support; thus, AI should be used to coordinate resources better and lower the burden of connecting with these resources. Although sociotechnical smart systems can help identify needs of older adults, the lack of affordable research infrastructure and translation of findings into consumer technology perpetuates inequities in designing for diverse older adults. In addition, there is a disconnect between the creation of smart sensing systems and creating understandable, actionable data for older adults and caregivers to utilize. We ultimately advocate for a well-coordinated research effort across the United States that connects older adults, caregivers, community organizations, and researchers together to catalyze innovative and practical research for all stakeholders.
翻訳日:2021-04-03 08:58:00 公開日:2021-03-31
# (参考訳) LIFT-SLAM: 深層学習機能に基づく単眼視覚SLAM法 [全文訳有]

LIFT-SLAM: a deep-learning feature-based monocular visual SLAM method ( http://arxiv.org/abs/2104.00099v1 )

ライセンス: CC BY 4.0
Hudson M. S. Bruno and Esther L. Colombini(参考訳) 同時ローカライズ・マッピング(slam)問題は、ロボットが未知の環境に自分自身をローカライズし、同時にこの環境の一貫したマップを構築する可能性に対処している。 近年、カメラは、視覚SLAM(VSLAM)と呼ばれるSLAMを実行するために環境の特徴を得るのに成功している。 しかしながら、従来のVSLAMアルゴリズムは、ロボットの動作や環境が難しすぎる場合に容易に失敗するように誘導することができる。 ディープニューラルネットワーク(DNN)に基づく新しいアプローチは、VSLAMで有望な結果を得たが、従来の手法を上回ることはできない。 深層学習の堅牢性を活用して従来のVSLAMシステムを強化するために,深層学習に基づく特徴記述子の可能性を従来の幾何学に基づくVSLAMと組み合わせ,LIFT-SLAMと呼ばれる新しいVSLAMシステムを構築することを提案する。 KITTI と Euroc のデータセットを用いて行った実験では,従来の VSLAM システムの性能向上にディープラーニングが有効であることが示されている。 本稿では,特定のデータセットに対するパラメータチューニングを適応的アプローチで回避し,伝達学習が抽出した特徴の質に与える影響を評価することで,VSLAMパイプラインを強化する。

The Simultaneous Localization and Mapping (SLAM) problem addresses the possibility of a robot to localize itself in an unknown environment and simultaneously build a consistent map of this environment. Recently, cameras have been successfully used to get the environment's features to perform SLAM, which is referred to as visual SLAM (VSLAM). However, classical VSLAM algorithms can be easily induced to fail when either the motion of the robot or the environment is too challenging. Although new approaches based on Deep Neural Networks (DNNs) have achieved promising results in VSLAM, they still are unable to outperform traditional methods. To leverage the robustness of deep learning to enhance traditional VSLAM systems, we propose to combine the potential of deep learning-based feature descriptors with the traditional geometry-based VSLAM, building a new VSLAM system called LIFT-SLAM. Experiments conducted on KITTI and Euroc datasets show that deep learning can be used to improve the performance of traditional VSLAM systems, as the proposed approach was able to achieve results comparable to the state-of-the-art while being robust to sensorial noise. We enhance the proposed VSLAM pipeline by avoiding parameter tuning for specific datasets with an adaptive approach while evaluating how transfer learning can affect the quality of the features extracted.
翻訳日:2021-04-03 08:51:56 公開日:2021-03-31
# (参考訳) 教師なし機械翻訳におけるゼロショット言語転送と反復逆変換 [全文訳有]

Zero-Shot Language Transfer vs Iterative Back Translation for Unsupervised Machine Translation ( http://arxiv.org/abs/2104.00106v1 )

ライセンス: CC BY 4.0
Aviral Joshi, Chengzhi Huang, Har Simrat Singh(参考訳) 本研究は,低リソース言語ペア,すなわちゼロショット転送学習と教師なし機械翻訳における機械翻訳の異なる解の比較に焦点を当てている。 本稿では,データサイズが教師なしMTと転送学習の両方のパフォーマンスに与える影響について論じる。 さらに、データのドメインが教師なしMTの結果に与える影響についても検討する。 このプロジェクトで実施されたすべての実験のコードは、githubから入手できる。

This work focuses on comparing different solutions for machine translation on low resource language pairs, namely, with zero-shot transfer learning and unsupervised machine translation. We discuss how the data size affects the performance of both unsupervised MT and transfer learning. Additionally we also look at how the domain of the data affects the result of unsupervised MT. The code to all the experiments performed in this project are accessible on Github.
翻訳日:2021-04-03 08:34:29 公開日:2021-03-31
# (参考訳) 画像集合による視覚的質問応答の分析 [全文訳有]

Analysis on Image Set Visual Question Answering ( http://arxiv.org/abs/2104.00107v1 )

ライセンス: CC BY 4.0
Abhinav Khattar, Aviral Joshi, Har Simrat Singh, Pulkit Goel, Rohit Prakash Barnwal(参考訳) ISVQAデータセットのマルチイメージ設定における視覚質問応答の課題に対処する。 従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。 しかし、画像セットVQAは一連の画像から構成されており、画像間の接続を見つけ、これらの接続に基づいて画像間のオブジェクトを関連付け、統一された回答を生成する必要がある。 本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。 結果をLXMERT、HME-VideoQA、VisualBERTの3つのベースラインモデルと比較し、ベースラインよりもわずかに改善できることを示します。 具体的には、モデルの空間的認識を改善し、事前学習の強化による色識別を支援し、逆正則化による言語依存を低減し、回帰損失とグラフに基づく重複によるカウントを改善する。 さらに、ISVQAデータセットの言語バイアスに関する詳細な分析を行い、ISVQAでトレーニングされたモデルが、最終回答とより強く関連付けることを暗黙的に学習する方法を示す。

We tackle the challenge of Visual Question Answering in multi-image setting for the ISVQA dataset. Traditional VQA tasks have focused on a single-image setting where the target answer is generated from a single image. Image set VQA, however, comprises of a set of images and requires finding connection between images, relate the objects across images based on these connections and generate a unified answer. In this report, we work with 4 approaches in a bid to improve the performance on the task. We analyse and compare our results with three baseline models - LXMERT, HME-VideoQA and VisualBERT - and show that our approaches can provide a slight improvement over the baselines. In specific, we try to improve on the spatial awareness of the model and help the model identify color using enhanced pre-training, reduce language dependence using adversarial regularization, and improve counting using regression loss and graph based deduplication. We further delve into an in-depth analysis on the language bias in the ISVQA dataset and show how models trained on ISVQA implicitly learn to associate language more strongly with the final answer.
翻訳日:2021-04-03 08:25:10 公開日:2021-03-31
# (参考訳) Luganda-British-mixe d social media textにおける誤情報検出 [全文訳有]

Misinformation detection in Luganda-English code-mixed social media text ( http://arxiv.org/abs/2104.00124v1 )

ライセンス: CC BY 4.0
Peter Nabende, David Kabiito, Claire Babirye, Hewitt Tusiime, Joyce Nakatumba-Nabende(参考訳) ソーシャルメディアプラットフォームにおける誤情報の発生、形態、ネガティブな影響は、より誤情報検出ツールを必要としている。 現在、covid-19の誤った情報を扱う作業が行われているが、40の異なるウガンダの言語に誤情報検出ツールはない。 本稿では,Facebook と Twitter のソーシャルメディアプラットフォームから発信されるLuganda- English のコード混在に基づく,基本言語リソースと誤情報検出データセットを提示することで,このギャップに対処する。 誤情報検出データセットにいくつかの機械学習手法を適用し、コード混合luganda英語メッセージが誤情報を含むか否かを検出する分類モデルを開発する。 実験的誤情報検出タスクにおける分類法の10倍のクロス検証評価により、識別的多項ベイズ(dmnb)法は、それぞれ78.19%および77.90%の精度とf測定値を達成する。 また、Support Vector MachineとBaggingのアンサンブル分類モデルも同等の結果を得る。 これらの結果は、機械学習モデルは誤情報検出データセットのみからのn-gram特徴に基づいているため、有望である。

The increasing occurrence, forms, and negative effects of misinformation on social media platforms has necessitated more misinformation detection tools. Currently, work is being done addressing COVID-19 misinformation however, there are no misinformation detection tools for any of the 40 distinct indigenous Ugandan languages. This paper addresses this gap by presenting basic language resources and a misinformation detection data set based on code-mixed Luganda-English messages sourced from the Facebook and Twitter social media platforms. Several machine learning methods are applied on the misinformation detection data set to develop classification models for detecting whether a code-mixed Luganda-English message contains misinformation or not. A 10-fold cross validation evaluation of the classification methods in an experimental misinformation detection task shows that a Discriminative Multinomial Naive Bayes (DMNB) method achieves the highest accuracy and F-measure of 78.19% and 77.90% respectively. Also, Support Vector Machine and Bagging ensemble classification models achieve comparable results. These results are promising since the machine learning models are based on n-gram features from only the misinformation detection dataset.
翻訳日:2021-04-03 08:09:52 公開日:2021-03-31
# (参考訳) 胸部X線画像における心臓シンボルの分割を騙した最先端セグメンテーションネットワーク [全文訳有]

State-of-the-art segmentation network fooled to segment a heart symbol in chest X-Ray images ( http://arxiv.org/abs/2104.00139v1 )

ライセンス: CC BY 4.0
Gerda Bortsova, Florian Dubost, Laurens Hogeweg, Ioannis Katramados, Marleen de Bruijne(参考訳) 敵対的攻撃は、入力データを悪質に変更して自動決定システムの予測を誤解させ、自動化された医療画像分析にとって深刻な脅威となる可能性がある。 従来の研究では、ホワイトボックス攻撃設定において、ニューラルネットワークによって生成された自動セグメンテーションを標的に操作できることが示されている。 本稿では,胸部X線による解剖学的構造の変化を標的とした対人攻撃の有効性を検討した。 まず, 解剖学的に目立たない形状を敵の操作対象として用いる実験を行った。 画像にほぼ知覚不能なノイズを加えることで、最先端のニューラルネットワークを、本物の解剖学的形状ではなく、心臓をハートシンボルとして確実に分割できることを示した。 さらに、このような心臓形成攻撃は、同じ攻撃法に基づく未標的攻撃よりも高い対向ノイズレベルを必要としないように思われた。 次に,セグメンテーションの対角的操作の限界について検討した。 そこで我々は,3つの解剖学的構造に対するセグメンテーション輪郭の縮小と拡大の効果を評価した。 対象のネットワークで学習されるクラス隣接性と相反する方法でセグメンテーションを変更する場合もありますが、逆行的に構造物のセグメンテーションを強度やテクスチャに欠ける領域に拡張することは、私たちの攻撃に対する課題と言えます。 さらに,画像の異なるサブセットでトレーニングした代理ネットワークを用いて,ブラックボックス攻撃シナリオにおける標的外攻撃と標的心臓発作のパフォーマンスを評価した。 いずれの場合も、攻撃効果は極めて低かった。 これらの発見は、セマンティックセグメンテーションに対する敵意攻撃の現在の能力と限界に新しい洞察をもたらすと信じています。

Adversarial attacks consist in maliciously changing the input data to mislead the predictions of automated decision systems and are potentially a serious threat for automated medical image analysis. Previous studies have shown that it is possible to adversarially manipulate automated segmentations produced by neural networks in a targeted manner in the white-box attack setting. In this article, we studied the effectiveness of adversarial attacks in targeted modification of segmentations of anatomical structures in chest X-rays. Firstly, we experimented with using anatomically implausible shapes as targets for adversarial manipulation. We showed that, by adding almost imperceptible noise to the image, we can reliably force state-of-the-art neural networks to segment the heart as a heart symbol instead of its real anatomical shape. Moreover, such heart-shaping attack did not appear to require higher adversarial noise level than an untargeted attack based the same attack method. Secondly, we attempted to explore the limits of adversarial manipulation of segmentations. For that, we assessed the effectiveness of shrinking and enlarging segmentation contours for the three anatomical structures. We observed that adversarially extending segmentations of structures into regions with intensity and texture uncharacteristic for them presented a challenge to our attacks, as well as, in some cases, changing segmentations in ways that conflict with class adjacency priors learned by the target network. Additionally, we evaluated performances of the untargeted attacks and targeted heart attacks in the black-box attack scenario, using a surrogate network trained on a different subset of images. In both cases, the attacks were substantially less effective. We believe these findings bring novel insights into the current capabilities and limits of adversarial attacks for semantic segmentation.
翻訳日:2021-04-03 07:59:43 公開日:2021-03-31
# (参考訳) 解集合プログラミングにおけるオンライン学習確率的事象計算理論 [全文訳有]

Online Learning Probabilistic Event Calculus Theories in Answer Set Programming ( http://arxiv.org/abs/2104.00158v1 )

ライセンス: CC BY 4.0
Nikos Katzouris, Alexander Artikis and Georgios Paliouras(参考訳) 複雑なイベント認識(cer)システムは、事前定義されたイベントパターンを使用して、ストリーミングタイムスタンプ入力でイベント発生を検出する。 論理ベースのアプローチは、統計リレーショナルAIを通じて、不確実性の回復力のある推論と時間と変化を、機械学習と組み合わせることで、手動のイベントパターンオーサリングのコストを軽減するため、CERに特に関心がある。 本稿では、イベント計算における重み付けルールの形で複雑なイベントパターンを確率論的に推論し、その構造と重みをオンラインで学習するAnswer Set Programming(ASP)に基づくシステムを提案する。 我々は、ASPベースの実装をMarkov Logicベースの実装と比較し、アクティビティ認識、海上監視、艦隊管理のためのCERデータセット上の最先端のバッチ学習アルゴリズムと比較する。 本研究は,効率と予測性能の両面において,新しいアプローチの優位性を示すものである。 本稿では,論理プログラミングの理論と実践 (TPLP) の出版を検討中である。

Complex Event Recognition (CER) systems detect event occurrences in streaming time-stamped input using predefined event patterns. Logic-based approaches are of special interest in CER, since, via Statistical Relational AI, they combine uncertainty-resilien t reasoning with time and change, with machine learning, thus alleviating the cost of manual event pattern authoring. We present a system based on Answer Set Programming (ASP), capable of probabilistic reasoning with complex event patterns in the form of weighted rules in the Event Calculus, whose structure and weights are learnt online. We compare our ASP-based implementation with a Markov Logic-based one and with a number of state-of-the-art batch learning algorithms on CER datasets for activity recognition, maritime surveillance and fleet management. Our results demonstrate the superiority of our novel approach, both in terms of efficiency and predictive performance. This paper is under consideration for publication in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-04-03 07:45:28 公開日:2021-03-31
# (参考訳) Residual ConvNetの隠れ層によるスケーラブルな視覚属性抽出 [全文訳有]

Scalable Visual Attribute Extraction through Hidden Layers of a Residual ConvNet ( http://arxiv.org/abs/2104.00161v1 )

ライセンス: CC BY 4.0
Andres Baloian, Nils Murrugarra-Llerena, Jose M. Saavedra(参考訳) ビジュアル属性は、画像検索に基づく実際のアプリケーションにおいて重要な役割を果たす。 例えば、画像から属性を抽出することで、eコマース検索エンジンはより精度の高い検索結果を生成することができる。 属性抽出器を構築する従来の方法は、固定数のクラスでconvnetベースの分類器をトレーニングすることである。 しかし、属性数が頻繁に変化する実際のアプリケーションでは、このアプローチはスケールしない。 そこで本研究では,画像から視覚的属性を抽出する手法を提案し,一般的な畳み込みネットワークの隠れ層の学習能力を活用して,異なる視覚的特徴を識別する。 imagenetでトレーニングされたresnet-50を用いて実験を行い、色とテクスチャを区別するために異なるブロックの出力を評価する。 以上の結果から,resnetの第2ブロックは色判別に適しており,第4ブロックはテクスチャに使用できることがわかった。 いずれの場合も、属性分類の精度は93%よりも優れている。 また,提案手法が機能空間に局所的な構造を形成することを示し,umapのような還元手法を適用し,高い精度を維持し,機能空間のサイズを広く削減できることを示した。

Visual attributes play an essential role in real applications based on image retrieval. For instance, the extraction of attributes from images allows an eCommerce search engine to produce retrieval results with higher precision. The traditional manner to build an attribute extractor is by training a convnet-based classifier with a fixed number of classes. However, this approach does not scale for real applications where the number of attributes changes frequently. Therefore in this work, we propose an approach for extracting visual attributes from images, leveraging the learned capability of the hidden layers of a general convolutional network to discriminate among different visual features. We run experiments with a resnet-50 trained on Imagenet, on which we evaluate the output of its different blocks to discriminate between colors and textures. Our results show that the second block of the resnet is appropriate for discriminating colors, while the fourth block can be used for textures. In both cases, the achieved accuracy of attribute classification is superior to 93%. We also show that the proposed embeddings form local structures in the underlying feature space, which makes it possible to apply reduction techniques like UMAP, maintaining high accuracy and widely reducing the size of the feature space.
翻訳日:2021-04-03 07:19:57 公開日:2021-03-31
# aiはなぜ難しいのか、物理学はシンプルか?

Why is AI hard and Physics simple? ( http://arxiv.org/abs/2104.00008v1 )

ライセンス: Link先を確認
Daniel A. Roberts(参考訳) AIがなぜ難しいのか、なぜ物理学がシンプルなのかについて議論する。 本稿では、物理的直観と理論物理学のアプローチが、人工知能、特に機械学習の分野にどのように耐えられるかについて議論する。 機械学習の基礎となるプロジェクトと物理の基礎となるプロジェクトは、スパーシティの原理によって強く結びついており、我々は理論物理学者に物理学者としてAIに取り組むよう呼びかけている。 その方向への第一歩として,このアプローチを実現しようとする深層学習理論の原理に関する本について論じる。

We discuss why AI is hard and why physics is simple. We discuss how physical intuition and the approach of theoretical physics can be brought to bear on the field of artificial intelligence and specifically machine learning. We suggest that the underlying project of machine learning and the underlying project of physics are strongly coupled through the principle of sparsity, and we call upon theoretical physicists to work on AI as physicists. As a first step in that direction, we discuss an upcoming book on the principles of deep learning theory that attempts to realize this approach.
翻訳日:2021-04-02 13:57:04 公開日:2021-03-31
# RLAD:強化学習とアクティブ学習による時系列異常検出

RLAD: Time Series Anomaly Detection through Reinforcement Learning and Active Learning ( http://arxiv.org/abs/2104.00543v1 )

ライセンス: Link先を確認
Tong Wu and Jorge Ortiz(参考訳) 実世界の時系列データにおいて,深部強化学習(DRL)と能動的学習を用いて,異常を効率よく学習し適応する半教師付き時系列異常検出アルゴリズムを提案する。 RLADと呼ばれる我々のモデルは、観測シーケンスを生成するメカニズムを仮定せず、異常パターンの経験に基づいて検出モデルに継続的に適応する。 さらに、パラメータを手動でチューニングする必要はなく、教師なしと半教師なしの両方で比較したすべての最先端メソッドを、いくつかのメリットの数字で上回ります。 より具体的には、私たちは、f1スコアの1.58倍、ラベルの1%、ラベルの0.1%の他の現実世界データセットの4.4倍という、最高の教師なしアプローチよりも優れています。 RLADと、最大3Mのデータポイントと0.28%から2.65%の異常を持つ2つの一般的な異常検出データセットのディープラーニングベースの7つのアルゴリズムを比較します。

We introduce a new semi-supervised, time series anomaly detection algorithm that uses deep reinforcement learning (DRL) and active learning to efficiently learn and adapt to anomalies in real-world time series data. Our model - called RLAD - makes no assumption about the underlying mechanism that produces the observation sequence and continuously adapts the detection model based on experience with anomalous patterns. In addition, it requires no manual tuning of parameters and outperforms all state-of-art methods we compare with, both unsupervised and semi-supervised, across several figures of merit. More specifically, we outperform the best unsupervised approach by a factor of 1.58 on the F1 score, with only 1% of labels and up to around 4.4x on another real-world dataset with only 0.1% of labels. We compare RLAD with seven deep-learning based algorithms across two common anomaly detection datasets with up to around 3M data points and between 0.28% to 2.65% anomalies.We outperform all of them across several important performance metrics.
翻訳日:2021-04-02 13:55:02 公開日:2021-03-31
# DEALIO:観測からの模倣のためのデータ効率の良い逆学習

DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation ( http://arxiv.org/abs/2104.00163v1 )

ライセンス: Link先を確認
Faraz Torabi, Garrett Warnell and Peter Stone(参考訳) IfOの観察から模擬学習において、学習エージェントは、実証者によって生成された制御信号にアクセスせずに、実証行動の観察のみを用いて実証エージェントを模倣しようとする。 近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。 この問題は、サンプル収集が時間、エネルギー、リスクの点で高いコストを発生させるような、現実世界の環境でのデプロイを非現実的にします。 本研究では,モデルに基づく強化学習のアイデアをifOの逆法と組み合わせることで,これらの手法のデータ効率を向上させることができると仮定する。 具体的には,時変線形ガウス政策を考察し,経路積分政策改善と線形二次レギュレータを既存の敵対的ifoフレームワークに統合する手法を提案する。 その結果,性能が向上したよりデータ効率の良いifoアルゴリズムが実現され,4つのシミュレーション領域で経験則的に示された。

In imitation learning from observation IfO, a learning agent seeks to imitate a demonstrating agent using only observations of the demonstrated behavior without access to the control signals generated by the demonstrator. Recent methods based on adversarial imitation learning have led to state-of-the-art performance on IfO problems, but they typically suffer from high sample complexity due to a reliance on data-inefficient, model-free reinforcement learning algorithms. This issue makes them impractical to deploy in real-world settings, where gathering samples can incur high costs in terms of time, energy, and risk. In this work, we hypothesize that we can incorporate ideas from model-based reinforcement learning with adversarial methods for IfO in order to increase the data efficiency of these methods without sacrificing performance. Specifically, we consider time-varying linear Gaussian policies, and propose a method that integrates the linear-quadratic regulator with path integral policy improvement into an existing adversarial IfO framework. The result is a more data-efficient IfO algorithm with better performance, which we show empirically in four simulation domains: using far fewer interactions with the environment, the proposed method exhibits similar or better performance than the existing technique.
翻訳日:2021-04-02 13:54:44 公開日:2021-03-31
# 時系列予測のための分析とモデリング:系統的考察

Analysis and modeling to forecast in time series: a systematic review ( http://arxiv.org/abs/2104.00164v1 )

ライセンス: Link先を確認
Fatoumata Dama, Christine Sinoquet(参考訳) 本稿では,時系列解析とモデリングに特化した最先端の手法とモデルについて,最終予測をめざして検討する。 本総説は, 時系列分解, 定常試験, モデリング, 予測を網羅し, 全プロセスフローを包括的に把握することを目的としている。 さらに,本調査では,一方の分解フレームワークと他方の線形時系列モデル,非線形時系列モデルについて,統一的なプレゼンテーションが実施されている。 まず, 定常性と線形性の関係を復号し, さらに, 弱定常性試験に用いる手法の主クラスについて検討する。 次に、時系列分解のための主要なフレームワークが統一された方法で提示される: 時系列に応じて、多かれ少なかれ複雑な分解スキームは、非定常効果(決定論的要素)と残りの確率的成分を得ようとする。 後者の適切なモデリングは、予測精度を保証するための重要なステップである。 次に、よりフレキシブルな2つの後者の変種とともに、人気のある3つの線形モデルを示す。 モデルの複雑さをさらに高め、さらに統一的な方法では、時系列に使用される5つの主要な非線形モデルを示す。 非線形モデルの中で、ディープラーニングが最近注目を集めているため、ニューラルネットワークは場所を分けている。 したがって、すべてのセクションは、ディープラーニングアプローチに依存する時系列予測専用である。 最後のセクションでは、このレビューを通じて提示されたメソッド、モデル、テストのためのRとPythonの実装のリストが提供されている。 本論文では,従来の手法から近年の深層学習から時系列予測への適応に至るまで,幅広いモデルや予測手法を網羅しながら,十分な深層知識を提供することを目的としている。

This paper surveys state-of-the-art methods and models dedicated to time series analysis and modeling, with the final aim of prediction. This review aims to offer a structured and comprehensive view of the full process flow, and encompasses time series decomposition, stationary tests, modeling and forecasting. Besides, to meet didactic purposes, a unified presentation has been adopted throughout this survey, to present decomposition frameworks on the one hand and linear and nonlinear time series models on the other hand. First, we decrypt the relationships between stationarity and linearity, and further examine the main classes of methods used to test for weak stationarity. Next, the main frameworks for time series decomposition are presented in a unified way: depending on the time series, a more or less complex decomposition scheme seeks to obtain nonstationary effects (the deterministic components) and a remaining stochastic component. An appropriate modeling of the latter is a critical step to guarantee prediction accuracy. We then present three popular linear models, together with two more flexible variants of the latter. A step further in model complexity, and still in a unified way, we present five major nonlinear models used for time series. Amongst nonlinear models, artificial neural networks hold a place apart as deep learning has recently gained considerable attention. A whole section is therefore dedicated to time series forecasting relying on deep learning approaches. A final section provides a list of R and Python implementations for the methods, models and tests presented throughout this review. In this document, our intention is to bring sufficient in-depth knowledge, while covering a broad range of models and forecasting methods: this compilation spans from well-established conventional approaches to more recent adaptations of deep learning to time series forecasting.
翻訳日:2021-04-02 13:54:25 公開日:2021-03-31
# NetAdaptV2: 高速なスーパーネットワークトレーニングとアーキテクチャ最適化による効率的なニューラルネットワーク探索

NetAdaptV2: Efficient Neural Architecture Search with Fast Super-Network Training and Architecture Optimization ( http://arxiv.org/abs/2104.00031v1 )

ライセンス: Link先を確認
Tien-Ju Yang, Yi-Lun Liao, Vivienne Sze(参考訳) ニューラルネットワーク探索(NAS)は通常、スーパーネットワークのトレーニング、サンプルニューラルネットワーク(DNN)のトレーニングと評価、発見されたDNNのトレーニングという3つの主要なステップで構成される。 既存の取り組みのほとんどは、他のステップの大幅な減速や、差別化不可能な検索メトリクスのサポートを犠牲にして、いくつかのステップをスピードアップする。 ステップごとの時間の非バランスな削減は、検索時間全体の削減を制限し、非微分不可能な検索メトリクスをサポートすることができないことは、発見されたDNNの性能を制限する。 本稿では,netadaptv2に3つのイノベーションを加えて,非微分可能な検索メトリクスをサポートしながら,各ステップに費やした時間をバランスさせる手法を提案する。 まず,ネットワークの深さと層幅を単一の探索次元にマージし,サンプルdnnの訓練と評価に要する時間を短縮するチャネルレベルのバイパス接続を提案する。 第2に,複数のdnnを単一のフォワードバックパスでトレーニングし,スーパーネットワークのトレーニング時間を短縮するために,順序付きドロップアウトを提案する。 第3に,DNNの探索性能を向上させるために,複数レイヤ間の相互接続を考慮した多層座標降下最適化手法を提案する。 これらの革新により、NetAdaptV2は、ImageNetで最大5.8\times$、NYU Depth V2で2.4\times$まで検索時間を短縮し、最先端のNASよりも高い精度の遅延/精度-MACトレードオフを持つDNNを発見する。 さらに、発見されたDNNは、NASが発見したMobileNetV3を、同じレイテンシで1.8%高いトップ1精度で上回っている。 プロジェクトのWebサイトはhttp://netadapt.mit. edu。

Neural architecture search (NAS) typically consists of three main steps: training a super-network, training and evaluating sampled deep neural networks (DNNs), and training the discovered DNN. Most of the existing efforts speed up some steps at the cost of a significant slowdown of other steps or sacrificing the support of non-differentiable search metrics. The unbalanced reduction in the time spent per step limits the total search time reduction, and the inability to support non-differentiable search metrics limits the performance of discovered DNNs. In this paper, we present NetAdaptV2 with three innovations to better balance the time spent for each step while supporting non-differentiable search metrics. First, we propose channel-level bypass connections that merge network depth and layer width into a single search dimension to reduce the time for training and evaluating sampled DNNs. Second, ordered dropout is proposed to train multiple DNNs in a single forward-backward pass to decrease the time for training a super-network. Third, we propose the multi-layer coordinate descent optimizer that considers the interplay of multiple layers in each iteration of optimization to improve the performance of discovered DNNs while supporting non-differentiable search metrics. With these innovations, NetAdaptV2 reduces the total search time by up to $5.8\times$ on ImageNet and $2.4\times$ on NYU Depth V2, respectively, and discovers DNNs with better accuracy-latency/acc uracy-MAC trade-offs than state-of-the-art NAS works. Moreover, the discovered DNN outperforms NAS-discovered MobileNetV3 by 1.8% higher top-1 accuracy with the same latency. The project website is http://netadapt.mit. edu.
翻訳日:2021-04-02 13:52:21 公開日:2021-03-31
# トランス・エンド・ツー・エンド自動音声認識のためのマルチエンコーダ学習とストリーム融合

Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2104.00120v1 )

ライセンス: Link先を確認
Timo Lohrenz, Zhengyang Li, Tim Fingscheidt(参考訳) ストリーム融合(stream fusion)は、システム結合(system combination)としても知られ、従来のハイブリッド隠れマルコフモデルアプローチの自動音声認識において一般的な技術であるが、現代のディープニューラルネットワークのエンドツーエンドモデルアーキテクチャでは、ほとんど研究されていない。 本稿では, コンバータとして知られる全アテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討し, 標準等級と位相特性の融合を用いた単一マイクロホンの例において, 異なる融合レベルを探索して最適な融合を実現する。 本稿では,2つのエンコーダとデコーダの重み付けを組み合わせたマルチエンコーダ学習手法を提案する。 その際、推測における大きさのフィーチャエンコーダのみを用いることで、Wall Street Journal(WSJ)と言語モデル、およびLibrispeechで一貫した改善をランタイムやパラメータの増加なしに示すことができます。 これら2つのマルチエンコーダトレーニングモデルを単純な遅延融合で組み合わせることで、WSJ上のトランスフォーマーベースモデルの最先端性能と、現在のベンチマーク手法と比較して19倍のWER削減を実現している。

Stream fusion, also known as system combination, is a common technique in automatic speech recognition for traditional hybrid hidden Markov model approaches, yet mostly unexplored for modern deep neural network end-to-end model architectures. Here, we investigate various fusion techniques for the all-attention-based encoder-decoder architecture known as the transformer, striving to achieve optimal fusion by investigating different fusion levels in an example single-microphone setting with fusion of standard magnitude and phase features. We introduce a novel multi-encoder learning method that performs a weighted combination of two encoder-decoder multi-head attention outputs only during training. Employing then only the magnitude feature encoder in inference, we are able to show consistent improvement on Wall Street Journal (WSJ) with language model and on Librispeech, without increase in runtime or parameters. Combining two such multi-encoder trained models by a simple late fusion in inference, we achieve state-of-the-art performance for transformer-based models on WSJ with a significant WER reduction of 19\% relative compared to the current benchmark approach.
翻訳日:2021-04-02 13:49:50 公開日:2021-03-31
# 都市マップレス運転のための階層的道路トポロジー学習

Hierarchical Road Topology Learning for Urban Map-less Driving ( http://arxiv.org/abs/2104.00084v1 )

ライセンス: Link先を確認
Li Zhang, Faezeh Tafazzoli, Gunther Krehl, Runsheng Xu, Timo Rehfeld, Manuel Schier, Arunava Seal(参考訳) 自動運転における現在のアプローチの大半は、道路形状と周辺領域を詳述するハイディフィニション(HD)マップに依存している。 しかし、こうした事前マップのスケーラビリティが低かったために、自動運転車の大量展開の障害の一つとなっている。 本稿では,車両自体の感覚システムを活用することで,オンライン道路地図抽出の課題に挑戦する。 この目的のために,完全畳み込みネットワーク内で,道路網のグラフ表現を階層的に生成する構造化モデルを設計する。 このメソッドは複雑な道路トポロジを処理でき、ループ内のユーザを必要としない。

The majority of current approaches in autonomous driving rely on High-Definition (HD) maps which detail the road geometry and surrounding area. Yet, this reliance is one of the obstacles to mass deployment of autonomous vehicles due to poor scalability of such prior maps. In this paper, we tackle the problem of online road map extraction via leveraging the sensory system aboard the vehicle itself. To this end, we design a structured model where a graph representation of the road network is generated in a hierarchical fashion within a fully convolutional network. The method is able to handle complex road topology and does not require a user in the loop.
翻訳日:2021-04-02 13:48:22 公開日:2021-03-31
# 畳み込みLSTMネットワークを用いたCTによるCOVID-19肺炎の迅速定量化

Rapid quantification of COVID-19 pneumonia burden from computed tomography with convolutional LSTM networks ( http://arxiv.org/abs/2104.00138v1 )

ライセンス: Link先を確認
Kajetan Grodecki, Aditya Killekar, Andrew Lin, Sebastien Cadet, Priscilla McElhinney, Aryabod Razipour, Cato Chan, Barry D. Pressman, Peter Julien, Judit Simon, Pal Maurovich-Horvat, Nicola Gaibazzi, Udit Thakur, Elisabetta Mancini, Cecilia Agalbato, Jiro Munechika, Hidenari Matsumoto, Roberto Men\`e, Gianfranco Parati, Franco Cernigliaro, Nitesh Nerlekar, Camilla Torlasco, Gianluca Pontone, Damini Dey, Piotr J. Slomka(参考訳) ct(ct)による定量的肺測定は、新型コロナウイルス(covid-19)患者の予後を改善することが示されているが、肺病変の手動分割が必須で時間がかかるため、臨床ルーチンには含まれない。 コンボリューショナル・ロング・ショート・メモリ(ConvLSTM)ネットワークを用いたコントラスト画像と非コントラストCT画像の両方から、COVID-19肺炎の肺病変の迅速定量化と分化のための完全自動ディープラーニングフレームワークを提案する。 専門家のアノテーションを用いて, 5倍のクロスバリデーションと高不透明度(固化, 胸水を含む)のセグメンテーションを用いて, モデルトレーニングを5回行った。 SARS-CoV-2陽性逆転写ポリメラーゼ鎖反応試験197例のCTデータセットを用いて本法の性能評価を行った。 Dice スコア係数 0.876 $\pm$ 0.005 の肺病変に対して, 専門的手技と自動セグメンテーションの強い一致が得られた。 67例の内外的評価では, 0.767$\pm$ 0.009, ガラス不透明度と高不透明度量では0.989および0.996の相関が認められた。 NVIDIA Titan RTXグラフィックス処理ユニットを備えたパソコン上で,120個のスライスからなるCTスキャンの計算を2秒以内に行った。 そこで,本手法により,CTから完全自動で肺炎負担を定量化することが可能となり,専門家の読者と同様の精度で結果が得られた。

Quantitative lung measures derived from computed tomography (CT) have been demonstrated to improve prognostication in coronavirus disease (COVID-19) patients, but are not part of the clinical routine since required manual segmentation of lung lesions is prohibitively time-consuming. We propose a new fully automated deep learning framework for rapid quantification and differentiation between lung lesions in COVID-19 pneumonia from both contrast and non-contrast CT images using convolutional Long Short-Term Memory (ConvLSTM) networks. Utilizing the expert annotations, model training was performed 5 times with separate hold-out sets using 5-fold cross-validation to segment ground-glass opacity and high opacity (including consolidation and pleural effusion). The performance of the method was evaluated on CT data sets from 197 patients with positive reverse transcription polymerase chain reaction test result for SARS-CoV-2. Strong agreement between expert manual and automatic segmentation was obtained for lung lesions with a Dice score coefficient of 0.876 $\pm$ 0.005; excellent correlations of 0.978 and 0.981 for ground-glass opacity and high opacity volumes. In the external validation set of 67 patients, there was dice score coefficient of 0.767 $\pm$ 0.009 as well as excellent correlations of 0.989 and 0.996 for ground-glass opacity and high opacity volumes. Computations for a CT scan comprising 120 slices were performed under 2 seconds on a personal computer equipped with NVIDIA Titan RTX graphics processing unit. Therefore, our deep learning-based method allows rapid fully-automated quantitative measurement of pneumonia burden from CT and may generate results with an accuracy similar to the expert readers.
翻訳日:2021-04-02 13:48:15 公開日:2021-03-31
# OutlierNets:オンデバイス音響異常検出のための超小型ディープオートエンコーダネットワークアーキテクチャ

OutlierNets: Highly Compact Deep Autoencoder Network Architectures for On-Device Acoustic Anomaly Detection ( http://arxiv.org/abs/2104.00528v1 )

ライセンス: Link先を確認
Saad Abbasi, Mahmoud Famouri, Mohammad Javad Shafiee, and Alexander Wong(参考訳) 人間のオペレーターはしばしば異常な音で産業機械を診断する。 自動音響異常検出は機械の信頼性の維持につながる可能性がある。 しかし、ディープラーニング駆動の異常検出手法は、工場への展開を禁じる大量の計算資源を必要とすることが多い。 ここでは,最大686個のパラメータと2.7KBのモデルサイズ,そして280万のFLOPからなる,400万個のパラメータを持つ公開アーキテクチャを検出精度で一致または超える,非常にコンパクトなディープ畳み込みオートエンコーダネットワークアーキテクチャのファミリであるOutlierNetsを構築するための,マシン駆動設計探索戦略を検討する。 さらに、CPUアクセラレーションによるレイテンシ実験では、OutlierNetアーキテクチャは公開ネットワークの21倍のレイテンシを実現することができる。

Human operators often diagnose industrial machinery via anomalous sounds. Automated acoustic anomaly detection can lead to reliable maintenance of machinery. However, deep learning-driven anomaly detection methods often require an extensive amount of computational resources which prohibits their deployment in factories. Here we explore a machine-driven design exploration strategy to create OutlierNets, a family of highly compact deep convolutional autoencoder network architectures featuring as few as 686 parameters, model sizes as small as 2.7 KB, and as low as 2.8 million FLOPs, with a detection accuracy matching or exceeding published architectures with as many as 4 million parameters. Furthermore, CPU-accelerated latency experiments show that the OutlierNet architectures can achieve as much as 21x lower latency than published networks.
翻訳日:2021-04-02 13:47:08 公開日:2021-03-31
# 低リソース言語のためのドメイン固有MT:バンバラ=フレンチの場合

Domain-specific MT for Low-resource Languages: The case of Bambara-French ( http://arxiv.org/abs/2104.00041v1 )

ライセンス: Link先を確認
Allahsera Auguste Tapo, Michael Leventhal, Sarah Luger, Christopher M. Homan, Marcos Zampieri(参考訳) 低リソース言語への翻訳は、並列データが不足しているため、機械翻訳(MT)システムでは困難である。 本稿では,マリ語を母語とするMande言語であるBambaraのドメイン固有MTの問題に対処する。 バンバラ山からフランス語への最初のドメイン特化並列データセットを提案する。 低リソース言語のための少数のドメイン固有データを扱う際の課題について議論し、このデータに対する機械学習実験の結果を示す。

Translating to and from low-resource languages is a challenge for machine translation (MT) systems due to a lack of parallel data. In this paper we address the issue of domain-specific MT for Bambara, an under-resourced Mande language spoken in Mali. We present the first domain-specific parallel dataset for MT of Bambara into and from French. We discuss challenges in working with small quantities of domain-specific data for a low-resource language and we present the results of machine learning experiments on this data.
翻訳日:2021-04-02 13:46:10 公開日:2021-03-31
# 再サンプリング法による要約評価指標の統計的分析

A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods ( http://arxiv.org/abs/2104.00054v1 )

ライセンス: Link先を確認
Daniel Deutsch, Rotem Dror, Dan Roth(参考訳) 要約評価指標の品質は、そのスコアと人間のアノテーションの相関関係を多数の要約で計算することによって定量化する。 現在、これらの相関推定がどの程度正確か、あるいは2つのメトリクスの相関の差が真の違いを反映しているか、あるいはそれがランダムな確率によるものなのかは明らかになっていない。 本研究では,2つの再サンプリング手法,ブートストラップ法と置換法を用いて,信頼区間を計算し,相関関係の仮説テストを実行する方法を提案する。 提案手法のどれが2つのシミュレーション実験による要約に最も適しているか評価した後、これらの手法を3つのアノテーションセットの異なる自動評価指標に適用した結果を分析した。 信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。 さらに、多くのメトリクスはrougeに対する統計的改善を示すことができないが、qaevalとbertscoreの2つの最近の研究は、いくつかの評価設定で行われている。

The quality of a summarization evaluation metric is quantified by calculating the correlation between its scores and human annotations across a large number of summaries. Currently, it is not clear how precise these correlation estimates are, nor whether differences between two metrics' correlations reflects a true difference or if it is due to random chance. In this work, we address these two problems by proposing methods for calculating confidence intervals and running hypothesis tests for correlations using two resampling methods, bootstrapping and permutation. After evaluating which of the proposed methods is most appropriate for summarization through two simulation experiments, we analyze the results of applying these methods to several different automatic evaluation metrics across three sets of human annotations. We find that the confidence intervals are rather wide, demonstrating high uncertainty in how reliable automatic metrics truly are. Further, although many metrics fail to show statistical improvements over ROUGE, two recent works, QAEval and BERTScore, do in some evaluation settings.
翻訳日:2021-04-02 13:46:03 公開日:2021-03-31
# 最適順序問題に対する一般化された競合指向探索

Generalized Conflict-directed Search for Optimal Ordering Problems ( http://arxiv.org/abs/2104.00060v1 )

ライセンス: Link先を確認
Jingkai Chen, Yuening Zhang, Cheng Fang, Brian C. Williams(参考訳) 高度に結合した状態と時間的制約を持つ複数のタスクの計画とスケジューリングの問題を解決することは、非常に難しい。 問題を効果的に分離するための魅力的なアプローチは、タスクのシーケンス上で決定できるようなイベントを適切に順序づけることである。 実際に遭遇した多くの問題は過剰に制約されているので、ある要求が外れた緩和された解を見つける必要がある。 このことは、制約緩和コストと、この緩和コストが最小となる最適順序を求める問題に対する最適性の定式化を動機付けている。 本稿では,コスト推定と解空間のプルーニングのために,サブソルバから非一貫性と劣最適化の両方の一般化された競合を利用して,イベントの最適総順序を生成する分岐・境界順序法である一般化競合指向順序法(gcdo)を提案する。 一般的なコンフリクトを推論する能力のため、GCDOは以前のコンフリクト指向アプローチCDITOよりも高品質なトータルオーダーを見つけるのにはるかに効率的である。 ネットワークの時間的管理と,CDITOとMILP(Mixed Integer-Linear Programing)とのネットワークフローのトレードオフを含む,時間的ネットワーク構成問題のベンチマークによってこれを実証する。 このアルゴリズムは,実行時限内でcditoとmilpと比較して,最適化のために2桁以上のベンチマーク問題を解くことができる。

Solving planning and scheduling problems for multiple tasks with highly coupled state and temporal constraints is notoriously challenging. An appealing approach to effectively decouple the problem is to judiciously order the events such that decisions can be made over sequences of tasks. As many problems encountered in practice are over-constrained, we must instead find relaxed solutions in which certain requirements are dropped. This motivates a formulation of optimality with respect to the costs of relaxing constraints and the problem of finding an optimal ordering under which this relaxing cost is minimum. In this paper, we present Generalized Conflict-directed Ordering (GCDO), a branch-and-bound ordering method that generates an optimal total order of events by leveraging the generalized conflicts of both inconsistency and suboptimality from sub-solvers for cost estimation and solution space pruning. Due to its ability to reason over generalized conflicts, GCDO is much more efficient in finding high-quality total orders than the previous conflict-directed approach CDITO. We demonstrate this by benchmarking on temporal network configuration problems, which involves managing networks over time and makes necessary tradeoffs between network flows against CDITO and Mixed Integer-Linear Programing (MILP). Our algorithm is able to solve two orders of magnitude more benchmark problems to optimality and twice the problems compared to CDITO and MILP within a runtime limit, respectively.
翻訳日:2021-04-02 13:45:08 公開日:2021-03-31
# RetrievalFuse: データベースによるニューラル3次元シーン再構成

RetrievalFuse: Neural 3D Scene Reconstruction with a Database ( http://arxiv.org/abs/2104.00024v1 )

ライセンス: Link先を確認
Yawar Siddiqui, Justus Thies, Fangchang Ma, Qi Shan, Matthias Nie{\ss}ner, Angela Dai(参考訳) 大規模シーンの3次元再構成は、解空間、特に生成型ニューラルネットワークの複雑度が高いため、難しい問題である。 従来の生成過程をニューラルネットワークにエンコードし、シーンレベルでの局所的な詳細保持に苦慮する従来の生成学習モデルとは対照的に、トレーニングデータベースからシーン幾何学を直接活用する新しい手法を提案する。 まず,シーンデータベースから上位k個のボリュームチャンクを検索して構築した3次元シーンの初期推定値の合成を学習する。 これらの候補は、候補から最も一貫した幾何集合を効果的に選択し、それらを組み合わせて出力シーンを作り、列車シーンからコヒーレントな構造や局所的な詳細を移動できるようにする、注意に基づく改良によって最終シーン生成に洗練される。 我々は,3次元超解像とスパース点雲による表面再構成のデータベースを用いて,我々のニューラルシーン再構成を実証し,現状のシーン再構成よりも平均8%以上の精度で,より一貫性のある正確な3次元シーンを生成することができることを示した。

3D reconstruction of large scenes is a challenging problem due to the high-complexity nature of the solution space, in particular for generative neural networks. In contrast to traditional generative learned models which encode the full generative process into a neural network and can struggle with maintaining local details at the scene level, we introduce a new method that directly leverages scene geometry from the training database. First, we learn to synthesize an initial estimate for a 3D scene, constructed by retrieving a top-k set of volumetric chunks from the scene database. These candidates are then refined to a final scene generation with an attention-based refinement that can effectively select the most consistent set of geometry from the candidates and combine them together to create an output scene, facilitating transfer of coherent structures and local detail from train scene geometry. We demonstrate our neural scene reconstruction with a database for the tasks of 3D super resolution and surface reconstruction from sparse point clouds, showing that our approach enables generation of more coherent, accurate 3D scenes, improving on average by over 8% in IoU over state-of-the-art scene reconstruction.
翻訳日:2021-04-02 13:44:32 公開日:2021-03-31
# 新しいデータセットを用いたドライバの時間行動に基づく眠気検出

Drowsiness Detection Based On Driver Temporal Behavior Using a New Developed Dataset ( http://arxiv.org/abs/2104.00125v1 )

ライセンス: Link先を確認
Farnoosh Faraji, Faraz Lotfi, Javad Khorramdel, Ali Najafi, Ali Ghaffari(参考訳) ドライバーの眠気検出は過去数十年で多くの研究の対象となり、それを検出する様々な方法が開発されている。 そこで本研究では,画像に基づくアプローチとして,迅速なプロセスとともに,顔特徴の自動抽出にyolov3(一度だけ見える)cnn(畳み込みニューラルネットワーク)を適用した。 そして、LSTM(Long-Short Term Memory)ニューラルネットワークを用いて、あくびや点滅時間などのドライバーの時間行動とシーケンス分類を学習する。 YOLOv3の学習には,収集したデータセットと移動学習手法を併用した。 さらに、上記CNNによりLSTMトレーニングプロセス用データセットを作成し、点眼時間とあくび時間からなる2次元シーケンスとしてフォーマットする。 開発したデータセットでは、照明や運転者の頭部姿勢などの乱れが考慮される。 リアルタイム実験を実現するために,CNNとLSTMを並列に実行するマルチスレッドフレームワークを開発した。 最後に, 眠気検出におけるcnnとlstmのハイブリッド性, 提案手法の有効性が示唆された。

Driver drowsiness detection has been the subject of many researches in the past few decades and various methods have been developed to detect it. In this study, as an image-based approach with adequate accuracy, along with the expedite process, we applied YOLOv3 (You Look Only Once-version3) CNN (Convolutional Neural Network) for extracting facial features automatically. Then, LSTM (Long-Short Term Memory) neural network is employed to learn driver temporal behaviors including yawning and blinking time period as well as sequence classification. To train YOLOv3, we utilized our collected dataset alongside the transfer learning method. Moreover, the dataset for the LSTM training process is produced by the mentioned CNN and is formatted as a two-dimensional sequence comprised of eye blinking and yawning time durations. The developed dataset considers both disturbances such as illumination and drivers' head posture. To have real-time experiments a multi-thread framework is developed to run both CNN and LSTM in parallel. Finally, results indicate the hybrid of CNN and LSTM ability in drowsiness detection and the effectiveness of the proposed method.
翻訳日:2021-04-02 13:44:12 公開日:2021-03-31
# 複数のカメラからの完全なサラウンドモノディフ

Full Surround Monodepth from Multiple Cameras ( http://arxiv.org/abs/2104.00152v1 )

ライセンス: Link先を確認
Vitor Guizilini, Igor Vasiljevic, Rares Ambrus, Greg Shakhnarovich, Adrien Gaidon(参考訳) 自律運転のようなロボティクスアプリケーションにLiDARのような高価な深度センサーを置き換えたり補ったりするための、自己監督された単眼深度とエゴモーション推定は有望なアプローチである。 しかし、この分野のほとんどの研究は、車両の周囲のシーンのごく一部をカバーする単一の単眼カメラまたはステレオペアに焦点を当てている。 本研究では,モノクラー自己監督深度とエゴモーション推定を大規模マルチカメラリグに拡張する。 一般化された時空間コンテキストを用いて、一貫性の制約に対処し、慎重に設計された測光損失マスキングを用いて、一般的なLiDARスキャナと同様の周囲360度視野をカバーする高密度で一貫したスケール対応の点雲を生成する単一ネットワークを学習する。 また,マルチカメラ設定に適した新しいスケール一貫性評価指標を提案する。 2つの挑戦的なベンチマークの実験は、強力なベースラインに対する我々のアプローチの利点を示しています。

Self-supervised monocular depth and ego-motion estimation is a promising approach to replace or supplement expensive depth sensors such as LiDAR for robotics applications like autonomous driving. However, most research in this area focuses on a single monocular camera or stereo pairs that cover only a fraction of the scene around the vehicle. In this work, we extend monocular self-supervised depth and ego-motion estimation to large-baseline multi-camera rigs. Using generalized spatio-temporal contexts, pose consistency constraints, and carefully designed photometric loss masking, we learn a single network generating dense, consistent, and scale-aware point clouds that cover the same full surround 360 degree field of view as a typical LiDAR scanner. We also propose a new scale-consistent evaluation metric more suitable to multi-camera settings. Experiments on two challenging benchmarks illustrate the benefits of our approach over strong baselines.
翻訳日:2021-04-02 13:43:53 公開日:2021-03-31
# 解釈可能な分類のための畳み込み動的アライメントネットワーク

Convolutional Dynamic Alignment Networks for Interpretable Classifications ( http://arxiv.org/abs/2104.00032v1 )

ライセンス: Link先を確認
Moritz B\"ohle and Mario Fritz and Bernt Schiele(参考訳) 本稿では,畳み込み動的アライメントネットワーク(convolutional dynamic alignment network, coda-nets)と呼ばれる新しいニューラルネットワークモデルについて紹介する。 コアとなるビルディングブロックは動的アライメントユニット(DAU)で、入力をタスク関連パターンと動的に整合する重みベクトルで線形に変換する。 その結果、CoDA-Netsは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。 DAUのアライメントが与えられた結果のコントリビューションマップは、識別的な入力パターンと一致します。 これらのモデルインヒーレント分解は、視覚的な品質が高く、定量的指標の下で既存の帰属方法よりも優れています。 さらに、CoDA-Netはパフォーマンス分類器を構成し、ResNetやVGGモデルと同等の結果を得る。 CIFAR-10とTinyImagenet。

We introduce a new family of neural network models called Convolutional Dynamic Alignment Networks (CoDA-Nets), which are performant classifiers with a high degree of inherent interpretability. Their core building blocks are Dynamic Alignment Units (DAUs), which linearly transform their input with weight vectors that dynamically align with task-relevant patterns. As a result, CoDA-Nets model the classification prediction through a series of input-dependent linear transformations, allowing for linear decomposition of the output into individual input contributions. Given the alignment of the DAUs, the resulting contribution maps align with discriminative input patterns. These model-inherent decompositions are of high visual quality and outperform existing attribution methods under quantitative metrics. Further, CoDA-Nets constitute performant classifiers, achieving on par results to ResNet and VGG models on e.g. CIFAR-10 and TinyImagenet.
翻訳日:2021-04-02 13:32:36 公開日:2021-03-31
# ウォルシュマトリックスを用いた畳み込みニューラルネットワークのトレーニング強化

Strengthening the Training of Convolutional Neural Networks By Using Walsh Matrix ( http://arxiv.org/abs/2104.00035v1 )

ライセンス: Link先を確認
Tamer \"Olmez and Z\"umray Dokur(参考訳) DNN構造は、分類問題における高い性能を継続的に開発し、達成している。 また、DNNで得られた成功率は従来のニューラルネットワークで得られた成功率よりも高いことが観察された。 さらに、DNNの利点の1つは、機能を決定するのに余分な労力を費やす必要がないことである。 i)研究者は、DNNのトレーニングにおいて過度に適合し、不適当な問題に悩まされ、(ii)DNNの粗い構造さえ決定するのに数日かかる可能性があり、(iii)ほとんどの場合、提案されたネットワーク構造は、リアルタイムアプリケーションで使用されるには大きすぎる。 我々は、DNNのトレーニングと構造を変更し、分類性能を高め、構造中のノード数を減らし、ハイパーパラメータを減らして使用できるようにした。 完全連結ニューラルネットワーク(FCNN)の代わりに、畳み込みニューラルネットワーク(CNN)の最終層に続く最小距離ネットワーク(MDN)が分類器として使用される。 CNNのトレーニングを強化するため,Walsh関数の利用を提案する。 我々は,心電図,脳波,心臓音,X線胸部画像中の肺炎の検出,BGAはんだ欠陥の検出,ベンチマークデータセット(MNIST,IRIS,CIFAR10, CIFAR20)のパターンについて,提案したDNN(DivFE)の性能を検証した。 異なる分野では、ノード数が少ないDivFEを使用することで、より高い分類性能が得られた。

DNN structures are continuously developing and achieving high performances in classification problems. Also, it is observed that success rates obtained with DNNs are higher than those obtained with traditional neural networks. In addition, one of the advantages of DNNs is that there is no need to spend an extra effort to determine the features; the CNN automatically extracts the features from the dataset during the training. Besides their benefits, the DNNs have the following three major drawbacks among the others: (i) Researchers have struggled with over-fitting and under-fitting issues in the training of DNNs, (ii) determination of even a coarse structure for the DNN may take days, and (iii) most of the time, the proposed network structure is too large to be too bulky to be used in real time applications. We have modified the training and structure of DNN to increase the classification performance, to decrease the number of nodes in the structure, and to be used with less number of hyper parameters. A minimum distance network (MDN) following the last layer of the convolutional neural network (CNN) is used as the classifier instead of a fully connected neural network (FCNN). In order to strengthen the training of the CNN, we suggest employing Walsh function. We tested the performances of the proposed DNN (named as DivFE) on the classification of ECG, EEG, heart sound, detection pneumonia in X-ray chest images, detection of BGA solder defects, and patterns of benchmark datasets (MNIST, IRIS, CIFAR10 and CIFAR20). In different areas, it has been observed that a higher classification performance was obtained by using the DivFE with less number of nodes.
翻訳日:2021-04-02 13:32:23 公開日:2021-03-31
# SST-GNN:グラフニューラルネットワークを用いた簡易時空間交通予測モデル

SST-GNN: Simplified Spatio-temporal Traffic forecasting model using Graph Neural Network ( http://arxiv.org/abs/2104.00055v1 )

ライセンス: Link先を確認
Amit Roy, Kashob Kumar Roy, Amin Ahsan Ali, M Ashraful Amin, and A K M Mahbubur Rahman(参考訳) 近年,交通データの空間的関係や時間的ダイナミクスを捉えるために,交通予測のための時空間モデルが注目されている。 最近の研究のほとんどは、空間依存を捉えるために複数の層を持つグラフニューラルネットワーク(gnn)を使用していた。 しかし、異なるホップ距離の道路ジャンクションは、個別に活用すべき異なる交通情報を運ぶことができるが、既存の多層GNNは影響を区別する能力がない。 繰り返しになるが、時間的相互関係を捉えるために、リカレントニューラルネットワークは、しばしば長距離依存関係をキャプチャできない最先端のアプローチで一般的である。 さらに、トラフィックデータは、明示的に対処すべき毎日または毎週のパターンを繰り返し示す。 これらの制約に対処するために、複数の層ではなく異なる近傍表現を個別に集約して空間依存性を効果的に符号化するSST-GNN(Simplified Spatio-temporal Traffic forecasting GNN)を設計した。 我々は,2つの異なるモデルにおいて,歴史的および現在のデータを用いた新しい位置符号化方式を用いて,周期的なトラフィックパターンをキャプチャする。 性能測定システム(pems)の3つの実世界のトラヒックデータセットにおいて,本モデルが最先端モデルを大幅に上回っていることを示した。

To capture spatial relationships and temporal dynamics in traffic data, spatio-temporal models for traffic forecasting have drawn significant attention in recent years. Most of the recent works employed graph neural networks(GNN) with multiple layers to capture the spatial dependency. However, road junctions with different hop-distance can carry distinct traffic information which should be exploited separately but existing multi-layer GNNs are incompetent to discriminate between their impact. Again, to capture the temporal interrelationship, recurrent neural networks are common in state-of-the-art approaches that often fail to capture long-range dependencies. Furthermore, traffic data shows repeated patterns in a daily or weekly period which should be addressed explicitly. To address these limitations, we have designed a Simplified Spatio-temporal Traffic forecasting GNN(SST-GNN) that effectively encodes the spatial dependency by separately aggregating different neighborhood representations rather than with multiple layers and capture the temporal dependency with a simple yet effective weighted spatio-temporal aggregation mechanism. We capture the periodic traffic patterns by using a novel position encoding scheme with historical and current data in two different models. With extensive experimental analysis, we have shown that our model has significantly outperformed the state-of-the-art models on three real-world traffic datasets from the Performance Measurement System (PeMS).
翻訳日:2021-04-02 13:31:55 公開日:2021-03-31
# 線形時間で透明性レポートのプライバシを実現する

Achieving Transparency Report Privacy in Linear Time ( http://arxiv.org/abs/2104.00137v1 )

ライセンス: Link先を確認
Chien-Lun Chen, Leana Golubchik, Ranjan Pal(参考訳) 説明可能なアルゴリズム透明性レポート(ATR)は、(a)アルゴリズムの透明性と(b)アルゴリズム決定の公平性を理想的に調査し、同時に、データ対象者のプライバシーを保護すべきである。 しかし、ATR(透明性と公正性を調査する)の公開によるデータ対象のプライバシへの影響に関する実証可能な公式な研究は、文献ではまだ解決されていない。 このような研究の圧倒的な利点は、公の場でのATRの公開のためのプライバシー利用トレードオフの方法論的特徴と、社会、政治、経済学の次元に対する適用性に影響を及ぼすことである。 本稿では,ATRの透明性と公平性対策の展開によって生じる潜在的なプライバシーリスクについて,まず調査し,実証する。 次に,データ対象者のプライバシーを守るために,atrsを公表するための標準線形分数プログラミング(lfp)理論に基づく線形時間最適プライバシースキームを提案し,透明性スキームの有用性にプライバシ摂動の許容性を制御する制約を課す。 続いて,提案手法によって引き起こされるプライバシー利用トレードオフを定量化し,atrにおける公平性対策に対するプライバシー摂動の影響を分析する。 私たちの知る限りでは、これは、アルゴリズムの透明性レポートに適用可能な、プライバシ、ユーティリティ、公平の三者間のトレードオフを同時に扱う、最初の分析作業です。

An accountable algorithmic transparency report (ATR) should ideally investigate the (a) transparency of the underlying algorithm, and (b) fairness of the algorithmic decisions, and at the same time preserve data subjects' privacy. However, a provably formal study of the impact to data subjects' privacy caused by the utility of releasing an ATR (that investigates transparency and fairness), is yet to be addressed in the literature. The far-fetched benefit of such a study lies in the methodical characterization of privacy-utility trade-offs for release of ATRs in public, and their consequential application-specific impact on the dimensions of society, politics, and economics. In this paper, we first investigate and demonstrate potential privacy hazards brought on by the deployment of transparency and fairness measures in released ATRs. To preserve data subjects' privacy, we then propose a linear-time optimal-privacy scheme, built upon standard linear fractional programming (LFP) theory, for announcing ATRs, subject to constraints controlling the tolerance of privacy perturbation on the utility of transparency schemes. Subsequently, we quantify the privacy-utility trade-offs induced by our scheme, and analyze the impact of privacy perturbation on fairness measures in ATRs. To the best of our knowledge, this is the first analytical work that simultaneously addresses trade-offs between the triad of privacy, utility, and fairness, applicable to algorithmic transparency reports.
翻訳日:2021-04-02 13:31:30 公開日:2021-03-31
# LazyDAgger: インタラクティブな模倣学習におけるコンテキストスイッチングの削減

LazyDAgger: Reducing Context Switching in Interactive Imitation Learning ( http://arxiv.org/abs/2104.00053v1 )

ライセンス: Link先を確認
Ryan Hoque, Ashwin Balakrishna, Carl Putterman, Michael Luo, Daniel S. Brown, Daniel Seita, Brijen Thananjeyan, Ellen Novoseller, Ken Goldberg(参考訳) ロボットがタスクの自動化を学習している間の矯正介入は、人間の監督者がロボットを助け、望ましい行動に関する情報を伝えるための直感的な方法を提供する。 しかし、これらの介入は、人間が行っている他の作業を中断し、スーパーバイザと自律制御の間の各コンテキストスイッチに遅延が発生し、実行する時間を必要とするため、人間のスーパーバイザに多大な負担を課す可能性がある。 本稿では、対話型模倣学習(IL)アルゴリズムSafeDAggerを拡張して、監督と自律制御のコンテキストスイッチを削減するLazyDAggerを提案する。 また,LazyDAggerは,学習と実行の両方において学習方針の性能と堅牢性を向上し,監督者の負担を抑えていることがわかった。 シミュレーション実験により、LazyDAggerは、最先端のポリシー性能を維持しながら、3つの継続的制御タスクにおいて、SafeDAggerを平均60%上回るコンテキストスイッチを削減できることが示唆された。 ABB YuMiロボットを用いた物理織物操作実験において、LazyDAggerは、実行時にSafeDAggerよりも60%高い成功率を達成するとともに、コンテキストスイッチを60%削減する。

Corrective interventions while a robot is learning to automate a task provide an intuitive method for a human supervisor to assist the robot and convey information about desired behavior. However, these interventions can impose significant burden on a human supervisor, as each intervention interrupts other work the human is doing, incurs latency with each context switch between supervisor and autonomous control, and requires time to perform. We present LazyDAgger, which extends the interactive imitation learning (IL) algorithm SafeDAgger to reduce context switches between supervisor and autonomous control. We find that LazyDAgger improves the performance and robustness of the learned policy during both learning and execution while limiting burden on the supervisor. Simulation experiments suggest that LazyDAgger can reduce context switches by an average of 60% over SafeDAgger on 3 continuous control tasks while maintaining state-of-the-art policy performance. In physical fabric manipulation experiments with an ABB YuMi robot, LazyDAgger reduces context switches by 60% while achieving a 60% higher success rate than SafeDAgger at execution time.
翻訳日:2021-04-02 13:29:43 公開日:2021-03-31
# Auto-KWS 2021チャレンジ:タスク、データセット、ベースライン

Auto-KWS 2021 Challenge: Task, Datasets, and Baselines ( http://arxiv.org/abs/2104.00513v1 )

ライセンス: Link先を確認
Jingsong Wang, Yuxuan He, Chunyu Zhao, Qijie Shao, Wei-Wei Tu, Tom Ko, Hung-yi Lee, Lei Xie(参考訳) auto-kws 2021は、カスタマイズされたキーワードスポッティングタスクに機械学習を適用するプロセスを自動化するために、自動機械学習(automl)ソリューションを要求する。 他のキーワードスポッティングタスクと比較して、Auto-KWSチャレンジには以下の3つの特徴がある: 1) ターゲットデバイスが特定のキーワードで登録された話者によってのみ起動できる、カスタマイズされたキーワードスポッティングの問題に焦点を当てる。 話者は任意の言語とアクセントを使ってキーワードを定義することができる。 2) 課題のすべてのデータセットは現実環境に記録される。 異なるユーザシナリオをシミュレートすることです。 3) Auto-KWSは、参加者がAutoMLソリューションを提出する必要がある「コードコンペティション」であり、プラットフォームが提出されたコードで登録と予測のステップを自動的に実行する。この課題は、よりパーソナライズされ柔軟なキーワードスポッティングシステムの開発を促進することを目的としている。 参加者全員に基準として2つのベースラインシステムを提供している。

Auto-KWS 2021 challenge calls for automated machine learning (AutoML) solutions to automate the process of applying machine learning to a customized keyword spotting task. Compared with other keyword spotting tasks, Auto-KWS challenge has the following three characteristics: 1) The challenge focuses on the problem of customized keyword spotting, where the target device can only be awakened by an enrolled speaker with his specified keyword. The speaker can use any language and accent to define his keyword. 2) All dataset of the challenge is recorded in realistic environment. It is to simulate different user scenarios. 3) Auto-KWS is a "code competition", where participants need to submit AutoML solutions, then the platform automatically runs the enrollment and prediction steps with the submitted code.This challenge aims at promoting the development of a more personalized and flexible keyword spotting system. Two baseline systems are provided to all participants as references.
翻訳日:2021-04-02 13:28:13 公開日:2021-03-31
# パッシブ光子間イメージング

Passive Inter-Photon Imaging ( http://arxiv.org/abs/2104.00059v1 )

ライセンス: Link先を確認
Atul Ingle, Trevor Seets, Mauro Buttafava, Shantanu Gupta, Alberto Tosi, Mohit Gupta, Andreas Velten(参考訳) デジタルカメラの画素は入射光エネルギーをアナログ電流に変換し、それを固定幅のバイナリ表現に変換することで画像強度を測定する。 この直接測定方法は概念的には単純であるが、極端照明下でのダイナミックレンジの制限と性能の低下に苦しむ -- 電子ノイズは低照明下で支配され、ピクセルフルウェル容量は明るい照明下で飽和をもたらす。 本稿では、連続光子検出の時間遅延として定義される光子間タイミングの測定に基づく新しい強度手がかりを提案する。 時間分解型単光子センサによって測定された光間距離の統計に基づいて、極端にダイナミックな範囲で動作するシーン輝度推定器の理論とアルゴリズムを開発し、1000万から1万以上のダイナミックレンジの撮像シーンを実験的に実演する。 提案手法は, 単光子型アバランシェダイオード(SPAD)などの単一光子センサのピコ秒タイミング分解能の出現に有効であり, ロボット工学, コンシューマー・フォトグラフィー, 天文学, 顕微鏡, 生体医用イメージングなど, 幅広い画像応用に影響を及ぼす。

Digital camera pixels measure image intensities by converting incident light energy into an analog electrical current, and then digitizing it into a fixed-width binary representation. This direct measurement method, while conceptually simple, suffers from limited dynamic range and poor performance under extreme illumination -- electronic noise dominates under low illumination, and pixel full-well capacity results in saturation under bright illumination. We propose a novel intensity cue based on measuring inter-photon timing, defined as the time delay between detection of successive photons. Based on the statistics of inter-photon times measured by a time-resolved single-photon sensor, we develop theory and algorithms for a scene brightness estimator which works over extreme dynamic range; we experimentally demonstrate imaging scenes with a dynamic range of over ten million to one. The proposed techniques, aided by the emergence of single-photon sensors such as single-photon avalanche diodes (SPADs) with picosecond timing resolution, will have implications for a wide range of imaging applications: robotics, consumer photography, astronomy, microscopy and biomedical imaging.
翻訳日:2021-04-02 13:27:56 公開日:2021-03-31
# 内部パッチ分布のマッチング学習によるMRスライスプロファイルの推定

MR Slice Profile Estimation by Learning to Match Internal Patch Distributions ( http://arxiv.org/abs/2104.00100v1 )

ライセンス: Link先を確認
Shuo Han, Samuel Remedios, Aaron Carass, Michael Sch\"ar, Jerry L. Prince(参考訳) マルチスライス2次元磁気共鳴(MR)画像の平面方向を超分解するために、そのスライス選択プロファイルを高分解能(HR)から低分解能(LR)への縮退モデルとして使用して、教師付きアルゴリズムのトレーニング時にペアデータを生成する。 既存の超解像アルゴリズムは、与えられた画像では容易には知られていないため、スライス選択プロファイルを仮定する。 本研究では,特定の画像に対するスライス選択プロファイルを,内部のパッチ分布に合わせて学習することによって推定する。 具体的には、正しいスライス選択プロファイルを適用した後、HR面の平面方向に沿った画像パッチ分布がLR面の平面方向に沿った分布と一致すると仮定する。 そこで,gan(generative adversarial network)におけるジェネレータの学習の一環として,スライス選択プロファイルの推定を行う。 このように、スライス選択プロファイルは外部データなしで学習することができる。 提案アルゴリズムは,等方性MR画像からのシミュレーションを用いてテストし,その利点を示すために平面超解像アルゴリズムに組み込まれ,画像分解能を測定するツールとしても使用された。 私たちのコードはhttps://github.com/s huohan/espreso2にある。

To super-resolve the through-plane direction of a multi-slice 2D magnetic resonance (MR) image, its slice selection profile can be used as the degeneration model from high resolution (HR) to low resolution (LR) to create paired data when training a supervised algorithm. Existing super-resolution algorithms make assumptions about the slice selection profile since it is not readily known for a given image. In this work, we estimate a slice selection profile given a specific image by learning to match its internal patch distributions. Specifically, we assume that after applying the correct slice selection profile, the image patch distribution along HR in-plane directions should match the distribution along the LR through-plane direction. Therefore, we incorporate the estimation of a slice selection profile as part of learning a generator in a generative adversarial network (GAN). In this way, the slice selection profile can be learned without any external data. Our algorithm was tested using simulations from isotropic MR images, incorporated in a through-plane super-resolution algorithm to demonstrate its benefits, and also used as a tool to measure image resolution. Our code is at https://github.com/s huohan/espreso2.
翻訳日:2021-04-02 13:27:33 公開日:2021-03-31
# 低酸素血症研究におけるスマートフォンカメラのオキシメトリー

Smartphone Camera Oximetry in an Induced Hypoxemia Study ( http://arxiv.org/abs/2104.00038v1 )

ライセンス: Link先を確認
Jason S. Hoffman, Varun Viswanath, Xinyi Ding, Matthew J. Thompson, Eric C. Larson, Shwetak N. Patel and Edward Wang(参考訳) 低酸素症(Hypoxemia)は、血液が組織に十分な酸素を供給していないときに起こる疾患で、喘息、COPD、COVID-19などの呼吸器疾患の危険合併症の指標である。 パルスオキシメータは、血液酸素飽和度(SpO$_2$)を正確に測定し、低酸素症の診断を可能にし、ソフトウェアアップデートを通じて未修正のスマートフォンカメラでこれを可能とすることで、患者の健康に関する重要な情報にアクセスし、医師の遠隔診断や呼吸状態の治療能力を向上させることができる。 本研究では,スマートフォンベースのspo$_2$センシングシステムにおいて,各種のインスパイア酸素 (fio$_2$) プロトコルを用いた最初の臨床開発検証を行い,spo$_2$値 (70%-100%) の広い範囲において,スマートフォンベースの方法のみを対象とした臨床関連検証データセットを作成することで,この目標に向けて一歩を踏み出した。 これは、より小さな範囲(85%-100%)で性能を評価する以前の研究とは対照的である。 このデータを用いて,総合MAE=5.00% SpO$_2$によるSpO$_2$レベルの正確な報告と,感度81%,特異性79%の低いSpO$_2$<90%の陽性症例を同定する深層学習モデルを構築した。 我々は、スマートフォンベースのSpO2モニタリングにおける最近の文献をまとめて分析し、オープンソースフォーマットにおけるFiO$_2$研究のデータを提供し、他の人たちがこの研究を構築できるようにします。

Hypoxemia, a medical condition that occurs when the blood is not carrying enough oxygen to adequately supply the tissues, is a leading indicator for dangerous complications of respiratory diseases like asthma, COPD, and COVID-19. While purpose-built pulse oximeters can provide accurate blood-oxygen saturation (SpO$_2$) readings that allow for diagnosis of hypoxemia, enabling this capability in unmodified smartphone cameras via a software update could give more people access to important information about their health, as well as improve physicians' ability to remotely diagnose and treat respiratory conditions. In this work, we take a step towards this goal by performing the first clinical development validation on a smartphone-based SpO$_2$ sensing system using a varied fraction of inspired oxygen (FiO$_2$) protocol, creating a clinically relevant validation dataset for solely smartphone-based methods on a wide range of SpO$_2$ values (70%-100%) for the first time. This contrasts with previous studies, which evaluated performance on a far smaller range (85%-100%). We build a deep learning model using this data to demonstrate accurate reporting of SpO$_2$ level with an overall MAE=5.00% SpO$_2$ and identifying positive cases of low SpO$_2$<90% with 81% sensitivity and 79% specificity. We ground our analysis with a summary of recent literature in smartphone-based SpO2 monitoring, and we provide the data from the FiO$_2$ study in open-source format, so that others may build on this work.
翻訳日:2021-04-02 13:24:50 公開日:2021-03-31
# 拡散予測に応用したノード回帰の伝達学習

Transfer Learning for Node Regression Applied to Spreading Prediction ( http://arxiv.org/abs/2104.00088v1 )

ライセンス: Link先を確認
Sebastian Me\v{z}nar, Nada Lavra\v{c}, Bla\v{z} \v{S}krlj(参考訳) 情報がどのように現実の複雑なネットワークに伝播するかを理解することは、誤った情報や流行といった動的なプロセスの理解を深める。 最近導入されたノード表現を学習するための機械学習手法の分野は、多くの新しい応用を提供しており、そのうちの1つは、本論文で論じられた予測を広めるタスクである。 我々は,与えられたノードから拡散する影響を評価する際に,最先端のノード表現学習者の有用性について,広範囲なシミュレーションにより検討する。 さらに,多くの実生活ネットワークが位相的に類似していることから,学習モデルが従来認識されていなかったネットワークに一般化するかどうかを体系的に検討する。 この研究は、ノード回帰のタスクにおける学習表現の転送可能性を探る最初の試みの1つであり、トレーニングされたモデルを転送できる構造(ゼロショット)に類似した構造を持つネットワークのペアが存在することを示し、その競合性能を示す。 我々の知る限り、これはノード回帰のタスクに対するゼロショット転送の有用性を評価する最初の試みの1つである。

Understanding how information propagates in real-life complex networks yields a better understanding of dynamic processes such as misinformation or epidemic spreading. The recently introduced branch of machine learning methods for learning node representations offers many novel applications, one of them being the task of spreading prediction addressed in this paper. We explore the utility of the state-of-the-art node representation learners when used to assess the effects of spreading from a given node, estimated via extensive simulations. Further, as many real-life networks are topologically similar, we systematically investigate whether the learned models generalize to previously unseen networks, showing that in some cases very good model transfer can be obtained. This work is one of the first to explore transferability of the learned representations for the task of node regression; we show there exist pairs of networks with similar structure between which the trained models can be transferred (zero-shot), and demonstrate their competitive performance. To our knowledge, this is one of the first attempts to evaluate the utility of zero-shot transfer for the task of node regression.
翻訳日:2021-04-02 13:24:21 公開日:2021-03-31
# ディファレンシャルプライバシを用いた事前フリーワンショットオークション学習に向けて

Towards Prior-Free Approximately Truthful One-Shot Auction Learning via Differential Privacy ( http://arxiv.org/abs/2104.00159v1 )

ライセンス: Link先を確認
Daniel Reusche, Nicol\'as Della Penna(参考訳) 真面目なデザイン オークションを最大化する収益は、オークションデザインの核となる問題である。 マルチイテム設定は、長い間解明されてきた。 最近の研究 (arXiv:1706.03459) では、入札者の嗜好に関する分布が知られている事前依存的な設定のための効果的な深層学習手法が紹介されている。 残る1つの問題は、結果としてのオークションを操作する可能性を排除する方法で、事前を取得することである。 ほぼ真理なメカニズムを構築するために,差分プライバシーの手法を用いて,先行自由設定に適用可能なRegretNetアプローチを修正した。 このより一般的な設定では、分布情報は想定されないが、より悪い性能のためにこの特性を交換する。 本研究における予備実験結果と定性解析について述べる。

Designing truthful, revenue maximizing auctions is a core problem of auction design. Multi-item settings have long been elusive. Recent work (arXiv:1706.03459) introduces effective deep learning techniques to find such auctions for the prior-dependent setting, in which distributions about bidder preferences are known. One remaining problem is to obtain priors in a way that excludes the possibility of manipulating the resulting auctions. Using techniques from differential privacy for the construction of approximately truthful mechanisms, we modify the RegretNet approach to be applicable to the prior-free setting. In this more general setting, no distributional information is assumed, but we trade this property for worse performance. We present preliminary empirical results and qualitative analysis for this work in progress.
翻訳日:2021-04-02 13:24:02 公開日:2021-03-31
# ハイブリッド誘導変分オートエンコーダを用いたイベントデータのジェスチャー類似性解析

Gesture Similarity Analysis on Event Data Using a Hybrid Guided Variational Auto Encoder ( http://arxiv.org/abs/2104.00165v1 )

ライセンス: Link先を確認
Kenneth Stewart, Andreea Danielescu, Lazar Supic, Timothy Shea, Emre Neftci(参考訳) 商業的な空中ジェスチャー認識システムは少なくとも10年間存在してきたが、機械との対話方法として広く普及していない。 これは主に、これらのシステムが、太った不自然な正確な認識のために、厳格でドラマチックなジェスチャーを必要とするためである。 世界的パンデミック(世界的なパンデミック)は、タッチレスインターフェースへの関心が再び高まっている。 認識システムの限界に対処するため,背景を自然に散らかし,高時間分解能でジェスチャーを解析するニューロモルフィックなジェスチャー解析システムを提案する。 提案手法は,動的視覚センサ(dvs)によって検出された事象に基づくデータを,空中ジェスチャデータの類似性を解析・計算するのに適した潜在空間表現に符号化するイベントベース誘導型変分オートエンコーダ(vae)である。 以上の結果から,VAEが学習した特徴は,新しいジェスチャーのクラスタリングと擬似ラベル付けが可能な類似度尺度を提供することがわかった。 さらに、イベントベースのエンコーダと擬似ラベルシステムは、オンライン適応と自然な空中ジェスチャー学習のためのニューロモルフィックハードウェアの実装に適していると論じる。

While commercial mid-air gesture recognition systems have existed for at least a decade, they have not become a widespread method of interacting with machines. This is primarily due to the fact that these systems require rigid, dramatic gestures to be performed for accurate recognition that can be fatiguing and unnatural. The global pandemic has seen a resurgence of interest in touchless interfaces, so new methods that allow for natural mid-air gestural interactions are even more important. To address the limitations of recognition systems, we propose a neuromorphic gesture analysis system which naturally declutters the background and analyzes gestures at high temporal resolution. Our novel model consists of an event-based guided Variational Autoencoder (VAE) which encodes event-based data sensed by a Dynamic Vision Sensor (DVS) into a latent space representation suitable to analyze and compute the similarity of mid-air gesture data. Our results show that the features learned by the VAE provides a similarity measure capable of clustering and pseudo labeling of new gestures. Furthermore, we argue that the resulting event-based encoder and pseudo-labeling system are suitable for implementation in neuromorphic hardware for online adaptation and learning of natural mid-air gestures.
翻訳日:2021-04-02 13:23:48 公開日:2021-03-31
# オンラインPCAにおけるOjaアルゴリズムの最適性について

On the Optimality of the Oja's Algorithm for Online PCA ( http://arxiv.org/abs/2104.00512v1 )

ライセンス: Link先を確認
Xin Liang(参考訳) 本稿では,オンライン/ストリーミング主成分部分空間推定におけるojaアルゴリズムの挙動を解析する。 高い確率で、ガウス分布の主成分部分空間を近似するために、効率よく、ギャップフリーで大域収束速度を実行することが証明された。 さらに、収束率、すなわち近似の上界は、オフライン/古典的PCAによって得られる近似の下限を定数係数に正確に一致することを示すのはこれが初めてである。

In this paper we analyze the behavior of the Oja's algorithm for online/streaming principal component subspace estimation. It is proved that with high probability it performs an efficient, gap-free, global convergence rate to approximate an principal component subspace for any sub-Gaussian distribution. Moreover, it is the first time to show that the convergence rate, namely the upper bound of the approximation, exactly matches the lower bound of an approximation obtained by the offline/classical PCA up to a constant factor.
翻訳日:2021-04-02 13:21:49 公開日:2021-03-31
# 深層学習型ホログラフィ顕微鏡による電子タバコ排出中の揮発性エアロゾルの動的イメージングとキャラクタリゼーション

Dynamic imaging and characterization of volatile aerosols in e-cigarette emissions using deep learning-based holographic microscopy ( http://arxiv.org/abs/2104.00525v1 )

ライセンス: Link先を確認
Yi Luo, Yichen Wu, Liqiao Li, Yuening Guo, Ege Cetintas, Yifang Zhu, Aydogan Ozcan(参考訳) 様々な揮発性エアロゾルは健康に悪影響を及ぼすが、これらのエアロゾルの特徴は、そのダイナミックな性質のために困難である。 本稿では,計算顕微鏡と深層学習を用いて粒子状物質(PM)の揮発性を直接測定する手法を提案する。 主にプロピレングリコール(PG)、野菜グリセリン(VG)、ニコチン(Nicotine)、香料化合物からなる液体混合物(e-quid)を蒸発させる電子タバコ(e-cigs)が生成するエアロゾルに適用した。 e-cig生成エアロゾルは、衝突型エアサンプラーを用いて電場可搬型顕微鏡で記録された。 この移動装置内のレンズレスデジタルホログラフィー顕微鏡は、収集した粒子のインラインホログラムを連続的に記録する。 ディープラーニングに基づくアルゴリズムは、ホログラムからe-cig生成粒子の微視的画像を自動的に再構成し、そのボラティリティを迅速に定量化する。 エアロゾル力学に及ぼすE-液組成の影響を評価するため, 種々のPG/VG容積比を持つフレーバーレス, ニコチンフリーのE-液の揮発性を測定し, 粒子の揮発性とVGの体積比との負の相関を明らかにした。 所定のPG/VG組成では, ニコチンの添加がe-シグエアロゾルの蒸発動態を支配し, 上記の負相関はもはや観察されなかった。 また,e液中のフレーバー添加剤はe-cigエアロゾルの揮発性を大幅に低下させることが明らかとなった。 ホログラフィックボラティリティ測定手法と関連するモバイルデバイスは,e-cig生成粒子のボラティリティに関する新たな知見を提供し,各種揮発性pmの特性評価に応用することができる。

Various volatile aerosols have been associated with adverse health effects; however, characterization of these aerosols is challenging due to their dynamic nature. Here we present a method that directly measures the volatility of particulate matter (PM) using computational microscopy and deep learning. This method was applied to aerosols generated by electronic cigarettes (e-cigs), which vaporize a liquid mixture (e-liquid) that mainly consists of propylene glycol (PG), vegetable glycerin (VG), nicotine, and flavoring compounds. E-cig generated aerosols were recorded by a field-portable computational microscope, using an impaction-based air sampler. A lensless digital holographic microscope inside this mobile device continuously records the inline holograms of the collected particles. A deep learning-based algorithm is used to automatically reconstruct the microscopic images of e-cig generated particles from their holograms, and rapidly quantify their volatility. To evaluate the effects of e-liquid composition on aerosol dynamics, we measured the volatility of the particles generated by flavorless, nicotine-free e-liquids with various PG/VG volumetric ratios, revealing a negative correlation between the particles' volatility and the volumetric ratio of VG in the e-liquid. For a given PG/VG composition, the addition of nicotine dominated the evaporation dynamics of the e-cig aerosol and the aforementioned negative correlation was no longer observed. We also revealed that flavoring additives in e-liquids significantly decrease the volatility of e-cig aerosol. The presented holographic volatility measurement technique and the associated mobile device might provide new insights on the volatility of e-cig generated particles and can be applied to characterize various volatile PM.
翻訳日:2021-04-02 13:21:41 公開日:2021-03-31
# 連続時間バンディット問題におけるロバスト実験

Robust Experimentation in the Continuous Time Bandit Problem ( http://arxiv.org/abs/2104.00102v1 )

ライセンス: Link先を確認
Farzad Pourbabaee(参考訳) 両腕のバンディット構成(Bolton and Harris (1999))における意思決定者 (DM) の実験力学について検討し, エージェントは一方の腕の戻り過程の分布について曖昧な信念を持ち, 他方の腕について確実であることを示した。 The DM entertains Multiplier preferences a la Hansen and Sargent (2001), we frame the decision making environment as a two-player differential game against nature in continuous time。 dm値関数と、その信念過程に関してカットオフ規則に従うことが判明した最適実験戦略を特徴付ける。 曖昧なアームを探索するための信念閾値は閉じた形で見出され、曖昧さ回避指数に対して増加していることが示されている。 次に、あいまいな腕に関する曖昧な情報ソースの提供の効果について検討する。 興味深いことに、この新たな情報ソースの結果として探索しきい値があいまいに上昇し、より保守的になる。 この分析は、専門家の意見を得るための効率的な時間にも光を当てます。

We study the experimentation dynamics of a decision maker (DM) in a two-armed bandit setup (Bolton and Harris (1999)), where the agent holds ambiguous beliefs regarding the distribution of the return process of one arm and is certain about the other one. The DM entertains Multiplier preferences a la Hansen and Sargent (2001), thus we frame the decision making environment as a two-player differential game against nature in continuous time. We characterize the DM value function and her optimal experimentation strategy that turns out to follow a cut-off rule with respect to her belief process. The belief threshold for exploring the ambiguous arm is found in closed form and is shown to be increasing with respect to the ambiguity aversion index. We then study the effect of provision of an unambiguous information source about the ambiguous arm. Interestingly, we show that the exploration threshold rises unambiguously as a result of this new information source, thereby leading to more conservatism. This analysis also sheds light on the efficient time to reach for an expert opinion.
翻訳日:2021-04-02 13:19:55 公開日:2021-03-31
# 部分変形可能な3次元形状のスペクトル結合

Spectral Unions of Partial Deformable 3D Shapes ( http://arxiv.org/abs/2104.00514v1 )

ライセンス: Link先を確認
Luca Moschella, Simone Melzi, Luca Cosmo, Filippo Maggioli, Or Litany, Maks Ovsjanikov, Leonidas Guibas, Emanuele Rodol\`a(参考訳) スペクトル幾何法は幾何学処理の分野に革命的な変化をもたらしたが、処理対象のデータが深刻な部分性を示す場合、そのような手法は一般化に失敗する。 結果として、完全な形状を扱うメソッドと、欠落した幾何学に対処するメソッドの間には、大きなパフォーマンスギャップが存在する。 本稿では,このギャップを埋める可能な方法を提案する。 まず, 与えられた部分形状間の密接な対応を第一に解くことなく, 非剛性変形形状の合成を計算する最初の方法を提案する。 我々は純粋にスペクトル領域で操作し、固有値の短い列間の和演算を定義する。 固有値の操作は、未知の対応、異なるサンプリング、異なる離散化(点雲やメッシュなど)を扱うことが可能であり、この操作は特に堅牢で一般的なものである。 我々のアプローチはデータ駆動であり、同じ意味クラス(例えば人体)に留まる限り、表面の等尺的および非等尺的変形や、訓練時に見えない部分的な人工物に一般化することができる。

Spectral geometric methods have brought revolutionary changes to the field of geometry processing -- however, when the data to be processed exhibits severe partiality, such methods fail to generalize. As a result, there exists a big performance gap between methods dealing with complete shapes, and methods that address missing geometry. In this paper, we propose a possible way to fill this gap. We introduce the first method to compute compositions of non-rigidly deforming shapes, without requiring to solve first for a dense correspondence between the given partial shapes. We do so by operating in a purely spectral domain, where we define a union operation between short sequences of eigenvalues. Working with eigenvalues allows to deal with unknown correspondence, different sampling, and different discretization (point clouds and meshes alike), making this operation especially robust and general. Our approach is data-driven, and can generalize to isometric and non-isometric deformations of the surface, as long as these stay within the same semantic class (e.g., human bodies), as well as to partiality artifacts not seen at training time.
翻訳日:2021-04-02 13:18:44 公開日:2021-03-31
# rocksdbのためのマルチタスク学習によるベイズ最適化

High-Dimensional Bayesian Optimization with Multi-Task Learning for RocksDB ( http://arxiv.org/abs/2103.16267v2 )

ライセンス: Link先を確認
Sami Alabed, Eiko Yoneki(参考訳) rocksdbは、複数の設定で使用される汎用組み込みキーバリューストアである。 その汎用性は複雑なチューニング構成のコストが伴う。 本稿では,RocksDB IO操作のスループットを,様々な範囲の10パラメータを自動調整することで最大化する。 オフザシェルフオプティマイザは高次元問題空間と競合し、多数のトレーニングサンプルを必要とする。 本稿では,マルチタスクモデリングとパラメータの手動グルーピングによる次元削減という2つの手法を提案する。 モデルに隣接する最適化を組み込むことで、モデルはより早く収束し、他のチューナーが見つけられなかった複雑な設定を見つけました。 このアプローチは計算の複雑さを増大させ、rocksdbの知識を通じて各サブゴールにパラメータを手動で割り当てることで軽減しました。 このモデルは、RocksDBのIOスループットを最大化するパラメータを見つけるために、標準的なベイズ最適化ループに組み込まれる。 提案手法は,Facebookのソーシャルグラフトラフィックのシミュレーションに比較してx1.3の改善を実現し,50ステップを要する他の最先端手法と比較して10の最適化ステップに収束した。

RocksDB is a general-purpose embedded key-value store used in multiple different settings. Its versatility comes at the cost of complex tuning configurations. This paper investigates maximizing the throughput of RocksDB IO operations by auto-tuning ten parameters of varying ranges. Off-the-shelf optimizers struggle with high-dimensional problem spaces and require a large number of training samples. We propose two techniques to tackle this problem: multi-task modeling and dimensionality reduction through a manual grouping of parameters. By incorporating adjacent optimization in the model, the model converged faster and found complicated settings that other tuners could not find. This approach had an additional computational complexity overhead, which we mitigated by manually assigning parameters to each sub-goal through our knowledge of RocksDB. The model is then incorporated in a standard Bayesian Optimization loop to find parameters that maximize RocksDB's IO throughput. Our method achieved x1.3 improvement when benchmarked against a simulation of Facebook's social graph traffic, and converged in ten optimization steps compared to other state-of-the-art methods that required fifty steps.
翻訳日:2021-04-02 09:22:08 公開日:2021-03-31
# (参考訳) グラフ畳み込みネットワークを用いた弱教師付き画像意味セグメンテーション [全文訳有]

Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks ( http://arxiv.org/abs/2103.16762v1 )

ライセンス: CC BY 4.0
Shun-Yi Pan, Cheng-You Lu, Shih-Po Lee, Wen-Hsiao Peng(参考訳) この研究は、画像レベルのクラスラベルに基づく弱教師付きイメージセマンティックセグメンテーションに対処する。 このタスクの一般的なアプローチは、クラスアクティベーションマップ(cams)のアクティベーションスコアをランダムウォーク機構を用いて伝達し、完全な擬似ラベルに到達し、意味セグメンテーションネットワークを完全に教師付きで訓練することである。 しかし、ランダムウォークのフィードフォワード性は、結果として得られる完全な擬似ラベルの品質に正規化を課さない。 この問題を解決するために,我々はGCN(Graph Convolutional Network)ベースの機能伝搬フレームワークを提案する。 半教師付き学習課題として完全な擬似ラベルの生成を定式化し、ラプラシアンとエントロピー正規化損失をバックプロパゲートすることにより、トレーニング画像毎に2層GCNを個別に学習する。 PASCAL VOC 2012データセットの実験結果から,いくつかの最先端ベースラインに対する提案手法の優位性が確認された。 私たちのコードはhttps://github.com/x avier-pan/wsgcnで利用可能です。

This work addresses weakly-supervised image semantic segmentation based on image-level class labels. One common approach to this task is to propagate the activation scores of Class Activation Maps (CAMs) using a random-walk mechanism in order to arrive at complete pseudo labels for training a semantic segmentation network in a fully-supervised manner. However, the feed-forward nature of the random walk imposes no regularization on the quality of the resulting complete pseudo labels. To overcome this issue, we propose a Graph Convolutional Network (GCN)-based feature propagation framework. We formulate the generation of complete pseudo labels as a semi-supervised learning task and learn a 2-layer GCN separately for every training image by back-propagating a Laplacian and an entropy regularization loss. Experimental results on the PASCAL VOC 2012 dataset confirm the superiority of our scheme to several state-of-the-art baselines. Our code is available at https://github.com/X avier-Pan/WSGCN.
翻訳日:2021-04-02 05:53:55 公開日:2021-03-31
# (参考訳) NISQ時代の量子核のパワーの理解に向けて [全文訳有]

Towards understanding the power of quantum kernels in the NISQ era ( http://arxiv.org/abs/2103.16774v1 )

ライセンス: CC BY 4.0
Xinbiao Wang, Yuxuan Du, Yong Luo, Dacheng Tao(参考訳) 量子コンピューティングの分野における重要な問題は、ノイズの多い中間スケール量子(NISQ)マシンに実装された量子機械学習(QML)モデルが量子優位性を達成することができるかどうかを理解することである。 最近、huangら。 [arxiv:2011.0 1938] 量子カーネル学習のレンズで部分的にこの質問に答えた。 すなわち、量子カーネルは最適な古典的カーネル法よりも低い一般化誤差で特定のデータセットを学習できることを示した。 しかしながら、これらの結果は理想の設定に基づいて確立され、短期量子マシンの注意点を無視する。 量子カーネルのパワーは、まだnisq設定下で保持されているのか? 本研究では,量子システムノイズとサンプル誤差を考慮した場合の量子カーネルのパワーを利用して,この知識ギャップを埋める。 具体的には, 量子カーネルの利点は, データセットの大規模化, 測定回数の少なさ, システムノイズが大きいため, 消滅することが最初に証明された。 NISQ時代の量子カーネルの優位性を維持することを目的として、不確定なカーネル学習による効果的な手法をさらに考案する。 数値シミュレーションは我々の理論結果と一致する。 我々の研究は、NISQデバイス上で量子優位性を得るための先進量子カーネルの探索に関する理論的ガイダンスを提供する。

A key problem in the field of quantum computing is understanding whether quantum machine learning (QML) models implemented on noisy intermediate-scale quantum (NISQ) machines can achieve quantum advantages. Recently, Huang et al. [arXiv:2011.01938] partially answered this question by the lens of quantum kernel learning. Namely, they exhibited that quantum kernels can learn specific datasets with lower generalization error over the optimal classical kernel methods. However, most of their results are established on the ideal setting and ignore the caveats of near-term quantum machines. To this end, a crucial open question is: does the power of quantum kernels still hold under the NISQ setting? In this study, we fill this knowledge gap by exploiting the power of quantum kernels when the quantum system noise and sample error are considered. Concretely, we first prove that the advantage of quantum kernels is vanished for large size of datasets, few number of measurements, and large system noise. With the aim of preserving the superiority of quantum kernels in the NISQ era, we further devise an effective method via indefinite kernel learning. Numerical simulations accord with our theoretical results. Our work provides theoretical guidance of exploring advanced quantum kernels to attain quantum advantages on NISQ devices.
翻訳日:2021-04-02 05:18:32 公開日:2021-03-31
# (参考訳) 個別に公平な勾配ブースティング [全文訳有]

Individually Fair Gradient Boosting ( http://arxiv.org/abs/2103.16785v1 )

ライセンス: CC BY 4.0
Alexander Vargo, Fan Zhang, Mikhail Yurochkin, Yuekai Sun(参考訳) 我々は,勾配向上における個人公正化の課題を考察する。 勾配ブースティング(gradient boosting)は、表データから機械学習を行う一般的な方法であり、アルゴリズムの公平性が懸念されるアプリケーションでしばしば発生する。 高いレベルでは、我々のアプローチは(分配的に)ロバストな損失関数の関数勾配降下であり、手前のMLタスクに対するアルゴリズム的公正性の直観を符号化する。 滑らかなMLモデルのみを扱う個別の公平性に対する従来のアプローチとは異なり、私たちのアプローチは決定木のような非滑らかなモデルでも機能する。 アルゴリズムがグローバルに収束し、一般化することを示す。 また,アルゴリズムバイアスの影響を受けやすい3つのml問題に対するアルゴリズムの有効性を示す。

We consider the task of enforcing individual fairness in gradient boosting. Gradient boosting is a popular method for machine learning from tabular data, which arise often in applications where algorithmic fairness is a concern. At a high level, our approach is a functional gradient descent on a (distributionally) robust loss function that encodes our intuition of algorithmic fairness for the ML task at hand. Unlike prior approaches to individual fairness that only work with smooth ML models, our approach also works with non-smooth models such as decision trees. We show that our algorithm converges globally and generalizes. We also demonstrate the efficacy of our algorithm on three ML problems susceptible to algorithmic bias.
翻訳日:2021-04-02 04:17:53 公開日:2021-03-31
# (参考訳) der: クラスインクリメンタル学習のための動的拡張可能な表現 [全文訳有]

DER: Dynamically Expandable Representation for Class Incremental Learning ( http://arxiv.org/abs/2103.16788v1 )

ライセンス: CC BY 4.0
Shipeng Yan, Jiangwei Xie, Xuming He(参考訳) 適応型視覚知能の実現に向けた中核的なステップであるクラスインクリメンタル学習の課題に対処する。 特に,メモリ制限のあるインクリメンタル学習のタスク設定を検討し,安定性と可塑性のトレードオフを改善することを目的としている。 そこで本研究では,より効果的なインクリメンタルな概念モデリングに動的に拡張可能な表現を利用する,新しい2段階学習手法を提案する。 具体的には、インクリメンタルなステップ毎に、学習した表現を凍結し、新しい学習可能な特徴抽出器から追加の機能ディメンションで拡張します。 これにより、学習した知識を保持することで、新しい視覚概念を統合することができます。 チャネルレベルのマスクベースのプルーニング戦略を導入することにより,新しい概念の複雑さに応じた表現を動的に拡張する。 さらに,新しい概念の多様な特徴を学習し,識別することをモデルに促す補助的損失を導入する。 我々は,3種類のインクリメンタル学習ベンチマークを広範囲に実験し,その手法が他の手法よりも高いマージンを示した。

We address the problem of class incremental learning, which is a core step towards achieving adaptive vision intelligence. In particular, we consider the task setting of incremental learning with limited memory and aim to achieve better stability-plasticity trade-off. To this end, we propose a novel two-stage learning approach that utilizes a dynamically expandable representation for more effective incremental concept modeling. Specifically, at each incremental step, we freeze the previously learned representation and augment it with additional feature dimensions from a new learnable feature extractor. This enables us to integrate new visual concepts with retaining learned knowledge. We dynamically expand the representation according to the complexity of novel concepts by introducing a channel-level mask-based pruning strategy. Moreover, we introduce an auxiliary loss to encourage the model to learn diverse and discriminate features for novel concepts. We conduct extensive experiments on the three class incremental learning benchmarks and our method consistently outperforms other methods with a large margin.
翻訳日:2021-04-02 03:37:59 公開日:2021-03-31
# (参考訳) 深層学習を用いたクメール語分割とパート・オブ・スパイチタギング [全文訳有]

Joint Khmer Word Segmentation and Part-of-Speech Tagging Using Deep Learning ( http://arxiv.org/abs/2103.16801v1 )

ライセンス: CC BY-SA 4.0
Rina Buoy and Nguonly Taing and Sokchea Kor(参考訳) Khmerテキストは、オプションスペースで左から右に書かれています。 空間は単語境界としてではなく、可読性やその他の機能目的のために使われる。 ワードセグメンテーションは、pos(part-of-speech)タグ付けのような下流タスクの事前ステップであり、posタグの堅牢性は単語セグメンテーションに大きく依存する。 従来のkhmer pos taggingは2段階のプロセスであり、単語のセグメンテーションから始まり、その後各単語の実際のタグ付けへと続く。 本研究では,単一深層学習モデルを用いた単語分割とPOSタグ付け手法を提案し,単語分割とPOSタグ付けを自然に行えるようにした。 提案したモデルは、Khmer POSデータセットを使用してトレーニングされ、テストされた。 検証の結果,ジョイントモデルの性能は従来の2段階のposタグと同等であることが示唆された。

Khmer text is written from left to right with optional space. Space is not served as a word boundary but instead, it is used for readability or other functional purposes. Word segmentation is a prior step for downstream tasks such as part-of-speech (POS) tagging and thus, the robustness of POS tagging highly depends on word segmentation. The conventional Khmer POS tagging is a two-stage process that begins with word segmentation and then actual tagging of each word, afterward. In this work, a joint word segmentation and POS tagging approach using a single deep learning model is proposed so that word segmentation and POS tagging can be performed spontaneously. The proposed model was trained and tested using the publicly available Khmer POS dataset. The validation suggested that the performance of the joint model is on par with the conventional two-stage POS tagging.
翻訳日:2021-04-02 03:23:32 公開日:2021-03-31
# (参考訳) 自己監督型エフェミズム検出とコンテンツモデレーションの同定 [全文訳有]

Self-Supervised Euphemism Detection and Identification for Content Moderation ( http://arxiv.org/abs/2103.16808v1 )

ライセンス: CC BY 4.0
Wanzheng Zhu, Hongyu Gong, Rohan Bansal, Zachary Weinberg, Nicolas Christin, Giulia Fanti, Suma Bhat(参考訳) フリンジグループや組織は、彼らが議論していることを隠すために、遠近法(通常、秘密の意味を持つ言葉)を使う長い歴史を持っています。 今日では、ユーフェミズムの一般的な使用は、ソーシャルメディアプラットフォームによって強制されるコンテンツモデレーションポリシーを回避することである。 ポリシーを強制するための既存のツールは、自動的に「禁止リスト」の単語のキーワード検索に依存しているが、これらは不正確である。 普通に使われる単語がユーフェミズム的な意味を持つ場合、キーワードベースの禁止リストに追加することは期待できない: "pot" (storage container or marijuana? または「ヒーター」(ハウスホルダーの器具や銃器? 現在のソーシャルメディア企業は、手動で投稿をチェックするためにスタッフを雇っているが、これは高価で非人間的であり、あまり効果的ではない。 通常、人間のモデレーターは、ある単語がエキシマティックに使われていることは明らかであるが、秘密の意味が何であるかを知らないため、メッセージがポリシーに違反しているかどうかを判断する。 また、ユーフェミズムが禁止された場合、それを使ったグループは別のものを発明するだけで、モデレーターは一歩遅れる。 本論文は,文レベルの文脈で単語を解析することにより,共起的に使用される単語を検出でき,各単語の秘密意味を識別できる教師なしアルゴリズムを示す。 文脈なしの単語埋め込みを用いた既存の技術と比較すると,提案手法はテキストコーパスでラベルなしのオイフェミズムの検出精度を30~400%向上させる。 単語の意味を明らかにするアルゴリズムは、私たちが知っている限りでは、最初のものである。 コンテンツモデレーターとポリシー回避器の武器競争において、我々のアルゴリズムはモデレーターの方向のバランスをシフトするのに役立ちます。

Fringe groups and organizations have a long history of using euphemisms--ordinary -sounding words with a secret meaning--to conceal what they are discussing. Nowadays, one common use of euphemisms is to evade content moderation policies enforced by social media platforms. Existing tools for enforcing policy automatically rely on keyword searches for words on a "ban list", but these are notoriously imprecise: even when limited to swearwords, they can still cause embarrassing false positives. When a commonly used ordinary word acquires a euphemistic meaning, adding it to a keyword-based ban list is hopeless: consider "pot" (storage container or marijuana?) or "heater" (household appliance or firearm?) The current generation of social media companies instead hire staff to check posts manually, but this is expensive, inhumane, and not much more effective. It is usually apparent to a human moderator that a word is being used euphemistically, but they may not know what the secret meaning is, and therefore whether the message violates policy. Also, when a euphemism is banned, the group that used it need only invent another one, leaving moderators one step behind. This paper will demonstrate unsupervised algorithms that, by analyzing words in their sentence-level context, can both detect words being used euphemistically, and identify the secret meaning of each word. Compared to the existing state of the art, which uses context-free word embeddings, our algorithm for detecting euphemisms achieves 30-400% higher detection accuracies of unlabeled euphemisms in a text corpus. Our algorithm for revealing euphemistic meanings of words is the first of its kind, as far as we are aware. In the arms race between content moderators and policy evaders, our algorithms may help shift the balance in the direction of the moderators.
翻訳日:2021-04-02 03:13:55 公開日:2021-03-31
# (参考訳) テキストから音声への限定音声変換:2段階連続訓練 [全文訳有]

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training ( http://arxiv.org/abs/2103.16809v1 )

ライセンス: CC BY 4.0
Kun Zhou, Berrak Sisman, Haizhou Li(参考訳) 感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら発話の感情状態を変えることを目的としている。 本稿では,感情音声データに制限のあるシーケンス・ツー・シーケンスの感情音声変換のための2段階学習手法を提案する。 提案するECVフレームワークは,高品質な表現音声を生成するための共通の目標を共有するため,テキスト音声(TTS)を利用する。 ステージ1では、多話者TSコーパスを用いてスタイル初期化を行い、話し言葉のスタイルと言語内容を切り離す。 ステージ2では、限られた感情的な音声データを用いて感情訓練を行い、感情的なスタイルや言語情報を音声から切り離す方法を学ぶ。 提案手法は,スペクトル変換と韻律変換の両方が可能であり,客観的および主観的評価の両面において,最先端のベースラインよりも大幅に向上する。

Emotional voice conversion (EVC) aims to change the emotional state of an utterance while preserving the linguistic content and speaker identity. In this paper, we propose a novel 2-stage training strategy for sequence-to-sequence emotional voice conversion with a limited amount of emotional speech data. We note that the proposed EVC framework leverages text-to-speech (TTS) as they share a common goal that is to generate high-quality expressive voice. In stage 1, we perform style initialization with a multi-speaker TTS corpus, to disentangle speaking style and linguistic content. In stage 2, we perform emotion training with a limited amount of emotional speech data, to learn how to disentangle emotional style and linguistic information from the speech. The proposed framework can perform both spectrum and prosody conversion and achieves significant improvement over the state-of-the-art baselines in both objective and subjective evaluation.
翻訳日:2021-04-02 02:37:21 公開日:2021-03-31
# (参考訳) QUEST: 大規模コンテンツモデレーションのためのキューシミュレーション [全文訳有]

QUEST: Queue Simulation for Content Moderation at Scale ( http://arxiv.org/abs/2103.16816v1 )

ライセンス: CC BY 4.0
Rahul Makhijani, Parikshit Shah, Vashist Avadhanula, Caner Gocmen, Nicol\'as E. Stier-Moses, Juli\'an Mestre(参考訳) ソーシャルメディアプラットフォームにおけるコンテンツのモデレーションは、通常毎日何十億もの投稿を処理する、前例のない規模のシステムのために、非常に難しい課題である。 Facebookなどの大手プラットフォームでは、数千人のレビュアーによるプラットフォームコンテンツの手作業によるレビューと機械学習をブレンドしている。 大規模な人間レビューシステムの運用は、オペレーションリサーチ技術で対処できる、興味深い、そして困難な方法論的な疑問を呈する。 本稿では,待ち行列理論とシミュレーションのアイデアを用いて,大規模レビューシステムを最適に運用する問題を検討する。

Moderating content in social media platforms is a formidable challenge due to the unprecedented scale of such systems, which typically handle billions of posts per day. Some of the largest platforms such as Facebook blend machine learning with manual review of platform content by thousands of reviewers. Operating a large-scale human review system poses interesting and challenging methodological questions that can be addressed with operations research techniques. We investigate the problem of optimally operating such a review system at scale using ideas from queueing theory and simulation.
翻訳日:2021-04-02 02:24:47 公開日:2021-03-31
# (参考訳) ポーズ伝達のための空間コンテンツアライメント [全文訳有]

Spatial Content Alignment For Pose Transfer ( http://arxiv.org/abs/2103.16828v1 )

ライセンス: CC BY 4.0
Wing-Yin Yu, Lai-Man Po, Yuzhi Zhao, Jingjing Xiong, Kin-Wai Lau(参考訳) 信頼性の低い幾何マッチングと内容の不整合のため、従来のポーズ転送アルゴリズムは微調整された人物画像の生成に失敗する。 本稿では,テクスチャの内容の整合性向上と人的特徴の詳細な記述を目的とした,空間コンテンツアライメントGAN(SCAGAN)を提案する。 まず,前もってターゲットポーズにエッジ内容の転送を行うことにより,空間的不整合を緩和する。 第2に、画像の外観特徴、ターゲットポーズのヒートマップ、エッジ領域における先行転送コンテンツに基づいて、フォトリアリスティックな人物画像を段階的に合成するContent-Style DeBlkを導入する。 提案手法をいくつかの最先端手法と比較し,定量および定性解析においてその優位性を示す。 さらに, 詳細なアブレーション研究の結果から, 貢献の有効性が示された。 コードはgithub.com/rocketapp slab/SCA-GANで公開されている。

Due to unreliable geometric matching and content misalignment, most conventional pose transfer algorithms fail to generate fine-trained person images. In this paper, we propose a novel framework Spatial Content Alignment GAN (SCAGAN) which aims to enhance the content consistency of garment textures and the details of human characteristics. We first alleviate the spatial misalignment by transferring the edge content to the target pose in advance. Secondly, we introduce a new Content-Style DeBlk which can progressively synthesize photo-realistic person images based on the appearance features of the source image, the target pose heatmap and the prior transferred content in edge domain. We compare the proposed framework with several state-of-the-art methods to show its superiority in quantitative and qualitative analysis. Moreover, detailed ablation study results demonstrate the efficacy of our contributions. Codes are publicly available at github.com/rocketapp slab/SCA-GAN.
翻訳日:2021-04-02 02:12:52 公開日:2021-03-31
# (参考訳) 確率的適応的シーン表現のオンライン学習 [全文訳有]

Online Learning of a Probabilistic and Adaptive Scene Representation ( http://arxiv.org/abs/2103.16832v1 )

ライセンス: CC BY 4.0
Zike Yan, Xin Wang, Hongbin Zha(参考訳) オンライン空間認識、解釈、行動のコアタスクは、一貫したシーンモデルの構築と維持である。 本稿では,ベイズ非パラメトリック混合モデルを用いて,一点当たりの占有状況と連続確率密度関数をシームレスに記述する。 従来のデータ融合パラダイムに従うのではなく,シーン形状からクラウドデータを逐次的に生成するプロセスのオンライン学習の問題に対処する。 パラメータ空間をリアルタイムで更新するために、インクリメンタルかつ並列な推論を行う。 提案手法は, 有望な効率で最先端の精度が得られることを示す。 一貫した確率的定式化により、異なるセンサ特性に適応する生成モデルが保証され、異なるデータスケールに応じてモデル複雑性を動的に調整することができる。

Constructing and maintaining a consistent scene model on-the-fly is the core task for online spatial perception, interpretation, and action. In this paper, we represent the scene with a Bayesian nonparametric mixture model, seamlessly describing per-point occupancy status with a continuous probability density function. Instead of following the conventional data fusion paradigm, we address the problem of online learning the process how sequential point cloud data are generated from the scene geometry. An incremental and parallel inference is performed to update the parameter space in real-time. We experimentally show that the proposed representation achieves state-of-the-art accuracy with promising efficiency. The consistent probabilistic formulation assures a generative model that is adaptive to different sensor characteristics, and the model complexity can be dynamically adjusted on-the-fly according to different data scales.
翻訳日:2021-04-02 02:00:59 公開日:2021-03-31
# (参考訳) 蒸留における教師と学生の知識の相違 [全文訳有]

Fixing the Teacher-Student Knowledge Discrepancy in Distillation ( http://arxiv.org/abs/2103.16844v1 )

ライセンス: CC BY 4.0
Jiangfan Han, Mengya Gao, Yujie Wang, Quanquan Li, Hongsheng Li, Xiaogang Wang(参考訳) より大規模な教員ネットワークの指導による小学生ネットワークの育成は,学生のパフォーマンス向上に有効な方法である。 異なる種類にもかかわらず、蒸留に用いられる指導知識は常に、以前の知識蒸留法において、異なる教師と学生ペアに対して不変である。 しかし、異なるネットワークを持つ教師と生徒のモデル、異なる初期化から訓練されたモデルでは、異なるチャネル間で異なる特徴表現を持つ可能性がある。 (例) 異なるカテゴリーに対する高い活性化チャネル) 蒸留プロセスにおいて,このチャネルを教師が学習する知識の相違として表現する。 教師と生徒モデルの知識格差問題を無視して、教師から生徒への学習をより困難にする。 そこで,本稿では,教師の知識を生徒とより一貫性を持たせ,異なる留学生ネットワークに最適な知識を提供する,新しい留学生依存蒸留法である知識一貫性蒸留を提案する。 様々なデータセット(CIFAR100, ImageNet, COCO)とタスク(画像分類, 物体検出)の広範囲にわたる実験により, 教師と学生の間で存在する知識の相違の問題を明らかにし, 提案手法の有効性を実証した。 この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。

Training a small student network with the guidance of a larger teacher network is an effective way to promote the performance of the student. Despite the different types, the guided knowledge used to distill is always kept unchanged for different teacher and student pairs in previous knowledge distillation methods. However, we find that teacher and student models with different networks or trained from different initialization could have distinct feature representations among different channels. (e.g. the high activated channel for different categories). We name this incongruous representation of channels as teacher-student knowledge discrepancy in the distillation process. Ignoring the knowledge discrepancy problem of teacher and student models will make the learning of student from teacher more difficult. To solve this problem, in this paper, we propose a novel student-dependent distillation method, knowledge consistent distillation, which makes teacher's knowledge more consistent with the student and provides the best suitable knowledge to different student networks for distillation. Extensive experiments on different datasets (CIFAR100, ImageNet, COCO) and tasks (image classification, object detection) reveal the widely existing knowledge discrepancy problem between teachers and students and demonstrate the effectiveness of our proposed method. Our method is very flexible that can be easily combined with other state-of-the-art approaches.
翻訳日:2021-04-02 01:44:10 公開日:2021-03-31
# (参考訳) ハードオーメンテーションを用いたアテンションマップ誘導二段階異常検出 [全文訳有]

Attention Map-guided Two-stage Anomaly Detection using Hard Augmentation ( http://arxiv.org/abs/2103.16851v1 )

ライセンス: CC BY 4.0
Jou Won Song, Kyeongbo Kong, Ye In Park, Suk-Ju Kang(参考訳) 異常検出は、入力サンプルが対象の正規クラスや異常クラスの分布に含まれるかどうかを認識するタスクである。 従来のgenerative adversarial network(gan)ベースの方法は、前景と背景を含む画像全体を入力として利用する。 しかし、これらの手法では、通常のクラス(例えば、無関係な背景)とは無関係な領域が正規クラス分布として学習され、偽検出につながる。 そこで本研究では,注意ネットワークと異常検出GAN(ADGAN)からなる2段階ネットワークを提案する。 注意ネットワークは、正常なクラス分布を表す領域を示すアテンションマップを生成する。 注意マップを高精度に作成するために, 硬度増大による合成異常サンプルに基づいて, 注意損失と対向異常損失を提案する。 画像特徴マップに注意マップを適用することで、adganは、役に立たない領域を取り除いた正規クラス分布を学習し、異常検出タスクの課題難易度を大幅に低減することができる。 さらに,異常領域と異常領域を区別できるため,アテンションマップを異常セグメント化に利用することができる。 その結果、提案手法は、広く使われているデータセットに対する最先端の異常検出および異常セグメンテーション方法よりも優れている。

Anomaly detection is a task that recognizes whether an input sample is included in the distribution of a target normal class or an anomaly class. Conventional generative adversarial network (GAN)-based methods utilize an entire image including foreground and background as an input. However, in these methods, a useless region unrelated to the normal class (e.g., unrelated background) is learned as normal class distribution, thereby leading to false detection. To alleviate this problem, this paper proposes a novel two-stage network consisting of an attention network and an anomaly detection GAN (ADGAN). The attention network generates an attention map that can indicate the region representing the normal class distribution. To generate an accurate attention map, we propose the attention loss and the adversarial anomaly loss based on synthetic anomaly samples generated from hard augmentation. By applying the attention map to an image feature map, ADGAN learns the normal class distribution from which the useless region is removed, and it is possible to greatly reduce the problem difficulty of the anomaly detection task. Additionally, the estimated attention map can be used for anomaly segmentation because it can distinguish between normal and anomaly regions. As a result, the proposed method outperforms the state-of-the-art anomaly detection and anomaly segmentation methods for widely used datasets.
翻訳日:2021-04-02 01:32:04 公開日:2021-03-31
# (参考訳) ArtFlow: 可逆的ニューラルネットワークによる画像スタイルのトランスファー [全文訳有]

ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows ( http://arxiv.org/abs/2103.16877v1 )

ライセンス: CC BY 4.0
Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu, Jiebo Luo(参考訳) ユニバーサルスタイル転送は、コンテンツイメージの参照画像からのスタイルを保持する。 既存の手法は最先端のスタイル転送性能を達成しているが,何回かのスタイリング処理を経て画像内容が劣化する可能性のあるコンテンツリーク現象を意識していない。 本稿では,ユニバーサルスタイル転送時のコンテンツリークを防止するため,ArtFlowを提案する。 ArtFlowは可逆的なニューラルフローと、バイアスのない機能転送モジュールで構成される。 前方と後方の両方の推論をサポートし、プロジェクション-トランスファー-リバージョンスキームで動作する。 前方推論は入力画像を深い機能に投影し、後方推論は深い機能をロスレスで偏りのない方法で入力画像にリマップする。 広範な実験により、artflowは、コンテンツリークを回避しつつ、最先端のスタイル転送メソッドに匹敵するパフォーマンスを実現している。

Universal style transfer retains styles from reference images in content images. While existing methods have achieved state-of-the-art style transfer performance, they are not aware of the content leak phenomenon that the image content may corrupt after several rounds of stylization process. In this paper, we propose ArtFlow to prevent content leak during universal style transfer. ArtFlow consists of reversible neural flows and an unbiased feature transfer module. It supports both forward and backward inferences and operates in a projection-transfer- reversion scheme. The forward inference projects input images into deep features, while the backward inference remaps deep features back to input images in a lossless and unbiased way. Extensive experiments demonstrate that ArtFlow achieves comparable performance to state-of-the-art style transfer methods while avoiding content leak.
翻訳日:2021-04-02 01:19:31 公開日:2021-03-31
# (参考訳) 知識統合進化アルゴリズムのためのフレームワーク [全文訳有]

A Framework for Knowledge Integrated Evolutionary Algorithms ( http://arxiv.org/abs/2103.16897v1 )

ライセンス: CC BY 4.0
Ahmed Hallawa, Anil Yaman, Giovanni Iacca, Gerd Ascheid(参考訳) 進化的アルゴリズム(EA)が成功した主な理由の1つは、その汎用性、すなわち、特定の事前知識を伴わずに、広範囲の最適化問題に直接適用できるという事実である。 一方,専門知識や経験的知見などの事前知識を取り入れることで,EAの性能が著しく向上することが示されている。 しかし、EAにおける知識の統合は多くの課題を引き起こします。 探索空間の特徴が未知である場合が多いので、探索空間の性質に関する知識はほとんど使用できない。 加えて、事前知識は一般に問題固有であり、一般化するのは難しい。 本稿では,既存の知識をEAに統合するためのフレームワークである知識統合進化アルゴリズム(KIEA)を提案する。 特に、KIEAフレームワークはEAに依存しない(すなわち、進化的アルゴリズムで動く)、問題に依存しない(特定の種類の問題に特化していない)、拡張可能である(つまり、知識ベースは時間とともに成長する)。 さらに、このフレームワークはEAが実行中の知識を統合し、必要な計算能力の使用を最適化する。 ここでの予備実験では、kieaフレームワークが最悪の場合、収束時間(w.r.t.)で80%改善するという結果が得られた。 対応する "知識フリー" ea に対応する。

One of the main reasons for the success of Evolutionary Algorithms (EAs) is their general-purposeness, i.e., the fact that they can be applied straightforwardly to a broad range of optimization problems, without any specific prior knowledge. On the other hand, it has been shown that incorporating a priori knowledge, such as expert knowledge or empirical findings, can significantly improve the performance of an EA. However, integrating knowledge in EAs poses numerous challenges. It is often the case that the features of the search space are unknown, hence any knowledge associated with the search space properties can be hardly used. In addition, a priori knowledge is typically problem-specific and hard to generalize. In this paper, we propose a framework, called Knowledge Integrated Evolutionary Algorithm (KIEA), which facilitates the integration of existing knowledge into EAs. Notably, the KIEA framework is EA-agnostic (i.e., it works with any evolutionary algorithm), problem-independent (i.e., it is not dedicated to a specific type of problems), expandable (i.e., its knowledge base can grow over time). Furthermore, the framework integrates knowledge while the EA is running, thus optimizing the use of the needed computational power. In the preliminary experiments shown here, we observe that the KIEA framework produces in the worst case an 80% improvement on the converge time, w.r.t. the corresponding "knowledge-free" EA counterpart.
翻訳日:2021-04-02 01:00:14 公開日:2021-03-31
# (参考訳) 文脈データ拡張による数ショット学習 [全文訳有]

Few-shot learning through contextual data augmentation ( http://arxiv.org/abs/2103.16911v1 )

ライセンス: CC BY-SA 4.0
Farid Arthaud, Rachel Bawden and Alexandra Birch(参考訳) 機械翻訳(MT)モデルは、翻訳やニュース代理店など、常に変化するトピックを持つ産業において、時間とともにパフォーマンスを維持するために新しいデータに適応する必要がある。 本研究の目的は,事前学習したMTモデルを用いて,未知語を正確に翻訳することである。 我々は,人間の翻訳に現れる新しい語彙をシミュレートできる実験的な設定を提案し,(ii)アプローチを比較するために対応する評価指標を提案する。 我々は、事前学習言語モデルを用いてデータ拡張アプローチを拡張し、新しい単語に類似した文脈でトレーニング例を作成する。 異なる微調整法とデータ拡張法を比較し,1~5例の適応が可能であることを示す。 ランダムに選択されたトレーニング文とデータ拡張を組み合わせることで、最も高いbleuスコアと正確性が向上する。 印象的なことに,1~5例のモデルでは,平均313例でトレーニングした基準システムよりも精度の高いスコアが報告されている。

Machine translation (MT) models used in industries with constantly changing topics, such as translation or news agencies, need to adapt to new data to maintain their performance over time. Our aim is to teach a pre-trained MT model to translate previously unseen words accurately, based on very few examples. We propose (i) an experimental setup allowing us to simulate novel vocabulary appearing in human-submitted translations, and (ii) corresponding evaluation metrics to compare our approaches. We extend a data augmentation approach using a pre-trained language model to create training examples with similar contexts for novel words. We compare different fine-tuning and data augmentation approaches and show that adaptation on the scale of one to five examples is possible. Combining data augmentation with randomly selected training sentences leads to the highest BLEU score and accuracy improvements. Impressively, with only 1 to 5 examples, our model reports better accuracy scores than a reference system trained with on average 313 parallel examples.
翻訳日:2021-04-02 00:49:28 公開日:2021-03-31
# (参考訳) キャベツのセグメンテーションにおける奥行き情報と色空間の変動を用いた屋外ロバスト性の向上 [全文訳有]

Using depth information and colour space variations for improving outdoor robustness for instance segmentation of cabbage ( http://arxiv.org/abs/2103.16923v1 )

ライセンス: CC BY 4.0
Nils L\"uling, David Reiser, Alexander Stana, H.W. Griepentrog(参考訳) 農業における画像に基づく収量検出は、農地の収穫効率と耕作性能を高める可能性がある。 本研究は, 異なる環境条件下での農作物のインスタンスセグメンテーションの改善に焦点を当てた。 様々な照明条件下でキャベツプラントの5つのデータセットが記録された。 画像は商用のモノカメラで取得された。 さらに、画像ストリームからStructure-from-Motio n (SfM)で深度情報を生成する。 Mask R-CNN はキャベツヘッドの検出と分割に使用された。 深度情報と異なる色空間表現の影響を解析した。 その結果,色情報と組み合わせることでセグメンテーション精度が7.1%向上した。 光と彩度情報と深度情報を組み合わせた色空間による色情報の記述により、さらに16.5%のセグメンテーション改善が可能となった。 cielab色空間と深度情報層を組み合わせると,平均精度75。

Image-based yield detection in agriculture could raiseharvest efficiency and cultivation performance of farms. Following this goal, this research focuses on improving instance segmentation of field crops under varying environmental conditions. Five data sets of cabbage plants were recorded under varying lighting outdoor conditions. The images were acquired using a commercial mono camera. Additionally, depth information was generated out of the image stream with Structure-from-Motio n (SfM). A Mask R-CNN was used to detect and segment the cabbage heads. The influence of depth information and different colour space representations were analysed. The results showed that depth combined with colour information leads to a segmentation accuracy increase of 7.1%. By describing colour information by colour spaces using light and saturation information combined with depth information, additional segmentation improvements of 16.5% could be reached. The CIELAB colour space combined with a depth information layer showed the best results achieving a mean average precision of 75.
翻訳日:2021-04-02 00:33:36 公開日:2021-03-31
# (参考訳) 深層強化学習による不均一一般均衡経済モデルの解法 [全文訳有]

Solving Heterogeneous General Equilibrium Economic Models with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.16977v1 )

ライセンス: CC BY 4.0
Edward Hill, Marco Bardoscia and Arthur Turrell(参考訳) 一般均衡マクロ経済モデルは、政策立案者が国の経済を理解するために使う中核ツールである。 彼らは経済を、おそらく確率的効果と組み合わせて、動的均衡におけるグローバル変数(価格など)を決定する前方のアクターの集合として表現している。 しかし、これらのモデルを解くための標準的な半分析技術は、異種経済アクターの重要な効果を含めることが困難である。 新型コロナウイルス(covid-19)のパンデミックは、例えば年齢や雇用部門の異質性の重要性を、マクロ経済の結果やより簡単に組み込めるモデルの必要性においてさらに強調した。 我々は強化学習の手法を用いて, 単純で拡張性, 計算効率のよい方法で, 異種エージェントを組み込んだモデルを解く。 世界的な確率性を含む一般均衡問題を解き、その柔軟性をマクロ経済・疫学モデルと組み合わせて解き、パンデミックの経済・健康への影響を探究することにより、解析的な解法が知られているトイ問題の正確性と安定性を実証する。 後者は、年齢による異なる健康リスクによって引き起こされるもっともらしい経済行動をうまく捉えている。

General equilibrium macroeconomic models are a core tool used by policymakers to understand a nation's economy. They represent the economy as a collection of forward-looking actors whose behaviours combine, possibly with stochastic effects, to determine global variables (such as prices) in a dynamic equilibrium. However, standard semi-analytical techniques for solving these models make it difficult to include the important effects of heterogeneous economic actors. The COVID-19 pandemic has further highlighted the importance of heterogeneity, for example in age and sector of employment, in macroeconomic outcomes and the need for models that can more easily incorporate it. We use techniques from reinforcement learning to solve such models incorporating heterogeneous agents in a way that is simple, extensible, and computationally efficient. We demonstrate the method's accuracy and stability on a toy problem for which there is a known analytical solution, its versatility by solving a general equilibrium problem that includes global stochasticity, and its flexibility by solving a combined macroeconomic and epidemiological model to explore the economic and health implications of a pandemic. The latter successfully captures plausible economic behaviours induced by differential health risks by age.
翻訳日:2021-04-02 00:23:43 公開日:2021-03-31
# (参考訳) UA-GEC:ウクライナ語の文法的誤り訂正と周波数コーパス [全文訳有]

UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language ( http://arxiv.org/abs/2103.16997v1 )

ライセンス: CC BY 4.0
Oleksiy Syvokon and Olena Nahorna(参考訳) ウクライナ語で文法的誤り訂正(GEC)と流布編集を専門に注釈付けしたコーパスを提示する。 我々の知る限りでは、これがウクライナ語のための最初のGECコーパスである。 ネイティブ話者と非ネイティブ話者の両方を含む、さまざまなコントリビューターからエラー(20,715文)のあるテキストを収集した。 このデータは、テキストチャットやエッセイから正式な執筆まで、さまざまなライティングドメインをカバーしている。 プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。 このコーパスはウクライナのECCシステムの開発と評価に使用することができる。 より一般的には、多言語および低リソースのNLP、形態的にリッチな言語、文書レベルのGEC、および周波数補正の研究に使用できる。 コーパスはhttps://github.com/g rammarly/ua-gecで公開されている。

We present a corpus professionally annotated for grammatical error correction (GEC) and fluency edits in the Ukrainian language. To the best of our knowledge, this is the first GEC corpus for the Ukrainian language. We collected texts with errors (20,715 sentences) from a diverse pool of contributors, including both native and non-native speakers. The data cover a wide variety of writing domains, from text chats and essays to formal writing. Professional proofreaders corrected and annotated the corpus for errors relating to fluency, grammar, punctuation, and spelling. This corpus can be used for developing and evaluating GEC systems in Ukrainian. More generally, it can be used for researching multilingual and low-resource NLP, morphologically rich languages, document-level GEC, and fluency correction. The corpus is publicly available at https://github.com/g rammarly/ua-gec
翻訳日:2021-04-02 00:04:43 公開日:2021-03-31
# (参考訳) 量子コインとサイコロを投げる

Tossing Quantum Coins and Dice ( http://arxiv.org/abs/2103.17007v1 )

ライセンス: CC BY 4.0
V.I. Yukalov(参考訳) 量子コインとサイコロを投げる手順について述べる。 このケースは量子手続きの重要な例であり、量子情報処理や量子コンピューティングで使われる典型的なフレームワークを示す。 量子と古典条件の確率の差の明確化に重点が置かれている。 これらの確率は、量子または古典的な異なるシステムの特徴付けのために設計されており、一般的には互いに還元することはできない。 したがって、l\"{u}ders確率は古典的な条件付き確率の一般化として扱うことはできない。 測定の量子理論と量子決定理論の類似性は解明されている。

The procedure of tossing quantum coins and dice is described. This case is an important example of a quantum procedure because it presents a typical framework employed in quantum information processing and quantum computing. The emphasis is on the clarification of the difference between quantum and classical conditional probabilities. These probabilities are designed for characterizing different systems, either quantum or classical, and they, generally, cannot be reduced to each other. Thus the L\"{u}ders probability cannot be treated as a generalization of the classical conditional probability. The analogies between quantum theory of measurements and quantum decision theory are elucidated.
翻訳日:2021-04-01 23:57:51 公開日:2021-03-31
# (参考訳) エントロピー閾値を用いた協調ラベル補正 [全文訳有]

Collaborative Label Correction via Entropy Thresholding ( http://arxiv.org/abs/2103.17008v1 )

ライセンス: CC BY 4.0
Hao Wu, Jiaochao Yao, Jiajie Wang, Yinru Chen, Ya Zhang, Yanfeng Wang(参考訳) ディープニューラルネットワーク(dnn)は、非常にノイズの多いラベルに適合する能力を持っているが、まずクリーンなラベルでデータを学習し、その後ノイズのあるラベルで記憶する傾向がある。 この挙動を予測のシャノンエントロピーに照らして検討し,与えられたしきい値によって決定される低エントロピー予測は,従来のノイズラベルよりもはるかに信頼性が高いことを示す。 また、以前の方法よりも多くのトレーニングサンプルを維持することにも利点がある。 次に、このエントロピー基準をclc(collaborative label correction)フレームワークで満たし、1つのネットワークの望ましくない局所的最小値を回避する。 合成と実世界の両方の設定で、複数のベンチマークで様々な実験が行われた。 広範な結果から,clcは最先端の手法よりも優れていた。

Deep neural networks (DNNs) have the capacity to fit extremely noisy labels nonetheless they tend to learn data with clean labels first and then memorize those with noisy labels. We examine this behavior in light of the Shannon entropy of the predictions and demonstrate the low entropy predictions determined by a given threshold are much more reliable as the supervision than the original noisy labels. It also shows the advantage in maintaining more training samples than previous methods. Then, we power this entropy criterion with the Collaborative Label Correction (CLC) framework to further avoid undesired local minimums of the single network. A range of experiments have been conducted on multiple benchmarks with both synthetic and real-world settings. Extensive results indicate that our CLC outperforms several state-of-the-art methods.
翻訳日:2021-04-01 23:57:05 公開日:2021-03-31
# (参考訳) SRA-LSTM:人間軌道予測のための社会関係注意LSTM [全文訳有]

SRA-LSTM: Social Relationship Attention LSTM for Human Trajectory Prediction ( http://arxiv.org/abs/2103.17045v1 )

ライセンス: CC BY 4.0
Yusheng Peng, Gaofeng Zhang, Jun Shi, Benzhu Xu, Liping Zheng(参考訳) 歩行者による監視ビデオの軌道予測は、コンピュータビジョン分野における重要な研究の1つであり、インテリジェントな監視システムの重要な技術である。 歩行者間の社会的関係は、歩行者歩行パターンに影響を及ぼす重要な要因であるが、主に文献で無視された。 異なる社会的関係を持つ歩行者は、歩行者の移動決定において異なる役割を担っている。 このアイデアに触発され,将来的な軌道予測のための社会関係注意LSTM(SRA-LSTM)モデルを提案する。 歩行者同士の相対的な位置から,その社会的関係の表現を得るために,社会関係エンコーダを設計する。 その後、この一対の歩行者の社会的関係意識を得るために、社会的関係の特徴と潜伏運動が採用される。 ソーシャル・インタラクション・モデリングは,近隣の歩行者の移動情報収集にソーシャル・リレーション・アテンションを活用することで実現される。 2つの公共歩行歩行者映像データセット(ETHとUCY)による実験結果から,本モデルは最先端手法と比較して優れた性能を示した。 他の注意方法との対比実験も社会関係の注意の効果を示す。

Pedestrian trajectory prediction for surveillance video is one of the important research topics in the field of computer vision and a key technology of intelligent surveillance systems. Social relationship among pedestrians is a key factor influencing pedestrian walking patterns but was mostly ignored in the literature. Pedestrians with different social relationships play different roles in the motion decision of target pedestrian. Motivated by this idea, we propose a Social Relationship Attention LSTM (SRA-LSTM) model to predict future trajectories. We design a social relationship encoder to obtain the representation of their social relationship through the relative position between each pair of pedestrians. Afterwards, the social relationship feature and latent movements are adopted to acquire the social relationship attention of this pair of pedestrians. Social interaction modeling is achieved by utilizing social relationship attention to aggregate movement information from neighbor pedestrians. Experimental results on two public walking pedestrian video datasets (ETH and UCY), our model achieves superior performance compared with state-of-the-art methods. Contrast experiments with other attention methods also demonstrate the effectiveness of social relationship attention.
翻訳日:2021-04-01 23:43:56 公開日:2021-03-31
# (参考訳) 資源レベルコンテンツフラグリングの周辺フレームワーク [全文訳有]

A Neighbourhood Framework for Resource-Lean Content Flagging ( http://arxiv.org/abs/2103.17055v1 )

ライセンス: CC BY 4.0
Sheikh Muhammad Sarwar, Dimitrina Zlatkova, Momchil Hardalov, Yoan Dinkov, Isabelle Augenstein, Preslav Nakov(参考訳) 本稿では,予測性能と平均推定時間の両方において,先行作業に優れる言語間コンテンツフラグングのための新しい解釈可能なフレームワークを提案する。 このフレームワークは最寄りのアーキテクチャに基づいており、設計によって解釈可能である。 さらに、スクラッチから再トレーニングする必要なしに、新しいインスタンスに簡単に適応できる。 以前の作業とは異なり、(i)テキストだけでなく、(i)近隣空間のラベルもエンコードし、(ii)クロスエンコーダの代わりにバイエンコーダを使用します(計算時間を節約します)。 8つの言語における乱用言語検出のための10の異なるデータセットに対する評価結果から,その技術に対する大幅な改善と,推論時の高速化が得られた。

We propose a novel interpretable framework for cross-lingual content flagging, which significantly outperforms prior work both in terms of predictive performance and average inference time. The framework is based on a nearest-neighbour architecture and is interpretable by design. Moreover, it can easily adapt to new instances without the need to retrain it from scratch. Unlike prior work, (i) we encode not only the texts, but also the labels in the neighbourhood space (which yields better accuracy), and (ii) we use a bi-encoder instead of a cross-encoder (which saves computation time). Our evaluation results on ten different datasets for abusive language detection in eight languages shows sizable improvements over the state of the art, as well as a speed-up at inference time.
翻訳日:2021-04-01 23:26:10 公開日:2021-03-31
# (参考訳) 圧縮・暗号化データの信頼性検出 [全文訳有]

Reliable Detection of Compressed and Encrypted Data ( http://arxiv.org/abs/2103.17059v1 )

ライセンス: CC BY 4.0
Fabio De Gaspari, Dorjan Hitaj, Giulio Pagnotta, Lorenzo De Carli, Luigi V. Mancini(参考訳) ランサムウェア検出、法医学、データ分析などのいくつかのサイバーセキュリティドメインは、暗号化されたデータの断片を確実に識別する手法を必要とする。 一般に、現在のアプローチでは、暗号化された断片を識別するために、エントロピー推定のようなバイトレベルの分布に由来する統計を用いる。 しかし、現代のコンテンツタイプでは、データ分布を均一な分布に近づける圧縮技術を用いている。 その結果、データセットに圧縮データが現れると、現在のアプローチでは信頼性の低い暗号化検出性能が得られる。 さらに,提案手法は通常,少数のデータ型とフラグメントサイズで評価されるため,実用性の評価が困難である。 本稿では, 大規模で標準化されたデータセットにおける既存の統計的テストを比較し, 大規模および大規模の断片サイズにおいて, 暗号化されたデータと圧縮されたデータを常に区別できないことを示す。 これらの欠点に対処し、圧縮および暗号化されたデータを確実に識別できる学習ベースの分類器であるEnCoDを設計する。 我々は512Bから8KBまでの16種類のファイルタイプとフラグメントサイズのデータセット上でEnCoDを評価する。 以上の結果から,EnCoD は 512B フラグメントの 82 から 8KB のデータフラグメントの 92 までの精度で,現在のアプローチよりも高い性能を示した。 さらに、EnCoDは、以前のアプローチのようにバイナリ分類のみを実行するのではなく、与えられたデータフラグメントの正確なフォーマットを特定できる。

Several cybersecurity domains, such as ransomware detection, forensics and data analysis, require methods to reliably identify encrypted data fragments. Typically, current approaches employ statistics derived from byte-level distribution, such as entropy estimation, to identify encrypted fragments. However, modern content types use compression techniques which alter data distribution pushing it closer to the uniform distribution. The result is that current approaches exhibit unreliable encryption detection performance when compressed data appears in the dataset. Furthermore, proposed approaches are typically evaluated over few data types and fragment sizes, making it hard to assess their practical applicability. This paper compares existing statistical tests on a large, standardized dataset and shows that current approaches consistently fail to distinguish encrypted and compressed data on both small and large fragment sizes. We address these shortcomings and design EnCoD, a learning-based classifier which can reliably distinguish compressed and encrypted data. We evaluate EnCoD on a dataset of 16 different file types and fragment sizes ranging from 512B to 8KB. Our results highlight that EnCoD outperforms current approaches by a wide margin, with accuracy ranging from ~82 for 512B fragments up to ~92 for 8KB data fragments. Moreover, EnCoD can pinpoint the exact format of a given data fragment, rather than performing only binary classification like previous approaches.
翻訳日:2021-04-01 23:07:10 公開日:2021-03-31
# (参考訳) $\alpha$-geodesical Skew Divergence [全文訳有]

$\alpha$-Geodesical Skew Divergence ( http://arxiv.org/abs/2103.17060v1 )

ライセンス: CC BY 4.0
Masanari Kimura and Hideitsu Hino(参考訳) 非対称スキュー発散は、パラメータ $\lambda$ によって決定された次数と他の分布とを混合することによって、分布の1つを滑らかにする。 このような発散はkl発散の近似であり、対象分布がソース分布に関して絶対連続である必要はない。 本稿では,$\alpha$-geodesical skew divergenceと呼ばれるスキュー分岐の情報幾何学的一般化を提案し,その特性について検討する。

The asymmetric skew divergence smooths one of the distributions by mixing it, to a degree determined by the parameter $\lambda$, with the other distribution. Such divergence is an approximation of the KL divergence that does not require the target distribution to be absolutely continuous with respect to the source distribution. In this paper, an information geometric generalization of the skew divergence called the $\alpha$-geodesical skew divergence is proposed, and its properties are studied.
翻訳日:2021-04-01 22:45:05 公開日:2021-03-31
# (参考訳) DA-DETR:ハイブリッドアテンションによるドメイン適応検出変換器 [全文訳有]

DA-DETR: Domain Adaptive Detection Transformer by Hybrid Attention ( http://arxiv.org/abs/2103.17084v1 )

ライセンス: CC BY-SA 4.0
Jingyi Zhang, Jiaxing Huang, Zhipeng Luo, Gongjie Zhang, Shijian Lu(参考訳) ドメイン適応オブジェクト検出における一般的なアプローチは、2段階アーキテクチャ(より高速なr-cnn)を採用しており、多くのハイパーパラメータとアンカー、領域プーリング、非最大抑制などの手作り設計を含んでいる。 このようなアーキテクチャは、機能アライメントの異なる既存のドメイン適応メソッドを採用しながら、非常に複雑にします。 本研究では,単一識別器とドメイン間アライメントを行うシンプルなドメイン適応型オブジェクト検出ネットワークであるDA-DETRを,一段検出器と設計する。 DA-DETRは、ドメイン間の単純かつ効果的なアライメントのために、ハードアライメント機能を明確にピンポイントするハイブリッドアテンションモジュールを導入している。 異なるタイプの機能を持つ複数の敵学習フレームワークを含む高度なルーチンを排除することで、従来のドメイン適応パイプラインを大幅に単純化します。 その単純さにもかかわらず、広範な実験により、DA-DETRは高度に最適化された最先端のアプローチに比べて精度が優れていることが示されている。

The prevalent approach in domain adaptive object detection adopts a two-stage architecture (Faster R-CNN) that involves a number of hyper-parameters and hand-crafted designs such as anchors, region pooling, non-maximum suppression, etc. Such architecture makes it very complicated while adopting certain existing domain adaptation methods with different ways of feature alignment. In this work, we adopt a one-stage detector and design DA-DETR, a simple yet effective domain adaptive object detection network that performs inter-domain alignment with a single discriminator. DA-DETR introduces a hybrid attention module that explicitly pinpoints the hard-aligned features for simple yet effective alignment across domains. It greatly simplifies traditional domain adaptation pipelines by eliminating sophisticated routines that involve multiple adversarial learning frameworks with different types of features. Despite its simplicity, extensive experiments show that DA-DETR demonstrates superior accuracy as compared with highly-optimized state-of-the-art approaches.
翻訳日:2021-04-01 22:30:29 公開日:2021-03-31
# (参考訳) 改良ストローク灌流解析のための微分脱畳法 [全文訳有]

Differentiable Deconvolution for Improved Stroke Perfusion Analysis ( http://arxiv.org/abs/2103.17111v1 )

ライセンス: CC BY 4.0
Ezequiel de la Rosa, David Robben, Diana M. Sima, Jan S. Kirschke, Bjoern Menze(参考訳) 灌流画像は急性期脳梗塞解析の現在の金本位制である。 保存可能な組織領域(それぞれペナムブラとコア領域)の定量化を可能にする。 臨床環境では、特異値分解(SVD)デコンボリューションは、解釈可能で物理的に意味のある地図を生成するための最も受け入れられ、使用されるアプローチの1つである。 この方法は実験および臨床で広く検証されているが、モデルに選択された入力が最適性能を保証できないため、最適でない結果が得られる可能性がある。 最も重要な入力は、動脈入力関数(AIF)であり、この入力に非常に敏感であるにもかかわらず、どのように、どこで選択すべきかはいまだ議論の余地がある。 本研究では,最大コア病変セグメンテーション性能に最適化されたAIF選択手法を提案する。 AIFは、微分可能なSVDデコンボリューションによって最適化されたニューラルネットワークによって回帰され、基底真理データとのコア病変セグメンテーション合意を最大化する。 私たちの知る限り、これはニューラルネットワークで微分可能なデコンボリューションモデルを利用する最初の仕事です。 提案手法は,手動のアノテーションを使わずにAIFを生成することができ,したがって手動レーダの影響を回避できることを示す。 ISLES18データセットで手動のエキスパートパフォーマンスを実現する。 本手法は深部ニューラルネットワークを用いた灌流イメージング量子化の新たな可能性を開く。

Perfusion imaging is the current gold standard for acute ischemic stroke analysis. It allows quantification of the salvageable and non-salvageable tissue regions (penumbra and core areas respectively). In clinical settings, the singular value decomposition (SVD) deconvolution is one of the most accepted and used approaches for generating interpretable and physically meaningful maps. Though this method has been widely validated in experimental and clinical settings, it might produce suboptimal results because the chosen inputs to the model cannot guarantee optimal performance. For the most critical input, the arterial input function (AIF), it is still controversial how and where it should be chosen even though the method is very sensitive to this input. In this work we propose an AIF selection approach that is optimized for maximal core lesion segmentation performance. The AIF is regressed by a neural network optimized through a differentiable SVD deconvolution, aiming to maximize core lesion segmentation agreement with ground truth data. To our knowledge, this is the first work exploiting a differentiable deconvolution model with neural networks. We show that our approach is able to generate AIFs without any manual annotation, and hence avoiding manual rater's influences. The method achieves manual expert performance in the ISLES18 dataset. We conclude that the methodology opens new possibilities for improving perfusion imaging quantification with deep neural networks.
翻訳日:2021-04-01 22:13:52 公開日:2021-03-31
# (参考訳) No Keyword is an Island: In Search of covert associations [全文訳有]

No Keyword is an Island: In search of covert associations ( http://arxiv.org/abs/2103.17114v1 )

ライセンス: CC BY-SA 4.0
V\'aclav Cvr\v{c}ek, Masako Ueda Fidler(参考訳) 本稿では,キーワード(KW)の識別と解釈に基づくコーパス支援談話分析が,KW抽出後の市場バスケット分析(MBA)の活用のメリットについて述べる。 MBAは、もともとマーケティングで使用されるデータマイニング技術で、ショッピングカート内のアイテム間の一貫性のある関連を明らかにするだけでなく、多くのテキストのコーパス内のキーワード間の関連を明らかにすることができる。 KW間の連続的な関連を同定することにより、孤立KWの解釈を妨げる主要な問題であるより広い文脈の欠如を補うことができる(esp)。 大きなデータを分析するとき) リコンテクスト化(re-contextualizing) ”というキーワードでmbaの利点を示すために,反システムと中右チェコのインターネットメディアを対比して,マイグレーションのトピックに関するパイロット研究を行った。 実行されました その結果、mbaは反システムニュースポータルの支配的な戦略を特定するのに有用であることが明らかとなった: 根底にあるイデオロギー的下流に織り込み、移民の概念と多くのトピック(つまり、言論を洪水させる)を結びつける。

This paper describes how corpus-assisted discourse analysis based on keyword (KW) identification and interpretation can benefit from employing Market basket analysis (MBA) after KW extraction. MBA is a data mining technique used originally in marketing that can reveal consistent associations between items in a shopping cart, but also between keywords in a corpus of many texts. By identifying recurring associations between KWs we can compensate for the lack of wider context which is a major issue impeding the interpretation of isolated KWs (esp. when analyzing large data). To showcase the advantages of MBA in "re-contextualizing&q uot; keywords within the discourse, a pilot study on the topic of migration was conducted contrasting anti-system and center-right Czech internet media. was conducted. The results show that MBA is useful in identifying the dominant strategy of anti-system news portals: to weave in a confounding ideological undercurrent and connect the concept of migrants to a multitude of other topics (i.e., flooding the discourse).
翻訳日:2021-04-01 22:04:35 公開日:2021-03-31
# (参考訳) Camouflaged Instance Segmentation: データセットとベンチマークスイート [全文訳有]

Camouflaged Instance Segmentation: Dataset and Benchmark Suite ( http://arxiv.org/abs/2103.17123v1 )

ライセンス: CC BY 4.0
Trung-Nghia Le, Yubo Cao, Tan-Cong Nguyen, Khanh-Duy Nguyen, Thanh-Toan Do, Minh-Triet Tran, Tam V. Nguyen(参考訳) 本稿では, カモフラージュ領域のエンベロープを, 有意義な構成要素, すなわちカモフラージュ領域に分解する。 カモフラージュされたインスタンスセグメンテーションの新たなタスクを促進するため、キャモフラージュされたオブジェクトセグメンテーション(camouflaged object segmentation)を量と多様性の観点から拡張することで、CAMO++と呼ばれる新しい大規模データセットを導入する。 新しいデータセットは、階層的なピクセル単位の地上構造を持つ画像の数を大幅に増加させる。 また、camouflagedインスタンスセグメンテーションのタスクのためのベンチマークスイートも提供します。 特に,新たに構築したCAMO++データセットのさまざまなシナリオにおいて,最先端のインスタンスセグメンテーション検出を広範囲に評価する。 データセット、評価スイート、ベンチマークは、プロジェクトのページで公開されます。

This paper pushes the envelope on camouflaged regions to decompose them into meaningful components, namely, camouflaged instances. To promote the new task of camouflaged instance segmentation, we introduce a new large-scale dataset, namely CAMO++, by extending our preliminary CAMO dataset (camouflaged object segmentation) in terms of quantity and diversity. The new dataset substantially increases the number of images with hierarchical pixel-wise ground-truths. We also provide a benchmark suite for the task of camouflaged instance segmentation. In particular, we conduct extensive evaluation of state-of-the-art instance segmentation detectors on our newly constructed CAMO++ dataset in various scenarios. The dataset, evaluation suite, and benchmark will be publicly available at our project page.
翻訳日:2021-04-01 21:30:50 公開日:2021-03-31
# (参考訳) 線探索から見たSGDの実証的説明 [全文訳有]

Empirically explaining SGD from a line search perspective ( http://arxiv.org/abs/2103.17132v1 )

ライセンス: CC BY 4.0
Maximus Mutschler and Andreas Zell(参考訳) ディープラーニングの最適化は、主にあいまいな直観と強い仮定によって導かれ、これらが実際にどのように機能するかと理由を限定的に理解している。 そこで本研究では,SGD の軌道を線探索の観点から実験的に解析することにより,SGD がどのように振る舞うかをより深く理解する。 具体的には、CIFAR-10のサブセットで訓練された一般的なモデルからSGD軌道に沿ったフルバッチ損失の定量的解析を行う。 当社の中核となる結果は、更新ステップ方向のラインに沿った全バッチ損失が極めてパラボリックであることです。 さらに,SGD が常に全バッチ損失に対してほぼ正確に線探索を行う学習速度が存在することを示す。 最後に、バッチサイズの増加が、学習率を同じ要因で減少させるのとほとんど同じ効果を持つ理由について異なる視点を提供する。

Optimization in Deep Learning is mainly guided by vague intuitions and strong assumptions, with a limited understanding how and why these work in practice. To shed more light on this, our work provides some deeper understandings of how SGD behaves by empirically analyzing the trajectory taken by SGD from a line search perspective. Specifically, a costly quantitative analysis of the full-batch loss along SGD trajectories from common used models trained on a subset of CIFAR-10 is performed. Our core results include that the full-batch loss along lines in update step direction is highly parabolically. Further on, we show that there exists a learning rate with which SGD always performs almost exact line searches on the full-batch loss. Finally, we provide a different perspective why increasing the batch size has almost the same effect as decreasing the learning rate by the same factor.
翻訳日:2021-04-01 20:35:38 公開日:2021-03-31
# (参考訳) SOON: グラフベースの探索によるシナリオ指向オブジェクトナビゲーション [全文訳有]

SOON: Scenario Oriented Object Navigation with Graph-based Exploration ( http://arxiv.org/abs/2103.17138v1 )

ライセンス: CC BY 4.0
Fengda Zhu, Xiwen Liang, Yi Zhu, Xiaojun Chang, Xiaodan Liang(参考訳) 人間のように3Dエンボディ環境のどこからでも、言語誘導されたターゲットに向かって移動できる能力は、インテリジェントなロボットの「ホット・ゴリラ」目標の1つだ。 しかし、ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。 このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。 そこで本稿では,Scenario Oriented Object Navigation (SOON)タスクを紹介する。 このタスクでは、エージェントは3dエンボディ環境において任意の位置からナビゲートし、シーン記述に従ってターゲットをローカライズする必要がある。 この課題を解決するための有望な方向を与えるために,ナビゲーション状態をグラフとしてモデル化する新しいグラフベース探索法(GBE)を提案し,グラフから知識を学習し,準最適軌道学習によるトレーニングを安定化させる新しいグラフベースの探索手法を提案する。 また、Anywhere to Object (FAO) データセットと呼ばれる新しい大規模ベンチマークも提案する。 対象の曖昧さを避けるため、FAOにおける記述は、オブジェクト属性、オブジェクト関係、領域記述、近隣の領域記述を含むリッチなセマンティックシーン情報を提供する。 実験の結果,提案したGBEはFAOとR2Rの両方のデータセット上で,様々な最先端技術よりも優れていることがわかった。 FAOのアブレーション研究は、データセットの品質を検証する。

The ability to navigate like a human towards a language-guided target from anywhere in a 3D embodied environment is one of the 'holy grail' goals of intelligent robots. Most visual navigation benchmarks, however, focus on navigating toward a target from a fixed starting point, guided by an elaborate set of instructions that depicts step-by-step. This approach deviates from real-world problems in which human-only describes what the object and its surrounding look like and asks the robot to start navigation from anywhere. Accordingly, in this paper, we introduce a Scenario Oriented Object Navigation (SOON) task. In this task, an agent is required to navigate from an arbitrary position in a 3D embodied environment to localize a target following a scene description. To give a promising direction to solve this task, we propose a novel graph-based exploration (GBE) method, which models the navigation state as a graph and introduces a novel graph-based exploration approach to learn knowledge from the graph and stabilize training by learning sub-optimal trajectories. We also propose a new large-scale benchmark named From Anywhere to Object (FAO) dataset. To avoid target ambiguity, the descriptions in FAO provide rich semantic scene information includes: object attribute, object relationship, region description, and nearby region description. Our experiments reveal that the proposed GBE outperforms various state-of-the-arts on both FAO and R2R datasets. And the ablation studies on FAO validates the quality of the dataset.
翻訳日:2021-04-01 20:23:15 公開日:2021-03-31
# (参考訳) 自己監督学習の種の起源について [全文訳有]

On the Origin of Species of Self-Supervised Learning ( http://arxiv.org/abs/2103.17143v1 )

ライセンス: CC BY 4.0
Samuel Albanie, Erika Lu, Joao F. Henriques(参考訳) cs.CV、cs.LG、stat.MLの静かなバックウォーターでは、外部の監督を必要としない数学学習システムの原始的なスープから新しい学習システムのコーノコピアが出現している。 これまでのところ、これらの自己監督学習者がどのようにして存在や、継続する多様化を支配する原則へと発展したのか、ほとんど考えられていない。 それぞれの著者がzoom仮想背景を別個のガラパゴス島に設定した、意図的な研究と不適切な判断の期間の後、私たちはこれらの学習機械が、古い種や一般的に絶滅した種の子孫であることに疑いの余地はない。 We make five contributions: (1) We gather and catalogue row-major arrays of machine learning specimens, each exhibiting heritable discriminative features; (2) We document a mutation mechanism by which almost imperceptible changes are introduced to the genotype of new systems, but their phenotype (birdsong in the form of tweets and vestigial plumage such as press releases) communicates dramatic changes; (3) We propose a unifying theory of self-supervised machine evolution and compare to other unifying theories on standard unifying theory benchmarks, where we establish a new (and unifying) state of the art; (4) We discuss the importance of digital biodiversity, in light of the endearingly optimistic Paris Agreement.

In the quiet backwaters of cs.CV, cs.LG and stat.ML, a cornucopia of new learning systems is emerging from a primordial soup of mathematics-learning systems with no need for external supervision. To date, little thought has been given to how these self-supervised learners have sprung into being or the principles that govern their continuing diversification. After a period of deliberate study and dispassionate judgement during which each author set their Zoom virtual background to a separate Galapagos island, we now entertain no doubt that each of these learning machines are lineal descendants of some older and generally extinct species. We make five contributions: (1) We gather and catalogue row-major arrays of machine learning specimens, each exhibiting heritable discriminative features; (2) We document a mutation mechanism by which almost imperceptible changes are introduced to the genotype of new systems, but their phenotype (birdsong in the form of tweets and vestigial plumage such as press releases) communicates dramatic changes; (3) We propose a unifying theory of self-supervised machine evolution and compare to other unifying theories on standard unifying theory benchmarks, where we establish a new (and unifying) state of the art; (4) We discuss the importance of digital biodiversity, in light of the endearingly optimistic Paris Agreement.
翻訳日:2021-04-01 20:07:28 公開日:2021-03-31
# (参考訳) CrowdTeacher: 騒々しい回答によるロバストなコティーチングと語彙データに対するサンプル固有の摂動 [全文訳有]

CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific Perturbations for Tabular Data ( http://arxiv.org/abs/2103.17144v1 )

ライセンス: CC BY 4.0
Mani Sotoodeh, Li Xiong and Joyce C. Ho(参考訳) 基底真理ラベルを持つサンプルは、多くのドメインで常に利用できるとは限らない。 クラウドソーシングラベルから学習する一方で、既存のモデルは、スパース、信頼性の低い、あるいは変更可能なアノテーションの存在下では失敗する可能性がある。 共学習手法は,各バッチにおいて互いに自信を持ったサンプルに基づいて訓練された2つの分類器を用いることで,ノイズラベルによるコンピュータビジョン問題に対する有望な改善を示す。 トレーニングプロセス中に確実なサンプルと不確実なサンプルを分離するというアイデアに触発されて,クラウドソーシング問題に拡張する。 我々のモデルであるcrowdteacherは、入力空間モデルの摂動がノイズラベルの分類器のロバスト性を改善することができるという考えを採用している。 ノイズラベリングの源としてクラウドソーシングアノテーションを扱い、集約されたアノテーションからの確実性に基づいてサンプルを摂動する。 摂動サンプルは、より小さな表データに対応するように調整されたコティーチングアルゴリズムに供給される。 さまざまなラベル密度設定における合成データセットと実データセットの両方に対して、CrowdTeacherを用いて達成した予測能力の向上を示す。 実験の結果,提案手法は個々のアノテーションをモデル化し,それらを組み合わせ,分類器を同時に学習し,真理ラベルを推定する手法と,共通真理推論手法を用いてラベルを集約した共学習アルゴリズムとを併用することがわかった。

Samples with ground truth labels may not always be available in numerous domains. While learning from crowdsourcing labels has been explored, existing models can still fail in the presence of sparse, unreliable, or diverging annotations. Co-teaching methods have shown promising improvements for computer vision problems with noisy labels by employing two classifiers trained on each others' confident samples in each batch. Inspired by the idea of separating confident and uncertain samples during the training process, we extend it for the crowdsourcing problem. Our model, CrowdTeacher, uses the idea that perturbation in the input space model can improve the robustness of the classifier for noisy labels. Treating crowdsourcing annotations as a source of noisy labeling, we perturb samples based on the certainty from the aggregated annotations. The perturbed samples are fed to a Co-teaching algorithm tuned to also accommodate smaller tabular data. We showcase the boost in predictive power attained using CrowdTeacher for both synthetic and real datasets across various label density settings. Our experiments reveal that our proposed approach beats baselines modeling individual annotations and then combining them, methods simultaneously learning a classifier and inferring truth labels, and the Co-teaching algorithm with aggregated labels through common truth inference methods.
翻訳日:2021-04-01 19:55:29 公開日:2021-03-31
# (参考訳) 分割とルール: 少ないリソースでコンテキスト対応のマルチエンコーダ翻訳モデルを訓練する [全文訳有]

Divide and Rule: Training Context-Aware Multi-Encoder Translation Models with Little Resources ( http://arxiv.org/abs/2103.17151v1 )

ライセンス: CC BY 4.0
Lorenzo Lupo, Marco Dinarelli, Laurent Besacier(参考訳) マルチエンコーダモデル(multi-encoder models)は、文章レベルの文脈情報を現在の文と共にエンコードすることで翻訳品質を向上させることを目的とした、コンテキスト認識ニューラルマシン翻訳(nmt)システムの幅広いファミリーである。 コンテキストエンコーディングは、文書レベルのデータに基づいて訓練されたコンテキストパラメータによって行われる。 本研究では,これらのパラメータのトレーニングに大量のデータが必要となることを示す。 そこで本研究では,文ペア分割に基づく効率的な代替手法を提案する。これは,文間の構文的リンクを断ち切ることによって,一連の並列文の訓練信号の強化を可能にする。 BLEUと対照的なテストセットを用いて我々のアプローチを評価し、マルチエンコーダモデルで同等のパフォーマンスを達成できることを示し、文書レベルのデータを$\times10$でトレーニングした。 また、文書レベルの並列データゼロの言語ペアに対して、文脈認識型NMTに対して、我々のアプローチは実行可能な選択肢であることを示す。

Multi-encoder models are a broad family of context-aware Neural Machine Translation (NMT) systems that aim to improve translation quality by encoding document-level contextual information alongside the current sentence. The context encoding is undertaken by contextual parameters, trained on document-level data. In this work, we show that training these parameters takes large amount of data, since the contextual training signal is sparse. We propose an efficient alternative, based on splitting sentence pairs, that allows to enrich the training signal of a set of parallel sentences by breaking intra-sentential syntactic links, and thus frequently pushing the model to search the context for disambiguating clues. We evaluate our approach with BLEU and contrastive test sets, showing that it allows multi-encoder models to achieve comparable performances to a setting where they are trained with $\times10$ document-level data. We also show that our approach is a viable option to context-aware NMT for language pairs with zero document-level parallel data.
翻訳日:2021-04-01 19:44:54 公開日:2021-03-31
# (参考訳) スペクトルデカップリングを用いた医用画像タスクのための堅牢な深層学習モデルの訓練 [全文訳有]

Training robust deep learning models for medical imaging tasks with spectral decoupling ( http://arxiv.org/abs/2103.17171v1 )

ライセンス: CC BY 4.0
Joona Pohjonen, Carolin St\"urenberg, Antti Rannikko, Tuomas Mirtti, Esa Pitk\"anen(参考訳) 深層ニューラルネットワークは、医用イメージングタスクで印象的なパフォーマンスを示す。 しかし、多くの現在のネットワークはトレーニング中、例えば異なるセンターで生成されたデータなど、見過ごせないデータに対して不十分に一般化している。 このような振る舞いは、他の潜在的な情報的特徴を無視しながら、簡単に学習できる、あるいは統計的に支配的な特徴を過度に適合させるネットワークによって引き起こされる。 さらに、支配的な特徴はスプリアス相関の学習につながる可能性がある。 例えば、2つの異なるスキャナによる画像のシャープさの相違は、ネットワークの性能を著しく低下させる可能性がある。 これらの課題に対処するために,医療画像解析におけるスペクトル分離の有用性を評価する。 スペクトルデカップリングは、L2ペナルティでネットワークの非正規化予測スコアを規則化することで、ニューラルネットワークがより多くの機能を学ぶことを奨励する。 シミュレーション実験により、スペクトルデカップリングにより、強いスプリアス相関を持つデータセット上でニューラルネットワークをトレーニングできることが示されている。 スペクトル分離なしでトレーニングされたネットワークは、元のタスクを学習せず、スプリアス相関に基づいて誤った予測をするように見える。 スペクトルデカップリングは、データ分散シフトに対するネットワークの堅牢性を大幅に向上させる。 以上の結果を検証するために,haematoxylinおよびeosinの前立腺癌検出のために,スペクトルデカップリングを伴わずにネットワークを訓練した。 ネットワークは、2つの異なるスキャナーで同じセンターでスキャンされたデータと、別のセンターのデータで評価される。 スペクトルデカップリングで訓練されたネットワークは、異なる中心からのデータセットの重量減衰よりも精度を10パーセント向上させる。 以上の結果から,スペクトルデカップリングにより,複数のセンターにまたがって,汎用的かつ堅牢なニューラルネットワークのトレーニングが可能になることが示唆された。

Deep neural networks show impressive performance in medical imaging tasks. However, many current networks generalise poorly to data unseen during training, for example data generated by different centres. Such behaviour can be caused by networks overfitting easy-to-learn, or statistically dominant, features while disregarding other potentially informative features. Moreover, dominant features can lead to learning spurious correlations. For instance, indistinguishable differences in the sharpness of the images from two different scanners can degrade the performance of the network significantly. To address these challenges, we evaluate the utility of spectral decoupling in the context of medical image analysis. Spectral decoupling encourages the neural network to learn more features by simply regularising the networks' unnormalized prediction scores with an L2 penalty. Simulation experiments show that spectral decoupling allows training neural networks on datasets with strong spurious correlations. Networks trained without spectral decoupling do not learn the original task and appear to make false predictions based on the spurious correlations. Spectral decoupling also significantly increases networks' robustness for data distribution shifts. To validate our findings, we train networks with and without spectral decoupling to detect prostate cancer on haematoxylin and eosin stained whole slide images. The networks are then evaluated with data scanned in the same centre with two different scanners, and data from a different centre. Networks trained with spectral decoupling increase the accuracy by 10 percentage points over weight decay on the dataset from a different centre. Our results show that spectral decoupling allows training generalisable and robust neural networks to be used across multiple centres, and recommend its use in future medical imaging tasks.
翻訳日:2021-04-01 19:26:11 公開日:2021-03-31
# (参考訳) 血腫の分類:セマンティックセグメンテーションと分類の共同学習 [全文訳有]

Classification of Hematoma: Joint Learning of Semantic Segmentation and Classification ( http://arxiv.org/abs/2103.17172v1 )

ライセンス: CC0 1.0
Hokuto Hirano and Tsuyoshi Okita(参考訳) 脳血腫は6~24時間で急速に増殖し、脳外科医が手術を行わなければ、成長の誤予測は致命的となる。 脳血管腫には2種類あり、1つは急速に成長し、もう1つは急速に成長しない。 我々は,CT画像が急速に成長する脳血腫を含むかどうかを判断する人工知能技術を開発している。 この問題は、脳血腫と標的血腫の分類問題において、少数の陽性例が変形可能な対象となっているため、様々な困難がある。 その他の困難は、不均衡分類、共変量シフト、小さなデータ、スプリアス相関問題などである。 VGGのような普通のCNN分類では難しい。 本稿では,意味的セグメンテーションと分類の連成学習を提案し,その性能評価を行う。

Cerebral hematoma grows rapidly in 6-24 hours and misprediction of the growth can be fatal if it is not operated by a brain surgeon. There are two types of cerebral hematomas: one that grows rapidly and the other that does not grow rapidly. We are developing the technique of artificial intelligence to determine whether the CT image includes the cerebral hematoma which leads to the rapid growth. This problem has various difficulties: the few positive cases in this classification problem of cerebral hematoma and the targeted hematoma has deformable object. Other difficulties include the imbalance classification, the covariate shift, the small data, and the spurious correlation problems. It is difficult with the plain CNN classification such as VGG. This paper proposes the joint learning of semantic segmentation and classification and evaluate the performance of this.
翻訳日:2021-04-01 19:16:34 公開日:2021-03-31
# (参考訳) ReLUフィードフォワードニューラルネットワークにおける活性化ヒストグラムを用いたアフィン領域の結合

Using activation histograms to bound the number of affine regions in ReLU feed-forward neural networks ( http://arxiv.org/abs/2103.17174v1 )

ライセンス: CC BY 4.0
Peter Hinz and Sara van de Geer(参考訳) ReLUフィードフォワードニューラルネットワークのアフィン領域の最大値に関するいくつかの電流境界は、階層的活性化ヒストグラム境界に依存するフレームワーク[1]の特別な場合である。 我々は,この枠組みを十分に活用する代数トポロジーの問題を分析し,部分的に解決する。 我々の部分解は、既により狭い境界を誘導し、パラメータ初期化メソッドが領域数にどのように影響するかについての洞察を示唆している。 さらに, 階層的活性化ヒストグラム境界の代わりにサブネットワークの構成を許容するようにフレームワークを拡張し, 結果として生じる境界の強みに悪影響を及ぼす必要成分の数を減らす。

Several current bounds on the maximal number of affine regions of a ReLU feed-forward neural network are special cases of the framework [1] which relies on layer-wise activation histogram bounds. We analyze and partially solve a problem in algebraic topology the solution of which would fully exploit this framework. Our partial solution already induces slightly tighter bounds and suggests insight in how parameter initialization methods can affect the number of regions. Furthermore, we extend the framework to allow the composition of subnetwork instead of layer-wise activation histogram bounds to reduce the number of required compositions which negatively affect the tightness of the resulting bound.
翻訳日:2021-04-01 19:01:18 公開日:2021-03-31
# (参考訳) スタイル変換再考:ピクセルからパラメータ化ブラシストロークへ

Rethinking Style Transfer: From Pixels to Parameterized Brushstrokes ( http://arxiv.org/abs/2103.17185v1 )

ライセンス: CC BY 4.0
Dmytro Kotovenko, Matthias Wright, Arthur Heimbrecht, Bj\"orn Ommer(参考訳) 近年、ニューラル・スタイル・トランスファーの多くの実装が成功している。 これらの作品の多くは、スタイリングプロセスはピクセル領域に限定されている。 しかし、絵は通常ピクセルではなくブラシストロークで構成されているため、この表現は不自然であると主張する。 本稿では,画素の代わりにパラメータ化ブラシストロークを最適化し,画像のスタイリングを行う手法を提案する。 本手法は視覚品質を大幅に改善し,ユーザ入力によるブラシストロークのフロー制御など,スタイライゼーションプロセスのさらなる制御を可能にする。 提案するパラメータ化表現の有効性を示す定性的・定量的評価を行う。

There have been many successful implementations of neural style transfer in recent years. In most of these works, the stylization process is confined to the pixel domain. However, we argue that this representation is unnatural because paintings usually consist of brushstrokes rather than pixels. We propose a method to stylize images by optimizing parameterized brushstrokes instead of pixels and further introduce a simple differentiable rendering mechanism. Our approach significantly improves visual quality and enables additional control over the stylization process such as controlling the flow of brushstrokes through user input. We provide qualitative and quantitative evaluations that show the efficacy of the proposed parameterized representation.
翻訳日:2021-04-01 19:00:28 公開日:2021-03-31
# (参考訳) CNN生成画像検出におけるフーリエスペクトルの類似性について [全文訳有]

A Closer Look at Fourier Spectrum Discrepancies for CNN-generated Images Detection ( http://arxiv.org/abs/2103.17195v1 )

ライセンス: CC BY 4.0
Keshigeyan Chandrasegaran, Ngoc-Trung Tran, Ngai-Man Cheung(参考訳) CNNベースの生成モデリングは、RGBピクセル空間の実際の画像と区別できない合成画像を生成するために進化してきた。 最近の研究では、cnnが生成する画像は、高周波フーリエスペクトル減衰特性を複製する体系的な欠点を共有している。 さらに、これらの研究は、複数の最先端GANモデルに対して最大99%の精度を報告したCNN生成画像を検出するために、この体系的な欠点をうまく活用している。 本研究では,CNN生成画像が高周波スペクトル減衰一貫性を達成できないと主張するアサーションの有効性を検討する。 我々は,dcgan,lsgan,wgan-gp ,starganを用いた手作り実験から得られた,高周波スペクトル減衰一貫性cnn生成画像の反例空間を細心の注意を払って構築した。 その後,この反例空間の画像を用いて,cnn生成画像検出のための高周波フーリエスペクトル減衰特性を利用した最近提案された鑑識検出器をバイパスすることに成功した。 本研究では, 既存のCNNに基づく生成モデルにおいて, 高頻度フーリエスペクトルの減衰差は固有の特性ではなく, 既存の作業の信念とは対照的であり, 合成画像検出を行うには頑健ではないことを示す。 この結果から,CNN生成画像検出に高周波フーリエスペクトル減衰特性を用いて再検討した。 コードとモデルはhttps://keshik6.gith ub.io/Fourier-Discre pancies-CNN-Detectio n/で公開されている。

CNN-based generative modelling has evolved to produce synthetic images indistinguishable from real images in the RGB pixel space. Recent works have observed that CNN-generated images share a systematic shortcoming in replicating high frequency Fourier spectrum decay attributes. Furthermore, these works have successfully exploited this systematic shortcoming to detect CNN-generated images reporting up to 99% accuracy across multiple state-of-the-art GAN models. In this work, we investigate the validity of assertions claiming that CNN-generated images are unable to achieve high frequency spectral decay consistency. We meticulously construct a counterexample space of high frequency spectral decay consistent CNN-generated images emerging from our handcrafted experiments using DCGAN, LSGAN, WGAN-GP and StarGAN, where we empirically show that this frequency discrepancy can be avoided by a minor architecture change in the last upsampling operation. We subsequently use images from this counterexample space to successfully bypass the recently proposed forensics detector which leverages on high frequency Fourier spectrum decay attributes for CNN-generated image detection. Through this study, we show that high frequency Fourier spectrum decay discrepancies are not inherent characteristics for existing CNN-based generative models--contrary to the belief of some existing work--, and such features are not robust to perform synthetic image detection. Our results prompt re-thinking of using high frequency Fourier spectrum decay attributes for CNN-generated image detection. Code and models are available at https://keshik6.gith ub.io/Fourier-Discre pancies-CNN-Detectio n/
翻訳日:2021-04-01 18:59:11 公開日:2021-03-31
# (参考訳) 模擬手術3Dデータからの長時間持続的映像翻訳 [全文訳有]

Long-Term Temporally Consistent Unpaired Video Translation from Simulated Surgical 3D Data ( http://arxiv.org/abs/2103.17204v1 )

ライセンス: CC BY 4.0
Dominik Rivoir, Micha Pfeiffer, Reuben Docea, Fiona Kolbinger, Carina Riediger, J\"urgen Weitz, Stefanie Speidel(参考訳) 非ペアビデオ翻訳の研究は主に、隣接フレームの条件付けによる短期的時間的一貫性に焦点が当てられている。 しかし、シミュレーションからフォトリアリスティックなシーケンスへの転送では、基盤となる幾何学に関する利用可能な情報は、ビュー間のグローバル一貫性を実現する可能性を提供する。 本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。 グローバル学習可能なテクスチャとライティング不変なビューコンシスタンスロスを導入することにより,任意のビューの一貫した翻訳を行い,長期一貫したビデオ合成を可能にする。 最小侵襲の腹部手術シーンから映像シーケンスを生成するためのモデルの設計と試験を行った。 ラベル付きデータは、この領域でしばしば制限されるため、シミュレートされた領域からの基底真理情報が保存されるフォトリアリスティックデータは特に重要である。 既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。 コードとデータは近々公開される予定だ。

Research in unpaired video translation has mainly focused on short-term temporal consistency by conditioning on neighboring frames. However for transfer from simulated to photorealistic sequences, available information on the underlying geometry offers potential for achieving global consistency across views. We propose a novel approach which combines unpaired image translation with neural rendering to transfer simulated to photorealistic surgical abdominal scenes. By introducing global learnable textures and a lighting-invariant view-consistency loss, our method produces consistent translations of arbitrary views and thus enables long-term consistent video synthesis. We design and test our model to generate video sequences from minimally-invasive surgical abdominal scenes. Because labeled data is often limited in this domain, photorealistic data where ground truth information from the simulated domain is preserved is especially relevant. By extending existing image-based methods to view-consistent videos, we aim to impact the applicability of simulated training and evaluation environments for surgical applications. Code and data will be made publicly available soon.
翻訳日:2021-04-01 18:38:40 公開日:2021-03-31
# (参考訳) Verse by Verse による詩構成の増強 [全文訳有]

Augmenting Poetry Composition with Verse by Verse ( http://arxiv.org/abs/2103.17205v1 )

ライセンス: CC BY 4.0
David Uthus, Maria Voitovich, R.J. Mical(参考訳) We describe Verse by Verse, we experiment to a creative process of writing poetry with an AI。 我々は、ユーザーが詩を作曲している間に提案された詩行を提示できる、アメリカの古典詩人に倣ったAI詩人のグループを作成しました。 本稿では,これらの提案を行う基盤となるシステムについて述べる。 これには、オフラインの行の大規模なコーパスを生成してインデックスに格納する生成モデルと、前行の節を与えられたインデックスから次の可能性のある節セットを推奨するデュアルエンコーダモデルが含まれる。

We describe Verse by Verse, our experiment in augmenting the creative process of writing poetry with an AI. We have created a group of AI poets, styled after various American classic poets, that are able to offer as suggestions generated lines of verse while a user is composing a poem. In this paper, we describe the underlying system to offer these suggestions. This includes a generative model, which is tasked with generating a large corpus of lines of verse offline and which are then stored in an index, and a dual-encoder model that is tasked with recommending the next possible set of verses from our index given the previous line of verse.
翻訳日:2021-04-01 18:22:12 公開日:2021-03-31
# (参考訳) 種子画像解析のための有効でフレンドリーなツール [全文訳有]

An effective and friendly tool for seed image analysis ( http://arxiv.org/abs/2103.17213v1 )

ライセンス: CC0 1.0
Andrea Loddo, Cecilia Di Ruberto, A.M.P.G. Vale, Mariano Ucchesu, J.M. Soares, Gianluigi Bacchetta(参考訳) 画像解析は、生物学や植物学などの生命科学の分野において不可欠な分野である。 特に、種子分析(例えば化石研究)は、その進化、農業の歴史、植物の家畜化、古代の食生活に関する知識について重要な情報を提供することができる。 本研究の目的は,種を含む画像から特徴抽出と分類を行うソフトウェアを,新鮮でユニークなフレームワークを通じて提供することである。 具体的には,種子の画像から形態的,テクスチャ的,色彩的特徴を抽出できる2つの\emph{imagej}プラグインと,抽出した特徴を用いて種をカテゴリに分類する2つの方法を提案する。 実験の結果,抽出した特徴と分類予測の正当性と妥当性が示された。 提案手法は画像解析の他の分野にも容易に拡張できる。

Image analysis is an essential field for several topics of life sciences, such as biology or botany. In particular, seeds analysis (e.g., fossil research) can provide significant information about their evolution, the history of agriculture, the domestication of plants, and the knowledge of diets in ancient times. This work aims to present a software that performs an image analysis by feature extraction and classification starting from images containing seeds through a brand new and unique framework. In detail, we propose two \emph{ImageJ} plugins, one capable of extracting morphological, textural, and colour characteristics from images of seeds, and another one to classify the seeds into categories by using the extracted features. The experimental results demonstrated the correctness and validity both of the extracted features and the classification predictions. The proposed tool is easily extendable to other fields of image analysis.
翻訳日:2021-04-01 18:10:56 公開日:2021-03-31
# (参考訳) 非均質な2次元画像コレクションからの深部多グラフマッチングと3次元幾何学習 [全文訳有]

Joint Deep Multi-Graph Matching and 3D Geometry Learning from Inhomogeneous 2D Image Collections ( http://arxiv.org/abs/2103.17229v1 )

ライセンス: CC BY 4.0
Zhenzhang Ye, Tarun Yenamandra, Florian Bernard, Daniel Cremers(参考訳) グラフマッチングは、ノード属性とエッジ属性の両方が一致するように、グラフの頂点間の対応を確立することを目的としている。 近年,深層グラフマッチング式に基づく画像キー点間の対応関係を求めるための学習ベース手法が提案されている。 これらのアプローチは主にノードとエッジ属性の学習に重点を置いているが、基礎となる3Dオブジェクトの3次元幾何学を完全に無視している。 このギャップを埋めるために,グラフニューラルネットワークを活用したトレーニング可能なフレームワークを提案し,不均質な画像コレクションから変形可能な3次元形状モデルを学習する。 同じカテゴリのオブジェクトの異なるインスタンスを描写する画像のセット。 本手法は,精度とサイクルコンシスタンス誤差の両方を考慮し,最近の学習に基づくグラフマッチング手法よりも優れており,さらに2次元画像に表される物体の3次元形状を求める。

Graph matching aims to establish correspondences between vertices of graphs such that both the node and edge attributes agree. Various learning-based methods were recently proposed for finding correspondences between image key points based on deep graph matching formulations. While these approaches mainly focus on learning node and edge attributes, they completely ignore the 3D geometry of the underlying 3D objects depicted in the 2D images. We fill this gap by proposing a trainable framework that takes advantage of graph neural networks for learning a deformable 3D geometry model from inhomogeneous image collections, i.e. a set of images that depict different instances of objects from the same category. Experimentally we demonstrate that our method outperforms recent learning-based approaches for graph matching considering both accuracy and cycle-consistency error, while we in addition obtain the underlying 3D geometry of the objects depicted in the 2D images.
翻訳日:2021-04-01 17:59:41 公開日:2021-03-31
# (参考訳) fanet:バイオメディカル画像セグメンテーション改善のためのフィードバックアテンションネットワーク [全文訳有]

FANet: A Feedback Attention Network for Improved Biomedical Image Segmentation ( http://arxiv.org/abs/2103.17235v1 )

ライセンス: CC BY 4.0
Nikhil Kumar Tomar, Debesh Jha, Michael A. Riegler, H{\aa}vard D. Johansen, Dag Johansen, Jens Rittscher, P{\aa}l Halvorsen, and Sharib Ali(参考訳) 利用可能な大規模臨床および実験データセットの増加に伴い、バイオメディカル画像解析の領域における課題に対処するためのかなりの作業が行われている。 画像分割は、あらゆる定量的解析に不可欠であり、特に注目されている。 最近のハードウェアの進歩は、ディープラーニングアプローチの成功につながった。 しかし、ディープラーニングモデルは大規模データセットでトレーニングされているが、既存の方法は異なる学習時代からの情報を効果的に使用していない。 本研究では,各学習エポックの情報を活用して,その後のエポックの予測マップを作成する。 本稿では,従来のエポックマスクと現在のトレーニングエポックの特徴マップを統一した,フィードバックアテンションネットワーク(fanet)と呼ばれる新しいアーキテクチャを提案する。 前のエポックマスクは、異なる畳み込み層で学習した特徴マップに注意を向けるために使われる。 ネットワークはまた、テスト時間中に反復的な方法で予測を正すこともできる。 提案したフィードバックアテンションモデルは,FANetの有効性を示す7つの公開バイオメディカルイメージングデータセット上でテストされた,ほとんどのセグメンテーション指標を大幅に改善することを示す。

With the increase in available large clinical and experimental datasets, there has been substantial amount of work being done on addressing the challenges in the area of biomedical image analysis. Image segmentation, which is crucial for any quantitative analysis, has especially attracted attention. Recent hardware advancement has led to the success of deep learning approaches. However, although deep learning models are being trained on large datasets, existing methods do not use the information from different learning epochs effectively. In this work, we leverage the information of each training epoch to prune the prediction maps of the subsequent epochs. We propose a novel architecture called feedback attention network (FANet) that unifies the previous epoch mask with the feature map of the current training epoch. The previous epoch mask is then used to provide a hard attention to the learnt feature maps at different convolutional layers. The network also allows to rectify the predictions in an iterative fashion during the test time. We show that our proposed feedback attention model provides a substantial improvement on most segmentation metrics tested on seven publicly available biomedical imaging datasets demonstrating the effectiveness of the proposed FANet.
翻訳日:2021-04-01 17:43:40 公開日:2021-03-31
# (参考訳) Rank- and Sample-Adaptive Tensor Regressionによる高次元不確かさ定量化 [全文訳有]

High-Dimensional Uncertainty Quantification via Rank- and Sample-Adaptive Tensor Regression ( http://arxiv.org/abs/2103.17236v1 )

ライセンス: CC BY 4.0
Zichang He, Zheng Zhang(参考訳) 製造プロセスの変化は、ナノスケール電子回路とフォトニック回路の性能と収率に大きな影響を与える。 確率的スペクトル法は、プロセスの変化の影響を定量化することに成功したが、それらは次元の呪いに苦しめられている。 近年、この問題を軽減するために低ランクテンソル法が開発されているが、テンソルランクを自動的に決定する方法と、適応的に情報シミュレーションサンプルを選択する方法という2つの基本的な課題が残されている。 本稿では,この2つの課題に対処する新しいテンソル回帰法を提案する。 テンソルランクを決定するために、$\ell_{q}/ \ell_{2}$ group-sparsity regularization を用いる。 結果の最適化問題は、交互最小化解法により効率よく解ける。 また,シミュレーションコストを低減できる2段階適応サンプリング法を提案する。 本手法では, 推定ボロノイ細胞量と非線形性測定による探索と搾取の両方について検討する。 提案手法は,100から600のシミュレーションサンプルを用いて,19から100の確率変数による不確かさを十分に把握できる合成回路ベンチマークを用いて検証した。

Fabrication process variations can significantly influence the performance and yield of nano-scale electronic and photonic circuits. Stochastic spectral methods have achieved great success in quantifying the impact of process variations, but they suffer from the curse of dimensionality. Recently, low-rank tensor methods have been developed to mitigate this issue, but two fundamental challenges remain open: how to automatically determine the tensor rank and how to adaptively pick the informative simulation samples. This paper proposes a novel tensor regression method to address these two challenges. We use a $\ell_{q}/ \ell_{2}$ group-sparsity regularization to determine the tensor rank. The resulting optimization problem can be efficiently solved via an alternating minimization solver. We also propose a two-stage adaptive sampling method to reduce the simulation cost. Our method considers both exploration and exploitation via the estimated Voronoi cell volume and nonlinearity measurement respectively. The proposed model is verified with synthetic and some realistic circuit benchmarks, on which our method can well capture the uncertainty caused by 19 to 100 random variables with only 100 to 600 simulation samples.
翻訳日:2021-04-01 17:24:44 公開日:2021-03-31
# (参考訳) ドローンの動画からドローンを検知するdogfight [全文訳有]

Dogfight: Detecting Drones from Drones Videos ( http://arxiv.org/abs/2103.17242v1 )

ライセンス: CC BY 4.0
Muhammad Waseem Ashraf, Waqas Sultani, Mubarak Shah(参考訳) 空飛ぶ車両はより自律的でユビキタスになりつつあり、周囲の物体を検出する能力を開発することが不可欠になっている。 本稿では,他の飛行ドローンからドローンを検知する問題に対処する。 ソースとターゲットドローンの不安定な動き、小さなサイズ、任意の形状、大きな強度の変化、そして閉塞がこの問題をかなり難しくしている。 このシナリオでは、地域固有法は十分な差別的前景情報をキャプチャできない。 また、ソースとターゲットドローンの非常に小さなサイズと複雑な動きのため、特徴集約ベースの手法はうまく動作できない。 これに対処するために, 空間分布に基づく手法ではなく, 時空間的注意の手がかりを用いた2段階セグメンテーションに基づく手法を提案する。 最初の段階では、重なり合うフレーム領域を考慮し、ピラミッドプールを用いた畳み込み特徴マップ上で詳細なコンテキスト情報をキャプチャする。 その後、特徴マップに画素やチャネルに関する注意を向け、正確なドローンのローカライゼーションを保証する。 第2段階では、第1段階の検出が検証され、新しい観測可能なドローンの位置が探索される。 新しいドローンの場所を見つけるために、モーションバウンダリが使用される。 続いて、数フレームのドローン検出候補の追跡、立方体形成、3D畳み込み特徴マップの抽出、および各立方体内のドローン検出が続く。 提案手法は2つのドローン検出データセットで評価され、いくつかの競合ベースラインを上回っている。

As airborne vehicles are becoming more autonomous and ubiquitous, it has become vital to develop the capability to detect the objects in their surroundings. This paper attempts to address the problem of drones detection from other flying drones. The erratic movement of the source and target drones, small size, arbitrary shape, large intensity variations, and occlusion make this problem quite challenging. In this scenario, region-proposal based methods are not able to capture sufficient discriminative foreground-backgroun d information. Also, due to the extremely small size and complex motion of the source and target drones, feature aggregation based methods are unable to perform well. To handle this, instead of using region-proposal based methods, we propose to use a two-stage segmentation-based approach employing spatio-temporal attention cues. During the first stage, given the overlapping frame regions, detailed contextual information is captured over convolution feature maps using pyramid pooling. After that pixel and channel-wise attention is enforced on the feature maps to ensure accurate drone localization. In the second stage, first stage detections are verified and new probable drone locations are explored. To discover new drone locations, motion boundaries are used. This is followed by tracking candidate drone detections for a few frames, cuboid formation, extraction of the 3D convolution feature map, and drones detection within each cuboid. The proposed approach is evaluated on two publicly available drone detection datasets and outperforms several competitive baselines.
翻訳日:2021-04-01 17:02:32 公開日:2021-03-31
# (参考訳) デジタルツイン型災害管理システムの提案:dt-dms [全文訳有]

Digital Twin Based Disaster Management System Proposal: DT-DMS ( http://arxiv.org/abs/2103.17245v1 )

ライセンス: CC BY 4.0
\"Ozg\"ur Dogan, Oguzhan Sahin, Enis Karaarslan(参考訳) 都市化の進展に伴い、自然災害の被害と影響はますます破壊されつつある。 今日の大都市は、前と後の状況に十分対応できていない。 デジタルツイン技術は解決策を提供することができる。 物理的な都市の仮想コピーは、IoT(Internet of Things)デバイスのセンサーからデータを収集してクラウドインフラストラクチャに格納することで作成することができる。 この仮想コピーは、センサーから来るデータの連続的な流れとともに、現在および最新に保持される。 本稿では,DT-DMSと呼ばれる機械学習を利用した災害管理システムを提案する。 本研究の目的は, 仮想コピーによる災害状況のシミュレーションにより, 救急センター職員の教育・準備方法を示すことである。 災害の出来事をシミュレートし、緊急センターのスタッフが意思決定を行い、これらの決定の潜在的な結果を記述する。 地震後の救助活動がシミュレーションされます。 テスト結果は有望であり、シミュレーション範囲は拡張される予定である。

The damage and the impact of natural disasters are becoming more destructive with the increase of urbanization. Today's metropolitan cities are not sufficiently prepared for the pre and post-disaster situations. Digital Twin technology can provide a solution. A virtual copy of the physical city could be created by collecting data from sensors of the Internet of Things (IoT) devices and stored on the cloud infrastructure. This virtual copy is kept current and up to date with the continuous flow of the data coming from the sensors. We propose a disaster management system utilizing machine learning called DT-DMS is used to support decision-making mechanisms. This study aims to show how to educate and prepare emergency center staff by simulating potential disaster situations on the virtual copy. The event of a disaster will be simulated allowing emergency center staff to make decisions and depicting the potential outcomes of these decisions. A rescue operation after an earthquake is simulated. Test results are promising and the simulation scope is planned to be extended.
翻訳日:2021-04-01 16:49:37 公開日:2021-03-31
# (参考訳) StyleCLIP: StyleGANイメージのテキスト駆動操作 [全文訳有]

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery ( http://arxiv.org/abs/2103.17249v1 )

ライセンス: CC BY 4.0
Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski(参考訳) 様々な領域で高度にリアルな画像を生成できるStyleGANの能力に触発された最近の研究は、StyleGANの潜在空間を使って生成された実画像を操作する方法を理解することに重点を置いている。 しかし、意味的に意味のある潜伏操作を見つけるには、通常、多くの自由度を人間で検査することや、所望の操作ごとに注釈付き画像の収集が必要となる。 本研究では,最近導入されたContrastive Language-Image Pre-Training (CLIP) モデルのパワーを活用し,手作業を必要としないスタイルGAN画像操作のためのテキストベースインタフェースを開発する。 まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。 次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。 最後に,スタイルガンのスタイル空間における入力非依存な方向に対してテキストプロンプトをマッピングする方法を提案する。 広範な結果と比較は、我々のアプローチの有効性を示しています。

Inspired by the ability of StyleGAN to generate highly realistic images in a variety of domains, much recent work has focused on understanding how to use the latent spaces of StyleGAN to manipulate generated and real images. However, discovering semantically meaningful latent manipulations typically involves painstaking human examination of the many degrees of freedom, or an annotated collection of images for each desired manipulation. In this work, we explore leveraging the power of recently introduced Contrastive Language-Image Pre-training (CLIP) models in order to develop a text-based interface for StyleGAN image manipulation that does not require such manual effort. We first introduce an optimization scheme that utilizes a CLIP-based loss to modify an input latent vector in response to a user-provided text prompt. Next, we describe a latent mapper that infers a text-guided latent manipulation step for a given input image, allowing faster and more stable text-based manipulation. Finally, we present a method for mapping a text prompts to input-agnostic directions in StyleGAN's style space, enabling interactive text-driven image manipulation. Extensive results and comparisons demonstrate the effectiveness of our approaches.
翻訳日:2021-04-01 16:43:00 公開日:2021-03-31
# (参考訳) 単語アライメントのためのニューラルマシン翻訳の活用 [全文訳有]

Leveraging Neural Machine Translation for Word Alignment ( http://arxiv.org/abs/2103.17250v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar and Daria Pylypenko(参考訳) ワードアライメントの最も一般的なツールは、大量の並列文に依存しており、通常はIBMモデルアルゴリズムの1つに従って処理される。 しかし、トレーニングデータは機械翻訳(MT)システムと同じであり、特にニューラルMT(NMT)は、訓練された注意頭を用いて単語アライメントを生成できる。 これは、単語アライメントが理論的にはどの注意に基づくNMTの副産物であり、翻訳された文対に対してデコーダスコアを提供することができるため便利である。 単語アライメントをアライメントスコアから抽出する方法をまとめた上で,出力文とトークン確率に基づいて単語アライメントスコアを推定することに着目し,NMTからスコアを抽出する方法を探る。 これを注意からのアライメントスコアの抽出と比較する。 その結果,全てのアライメントスコアを単純なフィードフォワードネットワークに集約し,アライメント抽出器を併用した場合に最適な結果が得られることがわかった。

The most common tools for word-alignment rely on a large amount of parallel sentences, which are then usually processed according to one of the IBM model algorithms. The training data is, however, the same as for machine translation (MT) systems, especially for neural MT (NMT), which itself is able to produce word-alignments using the trained attention heads. This is convenient because word-alignment is theoretically a viable byproduct of any attention-based NMT, which is also able to provide decoder scores for a translated sentence pair. We summarize different approaches on how word-alignment can be extracted from alignment scores and then explore ways in which scores can be extracted from NMT, focusing on inferring the word-alignment scores based on output sentence and token probabilities. We compare this to the extraction of alignment scores from attention. We conclude with aggregating all of the sources of alignment scores into a simple feed-forward network which achieves the best results when combined alignment extractors are used.
翻訳日:2021-04-01 16:25:00 公開日:2021-03-31
# (参考訳) ビデオ専用オートエンコーダによるビデオ探索

Video Exploration via Video-Specific Autoencoders ( http://arxiv.org/abs/2103.17261v1 )

ライセンス: CC BY 4.0
Kevin Wang and Deva Ramanan and Aayush Bansal(参考訳) 本稿では,人間制御可能なビデオ探索が可能な簡易なビデオ専用オートエンコーダを提案する。 これには、空間的および時間的超解像、空間的および時間的編集、オブジェクトの除去、ビデオテクスチャ、平均的なビデオ探索、ビデオ内およびビデオ間の対応推定など、多種多様な分析タスクが含まれる。 先行研究はこれらの問題をそれぞれ独立に検討し、異なる定式化を提案した。 本研究では,特定のビデオの複数のフレーム上で(スクラッチから)訓練された単純なオートエンコーダにより,多様なビデオ処理や編集作業を行うことができることを示す。 1) オートエンコーダが学習した潜時符号はその映像の空間的および時間的特性をキャプチャし、(2) オートエンコーダはビデオ固有の多様体にアウトオブサンプル入力を投影することができる。 例えば、 1) 潜伏符号の補間は時間的超解像およびユーザ制御可能な映像テクスチャを可能にし, (2) 空間的超解像, 物体除去, デノベーションをタスクの訓練なしに実現している。 重要なことに、プリンシパルコンポーネント分析による潜在コードの二次元可視化は、ユーザーがビデオ編集を視覚化し、直感的に制御するためのツールとして機能する。 最後に,我々のアプローチと先行技術とを定量的に比較し,監督やタスク固有の知識がなければ,タスクに特化して訓練された教師付きアプローチと相容れないことが判明した。

We present simple video-specific autoencoders that enables human-controllable video exploration. This includes a wide variety of analytic tasks such as (but not limited to) spatial and temporal super-resolution, spatial and temporal editing, object removal, video textures, average video exploration, and correspondence estimation within and across videos. Prior work has independently looked at each of these problems and proposed different formulations. In this work, we observe that a simple autoencoder trained (from scratch) on multiple frames of a specific video enables one to perform a large variety of video processing and editing tasks. Our tasks are enabled by two key observations: (1) latent codes learned by the autoencoder capture spatial and temporal properties of that video and (2) autoencoders can project out-of-sample inputs onto the video-specific manifold. For e.g. (1) interpolating latent codes enables temporal super-resolution and user-controllable video textures; (2) manifold reprojection enables spatial super-resolution, object removal, and denoising without training for any of the tasks. Importantly, a two-dimensional visualization of latent codes via principal component analysis acts as a tool for users to both visualize and intuitively control video edits. Finally, we quantitatively contrast our approach with the prior art and found that without any supervision and task-specific knowledge, our approach can perform comparably to supervised approaches specifically trained for a task.
翻訳日:2021-04-01 16:11:24 公開日:2021-03-31
# (参考訳) 高分解能編集可能な3次元テクスチャの半教師付き合成 [全文訳有]

Semi-supervised Synthesis of High-Resolution Editable Textures for 3D Humans ( http://arxiv.org/abs/2103.17266v1 )

ライセンス: CC BY 4.0
Bindita Chaudhuri, Nikolaos Sarafianos, Linda Shapiro, Tony Tung(参考訳) 半教師付き構成で3次元メッシュの多彩な高忠実度テクスチャマップを生成する新しい手法を提案する。 テクスチャマップのセマンティクス領域のレイアウトを定義するセグメンテーションマスクが与えられると、ネットワークは様々なスタイルで高解像度のテクスチャを生成し、レンダリングのために使用します。 そこで本研究では,各領域のパターンの確率分布を個別に学習する領域適応型逆変分オートエンコーダ(reavae)を提案する。 さらに,single-view rgb入力から取得したデータを用いて,トレーニングセットを増強するデータ生成手法を提案する。 我々のトレーニング戦略は、仮想的なAR/VRアプリケーションに有用なプロパティである、異なる領域の任意のスタイルに参照イメージスタイルを混ぜることを可能にします。 実験の結果,従来の作業と比較してテクスチャマップを合成し,独立したレイアウトとスタイル制御を可能にした。

We introduce a novel approach to generate diverse high fidelity texture maps for 3D human meshes in a semi-supervised setup. Given a segmentation mask defining the layout of the semantic regions in the texture map, our network generates high-resolution textures with a variety of styles, that are then used for rendering purposes. To accomplish this task, we propose a Region-adaptive Adversarial Variational AutoEncoder (ReAVAE) that learns the probability distribution of the style of each region individually so that the style of the generated texture can be controlled by sampling from the region-specific distributions. In addition, we introduce a data generation technique to augment our training set with data lifted from single-view RGB inputs. Our training strategy allows the mixing of reference image styles with arbitrary styles for different regions, a property which can be valuable for virtual try-on AR/VR applications. Experimental results show that our method synthesizes better texture maps compared to prior work while enabling independent layout and style controllability.
翻訳日:2021-04-01 16:09:07 公開日:2021-03-31
# (参考訳) DCVNet:高速光フローのための拡張コストボリュームネットワーク [全文訳有]

DCVNet: Dilated Cost Volume Networks for Fast Optical Flow ( http://arxiv.org/abs/2103.17271v1 )

ライセンス: CC BY 4.0
Huaizu Jiang, Erik Learned-Miller(参考訳) 2つの入力画像にまたがる対応の類似性を捉えるコストボリュームは、最先端光フローアプローチの重要な要素である。 コストボリュームを構築するための対応をサンプリングする場合、大きな変位に対処するために大きな近傍半径が必要となり、かなりの計算負荷がかかる。 これを解決するために、通常は、半径が小さい局所地区での対応サンプリングを行うシーケンシャル戦略が採用されている。 しかし、このようなシーケンシャルなアプローチは、ディープニューラルネットワークの特徴階層上のピラミッド構造か、あるいはリカレントニューラルネットワークによってインスタンス化され、コストボリュームのシーケンシャルな処理を必要とするため、遅い。 本稿では,小型かつ大規模な変位を同時に捉えるための拡張コストボリュームを提案し,逐次推定戦略を必要とせず,光学的フロー推定を可能にする。 コストボリュームを処理して画素単位の光学的フローを得るため、既存のアプローチでは2Dまたは分離可能な4D畳み込みを採用しており、これは高いGPUメモリ消費、低い精度、または大きなモデルサイズに悩まされていることを示す。 そこで,本稿では3次元畳み込みを用いたコストボリュームフィルタリングを提案する。 拡張コストボリュームと3D畳み込みを組み合わせることで、提案モデルDCVNetはリアルタイム推論(中間1080ti GPUで71fps)だけでなく、コンパクトで既存のアプローチと同等の精度が得られる。

The cost volume, capturing the similarity of possible correspondences across two input images, is a key ingredient in state-of-the-art optical flow approaches. When sampling for correspondences to build the cost volume, a large neighborhood radius is required to deal with large displacements, introducing a significant computational burden. To address this, a sequential strategy is usually adopted, where correspondence sampling in a local neighborhood with a small radius suffices. However, such sequential approaches, instantiated by either a pyramid structure over a deep neural network's feature hierarchy or by a recurrent neural network, are slow due to the inherent need for sequential processing of cost volumes. In this paper, we propose dilated cost volumes to capture small and large displacements simultaneously, allowing optical flow estimation without the need for the sequential estimation strategy. To process the cost volume to get pixel-wise optical flow, existing approaches employ 2D or separable 4D convolutions, which we show either suffer from high GPU memory consumption, inferior accuracy, or large model size. Therefore, we propose using 3D convolutions for cost volume filtering to address these issues. By combining the dilated cost volumes and 3D convolutions, our proposed model DCVNet not only exhibits real-time inference (71 fps on a mid-end 1080ti GPU) but is also compact and obtains comparable accuracy to existing approaches.
翻訳日:2021-04-01 15:53:53 公開日:2021-03-31
# (参考訳) 深層強化学習におけるアルゴリズムと実装の共適応:推論に基づくアルゴリズムの分類と事例研究 [全文訳有]

Identifying Co-Adaptation of Algorithmic and Implementational Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of Inference-based Algorithms ( http://arxiv.org/abs/2103.17258v1 )

ライセンス: CC BY 4.0
Hiroki Furuta, Tadashi Kozuno, Tatsuya Matsushima, Yutaka Matsuo, Shixiang Shane Gu(参考訳) 近年,関数近似による強化学習 (rl) のために多くのアルゴリズムが考案されている。 明確なアルゴリズムの区別はあるが、アルゴリズムに依存しない時に微妙な実装の違いも多い。 このようなアルゴリズムのノベルティと実装の職人技の混合は、パフォーマンス改善の源泉の厳密な分析を困難にしている。 本研究では,アルゴリズムの革新と実装決定を分離するために,一連の推論に基づくアクタ批判アルゴリズム(MPO, AWR, SAC)に焦点を当てる。 本稿では,単一制御-参照目的による統一導出について述べる。各アルゴリズムを期待-最大化(EM)または直接KL(Kulback-Leibler)の発散最小化に基づいて分類し,残りの仕様を実装詳細として扱う。 我々は広範なアブレーション研究を行い,実装の詳細がアルゴリズム選択と一致しない場合,性能低下の程度を確認した。 これらの結果は、実装の詳細がアルゴリズムと共適応され、アルゴリズム間で転送可能であることを示す。例えば、タンのポリシーとネットワークサイズがアルゴリズム型に高度に適応しているのに対し、層正規化とELUはMPOの性能には重要であり、SACの顕著な利得にも変換可能である。 私たちの研究が将来の成果を刺激して、複数のアルゴリズムにわたるパフォーマンス改善の源をさらに深め、研究者がアルゴリズムと実装の両方のイノベーションに基づいて構築できることを願っています。

Recently many algorithms were devised for reinforcement learning (RL) with function approximation. While they have clear algorithmic distinctions, they also have many implementation differences that are algorithm-agnostic and sometimes subtle. Such mixing of algorithmic novelty and implementation craftsmanship makes rigorous analyses of the sources of performance improvements difficult. In this work, we focus on a series of inference-based actor-critic algorithms -- MPO, AWR, and SAC -- to decouple their algorithmic innovations and implementation decisions. We present unified derivations through a single control-as-inference objective, where we can categorize each algorithm as based on either Expectation-Maximiza tion (EM) or direct Kullback-Leibler (KL) divergence minimization and treat the rest of specifications as implementation details. We performed extensive ablation studies, and identified substantial performance drops whenever implementation details are mismatched for algorithmic choices. These results show which implementation details are co-adapted and co-evolved with algorithms, and which are transferable across algorithms: as examples, we identified that tanh policy and network sizes are highly adapted to algorithmic types, while layer normalization and ELU are critical for MPO's performances but also transfer to noticeable gains in SAC. We hope our work can inspire future work to further demystify sources of performance improvements across multiple algorithms and allow researchers to build on one another's both algorithmic and implementational innovations.
翻訳日:2021-04-01 15:18:34 公開日:2021-03-31
# clonebot: パーソナライズされた対話応答予測

CloneBot: Personalized Dialogue-Response Predictions ( http://arxiv.org/abs/2103.16750v1 )

ライセンス: Link先を確認
Tyler Weitzman and Hoon Pyo (Tim) Jeon(参考訳) 我々のプロジェクト課題は、話者ID、チャット履歴、発話クエリが与えられた場合、会話中の応答発話を予測できるモデルを作成することであった。 モデルは各話者にパーソナライズされる。 このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。 さらに,対話履歴からの長期的参照を必要とする場合,ニューラルネットワークモデルの入力制限を克服するための有用な戦略である,関連する対話コンテキストを検索するために,高密度ベクトル符号化クラスタリングを用いることに成功している。 本稿では,トランスフォーマーアーキテクチャとスイッチボードコーパス用マルチヘッドアテンションブロックを用いた事前学習と微調整技術を用いた最先端モデルを実装した。 また,学習を必要とせず,オフラインおよび暗号化されたメッセージ履歴を扱うリアルタイム発話予測に,ベクトルクラスタリングアルゴリズムがいかに効率的かを示す。

Our project task was to create a model that, given a speaker ID, chat history, and an utterance query, can predict the response utterance in a conversation. The model is personalized for each speaker. This task can be a useful tool for building speech bots that talk in a human-like manner in a live conversation. Further, we succeeded at using dense-vector encoding clustering to be able to retrieve relevant historical dialogue context, a useful strategy for overcoming the input limitations of neural-based models when predictions require longer-term references from the dialogue history. In this paper, we have implemented a state-of-the-art model using pre-training and fine-tuning techniques built on transformer architecture and multi-headed attention blocks for the Switchboard corpus. We also show how efficient vector clustering algorithms can be used for real-time utterance predictions that require no training and therefore work on offline and encrypted message histories.
翻訳日:2021-04-01 14:50:46 公開日:2021-03-31
# より良い初期化と短いウォームアップによる高速認定ロバストトレーニング

Fast Certified Robust Training via Better Initialization and Shorter Warmup ( http://arxiv.org/abs/2103.17268v1 )

ライセンス: Link先を確認
Zhouxing Shi, Yihan Wang, Huan Zhang, Jinfeng Yi, Cho-Jui Hsieh(参考訳) 近年,有界伝播に基づく認証逆防御法が,堅牢性を保証するニューラルネットワークのトレーニングのために提案されている。 インターバルバウンド伝搬(IBP)やCROWN-IBPといった最先端(SOTA)の手法は、標準的なニューラルネットワークトレーニングと同様のバッチ単位のトレーニング複雑性を持つが、SOTAのパフォーマンスに到達するには、通常は数百から数千のエポックで長いウォームアップスケジュールが必要であるため、トレーニングには依然として非常にコストがかかる。 本稿では,Xavierや直交初期化などの先行研究で採用されている重み初期化が,もともと標準ネットワークトレーニング用に設計されたもので,初期化時に非常に緩やかに認証された境界が生じるため,より長いウォームアップスケジュールを使わなければならないことを明らかにする。 また,IPPに基づくトレーニングがReLUアクティベーション状態の大幅な不均衡を招き,モデル性能を損なう可能性がある。 以上の結果から,新しいipp初期化法とウォームアップ段階における基本正規化法を導出し,初期化とウォームアップ段階の認定境界を安定化し,ウォームアップスケジュールを大幅に短縮し,relu活性化状態のバランスを改善する。 さらに、バッチ正規化(BN)は、境界分散の安定化とReLUアクティベーション状態の均衡を支援するため、認証された防御のために最高の性能のネットワークを構築する上で重要なアーキテクチャ要素であることがわかった。 提案する初期化,正規化,アーキテクチャ変更を組み合わせることで,cifar-10 (\epsilon=\frac{8}{255}$) の65.03%,tinyimagenetの82.13% (\epsilon=\frac{1}{255}$) の検証エラーを非常に短いトレーニングスケジュール (160 と 80 つの総エポック) で取得することが可能となり,数百 から000 のエポックでトレーニングされた文献よりも優れています。

Recently, bound propagation based certified adversarial defense have been proposed for training neural networks with certifiable robustness guarantees. Despite state-of-the-art (SOTA) methods including interval bound propagation (IBP) and CROWN-IBP have per-batch training complexity similar to standard neural network training, to reach SOTA performance they usually need a long warmup schedule with hundreds or thousands epochs and are thus still quite costly for training. In this paper, we discover that the weight initialization adopted by prior works, such as Xavier or orthogonal initialization, which was originally designed for standard network training, results in very loose certified bounds at initialization thus a longer warmup schedule must be used. We also find that IBP based training leads to a significant imbalance in ReLU activation states, which can hamper model performance. Based on our findings, we derive a new IBP initialization as well as principled regularizers during the warmup stage to stabilize certified bounds during initialization and warmup stage, which can significantly reduce the warmup schedule and improve the balance of ReLU activation states. Additionally, we find that batch normalization (BN) is a crucial architectural element to build best-performing networks for certified defense, because it helps stabilize bound variance and balance ReLU activation states. With our proposed initialization, regularizers and architectural changes combined, we are able to obtain 65.03% verified error on CIFAR-10 ($\epsilon=\frac{8}{255}$) and 82.13% verified error on TinyImageNet ($\epsilon=\frac{1}{255}$) using very short training schedules (160 and 80 total epochs, respectively), outperforming literature SOTA trained with a few hundreds or thousands epochs.
翻訳日:2021-04-01 14:50:31 公開日:2021-03-31
# 気を付けて! 深層学習における神経注意モデルの検討

Attention, please! A survey of Neural Attention Models in Deep Learning ( http://arxiv.org/abs/2103.16775v1 )

ライセンス: Link先を確認
Alana de Santana Correia, Esther Luna Colombini(参考訳) 人間では、注意は知覚と認知の全ての操作の中核的な性質である。 競合するソースを処理する能力に制限があるため、アテンションメカニズムは行動に最も関係のある情報を選択し、調整し、フォーカスする。 何十年もの間、哲学、心理学、神経科学、計算の分野で注目される概念と機能が研究されてきた。 この6年間、この性質はディープニューラルネットワークで広く研究されてきた。 現在、Deep Learningの最先端技術は、いくつかのアプリケーションドメインにおけるニューラルアテンションモデルによって表現されている。 本調査は,神経注意モデルにおける発達の包括的概要と解析を提供する。 我々は、この領域における数百のアーキテクチャを体系的にレビューし、注目が大きな影響を与えているアーキテクチャを特定し、議論した。 また,この領域におけるレビューの展開を容易にするための自動化手法を開発し,公開した。 650の作品を批判的に分析することにより,畳み込み,再帰的ネットワーク,生成モデルにおける注意の第一の用途を説明し,用途と応用の共通部分群を同定する。 さらに、異なるアプリケーション領域における注意の影響と、ニューラルネットワークの解釈可能性への影響について述べる。 最後に、今後の研究動向と機会をリストアップし、このレビューがこの地域の主な注目モデルの概要を簡潔に提供し、さらなる改善を促す将来のアプローチの開発に研究者を導くことを期待する。

In humans, Attention is a core property of all perceptual and cognitive operations. Given our limited ability to process competing sources, attention mechanisms select, modulate, and focus on the information most relevant to behavior. For decades, concepts and functions of attention have been studied in philosophy, psychology, neuroscience, and computing. For the last six years, this property has been widely explored in deep neural networks. Currently, the state-of-the-art in Deep Learning is represented by neural attention models in several application domains. This survey provides a comprehensive overview and analysis of developments in neural attention models. We systematically reviewed hundreds of architectures in the area, identifying and discussing those in which attention has shown a significant impact. We also developed and made public an automated methodology to facilitate the development of reviews in the area. By critically analyzing 650 works, we describe the primary uses of attention in convolutional, recurrent networks and generative models, identifying common subgroups of uses and applications. Furthermore, we describe the impact of attention in different application domains and their impact on neural networks' interpretability. Finally, we list possible trends and opportunities for further research, hoping that this review will provide a succinct overview of the main attentional models in the area and guide researchers in developing future approaches that will drive further improvements.
翻訳日:2021-04-01 14:49:04 公開日:2021-03-31
# In-The-Wild」ヒューマンビデオからの一般化可能なロボットリワード関数の学習

Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human Videos ( http://arxiv.org/abs/2103.16817v1 )

ライセンス: Link先を確認
Annie S. Chen, Suraj Nair, Chelsea Finn(参考訳) 私たちは、様々な環境にまたがって幅広いタスクをこなせる汎用ロボットの目標に動機付けられています。 これに対して重要なのが、ロボットがタスクの成功や報酬のメトリクスを取得する能力であり、これは強化学習や計画、いつ助けを求めるべきかを知るのに必要である。 現実世界で動作している汎用ロボットの場合、この報酬機能は、オンボードセンサーの観測(例えば)のみに依存しながら、環境、タスク、オブジェクトにまたがって広く一般化することもできます。 RGB画像)。 大規模で多様なデータセットのディープラーニングは、コンピュータビジョンや自然言語の一般化への道のりとして期待されているが、大規模なロボットインタラクションの高品質なデータセットの収集は依然としてオープンな課題である。 対照的に、人間(例えば、)の「夢の中の」ビデオ。 YouTube)には、さまざまな設定で興味深いタスクを行う人々の大規模なコレクションが含まれています。 本研究では,2つの映像が同じタスクを遂行しているかどうかを識別する識別器を訓練することにより,マルチタスク報酬関数を学習し,少数のロボットデータから人間のビデオの広いデータセットで学習することにより一般化する,シンプルな手法であるドメイン非依存ビデオ判別器(dvd)を提案する。 多様な人間のデータセットを活用することで、(a)この報酬関数はゼロショットを未知の環境に一般化し、(b)ゼロショットを未知のタスクに一般化し、(c)視覚モデル予測制御と組み合わせて、実のWidowX200ロボット上のロボット操作タスクを、単一の人間のデモから解決することができる。

We are motivated by the goal of generalist robots that can complete a wide range of tasks across many environments. Critical to this is the robot's ability to acquire some metric of task success or reward, which is necessary for reinforcement learning, planning, or knowing when to ask for help. For a general-purpose robot operating in the real world, this reward function must also be able to generalize broadly across environments, tasks, and objects, while depending only on on-board sensor observations (e.g. RGB images). While deep learning on large and diverse datasets has shown promise as a path towards such generalization in computer vision and natural language, collecting high quality datasets of robotic interaction at scale remains an open challenge. In contrast, "in-the-wild" videos of humans (e.g. YouTube) contain an extensive collection of people doing interesting tasks across a diverse range of settings. In this work, we propose a simple approach, Domain-agnostic Video Discriminator (DVD), that learns multitask reward functions by training a discriminator to classify whether two videos are performing the same task, and can generalize by virtue of learning from a small amount of robot data with a broad dataset of human videos. We find that by leveraging diverse human datasets, this reward function (a) can generalize zero shot to unseen environments, (b) generalize zero shot to unseen tasks, and (c) can be combined with visual model predictive control to solve robotic manipulation tasks on a real WidowX200 robot in an unseen environment from a single human demo.
翻訳日:2021-04-01 14:48:44 公開日:2021-03-31
# Bit-Mixer:実行時ビット幅選択を伴う混合精度ネットワーク

Bit-Mixer: Mixed-precision networks with runtime bit-width selection ( http://arxiv.org/abs/2103.17267v1 )

ライセンス: Link先を確認
Adrian Bulat and Georgios Tzimiropoulos(参考訳) 混合精度ネットワークは、ネットワーク内の各層に対する可変ビット幅量子化を可能にする。 既存の作業の大きな制限は、各レイヤのビット幅がトレーニング時間中に事前に定義されなければならないことである。 これにより、ネットワークがデプロイされるデバイスの特性が実行時に変化した場合、柔軟性が低下する。 そこで本研究では,テスト期間中にどの層でも,ネットワーク全体の能力に影響を与えずに入札幅を変更できる,メタ量子化ネットワークを訓練する最初期の方法であるbit-mixerを提案する。 この目的のために、我々は、(a)遷移バッチノームと(b)そのようなネットワークを訓練できる3段階最適化プロセスの2つの重要な貢献を行う。 提案手法は,デバイス上でのデプロイメントにおいて,精度を損なうことなく,望ましい柔軟性を示す混合精度ネットワークを実現することができることを示す。 コードは利用可能になる。

Mixed-precision networks allow for a variable bit-width quantization for every layer in the network. A major limitation of existing work is that the bit-width for each layer must be predefined during training time. This allows little flexibility if the characteristics of the device on which the network is deployed change during runtime. In this work, we propose Bit-Mixer, the very first method to train a meta-quantized network where during test time any layer can change its bid-width without affecting at all the overall network's ability for highly accurate inference. To this end, we make 2 key contributions: (a) Transitional Batch-Norms, and (b) a 3-stage optimization process which is shown capable of training such a network. We show that our method can result in mixed precision networks that exhibit the desirable flexibility properties for on-device deployment without compromising accuracy. Code will be made available.
翻訳日:2021-04-01 14:48:16 公開日:2021-03-31
# 虐待の背後にあるユーザ:倫理と説明可能性に関する立場

The User behind the Abuse: A Position on Ethics and Explainability ( http://arxiv.org/abs/2103.17191v1 )

ライセンス: Link先を確認
Pushkar Mishra, Helen Yannakoudakis, Ekaterina Shutova(参考訳) インターネットの悪用は、われわれの時代の重要な社会的問題である。 何百万人ものインターネットユーザーが、ハラスメント、人種差別、個人的攻撃などさまざまなプラットフォームで悪用されている。 個人に対する虐待の心理的影響は深く持続する可能性がある。 その結果,近年,NLP分野において,自動乱用言語検出に向けた研究が盛んに行われている。 本稿では,ユーザとオンラインコミュニティのモデリングが悪用検出に果たす役割について考察する。 具体的には,ユーザやコミュニティの情報を活用し,乱用する言語の理解と検出を強化する技術手法の状況をレビューし,分析する。 次に,ユーザ情報とコミュニティ情報を取り入れた倫理的課題について考察し,今後の研究を導くための考察を述べる。 最後に, 乱用言語検出における説明可能性の話題を取り上げ, 説明可能な方法が示すべき特性を提案する。 ユーザとコミュニティの情報がこれらのプロパティの実現をいかに促進できるかを説明し,その特性の観点から説明可能性の効果的な運用について論じる。

Abuse on the Internet is an important societal problem of our time. Millions of Internet users face harassment, racism, personal attacks, and other types of abuse across various platforms. The psychological effects of abuse on individuals can be profound and lasting. Consequently, over the past few years, there has been a substantial research effort towards automated abusive language detection in the field of NLP. In this position paper, we discuss the role that modeling of users and online communities plays in abuse detection. Specifically, we review and analyze the state of the art methods that leverage user or community information to enhance the understanding and detection of abusive language. We then explore the ethical challenges of incorporating user and community information, laying out considerations to guide future research. Finally, we address the topic of explainability in abusive language detection, proposing properties that an explainable method should aim to exhibit. We describe how user and community information can facilitate the realization of these properties and discuss the effective operationalization of explainability in view of the properties.
翻訳日:2021-04-01 14:48:01 公開日:2021-03-31
# 自然言語によるより柔軟で正確なオブジェクト追跡:アルゴリズムとベンチマーク

Towards More Flexible and Accurate Object Tracking with Natural Language: Algorithms and Benchmark ( http://arxiv.org/abs/2103.16746v1 )

ライセンス: Link先を確認
Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) 自然言語仕様による追跡は、その言語記述に基づいてビデオシーケンス内の対象オブジェクトを特定することを目的とした、新たな研究テーマである。 従来のバウンディングボックス(BBox)ベースのトラッキングと比較して、この設定はオブジェクト追跡を高レベルなセマンティック情報でガイドし、BBoxのあいまいさに対処し、局所検索とグローバル検索を有機的にリンクする。 これらの利点は、実用的なシナリオにおいて、より柔軟で堅牢で正確な追跡性能をもたらす可能性がある。 しかし、既存の自然言語初期化トラッカーは、トラッキング・バイ・BBoxのために提案されたベンチマークデータセットと比較して開発され、比較される。 本研究では,大規模データセット,強力で多様なベースライン手法など,言語ごとのトラッキングに特化した新しいベンチマークを提案する。 具体的には、2kビデオシーケンス(合計1,244,340フレーム、663ワード)を収集し、1300/700を列車/テスト用に分割する。 1つの文を英語で密に注釈し、各ビデオのターゲットオブジェクトのバウンディングボックスに対応する。 また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。 今後の研究のために,適応型局所グローバル検索方式に基づく強力なベースライン手法を提案する。 このベンチマークは、自然言語ガイドトラッキングに関する関連する研究を大きく促進すると思います。

Tracking by natural language specification is a new rising research topic that aims at locating the target object in the video sequence based on its language description. Compared with traditional bounding box (BBox) based tracking, this setting guides object tracking with high-level semantic information, addresses the ambiguity of BBox, and links local and global search organically together. Those benefits may bring more flexible, robust and accurate tracking performance in practical scenarios. However, existing natural language initialized trackers are developed and compared on benchmark datasets proposed for tracking-by-BBox, which can't reflect the true power of tracking-by-language . In this work, we propose a new benchmark specifically dedicated to the tracking-by-language , including a large scale dataset, strong and diverse baseline methods. Specifically, we collect 2k video sequences (contains a total of 1,244,340 frames, 663 words) and split 1300/700 for the train/testing respectively. We densely annotate one sentence in English and corresponding bounding boxes of the target object for each video. We also introduce two new challenges into TNL2K for the object tracking task, i.e., adversarial samples and modality switch. A strong baseline method based on an adaptive local-global-search scheme is proposed for future works to compare. We believe this benchmark will greatly boost related researches on natural language guided tracking.
翻訳日:2021-04-01 14:47:46 公開日:2021-03-31
# rgb-dデータを用いたマルチモーダル意味セグメンテーションの評価

Evaluation of Multimodal Semantic Segmentation using RGB-D Data ( http://arxiv.org/abs/2103.16758v1 )

ライセンス: Link先を確認
Jiesi Hu, Ganning Zhao, Suya You, C. C. Jay Kuo(参考訳) 我々の目標は、特に挑戦的な屋外環境において、広範囲のシーン認識と理解のための安定的で正確で堅牢なシーン理解手法を開発することである。 これを実現するため、私たちは、ai駆動のマルチモーダルシーン知覚、融合、処理、理解を含む、関連する技術とソリューションを探求し、評価しています。 本稿では,複数のRGBデータと深度センシングデータを用いたセマンティックセグメンテーションのための最先端手法の評価について報告する。 都市と地形の多様なシーンからなる4つの大規模なデータセットを使用し、様々な実験手法とメトリクスを設計する。 さらに,未知のオブジェクトの検出と認識を改善するために,マルチデータセット学習の新たな戦略を開発する。 広範な実験、実装、結果が論文で報告されている。

Our goal is to develop stable, accurate, and robust semantic scene understanding methods for wide-area scene perception and understanding, especially in challenging outdoor environments. To achieve this, we are exploring and evaluating a range of related technology and solutions, including AI-driven multimodal scene perception, fusion, processing, and understanding. This work reports our efforts on the evaluation of a state-of-the-art approach for semantic segmentation with multiple RGB and depth sensing data. We employ four large datasets composed of diverse urban and terrain scenes and design various experimental methods and metrics. In addition, we also develop new strategies of multi-datasets learning to improve the detection and recognition of unseen objects. Extensive experiments, implementations, and results are reported in the paper.
翻訳日:2021-04-01 14:47:24 公開日:2021-03-31
# 不確実性を受け入れる:ロバストな時間的接地のためのデカップリングとデバイアス

Embracing Uncertainty: Decoupling and De-bias for Robust Temporal Grounding ( http://arxiv.org/abs/2103.16848v1 )

ライセンス: Link先を確認
Hao Zhou, Chongyang Zhang, Yan Luo, Yanjun Chen, Chuanping Hu(参考訳) 時間的グラウンディングは、言語クエリによる未トリミングビデオ内の時間的境界のローカライズを目的としているが、クエリの不確実性とラベルの不確実性という、避けられない人間の不確実性という2つのタイプの課題に直面している。 この2つの不確実性は人間の主観性に起因し、時間的接地の限定的な一般化能力に繋がる。 本稿では、人間の不確実性を受け入れるための新しいDeNet(Decoupling and De-bias)を提案する。 この関係特徴は,主に骨格的な単語(名詞や動詞を含む)に基づくもので,クエリの不確実性の存在下での基本的かつ一貫した情報を抽出することを目的としている。 一方,スタイルライクな単語(形容詞,副詞などを含む)に割り当てられた修飾された特徴は主観的な情報を表し,パーソナライズされた予測をもたらす; De-bias - ラベルの不確実性の存在下での単一スタイルアノテーションによるバイアスを軽減するために,多様な予測を生成するデバイアス機構を提案する。 さらに,性能評価の多様化を図るため,新しいマルチラベル指標を提案する。 大規模な実験により、我々のアプローチはCharades-STAおよびActivityNet Captionsデータセットの最先端技術よりも効果的で堅牢であることが示された。

Temporal grounding aims to localize temporal boundaries within untrimmed videos by language queries, but it faces the challenge of two types of inevitable human uncertainties: query uncertainty and label uncertainty. The two uncertainties stem from human subjectivity, leading to limited generalization ability of temporal grounding. In this work, we propose a novel DeNet (Decoupling and De-bias) to embrace human uncertainty: Decoupling - We explicitly disentangle each query into a relation feature and a modified feature. The relation feature, which is mainly based on skeleton-like words (including nouns and verbs), aims to extract basic and consistent information in the presence of query uncertainty. Meanwhile, modified feature assigned with style-like words (including adjectives, adverbs, etc) represents the subjective information, and thus brings personalized predictions; De-bias - We propose a de-bias mechanism to generate diverse predictions, aim to alleviate the bias caused by single-style annotations in the presence of label uncertainty. Moreover, we put forward new multi-label metrics to diversify the performance evaluation. Extensive experiments show that our approach is more effective and robust than state-of-the-arts on Charades-STA and ActivityNet Captions datasets.
翻訳日:2021-04-01 14:47:11 公開日:2021-03-31
# 進化的教師なし表現学習のための深層適応ファジィクラスタリング

Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning ( http://arxiv.org/abs/2103.17086v1 )

ライセンス: Link先を確認
Dayu Tan, Zheng Huang, Xin Peng, Weimin Zhong, Vladimir Mahalec(参考訳) 大規模で複雑な画像のクラスタ割り当ては、パターン認識とコンピュータビジョンにおいて不可欠だが難しい課題である。 本研究では,ディープニューラルネットワークフレームワークにおけるファジィクラスタリングの可能性について検討する。 そこで我々は,反復最適化による新しい進化的教師なし学習表現モデルを提案する。 DAFC(Deep Adaptive Fuzzy Clustering)戦略を実装し、未ラベルのデータサンプルのみから畳み込みニューラルネットワーク分類器を学習する。 DAFCは、深部特徴量検証モデルとファジィクラスタリングモデルで構成され、深部特徴量表現学習損失関数と重み付き適応エントロピーを用いたファジィクラスタリングを実現する。 ファジィメンバシップを用いて深層クラスタ割り当ての明確な構造を表現し,深層表現学習とクラスタリングを共同で最適化した深層再構築モデルにファジィクラスタリングを組み合わせる。 また、推定ボトルネック空間から再サンプリングされたデータが一貫したクラスタリング特性を持つかどうかを検査することにより、現在のクラスタリング性能を評価し、ディープクラスタリングモデルを段階的に改善する。 各種データセットの包括的実験により, 提案手法は, 他の最先端の深層クラスタリング手法と比較して, 再現性およびクラスタリング品質の両面において, 極めて優れた性能が得られることを示した。

Cluster assignment of large and complex images is a crucial but challenging task in pattern recognition and computer vision. In this study, we explore the possibility of employing fuzzy clustering in a deep neural network framework. Thus, we present a novel evolutionary unsupervised learning representation model with iterative optimization. It implements the deep adaptive fuzzy clustering (DAFC) strategy that learns a convolutional neural network classifier from given only unlabeled data samples. DAFC consists of a deep feature quality-verifying model and a fuzzy clustering model, where deep feature representation learning loss function and embedded fuzzy clustering with the weighted adaptive entropy is implemented. We joint fuzzy clustering to the deep reconstruction model, in which fuzzy membership is utilized to represent a clear structure of deep cluster assignments and jointly optimize for the deep representation learning and clustering. Also, the joint model evaluates current clustering performance by inspecting whether the re-sampled data from estimated bottleneck space have consistent clustering properties to progressively improve the deep clustering model. Comprehensive experiments on a variety of datasets show that the proposed method obtains a substantially better performance for both reconstruction and clustering quality when compared to the other state-of-the-art deep clustering methods, as demonstrated with the in-depth analysis in the extensive experiments.
翻訳日:2021-04-01 14:46:48 公開日:2021-03-31
# olivaw: 人間もペニーもなしでオセロをマスターする

OLIVAW: Mastering Othello with neither Humans nor a Penny ( http://arxiv.org/abs/2103.17228v1 )

ライセンス: Link先を確認
Antonio Norelli and Alessandro Panconesi(参考訳) 我々は、有名なAlphaGoシリーズの設計原則を取り入れたAIオセロプレーヤーであるOLIVAWを紹介する。 OLIVAWの背景にある主な動機は、非自明なボードゲームにおいて例外的な能力を獲得することであったが、その輝かしい前任者のコストのごくわずかであった。 本稿では,OLIVAWがこの課題にどう対処したかを示す。

We introduce OLIVAW, an AI Othello player adopting the design principles of the famous AlphaGo series. The main motivation behind OLIVAW was to attain exceptional competence in a non-trivial board game, but at a tiny fraction of the cost of its illustrious predecessors. In this paper we show how OLIVAW successfully met this challenge.
翻訳日:2021-04-01 14:46:17 公開日:2021-03-31
# マルチクラスマルチインスタンスカウント条件付き逆画像生成

Multi-Class Multi-Instance Count Conditioned Adversarial Image Generation ( http://arxiv.org/abs/2103.16795v1 )

ライセンス: Link先を確認
Amrutha Saseendran, Kathrin Skubch and Margret Keuper(参考訳) 画像生成は近年急速に進化している。 現代の対人訓練のためのアーキテクチャでは、優れた画質で高解像度の画像を生成することができる。 同時に、生成された画像のコンテンツを制御するための努力がますます増えています。 本稿では,この方向への一歩を踏み出し,与えられたクラスから定義された多数のオブジェクトを持つ画像を生成する条件付き生成対向ネットワーク(GAN)を提案する。 これは(1)複雑な制約により高品質な画像を生成することができ、(2)与えられた画像内のクラスごとにオブジェクトインスタンスを数えることができるという2つの基本的な能力を伴う。 提案モデルでは,StyleGAN2アーキテクチャの成功を,数ベースの条件付けと回帰サブネットワークでモジュール的に拡張し,トレーニング中にクラス毎に生成されたオブジェクト数をカウントする。 3つの異なるデータセットの実験において、複雑な背景が存在する場合でも、与えられた多重クラス数条件に従って画像を生成することを学ぶ。 特に,cityscapes street scenesデータセットから派生した新しいデータセットであるcitycountを提案する。

Image generation has rapidly evolved in recent years. Modern architectures for adversarial training allow to generate even high resolution images with remarkable quality. At the same time, more and more effort is dedicated towards controlling the content of generated images. In this paper, we take one further step in this direction and propose a conditional generative adversarial network (GAN) that generates images with a defined number of objects from given classes. This entails two fundamental abilities (1) being able to generate high-quality images given a complex constraint and (2) being able to count object instances per class in a given image. Our proposed model modularly extends the successful StyleGAN2 architecture with a count-based conditioning as well as with a regression sub-network to count the number of generated objects per class during training. In experiments on three different datasets, we show that the proposed model learns to generate images according to the given multiple-class count condition even in the presence of complex backgrounds. In particular, we propose a new dataset, CityCount, which is derived from the Cityscapes street scenes dataset, to evaluate our approach in a challenging and practically relevant scenario.
翻訳日:2021-04-01 14:45:08 公開日:2021-03-31
# 臨界経路のレンズによる神経反応の解釈

Neural Response Interpretation through the Lens of Critical Pathways ( http://arxiv.org/abs/2103.16886v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Soroosh Baselizadeh, Saurabh Khanduja, Christian Rupprecht, Seong Tae Kim, Nassir Navab(参考訳) 重要な入力情報はニューラルネットワーク内の特定のスパース経路にエンコードされているか? 本研究では,これらの重要な経路を同定し,ネットワークの入力に対する応答の解釈に利用することについて議論する。 プルーニングの目的 -- 応答が元のネットワークと同等の最小のニューロン群を選択する -- は、以前は重要な経路を特定するために提案されてきた。 プルーニング由来のスパース経路は、必ずしも重要な入力情報をエンコードするとは限らない。 入力情報の重要な断片を含むスパース経路を確保するため,ニューロンの応答への寄与による経路選択を提案する。 クリティカルパスが重要な入力機能を明らかにする方法について説明する。 ニューロンの寄与によって選択される経路は局所的に線形であること(l2-ball において)を証明し、特徴帰属法(pathway gradient)を提案する。 本手法を主観評価実験を用いて検証する。 さらに、経路勾配解釈法の検証により、ニューロンコントリビューションを用いた選択経路が臨界入力特徴に対応していることを確認する。 コードは公開されている。

Is critical input information encoded in specific sparse pathways within the neural network? In this work, we discuss the problem of identifying these critical pathways and subsequently leverage them for interpreting the network's response to an input. The pruning objective -- selecting the smallest group of neurons for which the response remains equivalent to the original network -- has been previously proposed for identifying critical pathways. We demonstrate that sparse pathways derived from pruning do not necessarily encode critical input information. To ensure sparse pathways include critical fragments of the encoded input information, we propose pathway selection via neurons' contribution to the response. We proceed to explain how critical pathways can reveal critical input features. We prove that pathways selected via neuron contribution are locally linear (in an L2-ball), a property that we use for proposing a feature attribution method: "pathway gradient". We validate our interpretation method using mainstream evaluation experiments. The validation of pathway gradient interpretation method further confirms that selected pathways using neuron contributions correspond to critical input features. The code is publicly available.
翻訳日:2021-04-01 14:44:51 公開日:2021-03-31
# GrooMeD-NMS: 1次元物体検出のためのグループ化数学的微分可能なNMS

GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.17202v1 )

ライセンス: Link先を確認
Abhinav Kumar, Garrick Brazil and Xiaoming Liu(参考訳) 現代の3Dオブジェクト検出器は、エンドツーエンドの学習のアイデアから大いに恩恵を受けている。 しかし、ほとんどの場合、推論時にのみNMS(Non-Maximal Suppression)と呼ばれる後処理アルゴリズムを使用する。 2Dオブジェクト検出などのタスクのためのトレーニングパイプラインにNMSを組み込もうとする試みはあったが、NMSの非数学的表現のため、広く採用されていない。 本稿では,ネットワークをエンドツーエンドに訓練し,nms後にボックスに損失を与えるような,単眼的3次元物体検出のための,数学的に微分可能な新しいnsmであるgraceed-nmsを提示・統合する。 まず NMS を行列演算として定式化し、次にボックスを教師なしでグループ化してマスクして NMS の単純な閉形式表現を得る。 GrooMeD-NMSはトレーニングと推論パイプラインのミスマッチに対処するため、ネットワークに最適な3Dボックスを異なる方法で選択させる。 結果として、GrooMeD-NMSは、モノキュラービデオベース手法に適合して動作するKITTIベンチマークデータセット上で、最先端のモノキュラー3Dオブジェクト検出結果を達成する。 https://github.com/a bhi1kumar/groomed_nm sのコードとモデル

Modern 3D object detectors have immensely benefited from the end-to-end learning idea. However, most of them use a post-processing algorithm called Non-Maximal Suppression (NMS) only during inference. While there were attempts to include NMS in the training pipeline for tasks such as 2D object detection, they have been less widely adopted due to a non-mathematical expression of the NMS. In this paper, we present and integrate GrooMeD-NMS -- a novel Grouped Mathematically Differentiable NMS for monocular 3D object detection, such that the network is trained end-to-end with a loss on the boxes after NMS. We first formulate NMS as a matrix operation and then group and mask the boxes in an unsupervised manner to obtain a simple closed-form expression of the NMS. GrooMeD-NMS addresses the mismatch between training and inference pipelines and, therefore, forces the network to select the best 3D box in a differentiable manner. As a result, GrooMeD-NMS achieves state-of-the-art monocular 3D object detection results on the KITTI benchmark dataset performing comparably to monocular video-based methods. Code and models at https://github.com/a bhi1kumar/groomed_nm s
翻訳日:2021-04-01 14:44:35 公開日:2021-03-31
# レインボーメモリ: さまざまなサンプルを記憶した継続的な学習

Rainbow Memory: Continual Learning with a Memory of Diverse Samples ( http://arxiv.org/abs/2103.17230v1 )

ライセンス: Link先を確認
Jihwan Bang, Heesu Kim, YoungJoon Yoo, Jung-Woo Ha, Jonghyun Choi(参考訳) 継続的学習はAIモデルの現実的な学習シナリオである。 しかし、連続学習の一般的なシナリオは、クラスの不整合集合をタスクとして仮定し、現実的ではなく人工的である。 タスクはクラスを共有し、より現実的で実践的です。 このような課題に対処するために、エピソード記憶におけるサンプルの多様性の重要性を論じる。 メモリにおけるサンプルの多様性を高めるため,サンプルごとの分類の不確かさとデータ拡張に基づく新しいメモリ管理手法であるレインボーメモリ(RM)を提案する。 MNIST, CIFAR10, CIFAR100, ImageNetデータセットに対する広範な実証的検証により, 提案手法は, その単純さにもかかわらず, 曖昧で連続的な学習設定における精度を著しく向上し, 芸術の状態を大きなマージンで上回ることを示す。 コードとデータの分割はhttps://github.com/c lovaai/rainbow-memor yで利用可能だ。

Continual learning is a realistic learning scenario for AI models. Prevalent scenario of continual learning, however, assumes disjoint sets of classes as tasks and is less realistic rather artificial. Instead, we focus on 'blurry' task boundary; where tasks shares classes and is more realistic and practical. To address such task, we argue the importance of diversity of samples in an episodic memory. To enhance the sample diversity in the memory, we propose a novel memory management strategy based on per-sample classification uncertainty and data augmentation, named Rainbow Memory (RM). With extensive empirical validations on MNIST, CIFAR10, CIFAR100, and ImageNet datasets, we show that the proposed method significantly improves the accuracy in blurry continual learning setups, outperforming state of the arts by large margins despite its simplicity. Code and data splits will be available in https://github.com/c lovaai/rainbow-memor y.
翻訳日:2021-04-01 14:44:16 公開日:2021-03-31
# CAMPARI: カメラを意識した生成神経放射場

CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields ( http://arxiv.org/abs/2103.17269v1 )

ライセンス: Link先を確認
Michael Niemeyer, Andreas Geiger(参考訳) 深層生成モデルの飛躍的な進歩は、フォトリアリスティックな画像合成につながった。 魅力的な結果を得る一方で、ほとんどのアプローチは2次元画像領域で動作し、世界の3次元の性質を無視している。 したがって、最近のいくつかの研究では、シーンを3Dでモデル化し、画像平面と異なるレンダリングを行う3D対応の生成モデルが提案されている。 これは印象的な3D整合性をもたらすが、そのような偏見を取り入れるには価格がかかる:カメラもモデル化する必要がある。 現在のアプローチでは、固定された内在性とカメラのポーズ範囲に対する事前定義された事前定義を前提としている。 その結果、実際のデータにはパラメータチューニングが通常必要となり、データ分布が一致しない場合には結果が劣化する。 我々の重要な仮説は、カメラジェネレータを画像ジェネレータと共同で学習することで、3D認識画像合成へのより原則的なアプローチが導かれるということである。 さらに,シーンを背景モデルと前景モデルに分解し,より効率的かつ不連続なシーン表現を実現することを提案する。 生の画像コレクションからトレーニングしながら、画像だけでなくカメラデータ分布も忠実に復元する3dおよびカメラ認識生成モデルを学ぶ。 テスト時には,映像の形状や外観だけでなく,カメラを明示的に制御した画像を生成する。

Tremendous progress in deep generative models has led to photorealistic image synthesis. While achieving compelling results, most approaches operate in the two-dimensional image domain, ignoring the three-dimensional nature of our world. Several recent works therefore propose generative models which are 3D-aware, i.e., scenes are modeled in 3D and then rendered differentiably to the image plane. This leads to impressive 3D consistency, but incorporating such a bias comes at a price: the camera needs to be modeled as well. Current approaches assume fixed intrinsics and a predefined prior over camera pose ranges. As a result, parameter tuning is typically required for real-world data, and results degrade if the data distribution is not matched. Our key hypothesis is that learning a camera generator jointly with the image generator leads to a more principled approach to 3D-aware image synthesis. Further, we propose to decompose the scene into a background and foreground model, leading to more efficient and disentangled scene representations. While training from raw, unposed image collections, we learn a 3D- and camera-aware generative model which faithfully recovers not only the image but also the camera data distribution. At test time, our model generates images with explicit control over the camera as well as the shape and appearance of the scene.
翻訳日:2021-04-01 14:43:59 公開日:2021-03-31
# ガウスのオンライン混合を用いた大規模顔クラスタリング

Efficient Large-Scale Face Clustering Using an Online Mixture of Gaussians ( http://arxiv.org/abs/2103.17272v1 )

ライセンス: Link先を確認
David Montero, Naiara Aginako, Basilio Sierra and Marcos Nieto(参考訳) 本研究では, 大規模オンライン顔クラスタリングの課題に対処する: 未知の顔の連続的ストリームを与えられた場合, 入ってくる顔の同一性によってデータベースを作成する。 新しい顔が現れるたびにデータベースを更新する必要がある。 さらに、ソリューションは効率的で正確でスケーラブルでなければなりません。 本研究では,オンラインガウス混合クラスタリング手法(OGMC)を提案する。 この手法の鍵となる考え方は、アイデンティティは1つの分布またはクラスタ以上の形で表現できるという提案である。 入ってくる顔から抽出される特徴ベクトル(fベクトル)を用いて、OGMCは近接性や頑健性に応じて他者と接続される可能性のあるクラスターを生成する。 クラスタが新しいサンプルで更新されるたびに、その接続も更新される。 このアプローチでは、到着したデータの順序とサイズに対するクラスタリングプロセスの依存性を低減し、複雑なデータ分散を処理することができる。 実験結果から,提案手法は大規模顔クラスタリングベンチマークの精度だけでなく,効率やスケーラビリティにも優れることがわかった。

In this work, we address the problem of large-scale online face clustering: given a continuous stream of unknown faces, create a database grouping the incoming faces by their identity. The database must be updated every time a new face arrives. In addition, the solution must be efficient, accurate and scalable. For this purpose, we present an online gaussian mixture-based clustering method (OGMC). The key idea of this method is the proposal that an identity can be represented by more than just one distribution or cluster. Using feature vectors (f-vectors) extracted from the incoming faces, OGMC generates clusters that may be connected to others depending on their proximity and their robustness. Every time a cluster is updated with a new sample, its connections are also updated. With this approach, we reduce the dependency of the clustering process on the order and the size of the incoming data and we are able to deal with complex data distributions. Experimental results show that the proposed approach outperforms state-of-the-art clustering methods on large-scale face clustering benchmarks not only in accuracy, but also in efficiency and scalability.
翻訳日:2021-04-01 14:43:39 公開日:2021-03-31
# Perun: GPUをサポートしたセキュアなマルチステークホルダ機械学習フレームワーク

Perun: Secure Multi-Stakeholder Machine Learning Framework with GPU Support ( http://arxiv.org/abs/2103.16898v1 )

ライセンス: Link先を確認
Wojciech Ozga, Do Le Quoc, Christof Fetzer(参考訳) ML(Confidential Multi-Stakeer Machine Learning)は、複数のパーティが、MLソースコードやモデル、データセットなどの知的プロパティを公開せずに、コラボレーティブなデータ分析を行うことを可能にする。 準同型暗号化に基づく最先端のソリューションは、大きなパフォーマンスのオーバーヘッドを伴います。 ハードウェアベースのソリューション、例えばtrusted execution environment(tees)は、推論計算のパフォーマンスを大幅に向上させるが、保護されたメモリの可用性とgpuサポートの欠如により、ディープニューラルネットワークモデルのトレーニングなど、トレーニング計算のパフォーマンスは低下する。 この問題に対処するために,セキュリティとパフォーマンスのトレードオフを可能にする,秘密のマルチステークホルダ機械学習フレームワークであるPerunを設計,実装した。 perunはハードウェアアクセラレータ(gpuなど)上でmlトレーニングを実行し、trusted platform moduleやcontainity measurement architectureといった信頼できるコンピューティングテクノロジを使用したセキュリティ保証を提供する。 推論のような計算集約的なワークロードは、TEE内でのみ実行されるため、信頼性の低いコンピューティングベースで実行される。 CIFAR-10と実世界の医療データセットのMLトレーニングにおいて、Perunは純粋なTEEベースのアプローチと比較して161倍から1560倍のスピードアップを達成した。

Confidential multi-stakeholder machine learning (ML) allows multiple parties to perform collaborative data analytics while not revealing their intellectual property, such as ML source code, model, or datasets. State-of-the-art solutions based on homomorphic encryption incur a large performance overhead. Hardware-based solutions, such as trusted execution environments (TEEs), significantly improve the performance in inference computations but still suffer from low performance in training computations, e.g., deep neural networks model training, because of limited availability of protected memory and lack of GPU support. To address this problem, we designed and implemented Perun, a framework for confidential multi-stakeholder machine learning that allows users to make a trade-off between security and performance. Perun executes ML training on hardware accelerators (e.g., GPU) while providing security guarantees using trusted computing technologies, such as trusted platform module and integrity measurement architecture. Less compute-intensive workloads, such as inference, execute only inside TEE, thus at a lower trusted computing base. The evaluation shows that during the ML training on CIFAR-10 and real-world medical datasets, Perun achieved a 161x to 1560x speedup compared to a pure TEE-based approach.
翻訳日:2021-04-01 14:43:22 公開日:2021-03-31
# エネルギー効率のよいエッジコンピューティング: lyapunov氏が分散強化学習に出会う

Energy Efficient Edge Computing: When Lyapunov Meets Distributed Reinforcement Learning ( http://arxiv.org/abs/2103.16985v1 )

ライセンス: Link先を確認
Mohamed Sana, Mattia Merluzzi, Nicola di Pietro, Emilio Calvanese Strinati(参考訳) 本研究では,エッジコンピューティングによって実現されるエネルギー効率の高い計算オフロードの問題について検討する。 検討されたシナリオでは、複数のユーザが、遅延制約の下で処理されたタスクをオフロードするために、限られた無線およびエッジコンピューティングリソースを同時に競合する。 無線資源の割り当ては細胞間および細胞内干渉を考慮し、無線および計算機器のデューティサイクルは、全体のエネルギー消費を最小化するために共同で最適化する必要がある。 この問題に対処するために,我々は基礎となる問題を動的長期最適化として定式化する。 そこで, Lyapunov 確率最適化ツールをベースとして, 定式化問題をCPUスケジューリング問題と無線リソース割り当て問題に分離し, スロット単位で解決する。 第1のアルゴリズムは高速反復アルゴリズムを用いて最適かつ効率的に解けるが、第2のアルゴリズムはその非凸性とNP硬さのために分散マルチエージェント強化学習を用いて解かれる。 結果として得られたフレームワークは、徹底的な検索に基づく最適戦略の96.5%のパフォーマンスを達成し、複雑さを劇的に低減する。 提案手法は、ベンチマークヒューリスティックアプローチと比較してネットワークのエネルギー効率を向上させることもできる。

In this work, we study the problem of energy-efficient computation offloading enabled by edge computing. In the considered scenario, multiple users simultaneously compete for limited radio and edge computing resources to get offloaded tasks processed under a delay constraint, with the possibility of exploiting low power sleep modes at all network nodes. The radio resource allocation takes into account inter- and intra-cell interference, and the duty cycles of the radio and computing equipment have to be jointly optimized to minimize the overall energy consumption. To address this issue, we formulate the underlying problem as a dynamic long-term optimization. Then, based on Lyapunov stochastic optimization tools, we decouple the formulated problem into a CPU scheduling problem and a radio resource allocation problem to be solved in a per-slot basis. Whereas the first one can be optimally and efficiently solved using a fast iterative algorithm, the second one is solved using distributed multi-agent reinforcement learning due to its non-convexity and NP-hardness. The resulting framework achieves up to 96.5% performance of the optimal strategy based on exhaustive search, while drastically reducing complexity. The proposed solution also allows to increase the network's energy efficiency compared to a benchmark heuristic approach.
翻訳日:2021-04-01 14:43:00 公開日:2021-03-31
# 量子ニューラルネットワークのトレーニングのための量子最適化

Quantum Optimization for Training Quantum Neural Networks ( http://arxiv.org/abs/2103.17047v1 )

ライセンス: Link先を確認
Yidong Liao, Min-Hsiu Hsieh, Chris Ferrie(参考訳) 勾配に基づくあるいは勾配のない古典的最適化アプローチを用いた量子ニューラルネットワーク(QNN)のトレーニングは、コストランドスケープにおけるバレンプラトーの存在によって大きく影響を受ける。 本稿では、量子最適化アルゴリズムを利用して特定のタスクに対するQNNの最適パラメータを見つけるためのフレームワークを考案する。 これを実現するために、ネットワークパラメータのヒルベルト空間における重ね合わせ状態の相対位相にQNNのコスト関数をコヒーレントに符号化する。 パラメータは適応的に選択されたハミルトニアンを用いて反復量子最適化構造で調整される。 このフレームワークの量子メカニズムは、QNN最適化問題における隠れ構造を利用しており、従ってGroverを超えるスピードアップが期待され、バレンプラトー問題を緩和する。

Training quantum neural networks (QNNs) using gradient-based or gradient-free classical optimisation approaches is severely impacted by the presence of barren plateaus in the cost landscapes. In this paper, we devise a framework for leveraging quantum optimisation algorithms to find optimal parameters of QNNs for certain tasks. To achieve this, we coherently encode the cost function of QNNs onto relative phases of a superposition state in the Hilbert space of the network parameters. The parameters are tuned with an iterative quantum optimisation structure using adaptively selected Hamiltonians. The quantum mechanism of this framework exploits hidden structure in the QNN optimisation problem and hence is expected to provide beyond-Grover speed up, mitigating the barren plateau issue.
翻訳日:2021-04-01 14:42:40 公開日:2021-03-31
# trusted artificial intelligence: 機械学習応用認定に向けて

Trusted Artificial Intelligence: Towards Certification of Machine Learning Applications ( http://arxiv.org/abs/2103.16910v1 )

ライセンス: Link先を確認
Philip Matthias Winter, Sebastian Eder, Johannes Weissenb\"ock, Christoph Schwald, Thomas Doms, Tom Vogt, Sepp Hochreiter, Bernhard Nessler(参考訳) 人工知能は21世紀で最も急速に成長している技術の1つであり、技術アプリケーションと対話するときに日々の生活に我々を伴っている。 しかし、このような技術システムへの依存は適用性や受容性に不可欠である。 信頼を表す社会的な道具は通常、標準、規範、認定、証明書など、合法的な規則によって形式化される。 そのため、ヨハネス・ケプラー大学リンツの機械学習研究所と協力して、T\"UV AUSTRIA Groupは、機械学習アプリケーションのための認定プロセスと監査カタログを提案している。 私たちは、私たちのアプローチが、現在の人工知能の革命を駆動する技術である機械学習とディープラーニングを使用するアプリケーションの認証の基盤となると確信しています。 人間と共有するワークスペース内の完全自律型ロボットのような特定の高リスク領域は、まだ認定からしばらく離れているものの、低リスクのアプリケーションを認証手順でカバーすることを目指している。 我々の総合的なアプローチは、セキュアなソフトウェア開発、機能要件、データ品質、データ保護、倫理といった側面を評価し検証するために、複数の視点から機械学習アプリケーションを分析しようと試みています。 既存の作業に触発されて、人間、環境、組織に対する決定の影響に関する機械学習アプリケーションの臨界度をマップするために、4つの臨界レベルを導入します。 現在、監査カタログは、業界でよく見られる教師付き学習の範囲内で、リスクの低いアプリケーションに適用することができる。 フィールドエクスペリエンス、科学的発展、市場要求によってガイドされ、監査カタログが拡張され、修正される。

Artificial Intelligence is one of the fastest growing technologies of the 21st century and accompanies us in our daily lives when interacting with technical applications. However, reliance on such technical systems is crucial for their widespread applicability and acceptance. The societal tools to express reliance are usually formalized by lawful regulations, i.e., standards, norms, accreditations, and certificates. Therefore, the T\"UV AUSTRIA Group in cooperation with the Institute for Machine Learning at the Johannes Kepler University Linz, proposes a certification process and an audit catalog for Machine Learning applications. We are convinced that our approach can serve as the foundation for the certification of applications that use Machine Learning and Deep Learning, the techniques that drive the current revolution in Artificial Intelligence. While certain high-risk areas, such as fully autonomous robots in workspaces shared with humans, are still some time away from certification, we aim to cover low-risk applications with our certification procedure. Our holistic approach attempts to analyze Machine Learning applications from multiple perspectives to evaluate and verify the aspects of secure software development, functional requirements, data quality, data protection, and ethics. Inspired by existing work, we introduce four criticality levels to map the criticality of a Machine Learning application regarding the impact of its decisions on people, environment, and organizations. Currently, the audit catalog can be applied to low-risk applications within the scope of supervised learning as commonly encountered in industry. Guided by field experience, scientific developments, and market demands, the audit catalog will be extended and modified accordingly.
翻訳日:2021-04-01 14:42:28 公開日:2021-03-31
# ニューラルネットワーク非線形性を持つ線形系:Acausal Zames-Falb乗数による安定性解析の改善

Linear systems with neural network nonlinearities: Improved stability analysis via acausal Zames-Falb multipliers ( http://arxiv.org/abs/2103.17106v1 )

ライセンス: Link先を確認
Patricia Pauli, Dennis Gramlich, Julian Berberich and Frank Allg\"ower(参考訳) 本稿では,線形時間不変系のフィードバック相互干渉の安定性とニューラルネットワークの非線形性を離散時間で解析する。 解析は,統合的二次制約(iqcs)を用いてニューラルネットワークを抽象化し,基盤となる活性化関数のセクタ境界・傾斜制限構造を活用した。 既存のアプローチとは対照的に、動的IQCの潜在能力を生かして、非線形活性化関数をより保守的な方法で記述する。 正確には、完全ブロックヤクーボヴィチ / 円基準に基づく乗算とアカウサル・ザイム=ファルブ乗算器を組み合わせることで、線形行列不等式に基づく安定性証明書を導く。 我々のアプローチは、ニューラルネットワークの非線形性とフィードバックの相互接続の安定性解析のための柔軟で汎用的なフレームワークを提供し、計算効率と保守性をトレードオフすることができる。 最後に,提案フレームワークの適用性と,従来のアプローチよりも達成可能な改善を示す数値的な例を示す。

In this paper, we analyze the stability of feedback interconnections of a linear time-invariant system with a neural network nonlinearity in discrete time. Our analysis is based on abstracting neural networks using integral quadratic constraints (IQCs), exploiting the sector-bounded and slope-restricted structure of the underlying activation functions. In contrast to existing approaches, we leverage the full potential of dynamic IQCs to describe the nonlinear activation functions in a less conservative fashion. To be precise, we consider multipliers based on the full-block Yakubovich / circle criterion in combination with acausal Zames-Falb multipliers, leading to linear matrix inequality based stability certificates. Our approach provides a flexible and versatile framework for stability analysis of feedback interconnections with neural network nonlinearities, allowing to trade off computational efficiency and conservatism. Finally, we provide numerical examples that demonstrate the applicability of the proposed framework and the achievable improvements over previous approaches.
翻訳日:2021-04-01 14:42:02 公開日:2021-03-31
# センチネル-2時系列を用いたLCCのチャネルベースアテンション

Channel-Based Attention for LCC Using Sentinel-2 Time Series ( http://arxiv.org/abs/2103.16836v1 )

ライセンス: Link先を確認
Hermann Courteille (LISTIC), A. Beno\^it (LISTIC), N M\'eger (LISTIC), A Atto (LISTIC), D. Ienco (UMR TETIS)(参考訳) 衛星画像時系列(SITS)に依存する土地被覆分類(LCC)に対処するため、ディープニューラルネットワーク(DNN)が注目されている。 高い性能は達成できるが、DNNによって得られる予測の理論的根拠はしばしば不明である。 そこで本稿では,入力チャネルに関する予測を表現するアーキテクチャを提案する。 最終分類決定における各チャネルの重要性を重み付けする、畳み込み層と注意機構に依存している。 チャネル間の相関は、共有カーネルのセットアップとモデルの複雑さの低減のために考慮される。 Sentinel-2 SITSを用いた実験は有望な結果を示した。

Deep Neural Networks (DNNs) are getting increasing attention to deal with Land Cover Classification (LCC) relying on Satellite Image Time Series (SITS). Though high performances can be achieved, the rationale of a prediction yielded by a DNN often remains unclear. An architecture expressing predictions with respect to input channels is thus proposed in this paper. It relies on convolutional layers and an attention mechanism weighting the importance of each channel in the final classification decision. The correlation between channels is taken into account to set up shared kernels and lower model complexity. Experiments based on a Sentinel-2 SITS show promising results.
翻訳日:2021-04-01 14:40:46 公開日:2021-03-31
# サイクル一貫性ワッサースタインGANを用いた単画像深度合成

Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein GANs ( http://arxiv.org/abs/2103.16938v1 )

ライセンス: Link先を確認
Christoph Angermann and Ad\'ela Moravov\'a and Markus Haltmeier and Steinbj\"orn J\'onsson and Christian Laubichler(参考訳) 実環境深度のリアルタイム推定は, 位置推定, 障害物検出, ポーズ推定など, 様々な自律システムタスクにおいて必須のモジュールである。 機械学習の過去10年間、コンピュータビジョンタスクへのディープラーニング手法の広範な展開は、単純なRGBモダリティから現実的な深度合成のアプローチを成功させた。 これらのモデルのほとんどは、一対の深度データやビデオシーケンスやステレオ画像の可用性にかかっているが、教師なしの方法で単像深度合成に直面する方法が欠如している。 そこで本研究では, 生成ニューラルネットワークの分野における最近の進歩を, 教師なし単一画像深度合成に活用する。 より正確には、RGB-to-deepthとdeep-to-RGB転送用の2つのサイクル一貫性ジェネレータを実装し、Wasserstein-1距離を用いて同時に最適化する。 提案手法の妥当性を確認するため,提案手法は,既存のアプローチと比較可能な有名なNYU Depth v2データセットと同様に,自己取得された産業データセットに適用する。 本研究で得られた成果は,実世界の応用において未経験の単一画像深度推定の可能性が示唆された。

Real-time estimation of actual environment depth is an essential module for various autonomous system tasks such as localization, obstacle detection and pose estimation. During the last decade of machine learning, extensive deployment of deep learning methods to computer vision tasks yielded successful approaches for realistic depth synthesis out of a simple RGB modality. While most of these models rest on paired depth data or availability of video sequences and stereo images, there is a lack of methods facing single-image depth synthesis in an unsupervised manner. Therefore, in this study, latest advancements in the field of generative neural networks are leveraged to fully unsupervised single-image depth synthesis. To be more exact, two cycle-consistent generators for RGB-to-depth and depth-to-RGB transfer are implemented and simultaneously optimized using the Wasserstein-1 distance. To ensure plausibility of the proposed method, we apply the models to a self acquised industrial data set as well as to the renown NYU Depth v2 data set, which allows comparison with existing approaches. The observed success in this study suggests high potential for unpaired single-image depth estimation in real world applications.
翻訳日:2021-04-01 14:40:37 公開日:2021-03-31
# 深部メトリック学習のためのメモリベース仮想クラスによる学習

Learning with Memory-based Virtual Classes for Deep Metric Learning ( http://arxiv.org/abs/2103.16940v1 )

ライセンス: Link先を確認
Byungsoo Ko, Geonmo Gu, Han-Gyu Kim(参考訳) 深層メトリック学習(dml)の中核は、高次元埋め込み空間における視覚の類似性を学ぶことである。 主な課題の1つは、見られているトレーニングデータのクラスから見えないテストデータのクラスに一般化することである。 最近の研究は、過去の埋め込みを利用して、見たクラスのインスタンス数を増やすことに重点を置いている。 このようなメソッドは拡張を通じてパフォーマンスの向上を実現する一方で、見かけのクラスに強く焦点を絞ったままである。 トレーニングデータとテストデータがまったく異なるクラスを示すDMLでは、これは望ましくない。 本稿では,DMLの新しいトレーニング戦略であるMemVirについて述べる。 以前の作品とは異なり、memvirは埋め込み機能とクラスの重み付けの両方を記憶し、それらを追加の仮想クラスとして利用する。 仮想クラスの利用は、訓練に付加情報を利用するだけでなく、より一般化するために見かけクラスに強く焦点を絞る。 さらに,学習難易度を段階的に増やすために,徐々に仮想クラスを追加してカリキュラム学習の考え方を組み込むことにより,学習の安定性と最終的なパフォーマンスを向上させる。 MemVirは変更することなく、既存の多くの損失関数に簡単に適用できる。 有名なベンチマークの広範な実験結果から、memvirは最先端の競合製品よりも優れていることが示されている。 MemVirのコードは公開されている。

The core of deep metric learning (DML) involves learning visual similarities in high-dimensional embedding space. One of the main challenges is to generalize from seen classes of training data to unseen classes of test data. Recent works have focused on exploiting past embeddings to increase the number of instances for the seen classes. Such methods achieve performance improvement via augmentation, while the strong focus on seen classes still remains. This can be undesirable for DML, where training and test data exhibit entirely different classes. In this work, we present a novel training strategy for DML called MemVir. Unlike previous works, MemVir memorizes both embedding features and class weights to utilize them as additional virtual classes. The exploitation of virtual classes not only utilizes augmented information for training but also alleviates a strong focus on seen classes for better generalization. Moreover, we embed the idea of curriculum learning by slowly adding virtual classes for a gradual increase in learning difficulty, which improves the learning stability as well as the final performance. MemVir can be easily applied to many existing loss functions without any modification. Extensive experimental results on famous benchmarks demonstrate the superiority of MemVir over state-of-the-art competitors. Code of MemVir will be publicly available.
翻訳日:2021-04-01 14:40:22 公開日:2021-03-31
# 半定義型プログラミングによるユニバーサル予測バンド

Universal Prediction Band via Semi-Definite Programming ( http://arxiv.org/abs/2103.17203v1 )

ライセンス: Link先を確認
Tengyuan Liang(参考訳) 本研究では,不確実性定量化のための非パラメトリックなヘテロスケダスティック予測帯域を,ユーザ特定予測モデルを用いて構築する手法を提案する。 データ適応予測帯域は、最小分布仮定で普遍的に適用でき、強い非漸近被覆特性を持ち、標準凸プログラムを用いて容易に実装できる。 提案手法は信頼性のある新しい分散補間であり,半定値プログラミングと2乗和最適化の手法を更に活用する。 不確実性定量化のための提案手法の理論的および数値的性能を解析した。

We propose a computationally efficient method to construct nonparametric, heteroskedastic prediction bands for uncertainty quantification, with or without any user-specified predictive model. The data-adaptive prediction band is universally applicable with minimal distributional assumptions, with strong non-asymptotic coverage properties, and easy to implement using standard convex programs. Our approach can be viewed as a novel variance interpolation with confidence and further leverages techniques from semi-definite programming and sum-of-squares optimization. Theoretical and numerical performances for the proposed approach for uncertainty quantification are analyzed.
翻訳日:2021-04-01 14:39:44 公開日:2021-03-31
# Tigrinya翻訳への英語改善のためのデータ拡張手法の探索

An Exploration of Data Augmentation Techniques for Improving English to Tigrinya Translation ( http://arxiv.org/abs/2103.16789v1 )

ライセンス: Link先を確認
Lidia Kidane, Sachin Kumar, Yulia Tsvetkov(参考訳) ニューラルネットワーク翻訳(NMT)の性能は低リソース環境で著しく低下し、競争結果を得るためには大量の補助データを必要とすることが示されている。 補助データを生成する効果的な方法は、ターゲット言語文の逆翻訳である。 本稿では,Tigrinyaのケーススタディとして,合成原文を生成するバックトランスレーション法について検討する。 低リソース環境では、ターゲット言語に関連する高リソース言語をピボットすることでバックトランスレーションが、ベースラインよりも大幅に改善されることが分かりました。

It has been shown that the performance of neural machine translation (NMT) drops starkly in low-resource conditions, often requiring large amounts of auxiliary data to achieve competitive results. An effective method of generating auxiliary data is back-translation of target language sentences. In this work, we present a case study of Tigrinya where we investigate several back-translation methods to generate synthetic source sentences. We find that in low-resource conditions, back-translation by pivoting through a higher-resource language related to the target language proves most effective resulting in substantial improvements over baselines.
翻訳日:2021-04-01 14:39:13 公開日:2021-03-31
# リレーショナルトリプレット抽出へのディープニューラルアプローチ:包括的調査

Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey ( http://arxiv.org/abs/2103.16929v1 )

ライセンス: Link先を確認
Tapas Nayak and Navonil Majumder and Pawan Goyal and Soujanya Poria(参考訳) 近年、単語の連続表現(単語埋め込み)やディープニューラルアーキテクチャ(deep neural architectures)の進歩により、関係抽出の分野で多くの研究成果が公表され、多くの論文の追跡が困難になっている。 今後の研究を支援するため,最近発表された関係抽出研究の総合的なレビューを紹介する。 一般に入手可能なデータセットで最先端のパフォーマンスを達成したディープニューラルネットワークを用いた関係抽出に重点を置いている。 本研究では,文書レベル関係抽出に対する文レベルの関係抽出,統合抽出アプローチへのパイプラインベースアプローチ,遠隔教師付きデータセットへの注釈付きデータセット,ゼロショットや少数ショット関係抽出,遠隔教師付きデータセットにおけるノイズ緩和といった最近の研究方向について述べる。 本稿では,ニューラルネットワークについて,畳み込みモデル,リカレントネットワークモデル,アテンションネットワークモデル,グラフ畳み込みモデルについて報告する。

Recently, with the advances made in continuous representation of words (word embeddings) and deep neural architectures, many research works are published in the area of relation extraction and it is very difficult to keep track of so many papers. To help future research, we present a comprehensive review of the recently published research works in relation extraction. We mostly focus on relation extraction using deep neural networks which have achieved state-of-the-art performance on publicly available datasets. In this survey, we cover sentence-level relation extraction to document-level relation extraction, pipeline-based approaches to joint extraction approaches, annotated datasets to distantly supervised datasets along with few very recent research directions such as zero-shot or few-shot relation extraction, noise mitigation in distantly supervised datasets. Regarding neural architectures, we cover convolutional models, recurrent network models, attention network models, and graph convolutional models in this survey.
翻訳日:2021-04-01 14:39:03 公開日:2021-03-31
# defx at semeval-2020 task 6: joint extraction of concepts and relations for definition extraction

Defx at SemEval-2020 Task 6: Joint Extraction of Concepts and Relations for Definition Extraction ( http://arxiv.org/abs/2103.17090v1 )

ライセンス: Link先を確認
Marc H\"ubner, Christoph Alt, Robert Schwarzenberg, Leonhard Hennig(参考訳) 定義抽出システムは人間とアルゴリズムの両方にとって貴重な知識源である。 本稿では,defteval shared task (semeval-2020 task 6) への提案について述べる。 本システムについて,定義概念とそれらの関係を統合的に抽出するための詳細な説明を行う。 さらに, モデル変動に関するアブレーション研究を行い, 誤差解析の結果について述べる。

Definition Extraction systems are a valuable knowledge source for both humans and algorithms. In this paper we describe our submissions to the DeftEval shared task (SemEval-2020 Task 6), which is evaluated on an English textbook corpus. We provide a detailed explanation of our system for the joint extraction of definition concepts and the relations among them. Furthermore we provide an ablation study of our model variations and describe the results of an error analysis.
翻訳日:2021-04-01 14:38:45 公開日:2021-03-31
# 顔マスクとソフトバイオメトリックス:モバイル眼画像における年齢・性別予測のための顔認識CNNの活用

Facial Masks and Soft-Biometrics: Leveraging Face Recognition CNNs for Age and Gender Prediction on Mobile Ocular Images ( http://arxiv.org/abs/2103.16760v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Kevin Hernandez Diaz, Silvia Ramis, Francisco J. Perales, Josef Bigun(参考訳) 我々は,スマートフォンで撮影された自撮り眼画像を用いて年齢と性別を推定する。 マスクの使用が義務化されるなど、顔の部分閉塞が問題となっている。 また、モバイルデバイスの利用も爆発的に増加し、パンデミックはデジタルサービスへの移行をさらに加速させた。 しかし、アイデンティティや表現認識のような関連するタスクにおける最先端のソリューションでは、モバイルデバイスでの使用はハードウェアの制限とダウンロード可能なアプリケーションのサイズ制限のために不可能である大規模な畳み込みニューラルネットワークを採用している。 これに対抗するために、ImageNet Challengeの文脈で提案されている2つの既存の軽量CNNと、モバイル顔認識のための2つのアーキテクチャを適用した。 セルフィー画像を用いたソフトバイオメトリックス予測のためのデータセットは限られているため,imagenetで事前トレーニングしたネットワークを用いて過剰フィッティング対策を行う。 さらに、いくつかのネットワークは、非常に大きなトレーニングデータベースが利用できる顔認識のために、さらに事前トレーニングされている。 どちらのタスクも同様の入力データを使うため、このような戦略はソフトバイオメトリックス推定に有用であると仮定する。 採用したアーキテクチャに対する異なる事前学習の効果を包括的に検討し,ほとんどの場合,ネットワークが顔認証のために微調整された後に精度が向上することを示す。

We address the use of selfie ocular images captured with smartphones to estimate age and gender. Partial face occlusion has become an issue due to the mandatory use of face masks. Also, the use of mobile devices has exploded, with the pandemic further accelerating the migration to digital services. However, state-of-the-art solutions in related tasks such as identity or expression recognition employ large Convolutional Neural Networks, whose use in mobile devices is infeasible due to hardware limitations and size restrictions of downloadable applications. To counteract this, we adapt two existing lightweight CNNs proposed in the context of the ImageNet Challenge, and two additional architectures proposed for mobile face recognition. Since datasets for soft-biometrics prediction using selfie images are limited, we counteract over-fitting by using networks pre-trained on ImageNet. Furthermore, some networks are further pre-trained for face recognition, for which very large training databases are available. Since both tasks employ similar input data, we hypothesize that such strategy can be beneficial for soft-biometrics estimation. A comprehensive study of the effects of different pre-training over the employed architectures is carried out, showing that, in most cases, a better accuracy is obtained after the networks have been fine-tuned for face recognition.
翻訳日:2021-04-01 14:36:52 公開日:2021-03-31
# Few-shot Unsupervised Domain Adaptationのためのプロトタイプ型クロスドメイン自己教師型学習

Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.16765v1 )

ライセンス: Link先を確認
Xiangyu Yue, Zangwei Zheng, Shanghang Zhang, Yang Gao, Trevor Darrell, Kurt Keutzer, Alberto Sangiovanni Vincentelli(参考訳) unsupervised domain adaptation (uda) は、完全なラベル付きソースドメインからラベルなしのターゲットドメインへ予測モデルを転送する。 しかし、一部のアプリケーションでは、ソースドメインのラベルを収集してもコストがかかり、以前のほとんどの作品が非現実的になる。 この問題に対処するため、最近の研究はインスタンスワイド・クロスドメイン・セルフ教師付き学習を行い、さらに微調整の段階に入った。 しかし、インスタンス単位の自己教師付き学習は、低レベルの判別的特徴を学習し調整するだけである。 本稿では,Few-shot Unsupervised Domain Adaptation (FUDA)のためのエンドツーエンドのクロスドメイン自己監視学習(PCS)フレームワークを提案する。 pcsはクロスドメインの低レベル機能アライメントを実行するだけでなく、ドメイン間の共有埋め込み空間におけるセマンティクス構造をエンコードし、アライメントする。 本フレームワークは,データのカテゴリー別意味構造をin-domain prototypical contrastive learningにより捉え,クロスドメインprototypepical self-supervisionを通じて特徴のアライメントを行う。 最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。 私たちのプロジェクトページはhttp://xyue.io/pcs-f uda/index.htmlにあります。

Unsupervised Domain Adaptation (UDA) transfers predictive models from a fully-labeled source domain to an unlabeled target domain. In some applications, however, it is expensive even to collect labels in the source domain, making most previous works impractical. To cope with this problem, recent work performed instance-wise cross-domain self-supervised learning, followed by an additional fine-tuning stage. However, the instance-wise self-supervised learning only learns and aligns low-level discriminative features. In this paper, we propose an end-to-end Prototypical Cross-domain Self-Supervised Learning (PCS) framework for Few-shot Unsupervised Domain Adaptation (FUDA). PCS not only performs cross-domain low-level feature alignment, but it also encodes and aligns semantic structures in the shared embedding space across domains. Our framework captures category-wise semantic structures of the data by in-domain prototypical contrastive learning; and performs feature alignment through cross-domain prototypical self-supervision. Compared with state-of-the-art methods, PCS improves the mean classification accuracy over different domain pairs on FUDA by 10.5%, 3.5%, 9.0%, and 13.2% on Office, Office-Home, VisDA-2017, and DomainNet, respectively. Our project page is at http://xyue.io/pcs-f uda/index.html
翻訳日:2021-04-01 14:36:29 公開日:2021-03-31
# 超弾性規則化に基づく位相保存3次元画像分割

Topology-Preserving 3D Image Segmentation Based On Hyperelastic Regularization ( http://arxiv.org/abs/2103.16768v1 )

ライセンス: Link先を確認
Daoping Zhang and Lok Ming Lui(参考訳) イメージセグメンテーションとは、ある画像から意味のあるオブジェクトを抽出することである。 閉塞、不明瞭、ノイズによる劣化画像に対しては、セグメンテーション結果の精度に深刻な影響を与える。 この問題を軽減するために、通常ターゲットオブジェクトに関する事前情報が導入される。 10]では2次元画像のみに制限されるトポロジー保存型登録ベースセグメンテーションモデルが提案されている。 本稿では2次元画像と3次元画像の両方を扱える超弾性正規化を用いた3次元トポロジー保存型登録型セグメンテーションモデルを提案する。 提案モデルの解が存在することが確認された。 また,提案モデルを解決するための収束反復スキームを提案する。 提案モデルの有効性を示す合成画像と実画像の数値実験を行った。

Image segmentation is to extract meaningful objects from a given image. For degraded images due to occlusions, obscurities or noises, the accuracy of the segmentation result can be severely affected. To alleviate this problem, prior information about the target object is usually introduced. In [10], a topology-preserving registration-based segmentation model was proposed, which is restricted to segment 2D images only. In this paper, we propose a novel 3D topology-preserving registration-based segmentation model with the hyperelastic regularization, which can handle both 2D and 3D images. The existence of the solution of the proposed model is established. We also propose a converging iterative scheme to solve the proposed model. Numerical experiments have been carried out on the synthetic and real images, which demonstrate the effectiveness of our proposed model.
翻訳日:2021-04-01 14:36:05 公開日:2021-03-31
# PAUL:教師なしリフティングのためのプロクラステアオートエンコーダ

PAUL: Procrustean Autoencoder for Unsupervised Lifting ( http://arxiv.org/abs/2103.16773v1 )

ライセンス: Link先を確認
Chaoyang Wang and Simon Lucey(参考訳) 教師なし深層学習問題としてのnrsfm(non-rigid structure from motion)のキャスティングの成功は、nrsfmに先立つ深層学習のノベルティに関する根本的な疑問を提起している。 本稿では,従来のNRSfMとして明示的に使用される3次元ディープオートエンコーダフレームワークを提案する。 i) 2次元の投影された測定からのみ3次元の自動エンコーダの重みを学習し、(ii)各形状のインスタンスに対して未知の定型的なポーズを共同で解決するという点で、精巧である。 我々は,このアーキテクチャをPAUL(Procustean Autoencoder for Unsupervised Lifting)と呼び,Deep NRSfMやC3PDOといった最近のイノベーションと比較して,多数のベンチマークで最先端のパフォーマンスを示す。

Recent success in casting Non-rigid Structure from Motion (NRSfM) as an unsupervised deep learning problem has raised fundamental questions about what novelty in NRSfM prior could the deep learning offer. In this paper we advocate for a 3D deep auto-encoder framework to be used explicitly as the NRSfM prior. The framework is unique as: (i) it learns the 3D auto-encoder weights solely from 2D projected measurements, and (ii) it is Procrustean in that it jointly resolves the unknown rigid pose for each shape instance. We refer to this architecture as a Procustean Autoencoder for Unsupervised Lifting (PAUL), and demonstrate state-of-the-art performance across a number of benchmarks in comparison to recent innovations such as Deep NRSfM and C3PDO.
翻訳日:2021-04-01 14:35:54 公開日:2021-03-31
# Dense Scene Matchingによるカメラのローカライゼーション学習

Learning Camera Localization via Dense Scene Matching ( http://arxiv.org/abs/2103.16792v1 )

ライセンス: Link先を確認
Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan(参考訳) カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。 従来の方法では,クエリイメージと構築済みの3dモデルの間の関心点を検出し,一致させる。 最近の学習に基づくアプローチでは、シーン構造を特定の畳み込みニューラルネットワーク(cnn)にエンコードし、rgb画像から高密度座標を予測できる。 しかし、そのほとんどは新しいシーンの再訓練や再適応が必要であり、ネットワーク容量の制限により大規模なシーンを扱うのが困難である。 本研究では,シーンマッチング(dsm)を用いて,クエリ画像とシーン間のコストボリュームを構成できる,シーン非依存なカメラ位置推定手法を提案する。 コストボリュームと対応する座標はcnnによって処理され、密座標を予測する。 カメラポーズはpnpアルゴリズムによって解決される。 さらに,本手法は時間領域に拡張可能であり,テスト時間にさらなる性能向上をもたらす。 我々のシーンに依存しないアプローチは、KFNetのような既存のシーン固有のアプローチと7scenesとCambridgeベンチマークで同等の精度を達成する。 このアプローチは、最先端のシーンに依存しない高密度座標回帰ネットワークSANetを著しく上回る。 コードはhttps://github.com/t angshitao/dense-scen e-matchingで入手できる。

Camera localization aims to estimate 6 DoF camera poses from RGB images. Traditional methods detect and match interest points between a query image and a pre-built 3D model. Recent learning-based approaches encode scene structures into a specific convolutional neural network (CNN) and thus are able to predict dense coordinates from RGB images. However, most of them require re-training or re-adaption for a new scene and have difficulties in handling large-scale scenes due to limited network capacity. We present a new method for scene agnostic camera localization using dense scene matching (DSM), where a cost volume is constructed between a query image and a scene. The cost volume and the corresponding coordinates are processed by a CNN to predict dense coordinates. Camera poses can then be solved by PnP algorithms. In addition, our method can be extended to temporal domain, which leads to extra performance boost during testing time. Our scene-agnostic approach achieves comparable accuracy as the existing scene-specific approaches, such as KFNet, on the 7scenes and Cambridge benchmark. This approach also remarkably outperforms state-of-the-art scene-agnostic dense coordinate regression network SANet. The Code is available at https://github.com/T angshitao/Dense-Scen e-Matching.
翻訳日:2021-04-01 14:35:36 公開日:2021-03-31
# 畳み込みハフマッチングネットワーク

Convolutional Hough Matching Networks ( http://arxiv.org/abs/2103.16831v1 )

ライセンス: Link先を確認
Juhong Min, Minsu Cho(参考訳) 特徴表現の進歩にもかかわらず、幾何関係の活用は画像の多彩なバリエーションの下で信頼できる視覚対応を確立する上で重要である。 本研究では,畳み込み整合に対するハフ変換の視点を導入し,畳み込み整合(CHM)と呼ばれる効果的な幾何整合アルゴリズムを提案する。 この方法は、幾何学的変換空間上に候補マッチングの類似性を分散し、それらを畳み込み方式で評価する。 半等方性高次元カーネルを持つ学習可能な神経層にキャストし、少数の解釈可能なパラメータとの非剛性マッチングを学習した。 この効果を検証するために,翻訳とスケーリングの空間において畳み込みマッチングを行うCHM層を用いたニューラルネットワークを開発した。 本手法は,意味的視覚対応のための標準ベンチマークの新たな技術を確立し,クラス内変動に対する強固さを証明した。

Despite advances in feature representation, leveraging geometric relations is crucial for establishing reliable visual correspondences under large variations of images. In this work we introduce a Hough transform perspective on convolutional matching and propose an effective geometric matching algorithm, dubbed Convolutional Hough Matching (CHM). The method distributes similarities of candidate matches over a geometric transformation space and evaluate them in a convolutional manner. We cast it into a trainable neural layer with a semi-isotropic high-dimensional kernel, which learns non-rigid matching with a small number of interpretable parameters. To validate the effect, we develop the neural network with CHM layers that perform convolutional matching in the space of translation and scaling. Our method sets a new state of the art on standard benchmarks for semantic visual correspondence, proving its strong robustness to challenging intra-class variations.
翻訳日:2021-04-01 14:35:16 公開日:2021-03-31
# ReMix: 限られたデータによる画像間変換を目指して

ReMix: Towards Image-to-Image Translation with Limited Data ( http://arxiv.org/abs/2103.16835v1 )

ライセンス: Link先を確認
Jie Cao, Luanxuan Hou, Ming-Hsuan Yang, Ran He, Zhenan Sun(参考訳) image-to-image (i2i) 生成型逆ネットワーク(gans)に基づく翻訳手法は、トレーニングデータに制限がある場合、通常過剰フィッティングに苦しむ。 本研究では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。 特徴レベルのトレーニングサンプルを補間し,サンプル間の知覚的関係に基づく新たなコンテンツ損失を提案する。 生成器は、トレーニングセットを記憶するのではなく、中間のサンプルを翻訳することを学び、その結果、判別器を一般化させる。 提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。 ReMix法は、変更の少ない既存のGANモデルに簡単に組み込むことができる。 多数のタスクに対する実験結果から,ReMix法によるGANモデルの大幅な改善が示された。

Image-to-image (I2I) translation methods based on generative adversarial networks (GANs) typically suffer from overfitting when limited training data is available. In this work, we propose a data augmentation method (ReMix) to tackle this issue. We interpolate training samples at the feature level and propose a novel content loss based on the perceptual relations among samples. The generator learns to translate the in-between samples rather than memorizing the training set, and thereby forces the discriminator to generalize. The proposed approach effectively reduces the ambiguity of generation and renders content-preserving results. The ReMix method can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ReMix method achieve significant improvements.
翻訳日:2021-04-01 14:35:01 公開日:2021-03-31
# 畳み込み型視覚変換器を用いたロバスト表情認識

Robust Facial Expression Recognition with Convolutional Visual Transformers ( http://arxiv.org/abs/2103.16854v1 )

ライセンス: Link先を確認
Fuyan Ma, Bin Sun and Shutao Li(参考訳) 野生における顔表情認識(FER)は, 咬合, 異形頭部ポーズ, 顔の変形, 動きのぼやけなどにより, 極めて困難である。 過去数十年間、自動FERでかなりの進歩があったが、以前の研究は主に実験室で制御されたFERのために設計されている。 現実世界のオクルージョン、変動頭部のポーズ、その他の問題は、これらの情報不足領域や複雑な背景を考慮すると、FERの難しさを確実に増す。 従来の純CNNの手法と異なり、顔画像を視覚的単語の列に翻訳し、世界的視点から表現認識を行うことは可能であり、実用的であると論じる。 そこで本研究では,進化型ビジュアルトランスフォーマー(Convolutional Visual Transformer)を提案する。 まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。 ASFは、グローバルな注意を払って複数の特徴を融合することで識別情報をキャプチャする。 融合した特徴マップはフラット化され、視覚的な単語のシーケンスに投影される。 第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。 提案手法は,3つの顔表情データセット(RAF-DB,FERPlus,Affe ctNet)を用いて評価した。 同じ条件下では、我々の手法は他の手法よりも優れた性能を示し、RAF-DBに88.14%、FERPlusに88.81%、AffectNetに61.85%の新しい状態を設定する。 また,CK+のクロスデータセット評価を行い,提案手法の一般化能力を示す。

Facial Expression Recognition (FER) in the wild is extremely challenging due to occlusions, variant head poses, face deformation and motion blur under unconstrained conditions. Although substantial progresses have been made in automatic FER in the past few decades, previous studies are mainly designed for lab-controlled FER. Real-world occlusions, variant head poses and other issues definitely increase the difficulty of FER on account of these information-deficien t regions and complex backgrounds. Different from previous pure CNNs based methods, we argue that it is feasible and practical to translate facial images into sequences of visual words and perform expression recognition from a global perspective. Therefore, we propose Convolutional Visual Transformers to tackle FER in the wild by two main steps. First, we propose an attentional selective fusion (ASF) for leveraging the feature maps generated by two-branch CNNs. The ASF captures discriminative information by fusing multiple features with global-local attention. The fused feature maps are then flattened and projected into sequences of visual words. Second, inspired by the success of Transformers in natural language processing, we propose to model relationships between these visual words with global self-attention. The proposed method are evaluated on three public in-the-wild facial expression datasets (RAF-DB, FERPlus and AffectNet). Under the same settings, extensive experiments demonstrate that our method shows superior performance over other methods, setting new state of the art on RAF-DB with 88.14%, FERPlus with 88.81% and AffectNet with 61.85%. We also conduct cross-dataset evaluation on CK+ show the generalization capability of the proposed method.
翻訳日:2021-04-01 14:34:50 公開日:2021-03-31
# 構造的類似性に基づくマルチモーダルリモートセンシング画像のロバスト登録

Robust Registration of Multimodal Remote Sensing Images Based on Structural Similarity ( http://arxiv.org/abs/2103.16871v1 )

ライセンス: Link先を確認
Yuanxin Ye, Jie Shan, Lorenzo Bruzzone, and Li Shen(参考訳) マルチモーダルリモートセンシングデータの自動登録(光、LiDAR、SARなど)は、これらのデータ間の重要な非線形ラジオメトリック差のために難しい課題である。 本稿では,この問題を解決するために,画像の構造特性に基づく,向き付け位相合同のヒストグラム(hopc)と呼ばれる新しい特徴記述子を提案する。 さらに,HOPC記述子の正規化相関係数(NCC)をマルチモーダル登録に用いるHOPCnccという類似度尺度が定義される。 提案した類似度尺度の定義では、まず位相合同モデルを拡張して、その配向表現を生成し、拡張モデルを用いてHOPCnccを構築する。 次に、画像間の制御点を検出するために、このメトリックの高速テンプレートマッチングスキームを設計する。 提案したHOPCnccは、画像間の構造的類似性を捉えることを目的としており、様々な光学、LiDAR、SAR、マップデータを用いてテストされている。 その結果,HOPCnccは複雑な非線形ラジオメトリック差に対して頑健であり,適合性能において最先端の類似度指標(NCCと相互情報)よりも優れていた。 さらに,hopcnccに基づくロバスト登録法も提案し,マルチモーダルリモートセンシング画像の6対を用いて評価した。 実験により,マルチモーダル画像登録における提案手法の有効性が示された。

Automatic registration of multimodal remote sensing data (e.g., optical, LiDAR, SAR) is a challenging task due to the significant non-linear radiometric differences between these data. To address this problem, this paper proposes a novel feature descriptor named the Histogram of Orientated Phase Congruency (HOPC), which is based on the structural properties of images. Furthermore, a similarity metric named HOPCncc is defined, which uses the normalized correlation coefficient (NCC) of the HOPC descriptors for multimodal registration. In the definition of the proposed similarity metric, we first extend the phase congruency model to generate its orientation representation, and use the extended model to build HOPCncc. Then a fast template matching scheme for this metric is designed to detect the control points between images. The proposed HOPCncc aims to capture the structural similarity between images, and has been tested with a variety of optical, LiDAR, SAR and map data. The results show that HOPCncc is robust against complex non-linear radiometric differences and outperforms the state-of-the-art similarities metrics (i.e., NCC and mutual information) in matching performance. Moreover, a robust registration method is also proposed in this paper based on HOPCncc, which is evaluated using six pairs of multimodal remote sensing images. The experimental results demonstrate the effectiveness of the proposed method for multimodal image registration.
翻訳日:2021-04-01 14:34:24 公開日:2021-03-31
# viton-hd: isalignment-aware normalizationによる高解像度仮想トライオン

VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization ( http://arxiv.org/abs/2103.16874v1 )

ライセンス: Link先を確認
Seunghwan Choi, Sunghyun Park, Minsoo Lee, Jaegul Choo(参考訳) イメージベース仮想試着のタスクは、対象の衣服アイテムを、所望の身体部に装着して被写体と融合させることにより、対象の被写体の対応する領域に移動させることを目標とする。 研究が増えている一方で、合成画像の解像度は依然として低い(256x192)に制限されており、これはオンライン消費者の満足を損なう重要な制限となっている。 この限界は, 解決が進むにつれて, ゆがんだ衣服と所望の衣服領域との間の不整合領域のアーティファクトが最終結果で顕著になり, 既存の手法では, 高品質の身体部品の生成や, 衣服のテクスチャの鋭さを維持する上で, 性能が低下する, といういくつかの課題に起因している。 そこで本研究では,1024x768の仮想試行画像の合成に成功したVITON-HDという新しい仮想試行法を提案する。 具体的には,まず,仮想試着合成のガイドとしてセグメンテーションマップを作成し,対象の衣服を対象者の体にほぼ適合させる。 次に,アライメントアウェアセグメント(alias)正規化とエイリアス生成法を提案する。 既存の手法との厳密な比較により,viton-hdは質的および定量的に合成画像品質の基準を高い精度で超越することを示した。

The task of image-based virtual try-on aims to transfer a target clothing item onto the corresponding region of a person, which is commonly tackled by fitting the item to the desired body part and fusing the warped item with the person. While an increasing number of studies have been conducted, the resolution of synthesized images is still limited to low (e.g., 256x192), which acts as the critical limitation against satisfying online consumers. We argue that the limitation stems from several challenges: as the resolution increases, the artifacts in the misaligned areas between the warped clothes and the desired clothing regions become noticeable in the final results; the architectures used in existing methods have low performance in generating high-quality body parts and maintaining the texture sharpness of the clothes. To address the challenges, we propose a novel virtual try-on method called VITON-HD that successfully synthesizes 1024x768 virtual try-on images. Specifically, we first prepare the segmentation map to guide our virtual try-on synthesis, and then roughly fit the target clothing item to a given person's body. Next, we propose ALIgnment-Aware Segment (ALIAS) normalization and ALIAS generator to handle the misaligned areas and preserve the details of 1024x768 inputs. Through rigorous comparison with existing methods, we demonstrate that VITON-HD highly sur-passes the baselines in terms of synthesized image quality both qualitatively and quantitatively.
翻訳日:2021-04-01 14:34:01 公開日:2021-03-31
# 画像認識のためのニューラルトランスファーとアーキテクチャ適応の連成学習

Joint Learning of Neural Transfer and Architecture Adaptation for Image Recognition ( http://arxiv.org/abs/2103.16889v1 )

ライセンス: Link先を確認
Guangrun Wang and Liang Lin and Rongcong Chen and Guangcong Wang and Jiqi Zhang(参考訳) 現在の最先端のビジュアル認識システムは、一般的に次のパイプラインに依存している: (a) 大規模データセット(例: imagenet)上でニューラルネットワークを事前トレーニングし、(b) より小さなタスク固有のデータセットでネットワークの重みを微調整する。 このようなパイプラインは、固定アーキテクチャがすべてのドメインに適しているという強い仮定に基づいて、ネットワーク能力をあるドメインから別のドメインに転送できる唯一の重み付けを前提としている。 しかし、異なる認識対象を持つ各ドメインは機能階層の異なるレベル/パスを必要とし、いくつかのニューロンは冗長になり、他のいくつかのドメインは新たなネットワーク構造を形成するために再活性化される。 本研究では,各領域のタスクに適合するネットワークアーキテクチャを動的に適応させ,効率と有効性の両方において重み付けの利点を生かし,アーキテクチャによらず重み付けのみを調整した既存の画像認識パイプラインと比較する。 本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。 これにより,提案手法の探索効率が向上する。 さらに,既存のニューラルアーキテクチャ探索の非効率性を調査することにより,このアプローチがなぜ有効なのかを説明するために,原理的かつ実証的な分析を行う。 ネットワークアーキテクチャと重みの結合分布の保存が重要であることが判明した。 この分析は、画像認識だけでなく、ニューラルネットワークを構築するための洞察も提供する。 人物再同定,年齢推定,性別認識,画像分類,教師なし領域適応などの5つの代表的画像認識課題について,本手法の有効性を示す。

Current state-of-the-art visual recognition systems usually rely on the following pipeline: (a) pretraining a neural network on a large-scale dataset (e.g., ImageNet) and (b) finetuning the network weights on a smaller, task-specific dataset. Such a pipeline assumes the sole weight adaptation is able to transfer the network capability from one domain to another domain, based on a strong assumption that a fixed architecture is appropriate for all domains. However, each domain with a distinct recognition target may need different levels/paths of feature hierarchy, where some neurons may become redundant, and some others are re-activated to form new network structures. In this work, we prove that dynamically adapting network architectures tailored for each domain task along with weight finetuning benefits in both efficiency and effectiveness, compared to the existing image recognition pipeline that only tunes the weights regardless of the architecture. Our method can be easily generalized to an unsupervised paradigm by replacing supernet training with self-supervised learning in the source domain tasks and performing linear evaluation in the downstream tasks. This further improves the search efficiency of our method. Moreover, we also provide principled and empirical analysis to explain why our approach works by investigating the ineffectiveness of existing neural architecture search. We find that preserving the joint distribution of the network architecture and weights is of importance. This analysis not only benefits image recognition but also provides insights for crafting neural networks. Experiments on five representative image recognition tasks such as person re-identification, age estimation, gender recognition, image classification, and unsupervised domain adaptation demonstrate the effectiveness of our method.
翻訳日:2021-04-01 14:33:31 公開日:2021-03-31
# 3次元顔認識のためのエンド・ツー・エンド・ポイント・クラウド・ネットワークにおけるデータガイド学習

Few-Data Guided Learning Upon End-to-End Point Cloud Network for 3D Face Recognition ( http://arxiv.org/abs/2103.16927v1 )

ライセンス: Link先を確認
Yi Yu, Feipeng Da, Ziyu Zhang(参考訳) 3d顔認識は多くのアプリケーションシナリオでその可能性を示しています。 近年,多くの3次元顔認証手法の中で,ディープラーニングに基づく手法が盛んに開発されている。 本稿では,ポイントクラウドベースの3次元顔認識のためのエンドツーエンドディープラーニングネットワークSur3dNet-Faceを提案する。 ネットワークはバックボーンとしてpointnetを使用する。これはポイントクラウド分類ソリューションとして成功しているが、顔認識ではうまく動作しない。 ネットワークアーキテクチャの変更とガウス過程のモルファスモデルに基づく数データガイド学習フレームワークにより、バックボーンは3次元顔認証のために修正された。 複数のデータセットで大量のデータをトレーニングする既存の方法とは異なり、本手法では943個の顔スキャンのみを含むFRGC v2.0のSpring2003サブセットを使用しており、ネットワークはそのような少数の実データのガイダンスで十分に訓練されている。 テストセットを微調整することなく、Ranc-1 Recognition Rate (RR1) は FRGC v2.0 データセットで98.85%、Bosphorus データセットで99.33% を達成する。

3D face recognition has shown its potential in many application scenarios. Among numerous 3D face recognition methods, deep-learning-based methods have developed vigorously in recent years. In this paper, an end-to-end deep learning network entitled Sur3dNet-Face for point-cloud-based 3D face recognition is proposed. The network uses PointNet as the backbone, which is a successful point cloud classification solution but does not work properly in face recognition. Supplemented with modifications in network architecture and a few-data guided learning framework based on Gaussian process morphable model, the backbone is successfully modified for 3D face recognition. Different from existing methods training with a large amount of data in multiple datasets, our method uses Spring2003 subset of FRGC v2.0 for training which contains only 943 facial scans, and the network is well trained with the guidance of such a small amount of real data. Without fine-tuning on the test set, the Rank-1 Recognition Rate (RR1) is achieved as follows: 98.85% on FRGC v2.0 dataset and 99.33% on Bosphorus dataset, which proves the effectiveness and the potentiality of our method.
翻訳日:2021-04-01 14:33:02 公開日:2021-03-31
# スパース表現マッチングによる知識蒸留

Knowledge Distillation By Sparse Representation Matching ( http://arxiv.org/abs/2103.17012v1 )

ライセンス: Link先を確認
Dat Thanh Tran, Moncef Gabbouj, Alexandros Iosifidis(参考訳) ナレッジ蒸留(Knowledge Distillation)とは、教師のネットワークから生徒のネットワークに知識を伝達する手法である。 本稿では,一方の畳み込みニューラルネットワーク(cnn)から得られた中間知識を,スパース表現学習を用いて他方に伝達する手法であるスパース表現マッチング(srm)を提案する。 SRMはまず教師CNNの隠れた特徴のスパース表現を抽出し、学生ネットワークの中間特徴マップをトレーニングするためのピクセルレベルラベルとイメージレベルラベルの両方を生成する。 我々はSRMをニューラルネットワークブロックとして定式化し、確率勾配勾配を用いて効率よく最適化し、プラグアンドプレイ方式で任意のCNNに統合する。 実験の結果,SRMは教師ネットワークと学生ネットワークのアーキテクチャ的差異に頑健であり,複数のデータセットで他のKD技術よりも優れていることがわかった。

Knowledge Distillation refers to a class of methods that transfers the knowledge from a teacher network to a student network. In this paper, we propose Sparse Representation Matching (SRM), a method to transfer intermediate knowledge obtained from one Convolutional Neural Network (CNN) to another by utilizing sparse representation learning. SRM first extracts sparse representations of the hidden features of the teacher CNN, which are then used to generate both pixel-level and image-level labels for training intermediate feature maps of the student network. We formulate SRM as a neural processing block, which can be efficiently optimized using stochastic gradient descent and integrated into any CNN in a plug-and-play manner. Our experiments demonstrate that SRM is robust to architectural differences between the teacher and student networks, and outperforms other KD techniques across several datasets.
翻訳日:2021-04-01 14:32:42 公開日:2021-03-31
# 自然画像自動マッティングのための人間の知覚モデリング

Human Perception Modeling for Automatic Natural Image Matting ( http://arxiv.org/abs/2103.17020v1 )

ライセンス: Link先を確認
Yuhongze Zhou, Liguang Zhou, Tin Lun Lam, Yangsheng Xu(参考訳) natural image mattingは、alpha matteを使って、フォアグラウンドオブジェクトを背景から正確に分離することを目的としている。 外部アノテーションのない完全な自動自然画像マッチングは、非常に難しい。 前景セグメンテーションを希釈する自動的トリマップ生成法の性能はセグメンテーション品質に変動するが、うまく整ったマットニング法は通常、正確な手作りのトリマップを余分な入力として必要としている。 本稿では,追加情報入力のトレードオフをどう扱うかが自動マッチングの大きな課題であり,これらをトリマップとアルファ推定という2つのサブタスクに分解する。 簡単なアクセス可能な粗いアノテーションと、粗い前景/背景/遷移境界を捕捉し、遷移領域で微妙な詳細を刻むアルファマットハンドメイドプロセスを利用して、直感的に設計されたトリマップフリー2段階マッチング手法を提案する。 trimapと背景画像。 具体的には、画像とその粗い前景セグメンテーションが与えられた場合、Trimap Generation Networkは、フォアグラウンド、未知、背景領域の確率を推定し、トリマップ誘導グローバルアグリゲーションアテンションブロックを備えた提案した非局所マッティングネットワークのアルファ特徴フローを導出する。 実験結果から,このマッチングアルゴリズムは,トリマップとトリマップの両面において,現在の最先端手法と競合する性能を示した。

Natural image matting aims to precisely separate foreground objects from background using alpha matte. Fully automatic natural image matting without external annotation is quite challenging. Well-performed matting methods usually require accurate handcrafted trimap as extra input, which is labor-intensive and time-consuming, while the performance of automatic trimap generation method of dilating foreground segmentation fluctuates with segmentation quality. In this paper, we argue that how to handle trade-off of additional information input is a major issue in automatic matting, which we decompose into two subtasks: trimap and alpha estimation. By leveraging easily-accessible coarse annotations and modeling alpha matte handmade process of capturing rough foreground/backgroun d/transition boundary and carving delicate details in transition region, we propose an intuitively-designed trimap-free two-stage matting approach without additional annotations, e.g. trimap and background image. Specifically, given an image and its coarse foreground segmentation, Trimap Generation Network estimates probabilities of foreground, unknown, and background regions to guide alpha feature flow of our proposed Non-Local Matting network, which is equipped with trimap-guided global aggregation attention block. Experimental results show that our matting algorithm has competitive performance with current state-of-the-art methods in both trimap-free and trimap-needed aspects.
翻訳日:2021-04-01 14:32:27 公開日:2021-03-31
# 単一屋内パノラマからのレイアウト誘導型新規ビュー合成

Layout-Guided Novel View Synthesis from a Single Indoor Panorama ( http://arxiv.org/abs/2103.17022v1 )

ライセンス: Link先を確認
Jiale Xu and Jia Zheng and Yanyu Xu and Rui Tang and Shenghua Gao(参考訳) 既存のビュー合成法は主に視点画像に焦点をあて、有望な結果を示した。 しかし、ピンホールカメラの視野が限られているため、大きなカメラの動きを採用すると性能が急速に低下する。 本稿では,屋内パノラマ1台から新しいビューを生成し,大規模なカメラ翻訳を考慮に入れた最初の試みを行う。 この課題に対処するために、まず畳み込みニューラルネットワーク(CNN)を用いて、深い特徴を抽出し、ソースビューイメージから深度マップを推定する。 そこで,室内環境の強い構造的制約である事前の部屋配置を利用して,ターゲットビューの生成を誘導する。 より具体的には、ソースビューの部屋配置を推定し、誘導として対象視点に変換する。 また,生成したターゲットビュー画像の空間配置を制約し,幾何的整合性を実現する。 提案手法の有効性を検証するため,小型・大型のカメラ翻訳を含む大規模写真リアルなデータセットをさらに構築する。 実験結果から,本手法が最先端性能を実現することを示す。 プロジェクトページはhttps://github.com/b luestyle97/pnvs。

Existing view synthesis methods mainly focus on the perspective images and have shown promising results. However, due to the limited field-of-view of the pinhole camera, the performance quickly degrades when large camera movements are adopted. In this paper, we make the first attempt to generate novel views from a single indoor panorama and take the large camera translations into consideration. To tackle this challenging problem, we first use Convolutional Neural Networks (CNNs) to extract the deep features and estimate the depth map from the source-view image. Then, we leverage the room layout prior, a strong structural constraint of the indoor scene, to guide the generation of target views. More concretely, we estimate the room layout in the source view and transform it into the target viewpoint as guidance. Meanwhile, we also constrain the room layout of the generated target-view images to enforce geometric consistency. To validate the effectiveness of our method, we further build a large-scale photo-realistic dataset containing both small and large camera translations. The experimental results on our challenging dataset demonstrate that our method achieves state-of-the-art performance. The project page is at https://github.com/b luestyle97/PNVS.
翻訳日:2021-04-01 14:31:58 公開日:2021-03-31
# 画像マッチングのためのスマートスクリブル

Smart Scribbles for Image Mating ( http://arxiv.org/abs/2103.17062v1 )

ライセンス: Link先を確認
Xin Yang, Yu Qiao, Shaozhe Chen, Shengfeng He, Baocai Yin, Qiang Zhang, Xiaopeng Wei, Rynson W.H.Lau(参考訳) イメージマッティングは、通常、トリマップやスクリブルのような追加のユーザ入力を必要とする、不適切な問題である。 fne trimapの描画には大量のユーザ労力が要るが、scribblesを使えばプロでないユーザでも満足のいくアルファマットが手に入らない。 最近のディープラーニングベースのマットネットワークでは、パフォーマンス向上のために大規模な複合データセットを使用しており、自然画像を処理する際に明らかなアーティファクトが時々現れる。 本稿では,ユーザ入力とアルファマットの本質的な関係を考察し,ユーザの努力とアルファマットの品質のバランスを打つ。 特に,スマートスクリブルと呼ばれる対話型フレームワークを提案し,ユーザに対して,入力画像に少数のスクリブルを描画して高品質なアルファマットを生成するように誘導する。 画像の最も情報性の高い領域を推測し、異なるカテゴリ(地上、背景、未知)を示すためにスクリブルを描画し、そのスクリブル(すなわちカテゴリラベル)を、よく設計された2相伝播を通して画像の残りの部分に拡散する。 伝播過程において,近隣の低レベルアフィニティと高レベルセマンティックな特徴が考慮される。 本手法は大規模マッティングデータセットを必要とせずに最適化でき,実環境においてより普遍性を示す。 広範な実験により、スマートスクリブルは最先端のマットング法に比べて、追加入力を少なくしてより正確なアルファマットを生成できることが示されている。

Image matting is an ill-posed problem that usually requires additional user input, such as trimaps or scribbles. Drawing a fne trimap requires a large amount of user effort, while using scribbles can hardly obtain satisfactory alpha mattes for non-professional users. Some recent deep learning-based matting networks rely on large-scale composite datasets for training to improve performance, resulting in the occasional appearance of obvious artifacts when processing natural images. In this article, we explore the intrinsic relationship between user input and alpha mattes and strike a balance between user effort and the quality of alpha mattes. In particular, we propose an interactive framework, referred to as smart scribbles, to guide users to draw few scribbles on the input images to produce high-quality alpha mattes. It frst infers the most informative regions of an image for drawing scribbles to indicate different categories (foreground, background, or unknown) and then spreads these scribbles (i.e., the category labels) to the rest of the image via our well-designed two-phase propagation. Both neighboring low-level afnities and high-level semantic features are considered during the propagation process. Our method can be optimized without large-scale matting datasets and exhibits more universality in real situations. Extensive experiments demonstrate that smart scribbles can produce more accurate alpha mattes with reduced additional input, compared to the state-of-the-art matting methods.
翻訳日:2021-04-01 14:31:39 公開日:2021-03-31
# 現実ギャップの橋渡しによる深部画像の調和

Deep Image Harmonization by Bridging the Reality Gap ( http://arxiv.org/abs/2103.17104v1 )

ライセンス: Link先を確認
Wenyan Cong, Junyan Cao, Li Niu, Jianfu Zhang, Xuesong Gao, Zhiwei Tang, Liqing Zhang(参考訳) 画像調和は大規模調和データセットで大幅に進歩している。 しかし、現在のデータセット構築方法はまだ労働集約的であり、データセットの拡張性に悪影響を及ぼす。 この問題に対処するために,既存の実世界のデータセットを増強するための人的労力を減らした大規模調和データセットRHHarmonyを構築することを提案する。 実世界画像とレンダリング画像の両方を活用するため,2つのドメイン間のドメインギャップを橋渡しするクロスドメイン調和ネットワークcharmnetを提案する。 さらに、ドメイン間の知識伝達を容易にするために、よく設計されたスタイル分類器と損失を用いる。 画像調和のためのレンダリング画像の利用の可能性と,提案したネットワークの有効性を示す。 データセットとコードはhttps://github.com/b cmi/Rendered_Image_H armonization_Dataset s.comから入手可能です。

Image harmonization has been significantly advanced with large-scale harmonization dataset. However, the current way to build dataset is still labor-intensive, which adversely affects the extendability of dataset. To address this problem, we propose to construct a large-scale rendered harmonization dataset RHHarmony with fewer human efforts to augment the existing real-world dataset. To leverage both real-world images and rendered images, we propose a cross-domain harmonization network CharmNet to bridge the domain gap between two domains. Moreover, we also employ well-designed style classifiers and losses to facilitate cross-domain knowledge transfer. Extensive experiments demonstrate the potential of using rendered images for image harmonization and the effectiveness of our proposed network. Our dataset and code are available at https://github.com/b cmi/Rendered_Image_H armonization_Dataset s.
翻訳日:2021-04-01 14:31:12 公開日:2021-03-31
# セミスーパービジョンセグメンテーションにおける反復自己訓練のGISTとRIST

The GIST and RIST of Iterative Self-Training for Semi-Supervised Segmentation ( http://arxiv.org/abs/2103.17105v1 )

ライセンス: Link先を確認
Eu Wern Teh, Terrance DeVries, Brendan Duke, Ruowei Jiang, Parham Aarabi, Graham W. Taylor(参考訳) 半教師付きセマンティックセマンティックセグメンテーションの課題を考察し、少数の人手によるトレーニング例を考慮し、画素単位のセマンティックオブジェクトマスクを作成することを目的とする。 我々は,複数段階にわたる自己訓練の行動を探索する反復的自己訓練手法に着目する。 自己学習の反復は,人間ラベルと疑似ラベルのトレーニング例の一定割合でネイティブに実施すれば,パフォーマンスが低下することを示した。 本稿では,人間ラベルデータと疑似ラベルデータのいずれかのトレーニングとを交互に交互に行う,無作為反復自己学習(gist)とランダム反復自己学習(rist)戦略を提案する。 さらに, GIST と RIST が既存の SOTA 手法と組み合わせて性能向上を図り, Pascal VOC 2012 と Cityscapes の 5 つのサブセットで新たな SOTA 結果が得られることを示す。

We consider the task of semi-supervised semantic segmentation, where we aim to produce pixel-wise semantic object masks given only a small number of human-labeled training examples. We focus on iterative self-training methods in which we explore the behavior of self-training over multiple refinement stages. We show that iterative self-training leads to performance degradation if done naively with a fixed ratio of human-labeled to pseudo-labeled training examples. We propose Greedy Iterative Self-Training (GIST) and Random Iterative Self-Training (RIST) strategies that alternate between training on either human-labeled data or pseudo-labeled data at each refinement stage, resulting in a performance boost rather than degradation. We further show that GIST and RIST can be combined with existing SOTA methods to boost performance, yielding new SOTA results in Pascal VOC 2012 and Cityscapes dataset across five out of six subsets.
翻訳日:2021-04-01 14:30:58 公開日:2021-03-31
# 軽量ニューラルネットワークのマルチタスク学習に基づく顔表情と属性認識

Facial expression and attributes recognition based on multi-task learning of lightweight neural networks ( http://arxiv.org/abs/2103.17107v1 )

ライセンス: Link先を確認
Andrey V. Savchenko(参考訳) 本稿では, 顔の特徴(年齢, 性別, 民族性)の識別と分類を目的とした, 軽量畳み込みニューラルネットワークのマルチタスクトレーニングについて検討する。 顔の表情を予測するためには,これらのネットワークを微調整する必要がある。 MobileNet、EfficientNet、RexNetアーキテクチャに基づくいくつかのモデルが提示される。 AffectNetデータセットの最先端感情分類精度と,UTKFaceデータセットの年齢,性別,人種認識における最先端結果の特徴を実験的に明らかにした。 さらに,ビデオフレームにおける顔領域の特徴抽出器としてのニューラルネットワークの利用と,いくつかの統計関数(平均,最大,等)の連結が示された。 EmotiWの課題から、AFEWとVGAFデータセットの既知の最先端シングルモデルよりも4.5\%精度が向上する。 モデルとソースコードはhttps://github.com/H SE-asavchenko/face-e motion-recognitionで公開されている。

In this paper, we examine the multi-task training of lightweight convolutional neural networks for face identification and classification of facial attributes (age, gender, ethnicity) trained on cropped faces without margins. It is shown that it is still necessary to fine-tune these networks in order to predict facial expressions. Several models are presented based on MobileNet, EfficientNet and RexNet architectures. It was experimentally demonstrated that our models are characterized by the state-of-the-art emotion classification accuracy on AffectNet dataset and near state-of-the-art results in age, gender and race recognition for UTKFace dataset. Moreover, it is shown that the usage of our neural network as a feature extractor of facial regions in video frames and concatenation of several statistical functions (mean, max, etc.) leads to 4.5\% higher accuracy than the previously known state-of-the-art single models for AFEW and VGAF datasets from the EmotiW challenges. The models and source code are publicly available at https://github.com/H SE-asavchenko/face-e motion-recognition.
翻訳日:2021-04-01 14:30:36 公開日:2021-03-31
# rank-one prior:リアルタイムシーンリカバリに向けて

Rank-One Prior: Toward Real-Time Scene Recovery ( http://arxiv.org/abs/2103.17126v1 )

ライセンス: Link先を確認
Jun Liu, Ryan Wen Liu, Jianing Sun, Tieyong Zeng(参考訳) シーンのリカバリは、ビデオ監視や自動運転車など、いくつかの実用的な応用のための基本的なイメージングタスクである。 気象・画像の異なる条件下での視覚的品質向上のために,砂嵐,水中,迷路などにおける劣化シーンを再現するリアルタイム光補正手法を提案する。 我々の研究の核心は、伝達を推定するための強度投影戦略を提案することです。 この戦略は、直接のランク1転送によって動機付けられる。 送信推定の複雑さは$O(N)$であり、$N$は単一の画像のサイズである。 そして、リアルタイムでシーンを復元できます。 各種の気象・画像条件に関する総合的な実験により,本手法は効率とロバスト性の観点から,いくつかの最先端撮像法よりも優れた性能を示した。

Scene recovery is a fundamental imaging task for several practical applications, e.g., video surveillance and autonomous vehicles, etc. To improve visual quality under different weather/imaging conditions, we propose a real-time light correction method to recover the degraded scenes in the cases of sandstorms, underwater, and haze. The heart of our work is that we propose an intensity projection strategy to estimate the transmission. This strategy is motivated by a straightforward rank-one transmission prior. The complexity of transmission estimation is $O(N)$ where $N$ is the size of the single image. Then we can recover the scene in real-time. Comprehensive experiments on different types of weather/imaging conditions illustrate that our method outperforms competitively several state-of-the-art imaging methods in terms of efficiency and robustness.
翻訳日:2021-04-01 14:29:57 公開日:2021-03-31
# 視線追跡のための時空間変換器の学習

Learning Spatio-Temporal Transformer for Visual Tracking ( http://arxiv.org/abs/2103.17154v1 )

ライセンス: Link先を確認
Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, Huchuan Lu(参考訳) 本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。 エンコーダは対象オブジェクトと検索領域間のグローバル時空間的特徴依存性をモデル化し、デコーダは対象オブジェクトの空間的位置を予測するためにクエリ埋め込みを学習する。 提案手法では,提案やアンカーを使わずに直接バウンディングボックス予測問題としてオブジェクト追跡を行う。 エンコーダ・デコーダ変換器では、オブジェクトの予測は単純な完全畳み込みネットワークを使い、オブジェクトの隅を直接推定する。 メソッド全体がエンドツーエンドで、コサインウィンドウやバウンディングボックススムージングなどの後処理ステップは必要ありません。 提案するトラッカーは,Siam R-CNNより6倍高速でリアルタイムに動作しながら,短期・長期の5つのベンチマークで最先端のパフォーマンスを実現する。 コードとモデルはhttps://github.com/r esearchmm/Stark.comで公開されている。

In this paper, we present a new tracking architecture with an encoder-decoder transformer as the key component. The encoder models the global spatio-temporal feature dependencies between target objects and search regions, while the decoder learns a query embedding to predict the spatial positions of the target objects. Our method casts object tracking as a direct bounding box prediction problem, without using any proposals or predefined anchors. With the encoder-decoder transformer, the prediction of objects just uses a simple fully-convolutional network, which estimates the corners of objects directly. The whole method is end-to-end, does not need any postprocessing steps such as cosine window and bounding box smoothing, thus largely simplifying existing tracking pipelines. The proposed tracker achieves state-of-the-art performance on five challenging short-term and long-term benchmarks, while running at real-time speed, being 6x faster than Siam R-CNN. Code and models are open-sourced at https://github.com/r esearchmm/Stark.
翻訳日:2021-04-01 14:29:44 公開日:2021-03-31
# 物体検出のためのスケールアウェア自動拡張

Scale-aware Automatic Augmentation for Object Detection ( http://arxiv.org/abs/2103.17220v1 )

ライセンス: Link先を確認
Yukang Chen, Yanwei Li, Tao Kong, Lu Qi, Ruihang Chu, Lei Li, Jiaya Jia(参考訳) オブジェクト検出のためのデータ拡張ポリシーを学習するためのスケール対応AutoAugを提案する。 我々は,画像レベルとボックスレベルの両方をスケール不変性を維持するために設計した,新しいスケール対応検索空間を定義する。 この検索空間において,高効率な検索を容易にするために,pareto scale balanceと呼ばれる新しい検索指標を提案する。 実験では、スケール対応のAutoAugは、強力なマルチスケールトレーニングベースラインと比較しても、様々なオブジェクト検出器(RetinaNet、Faster R-CNN、Mask R-CNN、FCOSなど)において顕著で一貫した改善をもたらす。 検索した拡張ポリシーは、オブジェクト検出(インスタンスセグメンテーションやキーポイント推定など)を超えた他のデータセットやボックスレベルのタスクに転送可能で、パフォーマンスが向上します。 検索コストは、オブジェクト検出のための以前の自動拡張アプローチよりもはるかに少ない。 検索されたポリシーには意味のあるパターンがあり、人間のデータ拡張設計に対して直感的に貴重な洞察を提供する。 コードとモデルはhttps://github.com/J ia-Research-Lab/SA-A utoAug.comで入手できる。

We propose Scale-aware AutoAug to learn data augmentation policies for object detection. We define a new scale-aware search space, where both image- and box-level augmentations are designed for maintaining scale invariance. Upon this search space, we propose a new search metric, termed Pareto Scale Balance, to facilitate search with high efficiency. In experiments, Scale-aware AutoAug yields significant and consistent improvement on various object detectors (e.g., RetinaNet, Faster R-CNN, Mask R-CNN, and FCOS), even compared with strong multi-scale training baselines. Our searched augmentation policies are transferable to other datasets and box-level tasks beyond object detection (e.g., instance segmentation and keypoint estimation) to improve performance. The search cost is much less than previous automated augmentation approaches for object detection. It is notable that our searched policies have meaningful patterns, which intuitively provide valuable insight for human data augmentation design. Code and models will be available at https://github.com/J ia-Research-Lab/SA-A utoAug.
翻訳日:2021-04-01 14:29:26 公開日:2021-03-31
# Image Transformersでさらに深く

Going deeper with Image Transformers ( http://arxiv.org/abs/2103.17239v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, Herv\'e J\'egou(参考訳) 変換器は近年,畳み込みニューラルネットワークの長期優位性を高めるために,大規模な画像分類に適応している。 しかし、画像変換器の最適化は今のところほとんど研究されていない。 本研究では,画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。 特に,このような専用変圧器のアーキテクチャと最適化の相互作用について検討する。 深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。 例えば、外部データを持たないトレーニングでは、Imagenet上で86.3%のトップ-1の精度が得られる。 私たちの最善のモデルは、再評価ラベルとimagenet-v2/match周波数を、追加のトレーニングデータなしで設定することで、imagenetの新たな最先端を確立します。

Transformers have been recently adapted for large scale image classification, achieving high scores shaking up the long supremacy of convolutional neural networks. However the optimization of image transformers has been little studied so far. In this work, we build and optimize deeper transformer networks for image classification. In particular, we investigate the interplay of architecture and optimization of such dedicated transformers. We make two transformers architecture changes that significantly improve the accuracy of deep transformers. This leads us to produce models whose performance does not saturate early with more depth, for instance we obtain 86.3% top-1 accuracy on Imagenet when training with no external data. Our best model establishes the new state of the art on Imagenet with Reassessed labels and Imagenet-V2 / match frequency, in the setting with no additional training data.
翻訳日:2021-04-01 14:29:07 公開日:2021-03-31
# ビデオの時間的アライメントによる学習

Learning by Aligning Videos in Time ( http://arxiv.org/abs/2103.17260v1 )

ライセンス: Link先を確認
Sanjay Haresh and Sateesh Kumar and Huseyin Coskun and Shahram Najam Syed and Andrey Konin and Muhammad Zeeshan Zia and Quoc-Huy Tran(参考訳) 本稿では,時間的映像アライメントをプリテキストタスクとして,フレームレベルとビデオレベルの情報を活用しながら,映像表現を学習するための自己教師あり手法を提案する。 我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。 具体的には、時間的アライメント損失(Soft-DTW)は、埋め込み空間におけるビデオの時間的アライメントの最小コストを目標とする。 しかし、この項のみを最適化することは、特にすべてのフレームが埋め込み空間の小さなクラスタにマッピングされるような、自明な解決につながる。 この問題を克服するために,組込み空間内の異なる点に異なるフレームをマッピングすることを奨励する時間正規化項(コントラストidm)を提案する。 アクションフェーズの分類,アクションフェーズの進行,微粒化フレームの検索など,多種多様なタスクに対する広範囲な評価は,ビデオからの自己教師型表現学習における最先端の手法よりも,ポーリング,ペンアクション,IKEA ASMの3つのデータセットにおいて優れていることを示す。 さらに,ラベル付きデータが不足している場合,性能が大幅に向上する。

We present a self-supervised approach for learning video representations using temporal video alignment as a pretext task, while exploiting both frame-level and video-level information. We leverage a novel combination of temporal alignment loss and temporal regularization terms, which can be used as supervision signals for training an encoder network. Specifically, the temporal alignment loss (i.e., Soft-DTW) aims for the minimum cost for temporally aligning videos in the embedding space. However, optimizing solely for this term leads to trivial solutions, particularly, one where all frames get mapped to a small cluster in the embedding space. To overcome this problem, we propose a temporal regularization term (i.e., Contrastive-IDM) which encourages different frames to be mapped to different points in the embedding space. Extensive evaluations on various tasks, including action phase classification, action phase progression, and fine-grained frame retrieval, on three datasets, namely Pouring, Penn Action, and IKEA ASM, show superior performance of our approach over state-of-the-art methods for self-supervised representation learning from videos. In addition, our method provides significant performance gain where labeled data is lacking.
翻訳日:2021-04-01 14:28:54 公開日:2021-03-31
# 自己教師付き対応学習の再考 : 映像フレームレベルの類似性の観点から

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective ( http://arxiv.org/abs/2103.17263v1 )

ライセンス: Link先を確認
Jiarui Xu, Xiaolong Wang(参考訳) 時空間対応のための良い表現を学ぶことは、オブジェクトバウンディングボックスの追跡やビデオオブジェクトのピクセルセグメンテーションの実行など、様々なコンピュータビジョンタスクの鍵となる。 大規模に対応するための一般化可能な表現を学習するために、オブジェクトレベルまたはパッチレベルの類似性学習を明示的に行うために、様々な自己教師付きプレテキストタスクを提案する。 従来の文献に従わず、ビデオフレームレベルの類似性(vfs)学習、すなわち単にビデオフレームの比較から学習することを用いて対応を学習することを提案する。 我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。 我々の仮説は、表現が認識に適している場合、類似のオブジェクトや部品間の対応を見つけるために畳み込みの特徴が必要であるというものである。 以上の結果から,VFS は OTB ビジュアルオブジェクトトラッキングと DAVIS ビデオオブジェクトセグメンテーションの両方に対して,最先端の自己監督アプローチを超越していることがわかった。 VFSで何が重要かを詳細に分析し、画像およびフレームレベルの類似性学習における新しい特性を明らかにする。 プロジェクトページはhttps://jerryxu.net/ vfs。

Learning a good representation for space-time correspondence is the key for various computer vision tasks, including tracking object bounding boxes and performing video object pixel segmentation. To learn generalizable representation for correspondence in large-scale, a variety of self-supervised pretext tasks are proposed to explicitly perform object-level or patch-level similarity learning. Instead of following the previous literature, we propose to learn correspondence using Video Frame-level Similarity (VFS) learning, i.e, simply learning from comparing video frames. Our work is inspired by the recent success in image-level contrastive learning and similarity learning for visual recognition. Our hypothesis is that if the representation is good for recognition, it requires the convolutional features to find correspondence between similar objects or parts. Our experiments show surprising results that VFS surpasses state-of-the-art self-supervised approaches for both OTB visual object tracking and DAVIS video object segmentation. We perform detailed analysis on what matters in VFS and reveals new properties on image and frame level similarity learning. Project page is available at https://jerryxu.net/ VFS.
翻訳日:2021-04-01 14:28:33 公開日:2021-03-31
# human poseitioning system (hps) - 身体搭載センサを用いた大規模シーンにおける3次元人物ポーズ推定と自己局所化

Human POSEitioning System (HPS): 3D Human Pose Estimation and Self-localization in Large Scenes from Body-Mounted Sensors ( http://arxiv.org/abs/2103.17265v1 )

ライセンス: Link先を確認
Vladimir Guzov, Aymen Mir, Torsten Sattler, Gerard Pons-Moll(参考訳) HPS(Human POSEitioning System)は、ウェアラブルセンサを用いて、周囲環境の3Dスキャンで登録された人間の完全な3Dポーズを復元する手法である。 手足に装着されたIMUと、外を向いているヘッドマウントカメラを使って、HPSはカメラベースの自己ローカライゼーションとIMUベースの人体追跡を融合する。 前者はドリフトフリーだがノイズの多い位置と方向推定を提供し、後者は短期的には正確だが長い時間をかけてドリフトされる。 最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。 さらに,地上との足の接触などの3Dシーンの制約を最適化に組み込むことにより,物理的に妥当な動作を実現する。 HPSはより一般的な3Dポーズ推定法を補完する。 それは、より大きな記録ボリュームと長時間のモーションをキャプチャでき、人間が外部カメラと直接視線をいじることなくシーンと対話するVR/ARアプリケーションや、本物の人間のような一対一の視覚入力に基づいて環境と対話するエージェントの訓練に使用できる。 HPSでは、7人の被験者と3時間以上の多様な動きからなる大きな3Dシーン(300-1000 sq.m)と相互作用する人間のデータセットを記録した。 データセット、コード、ビデオはプロジェクトのページで入手できる。

We introduce (HPS) Human POSEitioning System, a method to recover the full 3D pose of a human registered with a 3D scan of the surrounding environment using wearable sensors. Using IMUs attached at the body limbs and a head mounted camera looking outwards, HPS fuses camera based self-localization with IMU-based human body tracking. The former provides drift-free but noisy position and orientation estimates while the latter is accurate in the short-term but subject to drift over longer periods of time. We show that our optimization-based integration exploits the benefits of the two, resulting in pose accuracy free of drift. Furthermore, we integrate 3D scene constraints into our optimization, such as foot contact with the ground, resulting in physically plausible motion. HPS complements more common third-person-based 3D pose estimation methods. It allows capturing larger recording volumes and longer periods of motion, and could be used for VR/AR applications where humans interact with the scene without requiring direct line of sight with an external camera, or to train agents that navigate and interact with the environment based on first-person visual input, like real humans. With HPS, we recorded a dataset of humans interacting with large 3D scenes (300-1000 sq.m) consisting of 7 subjects and more than 3 hours of diverse motion. The dataset, code and video will be available on the project page: http://virtualhumans .mpi-inf.mpg.de/hps/ .
翻訳日:2021-04-01 14:28:14 公開日:2021-03-31
# VisioRed: 予測保守を解釈可能な可視化ツール

VisioRed: A Visualisation Tool for Interpretable Predictive Maintenance ( http://arxiv.org/abs/2103.17003v1 )

ライセンス: Link先を確認
Spyridon Paraschos, Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) マシンラーニングの使用は、医療や産業監視機器など、意思決定が必要なリスクの高いシナリオで急速に増加します。 重要な状況では、意思決定について有意義な説明ができるモデルが不可欠である。 産業施設では、設備の保守は、資金損失を防ぐための継続的な運用を確保するために不可欠である。 マシンラーニングを使用すると、予測および規範的なメンテナンスがシステム障害を予測および防止する。 本稿では,時系列データに基づく予測保守モデルから得られた情報を表示するための解釈を組み込んだ可視化ツールを提案する。

The use of machine learning rapidly increases in high-risk scenarios where decisions are required, for example in healthcare or industrial monitoring equipment. In crucial situations, a model that can offer meaningful explanations of its decision-making is essential. In industrial facilities, the equipment's well-timed maintenance is vital to ensure continuous operation to prevent money loss. Using machine learning, predictive and prescriptive maintenance attempt to anticipate and prevent eventual system failures. This paper introduces a visualisation tool incorporating interpretations to display information derived from predictive maintenance models, trained on time-series data.
翻訳日:2021-04-01 14:27:10 公開日:2021-03-31
# 正負のモーメント:一般化を改善する確率勾配雑音の操作

Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization ( http://arxiv.org/abs/2103.17182v1 )

ライセンス: Link先を確認
Zeke Xie, Li Yuan, Zhanxing Zhu, and Masashi Sugiyama(参考訳) 確率的勾配雑音(sgn)が深層学習の暗黙的正規化として働き、深層ネットワークの最適化と一般化の両方において本質的に重要であることはよく知られている。 いくつかの研究は、学習を改善するためにランダムノイズを注入することで、SGNを人工的にシミュレートしようとした。 しかし、注入された単純なランダムノイズは、異方性とパラメータ依存のSGNと同様に機能しないことがわかった。 低計算コストでSGNをシミュレーションし、学習速度やバッチサイズを変えることなく、古典最適化における従来のモメンタムの強力な代替となる正負のモメンタム(PNM)アプローチを提案する。 導入されたPNM法は、2つの近似独立運動量項を保持する。 そして、運動量差を調整することにより、SGNの大きさを明示的に制御できる。 確率勾配降下(sgd)によるpnmの収束保証と一般化の利点を理論的に証明する。 PNMをMomentumとAdamの2つの従来のオプティマイザに組み込むことで、PNMベースの変種が従来のMomentumベースのオプティマイザよりも有意な利点を実証的に証明した。 コード: \url{https://github.com/z eke-xie/Positive-Neg ative-Momentum}。

It is well-known that stochastic gradient noise (SGN) acts as implicit regularization for deep learning and is essentially important for both optimization and generalization of deep networks. Some works attempted to artificially simulate SGN by injecting random noise to improve deep learning. However, it turned out that the injected simple random noise cannot work as well as SGN, which is anisotropic and parameter-dependent. For simulating SGN at low computational costs and without changing the learning rate or batch size, we propose the Positive-Negative Momentum (PNM) approach that is a powerful alternative to conventional Momentum in classic optimizers. The introduced PNM method maintains two approximate independent momentum terms. Then, we can control the magnitude of SGN explicitly by adjusting the momentum difference. We theoretically prove the convergence guarantee and the generalization advantage of PNM over Stochastic Gradient Descent (SGD). By incorporating PNM into the two conventional optimizers, SGD with Momentum and Adam, our extensive experiments empirically verified the significant advantage of the PNM-based variants over the corresponding conventional Momentum-based optimizers. Code: \url{https://github.com/z eke-xie/Positive-Neg ative-Momentum}.
翻訳日:2021-04-01 14:27:01 公開日:2021-03-31
# 構造化予測のためのニューロシンボリック制約プログラミング

Neuro-Symbolic Constraint Programming for Structured Prediction ( http://arxiv.org/abs/2103.17232v1 )

ライセンス: Link先を確認
Paolo Dragone, Stefano Teso, Andrea Passerini(参考訳) ニューラルネットワークを制約付き構造予測器に注入する手法であるNesterを提案する。 ニューラルネットワークの仕事は、入力データと互換性があるが必ずしも制約を満たすとは限らない、初期的で生の予測を計算することである。 構造化予測器は、硬く柔らかい制約に従って生の予測を組み立て、修正する制約解決器を用いて構造を構築する。 ニューラルネットワークは低レベルのデータから複雑な表現を学習し、制約プログラミングコンポーネントは予測タスクの高レベルの特性を理由としている。 アーキテクチャ全体はエンドツーエンドでトレーニングすることができる。 手書きの方程式認識に関する経験的評価により、ネスターはニューラルネットワークと制約付き構造化予測器の両方よりも、特にトレーニング例が不足している場合には、それ自体で優れた性能を達成でき、他の神経プログラミングアプローチよりも複雑な問題にスケールできることが示された。 Nesterは、問題の意味レベルでエラーを減らすのに特に有用であることを証明している。

We propose Nester, a method for injecting neural networks into constrained structured predictors. The job of the neural network(s) is to compute an initial, raw prediction that is compatible with the input data but does not necessarily satisfy the constraints. The structured predictor then builds a structure using a constraint solver that assembles and corrects the raw predictions in accordance with hard and soft constraints. In doing so, Nester takes advantage of the features of its two components: the neural network learns complex representations from low-level data while the constraint programming component reasons about the high-level properties of the prediction task. The entire architecture can be trained in an end-to-end fashion. An empirical evaluation on handwritten equation recognition shows that Nester achieves better performance than both the neural network and the constrained structured predictor on their own, especially when training examples are scarce, while scaling to more complex problems than other neuro-programming approaches. Nester proves especially useful to reduce errors at the semantic level of the problem, which is particularly challenging for neural network architectures.Sub
翻訳日:2021-04-01 14:26:35 公開日:2021-03-31
# 同時ナビゲーションと建設ベンチマーク環境

Simultaneous Navigation and Construction Benchmarking Environments ( http://arxiv.org/abs/2103.16732v1 )

ライセンス: Link先を確認
Wenyu Han, Chen Feng, Haoran Wu, Alexander Gao, Armand Jordana, Dong Liu, Lerrel Pinto, Ludovic Righetti(参考訳) モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。 このタスクでは、ロボットの正確な位置認識とナビゲーションと戦略的環境操作の双方向的結合によって引き起こされる困難のために、gpsなしで設計を正確に達成する方法が大きな課題となる。 しかし、視覚ナビゲーションやロボット操作といった既存のロボットビジョンや学習タスクの多くは、これら2つの要素のうちの1つだけに対応している。 汎用的かつ適応的なソリューションの追求を促進するため、1/2/3Dグリッドの世界における部分的に観測可能なマルコフ決定プロセス(POMDP)としての移動体構築を合理的に単純化し、手作り政策の性能を基礎的な位置化と計画、最先端の深層学習(RL)手法でベンチマークする。 我々の広範な実験は、この結合がこれらの方法においてこの問題を非常に困難にし、新しいタスク固有のソリューションの必要性を強調していることを示している。

We need intelligent robots for mobile construction, the process of navigating in an environment and modifying its structure according to a geometric design. In this task, a major robot vision and learning challenge is how to exactly achieve the design without GPS, due to the difficulty caused by the bi-directional coupling of accurate robot localization and navigation together with strategic environment manipulation. However, many existing robot vision and learning tasks such as visual navigation and robot manipulation address only one of these two coupled aspects. To stimulate the pursuit of a generic and adaptive solution, we reasonably simplify mobile construction as a partially observable Markov decision process (POMDP) in 1/2/3D grid worlds and benchmark the performance of a handcrafted policy with basic localization and planning, and state-of-the-art deep reinforcement learning (RL) methods. Our extensive experiments show that the coupling makes this problem very challenging for those methods, and emphasize the need for novel task-specific solutions.
翻訳日:2021-04-01 14:26:20 公開日:2021-03-31
# JavaScriptのソースコード埋め込みによる可塑性パッチの探索

Exploring Plausible Patches Using Source Code Embeddings in JavaScript ( http://arxiv.org/abs/2103.16846v1 )

ライセンス: Link先を確認
Viktor Csuvik, D\'aniel Horv\'ath, M\'ark Lajk\'o, L\'aszl\'o Vid\'acs(参考訳) 自動プログラム修正(APR)の分野では非常に人気があるにもかかわらず、パッチ検証の問題はまだ未解決である。 現在のアプローチのほとんどは、まずは候補ソリューションが生成され、その後はオラクルに対して検証される、いわゆるGenerate-and-Validat eアプローチに従っている。 しかし後者は、このようなオラクルに欠陥があるため、信頼できる結果を与えないかもしれない。 テストスイートの実行(re-)は鼻の真下にあるが、現実のアプリケーションではオーバーフィットとアンダーフィッティングの問題がしばしば発生し、パッチが不十分になる。 この問題に対処するための努力は、パッチフィルタリング、テストスイートの拡張、慎重にパッチを作成することなどだ。 これまでのアプローチでは,テスト実行トレースに依存するか,あるいは生成されたパッチで測定した類似性を利用したポストフィルタを使用する場合が多い。 私たちの目標は、これらの類似性に基づくアプローチの性質を調べることです。 そのため、オープンソースJavaScriptプロジェクトでDoc2Vecモデルをトレーニングし、10のバグに対して465のパッチを生成しました。 これらのパッチと開発者修正は、元のプログラムと類似性に基づいてランク付けされる。 これらの類似度リストを分析し、プレーンなドキュメントの埋め込みが誤分類につながる可能性があることを発見した。 それにもかかわらず、いくつかのケースでは有用な情報を提供し、プログラムの自動修復の領域をよりよく理解するのに役立つ。

Despite the immense popularity of the Automated Program Repair (APR) field, the question of patch validation is still open. Most of the present-day approaches follow the so-called Generate-and-Validat e approach, where first a candidate solution is being generated and after validated against an oracle. The latter, however, might not give a reliable result, because of the imperfections in such oracles; one of which is usually the test suite. Although (re-) running the test suite is right under one's nose, in real life applications the problem of over- and underfitting often occurs, resulting in inadequate patches. Efforts that have been made to tackle with this problem include patch filtering, test suite expansion, careful patch producing and many more. Most approaches to date use post-filtering relying either on test execution traces or make use of some similarity concept measured on the generated patches. Our goal is to investigate the nature of these similarity-based approaches. To do so, we trained a Doc2Vec model on an open-source JavaScript project and generated 465 patches for 10 bugs in it. These plausible patches alongside with the developer fix are then ranked based on their similarity to the original program. We analyzed these similarity lists and found that plain document embeddings may lead to misclassification - it fails to capture nuanced code semantics. Nevertheless, in some cases it also provided useful information, thus helping to better understand the area of Automated Program Repair.
翻訳日:2021-04-01 14:26:00 公開日:2021-03-31
# 単一マイクロホンを用いたエンド・ツー・エンドマルチトーカーasrの大規模事前学習

Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting Transcription with Single Distant Microphone ( http://arxiv.org/abs/2103.16776v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Guoli Ye, Yu Wu, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 1つの遠隔マイクロホン(SDM)で重なり合う音声を含む会議を翻訳することは、音声認識(ASR)において最も難しい問題の一つである。 様々なアプローチが提案されているが、従来のモナウラル重なり音声認識問題の研究はすべてシミュレーションデータか小規模実データに基づいている。 本稿では,まず,大規模シミュレーションデータを用いてsot(serialized output training)ベースのマルチトーカasrを事前学習し,少量の実会議データを用いてモデルを微調整する2段階の手法を徹底的に検討する。 内部シングルトーカー記録の7万時間(K時間)を利用して、教師付き事前学習のための合計900K時間のマルチトーカー音声セグメントをシミュレートして実験を行った。 SOT ASRモデルは,AMI-SDMトレーニングデータの70時間の微調整により,テストセグメント毎に話者を自動的に数えながら,AMI-SDM評価セットの単語誤り率(WER)を21.2%向上させる。 この結果は、従来の36.4%の最先端のWERのオラクル発話境界情報よりもはるかに優れているだけでなく、ビームフォーミングオーディオに適用された同様の微調整シングルトーカーASRモデルによる結果よりも優れている。

Transcribing meetings containing overlapped speech with only a single distant microphone (SDM) has been one of the most challenging problems for automatic speech recognition (ASR). While various approaches have been proposed, all previous studies on the monaural overlapped speech recognition problem were based on either simulation data or small-scale real data. In this paper, we extensively investigate a two-step approach where we first pre-train a serialized output training (SOT)-based multi-talker ASR by using large-scale simulation data and then fine-tune the model with a small amount of real meeting data. Experiments are conducted by utilizing 75 thousand (K) hours of our internal single-talker recording to simulate a total of 900K hours of multi-talker audio segments for supervised pre-training. With fine-tuning on the 70 hours of the AMI-SDM training data, our SOT ASR model achieves a word error rate (WER) of 21.2% for the AMI-SDM evaluation set while automatically counting speakers in each test segment. This result is not only significantly better than the previous state-of-the-art WER of 36.4% with oracle utterance boundary information but also better than a result by a similarly fine-tuned single-talker ASR model applied to beamformed audio.
翻訳日:2021-04-01 14:25:12 公開日:2021-03-31
# Q-ASR:効率的な音声認識のための整数のみゼロショット量子化

Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition ( http://arxiv.org/abs/2103.16827v1 )

ライセンス: Link先を確認
Sehoon Kim, Amir Gholami, Zhewei Yao, Anirudda Nrusimha, Bohan Zhai, Tianren Gao, Michael W. Mahoney, Kurt Keutzer(参考訳) エンドツーエンドのニューラルネットワークモデルは、様々な自動音声認識(ASR)タスクの性能を向上させる。 しかし、これらのモデルは大きなメモリと計算要求のためにエッジハードウェアでは性能が良くない。 モデル重みの定量化や低精度化へのアクティベーションは有望な解決策であるが、asrモデルの定量化に関するこれまでの研究は限られている。 ほとんどの量子化アプローチでは、推論中に浮動小数点演算を用いるため、浮動小数点演算よりも消費電力が少ない整数処理ユニットを十分に活用することはできない。 さらに、微調整や校正のために量子化中のトレーニング/バリデーションデータを必要とするが、セキュリティ/プライバシの懸念により、このデータは利用できない可能性がある。 これらの制約に対処するため、ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。 特に,実行時統計が実データに類似した合成データを生成し,量子化時のモデルのキャリブレーションに利用する。 次に、Q-ASRを用いてQuartzNet-15x5とJasperDR-10x5をトレーニングデータなしで定量化し、完全精度ベースラインモデルと比較して無視可能なWER変化を示す。 INT8のみの量子化では、最大0.29%の非常に控えめなWER劣化を観測し、T4 GPUでは最大2.44倍のスピードアップを達成する。 さらに、Q-ASRは、WER劣化の少ない4倍を超える大きな圧縮速度を示す。

End-to-end neural network models achieve improved performance on various automatic speech recognition (ASR) tasks. However, these models perform poorly on edge hardware due to large memory and computation requirements. While quantizing model weights and/or activations to low-precision can be a promising solution, previous research on quantizing ASR models is limited. Most quantization approaches use floating-point arithmetic during inference; and thus they cannot fully exploit integer processing units, which use less power than their floating-point counterparts. Moreover, they require training/validation data during quantization for finetuning or calibration; however, this data may not be available due to security/privacy concerns. To address these limitations, we propose Q-ASR, an integer-only, zero-shot quantization scheme for ASR models. In particular, we generate synthetic data whose runtime statistics resemble the real data, and we use it to calibrate models during quantization. We then apply Q-ASR to quantize QuartzNet-15x5 and JasperDR-10x5 without any training data, and we show negligible WER change as compared to the full-precision baseline models. For INT8-only quantization, we observe a very modest WER degradation of up to 0.29%, while we achieve up to 2.44x speedup on a T4 GPU. Furthermore, Q-ASR exhibits a large compression rate of more than 4x with small WER degradation.
翻訳日:2021-04-01 14:24:48 公開日:2021-03-31
# moai:covid-19感染における室内気流の影響評価手法

MOAI: A methodology for evaluating the impact of indoor airflow in the transmission of COVID-19 ( http://arxiv.org/abs/2103.17096v1 )

ライセンス: Link先を確認
Axel Oehmichen, Florian Guitton, Cedric Wahl, Bertrand Foing, Damian Tziamtzis, Yike Guo(参考訳) 疫学モデルは新型コロナウイルスのパンデミックの理解と対応に重要な役割を果たしている。 これらのモデルを構築するためには、貢献要因とその相対的重要性を理解する必要がある。 大量の文献が、液滴や遠方界エアロゾルの伝播リスクを軽減するために空気の流れが重要であると指摘している。 しかし, 様々な環境における汚染の増大や低下に寄与する特定の要因は明確に定義されておらず, 定量化されていない。 moaiプロジェクト(https://moaiapp.com )の一部として、私たちは、感染クラスター調査員が自分のアイデンティティを知らずに患者と接触できるように、プライバシーを保ったテストとトレースアプリを開発しています。 このアプローチにより、匿名調査の形式で追加情報を提供することで、パンデミックとの戦いにユーザを巻き込むことができる。 まず, アンケートがどのように設計され, 最新の文献で実施したレビューに基づいて, 合成データを生成した。 次に、所定の設定に対するユーザのリスク表現を評価するモデルを提案する。 最終的に、あるユーザに対する時間的リスク露光を評価するために、モデルに時間的追加を提案する。

Epidemiology models play a key role in understanding and responding to the COVID-19 pandemic. In order to build those models, scientists need to understand contributing factors and their relative importance. A large strand of literature has identified the importance of airflow to mitigate droplets and far-field aerosol transmission risks. However, the specific factors contributing to higher or lower contamination in various settings have not been clearly defined and quantified. As part of the MOAI project (https://moaiapp.com ), we are developing a privacy-preserving test and trace app to enable infection cluster investigators to get in touch with patients without having to know their identity. This approach allows involving users in the fight against the pandemic by contributing additional information in the form of anonymous research questionnaires. We first describe how the questionnaire was designed, and the synthetic data was generated based on a review we carried out on the latest available literature. We then present a model to evaluate the risk exposition of a user for a given setting. We finally propose a temporal addition to the model to evaluate the risk exposure over time for a given user.
翻訳日:2021-04-01 14:24:25 公開日:2021-03-31
# 瞬時相互作用のための連続潜時位置モデル

Continuous Latent Position Models for Instantaneous Interactions ( http://arxiv.org/abs/2103.17146v1 )

ライセンス: Link先を確認
Riccardo Rastelli and Marco Corneli(参考訳) 一対のエンティティ間の即時相互作用のタイミングと頻度を分析するためのフレームワークを作成します。 このタイプのインタラクションデータは、特に最近は一般的であり、容易に利用できる。 瞬時相互作用の例としては、電子メールネットワーク、電話ネットワーク、およびいくつかの一般的な技術および輸送ネットワークがある。 我々のフレームワークは、潜在位置ネットワークモデルの新たな拡張に依存している: 実体が潜在ユークリッド空間に埋め込まれており、時間とともに連続する個々の軌道に沿って移動すると仮定する。 これらの軌道は、ペアの相互作用のタイミングと頻度を特徴付けるために用いられる。 本稿では,観測された相互作用データから個々の軌跡を推定する推論フレームワークについて論じ,人工的および実データへの応用を提案する。

We create a framework to analyse the timing and frequency of instantaneous interactions between pairs of entities. This type of interaction data is especially common nowadays, and easily available. Examples of instantaneous interactions include email networks, phone call networks and some common types of technological and transportation networks. Our framework relies on a novel extension of the latent position network model: we assume that the entities are embedded in a latent Euclidean space, and that they move along individual trajectories which are continuous over time. These trajectories are used to characterize the timing and frequency of the pairwise interactions. We discuss an inferential framework where we estimate the individual trajectories from the observed interaction data, and propose applications on artificial and real data.
翻訳日:2021-04-01 14:24:08 公開日:2021-03-31
# マルチコントラストMRIにおけるサンプリングと再構成の深部同時最適化

Deep Simultaneous Optimisation of Sampling and Reconstruction for Multi-contrast MRI ( http://arxiv.org/abs/2103.16744v1 )

ライセンス: Link先を確認
Xinwen Liu, Jing Wang, Fangfang Tang, Shekhar S. Chandra, Feng Liu, and Stuart Crozier(参考訳) 異なるコントラストの同じ被験者のMRI画像は、解剖学的構造のような共有情報を含んでいる。 サブサンプルのコントラスト間の冗長な情報を活用し、マルチコントラスト画像の忠実な再構成は、画像のスピードを大幅に加速し、画質を改善し、走査プロトコルを短縮する。 本稿では,1つのコントラストの最適化サンプリングパターンと再構成スキームを生成するアルゴリズムを提案する。 T2強調画像) 異なるコントラストを持つ画像(例) T1強調画像)が取得された。 提案アルゴリズムはPSNRとSSIMの増大を他の取得パターンや単一コントラスト法と比較して最適なサンプリングパターンで達成する。

MRI images of the same subject in different contrasts contain shared information, such as the anatomical structure. Utilizing the redundant information amongst the contrasts to sub-sample and faithfully reconstruct multi-contrast images could greatly accelerate the imaging speed, improve image quality and shorten scanning protocols. We propose an algorithm that generates the optimised sampling pattern and reconstruction scheme of one contrast (e.g. T2-weighted image) when images with different contrast (e.g. T1-weighted image) have been acquired. The proposed algorithm achieves increased PSNR and SSIM with the resulting optimal sampling pattern compared to other acquisition patterns and single contrast methods.
翻訳日:2021-04-01 14:23:34 公開日:2021-03-31
# デュアルコントラスト損失とGANの注意

Dual Contrastive Loss and Attention for GANs ( http://arxiv.org/abs/2103.16748v1 )

ライセンス: Link先を確認
Ning Yu, Guilin Liu, Aysegul Dundar, Andrew Tao, Bryan Catanzaro, Larry Davis, Mario Fritz(参考訳) GAN(Generative Adversarial Networks)は、大規模画像データセットを使用すると、無条件画像生成において印象的な結果が得られる。 しかし、生成した画像は、特に高分散(例えば、)のデータセットで見つけやすい。 寝室、教会)。 本稿では,画像生成における境界をさらに推し進めるために,様々な改良を提案する。 具体的には,新しい双対コントラスト損失を提案し,この損失により識別器はより一般化され識別可能な表現を学習し,生成をインセンティブ化することを示す。 さらに,注目度を再検討し,ジェネレータ内の異なる注意ブロックを広範囲に実験する。 最近の最先端モデルでは使われていないものの、画像生成にはまだ重要なモジュールとして注目が集まっている。 最後に,識別器の異なる注意構造について検討し,参照注意機構を提案する。 これらの治療法の強みを組み合わせることで、いくつかのベンチマークデータセットにおいて、魅力的なFr\'{e}chet Inception Distance(FID)を少なくとも17.5%改善する。 合成合成シーンにおいてさらに重要な改善が得られた(fidでは最大47.5%)。

Generative Adversarial Networks (GANs) produce impressive results on unconditional image generation when powered with large-scale image datasets. Yet generated images are still easy to spot especially on datasets with high variance (e.g. bedroom, church). In this paper, we propose various improvements to further push the boundaries in image generation. Specifically, we propose a novel dual contrastive loss and show that, with this loss, discriminator learns more generalized and distinguishable representations to incentivize generation. In addition, we revisit attention and extensively experiment with different attention blocks in the generator. We find attention to be still an important module for successful image generation even though it was not used in the recent state-of-the-art models. Lastly, we study different attention architectures in the discriminator, and propose a reference attention mechanism. By combining the strengths of these remedies, we improve the compelling state-of-the-art Fr\'{e}chet Inception Distance (FID) by at least 17.5% on several benchmark datasets. We obtain even more significant improvements on compositional synthetic scenes (up to 47.5% in FID).
翻訳日:2021-04-01 14:23:24 公開日:2021-03-31
# ラベルなし超スペクトル画像融合のための自己回帰学習

Self-Regression Learning for Blind Hyperspectral Image Fusion Without Label ( http://arxiv.org/abs/2103.16806v1 )

ライセンス: Link先を確認
Wu Wang, Yue Huang, Xinhao Ding(参考訳) ハイパースペクトル画像融合(HIF)は、リモートセンシングや多くのコンピュータビジョンアプリケーションにおいて幅広い用途に欠かせない。 ほとんどの従来のhif法は、観測モデルが事前に定義または知られていると仮定している。 しかし、実際のアプリケーションでは、関連する観測モデルはしばしば複雑で未知であり、多くの高度なhifメソッドが深刻な性能低下に繋がる。 また、ディープラーニング手法は優れた性能を達成することができるが、現実的なシナリオでは入手が困難であるモデルトレーニングには、一般的に多数のイメージペアが必要である。 これらの課題に対して,ハイパースペクトル画像(HSI)を再構成し,観測モデルを推定する自己回帰学習手法を提案する。 特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全接続型ネットワーク (fcn) を採用した。 さらに、非負性、疎性、等式制約を満たすために、 FCN に \emph{SoftMax} の非線形性を適用する。 さらに,ドメイン固有知識を探索することで観測モデルを制約する局所的整合損失関数を提案する。 最後に,スペクトル再構成精度を向上させる角損失関数を提案する。 合成と実世界の両方のデータセットの大規模な実験により、我々のモデルは最先端の手法より優れていることが示された。

Hyperspectral image fusion (HIF) is critical to a wide range of applications in remote sensing and many computer vision applications. Most traditional HIF methods assume that the observation model is predefined or known. However, in real applications, the observation model involved are often complicated and unknown, which leads to the serious performance drop of many advanced HIF methods. Also, deep learning methods can achieve outstanding performance, but they generally require a large number of image pairs for model training, which are difficult to obtain in realistic scenarios. Towards these issues, we proposed a self-regression learning method that alternatively reconstructs hyperspectral image (HSI) and estimate the observation model. In particular, we adopt an invertible neural network (INN) for restoring the HSI, and two fully-connected network (FCN) for estimating the observation model. Moreover, \emph{SoftMax} nonlinearity is applied to the FCN for satisfying the non-negative, sparsity and equality constraints. Besides, we proposed a local consistency loss function to constrain the observation model by exploring domain specific knowledge. Finally, we proposed an angular loss function to improve spectral reconstruction accuracy. Extensive experiments on both synthetic and real-world dataset show that our model can outperform the state-of-the-art methods
翻訳日:2021-04-01 14:23:09 公開日:2021-03-31
# リアルタイム手術映像解析のための視覚的局所化マッピング(vSLAM)をマスクR-CNNに統合した新しい深部MLアーキテクチャ

A Novel Deep ML Architecture by Integrating Visual Simultaneous Localization and Mapping (vSLAM) into Mask R-CNN for Real-time Surgical Video Analysis ( http://arxiv.org/abs/2103.16847v1 )

ライセンス: Link先を確認
Ella Selina Lan(参考訳) 手術後、毎年700万人が合併症に苦しむ。 十分な外科的訓練とフィードバックにより、これらの合併症の半分を予防できる。 外科的ビデオの自動解析、特に最小侵襲手術は、ツールとワークフロー検出に関する最近の研究から関心が高まり、トレーニングとレビューにおいて重要な役割を担っている。 本研究では,新しい機械学習アーキテクチャであるRPM-CNNを作成し,リアルタイムな手術映像解析を行う。 このアーキテクチャは初めて、視覚的同時ローカライゼーションとマッピング(vSLAM)をMask R-CNNに統合する。 視覚的な特徴に加えて、時空間情報はツール検出のための96.8マップとワークフロー検出のための97.5平均jaccardに精度を向上させるために利用され、同じベンチマークデータセットで以前のすべての作業を超える。 リアルタイム予測として、RPM-CNNモデルは、vSLAM 3Dマッピング中の手術ビデオから直接、時空間情報をモデル化することにより、50FPSのランタイムパフォーマンス速度、地域ベースCNNの10倍の速度に達する。 さらに、この新しいリージョン提案モジュール(RPM)は、Mask R-CNNのリージョン提案ネットワーク(RPN)を置き換え、バウンディングボックスを正確に配置し、アノテーション要件を小さくする。 原則として、このアーキテクチャは、1) 対象検出に関するvslam、地域提案のための幾何学的情報に焦点を当てること、2) 画像分類のための意味情報に焦点を当てることによるオブジェクト認識に関するcnn、という2つの世界のベストを統合する。 さらに、RPM-CNNのリアルタイムトップパフォーマンスを現実世界に適用するために、Microsoft HoloLens 2アプリケーションが開発され、手術訓練と補助の両方に拡張現実(AR)ベースのソリューションを提供する。

Seven million people suffer complications after surgery each year. With sufficient surgical training and feedback, half of these complications could be prevented. Automatic surgical video analysis, especially for minimally invasive surgery, plays a key role in training and review, with increasing interests from recent studies on tool and workflow detection. In this research, a novel machine learning architecture, RPM-CNN, is created to perform real-time surgical video analysis. This architecture, for the first time, integrates visual simultaneous localization and mapping (vSLAM) into Mask R-CNN. Spatio-temporal information, in addition to the visual features, is utilized to increase the accuracy to 96.8 mAP for tool detection and 97.5 mean Jaccard for workflow detection, surpassing all previous works via the same benchmark dataset. As a real-time prediction, the RPM-CNN model reaches a 50 FPS runtime performance speed, 10x faster than region based CNN, by modeling the spatio-temporal information directly from surgical videos during the vSLAM 3D mapping. Additionally, this novel Region Proposal Module (RPM) replaces the region proposal network (RPN) in Mask R-CNN, accurately placing bounding-boxes and lessening the annotation requirement. In principle, this architecture integrates the best of both worlds, inclusive of 1) vSLAM on object detection, through focusing on geometric information for region proposals and 2) CNN on object recognition, through focusing on semantic information for image classification; the integration of these two technologies into one joint training process opens a new door in computer vision. Furthermore, to apply RPM-CNN's real-time top performance to the real world, a Microsoft HoloLens 2 application is developed to provide an augmented reality (AR) based solution for both surgical training and assistance.
翻訳日:2021-04-01 14:22:49 公開日:2021-03-31
# 直列生成逆ネットワークによるリモートセンシング画像からのマルチスケールマップの生成

Generating Multi-scale Maps from Remote Sensing Images via Series Generative Adversarial Networks ( http://arxiv.org/abs/2103.16909v1 )

ライセンス: Link先を確認
Xu Chen, Bangguo Yin, Songqiang Chen, Haifeng Li and Tian Xu(参考訳) 画像と画像の翻訳におけるGAN(Generative Adversarial Network)の成功を考えると、研究者はカートグラフィーのためにGANを介してリモートセンシング画像(RSI)を地図(rs2map)に翻訳しようと試みている。 しかし、これらの研究には限定的なスケールが含まれており、これは複数スケールの地図作成を妨げる。 これらの手法を拡張することにより、マルチスケールRS2マップ変換(multi-scale rs2map translation)に自明に変換することができる。 しかし、この戦略には2つの理論的制限がある。 まず,多スケールrsisの様々な空間分解能と多スケールマップ上の対象一般化(rs-m不整合)との非一貫性は,rs2mapモデルにおけるrsisからの地理的情報抽出をますます複雑化する。 第二に、rs2mapの変換はクロスドメインであるため、生成元は高計算コストでRSIピクセルの分布を地図上で変換する。 そこで本研究では,マルチスケールrs2map変換のためのジェネレータの系列戦略を考案した。 この戦略では、RS2マップモデルに高分解能RSIを入力して大規模マップを出力し、連続したマルチスケールマップ変換モデルを通してマルチスケールマップに変換する。 シリーズ戦略は、入力が高解像度の大規模rsisであるため、rs-mの不整合を回避し、マルチスケールマップ間の類似画素分布を通じて、マルチスケールマップ生成における分散ギャップを低減する。 実験の結果,構造類似度指数,エッジ構造類似度指数,結合(道路)の交差,およびメキシコシティと東京のデータに対する結合(水)の交わりをズームレベル17~13で平均11.69%,53.78%,55.42% ,72.34%増加させた。

Considering the success of generative adversarial networks (GANs) for image-to-image translation, researchers have attempted to translate remote sensing images (RSIs) to maps (rs2map) through GAN for cartography. However, these studies involved limited scales, which hinders multi-scale map creation. By extending their method, multi-scale RSIs can be trivially translated to multi-scale maps (multi-scale rs2map translation) through scale-wise rs2map models trained for certain scales (parallel strategy). However, this strategy has two theoretical limitations. First, inconsistency between various spatial resolutions of multi-scale RSIs and object generalization on multi-scale maps (RS-m inconsistency) increasingly complicate the extraction of geographical information from RSIs for rs2map models with decreasing scale. Second, as rs2map translation is cross-domain, generators incur high computation costs to transform the RSI pixel distribution to that on maps. Thus, we designed a series strategy of generators for multi-scale rs2map translation to address these limitations. In this strategy, high-resolution RSIs are inputted to an rs2map model to output large-scale maps, which are translated to multi-scale maps through series multi-scale map translation models. The series strategy avoids RS-m inconsistency as inputs are high-resolution large-scale RSIs, and reduces the distribution gap in multi-scale map generation through similar pixel distributions among multi-scale maps. Our experimental results showed better quality multi-scale map generation with the series strategy, as shown by average increases of 11.69%, 53.78%, 55.42%, and 72.34% in the structural similarity index, edge structural similarity index, intersection over union (road), and intersection over union (water) for data from Mexico City and Tokyo at zoom level 17-13.
翻訳日:2021-04-01 14:22:16 公開日:2021-03-31
# 神経表面地図

Neural Surface Maps ( http://arxiv.org/abs/2103.16942v1 )

ライセンス: Link先を確認
Luca Morreale, Noam Aigerman, Vladimir Kim, Niloy J. Mitra(参考訳) 写像は可微分幾何学における多様体曲面の定義と操作に使用される最も基本的な概念の1つである。 したがって、幾何学処理では、地図はユビキタスであり、パラメタライゼーション、形状解析、リメッシング、変形といった多くのコアアプリケーションで使われている。 残念なことに、表面写像のほとんどの計算表現は操作や最適化に役立たず、通常は困難で離散的な問題を伴っている。 これらの問題を解決するアルゴリズムは存在するが、それらは問題に特化しており、surface mapsの一般的なフレームワークはまだ必要である。 本稿では,ニューラルネットワークを曲面マップの符号化として検討する。 ニューラルネットワークは相互に構成可能であり、微分可能であるため、アトラスを介して表面を定義し、表面から表面へのマッピングでそれらを構成し、歪みの概念など、それらに関連する微分可能な目的を自明な方法で最適化することは容易である。 実験では3次元モデルのUVパラメータ化を近似したニューラルマップを生成することで表面を表現した。 そして、このマップを、歪み対策に関して最適化する他のニューラルマップと組み合わせる。 提案手法は,曲面群間の写像など,比較的不可解なマッピングタスクの自明な最適化を可能にすることを示す。

Maps are arguably one of the most fundamental concepts used to define and operate on manifold surfaces in differentiable geometry. Accordingly, in geometry processing, maps are ubiquitous and are used in many core applications, such as paramterization, shape analysis, remeshing, and deformation. Unfortunately, most computational representations of surface maps do not lend themselves to manipulation and optimization, usually entailing hard, discrete problems. While algorithms exist to solve these problems, they are problem-specific, and a general framework for surface maps is still in need. In this paper, we advocate considering neural networks as encoding surface maps. Since neural networks can be composed on one another and are differentiable, we show it is easy to use them to define surfaces via atlases, compose them for surface-to-surface mappings, and optimize differentiable objectives relating to them, such as any notion of distortion, in a trivial manner. In our experiments, we represent surfaces by generating a neural map that approximates a UV parameterization of a 3D model. Then, we compose this map with other neural maps which we optimize with respect to distortion measures. We show that our formulation enables trivial optimization of rather elusive mapping tasks, such as maps between a collection of surfaces.
翻訳日:2021-04-01 14:21:40 公開日:2021-03-31
# 魚眼カメラシステムを用いた低速自動車自動化のための近接場センシングアーキテクチャ

Near-field Sensing Architecture for Low-Speed Vehicle Automation using a Surround-view Fisheye Camera System ( http://arxiv.org/abs/2103.17001v1 )

ライセンス: Link先を確認
Ciar\'an Eising, Jonathan Horgan and Senthil Yogamani(参考訳) カメラは自動走行システムの主要なセンサーである。 高い情報密度を提供し、人間の視覚のために配置された道路インフラの手がかりを検出するのに最適である。 サラウンドビューカメラは、通常4台の魚眼カメラと190個の視野カメラで構成されており、車体周辺の360{\deg}全体を近距離センシングに焦点をあてている。 それらは、自動駐車、交通渋滞支援、低速緊急ブレーキなど、低速で高精度で近接したセンシングアプリケーションのための主要なセンサーである。 本稿では,商用車両に搭載されるシステム用に設計されたサラウンドビューカメラの視覚認識アーキテクチャについて述べるとともに,そのようなコンピュータビジョンシステムの異なる段階の機能を検証し,現在の技術的課題について考察する。 我々は,認識,再構築,再局在化,再編成という4つのモジュールコンポーネントにシステムを設計した。 これを4Rアーキテクチャと呼んでいます。 それぞれのコンポーネントが特定の側面をどのように達成し、どのようにして完全なシステムを形成するかについて議論する。 質的な結果は、ビデオの \url{https://youtu.be/ae8 bCOF77uY} で示される。

Cameras are the primary sensor in automated driving systems. They provide high information density and are optimal for detecting road infrastructure cues laid out for human vision. Surround view cameras typically comprise of four fisheye cameras with 190{\deg} field-of-view covering the entire 360{\deg} around the vehicle focused on near field sensing. They are the principal sensor for low-speed, high accuracy and close-range sensing applications, such as automated parking, traffic jam assistance and low-speed emergency braking. In this work, we describe our visual perception architecture on surround view cameras designed for a system deployed in commercial vehicles, provide a functional review of the different stages of such a computer vision system, and discuss some of the current technological challenges. We have designed our system into four modular components namely Recognition, Reconstruction, Relocalization and Reorganization. We jointly call this the 4R Architecture. We discuss how each component accomplishes a specific aspect and how they are synergized to form a complete system. Qualitative results are presented in the video at \url{https://youtu.be/ae8 bCOF77uY}.
翻訳日:2021-04-01 14:21:20 公開日:2021-03-31
# 可読性$\ell_\infty$-constr ained Near-lossless Image Compression by Joint Lossy Image and Residual Compression

Learning Scalable $\ell_\infty$-constr ained Near-lossless Image Compression via Joint Lossy Image and Residual Compression ( http://arxiv.org/abs/2103.17015v1 )

ライセンス: Link先を確認
Yuanchao Bai, Xianming Liu, Wangmeng Zuo, Yaowei Wang, Xiangyang Ji(参考訳) 本稿では,$\ell_\infty$-const rained near-lossless 画像圧縮を学習するための新しい統合ロス画像圧縮フレームワークを提案する。 具体的には、損失画像圧縮により損失画像の再構成を行い、対応する残差を均一に定量化し、所定の密接な$\ell_\infty$エラーバウンドを満たす。 誤差境界がゼロ、すなわちロスレス画像圧縮であると仮定すると、損失画像と元の残差の両方を変分オートエンコーダで圧縮し、エンドツーエンドのトレーニングで解決する共同最適化問題を定式化する。 ゼロ以上の誤差領域を持つスケーラブルな圧縮を実現するために,複数のネットワークを訓練するのではなく,元の残差の学習確率モデルを量子化することで,量子化残差の確率モデルを導出する。 さらに、トレーニングと推論のコンテキストミスマッチによる導出確率モデルのバイアスを補正する。 最後に、量子化残差をバイアス補正確率モデルに従って符号化し、圧縮損失画像のビットストリームと連結する。 実験結果から,ロスレスおよびロスレス画像圧縮の最先端性能を達成し,高いビットレートでロスレス画像コーデックと比較して,より小さい$\ell_\infty$エラーで競合するpsnrを実現することができた。

We propose a novel joint lossy image and residual compression framework for learning $\ell_\infty$-constr ained near-lossless image compression. Specifically, we obtain a lossy reconstruction of the raw image through lossy image compression and uniformly quantize the corresponding residual to satisfy a given tight $\ell_\infty$ error bound. Suppose that the error bound is zero, i.e., lossless image compression, we formulate the joint optimization problem of compressing both the lossy image and the original residual in terms of variational auto-encoders and solve it with end-to-end training. To achieve scalable compression with the error bound larger than zero, we derive the probability model of the quantized residual by quantizing the learned probability model of the original residual, instead of training multiple networks. We further correct the bias of the derived probability model caused by the context mismatch between training and inference. Finally, the quantized residual is encoded according to the bias-corrected probability model and is concatenated with the bitstream of the compressed lossy image. Experimental results demonstrate that our near-lossless codec achieves the state-of-the-art performance for lossless and near-lossless image compression, and achieves competitive PSNR while much smaller $\ell_\infty$ error compared with lossy image codecs at high bit rates.
翻訳日:2021-04-01 14:21:05 公開日:2021-03-31
# iCurb: 自律走行のための航空画像を用いた暗示学習による道路カーブ検出

iCurb: Imitation Learning-based Detection of Road Curbs using Aerial Images for Autonomous Driving ( http://arxiv.org/abs/2103.17118v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxiang Sun, Ming Liu(参考訳) 自動走行には,道路縁石の検出が不可欠である。 自動運転車が道路の乾燥可能な地域を決定するのに使用できる。 通常、道路の縁石は、ビデオカメラや3dlidarなどの車載センサーを使ってオンラインで検出される。 しかし, ビデオカメラを用いたオンライン検出は照明条件の難しさに悩まされる可能性があり, 点雲のばらつきが原因で, 遠距離道路封鎖の検出は困難である。 近年、航空画像はますます世界中で利用されるようになった。 航空画像では道路エリアとオフロードエリアの視覚的な外観が通常異なることが分かり、航空画像を用いてオフラインの道路縁石を検出する新しい方法を提案する。 提案手法への入力は空中画像であり,出力は直接道路縁を表すグラフ(頂点と縁)である。 この目的のために、問題を模倣学習問題として定式化し、新しいネットワークと革新的なトレーニング戦略をデザインし、エージェントに道路カーブグラフを反復的に見つけるように訓練する。 公開データセットにおける実験結果から,本手法の有効性と優越性を確認した。 この作業にはデモビデオと,https://tonyxuqaq.g ithub.io/iCurb/.comで追加資料が添付されている。

Detection of road curbs is an essential capability for autonomous driving. It can be used for autonomous vehicles to determine drivable areas on roads. Usually, road curbs are detected on-line using vehicle-mounted sensors, such as video cameras and 3-D Lidars. However, on-line detection using video cameras may suffer from challenging illumination conditions, and Lidar-based approaches may be difficult to detect far-away road curbs due to the sparsity issue of point clouds. In recent years, aerial images are becoming more and more worldwide available. We find that the visual appearances between road areas and off-road areas are usually different in aerial images, so we propose a novel solution to detect road curbs off-line using aerial images. The input to our method is an aerial image, and the output is directly a graph (i.e., vertices and edges) representing road curbs. To this end, we formulate the problem as an imitation learning problem, and design a novel network and an innovative training strategy to train an agent to iteratively find the road-curb graph. The experimental results on a public dataset confirm the effectiveness and superiority of our method. This work is accompanied with a demonstration video and a supplementary document at https://tonyxuqaq.gi thub.io/iCurb/.
翻訳日:2021-04-01 14:20:37 公開日:2021-03-31
# トポバウンダリ:航空画像を用いたトポロジカルロードバウンダリ検出のためのベンチマークデータセット

Topo-boundary: A Benchmark Dataset on Topological Road-boundary Detection Using Aerial Images for Autonomous Driving ( http://arxiv.org/abs/2103.17119v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxiang Sun, Ming Liu(参考訳) 道路境界検出は自動運転にとって重要である。 例えば、路上を走る車両を制限するために使用することができ、運転の安全性が保証される。 車載カメラ/ライダーを用いたオンラインの道路境界検出と比較すると、空中画像を用いたオフライン検出は深刻な閉塞問題を緩和する可能性がある。 さらに、オフライン検出結果から直接高精細(HD)マップに注釈を付けることもできる。 近年,オフライン検出にディープラーニング技術が用いられている。 しかし、このタスクの公開データセットがまだ欠けているため、この分野の研究の進展を妨げている。 そこで本稿では,オフライントポロジカル道路境界検出のためのベンチマークデータセットであるtextit{Topo-boundary}を提案する。 データセットには21,556ドルの1000ドル相当の4チャンネルの空中画像が含まれている。 各画像には、異なるサブタスクのための8つのトレーニングラベルが提供される。 接続評価のための新しいエントロピーベースのメトリクスも設計しています。 データセットを用いて,3つのセグメンテーションベースラインと5つのグラフベースラインを実装し,評価する。 また,本研究から拡張した模擬学習ベースラインについても提案する。 比較から、我々の強化の優越性が示される。 ベースラインのデータセットと実装済みコードは、https://sites.google .com/view/topo-bound ary.com/で利用可能です。

Road-boundary detection is important for autonomous driving. For example, it can be used to constrain vehicles running on road areas, which ensures driving safety. Compared with on-line road-boundary detection using on-vehicle cameras/Lidars, off-line detection using aerial images could alleviate the severe occlusion issue. Moreover, the off-line detection results can be directly used to annotate high-definition (HD) maps. In recent years, deep-learning technologies have been used in off-line detection. But there is still lacking a publicly available dataset for this task, which hinders the research progress in this area. So in this paper, we propose a new benchmark dataset, named \textit{Topo-boundary}, for off-line topological road-boundary detection. The dataset contains 21,556 $1000\times1000$-siz ed 4-channel aerial images. Each image is provided with 8 training labels for different sub-tasks. We also design a new entropy-based metric for connectivity evaluation, which could better handle noises or outliers. We implement and evaluate 3 segmentation-based baselines and 5 graph-based baselines using the dataset. We also propose a new imitation-learning-b ased baseline which is enhanced from our previous work. The superiority of our enhancement is demonstrated from the comparison. The dataset and our-implemented codes for the baselines are available at https://sites.google .com/view/topo-bound ary.
翻訳日:2021-04-01 14:20:16 公開日:2021-03-31
# ニューラルネットワークトレーニングのためのダンプニュートン確率勾配降下法の研究

Research of Damped Newton Stochastic Gradient Descent Method for Neural Network Training ( http://arxiv.org/abs/2103.16764v1 )

ライセンス: Link先を確認
Jingcheng Zhou, Wei Wei, Zhiming Zheng(参考訳) 確率勾配降下(SGD)のような一階法は近年、ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化手法であるが、高階情報を得るのに高コストの計算コストがかかるため、二階法はほとんど使われていない。 本稿では,ダンプニュートン確率勾配勾配降下法(dn-sgd法)と確率勾配勾配降下法(sgd-dn法)を提案し,平均二乗誤差(mse)による回帰問題とクロスエントロピー損失(cel)による分類問題に対するdnnの訓練を行う。 すべてのパラメータのヘッセン行列を推定する他の二階法とは異なり、この手法はパラメータのごく一部を正確に計算し、計算コストを大幅に削減し、学習プロセスの収束をsgdよりも高速かつ高精度にする。 本手法の有効性を検証するため,実日付セットに関する数値実験を行った。

First-order methods like stochastic gradient descent(SGD) are recently the popular optimization method to train deep neural networks (DNNs), but second-order methods are scarcely used because of the overpriced computing cost in getting the high-order information. In this paper, we propose the Damped Newton Stochastic Gradient Descent(DN-SGD) method and Stochastic Gradient Descent Damped Newton(SGD-DN) method to train DNNs for regression problems with Mean Square Error(MSE) and classification problems with Cross-Entropy Loss(CEL), which is inspired by a proved fact that the hessian matrix of last layer of DNNs is always semi-definite. Different from other second-order methods to estimate the hessian matrix of all parameters, our methods just accurately compute a small part of the parameters, which greatly reduces the computational cost and makes convergence of the learning process much faster and more accurate than SGD. Several numerical experiments on real datesets are performed to verify the effectiveness of our methods for regression and classification problems.
翻訳日:2021-04-01 14:19:18 公開日:2021-03-31
# 時空間データマイニング:課題とオープン問題に関する調査

Spatiotemporal Data Mining: A Survey on Challenges and Open Problems ( http://arxiv.org/abs/2103.17128v1 )

ライセンス: Link先を確認
Ali Hamdi, Khaled Shaban, Abdelkarim Erradi, Amr Mohamed, Shakila Khan Rumi, Flora Salim(参考訳) 時空間データマイニング(STDM)は、空間と時間の間の動的相互作用から有用なパターンを発見する。 利用可能ないくつかの調査はSTDMの進歩を捉え、この分野の重要な進歩を報告している。 しかし、STDMの課題や課題は十分に議論されておらず、彼ら自身の論文で紹介されている。 我々は,STDMの最先端に関する総合的な文献調査を提供することで,このギャップを埋めようとしている。 複数のSTDM方向と側面の課題とその原因と開き間隙について述べる。 具体的には,時空間的関係,学際性,離散性,データ特性に関する課題について検討する。 さらに,時空間データ表現,モデリングと可視化,アプローチの包括性に関連する文献やオープンな研究の限界についても論じる。 本稿では,stdmタスクである分類,クラスタリング,ホットスポット検出,関連付けとパターンマイニング,異常検出,可視化,ビジュアル分析,コンピュータビジョンタスクに関する課題について述べる。 また、犯罪や公共の安全、交通や交通、地球と環境のモニタリング、疫学、ソーシャルメディア、モノのインターネットなど、様々な応用に関するSTDMの課題も強調する。

Spatiotemporal data mining (STDM) discovers useful patterns from the dynamic interplay between space and time. Several available surveys capture STDM advances and report a wealth of important progress in this field. However, STDM challenges and problems are not thoroughly discussed and presented in articles of their own. We attempt to fill this gap by providing a comprehensive literature survey on state-of-the-art advances in STDM. We describe the challenging issues and their causes and open gaps of multiple STDM directions and aspects. Specifically, we investigate the challenging issues in regards to spatiotemporal relationships, interdisciplinarity, discretisation, and data characteristics. Moreover, we discuss the limitations in the literature and open research problems related to spatiotemporal data representations, modelling and visualisation, and comprehensiveness of approaches. We explain issues related to STDM tasks of classification, clustering, hotspot detection, association and pattern mining, outlier detection, visualisation, visual analytics, and computer vision tasks. We also highlight STDM issues related to multiple applications including crime and public safety, traffic and transportation, earth and environment monitoring, epidemiology, social media, and Internet of Things.
翻訳日:2021-04-01 14:18:56 公開日:2021-03-31
# スパースランダム3次行列を用いた1次元時間チャネル分離畳み込み圧縮

Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices ( http://arxiv.org/abs/2103.17142v1 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Matthijs Van keirsbilck, and Alexander Keller(参考訳) 1次元の時間チャネル分離可能な畳み込みにおける1x1-畳み込みは、$\{-1,0,+1\}$ の重みを持つ無作為な三元行列に置き換えられることを実証する。 このようなレイヤは、いかなる乗算も行わず、トレーニングも必要としない。 さらに、行列は計算中にチップ上で生成され、そのためメモリアクセスは不要である。 同じパラメータ予算で、より深くより表現力のあるモデルを提供し、いくつかのタスクで既存のモデルのParetoフロンティアを改善することができます。 Google Speech Commands v1でのコマンド認識では、同じネットワークサイズで最先端の精度を97.21\%から97.41\%に改善する。 あるいは、既存のモデルのコストを下げることもできます。 librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1/%を犠牲にします。

We demonstrate that 1x1-convolutions in 1D time-channel separable convolutions may be replaced by constant, sparse random ternary matrices with weights in $\{-1,0,+1\}$. Such layers do not perform any multiplications and do not require training. Moreover, the matrices may be generated on the chip during computation and therefore do not require any memory access. With the same parameter budget, we can afford deeper and more expressive models, improving the Pareto frontiers of existing models on several tasks. For command recognition on Google Speech Commands v1, we improve the state-of-the-art accuracy from 97.21\% to 97.41\% at the same network size. Alternatively, we can lower the cost of existing models. For speech recognition on Librispeech, we half the number of weights to be trained while only sacrificing about $1\%$ of the floating-point baseline's word error rate.
翻訳日:2021-04-01 14:18:39 公開日:2021-03-31
# フェデレーション学習:信号処理の観点から

Federated Learning: A Signal Processing Perspective ( http://arxiv.org/abs/2103.17150v1 )

ライセンス: Link先を確認
Tomer Gafni, Nir Shlezinger, Kobi Cohen, Yonina C. Eldar, and H. Vincent Poor(参考訳) ディープラーニングの劇的な成功は、主にデータの可用性によるものだ。 データサンプルは、スマートフォン、車、センサーなどのエッジデバイスで取得されることが多く、プライバシー上の考慮から共有できない場合もある。 フェデレーション学習は、データを明示的に交換することなく、ローカルデータセットを保持する複数のエッジデバイスでモデルをトレーニングするための、新たな機械学習パラダイムである。 連合方式での学習は、従来の集中型機械学習と異なり、信号処理や通信の分野で研究されている古典的問題と密接に関連するいくつかの重要な課題と要件をもたらす。 したがって、これらの領域から派生した専用スキームは、連合学習の成功と、集中型サーバのドメインからモバイルエッジデバイスへのディープラーニングの移行において重要な役割を果たすことが期待される。 本稿では,信号処理ツールによる処理が自然である主な課題をカプセル化し,強調する,統合学習のための統一的な体系的枠組みを提供する。 本稿では,信号処理の観点からの連合学習パラダイムの定式化と,そのユニークな課題に取り組むための候補アプローチについて検討する。 さらに,信号処理と通信手法の設計と適応のためのガイドラインを提供し,大規模連帯学習を容易にする。

The dramatic success of deep learning is largely due to the availability of data. Data samples are often acquired on edge devices, such as smart phones, vehicles and sensors, and in some cases cannot be shared due to privacy considerations. Federated learning is an emerging machine learning paradigm for training models across multiple edge devices holding local datasets, without explicitly exchanging the data. Learning in a federated manner differs from conventional centralized machine learning, and poses several core unique challenges and requirements, which are closely related to classical problems studied in the areas of signal processing and communications. Consequently, dedicated schemes derived from these areas are expected to play an important role in the success of federated learning and the transition of deep learning from the domain of centralized servers to mobile edge devices. In this article, we provide a unified systematic framework for federated learning in a manner that encapsulates and highlights the main challenges that are natural to treat using signal processing tools. We present a formulation for the federated learning paradigm from a signal processing perspective, and survey a set of candidate approaches for tackling its unique challenges. We further provide guidelines for the design and adaptation of signal processing and communication methods to facilitate federated learning at large scale.
翻訳日:2021-04-01 14:18:23 公開日:2021-03-31
# CDiNN-凸差ニューラルネットワーク

CDiNN -Convex Difference Neural Networks ( http://arxiv.org/abs/2103.17231v1 )

ライセンス: Link先を確認
Parameswaran Sankaranarayanan and Raghunathan Rengaswamy(参考訳) ReLU活性化関数を持つニューラルネットワークは、普遍関数近似器であり、非滑らか関数として関数マッピングを学ぶことが示されている。 近年,最適制御など応用におけるニューラルネットワークの利用にかなりの関心が寄せられている。 非凸、非滑らかな関数を含む最適化が計算集約であり、収束保証が限られていることはよく知られている。 さらに,勾配降下・上昇に使用する最適化ハイパーパラメータの選択は,得られた溶液の品質に大きく影響した。 input convex neural network (icnns)と呼ばれる新しいニューラルネットワークアーキテクチャは、入力の凸関数として出力を学習し、効率的な凸最適化方法を可能にする。 非凸関数を凸写像として学習することは、重要な関数近似誤差をもたらす可能性があり、既存の表現は線形時間遅延システムのような単純な動的構造をキャプチャできないことに注意する。 そこで本研究では,多面体凸関数とデータとの差として関数を学習する新しいニューラルネットワークアーキテクチャcdinnを導入することで,上記の問題に対処することを試みる。 また,収束保証を伴う凸最適化の差によってcdinnから最適入力が得られる場合や,各イテレーションにおいて線形計画問題に還元される場合などについて考察する。

Neural networks with ReLU activation function have been shown to be universal function approximators and learn function mapping as non-smooth functions. Recently, there is considerable interest in the use of neural networks in applications such as optimal control. It is well-known that optimization involving non-convex, non-smooth functions are computationally intensive and have limited convergence guarantees. Moreover, the choice of optimization hyper-parameters used in gradient descent/ascent significantly affect the quality of the obtained solutions. A new neural network architecture called the Input Convex Neural Networks (ICNNs) learn the output as a convex function of inputs thereby allowing the use of efficient convex optimization methods. Use of ICNNs for determining the input for minimizing output has two major problems: learning of a non-convex function as a convex mapping could result in significant function approximation error, and we also note that the existing representations cannot capture simple dynamic structures like linear time delay systems. We attempt to address the above problems by introduction of a new neural network architecture, which we call the CDiNN, which learns the function as a difference of polyhedral convex functions from data. We also discuss that, in some cases, the optimal input can be obtained from CDiNN through difference of convex optimization with convergence guarantees and that at each iteration, the problem is reduced to a linear programming problem.
翻訳日:2021-04-01 14:18:03 公開日:2021-03-31
# 不確実性定量化によるsdo/hmiストークスインバージョンの高速高精度エミュレーション

Fast and Accurate Emulation of the SDO/HMI Stokes Inversion with Uncertainty Quantification ( http://arxiv.org/abs/2103.17273v1 )

ライセンス: Link先を確認
Richard E.L. Higgins, David F. Fouhey, Dichang Zhang, Spiro K. Antiochos, Graham Barnes, Todd Hoeksema, KD Leka, Yang Liu Peter W. Schuck, Tamas I. Gombosi(参考訳) NASAのソーラー・ダイナミクス・オブザーバ(SDO)に搭載されたHelioseismic and Magnetic Imager (HMI)は、多くの宇宙気象モデルや予測システムに重要な入力となる光球磁場の見積もりを生成する。 HMIと分析パイプラインが生成する磁気グラム生成物は、太陽の大気パラメータを推定し、合成されたストークスベクトルと観測されたストークスベクトルの間の不一致を最小限にするピクセルごとの最適化の結果である。 本稿では,既存のhmiパイプラインの結果を,現在のパイプラインアルゴリズムよりも2桁早くエミュレートする深層学習に基づく手法を提案する。 本システムは入力ストークスベクトルとその最適化に基づくvfisvインバージョンを訓練したu-netである。 我々は,磁場と運動力学的・熱力学的パラメータの高忠実度推定と,有意義な信頼区間を生成できることを示した。 さらに,画素単位の損失項のみをペナルティ化しても,パイプラインが生成するフルディスク統計において,既知の系統的振動を忠実に再現できることを示した。 このエミュレーションシステムはフルストークスインバージョンの初期化や超高速プロキシインバージョンとして機能する。 この研究は、ミシガン大学のNASA Heliophysics DRIVE Science Center(SOLSTICE)の一部であり、NASA 80NSSC20K0600Eが認可され、オープンソース化されている。

The Helioseismic and Magnetic Imager (HMI) onboard NASA's Solar Dynamics Observatory (SDO) produces estimates of the photospheric magnetic field which are a critical input to many space weather modelling and forecasting systems. The magnetogram products produced by HMI and its analysis pipeline are the result of a per-pixel optimization that estimates solar atmospheric parameters and minimizes disagreement between a synthesized and observed Stokes vector. In this paper, we introduce a deep learning-based approach that can emulate the existing HMI pipeline results two orders of magnitude faster than the current pipeline algorithms. Our system is a U-Net trained on input Stokes vectors and their accompanying optimization-based VFISV inversions. We demonstrate that our system, once trained, can produce high-fidelity estimates of the magnetic field and kinematic and thermodynamic parameters while also producing meaningful confidence intervals. We additionally show that despite penalizing only per-pixel loss terms, our system is able to faithfully reproduce known systematic oscillations in full-disk statistics produced by the pipeline. This emulation system could serve as an initialization for the full Stokes inversion or as an ultra-fast proxy inversion. This work is part of the NASA Heliophysics DRIVE Science Center (SOLSTICE) at the University of Michigan, under grant NASA 80NSSC20K0600E, and has been open sourced.
翻訳日:2021-04-01 14:17:43 公開日:2021-03-31
# 量子物理学と化学における機械学習問題に対する対称性及び反対称核

Symmetric and antisymmetric kernels for machine learning problems in quantum physics and chemistry ( http://arxiv.org/abs/2103.17233v1 )

ライセンス: Link先を確認
Stefan Klus, Patrick Gel{\ss}, Feliks N\"uske, Frank No\'e(参考訳) 従来のカーネルを対称性化・反対称性化することで対称および反対称核を導出し、それらの特性を分析する。 特に、得られた多項式核の特徴空間次元を計算し、対称および反対称ガウス核によって誘導される再生核ヒルベルト空間が対称および反対称函数の空間内で密接であることを証明するとともに、状態空間が高次元であっても効率的に評価できる非対称ガウス核のスレーター決定表現を提案する。 さらに, 対称性やアンチ対称性を活用することで, トレーニングデータセットのサイズを大幅に削減できることを示す。 結果は、例と単純な量子物理学と化学の応用を導くことで示される。

We derive symmetric and antisymmetric kernels by symmetrizing and antisymmetrizing conventional kernels and analyze their properties. In particular, we compute the feature space dimensions of the resulting polynomial kernels, prove that the reproducing kernel Hilbert spaces induced by symmetric and antisymmetric Gaussian kernels are dense in the space of symmetric and antisymmetric functions, and propose a Slater determinant representation of the antisymmetric Gaussian kernel, which allows for an efficient evaluation even if the state space is high-dimensional. Furthermore, we show that by exploiting symmetries or antisymmetries the size of the training data set can be significantly reduced. The results are illustrated with guiding examples and simple quantum physics and chemistry applications.
翻訳日:2021-04-01 14:17:15 公開日:2021-03-31
# 移動機能エリアと新型コロナウイルス感染拡大

Mobility Functional Areas and COVID-19 Spread ( http://arxiv.org/abs/2103.16894v1 )

ライセンス: Link先を確認
Stefano Maria Iacus, Carlos Santamaria, Francesco Sermi, Spyridon Spyratos, Dario Tarchi, Michele Vespe(参考訳) 本研究は,移動位置データの解析により高度に相互に相互に接続するモビリティ機能領域(MFA)という,機能領域の新たな概念を導入する。 MFAは自然の移動を観察するために建設されているため、必ずしも行政境界と一致しないため、ボトムアップのアプローチ、地域交通、健康、経済政策を知らせるために使用することができる。 MFAの背景にある方法論を提示した後、オーストリアのMFAと新型コロナウイルスのパンデミックとの関連に焦点を当てた。 MFAが全国の他の地域よりも統計学的に多い感染者を登録していることが発覚し、この健康危機に対する再エスカレーション政策の対応の文脈におけるMFAの有用性が示唆された。

This work introduces a new concept of functional areas called Mobility Functional Areas (MFAs), i.e., the geographic zones highly interconnected according to the analysis of mobile positioning data. The MFAs do not coincide necessarily with administrative borders as they are built observing natural human mobility and, therefore, they can be used to inform, in a bottom-up approach, local transportation, health and economic policies. After presenting the methodology behind the MFAs, this study focuses on the link between the COVID-19 pandemic and the MFAs in Austria. It emerges that the MFAs registered an average number of infections statistically larger than the areas in the rest of the country, suggesting the usefulness of the MFAs in the context of targeted re-escalation policy responses to this health crisis.
翻訳日:2021-04-01 14:17:02 公開日:2021-03-31
# 畳み込みニューラルネットワークを用いた任意形状の近接場音響ホログラフィ

Near field Acoustic Holography on arbitrary shapes using Convolutional Neural Network ( http://arxiv.org/abs/2103.16935v1 )

ライセンス: Link先を確認
Marco Olivieri, Mirco Pezzoli, Fabio Antonacci, Augusto Sarti(参考訳) 近接場音響ホログラフィー(Near-field Acoustic Holography, NAH)は, 構造物の振動速度場を音響測定により推定することを目的としたよく知られた問題である。 本稿では,畳み込みニューラルネットワーク(CNN)に基づくNAH手法を提案する。 考案したcnnは, 任意の形状の平板(紫板)の表面の振動場を, 限られた数の測定値からオルソトロピックな材料特性で予測する。 特に、超分解能CNN(SRCNN)と呼ばれるアーキテクチャでは、入力圧力よりも高い空間分解能で振動場を推定することができる。 圧力と速度データセットは有限要素法によるシミュレーションによって生成される。 提案手法は,提案手法を合成した基底真実と最新技術との比較により検証する。 さらに,提案するネットワークの雑音入力データに対するロバスト性を評価する。

Near-field Acoustic Holography (NAH) is a well-known problem aimed at estimating the vibrational velocity field of a structure by means of acoustic measurements. In this paper, we propose a NAH technique based on Convolutional Neural Network (CNN). The devised CNN predicts the vibrational field on the surface of arbitrary shaped plates (violin plates) with orthotropic material properties from a limited number of measurements. In particular, the architecture, named super resolution CNN (SRCNN), is able to estimate the vibrational field with a higher spatial resolution compared to the input pressure. The pressure and velocity datasets have been generated through Finite Element Method simulations. We validate the proposed method by comparing the estimates with the synthesized ground truth and with a state-of-the-art technique. Moreover, we evaluate the robustness of the devised network against noisy input data.
翻訳日:2021-04-01 14:16:48 公開日:2021-03-31
# (参考訳) eXtended Artificial Intelligence: New prospects of Human-AI Interaction Research [全文訳有]

eXtended Artificial Intelligence: New Prospects of Human-AI Interaction Research ( http://arxiv.org/abs/2103.15004v2 )

ライセンス: CC BY 4.0
Carolin Wienrich and Marc Erich Latoschik(参考訳) 人工知能(AI)は、幅広い計算問題やユースケースをカバーしている。 それらの多くは、人間がどのように人間と対話するか、それともAIと対話すべきかについて、深く、時には複雑な質問を暗示している。 さらに、多くのユーザーや将来のユーザーはAIとは何かという抽象的な考えを持っている。 人間中心設計アプローチは、異なる実施形態が人間の知覚とaiとの相互作用に与える影響を評価することを示唆する。 現実のアプリケーション・フィールドや具体化の複雑さのため実現が難しいアプローチである。 しかし、ここでXRは人間とAIの相互作用を研究する新しい可能性を開く。 まず、XR-AI組合せの異なるアプローチの枠組みと視点として、XR-AI連続体に基づく人間-AI相互作用の理論的処理とモデルを提供する。 XR-AIの組み合わせは、先進的な人間-AIインターフェースの効果を学ぶ方法として動機付けられ、なぜXRとAIの組み合わせが人間-AIインタラクションとインタフェースの有効かつ体系的な研究に役立っているのかを示す。 第2に、この記事では、2つの異なるAIシステムに対する前述のアプローチを実証する2つの模範的な実験を提供している。 最初の実験は人間とロボットの相互作用において興味深いジェンダー効果を示し、2つ目の実験はレコメンデーターシステムのエリザ効果を示す。 本稿では、人間とAIのインタラクションとインタフェースのためのXRテストベッドの2つのパラダイム実装を紹介し、有効かつ体系的な調査方法を示す。 要約すると、記事は、XRが人間中心のAI設計と開発にどう役立つか、という新しい視点を開いている。

Artificial Intelligence (AI) covers a broad spectrum of computational problems and use cases. Many of those implicate profound and sometimes intricate questions of how humans interact or should interact with AIs. Moreover, many users or future users do have abstract ideas of what AI is, significantly depending on the specific embodiment of AI applications. Human-centered-desig n approaches would suggest evaluating the impact of different embodiments on human perception of and interaction with AI. An approach that is difficult to realize due to the sheer complexity of application fields and embodiments in reality. However, here XR opens new possibilities to research human-AI interactions. The article's contribution is twofold: First, it provides a theoretical treatment and model of human-AI interaction based on an XR-AI continuum as a framework for and a perspective of different approaches of XR-AI combinations. It motivates XR-AI combinations as a method to learn about the effects of prospective human-AI interfaces and shows why the combination of XR and AI fruitfully contributes to a valid and systematic investigation of human-AI interactions and interfaces. Second, the article provides two exemplary experiments investigating the aforementioned approach for two distinct AI-systems. The first experiment reveals an interesting gender effect in human-robot interaction, while the second experiment reveals an Eliza effect of a recommender system. Here the article introduces two paradigmatic implementations of the proposed XR testbed for human-AI interactions and interfaces and shows how a valid and systematic investigation can be conducted. In sum, the article opens new perspectives on how XR benefits human-centered AI design and development.
翻訳日:2021-04-01 13:23:27 公開日:2021-03-31
# (参考訳) RobustNet: インスタンス選択白化による都市シーンセグメンテーションにおけるドメイン一般化の改善 [全文訳有]

RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening ( http://arxiv.org/abs/2103.15597v2 )

ライセンス: CC BY 4.0
Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim and Jaegul Choo(参考訳) ディープニューラルネットワークの未認識領域への一般化能力の強化は、自動運転のような現実世界における安全性クリティカルな応用に不可欠である。 そこで本研究では,未確認領域に対するセグメンテーションネットワークの堅牢性を改善するために,新しいインスタンス選択白化損失を提案する。 提案手法は,特徴表現の高次統計量(特徴共分散)に符号化されたドメイン固有スタイルとドメイン不変コンテンツを切り離し,ドメインシフトを引き起こすスタイル情報のみを選択的に除去する。 図に示すように。 本手法は, (a) 低照度, (b) 雨量, (c) 見えない構造に対する合理的な予測を提供する。 これらのタイプのイメージはトレーニングデータセットには含まれませんが、ベースラインは私たちのものとは対照的に、大幅なパフォーマンス低下を示しています。 提案手法は単純かつ効果的であり,計算コストを伴わずに様々なバックボーンネットワークの堅牢性を向上させる。 我々は,都市間セグメンテーションにおける広範囲な実験を行い,既存の作業に対するアプローチの優越性を示す。 私たちのコードはhttps://github.com/s hachoi/robustnetで利用可能です。

Enhancing the generalization capability of deep neural networks to unseen domains is crucial for safety-critical applications in the real world such as autonomous driving. To address this issue, this paper proposes a novel instance selective whitening loss to improve the robustness of the segmentation networks for unseen domains. Our approach disentangles the domain-specific style and domain-invariant content encoded in higher-order statistics (i.e., feature covariance) of the feature representations and selectively removes only the style information causing domain shift. As shown in Fig. 1, our method provides reasonable predictions for (a) low-illuminated, (b) rainy, and (c) unseen structures. These types of images are not included in the training dataset, where the baseline shows a significant performance drop, contrary to ours. Being simple yet effective, our approach improves the robustness of various backbone networks without additional computational cost. We conduct extensive experiments in urban-scene segmentation and show the superiority of our approach to existing work. Our code is available at https://github.com/s hachoi/RobustNet.
翻訳日:2021-04-01 13:00:17 公開日:2021-03-31
# (参考訳) stylemeup: スタイル非依存なスケッチベースの画像検索 [全文訳有]

StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval ( http://arxiv.org/abs/2103.15706v2 )

ライセンス: CC BY 4.0
Aneeshan Sain, Ayan Kumar Bhunia, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) スケッチベースの画像検索(SBIR)は、一般的に写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決されるクロスモーダルマッチング問題である。 しかし、SBIRの基本的な課題は、人間によってスケッチが描かれ、異なるユーザ間でかなりのスタイルのバリエーションが存在するという点で、これまでほとんど無視されてきた。 効果的なSBIRモデルは、目に見えないユーザスタイルを一般化するために、このスタイルの多様性を明確に説明する必要がある。 この目的のために,新しいスタイル非依存sbirモデルを提案する。 既存のモデルと異なり、クロスモーダル変分オートエンコーダ(VAE)を用いて、各スケッチを、対応する写真と共有されるセマンティックコンテンツ部と、スケッチヤ固有のスタイル部とに明示的に分離する。 重要なことは、我々のモデルを目に見えないユーザスタイルに動的に適応させるため、エンコーダに特徴変換レイヤのセットと、非絡み合ったセマンティックコンテンツラテントコードに正規化層という2つのスタイル適応型コンポーネントを追加することで、クロスモーダルVAEをメタトレーニングすることを提案する。 このメタラーニングフレームワークにより、我々のモデルはSBIRのクロスモーダルな共有セマンティックコンテンツだけでなく、見知らぬユーザスタイルにも適応できるため、SBIRモデルは本当にスタイルに依存しない。 拡張実験により,我々のスタイルに依存しないモデルでは,カテゴリレベルのSBIRとインスタンスレベルのSBIRの両方で最先端の性能が得られることが示された。

Sketch-based image retrieval (SBIR) is a cross-modal matching problem which is typically solved by learning a joint embedding space where the semantic content shared between photo and sketch modalities are preserved. However, a fundamental challenge in SBIR has been largely ignored so far, that is, sketches are drawn by humans and considerable style variations exist amongst different users. An effective SBIR model needs to explicitly account for this style diversity, crucially, to generalise to unseen user styles. To this end, a novel style-agnostic SBIR model is proposed. Different from existing models, a cross-modal variational autoencoder (VAE) is employed to explicitly disentangle each sketch into a semantic content part shared with the corresponding photo, and a style part unique to the sketcher. Importantly, to make our model dynamically adaptable to any unseen user styles, we propose to meta-train our cross-modal VAE by adding two style-adaptive components: a set of feature transformation layers to its encoder and a regulariser to the disentangled semantic content latent code. With this meta-learning framework, our model can not only disentangle the cross-modal shared semantic content for SBIR, but can adapt the disentanglement to any unseen user style as well, making the SBIR model truly style-agnostic. Extensive experiments show that our style-agnostic model yields state-of-the-art performance for both category-level and instance-level SBIR.
翻訳日:2021-04-01 12:39:54 公開日:2021-03-31
# (参考訳) 歴史的慣性:長い時系列予測のための無視されるが強力なベースライン [全文訳有]

Historical Inertia: An Ignored but Powerful Baseline for Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2103.16349v2 )

ライセンス: CC BY 4.0
Yue Cui, Jiandong Xie and Kai Zheng(参考訳) LSTF(Long sequence time-series forecasting)はその広範囲のアプリケーションで人気が高まっている。 予測の有効性と効率を高めるために優れたモデルが提案されているが、時系列の最も自然で基本的な時間的特性である履歴慣性(HI)を無視または過小評価することは無謀である。 本稿では,4つの公開実単語データセットに対する履歴慣性の影響を実験的に評価する。 その結果, HIを直接出力として採用しても, 82%の相対的改善が達成できることが示唆された。

Long sequence time-series forecasting (LSTF) has become increasingly popular for its wide range of applications. Though superior models have been proposed to enhance the prediction effectiveness and efficiency, it is reckless to ignore or underestimate one of the most natural and basic temporal properties of time-series, the historical inertia (HI), which refers to the most recent data-points in the input time series. In this paper, we experimentally evaluate the power of historical inertia on four public real-word datasets. The results demonstrate that up to 82% relative improvement over state-of-the-art works can be achieved even by adopting HI directly as output.
翻訳日:2021-04-01 12:20:33 公開日:2021-03-31
# (参考訳) Chatbotをインターロケータシューズに組み込む - 意図に反応するChatbotを学習するためのフレームワーク [全文訳有]

Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention ( http://arxiv.org/abs/2103.16429v2 )

ライセンス: CC BY 4.0
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Saurav Sahav, Hung-yi Lee(参考訳) チャットボットの文学の多くは、チャットボットの流動性とコヒーレンスを改善することに焦点を当てており、チャットボットをより人間らしくすることに注力している。 しかし、人間とチャットボットを本当に区別するものは、ほとんどない -- 人間は、反応が対話者に与える影響を本質的に理解し、対話者の気分を改善するために楽観的な視点を提案するなど、しばしば反応する。 本稿では,人間のような意図を持つチャットボットを訓練するための革新的な枠組みを提案する。 我々のフレームワークには、人間の役割を担う案内チャットボットとインターロケータモデルが含まれていた。 案内チャットボットは意図を割り当て,その意図に合致する応答,例えば,長応答,快楽応答,特定の単語による応答などの応答をインターロケータに誘導するように学習した。 3つの実験的な設定を用いてフレームワークを検証し、4つの異なるメトリクスでガイドボットを評価し、柔軟性と性能の優位性を実証した。 さらに,人間評価の結果は,特定の程度にヒトの反応に影響を与える指導的チャットボットの有効性を十分に裏付けるものである。 コードは一般公開される予定だ。

Most chatbot literature focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically understand the effect their responses have on the interlocutor and often respond with an intention such as proposing an optimistic view to make the interlocutor feel better. This paper proposes an innovative framework to train chatbots to possess human-like intentions. Our framework included a guiding chatbot and an interlocutor model that plays the role of humans. The guiding chatbot was assigned an intention and learned to induce the interlocutor to reply with responses matching the intention, for example, long responses, joyful responses, responses with specific words, etc. We examined our framework using three experimental setups and evaluate the guiding chatbot with four different metrics to demonstrated flexibility and performance advantages. Additionally, human evaluation results sufficiently substantiate the guiding chatbot's effectiveness in influencing humans' responses to a certain extent. Code will be made available to the public.
翻訳日:2021-04-01 12:15:05 公開日:2021-03-31
# 機械翻訳のための英語-twi並列コーパス

English-Twi Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2103.15625v2 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) 本稿では,25,421文対のAkuapem Twiと英語の並列機械翻訳学習コーパスを提案する。 Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母国語話者が翻訳文の出現を除去するために必要に応じて検証・修正した。 また、下流自然言語処理(NLP)タスクの評価セットとして、697の高品質なクラウドソース文が提供されている。 より大きな人間検証データセットの典型的なユースケースは、akapem twiの機械翻訳モデルのさらなるトレーニングである。 高品質な697クラウドソースデータセットは、twiとtwiから英語モデルへの機械翻訳のためのテストデータセットとして推奨されている。 さらに、クラウドソースされたデータのTwi部分は、表現学習や分類など、他のタスクにも使用することができる。 トレーニングコーパスのトランスフォーマー翻訳モデルを微調整し,クラウドソーステストセットのベンチマークを報告する。

We present a parallel machine translation training corpus for English and Akuapem Twi of 25,421 sentence pairs. We used a transformer-based translator to generate initial translations in Akuapem Twi, which were later verified and corrected where necessary by native speakers to eliminate any occurrence of translationese. In addition, 697 higher quality crowd-sourced sentences are provided for use as an evaluation set for downstream Natural Language Processing (NLP) tasks. The typical use case for the larger human-verified dataset is for further training of machine translation models in Akuapem Twi. The higher quality 697 crowd-sourced dataset is recommended as a testing dataset for machine translation of English to Twi and Twi to English models. Furthermore, the Twi part of the crowd-sourced data may also be used for other tasks, such as representation learning, classification, etc. We fine-tune the transformer translation model on the training corpus and report benchmarks on the crowd-sourced test set.
翻訳日:2021-04-01 12:01:55 公開日:2021-03-31
# Twiのためのコンテキストテキスト埋め込み

Contextual Text Embeddings for Twi ( http://arxiv.org/abs/2103.15963v2 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) トランスフォーマーベースの言語モデルは、英語、中国語、ロシア語などの高ソース言語に対する現代の自然言語処理(NLP)の状況を変えつつある。 しかし、この技術はガーナ語ではまだ存在していない。 本稿では、最も広く話されているガーナ語であるtwiまたはakanの最初のモデルを紹介する。 この研究の具体的な貢献は、Twiのアクアペム方言とアサンテ方言のための事前訓練されたトランスフォーマー言語モデルの開発であり、名前付きエンティティ認識(NER)、ニューラル機械翻訳(NMT)、感性分析(SA)、部分音声タグ付け(POS)といった応用分野における進歩の道を開くものである。 具体的には、Akan corporaのセットを微調整したAkanのBERTモデルと、AkanナレッジのみをスクラッチからトレーニングしたBAKO-BERTの4つの異なる風味を紹介する。 我々はHugging Faceモデルハブを通じてモデルをオープンソース化し、単純な感情分類の例を通してその使用を実証する。

Transformer-based language models have been changing the modern Natural Language Processing (NLP) landscape for high-resource languages such as English, Chinese, Russian, etc. However, this technology does not yet exist for any Ghanaian language. In this paper, we introduce the first of such models for Twi or Akan, the most widely spoken Ghanaian language. The specific contribution of this research work is the development of several pretrained transformer language models for the Akuapem and Asante dialects of Twi, paving the way for advances in application areas such as Named Entity Recognition (NER), Neural Machine Translation (NMT), Sentiment Analysis (SA) and Part-of-Speech (POS) tagging. Specifically, we introduce four different flavours of ABENA -- A BERT model Now in Akan that is fine-tuned on a set of Akan corpora, and BAKO - BERT with Akan Knowledge only, which is trained from scratch. We open-source the model through the Hugging Face model hub and demonstrate its use via a simple sentiment classification example.
翻訳日:2021-04-01 12:01:42 公開日:2021-03-31
# 画像を超えた深部異常検出のためのニューラルトランスフォーメーション学習

Neural Transformation Learning for Deep Anomaly Detection Beyond Images ( http://arxiv.org/abs/2103.16440v2 )

ライセンス: Link先を確認
Chen Qiu, Timo Pfrommer, Marius Kloft, Stephan Mandt, Maja Rudolph(参考訳) データ変換(例) 回転、反射、収穫)は自己監督学習において重要な役割を果たす。 通常、画像は異なるビューに変換され、これらのビューを含むタスクでトレーニングされたニューラルネットワークは、異常検出を含む下流タスクに有用な特徴表現を生成する。 しかし、画像データ以外の異常検出では、どの変換を使うべきかはよくわからない。 本稿では,学習可能な変換を伴う異常検出のための単純なエンドツーエンド手順を提案する。 重要なアイデアは、変換されたデータを意味空間に埋め込むことであり、変換されたデータは変換されていない形式にまだ似ているが、異なる変換は容易に区別できる。 時系列に関する広範囲な実験により,one-vs.-rest設定において既存の手法を著しく上回っているだけでなく,より困難なn-vs.-rest異常検出タスクにおいても有意な性能を示した。 医療・サイバーセキュリティ領域の表型データセットにおいて,本手法はドメイン固有の変換を学習し,従来よりも正確な異常を検出する。

Data transformations (e.g. rotations, reflections, and cropping) play an important role in self-supervised learning. Typically, images are transformed into different views, and neural networks trained on tasks involving these views produce useful feature representations for downstream tasks, including anomaly detection. However, for anomaly detection beyond image data, it is often unclear which transformations to use. Here we present a simple end-to-end procedure for anomaly detection with learnable transformations. The key idea is to embed the transformed data into a semantic space such that the transformed data still resemble their untransformed form, while different transformations are easily distinguishable. Extensive experiments on time series demonstrate that we significantly outperform existing methods on the one-vs.-rest setting but also on the more challenging n-vs.-rest anomaly-detection task. On tabular datasets from the medical and cyber-security domains, our method learns domain-specific transformations and detects anomalies more accurately than previous work.
翻訳日:2021-04-01 12:01:22 公開日:2021-03-31
# SceneGraphFusion:RGB -Dシーケンスからのインクリメンタル3次元Scene Graph予測

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences ( http://arxiv.org/abs/2103.14898v3 )

ライセンス: Link先を確認
Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab and Federico Tombari(参考訳) シーングラフはコンパクトで明示的な表現であり、様々な2次元シーン理解タスクでうまく使われている。 本研究は,RGB-Dフレームのシーケンスを与えられた3次元環境から意味シーングラフをインクリメンタルに構築する手法を提案する。 この目的のために,グラフニューラルネットワークを用いて,プリミティブシーンコンポーネントからポイントネットの特徴を集約する。 また,このようなインクリメンタル・リコンストラクションシナリオに存在する部分的および欠落グラフデータに適した新しい注意機構を提案する。 提案手法はシーンのサブマップ上で実行するように設計されているが、3dシーン全体への転送も行う。 実験により、3次元シーングラフの予測手法を高いマージンで上回り,その精度は35hzで動作中の他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等であることが判明した。

Scene graphs are a compact and explicit representation successfully used in a variety of 2D scene understanding tasks. This work proposes a method to incrementally build up semantic scene graphs from a 3D environment given a sequence of RGB-D frames. To this end, we aggregate PointNet features from primitive scene components by means of a graph neural network. We also propose a novel attention mechanism well suited for partial and missing graph data present in such an incremental reconstruction scenario. Although our proposed method is designed to run on submaps of the scene, we show it also transfers to entire 3D scenes. Experiments show that our approach outperforms 3D scene graph prediction methods by a large margin and its accuracy is on par with other 3D semantic and panoptic segmentation methods while running at 35 Hz.
翻訳日:2021-04-01 12:01:05 公開日:2021-03-31
# von Mises-Fisher Loss: 教師付き学習のための埋め込みジオメトリの探索

von Mises-Fisher Loss: An Exploration of Embedding Geometries for Supervised Learning ( http://arxiv.org/abs/2103.15718v2 )

ライセンス: Link先を確認
Tyler R. Scott and Andrew C. Gallagher and Michael C. Mozer(参考訳) 近年の研究では、ソフトマックスクロスエントロピーを用いた分類損失は、固定集合の分類タスクだけでなく、オープンセットの学習や検索を含むオープンセットのタスクで特別に開発された損失よりも優れていると論じられている。 ソフトマックス分類器は、ユークリッド、双曲、球面といった異なる埋め込み幾何学を用いて研究され、一方の優越性について主張されているが、これらは注意深い制御と体系的に比較されていない。 各種固定集合分類および画像検索タスクにおけるソフトマックス損失の埋め込み幾何について,実験的検討を行った。 球面損失に対して観察された興味深い性質は,フォン・ミセス=フィッシャー分布に基づく確率的分類器を提案することにつながる。 損失間のトレードオフとそれらの選択方法に関するガイダンスを提供する。

Recent work has argued that classification losses utilizing softmax cross-entropy are superior not only for fixed-set classification tasks, but also by outperforming losses developed specifically for open-set tasks including few-shot learning and retrieval. Softmax classifiers have been studied using different embedding geometries -- Euclidean, hyperbolic, and spherical -- and claims have been made about the superiority of one or another, but they have not been systematically compared with careful controls. We conduct an empirical investigation of embedding geometry on softmax losses for a variety of fixed-set classification and image retrieval tasks. An interesting property observed for the spherical losses lead us to propose a probabilistic classifier based on the von Mises-Fisher distribution, and we show that it is competitive with state-of-the-art methods while producing improved out-of-the-box calibration. We provide guidance regarding the trade-offs between losses and how to choose among them.
翻訳日:2021-04-01 12:00:51 公開日:2021-03-31
# マルチハイブリッドCTCに基づくエンドツーエンド音声認識の半教師付き適応

Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end speech recognition ( http://arxiv.org/abs/2103.15515v2 )

ライセンス: Link先を確認
Cong-Thanh Do, Rama Doddipatla, Thomas Hain(参考訳) 本稿では,エンドツーエンド音声認識のための適応手法を提案する。 本手法では、接続子時相分類(ctc)損失関数の計算に、複数の自動音声認識(asr)1-best仮説を統合する。 複数のASR仮説の統合は、ASR仮説を用いた場合のCTC損失の計算に対するASR仮説におけるエラーの影響を軽減するのに役立つ。 適応データの一部にラベルがない半教師付き適応シナリオに適用した場合、ラベルなし適応データを復号して得られたASR 1-best仮説から提案手法のCTC損失を算出する。 CTCベースのエンドツーエンドASRシステムをウォールストリートジャーナル(WSJ)のクリーントレーニングデータとCHiME-4のマルチコンディショントレーニングデータでトレーニングし、オーロラ4のテストデータでテストする、クリーンおよびマルチコンディショントレーニングシナリオで実験を行う。 提案手法は, バックプロパゲーション微調整を用いた手書き入力データの一部に適応したベースラインシステムと比較して, クリーンおよびマルチコンディショントレーニングシナリオにおける単語誤り率(WER)の6.6%と5.8%を減少させる。

This paper proposes an adaptation method for end-to-end speech recognition. In this method, multiple automatic speech recognition (ASR) 1-best hypotheses are integrated in the computation of the connectionist temporal classification (CTC) loss function. The integration of multiple ASR hypotheses helps alleviating the impact of errors in the ASR hypotheses to the computation of the CTC loss when ASR hypotheses are used. When being applied in semi-supervised adaptation scenarios where part of the adaptation data do not have labels, the CTC loss of the proposed method is computed from different ASR 1-best hypotheses obtained by decoding the unlabeled adaptation data. Experiments are performed in clean and multi-condition training scenarios where the CTC-based end-to-end ASR systems are trained on Wall Street Journal (WSJ) clean training data and CHiME-4 multi-condition training data, respectively, and tested on Aurora-4 test data. The proposed adaptation method yields 6.6% and 5.8% relative word error rate (WER) reductions in clean and multi-condition training scenarios, respectively, compared to a baseline system which is adapted with part of the adaptation data having manual transcriptions using back-propagation fine-tuning.
翻訳日:2021-04-01 12:00:34 公開日:2021-03-31
# アクティブな輪郭セグメンテーションのための効率的結合形状と外観

An Efficiently Coupled Shape and Appearance Prior for Active Contour Segmentation ( http://arxiv.org/abs/2103.14887v2 )

ライセンス: Link先を確認
Martin Mueller and Navdeep Dahiya and Anthony Yezzi(参考訳) 本稿では,画像やビデオのオブジェクトセグメンテーションのための形状と外観の特徴に基づく新しいトレーニングモデルを提案する。 このようなモデルのほとんどは二次元の外観テンプレートや有限のディスクリプタに依存するが、外観に基づく特徴は1次元関数であり、物体のiso-輪郭に沿った強度を積分することにより、物体の形状と効率的に結合する。 これらの形状と外観の連成PCAトレーニングは、形状と外観の相関をさらに活用し、その結果のトレーニングモデルは、認識分離タスクのための能動輪郭型エネルギー関数に組み込まれる。 合成および赤外画像の実験では、この形状と外観の訓練モデルがチャン・ヴェイゼエネルギーに基づく手法と比較して精度を向上する方法が示されている。

This paper proposes a novel training model based on shape and appearance features for object segmentation in images and videos. Whereas most such models rely on two-dimensional appearance templates or a finite set of descriptors, our appearance-based feature is a one-dimensional function, which is efficiently coupled with the object's shape by integrating intensities along the object's iso-contours. Joint PCA training on these shape and appearance features further exploits shape-appearance correlations and the resulting training model is incorporated in an active-contour-type energy functional for recognition-segmenta tion tasks. Experiments on synthetic and infrared images demonstrate how this shape and appearance training model improves accuracy compared to methods based on the Chan-Vese energy.
翻訳日:2021-04-01 12:00:13 公開日:2021-03-31
# 出現流を用いた魚眼画像整形のための漸進的補完網

Progressively Complementary Network for Fisheye Image Rectification Using Appearance Flow ( http://arxiv.org/abs/2103.16026v2 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Chunjie Zhang, Yao Zhao(参考訳) 魚眼画像には歪み補正がしばしば必要である。 ジェネレーションベースの手法は、ラベルのない性質のために主流のソリューションであるが、単純スキップ接続とオーバーバーデンドデコーダは、曖昧で不完全な修正を引き起こす。 まず、スキップ接続は画像の特徴を直接転送し、歪みを引き起こし不完全な補正を引き起こす可能性がある。 第2に、画像の内容と構造を同時に再構成する際にデコーダをオーバーバーデンし、あいまいな性能を実現する。 本稿では,この2つの問題を解決するために,歪み補正ネットワークの解釈可能な補正機構に着目し,特徴レベルの補正手法を提案する。 我々は、補正層をスキップ接続に埋め込み、異なるレイヤの外観フローを利用して画像の特徴を事前に補正する。 これにより、デコーダは、残される歪みのない情報により、可視結果を容易に再構成することができる。 さらに,並列補完構造を提案する。 コンテンツ再構成と構造補正を分離することにより、デコーダの負担を効果的に軽減する。 異なるデータセットに対する主観的および客観的な実験結果から,本手法の優位性を示す。

Distortion rectification is often required for fisheye images. The generation-based method is one mainstream solution due to its label-free property, but its naive skip-connection and overburdened decoder will cause blur and incomplete correction. First, the skip-connection directly transfers the image features, which may introduce distortion and cause incomplete correction. Second, the decoder is overburdened during simultaneously reconstructing the content and structure of the image, resulting in vague performance. To solve these two problems, in this paper, we focus on the interpretable correction mechanism of the distortion rectification network and propose a feature-level correction scheme. We embed a correction layer in skip-connection and leverage the appearance flows in different layers to pre-correct the image features. Consequently, the decoder can easily reconstruct a plausible result with the remaining distortion-less information. In addition, we propose a parallel complementary structure. It effectively reduces the burden of the decoder by separating content reconstruction and structure correction. Subjective and objective experiment results on different datasets demonstrate the superiority of our method.
翻訳日:2021-04-01 11:59:59 公開日:2021-03-31
# 大規模視覚食品認識

Large Scale Visual Food Recognition ( http://arxiv.org/abs/2103.16107v2 )

ライセンス: Link先を確認
Weiqing Min and Zhiling Wang and Yuxin Liu and Mengjiang Luo and Liping Kang and Xiaoming Wei and Xiaolin Wei and Shuqiang Jiang(参考訳) 食品の認識は、人間の健康と健康に不可欠な食品の選択と摂取において重要な役割を担っている。 したがって、コンピュータビジョンコミュニティにとって重要であり、多くの食品指向のビジョンとマルチモーダルなタスクをさらにサポートすることができる。 残念ながら、私たちは、大規模なデータセットのリリースに対して、一般的な視覚認識の顕著な進歩を目撃しました。 本稿では,2000のカテゴリと100万以上の画像を持つ,最大規模の食品認識データセットであるfood2kを紹介する。既存の食品認識データセットと比較して,food2kは2つのカテゴリとイメージを1桁の桁でバイパスし,食品視覚表現学習のための高度なモデルを開発するための新たな挑戦的ベンチマークを確立する。 さらに, 食品認識のための深層進行領域拡張ネットワークを提案し, 主に, 局所的特徴学習と地域特徴増強という2つの要素から構成されている。 前者は多様で相補的な局所的特徴を学習するために進歩的訓練を導入し、後者は自己注意を利用して、よりリッチなコンテキストと複数のスケールを局所的特徴に組み込んで、さらなる局所的特徴の強化を行う。 食品2Kの広範囲な実験により,提案手法の有効性が示された。 さらに,食品認識,食品画像検索,クロスモーダルレシピ検索,食品検出,セグメンテーションなど,さまざまなタスクにおけるFood2Kの一般化能力を検証した。 食品2Kは、新しく、より複雑なもの(例えば、食物の栄養学的理解)を含む、食品関連タスクの恩恵を受けるためにさらに探索され、食品関連タスクのパフォーマンスを改善するために、食品2Kのトレーニングされたモデルがバックボーンとして期待できる。 また、food2kが大規模なきめ細かなビジュアル認識ベンチマークになることも期待しています。

Food recognition plays an important role in food choice and intake, which is essential to the health and well-being of humans. It is thus of importance to the computer vision community, and can further support many food-oriented vision and multimodal tasks. Unfortunately, we have witnessed remarkable advancements in generic visual recognition for released large-scale datasets, yet largely lags in the food domain. In this paper, we introduce Food2K, which is the largest food recognition dataset with 2,000 categories and over 1 million images.Compared with existing food recognition datasets, Food2K bypasses them in both categories and images by one order of magnitude, and thus establishes a new challenging benchmark to develop advanced models for food visual representation learning. Furthermore, we propose a deep progressive region enhancement network for food recognition, which mainly consists of two components, namely progressive local feature learning and region feature enhancement. The former adopts improved progressive training to learn diverse and complementary local features, while the latter utilizes self-attention to incorporate richer context with multiple scales into local features for further local feature enhancement. Extensive experiments on Food2K demonstrate the effectiveness of our proposed method. More importantly, we have verified better generalization ability of Food2K in various tasks, including food recognition, food image retrieval, cross-modal recipe retrieval, food detection and segmentation. Food2K can be further explored to benefit more food-relevant tasks including emerging and more complex ones (e.g., nutritional understanding of food), and the trained models on Food2K can be expected as backbones to improve the performance of more food-relevant tasks. We also hope Food2K can serve as a large scale fine-grained visual recognition benchmark.
翻訳日:2021-04-01 11:59:43 公開日:2021-03-31
# クラス認識型ロバストな物体検出学習

Class-Aware Robust Adversarial Training for Object Detection ( http://arxiv.org/abs/2103.16148v2 )

ライセンス: Link先を確認
Pin-Chun Chen, Bo-Han Kung, and Jun-Cheng Chen(参考訳) オブジェクト検出は、現実世界のアプリケーションが多い重要なコンピュータビジョンタスクであり、敵攻撃に対する堅牢性を高める方法が重要な問題となっている。 しかし,従来の防御手法の多くは分類タスクに焦点をあて,対象検出タスクの文脈での分析はほとんど行わなかった。 本稿では,この問題に対処するために,オブジェクト検出タスクのための,新しいクラス対応頑健な対人訓練パラダイムを提案する。 与えられた画像に対して,提案手法は,各オブジェクトの損失を最大化することにより,画像内のすべての被写体を同時に攻撃するために,普遍的な逆摂動を生成する。 一方、オブジェクト数で全体の損失を正規化する代わりに、提案手法はクラス単位の損失に総損失を分解し、クラスに対するオブジェクト数を用いて各クラス損失を正規化する。 クラス重み付け損失に基づく敵の訓練は,各クラスの影響のバランスをとるだけでなく,従来の防御手法と比較して,訓練対象クラスの敵の堅牢性を効果的かつ均一に改善する。 さらに,近年の高速対向訓練の開発により,従来の対向訓練よりも高速に学習でき,同等の性能を保ちながら,提案アルゴリズムの高速版を提供する。 PASCAL-VOCおよびMS-COCOデータセットに対する広範囲な実験により,提案手法がオブジェクト検出モデルの堅牢性を効果的に向上することを示す。

Object detection is an important computer vision task with plenty of real-world applications; therefore, how to enhance its robustness against adversarial attacks has emerged as a crucial issue. However, most of the previous defense methods focused on the classification task and had few analysis in the context of the object detection task. In this work, to address the issue, we present a novel class-aware robust adversarial training paradigm for the object detection task. For a given image, the proposed approach generates an universal adversarial perturbation to simultaneously attack all the occurred objects in the image through jointly maximizing the respective loss for each object. Meanwhile, instead of normalizing the total loss with the number of objects, the proposed approach decomposes the total loss into class-wise losses and normalizes each class loss using the number of objects for the class. The adversarial training based on the class weighted loss can not only balances the influence of each class but also effectively and evenly improves the adversarial robustness of trained models for all the object classes as compared with the previous defense methods. Furthermore, with the recent development of fast adversarial training, we provide a fast version of the proposed algorithm which can be trained faster than the traditional adversarial training while keeping comparable performance. With extensive experiments on the challenging PASCAL-VOC and MS-COCO datasets, the evaluation results demonstrate that the proposed defense methods can effectively enhance the robustness of the object detection models.
翻訳日:2021-04-01 11:59:12 公開日:2021-03-31
# 3D AffordanceNet: Visual Object Affordance Understandingのベンチマーク

3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding ( http://arxiv.org/abs/2103.16397v2 )

ライセンス: Link先を確認
Shengheng Deng, Xun Xu, Chaozheng Wu, Ke Chen, Kui Jia(参考訳) 視覚的な手がかり、すなわち、オブジェクトとのインタラクション方法を理解する能力。 視覚能力は視覚誘導型ロボット研究に欠かせない。 これには、視覚能力の分類、セグメンテーション、推論が含まれる。 2Dおよび2.5D画像領域の関連研究はこれまで行われてきたが、物価の真に機能的な理解には3D物理領域での学習と予測が必要である。 本研究では,23のセマンティックオブジェクトカテゴリから23k形状のベンチマークを行い,18の視覚的アプライアンスカテゴリをアノテートした3dアプライアンスネットデータセットを提案する。 このデータセットに基づいて、全形状、部分ビュー、回転不変価格推定を含む視覚的可視性理解を評価するための3つのベンチマークタスクを提供する。 3つの最先端のクラウドディープラーニングネットワークを,すべてのタスクで評価する。 さらに,ラベルのないデータからメリットを享受する半教師付き学習セットアップについても検討した。 コントリビューションデータセットの総合的な結果から、視覚的可視性理解は、価値はあるが挑戦的なベンチマークであることを示す。

The ability to understand the ways to interact with objects from visual cues, a.k.a. visual affordance, is essential to vision-guided robotic research. This involves categorizing, segmenting and reasoning of visual affordance. Relevant studies in 2D and 2.5D image domains have been made previously, however, a truly functional understanding of object affordance requires learning and prediction in the 3D physical domain, which is still absent in the community. In this work, we present a 3D AffordanceNet dataset, a benchmark of 23k shapes from 23 semantic object categories, annotated with 18 visual affordance categories. Based on this dataset, we provide three benchmarking tasks for evaluating visual affordance understanding, including full-shape, partial-view and rotation-invariant affordance estimations. Three state-of-the-art point cloud deep learning networks are evaluated on all tasks. In addition we also investigate a semi-supervised learning setup to explore the possibility to benefit from unlabeled data. Comprehensive results on our contributed dataset show the promise of visual affordance understanding as a valuable yet challenging benchmark.
翻訳日:2021-04-01 11:58:47 公開日:2021-03-31
# pH-RL:健康実践に強化学習をもたらすパーソナライズアーキテクチャ

pH-RL: A personalization architecture to bring reinforcement learning to health practice ( http://arxiv.org/abs/2103.15908v2 )

ライセンス: Link先を確認
Ali el Hassouni, Mark Hoogendoorn, Marketa Ciharova, Annet Kleiboer, Khadicha Amarti, Vesa Muhonen, Heleen Riper, A. E. Eiben(参考訳) 強化学習(RL)は多くの複雑な問題に対処するために選択されたアプローチであることが証明されているが、現実のシナリオでRLエージェントの開発とデプロイを成功させるのは難しい。 本稿では,pH-RL(e-Health with RL)を個人化するための一般的なRLアーキテクチャを提案する。 pH-RLは、健康アプリケーションにおける様々なレベルのパーソナライズを可能にし、オンラインおよびバッチ学習を可能にする。 さらに、様々な医療アプリケーションと統合可能な汎用的な実装フレームワークを提供する。 モバイルアプリケーションにおけるRLポリシーの展開を成功させるためのステップバイステップのガイドラインについて述べる。 われわれはオープンソースのRLアーキテクチャを実装し、メンタルヘルスのためのMoodBusterモバイルアプリケーションと統合し、オンライン治療モジュールへの日々のコンプライアンスを高めるメッセージを提供した。 その後,持続的な期間にヒトの参加者と総合的な研究を行った。 実験結果から, 開発方針は, わずか数日のデータを連続的に利用して適切な行動を選択できることが示唆された。 さらに,本研究における学習方針の安定性を実証的に示す。

While reinforcement learning (RL) has proven to be the approach of choice for tackling many complex problems, it remains challenging to develop and deploy RL agents in real-life scenarios successfully. This paper presents pH-RL (personalization in e-Health with RL) a general RL architecture for personalization to bring RL to health practice. pH-RL allows for various levels of personalization in health applications and allows for online and batch learning. Furthermore, we provide a general-purpose implementation framework that can be integrated with various healthcare applications. We describe a step-by-step guideline for the successful deployment of RL policies in a mobile application. We implemented our open-source RL architecture and integrated it with the MoodBuster mobile application for mental health to provide messages to increase daily adherence to the online therapeutic modules. We then performed a comprehensive study with human participants over a sustained period. Our experimental results show that the developed policies learn to select appropriate actions consistently using only a few days' worth of data. Furthermore, we empirically demonstrate the stability of the learned policies during the study.
翻訳日:2021-04-01 11:58:33 公開日:2021-03-31
# パッチストッチングによる点雲の高速かつ正確な正規推定

Fast and Accurate Normal Estimation for Point Cloud via Patch Stitching ( http://arxiv.org/abs/2103.16066v2 )

ライセンス: Link先を確認
Jun Zhou, Wei Jin, Mingjie Wang, Xiuping Liu, Zhiyang Li and Zhaobin Liu(参考訳) 本稿では,非構造点雲に対するマルチパッチ縫合を用いた効果的な正規推定法を提案する。 学習に基づくアプローチの大部分は、モデル全体の各点に局所パッチを符号化し、正規値をポイントバイポイントで見積もる。 対照的に,より効率的なパイプラインを提案し,重複するパッチの処理にパッチレベルの正規推定アーキテクチャを導入する。 さらに、重みに基づく多正規選択法(multi-patch stitching)は、重複するパッチから正規値を統合する。 パッチのシャープコーナーやノイズの悪影響を低減するため,異方性近傍に焦点を合わせるために適応的な局所的特徴集約層を導入する。 次に,マルチブランチ平面エキスパートモジュールを用いて,パッチの下位部分面間の相互影響を破る。 縫合段階では,多枝平面専門家の学習重量と点間距離重量を用いて,重なり合う部分から最適な正規点を選択する。 さらに,ループ繰り返しの大規模検索オーバーヘッドを劇的に低減するために,スパース行列表現を構築した。 提案手法は,計算コストの低減と,既存手法よりも高ロバスト性,高ロバスト性を生かして,SOTA結果が得られることを示す。

This paper presents an effective normal estimation method adopting multi-patch stitching for an unstructured point cloud. The majority of learning-based approaches encode a local patch around each point of a whole model and estimate the normals in a point-by-point manner. In contrast, we suggest a more efficient pipeline, in which we introduce a patch-level normal estimation architecture to process a series of overlapping patches. Additionally, a multi-normal selection method based on weights, dubbed as multi-patch stitching, integrates the normals from the overlapping patches. To reduce the adverse effects of sharp corners or noise in a patch, we introduce an adaptive local feature aggregation layer to focus on an anisotropic neighborhood. We then utilize a multi-branch planar experts module to break the mutual influence between underlying piecewise surfaces in a patch. At the stitching stage, we use the learned weights of multi-branch planar experts and distance weights between points to select the best normal from the overlapping parts. Furthermore, we put forward constructing a sparse matrix representation to reduce large-scale retrieval overheads for the loop iterations dramatically. Extensive experiments demonstrate that our method achieves SOTA results with the advantage of lower computational costs and higher robustness to noise over most of the existing approaches.
翻訳日:2021-04-01 11:58:17 公開日:2021-03-31
# GateKeeper-GPU:ショートリードマッピングにおける高速かつ高精度な事前アライメントフィルタ

GateKeeper-GPU: Fast and Accurate Pre-Alignment Filtering in Short Read Mapping ( http://arxiv.org/abs/2103.14978v2 )

ライセンス: Link先を確認
Z\"ulal Bing\"ol, Mohammed Alser, Onur Mutlu, Ozcan Ozturk, Can Alkan(参考訳) ショートリードマッピングの最終段階において、参照ゲノム上の読み取りの候補位置を検証し、シーケンスアライメントアルゴリズムを用いて対応する参照セグメントとの差を計算する。 近似文字列マッチング技術は伝統的に2次時間と空間の複雑さを持つ動的プログラミングアルゴリズムを継承するので、2つのシーケンス間の類似性や相違の計算は依然として計算コストがかかる。 高速かつ高精度な事前調整フィルタであるgatekeeper-gpuを導入することで,コストのかかるシーケンスアライメントを効率的に削減できる。 第一に、gatekeeper(最先端の軽量事前調整フィルタ)のフィルタリング精度の向上、第二に、最新のgpuの多数のgpuスレッドが提供する大規模な並列性を利用して、多数のシーケンスペアを迅速かつ同時的に検査する。 GateKeeper-GPUはシーケンスアライメントを最大2.9倍に高速化し、包括的な読み取りマッパー(mrFAST)のエンドツーエンド実行時間に最大1.4倍のスピードアップを提供する。 GateKeeper-GPUはhttps://github.com/B ilkentCompGen/GateKe eper-GPUで利用可能

At the last step of short read mapping, the candidate locations of the reads on the reference genome are verified to compute their differences from the corresponding reference segments using sequence alignment algorithms. Calculating the similarities and differences between two sequences is still computationally expensive since approximate string matching techniques traditionally inherit dynamic programming algorithms with quadratic time and space complexity. We introduce GateKeeper-GPU, a fast and accurate pre-alignment filter that efficiently reduces the need for expensive sequence alignment. GateKeeper-GPU provides two main contributions: first, improving the filtering accuracy of GateKeeper(state-of- the-art lightweight pre-alignment filter), second, exploiting the massive parallelism provided by the large number of GPU threads of modern GPUs to examine numerous sequence pairs rapidly and concurrently. GateKeeper-GPU accelerates the sequence alignment by up to 2.9x and provides up to 1.4x speedup to the end-to-end execution time of a comprehensive read mapper (mrFAST). GateKeeper-GPU is available at https://github.com/B ilkentCompGen/GateKe eper-GPU
翻訳日:2021-04-01 11:57:55 公開日:2021-03-31